UNIVERSIDAD NACIONAL DE SAN LUIS FACULTAD DE CIENCIAS HUMANAS DOCUMENTO DE CIRCULACIÓN INTERNA ALGUNAS ИOCIONES DE ΣSTADÍSTICA FABRICIO PENNA & SILVIA HUARTE MMIX (v. 4.2.4) Págin@ 2 ÍNDICE 1. Introducción..........3 2. Estadística y Probabilidad..........6 2.1- Algunos Conceptos Previos..........8 2.2- Definiciones de Probabilidad..........8 2.3- Ley de los Grandes Números..........9 2.4- Distribución Normal: principales características..........11 3. Estadística Descriptiva..........14 3.1- Universo, Población y Muestra..........14 3.1a Tamaño de la Población..........15 3.1b Tamaño de la Muestra..........15 3.2- Factores y Niveles de Medición..........17 3.3- Distribución Empírica..........21 3.4- Presentación de Datos: Tabla de Frecuencias..........23 3.5- Representaciones gráficas de las distribuciones empíricas: Histograma y Polígono de frecuencias relativas acumuladas..........25 4. Estimadores descriptivos de una distribución empírica..........26 4.1- Fractiles: Cuartiles, Deciles y Percentiles o Centiles..........27 4.2- Medidas de Tendencia Central: Media Aritmética, Mediana y Moda ó Modo..........27 4.3- Medidas de Dispersión: Rango ó recorrido, Semi Rango, Varianza, Desviación Estándar, MAD y Coeficiente de Variación..........29 4.4- Coeficiente de Asimetría o Sesgo..........30 4.5- Coeficiente de Aplanamiento o Curtosis..........33 5. Regresión lineal simple..........34 5.1- Método de mínimos cuadrados..........35 5.2- Líneas de regresión..........37 5.3- Limitaciones del método..........38 5.4- Relaciones no lineales: Transformaciones..........39 6. Análisis de Correlación..........41 6.1- Coeficiente de Correlación “producto–momento” de Pearson (rxy)..........41 6.2- Calculo del Coeficiente rxy sin dispersograma..........43 6.3- Coeficiente de Determinación (R2)..........45 6.4- Prueba de “Ji” cuadrado (χ2)..........46 6.4a Clasificación..........46 6.4b Tablas de contingencia..........46 6.4c Cálculo de χ2..........47 6.4d Corrección de Yates..........47 7. Nociones de Estadística Sanitaria..........48 7.1- Demografía..........48 7.2- Censo..........48 8. Anexo 1: Simbología utilizada..........50 9. Anexo 2: Tabla de Distribución χ2..........51 10. Anexo 3: Tabla de Distribución Normal Estandarizada.......... 52 11. Bibliografía Consultada..........53 Fabricio Penna & Silvia Huarte Págin@ 3 1. INTRODUCCIÓN Para mí, no es un científico aquel que se vale de herramientas y métodos “científicos”, ni el que de alguna manera aprendió a usarlos. Pongo dentro de la categoría a quienes poseen verdaderamente una “mentalidad científica”. ALBERT EINSTEIN Es un hecho bien conocido que para incrementar los conocimientos que se tienen sobre el mundo es necesario emplear cada vez más los métodos y las inferencias estadísticas. Para realizar investigaciones, en casi todas las disciplinas se requieren ciertos rudimentos de estadística. Sin embargo, debido a la amplitud y profundidad de la temática, es conveniente seleccionar el campo de conocimiento y los métodos pertinentes según sea la finalidad que se persigue. Existen varias definiciones de estadística: se la define como la ciencia que trata los problemas que comprenden variaciones casuales, resultantes de un sinnúmero de influencias pequeñas e independientes que operan en cada resultado medido que se obtiene; asimismo, se dice que es la ciencia de la toma de decisiones a partir de datos, de manera que la confiabilidad de las conclusiones con base en éstos se valora mediante la probabilidad. De modo más general, la estadística es una ciencia que comprende la recopilación, tabulación, análisis e interpretación de los datos cuantitativos y cualitativos; este proceso incluye determinar los atributos o cualidades reales, al igual que realizar estimaciones y verificar hipótesis mediante las cuales se determinan valores probables o esperados. Otra definición, siguiendo a M.G. Kendall (The Statistical Aproach, 1950), establece que la estadística es un método general, un lenguaje común referido a conjuntos y sus relaciones, que sirve para obtener conclusiones probabilísticas de poblaciones conocidas, con la increíble capacidad −por su carácter genérico− de traspasar la frontera de las diferentes ciencias. El carácter genérico unido a la preocupación por formalizar la validez de los resultados, es aquello que sitúa a la estadística en la intersección con el resto de las ciencias y le da un carácter insustituible de “instrumento” del método científico. Una de las discusiones interesantes la propone M.G. Kendall (op.cit.) distinguiendo entre matemática y estadística como: la ciencia de la “certeza” y la ciencia de la “incertidumbre” respectivamente. Caracterizando a la estadística como una ciencia que busca establecer los límites de la incertidumbre y no más como una rama de la matemática. También B. Russell (Human Knowledge – Its Scope and Limits, 1977), referido a la inferencia estadística, agrega que ésta difiere de la lógica deductiva y la matemática ya que cuando las premisas son verdaderas y el razonamiento es correcto, la conclusión es solo probable. Fabricio Penna & Silvia Huarte Págin@ 4 Podemos agregar, a modo de ejemplo, que a pesar de cierta “similitud” con la matemática difiere de ésta de la siguiente manera: en matemática pura, los valores son exactos, esto es, una variable tiene un valor particular (la probabilidad de que así ocurra es igual a la unidad, dado que estamos seguros de ello), o bien, no lo tiene (la probabilidad en este caso, es cero, ya que estamos seguros ahora de que la variable no tiene –o no toma– tal valor). Sin embargo, en estadística, la variable puede asumir infinitos valores posibles y existe una probabilidad definida de que adquiera tales valores. Dicha probabilidad puede comprender cualquier valor entre 0 y 1. Mediante la estadística se intenta definir y controlar el grado de incertidumbre que surge de la inevitable variabilidad de los datos. La estadística se enfrenta a dos tipos básicos de problemas: los descriptivos y los inferenciales. Los primeros se refieren a la presentación de conjuntos de observaciones, de manera tal que se puedan comprender e interpretar. Las características numéricas empleadas (o índices) para describir los conjuntos reciben el nombre de estadísticos. Los problemas inferenciales son los que comprenden generalizaciones inductivas, esto es: a partir de una muestra puesta a prueba en la realidad, los resultados obtenidos son “llevados” hasta el grupo del cual se obtuvo la misma. La inferencia estadística permite conseguir la máxima cantidad de información exacta de una prueba dada, en otras palabras, el empleo de valores estadísticos hace más eficientes las pruebas. En las ciencias, como en la investigación experimental, el empleo de estadísticos casi siempre es necesario cuando se efectúan pruebas rutinarias de laboratorio, al igual que en trabajos de investigación. En una investigación experimental, quizá se quiera saber si las pruebas son “precisas”, o si la variabilidad de los resultados es mayor que lo esperado, o mayor que en cualquiera otra prueba. En la investigación de ciertos productos, tal vez se desearía conocer si un cambio en los ingredientes afecta las propiedades del mismo; comparar la eficacia de los procesos o la eficiencia de un ensayo; determinar si los resultados se adaptan a una forma supuesta o postulada; o bien, idear un experimento que permita considerar la variación debida a diversas causas. Esto último también se requiere en la producción, dado que el conocimiento de la variación en las observaciones, causada por un cierto factor, nos capacita para saber si, por términos económicos, es conveniente controlar más estrechamente este factor. Además, quizá se desee averiguar la probabilidad de obtener un resultado por encima o por debajo de cierto valor; verificar si la producción ha sufrido alteraciones que modifiquen esta probabilidad; determinar la proporción de elementos que presentan cierto atributo o cualidad; o saber qué tamaño de muestra es necesario emplear con el fin de que las conclusiones posean una confiabilidad específica. Fabricio Penna & Silvia Huarte Págin@ 5 Existen dos tipos básicos de variables que resultan de interés para nuestro estudio: las variables continuas, las cuales difieren en cifras infinitesimales, y las variables discretas que sólo pueden tener valores específicos (enteros), pero no intermedios entre ellos. Tales conceptos deben ser ya conocidos, pues pertenecen a las matemáticas básicas y son útiles, dado que ambos tipos de variables, por lo regular, siguen diferentes distribuciones o leyes de comportamiento. El término distribución se refiere a la frecuencia con la que se presentan diversos valores observados. Dichos “diversos valores” pueden obtenerse de dos maneras. Se puede medir varias veces una cierta propiedad, por ejemplo, la dimensión de un objeto particular. Dados los errores de medición que se cometen, no siempre se obtendrán exactamente los mismos valores. El segundo caso ocurre cuando se presentan factores que deban tener una cierta propiedad en común, por ejemplo, la misma dimensión. Como por lo general se presentan variaciones, al igual que errores de medición, los valores registrados también varían. En ambos casos, si se realizan algunas observaciones, se obtienen resultados que difieren entre sí, y una de las principales funciones de la estadística es evaluar la información de este tipo, de modo que se pueda estimar el “mejor” valor de la cantidad sometida a medición y determinar la precisión del cálculo. La distribución de las variables discretas es de interés principalmente en el caso de problemas en los que intervengan objetos que posean o no una cierta característica: ser de color determinado o no, con defectos o sin ellos, presentar o no una característica superior a un valor esperado, etc. Es pertinente mencionar que a fin de llevar a cabo un análisis estadístico, las variables discretas y las continuas no están separadas entre sí de manera inevitable. Si los valores de una variable que está distribuida continuamente se agrupan en intervalos y después se les da un tratamiento en grupos, el problema se convierte, en esencia, en uno de tipo de “variables discretas”. Por el contrario, cuando una de estas últimas variables está constituida por una gran cantidad de clases y se la determina muchas veces, su distribución se aproxima a la de una “variable continua” y a menudo resulta conveniente emplear dicha aproximación. En el análisis estadístico se denomina variable estadística a la magnitud que varía, y puede ser la variable original o una cantidad derivada de ella como la media de muestras, su desviación estándar o su varianza, etc. En múltiples problemas de tipo práctico es imposible probar u observar la totalidad de los elementos que intervienen (los cuales constituyen una población o un universo) y, por consiguiente, es necesario recurrir al muestreo. Así pues, se miden o consideran las propiedades de una muestra con el objeto de estimar las características de todos los elementos (población) de los cuales se extrajo la muestra. La inferencia a partir de muestras es de gran valor en muchos campos, y va Fabricio Penna & Silvia Huarte Págin@ 6 desde comprobar si un embarque de mercancías cumple con las especificaciones, hasta predecir los resultados de unas elecciones. Las experiencias obtenidas de este último tipo de problemas nos hace percatar de que no sólo es conveniente tomar la muestra representativa de la población subyacente, sino también de que la conclusión a la que lleguemos es sólo probablemente correcta, pues no se puede tener una certeza total con base en el muestreo. Esto se debe a que varían entre sí las muestras extraídas de la población o grupo de elementos, y la variación es propia de todos los fenómenos naturales. Por este motivo, la inferencia estadística se presenta en términos de enunciados de probabilidad. Mediante un programa adecuado se puede obtener mayor información de un cierto trabajo experimental que si se llevaran a cabo pruebas al azar o por simple casualidad, y sólo después se emplearía la estadística. Por ello, debemos considerar a esta ciencia no sólo como un instrumento útil para la interpretación de resultados experimentales, sino como parte integrante del diseño de experimentos. 2. ESTADÍSTICA y PROBABILIDAD De lo anterior se deduce que los sujetos de estudio de la estadística y la probabilidad están fundamentalmente relacionados entre sí. En tanto que la estadística se interesa en gran medida en deducir conclusiones a partir de muestras alteradas por variaciones aleatorias o incertidumbres, sólo mediante la teoría de la probabilidad se pueden definir o expresar, así como controlar, tales incertidumbres en los resultados. Se dice que las variaciones son al azar (o aleatorias) cuando no presentan un determinado patrón de conducta o regularidad. La relación entre una muestra y la población puede servir para dilucidar la diferencia existente entre la estadística y la probabilidad. Tal relación plantea dos problemas generales: la verificación de una hipótesis estadística y la estimación de uno o varios parámetros característicos de la población. En el primer caso nos interesa saber si a partir de los ensayos o pruebas se puede concluir que una muestra observada pertenece a una población particular (la hipótesis) o si no es posible servirse de ella para llegar a tal conclusión. Dadas las inherentes variaciones casuales existentes en una muestra, no se puede tener una completa seguridad acerca de nuestra conclusión y, por consiguiente, debemos vincularla a un enunciado probabilístico. Al considerar el problema de la estimación, se intenta evaluar uno o varios parámetros de la población mediante “buenos” estimadores muestrales; una vez más, debido a la variación inherente de una muestra a otra, es imposible estar seguro de que el cálculo es correcto, de ahí que deba asignarse una “banda” de probabilidad. Tal banda proporcionará un grado de confianza específi- Fabricio Penna & Silvia Huarte Págin@ 7 co acerca del hecho de que el valor verdadero del parámetro de población caiga dentro de los límites de confianza. En determinados problemas es posible establecer una clara diferencia entre estadística y probabilidad. Por ejemplo, si se conocen los parámetros de la población a partir de un registro anterior, puede deducirse la conducta del componente, o muestra, que se supone forma parte de la misma, por lo tanto, se tiene así un problema de probabilidad. Sin embargo, si un determinado parámetro (o parámetros) de la población es desconocido, y tiene que ser estimado a partir de la muestra, se tiene entonces un problema estadístico. Cabe mencionar que la teoría de la probabilidad se basa en leyes de casualidad o aleatoriedad; de ahí que, las muestras deben ser de naturaleza aleatoria. Una muestra es al azar o aleatoria cuando cada elemento de la población tiene la misma probabilidad de ser elegido para componer la muestra. Obviamente, si se habrá de juzgar la población (el todo) a partir de una muestra (la parte), esta última deberá ser tan representativa de la población como sea posible. Antes de comenzar a definir algunos conceptos, vamos a plantearnos la siguiente experiencia: “levantar, con la mano, un vaso de vidrio a un metro del suelo y luego soltarlo”, donde, para evitar especulaciones, dicha experiencia se realiza manteniendo las condiciones de gravedad de nuestro planeta y el piso es de cemento. En dicha experiencia se encuentran presentes dos “componentes”: - La primera, llamada “determinística”, es aquella que nos asegura que al soltar el vaso, éste cae al suelo (hasta el momento, nunca ocurrió lo contrario). - La segunda, llamada “probabilística”, es aquella que nos asegura que, una vez que el vaso cae al suelo, éste puede romperse o no. De la segunda “componente” es de la cual nos vamos a ocupar de acá en adelante. Podemos considerar, entonces, al Cálculo de Probabilidades como: Un área del Conocimiento que se ocupa de fenómenos aleatorios −también llamados al azar o probabilísticos− es decir, se ocupa de medir o determinar la posibilidad de que ocurra un determinado hecho o suceso. Sin detenernos demasiado en la historia, podemos decir que las Probabilidades “nacen” alrededor del siglo XVI, como un intento de responder a varias preguntas que surgían en los juegos de azar. Siendo algunos de sus máximos exponentes: el italiano Cardano (s.XVI); los franceses Pascal, Fermat (s.XVII), De Moivre (s.XVII – s.XVIII) y Laplace (s.XVIII – s.XIX); los rusos Kolmogorov y Smirnov (s.XX), entre otros. Fabricio Penna & Silvia Huarte Págin@ 8 2.1- ALGUNOS CONCEPTOS PREVIOS Espacio Muestral: es el conjunto de todos los resultados posibles de un proceso experimental u observacional y lo denotamos con la letra griega Omega mayúscula (Ω). Ejemplo 1: si se arrojan simultáneamente 3 (tres) monedas “balanceadas” o “no cargadas” [definiendo K = Cara y Z = Cruz], los posibles resultados de dicha experiencia están dados en el siguiente conjunto: Ω = {KKK, KKZ, KZK, ZKK, ZZK, ZKZ, KZZ, ZZZ}. Punto muestral: son cada uno de los elementos que pertenecen al conjunto Ω y lo denotamos con la letra griega Omega minúscula (ω). Tomando el ejemplo 1, un punto muestral puede ser: ω = (KKZ), donde la interpretación es: “al tirar 3 monedas, la primera y segunda son caras y la tercera, cruz”. Evento: es cualquier sub−conjunto del espacio muestral Ω y los denotamos con letras mayúsculas de nuestro alfabeto: A, B, C, ..., Z. Para el ejemplo 1, el evento A puede ser: A = {KKK, KKZ, KZK, ZKK}. Dicho evento se interpreta como: “al tirar 3 monedas, A es el evento que al menos dos de ellas sean cara”. Eventos Mutuamente Excluyentes: se dice que dos eventos A y B, pertenecientes al espacio muestral Ω, son mutuamente excluyentes si no tienen elementos en común. Siguiendo con el ejemplo 1, nuestros dos eventos mutuamente excluyentes son: A = {KKK} y B = {XXX}. 2.2- DEFINICIONES DE PROBABILIDAD Concepto Clásico de Probabilidad (Laplace) Dado el evento A ε Ω [A “pertenece” al espacio muestral Ω], la probabilidad de ocurrencia de dicho evento está dada por: P(A ) = número de resultados favorables a la ocurrencia de A número de resultados posibles (1) Nota: la primera restricción es que todos los “resultados posibles” sean igualmente probables y la segunda es que no puede aplicarse cuando el número de “resultados posibles” sea infinito. Concepto Frecuencial de Probabilidad: Si A es un evento ε Ω y fA el número de ocurrencias del evento A en N repeticiones independientes del experimento, entonces la probabilidad de ocurrencia del mencionado evento es: P ( A) = fA N (2) Cuando N crece “infinitamente” (o lo que es lo mismo decir que el número de repeticiones es muy grande). Fabricio Penna & Silvia Huarte Págin@ 9 A partir de los conceptos de probabilidad presentados anteriormente, el investigador puede asegurar que si el evento E es obtener “cruz” al arrojar una moneda (balanceada), la probabilidad de ocurrencia de dicho evento, P(E), va a ser el resultado que se obtiene al realizar el cociente entre el número de casos favorables (igual a 1, ya que la moneda tiene una sola cruz) y el número de casos posibles (igual a 2, ya que una vez arrojada la moneda, ésta puede caer de cara o de cruz); lo que nos lleva a que la P(E = obtener una cruz) = 0,5. Frente al resultado obtenido, ¿podríamos ser taxativos y afirmar que si arrojamos 10 monedas (o una moneda 10 veces), obtendremos 5 caras y 5 cruces?, o que ¿el arrojar 20 monedas, nos lleva a obtener 10 caras y 10 cruces? Como respuesta a lo recién expuesto corresponde un rotundo NO ya que, de acuerdo a lo planteado al comienzo, estamos frente a procesos probabilísticos y no determinísticos. Bien, ahora quedamos más mareados que nunca, ya que por un lado podemos gritar a viva voz que cuando arrojamos una moneda, P(obtener una cruz) = 0,5 (valor que corresponde a la mitad de la experiencia); pero al arrojar más de una moneda, estamos en condiciones de decir nada. ¿Entonces...? Quien nos va a ayudar frente a éste dilema, es una de las leyes más (o tal vez la ley más) importante del cálculo de probabilidades: la ley de los grandes números. 2.3- LEY DE LOS GRANDES NÚMEROS Como se vio, el concepto de Laplace sirve para calcular probabilidades frente a experimentos ideales en los cuales se da por sentado que los resultados son equiprobables, sin embargo en la realidad esto no es así; pero, ésta ley afirma que la frecuencia relativa de un evento, cuando el número de experiencias se hace muy grande (tiende a infinito), se estabiliza en torno a un valor que es la probabilidad del evento, P(E). También se conoce como ley fundamental del azar. Los gráficos siguientes, realizados a partir de un proceso de simulación, nos muestran la probabilidad de aparición de una cruz a medida que aumentan las tiradas de una moneda (balanceada): Fabricio Penna & Silvia Huarte Págin@ 10 Gráfico 1: 10 tiradas de una moneda Gráfico 2: 50 tiradas de una moneda Gráfico 3: 100 tiradas de una moneda Gráfico 4: 250 tiradas de una moneda Gráfico 5: 500 tiradas de una moneda Gráfico 6: 1000 tiradas de una moneda Como podemos notar en los gráficos precedentes, y de acuerdo a lo establecido por la Ley de los Grandes Números, dado el evento E = aparición de una cruz al arrojar una moneda, P(E) recién comienza a estabilizarse alrededor de 0,50 cuando el número de repeticiones supera las 250 (Gráfico 4), es decir que P(E = aparición de una cruz) = 0,50 para un número grande de repeticiones. Concepto de Probabilidad (según Kolmogorov) Sea Ω un espacio muestral y sean los eventos A1, A2, ..., Ak ε Ω ⇒ se cumplen los siguientes axiomas: a) Axioma de certeza: P(Ω) = 1 [la probabilidad de ocurrencia del espacio muestral Ω, vale 1]. Fabricio Penna & Silvia Huarte Págin@ 11 b) Axioma de positividad: P(A) ≥ 0 [la probabilidad de ocurrencia de un evento A ε Ω, es siempre mayor o igual a cero]. c) Axioma Suma de Probabilidades: La probabilidad de ocurrencia de A1 o A2 o de ambos en la misma repetición, está dada por: P(A1 o A2) = P(A1 ∪ A2) = P(A1 + A2) = P(A1) + P(A2) – P(A1.A2) (3) Donde P(A1.A2) es la ocurrencia simultánea de los eventos A1 y A2 Si dichos eventos son mutuamente excluyentes ⇒ P(A1.A2) = 0, entonces la expresión (3) se reduce a: P(A1 + A2) = P(A1) + P(A2) (4) Nota: es presente axioma es generalizable para k número de eventos, A1, A2, ..., Ak. d) Axioma Producto de Probabilidades: La probabilidad de ocurrencia de A1 y A2 en forma simultánea, está dada por: P(A1 y A2) = P(A1 ∩ A2) = P(A1.A2) = P(A1).P(A2/A1) = P(A2).P(A1/A2) (5) Donde P(A2/A1) y P(A1/A2), son las probabilidades condicionadas de A2 habiendo ocurrido A1 y de A1 habiendo ocurrido A2, respectivamente. Si los eventos A1 y A2 son estadísticamente independientes, P(A2/A1) = P(A2) y P(A1/A2) = P(A1). Entonces la expresión (5) se puede escribir como: P(A1.A2) = P(A1).P(A2) (6) Nota: es presente axioma es generalizable para k número de eventos, A1, A2, ..., Ak. 2.4- DISTRIBUCIÓN NORMAL: PRINCIPALES CARACTERÍSTICAS Esta función tiene gran importancia teórica tanto en problemas de tipo biológico como físicos, psicológicos, químicos, fonoaudiológicos, etc. La distribución normal (también conocida como distribución de Laplace – Gauss, campana de Gauss o, simplemente, Gaussiana), tiene su origen entre los siglos XVII y XVIII como primera aproximación al comportamiento de los errores pues, investigadores como De Moivre, Laplace y Gauss, encontraron cierta “regularidad” en los mismos. Esto motivó que, en sus comienzos, a dicha curva se conociese como “curva normal de errores”. A esta distribución se la utiliza en presencia de variables continuas tales como peso, altura, edad, CI, IMC, etc., y su expresión matemática, a partir de una variable continua x, se la define como: Fabricio Penna & Silvia Huarte Págin@ 12 1 x−µ σ − ∞ < x < ∞ − ∞ < µ < ∞ donde σ > 0 e ≅ 2,71 π ≅ 3,1415 2 − 1 f (x ) = e 2 σ 2π (7) Siendo su representación gráfica, la siguiente: Gráfico 7: Función de Densidad Normal Densidad 0.40 0.30 99% (aprox) 0.20 95% (aprox) 0.10 68% (aprox) x 0.00 −∞ µ−3σ µ−2σ µ−σ µ µ+σ µ+2σ µ+3σ +∞ Variable x Esta curva depende, básicamente, de los parámetros µ (media aritmética o esperanza matemática) y σ2 (varianza). Por este motivo, dada una variable aleatoria X, distribuida normalmente y caracterizada por su media µ y su varianza σ2, se la puede expresar como: ( X ≈ N µ, σ 2 ) (8) Donde, algunas de sus características son las siguientes: • • • • • • • • Es una curva unimodal El valor de la moda coincide con los valores de la media y la mediana. Presenta una forma de campana Es unitaria (el área bajo la curva vale 1) Es simétrica respecto a su media µ Es asintótica respecto al eje horizontal (se aproxima sin llegar a tocarlo) Los puntos de inflexión (donde la curva cambia su concavidad) se encuentran en µ-σ y µ+σ El área, bajo la curva, comprendida en el intervalo (µ-σ, µ+σ) es aproximadamente igual a 0,68 (68%); entre (µ-2σ, µ+2σ) es aproximadamente igual a 0,95 (95%) y entre (µ-3σ, µ+3σ) es aproximadamente igual a 0,99 (99%), como vemos en el Gráfico 7. Fabricio Penna & Silvia Huarte Págin@ 13 ESTANDARIZACIÓN Como se deduce del párrafo anterior, no existe una única distribución normal, sino una familia de distribuciones con una forma común, diferenciadas por los valores de su media (µ) y su varianza (σ2). Es por eso que, si necesitáramos determinar una “porción de área” bajo la curva, tendríamos que realizar engorrosos cálculos matemáticos (integrales) para cada curva normal. Mediante la siguiente transformación, se lleva la variable original de puntajes x a puntajes z: ( ) x−µ ( ) x−µ X ≈ N µ, σ 2 ⇒ Z = X ≈ N µ, σ 2 ⇒ Z = σ2 S2 ≈ N(0, 1) , para puntajes Z de una población (9) ≈ N(0, 1) , para puntajes Z de una muestra (10) Nota: hay casos particulares en los que, trabajando con una muestra, se conoce la varianza de la población. En estos casos, es aconsejable estandarizar la variable utilizando la varianza poblacional (σ2) en lugar de la varianza muestra (S2) pues, como se sabe, la primera es exacta en cambio la segunda es aproximada. Esta propiedad resulta especialmente interesante en la práctica, ya que para una distribución N(0,1) existen tablas (ver Anexo 3) a partir de las que se pueden obtener, de modo sencillo, la probabilidad de observar un dato menor o igual a un cierto valor z, y que permitirán resolver preguntas de probabilidad acerca del comportamiento de variables de las que se sabe o se asume que siguen una distribución aproximadamente normal. De acuerdo a lo expresado por Hernández Sampieri y cols (1997), “una puntuación z nos indica la dirección y grado en que un valor individual obtenido se aleja de la media, en una escala de unidades de desviación estándar”. Frente a la transformación realizada en (9) o (10), según corresponda, la curva normal teórica se reduce a la siguiente expresión: f (z) = 1 2π e 1 − .Z2 2 Siendo su representación gráfica, la siguiente: Fabricio Penna & Silvia Huarte − ∞ < z < ∞ µ = 0 ; σ = 1 donde e ≅ 2,71 π ≅ 3,1415 (11) Págin@ 14 Densidad Gráfico 8: Función de Densidad Normal Estandarizada 0.40 0.30 0.20 0.10 0.00 -3 -2 -1 0 1 2 3 Variable z De acuerdo a la estandarización realizada, y por lo visto en la expresión (11), la media de la distribución (µ) toma el valor 0 y la varianza (σ2) el valor 1. A partir de esto, se mantienen las características presentadas para el Gráfico 7 solo que, dicha curva es simétrica respecto del valor 0 y los puntos de inflexión se encuentran en -1 y 1. 3. ESTADÍSTICA DESCRIPTIVA La estadística descriptiva resuelve la etapa de tabulación y descripción de resultados de experimentos aleatorios de la investigación estadística. Ésta se basa en el conjunto de definiciones siguientes: 3.1- UNIVERSO, POBLACIÓN Y MUESTRA Universo (U): es un grupo específico de sujetos u objetos de los que se trata de estudiar una característica particular. Por ejemplo un universo puede ser el conjunto de estudiantes universitarios inscriptos en una Facultad durante cierto semestre. Población (N): es la totalidad de valores posibles de una característica particular de un universo. Para el universo de “estudiantes universitarios”, citado anteriormente, existen varias poblaciones. Estas, por ejemplo, pueden ser: aquellos estudiantes inscriptos en una carrera determinada, el conjunto de sus estaturas, sus edades, el color de pelo, sus ingresos mensuales, el promedio de sus calificaciones, etc. Muestra (n): es un subconjunto de la población obtenido de acuerdo a una regla determinada. Por ejemplo, en el universo de estudiantes considerados, una muestra de la población de sus estaturas se puede obtener midiendo a todos los alumnos que asistan a cualquier curso de Estadística que se dé a las 10 de la mañana de un día determinado del semestre. Fabricio Penna & Silvia Huarte Págin@ 15 Por ejemplo, si arrojamos un dado (honesto) 10 veces, una posible muestra de la población de los números de las caras (que ven hacia arriba) puede ser: 3, 2, 3, 6, 1, 5, 3, 4, 6, 1. Si lo que se mide es la característica par e impar de esos números, la muestra estaría formada por los resultados: impar, par, impar, par, impar, impar, impar, par, par, impar. Obsérvese que los elementos de una muestra deben considerarse como los resultados de un experimento aleatorio obtenidos al realizar repetida e independientemente las pruebas correspondientes. Existen diferentes tipos de muestras y maneras de obtenerlas. Ahí se establecerá que el trabajo estadístico no sirve únicamente para describir la muestra, sino que también proporciona información sobre la población muestreada. 3.1a TAMAÑO DE LA POBLACIÓN Es el número de elementos que tiene una población, es decir, el número total de valores posibles que puede tener la característica particular del universo que se estudia. Por ejemplo, si el universo está formado por un dado con sus caras numeradas del 1 al 6, y se trata de ver el número de la cara que ve hacia arriba al tirar el dado, la población estará formada por el conjunto de números (1, 2, 3, 4, 5, 6), y el tamaño de la población será 6. Si en este experimento se trata de ver la característica par o impar del número resultante, el tamaño de la población será 2. En el ejemplo del universo de estudiantes universitarios, el tamaño de la población de estaturas será igual al número de alumnos inscriptos en la Facultad durante el semestre en cuestión. 3.1b TAMAÑO DE LA MUESTRA Es el número de elementos que forman la muestra. En el ejemplo del tiro de un dado, se tienen dos muestras de tamaño 10. De una muestra interesa que sea representativa de la población de donde fue obtenida. Para serlo, es necesario diseñar cuidadosamente su tamaño, de tal manera que sin contener a todos los elementos de la población, lo que daría lugar a un estudio exhaustivo de todos éstos elementos, sí sea lo suficientemente grande para contener todas las variedades de la característica que se trata de estudiar. Por el contrario, generalmente una muestra de tamaño grande ocasiona costos altos en su obtención y, por economía, conviene que ésta sea de tamaño reducido. En la parte de la Estadística llamada Diseño de Experimentos se analiza este problema, además de las maneras en que debe tomarse la muestra para asegurar su representatividad. Esquemáticamente, se podría pensar en las definiciones precedentes de la siguiente manera: Fabricio Penna & Silvia Huarte Págin@ 16 Esquema 1: Los diferentes “grupos” implicados en el proceso inferencial U N I V E R S O (U) P O B L A C I Ó N (N) → INFERENCIA ESTADÍSTICA !!! M U E S T R A (n) Esquema 2: Algunos “tipos” de muestreo MUESTREO No-aleatorio o noprobabilístico Aleatorio, probabilístico o al azar Aleatorio simple Autogenerado Intencional Accidental Estratificado Por conglomerados Sistemático Tipo “A” Tipo “B” Muestreo aleatorio, probabilístico o al azar: un muestreo se denomina aleatorio, probabilística o al azar, cuando todos los “elementos” que componen la población tienen igual probabilidad de pertenecer a la muestra. Muestreo no-aleatorio o no-probabilístico: un muestreo se denomina no-aleatorio o no-probabilístico, cuando no todos los “elementos” que componen la población tienen igual probabilidad de pertenecer a la muestra. Fabricio Penna & Silvia Huarte Págin@ 17 3.2- FACTORES Y NIVELES DE MEDICIÓN Factor: es cualquier elemento o aspecto (característica) identificable y distinto, dentro de una situación, que puede observarse independientemente del contexto del que forma parte. Tabla 1: Tipos de Factores o Variables FACTORES FORMA DE PRESENTACIÓN Dicotómicos (presentan dos categorías observacionales) Variables cualitativas o Atributos (no poseen magnitud) Politómicos (presentan más de dos categorías observacionales) Discretas (varían en unidades enteras infinitas numerables) Variables cuantitativas (poseen magnitud) Continuas (varían en un continuo de valores infinitos no numerables) Al momento de investigar, podemos estar en presencia de factores con bajo nivel de abstracción (simples) o con alto nivel de abstracción (complejos). Cualquier análisis, frente a los primeros, es relativamente sencillo; ahora, si queremos analizar factores complejos (también llamados constructos), la forma de análisis es operacionalizando dicho factor. Proceso de operacionalización de una variable: Al proceso de llevar una variable de un nivel abstracto a un plano más concreto se le denomina “operacionalización”, y su función básica es precisar al máximo el significado que se le otorga a una variable en un determinado estudio. “Operacionalizar” las variables significa explicar cómo se miden. A este proceso algunos autores le llaman construcción de variables, justificando que se da toda una elaboración de conceptos, definiciones e indicadores. Definir y operacionalizar las variables es una de las tareas más difíciles del proceso de investigación; sin embargo, es un momento de gran importancia pues tendrá repercusiones en todos los momentos siguientes, razón por la que debe prestársele mucha atención. La operacionalización de las variables, es decir el proceso de señalar cómo se tomarán las medidas empíricas, no es un procedimiento exclusivamente técnico, carente de teoría. Sin la teoría, la descripción, y por lo tanto la técnica misma, no tienen sentido. En algunos casos las variables que aparecen enunciadas en los objetivos y en el marco teórico no ofrecen mayor dificultad en cuanto a su descripción, definición y medición. Por ejemplo, edad, ingreso, años de escolaridad, número de hijos. Estas son variables simples, cuya comprensión es más fácil. Sin embargo, es frecuente que se incluyan variables de mayor complejidad que tienen que ser definidas claramente para entender su significado y para llegara su medición. Ejemplos de este tipo de variables serían: marginación socioeconómica, trato humanizado al paciente, saFabricio Penna & Silvia Huarte Págin@ 18 tisfacción con un programa educativo, accesibilidad a los servicios de salud, calidad de la atención brindada. Es evidente que cada persona tendría una conceptualización diferente de lo que es el significado de estos términos o características y que si tratamos de hacer la medición de estas variables antes de haberlas conceptualizado y definido claramente, al final tendríamos información poco válida y poco confiable. Tal como se mencionó anteriormente, los conceptos en los cuales se interesa el investigador deben ser traducidos en fenómenos observables y medibles. Previo al planteamiento del proceso de operacionalización de variables, se hace necesario discutir acerca de su conceptualización. Según Namakforoosh (en Pineda y cols, 1994), los conceptos son abstracciones que representan fenómenos empíricos y para pasar de la etapa conceptual de la investigación a la etapa empírica, los conceptos se convierten en variables. Goode y Hatt (en Pineda y cols, 1994) plantean que los conceptos representan el sistema teórico de cualquier ciencia y son símbolos de los fenómenos que se estudian. Además, indican que son construcciones lógicas, creadas a partir de impresiones de los sentidos, de percepciones, e incluso de experiencias bastante complejas y que no son fenómenos en sí; es decir estas construcciones lógicas no existen fuera del marco de referencia establecido. También podemos agregar que un concepto es el “pensamiento acerca de las propiedades esenciales de un objeto que lo hacen semejante o distinto de otro objeto”, Expresa, de esta forma, la suma del conocimiento científico en un momento del saber. Estas definiciones sobre concepto, aún cuando plantean diferentes enfoques, tienen algunos elementos en común, como el hecho de que un concepto es general y abstracto, no siendo posible la observación y medición de los fenómenos involucrados. Por ello, es necesario llegar a la operacionalización de las variables, lo que se traduce en el establecimiento de significado para los términos del estudio y en la estipulación de operaciones o situaciones observables, en virtud de lo cual algo quedará ubicado en determinada categoría de la variable y no en otra. Dicha operacionalización se logra a través de un proceso que transforma una variable en otras que tengan el mismo significado y que sean susceptibles de la medición empírica. Para lograrlo, las variables se descomponen en otras más específicas llamadas dimensiones. A su vez, es necesario traducir estas dimensiones a indicadores para permitir la observación directa. Algunas veces, como se mencionó anteriormente, la variable puede ser operacionalizada mediante un solo indicador, como es el caso de la edad, la que puede ser definida en forma operativa por Fabricio Penna & Silvia Huarte Págin@ 19 medio de un solo indicador que sería el número de años cumplidos. En otros casos es necesario hacerla a través de un conjunto de indicadores, como sería el caso de marginalidad, accesibilidad y tantas otras variables. Para facilitar la comprensión del proceso de operacionalización de variables se puede analizar el esquema presentado a continuación: Esquema 3: Proceso de operacionalización de variables Concepto - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -. Variable teórica Definición conceptual Dimensiones Definición operacional de cada dimensión Indicadores - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Variable empírica En el siguiente esquema se presenta un ejemplo de la operacionalización o construcción de una variable compleja como es la accesibilidad a los servicios de salud. Esta figura muestra como de una variable abstracta que puede ser interpretada en forma muy diferente por distintas personas, se pasa a tener una variable definida que permite la medición empírica, o sea que cada persona puede hacer la medición observando aspectos concretos tales como el tiempo medido en horas y minutos o la cantidad de dinero disponible. Esquema 4: Ejemplo de operacionalización de variables Variables Definición conceptual Dimensiones (Variables contenidas en la definición conceptual) Accesibilidad geográfica Mayor o menor posibilidad de Accesibilidad a los tomar contacto con los serviservicios de salud cios de salud para recibir asistencia Accesibilidad económica Accesibilidad cultural Fabricio Penna & Silvia Huarte Indicadores Definición operacional Tiempo medido en horas y minutos que tarda una persona para trasladarse de su domicilio al centro de salud. Cantidad de dinero que gasta para recibir la atención. Disponibilidad económica para cubrir ese gasto. Conocimientos sobre la atención que se da en el centro de salud. Percepción del problema de salud. Págin@ 20 Definición operacional de una variable: es reducir el nivel de abstracción a través de diferentes definiciones, para encontrar aquella que especifique elementos de la realidad, indicadores o referentes empíricos; dicho proceso de operacionalización, requiere tres tipos de definición: 1. Definición connotativa: tiene un elevado nivel de abstracción, señala las características esenciales, aquellas que expresan la naturaleza de lo que simboliza la variable. 2. Definición real: enumera componentes o dimensiones relevantes y concretas de la variable. El nivel de abstracción es menor que el anterior. 3. Definición operacional: intenta indicar los indicadores empíricos de los componentes anteriores. Definición de medición: hay varias definiciones de medición pero, en éste curso, vamos a utilizar aquella dada por Stevens (1951): “La medición es la asignación de números a objetos o sucesos según reglas”. Tabla 2: Niveles de Medición Niveles de medición NOMINAL ORDINAL INTERVALAR MÉTRICO o de RAZÓN Operaciones empíricas Equivalencia Equivalencia Orden Equivalencia Orden Unidad de medida común y constante Cero “arbitrario” Equivalencia Orden Unidad de medida común y constante Cero “absoluto o natural” Operaciones matemáticas A=B A=B A<BoA>B A=B A<BoA>B A– B=C–D A=B A<BoA>B A–B=C–D A/B=C/D • Nominal: puede reemplazar al nombre con un número, no supone magnitud ni orden, se aplica a variables cualitativas (o atributos). • Ordinal: el número indica el orden, supone la existencia de magnitud y de orden, se aplica a variables. • Intervalar: posee magnitud, supone unidad de medida común y constante, el “cero” (o punto de origen) es arbitrario y no indica ausencia del factor. • Métrico o de Razón: posee magnitud, supone unidad de medida común y constante, el “cero” es natural o absoluto e indica ausencia de factor. Tabla 3: Relación existente entre variables y niveles de medición NIVELES DE MEDICIÓN VARIABLES Dicotómicas Politómicas Discretas CUANTITATIVAS Continuas CUALITATIVAS Fabricio Penna & Silvia Huarte NOMINAL ORDINAL INTERVALAR MÉTRICO Si Si No No No No Si Si No No Si Si No No Si Si Págin@ 21 A modo de ejemplo, vamos a analizar las siguientes variables determinando el tipo de variable y el nivel de medición: a. Factor: Clases de respuestas infantiles al miedo • • Definición teórica: distintas conductas que un niño expresa ante una situación amenazante. Definición operacional: se trató de identificar las respuestas según la clasificación de conductas verbales, fisiológicas o motoras. b. Factor: Destreza manual • • Definición teórica: capacidad del sujeto para realizar una tarea con precisión. Definición operacional: evaluada mediante un test estandarizado donde cada ítem mide el mismo monto de factor. Se registraban los movimientos bien controlados de brazo y mano en la manipulación de objetos. c. Factor: Clasificación de documentos • • Definición teórica: amplia gama de registros escritos y simbólicos, así como cualquier material y datos disponibles. Definición operacional: pueden clasificarse según: su material (visuales o audiovisuales), el contenido (hechos reales o de ficción), la intencionalidad con que se hayan producido (públicos o privados). d. Factor: Tipos de entrevistas • • Definición teórica: técnica de recolección de información. Definición operacional: clasificadas en: estructuradas; formal o con cuestionario, semiestructurada (sin cuestionario), no estructurada, cara a cara, telefónica, mediante tecnologías informáticas, individual, en panel, en grupo. e. Factor: Cantidad de Instituciones médicas • • f. Definición teórica: locales habitables destinados a la atención de la salud de la población. Definición operacional: número de institutos habilitados en cada provincia para enfermos. Factor: Medios de comunicación • • Definición teórica: fenómeno de comunicación de masas. Medios de comunicación personal, colectivo o en masa. Definición operacional: incluye la prensa escrita, la radio, el teléfono, la propaganda, la televisión, el cine, el vídeo, como así también otros medios audiovisuales o escritos. 3.3- DISTRIBUCIÓN EMPÍRICA Se llama distribución empírica de frecuencias de la variable aleatoria x, al conjunto de pares (xi, fi*), donde i = 1, 2, 3, ..., n. Cabe decir que, como en el caso de la distribución de probabilidad, una distribución empírica describe completamente a la muestra de donde fue obtenida, ya que los valores de xi dan los valores observados de la característica de la población en la muestra, y sus correspondientes frecuencias relativas fi* proporcionan la forma como se presentan esos resultados. Fabricio Penna & Silvia Huarte Págin@ 22 Supóngase que se tienen los n elementos de una muestra obtenida de una población, y que en ésta hay: f1 resultados idénticos a x1 f2 resultados idénticos a x2 f3 resultados idénticos a x3 ···· ···· fk resultados idénticos a xk donde: k ∑f i =1 i = f1 + f 2 + L + f k = n (12) y x1, x2, x3, . . . , xk son k valores numéricos asociados a los eventos observados al realizar el experimento aleatorio que define la muestra, es decir, son valores observados de una variable aleatoria x asociada a la población y los números f1, f2, f3, . . . , fk se llaman frecuencias de ocurrencia de los valores x1, x2, x3, . . . , xk, respectivamente. El cociente de una frecuencia fi entre el total de observaciones n (tamaño de la muestra), se llama la frecuencia relativa de ocurrencia del valor xi correspondiente. Representando la frecuencia relativa de con fi*, se tiene que: f i* = fi ; i = 1, 2, ..., k n (13) Obsérvese el paralelismo entre los conceptos de frecuencia relativa y de probabilidad clásica. De la expresión (13) se obtienen de inmediato las condiciones que un conjunto de números tienen que cumplir para que sean frecuencias relativas de los valores de una muestra. Estas son: 0 ≤ f i* ≤ 1 k ∑f i =1 * i (14) =1 Se llama frecuencia relativa acumulada de un valor xi, a la suma de frecuencias relativas de todos los valores menores o iguales al valor xi considerado. Si Fi es la frecuencia relativa acumulada de xi, se tiene: i Fi = ∑ f j* = 1, i = 1, 2, ..., k (15) j=1 Para el ejemplo del tiro de un dado, en donde se trata de ver el número de la cara que queda hacia arriba, la distribución empírica es: xi fi* Fabricio Penna & Silvia Huarte 1 0,2 2 0,1 3 0,3 4 0,1 5 0,1 6 0,2 Págin@ 23 Si se considera una variable aleatoria que tome el valor cero cuando el resultado del tiro del dado es par, y el valor uno cuando es impar, la distribución empírica de esta variable es: xi fi* 0 0,4 1 0,6 Para las mismas muestras consideradas del tiro de un dado, las distribuciones de frecuencias relativas acumuladas, es decir, el conjunto de pares (xi, Fi) son, respectivamente, las siguientes: xi Fi 1 0,2 2 0,3 3 0,6 4 0,7 xi Fi 0 0,4 1 1,0 5 0,8 6 1,0 y Las distribuciones empíricas de frecuencias y de frecuencias relativas acumuladas tienen las representaciones gráficas que se verán más adelante. 3.4- PRESENTACIÓN DE DATOS: TABLA DE FRECUENCIAS Tabla 4: Muestra de estaturas (en cm) de estudiantes universitarios. 165 168 153 185 166 164 184 158 180 176 161 170 172 167 169 173 169 179 163 184 179 177 165 157 186 166 180 173 175 179 187 181 163 179 165 165 163 178 167 169 173 175 174 155 168 172 170 180 162 154 179 174 184 177 165 164 168 176 178 176 171 169 170 167 185 175 165 173 178 168 177 170 169 161 168 162 176 180 168 155 168 169 164 177 162 168 176 175 178 169 172 169 158 171 173 181 180 168 172 170 Considérese la muestra de tamaño 100, de estaturas de estudiantes universitarios mostrada en la Tabla 4. Debido al número de datos y la variabilidad de los mismos, poca información se podrá deducir de la muestra si se forma una tabla con las distribuciones empíricas de frecuencias y de frecuencias relativas acumuladas. Entonces, cuando el tamaño n de la muestra es grande, conviene agrupar los datos de la muestra de alguna manera que sea menos confusa y permita establecer patrones de los valores observados. Para resolver este problema, conviene condensar los datos tabulando las frecuencias asociadas a ciertos intervalos de los valores observados. Estos intervalos se llaman intervalos de clase, los que deben estar definidos por límites que permitan identificar plenamente si un dato particular pertenece a uno u otro intervalo de clase. Comúnmente se resuelve lo anterior haciendo que los limites de los intervalos de clase tengan una cifra decimal más que los datos originales, o usando adecuadamente los signos de igualdad y desigualdad en la definición de cada uno de los interva- Fabricio Penna & Silvia Huarte Págin@ 24 los de clase. En la práctica se ha visto que es conveniente que el número de intervalos de clase sea de 5 a 15 y que en cada intervalo caigan, por lo menos, 5 observaciones. De la Tabla 4 se ve que la observación mayor en la muestra de estaturas de estudiantes universitarios es 187 cm y, la observación menor, de 153 cm. La diferencia entre estas dos observaciones, 187 − 153 = 34, indica que en un rango de 34 cm están todas las estaturas de los estudiantes muestreados. Si se consideran 7 intervalos de clase, la amplitud de cada uno de ellos será del orden de 34/7 ≅ 5 cm. De esta manera, y haciendo que la observación menor caiga en el primer intervalo de clase y la mayor en el último, los intervalos de clase pueden ser (153; 157), (158; 162), ..., (183; 187) donde cada intervalo representa estaturas observadas. Los puntos medios de los intervalos de clase (calculados como el “promedio” entre el límite inferior y el superior de cada intervalo) reciben el nombre de marcas de clase, y son representativos del conjunto de observaciones que caen en el intervalo de clase correspondiente. Para los intervalos de clase de la muestra de estaturas determinadas, las marcas de clase son 155, 160, ..., 185. El arreglo en una tabla de los intervalos de clase, marcas de clase, frecuencias, frecuencias relativas y frecuencias relativas acumuladas, se conoce con el nombre de tabla de frecuencias. Condensados los datos de una muestra en una tabla de frecuencias, el conjunto de pares (ti, fi), en donde ti es la marca de clase, representa la distribución empírica de la muestra, y a través de ella podrá obtenerse mayor información de la misma muestra que de los datos dispersos. Ejemplo 2: Dada la Tabla 4 con los datos observados en una muestra de tamaño 100 de las estaturas de los estudiantes universitarios, construir una tabla de frecuencias. De dicha tabla se obtiene: - Observación máxima (xmax) = 187 - Observación mínima (xmin) = 153 - Rango o recorrido = xmax – xmin = 187 – 153 = 34 - Número de intervalos de clase = 7 - Amplitud de los intervalos de clase = 34/7 ≅ 5 - Primer intervalo de clase (contiene al 153 y sus limites tienen un decimal) = 152,5 a 157,5. Con la información anterior se construye la tabla de frecuencias que aparece en la Tabla 5. De esta se puede comenzar a deducir información valiosa sobre la muestra estudiada. Por ejemplo, de aquí se obtiene que el 28% de los estudiantes muestreados tienen una estatura de 167,5 a 172,5 cm; que el 77% de los estudiantes tienen una estatura menor a 177,5 cm; que es muy remoto encontrar estudiantes con estatura superior a 187,5 cm; etc. Fabricio Penna & Silvia Huarte Págin@ 25 Tabla 5: Tabla de frecuencias de la muestra de estaturas de estudiantes universitarios Intervalo de Clase Marca de clase (ti) Conteo de frecuencias 152,5 – 157,5 157,5 – 162,5 162,5 – 167,5 167,5 – 172,5 172,5 – 177,5 177,5 – 182,5 182,5 – 187,5 155 160 165 170 175 180 185 IIIII IIIIIII IIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIIIIII IIIIIIIIIIIIIIII IIIIIII Frecuencia absoluta (fi) 5 7 17 28 20 16 7 Frecuencia Relativa (fi*) 0,05 0,07 0,17 0,28 0,20 0,16 0,07 Frecuencia Relativa Acumulada (Fi) 0,05 0,12 0,29 0,57 0,77 0,93 1,00 3.5- REPRESENTACIONES GRÁFICAS DE LAS DISTRIBUCIONES EMPÍRICAS: HISTOGRAMA POLÍGONO DE FRECUENCIAS RELATIVAS ACUMULADAS Y En forma semejante a los polígonos de probabilidad y de probabilidad acumulada, existen representaciones gráficas de las distribuciones empíricas. Éstos son histograma y polígono de frecuencias acumuladas. Histograma: Es una representación gráfica de la distribución empírica en un sistema de ejes coordenados ortogonales de referencia. En el eje de las abscisas se sitúan las marcas de clase, y en el de las ordenadas las frecuencias o las frecuencias relativas. La representación se basa en rectángulos de igual base al intervalo de clase y de altura la frecuencia o frecuencia relativa correspondiente. Dependiendo de que se grafiquen las frecuencias o las frecuencias relativas, el histograma se llama de frecuencias o frecuencias relativas, respectivamente. En el Gráfico 9 se tiene el histograma de frecuencias relativas de la muestra de estaturas de los estudiantes universitarios. Los datos para construirlo se tomaron de la Tabla 2. En el mismo Gráfico se han unido los puntos sucesivos (ti, fi*) por medio de segmentos de rectas; a este trazo se le llama el polígono de frecuencias relativas de la distribución empírica. Gráfico 9: Histograma de frecuencias relativas correspondiente a la estatura (en cm) de una muestra de 100 alumnos. Fabricio Penna & Silvia Huarte Págin@ 26 Polígono de frecuencias relativas acumuladas: el polígono de frecuencias relativas acumuladas, también llamado ojiva, es una representación poligonal abierta de las frecuencias relativas acumuladas en un sistema de ejes coordenados ortogonales de referencia. En el eje de las abscisas se sitúan los valores de los límites de los intervalos de clase, y en el de las ordenadas las frecuencias relativas acumuladas de los mismos valores. En el Gráfico 10 se tiene el polígono de frecuencias relativas acumuladas de la misma muestra de estaturas de los estudiantes universitarios. También se construyó tomando los datos de la Tabla 5 Gráfico 10: Polígono de frecuencias relativas acumuladas de estaturas (en cm) de la muestra de estudiantes. 4. ESTIMADORES DESCRIPTIVOS DE UNA DISTRIBUCIÓN EMPÍRICA Como en las distribuciones teóricas de probabilidad, en las distribuciones empíricas existen diferentes estimadores que resumen una gran cantidad de información sobre las muestras. A estos estimadores los clasificaremos en fractiles, medidas de tendencia central (MTC), medidas de dispersión (MD), coeficiente de asimetría o sesgo y coeficiente de aplanamiento o curtosis. Dentro de las MTC veremos: la media aritmética, la mediana y la moda; las MD que estudiaremos serán: el rango o recorrido, el semi rango, la MAD, la desviación estándar y el coeficiente de variación. En general, las MTC representan valores promedios o medidas de posición de los datos de la muestra. Las MD miden el grado de concentración o variabilidad de los datos. Por otro lado y, como sus nombres lo indican, los coeficientes de asimetría y de aplanamiento establecen criterios para comparar el histograma de la muestra con respecto a ciertas normas. Fabricio Penna & Silvia Huarte Págin@ 27 4.1- FRACTILES: CUARTILES, DECILES Y PERCENTILES O CENTILES Los cuartiles (Q), deciles (D) y percentiles o centiles (P) son estimadores descriptivos de una distribución empírica. Estos establecen la localización de diversos valores que dividen a la muestra en grupos de acuerdo a las frecuencias de las observaciones. Los valores de los diferentes Q (Q1, Q2 y Q3), D (D1, D2, ..., D9) y P (P1, P2, ..., P99) se pueden estimar gráficamente del polígono de frecuencias relativas acumuladas, siendo el cálculo de los fractiles de orden (es decir, la posición de los fractiles) los siguientes: (Q i )O = i× n + 0,5 ; 4 (D i )O = i× (Pi )O n + 0,5 ; 10 = i× n + 0,5 100 (16) En un polígono de frecuencias relativas acumuladas, la abscisa de cualquier punto del polígono se llama el fractil, y la ordenada correspondiente la fracción, la que se maneja en forma porcentual. Esta representa precisamente la fracción de la totalidad de datos que tienen un valor menor o igual al del fractil correspondiente. Para referirse a un fractil en particular, se le asocia la fracción al cual corresponde. Por ejemplo, en el Gráfico 10 se ha trazado el fractil 70, cuyo valor es 175,75; lo que significa que el 70% de los estudiantes medidos tienen una estatura menor o igual a 175,75 cm. Estas medidas, llamadas también “medidas de posición”, pueden ser calculadas tanto para atributos como para variables. Algunos fractiles tienen nombres particulares. Así, a modo de ejemplo, el fractil 1 se llama percentil 1 (P1), el fractil 2 se llama percentil 2 (P2), etc.; al fractil 10 se conoce como decil 1 (D1), el fractil 20 es el decil 2 (D2), etc. Los fractiles 25, 50 y 75 se los denomina también como primero, segundo y tercer cuartil (Q1, Q2 y Q3), respectivamente. Al fractil 50 se lo conoce como mediana y, como puede verse en el Gráfico 10, es un valor tal que la mitad (50%) de los datos son menores o iguales que ella, y la otra mitad (50%) mayores o iguales que la misma. 4.2- MEDIDAS DE TENDENCIA CENTRAL: MEDIA ARITMÉTICA, MEDIANA Y MODA O MODO Media aritmética ( X ): La media aritmética es el más común y representativo de los estimadores descriptivos de tendencia central y se define como el promedio aritmético de todos los datos de la muestra. De acuerdo a lo dicho anteriormente, si x1, x2, x3, . . . ,xn son valores observados de la variable aleatoria x correspondientes a una muestra de tamaño n obtenida de una población, la media, representada por X , es: n x + x 2 + L + xk X = 1 = n Fabricio Penna & Silvia Huarte ∑x i =1 n i (17) Págin@ 28 Características: Es sensible al valor exacto de todos los datos de la distribución y a la presencia de valores extremos; la suma de las desviaciones con respecto a la media es cero; la suma de los cuadrados de las desviaciones respecto a la media es mínima y es calculable para variables con nivel de medición intervalar o métrico. ~ Mediana ( X ): La mediana (trazada en el Gráfico 10) es un valor tal que la mitad de las observa- ciones son menores que ese valor y la otra mitad mayores que el mismo. Su valor puede determinarse ordenando los datos de la muestra de menor a mayor (o viceversa) y tomando el elemento central cuando exista (n impar), caso contrario (n par) se toma como mediana al promedio de los dos valores centrales [en general consideraremos el valor ubicado en la “posición” (n+1)/2, pudiendo ser observable o no]. En el caso de la muestra del tiro de un dado, las observaciones ordenadas son: 1, 1, 2, 3, 3, 3, 4, 5, 6, 6, por lo que su mediana es (3+3)/2 = 3. Características: A pesar de no ser la medida más representativa, la podemos considerar más “robusta” pues no se ve afectada por los valores extremos que componen la distribución; es calculable para variables con nivel de medición ordinal, intervalar o métrico. La podemos considerar como un fractil “encubierto” es decir, la mediana toma igual valor que el cuartil 2 (Q2), el decil 5 (D5) y el percentil 50 (P50). Moda ó Modo ( X̂ ): La moda (o modo) de una muestra es la observación que se presenta con mayor frecuencia; por lo tanto, es el valor más descriptivo de la muestra. Desde luego que la moda puede ser única o tener varios valores, opacando un poco su propiedad de descripción. En la muestra del tiro de un dado formada por los números 3, 2, 3, 6, 1, 5, 3, 4, 6, 1, obviamente la moda es única y vale 3. Características: Al igual que la mediana, no se ve afectada por valores extremos que pueden contener la variable bajo estudio; es una medida de fácil localización, siendo la más típica de toda la distribución, dado que se halla localizada en el punto de máxima concentración; si nos encontrarnos con distribuciones bimodales o multimodales, su propiedad de localización se ve “opacada” y esto podría considerarse como su mayor desventaja. Se puede calcular tanto en variables cualitativas (o atributos) como cuantitativas, para cualquier nivel de medición. Cuando el histograma, de una distribución empírica, es casi simétrico (y unimodal), se puede estimar el valor de la moda a partir de la relación que existe entre ella, la media aritmética y la mediana. Se ha encontrado que en distribuciones empíricas moderadamente asimétricas, la distancia entre la media y la mediana es un tercio de la distancia entre la media y la moda, es decir, ( ) ( ~ 1 ~ X − X = X − X̂ ⇒ X̂ = X − 3 X − X 3 Fabricio Penna & Silvia Huarte ) (18) Págin@ 29 Nota: tanto los fractiles como las MTC definidas anteriormente, siempre toman valores contenidos entre el mínimo (xmin) y el máximo (xmax) valor de la distribución. 4.3- MEDIDAS DE DISPERSIÓN: RANGO O RECORRIDO, SEMI RANGO, VARIANZA, DESVIACIÓN ESTÁNDAR, MAD Y COEFICIENTE DE VARIACIÓN Rango o recorrido (R): es la medida de dispersión más simple. Fue usada en la construcción de la tabla de frecuencias en el Ejemplo 2 y se define como la diferencia entre la mayor y la menor observaciones de la muestra. Si xmax es la observación de mayor valor y xmin el valor de la observación mínima, el rango se calcula como: R = xmax − xmin (19) Para la muestra del tiro de un dado que se ha venido analizando, las observaciones máxima y mínima son xmax = 6 y xmin = 1, respectivamente. Por lo tanto, el rango de la muestra será 6-1= 5. Semi Rango (SR): SR = x max + x min 2 (20) Las MD anteriores, son útiles cuando interesa tener una rápida aproximación de la dispersión en distribuciones casi simétricas. Sin embargo, son poco utilizadas pues no consideran la información contenida en los términos intermedios. Varianza (s2): Es la medida de dispersión más conocida y de mayor utilidad. Se define como el “promedio” de los cuadrados de las desviaciones de las observaciones con respecto a su valor medio. Si x1, x2, x3,..., xn son los valores observados de la variable aleatoria x correspondientes a una muestra de tamaño n obtenida de una población, y X es la media de la muestra entonces la varianza, representada por s2, es: ∑ (x n s2 = i =1 − X) 2 i n −1 (21) Desviación Estándar (s ó DE): Como en el caso de la desviación estándar de variables aleatorias con distribución de probabilidad conocida, la desviación estándar de la muestra de define como la raíz cuadrada de la varianza: DE = s = s 2 (22) Mediana de las desviaciones absolutas respecto de la mediana (MAD): Esta medida de dispersión es la mediana de los valores absolutos de las diferencias entre los valores de la muestra (x1, Fabricio Penna & Silvia Huarte Págin@ 30 x2, x3,..., xn) y la mediana de todos los datos. Es de gran utilidad cuando el nivel de medición de los datos es ordinal o bien, cuando la distribución se ve afectada por valores extremos. Su expresión es la siguiente: ( ~ ~ ~ MAD = Mediana x1 − X , x2 − X , L, xn − X ) (23) Nota: Cuanto más pequeña es la MAD, más concentrados respecto a la mediana están los datos. Coeficiente de Variación (CV): En las distribuciones empíricas se define este coeficiente como la razón entre la desviación estándar y el valor absoluto de la media de la muestra, multiplicado por 100. Esta razón nos puede indicar, en primer lugar que cuanto más próximo a cero es CV, más representativa será la media del grupo, y por el otro, como es un número adimensional, me permite comparar la representatividad de las medias en distribuciones con distintas unidades. CV = s × 100 X (24) Nota: en general, si el CV < 20%, podemos decir que la media del grupo es representativa. Retomando las características de los niveles de medición, presentados en Tabla 2, los estadísticos a ser utilizados son los siguientes: Tabla 6: Estadísticos “apropiados”, de acuerdo al nivel de medición del factor Niveles de medición NOMINAL ORDINAL INTERVALAR MÉTRICO o de RAZÓN Estadísticos apropiados Moda Fractiles, moda, mediana, MAD Fractiles, moda, mediana, media, rango, semi rango, MAD, desviación estándar, varianza, coeficiente de variación Fractiles, moda, mediana, media, rango, semi rango, MAD, desviación estándar, varianza, coeficiente de variación 4.4- COEFICIENTE DE ASIMETRÍA O SESGO Se dice que una distribución empírica es simétrica, cuando su histograma tiene un eje vertical de simetría. En este caso, la media, mediana y moda coinciden con ese eje de simetría. En una distribución empírica asimétrica, los valores de la media, mediana y moda son diferentes entre sí. En este caso, la moda subsiste en el rectángulo más alto del histograma, ya que no se ve afectada por las observaciones poco frecuentes que distorsionan la simetría del histograma. La posición de la mediana estará algo “alejada” de la moda, en la dirección de los valores inusuales, dividiendo en dos partes el área del histograma. Como la media es la que se ve más afectada por los valores extremos, quedará localizada más lejos de la moda en la misma dirección de los valores poco frecuentes. Fabricio Penna & Silvia Huarte Págin@ 31 Lo anterior se representa en los otros casos del Gráfico 11, donde se ha llamado asimetría positiva o derecha al caso de tener datos poco frecuentes a la derecha de la moda que hagan que se prolongue el histograma en esa dirección, y asimetría negativa o izquierda al caso contrario. De lo anterior puede establecerse que una medida de la asimetría de una distribución empírica puede ser la diferencia entre la media y la moda, ya que a mayor asimetría le corresponde una mayor diferencia. Dado que la medida de la asimetría se utiliza principalmente con fines comparativos, conviene que la propuesta sea adimensional, y que los valores grandes de la media sean debidos a gran asimetría y no a gran dispersión de los datos. Para resolver lo anterior, se dividirá la diferencia de la media y la moda entre la desviación estándar de la muestra. A este cociente se le llama el primer coeficiente de asimetría de Pearson; vale cero cuando la distribución es simétrica y diferente de cero cuando es asimétrica, dando directamente el sentido positivo o negativo de la asimetría según el signo. Coeficiente de asimetría de Pearson = As = X − X̂ s (25) En el caso de distribuciones moderadamente sesgadas, existe una relación aproximada entre los diversos estadísticos: ( ~ X − X̂ = 3 X − X ) (26) Es interesante destacar que en el caso de las distribuciones asimétricas, con cúspide muy aguda, la mediana constituye −a menudo− una útil MTC. Si reemplazamos la ecuación (26) en la (25), obtenemos que: ( ~ 3X−X Coeficiente de asimetría de Pearson = As = s Fabricio Penna & Silvia Huarte ) (27) Págin@ 32 Gráfico 11: Distribuciones de frecuencias que muestran la simetría y los tipos de asimetría Existen otras formas de medir la asimetría de una distribución empírica. Es particularmente importante la que utiliza el concepto de momento de muestra que a continuación se establece: Se llama momento de orden r con respecto a la media de una muestra de valores x1, x2, x3, ..., xn de media X a: ∑ (x n mr = i =1 − X) r i n (28) Una medida de la asimetría de una distribución empírica, llamada el coeficiente momento de asimetría, está dada por el tercer momento con respecto a la media expresado en forma adimensional. Esta es: a3 = m3 (m 2 )3 (29) Donde m3 es el tercer momento de la muestra con respecto a la media y m2 el segundo, o sea, la varianza. Este coeficiente también vale cero cuando la distribución empírica es perfectamente simétrica. Fabricio Penna & Silvia Huarte Págin@ 33 4.5- COEFICIENTE DE APLANAMIENTO O CURTOSIS El histograma de una distribución empírica puede tener la tendencia general de la gráfica de la distribución normal, ser más estrecha y alta que esa tendencia, o más ancha y baja que la misma. A una distribución empírica cuyo histograma siga la tendencia de la gráfica de la distribución normal se dice que es mesocúrtica, si es más alta y estrecha que ésta es leptocúrtica, y si es más ancha y baja se le llama platicúrtica. En el Gráfico 12 se muestran distribuciones correspondientes a los tres tipos de aplanamiento mencionados. El grado de aplanamiento de una distribución empírica se llama curtosis y se mide a través del cuarto momento con respecto a la media expresado en forma adimensional. La medida de aplanamiento, llamada coeficiente momento de curtosis, está definida por: K = a4 = m4 m 22 (30) Cuando K=3 ⇒ la distribución es mesocúrtica, si K>3 ⇒ la distribución es leptocúrtica y si K<3 ⇒ la distribución es platicúrtica. Gráfico 12: Distribuciones de frecuencias que muestran los tipos de aplanamiento Ejemplo 3: la siguiente tabla presenta las estaturas de 100 estudiantes universitarios, determinar: • • • • • • • La tabla de distribución de frecuencias (básica) de la variable en estudio El histograma de frecuencias relativas y el polígono de frecuencias relativas acumuladas La media, la mediana y la moda La desviación estándar y el CV Los cuartiles Q1, Q2 y Q3. Si la distribución empírica es o no simétrica Cuál es el grado de aplanamiento de la distribución empírica Fabricio Penna & Silvia Huarte Págin@ 34 Tabla 7: Muestra de estaturas (en cm) de estudiantes universitarios 165 168 153 185 166 164 184 158 180 176 161 170 172 167 169 173 169 179 163 184 179 177 165 157 186 166 180 173 175 179 187 181 163 179 165 165 163 178 167 169 173 175 174 155 168 172 170 180 162 154 179 174 184 177 165 164 168 176 178 176 171 169 170 167 185 175 165 173 178 168 177 170 169 161 168 162 176 180 168 155 168 169 164 177 162 168 176 175 178 169 172 169 158 171 173 181 180 168 172 170 ¿Cómo interpretaría los resultados obtenidos? Ejemplo 4: consideremos para el presente ejemplo que la Tabla 7 nos da, en lugar de estaturas, número de errores ortográficos cometidos por 100 alumnos en distintos trabajos de investigación. Utilice los indicadores que crea convenientes, incluyendo la confección de una tabla de frecuencias y un gráfico, para dar cuenta del comportamiento de dicho factor (a nivel colectivo). ¿Cómo interpretaría los resultados obtenidos? 5. REGRESIÓN LINEAL SIMPLE En muchos problemas hay dos o más variables relacionadas, y es necesario explorar la naturaleza de esta relación. El análisis de regresión es una técnica estadística para modelar e investigar la relación entre dos o más variables. Por ejemplo, en un proceso químico, supóngase que el rendimiento de un producto se relaciona con la temperatura de operación del proceso. El análisis de regresión puede emplearse para construir un modelo que exprese el rendimiento como una función de la temperatura. Este modelo puede utilizarse luego para predecir el rendimiento en un nivel determinado de temperatura. También podría emplearse con propósitos de optimización o control del proceso. En general, supóngase que hay una sola variable respuesta y dependiente que se relaciona con k variables independientes o regresoras, digamos x1, x2, ..., xk. La variable respuesta y es una variable aleatoria, en tanto que las variables regresoras x1, x2, ..., xk se miden con error despreciable. Las xj se llaman variables matemáticas y con frecuencia son controladas por el experimentador. El análisis de regresión también puede utilizarse en situaciones en las que y, x1, x2, ..., xk son variables aleatorias distribuidas conjuntamente, tal como en el caso cuando los datos se recaban como mediciones diferentes en una unidad experimental común. La relación entre estas variables se caracteriza por medio de un modelo matemático llamado ecuación de regresión. De modo más preciso, hablamos de la regresión de y en x1, x2, ..., xk. Este modelo de regresión se ajusta a un conjunto de datos. En algunas situaciones, el experimentador conocerá la forma exacta de la relación función verdadera entre y y x1, x2 , ..., xk, por ejemplo, y = f(x1, x2, ..., xk). Sin embargo, Fabricio Penna & Silvia Huarte Págin@ 35 en la mayor parte de los casos, la verdadera relación funcional se desconoce y el experimentador elegirá una función apropiada para aproximar f(∗). Un modelo polinómico suele emplearse como la función de aproximación. En trabajos elementales a menudo se establecen relaciones mediante la determinación de los valores de las variables en un cierto número de puntos igual al número total de variables. Por ejemplo, si se postula una relación lineal y = a + bx, dos pares de valores (x1, y1) y (x2, y2) determinan las constantes en la ecuación. Esto resulta satisfactorio, tomando en cuenta que las cantidades observadas no presentan ningún error. En la práctica, hay errores en nuestras observaciones, y si se realizan algunas más, digamos (x3, y3), es posible obtener un punto que no se ajusta de manera exacta a la línea recta que pasa por los dos puntos originales. Desde luego, esto también se aplica a las curvas que comprenden potencias de x e y. Los métodos estadísticos permiten ajustar la “mejor” línea a una serie de datos dada, en lugar de simplemente trazar una línea “a ojo”. Nuestro principal interés radica en el estudio de la relación existente entre dos variables, más que en la estimación de una variable a partir de la otra. 5.1- MÉTODO DE MÍNIMOS CUADRADOS El principio en el que se basa el ajuste de la “mejor” línea es el de mínimos cuadrados, y establece que si y es una función lineal de una variable independiente x, la posición más probable de una recta y = a + bx es tal que la suma de los cuadrados de las desviaciones de todos los puntos (xi, yi) respecto de la línea es un mínimo; las desviaciones se miden en la dirección del eje y. Cabe destacar que el supuesto considerado consiste en que x está libre de errores (es la asignada), o bien, está sujeta sólo a errores insignificantes, en tanto que y es la cantidad observada o medida, sujeta a errores que deben ser “eliminados” por el método de mínimos cuadrados. La y observada es pues un valor aleatorio a partir de la población de valores de y que corresponden a una x dada. Dicha situación existe en los experimentos controlados, donde se tiene interés en obtener un valor medio de yi para cada valor dado de xi. Supongamos que nuestras observaciones constan de n pares de valores: x 1 , x 2 , ..., x n y1 , y 2 , ..., y n (31) e imaginemos que los diversos pares se representan como puntos según se muestra en el Gráfico 13. Supongamos además que, debido a la naturaleza física de la relación entre x e y, se sabe que Fabricio Penna & Silvia Huarte Págin@ 36 la relación es lineal, o bien, se espera o sospecha que lo es. Por consiguiente, se expresa la relación como: Ŷ = a + bX (32) Nuestro problema consiste en encontrar los valores de a y b para el caso de la línea de “mejor ajuste”. Gráfico 13: Obtención de la recta de regresión lineal por el método de mínimos cuadrados En lo referente a un punto i en esta línea: y i − (a + bx i ) = 0 pero si se presenta un error en la medición, habrá un residuo ei tal que y i − (a + bx i ) = e i Con n observaciones, se tienen n ecuaciones: y1 − (a + bx 1 ) = e1 y 2 − (a + bx 2 ) = e 2 y 3 − (a + bx 3 ) = e 3 (33) .......................... y n − (a + bx n ) = e n El Gráfico 13 señala que la línea que pasa por el punto (X, Y ) , esto es por el punto cuyas coordenadas son las medias adecuadas de todas las observaciones, al que podemos dar el nombre de centroide (o centro de gravedad) de todas las observaciones. A partir del hecho de que el punto (X , Y ) , se halla en la recta, se dice que la ecuación (32) puede formularse como: Ŷ − Y = b(x − X ) Fabricio Penna & Silvia Huarte (34) Págin@ 37 5.2- LÍNEAS DE REGRESIÓN Al resolver las ecuaciones normales, se obtiene: a= n n n n i =1 i =1 i =1 ∑ x i2 ∑ y i − ∑ x i ∑ x i .y i i =1 n∑ x − ∑ x i i =1 i =1 n n 2 = y − bx (35) 2 i y b= n n n i =1 i =1 i =1 2 n ∑ x i .y i − ∑ x i ∑ y i n n ∑ x i2 − ∑ x i i =1 i =1 n = S xy S 2x (36) En la práctica es más conveniente calcular a y b valiéndose de las ecuaciones (35) y (36) y emplear los valores numéricos de a y b directamente al escribir Y = a + bX. Está recta se denomina línea de regresión de y sobre x. En su obtención se supone que x es la variable asignada (es decir, sensiblemente libre de error) y que y es la cantidad observada. No obstante, si se invierten las propiedades de las variables, esto es, si y es la variable asignada y x, la cantidad observada, se calculan las constantes en la ecuación de la línea: X̂ = a '+ b' Y (37) al minimizar la suma de los cuadrados de los x residuos. La ecuación para la recta es conocida como línea de regresión de x sobre y, siendo las ecuaciones normales las siguientes: a ' = x − b' y b' = S xy S 2y (38) (39) Pero ambas líneas se cortan en el punto (X , Y ) o lo que es lo mismo [M(x), M(y)]. Un ejemplo de las dos líneas de regresión se muestra en el Gráfico 14. Debe observarse que es posible calcular la regresión cuando ambas variables están sujetas a error. Fabricio Penna & Silvia Huarte Págin@ 38 Gráfico 14: Línea de regresión (a) x sobre y, (b) y sobre x, correspondiente a una relación esfuerzo–resistencia). Nota: M(x) y M(y) son las medias aritméticas de las variables X (esfuerzo) e Y (resistencia), respectivamente. Ejemplo 5 (de www.bioestadistica.uma.es/libro/node42.htm): De una muestra de ocho observaciones conjuntas de valores de dos variables X e Y, se obtiene la siguiente información: ∑x i = 24; ∑x y i i = 64; ∑y i = 40; S 2y = 12; S 2x = 6 Calcule la recta de regresión de Y sobre X y explique el significado de los parámetros, Ejemplo 6 (de www.bioestadistica.uma.es/libro/node42.htm): En una muestra de 1500 individuos se recogen datos sobre dos medidas antropométricas X e Y. Los resultados se muestran resumidos en los siguientes estadísticos: x = 14; S x = 2; y = 100; S y = 25; S xy = 45 Obtener el modelo de regresión lineal que mejor aproxima Y en función de X. Utilizando este modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15, X=20 y X=25 5.3- LIMITACIONES DEL MÉTODO Es pertinente establecer explícitamente que el método de los mínimos cuadrados sólo se puede aplicar cuando los valores observados de yi corresponden a los valores asignados (o libres de errores) de xi; además el error en y (expresado como varianza de y) debe ser independiente del nivel de x. Para el caso de inferencias y estimaciones que se deban hacer respecto a la regresión (pero no por el método de mínimos cuadrados), también es necesario que los valores de yi que corresponden a un xi dado, estén distribuidos de manera normal, y cuya media de distribución satisfaga la ecuación de regresión. Además, la varianza de los valores de y para un valor dado de x deberá ser Fabricio Penna & Silvia Huarte Págin@ 39 independiente de la magnitud de x. En muchos problemas prácticos esto no ocurre así, y, por lo tanto, es necesario recurrir a la transformación de la ecuación, estas transformaciones comunes se realizan por medio de logaritmos, raíces cuadradas, etc. La transformación estabiliza la varianza de y, y hace que las distribuciones estén más próximas a lo normal. 5.4- RELACIONES NO-LINEALES: TRANSFORMACIONES El método de ajuste de la línea de regresión puede extenderse al caso en el que la relación conocida, esperada o sospechada no se encuentra en la forma de una línea recta. El procedimiento consiste en formular la ecuación a la curva en su forma general, tabular las desviaciones de y a partir de la curva supuesta, y obtener las constantes en la ecuación que satisfaga la condición de que la suma de los cuadrados de las desviaciones es un mínimo. Transformaciones: la aplicación del método de los mínimos cuadrados a las relaciones no lineales, por lo general requiere una serie considerable de cálculos. No obstante, en muchos casos, una relación no lineal puede “transformarse” en una relación lineal. Eso no sólo simplifica el manejo de los datos, sino que también da lugar a una presentación gráfica más reveladora en lo que a la evaluación de la dispersión se refiere. La extrapolación, si esto se justifica (y a menudo no lo hace), también resulta más sencilla, al igual que el cálculo de los diversos valores estadísticos, como la desviación estándar o los límites de confianza. Claramente, los valores estadísticos calculados para variables “transformadas” se aplican a ellos y no a los datos originales. A continuación se ilustrarán algunos casos simples: • La función exponencial y=abx puede “transformarse” mediante la transformación logarítmica, esto es, obteniendo los logaritmos de ambos miembros de la ecuación: Log y = log a + x log b (40) Esto se representará como una línea recta si las ordenadas dan como resultado log y (es decir, están a una escala logarítmica), en tanto que las abscisas están a una escala lineal, log a y log b son las constantes de ajuste de la ecuación. De modo que log y y x son tratadas como variables nuevas (y lineales) a las cuales se aplica el principio de mínimos cuadrados. • La función de potencia y=axb puede “transformarse” aun de manera más simple, una vez más tomando logaritmos: Log y = log a + b log x (41) Las constantes de ajuste son ahora log a y b, y las nuevas variables log x y log y están relacionadas linealmente. Fabricio Penna & Silvia Huarte Págin@ 40 • La hipérbola y=a+b/x se puede “transformarse” tratando 1/x=u como la nueva variable. Por lo tanto, y y u se relacionan en forma lineal. Si la ecuación es de la forma: y= x a + bx ⇒ 1 a = +b y x (42) En consecuencia, 1/x y 1/y se relacionan en forma lineal. Alternativamente, se pueden multiplicar ambos miembros de la ecuación anterior por x, obteniendo así: x = a + bx (43) y Por lo tanto, se grafica x/y respecto a x. La elección depende de la naturaleza del caso considerado. • La función polinomial y=a+bx+cx2 es cóncava hacia arriba o hacia abajo, dependiendo del signo del coeficiente “c”. Se diferencian ambos miembros de la ecuación con respecto a x: dy = b + 2cx dx Una relación de línea recta se obtiene graficando dx/dy respecto de x. (44) Si no se dispone de información anticipada acerca de la forma de la curva que se ajusta a los datos experimentales, se requerirá de métodos de ensayo−error. Como primer paso, se deben graficar los datos usando las coordenadas lineales x e y, luego se dibujará una curva lisa, y se elegirá una función susceptible de ajuste a partir del conocimiento de las formas de las curvas que corresponden a funciones algebraicas simples. Es importante destacar que cuando se emplea la transformación, la desviación minimizada no se encuentra en y, sino en la variable transformada. Cabe recordar que al sacar conclusiones a partir de un experimento, como ocurre en algunos casos, la diferencia puede ser significativa. Si se tiene una razón para creer que a partir de consideraciones físicas de un experimento, es la variable original y no la transformada la que debe reducir al mínimo su desviación, entonces la variable transformada debe ponderarse en proporción inversa de alguna función del error de la variable original. A menudo, la ponderación se considera como proporcional a 1/(error)2. Si el ajuste de la línea recta se lleva a cabo “a ojo”, el error estándar de cada punto que representa una media de un conjunto de observaciones se puede indicar por una barra, y, por tanto, se dibuja la curva de modo que cuanto menor sea el error asociado a un punto dado, mayor será la probabilidad del paso de la recta por el citado punto. Desde luego, esto a menudo se realiza intuitivamente cuando se tienen razones para creer que las lecturas a, digamos, temperaturas bajas son menos confiables (es decir, tienen una menor ponderación) que a altas temperaturas, en el ejemplo del proceso químico. Fabricio Penna & Silvia Huarte Págin@ 41 6. ANÁLISIS DE CORRELACIÓN Con frecuencia tenemos curiosidad acerca de si dos variables están relacionadas; y si lo están, sobre la intensidad de la relación. Por ejemplo, ¿la hipoacusia está relacionada con la edad?, ¿el tamaño de un grupo está asociado con la obtención de las metas?, ¿la fluidez al hablar está relacionada con el tamaño del vocabulario?, ¿están relacionados el diámetro craneal y el C.I.?, ¿hay una correlación entre la habilidad musical y la inteligencia? Para responder preguntas como éstas, se necesitan medidas de relación o correlación. La mayoría de las personas tiene una idea general de la correlación. Dos variables, X e Y, están correlacionadas si tienden a “ir juntas”. Podemos describir verbalmente el grado de asociación entre variables mediante descripciones verbales como fuerte, bajo, positivo, negativo o moderado, pero esos términos carecen de precisión. Una cuantificación del grado de correlación entre dos variables es necesaria para maximizar precisión y objetividad. 6.1- COEFICIENTE DE CORRELACIÓN “PRODUCTO–MOMENTO” DE PEARSON (rxy) El coeficiente de correlación, denotado por rxy, puede ser calculado cuando los dos factores son variables continuas, con un nivel de medición intervalar o métrico, siendo los supuestos los siguientes: a. Linealidad: la relación entre las dos variables tiene que ser lineal. b. Homocedasticidad (homogeneidad de varianzas): las varianzas de los grupos tienen que ser homogéneas. c. Normalidad: las muestras deben provenir de poblaciones distribuidas normalmente. Nota: De no cumplirse uno (o algunos) de los supuestos antes mencionados, no se puede aplicar el Coeficiente de Correlación “producto–momento” de Pearson. La fórmula de cálculo es la siguiente: rxy = n n n n.∑ x i y i − ∑ x i ∑ y i i =1 i =1 i =1 2 2 n n 2 n n n.∑ x − ∑ x . n.∑ y 2 − ∑ y i i i i i =1 i =1 i =1 i =1 = S XY S X .S Y (45) Siendo las características principales del coeficiente rxy, las siguientes: i. Es un número adimensional (sin unidades). ii. Su valor no puede superar +1 ni ser inferior a –1, es decir: –1 ≤ rxy ≤ +1. iii. Si el signo es (+), significa que las dos variables estudiadas tienden a variar en el mismo sentido, o sea, que si se incrementa el valor de una de ellas, aumenta el de la otra. Si el signo es (-), quiere decir que las características varían en sentido contrario, o sea, que si se incrementa el valor de una variable, disminuye la otra. Fabricio Penna & Silvia Huarte Págin@ 42 iv. La relación entre ambas variables es más estrecha, cuanto el valor del coeficiente de correlación se acerque a +1 ó –1; por el contrario, si rxy tiende a cero (o a un entorno próximo a cero), las mismas tienden a ser independientes. Hay que tener en cuenta que los valores no son enteramente comparables si no se considera el número de pares de datos de las muestras bivariadas. v. Si la relación es perfecta (no sucede en la práctica), rxy será igual a +1 ó –1, según sea positiva o negativa la relación; si no hay relación, rxy deberá ser cero. vi. El valor de rxy no está influido por el “tamaño” de las unidades de medida empleadas para medir las variables en estudio. Como consecuencia, si previamente a los cálculos se simplifican o redondean las cifras, rxy no variará significativamente. vii. En una muestra bicaracterizada, rxy, es una constante estadística que estima al parámetro ρxy de la población. Gráficamente: 30 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0 Gráfico 16: Correlación negativa perfecta (inversa) 30 28 26 24 23 21 19 17 15 13 11 9 8 6 4 2 0 variable 2 (y) variable 2 (y) Gráfico 15: Correlación positiva perfecta (directa) r(x, y) = 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 r(x, y) = -1 0 1 2 3 4 5 6 7 8 9 10 11 12 r(x, y) = 0,97 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 30 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 variable 2 (y) 30 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0 r(x, y) = 0,06 2 3 4 5 6 7 8 9 10 11 12 13 14 variable 1 (x) Fabricio Penna & Silvia Huarte 7 8 9 10 11 12 13 14 15 variable 1 (x) Gráfico 19: Correlación nula (variables independientes) 1 15 r(x, y) = -0,95 variable 1 (x) 0 14 Gráfico 18: Correlación negativa (inversa) variable 2 (y) variable 2 (y) Gráfico 17: Correlación positiva (directa) 30 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0 13 variable 1 (x) variable 1 (x) 15 Págin@ 43 Ejemplo 7: indicar, para la población de todas las escuelas primarias de la Ciudad, si la correlación entre las variables enunciadas a continuación, es positiva, negativa o nula: a. Estatura en cm. (X) y peso en Kg. (Y) b. Edad en meses (X) y tiempo en segundos para correr 50 metros (Y). c. Rendimiento en lectura en notas de clase (X) y rendimiento en matemática en notas de clase (Y). d. CI de los estudiantes (X) y puntuación en “ética” en los estudiantes según una escala construida por el profesor (Y). e. Rendimiento en lengua en notas de clase (X) y número de faltas al colegio durante el año (Y). Ejemplo 8: a doce alumnos de un centro de estudios se les preguntó a qué distancia (X) estaba su residencia del Instituto, con fin de estudiar si esta variable estaba relacionada con la nota media (Y) obtenida. Se obtuvieron los datos que figuran en la siguiente tabla: Distancia (en km) Nota media 0,05 8,4 0,10 4,0 0,12 5,7 0,40 9,1 0,50 6,3 0,70 6,7 1,00 4,3 1,20 5,4 2,10 7,8 2,50 4,5 3,00 7,2 3,00 8,1 Siendo algunos de los resultados parciales, los siguientes: 12 ∑x i =1 i 12 12 12 12 i =1 i =1 i =1 i =1 = 14,67 ; ∑ y i = 77,50 ; ∑ x i2 = 32,03 ; ∑ y i2 = 532,63 ; ∑ x i y i = 97,29 Realice un dispersograma de las variables X e Y, y calcule el coeficiente de regresión lineal. ¿Cómo interpretaría el resultado obtenido, en función de las variables estudiadas? 6.2- CALCULO DEL COEFICIENTE rxy SIN DISPERSOGRAMA El coeficiente de correlación de Pearson (rxy), como ya se dijo, es un índice que mide la magnitud de la relación lineal entre 2 variables cuantitativas, así como el sentido, positivo o negativo, de dicha relación. Indica en qué grado las variables X e Y fluctúan simultáneamente, es decir, cuánto aumenta X al aumentar Y (correlación positiva), o cuánto aumenta X al disminuir Y (co- rrelación negativa). A diferencia de la regresión lineal, el coeficiente de correlación no presupone dependencia de una variable respecto a la otra; X e Y se sitúan a un mismo nivel. Asimismo, la existencia de correlación lineal entre 2 variables no implica necesariamente una relación causal entre ellas, sino que se limita a explicar su covariación. Hay que insistir en que el coeficiente rxy de Pearson mide únicamente la correlación lineal, por lo que no es útil para evaluar otro tipo de correlaciones. Supongamos que la relación entre las variables X e Y es curvilínea, como muestra el Gráfico 20, a pesar de que ambas variables estén íntimamente relacionadas (existe una relación parabólica casi perfecta), al no cumplirse la condición de linealidad, el valor de rxy obtenido es pequeño. Fabricio Penna & Silvia Huarte Págin@ 44 Gráfico 20: Relación curvilínea entre dos variables El coeficiente rxy calculado en una determinada muestra es una estimación del coeficiente de correlación en la población origen de la muestra. La aplicación de una prueba estadística permite comprobar si la correlación observada en la muestra es estadísticamente significativa (existe también en la población), o si, por el contrario, puede ser debida al azar. Si el valor p resultante es inferior al nivel de significación establecido (p < 0,05), concluiremos, con un riesgo p de equivocarnos, que rxy ≠ 0 en la población (Gráfico 21). El valor de p depende del grado de correlación entre ambas variables y del tamaño de la muestra. Por tanto, debe distinguirse la significación estadística de rxy de su magnitud. De hecho, una correlación débil (rxy ≅ 0) puede ser significativa cuando la muestra es muy grande, y al contrario un valor de rxy muy elevado puede no ser estadísticamente significativo cuando la muestra es pequeña (Gráfico 22). Gráfico 21 Gráfico 22 Una condición crítica para la aplicación del coeficiente de correlación lineal de Pearson es la distribución normal de ambas variables. El incumplimiento de esta condición puede dar lugar a diversos errores. Consideremos el ejemplo del Gráfico 23. Un solo punto extremo difícilmente Fabricio Penna & Silvia Huarte Págin@ 45 compatible con una distribución normal afecta de forma importante el valor del coeficiente rxy, obteniéndose una correlación falsamente elevada. En dicho Gráfico, la correlación para el conjunto de los puntos es rxy = 0,989, mientras que, si eliminamos el punto del cuadrante superior derecho, rxy disminuye de forma notable (rxy = 0,216). El Gráfico 24 ilustra otra situación aparentemente paradójica: Gráfico 23 Gráfico 24 Donde, dicho Gráfico, nos muestra que: 1. En cada uno de los grupos de puntos, el coeficiente de correlación es negativo. 2. En el conjunto de los datos, que no se distribuyen normalmente, rxy resulta positivo. Aunque es frecuente proceder al cálculo de rxy, e incluso al estudio de su significación estadística, sin haber realizado una representación gráfica previa, el diagrama de dispersión de los puntos o scatterplot constituye sin duda un método sencillo y efectivo para detectar situaciones similares a las citadas. Muchos de los errores en la aplicación del coeficiente de correlación de Pearson pueden evitarse mediante la simple interpretación visual del scatterplot. 6.3- COEFICIENTE DE DETERMINACIÓN (R2) Una vez estimada la función de regresión es necesario calcular cuanto de la variabilidad de la variable dependiente, es explicado por el modelo utilizado. Para ello se define el coeficiente de determinación, R2. El valor de este coeficiente suele expresarse en porcentaje, para lo cual es preciso multiplicarlo por 100. Dicho coeficiente está limitado por el intervalo (0, 1), ocurriendo los valores extremos cuando: 1. El modelo utilizado explica absolutamente nada del comportamiento de la variable y como función de x ⇒ R2 = 0 Fabricio Penna & Silvia Huarte Págin@ 46 2. El modelo utilizado explica totalmente el comportamiento de y como función de x. Los puntos (x1, y1), (x2, y2), ..., (xn, yn) están perfectamente alineados sobre la recta que describe el modelo ⇒ R2 = 1 Es evidente que en la práctica no ocurren valores de R2 iguales a cero o uno; como también es evidente que cuanto más cerca de uno esté el valor calculado, es un buen indicador de una correcta elección del modelo empleado. A los fines prácticos, el coeficiente de determinación se calcula elevando al cuadrado el coeficiente de correlación producto–momento de Pearson, es decir: R2 = (rxy)2 (46) 6.4- PRUEBA “JI” CUADRADO (χ2) Es frecuentemente empleada en trabajos experimentales, donde los datos consisten en frecuencias o “cuentas”. El uso más común de la prueba es quizá como asociación, y para encontrar relaciones generales entre los fenómenos estudiados. La palabra asociación en sentido estadístico comprende una comparación. Por ejemplo, si decimos que hay “asociación” entre la inoculación y la inmunización contra alguna enfermedad, indicamos que la proporción de personas inoculadas que contraen la enfermedad es diferente de la proporción de personas no inoculadas que enferman. Desde luego, puede ser que ambas proporciones difieran, en cierta medida, debido solamente a factores causales o fortuitos del muestreo y debido a otras razones que pueden ser atribuidas al azar; pero la prueba nos permite calcular la probabilidad de si una diferencia tan grande o mayor que la obtenida pudiera provenir de dicho motivos. 6.4a CLASIFICACIÓN Normalmente es posible clasificar los miembros de una población de muchos modos: dicotómicas y politómicas, a su vez la clasificación tiene que ser exhaustiva y mutuamente excluyente. 6.4b TABLAS DE CONTINGENCIA Cuando los miembros de una muestra han sido doblemente clasificados, es decir, clasificados en dos formas, los resultados pueden colocarse en una tabla, ésta se llama tabla de contingencia o de 2 x 2 entradas (por ejemplo: hombres y mujeres; diabéticos y no diabéticos; etc.). Si las clasificaciones fueran politómicas la tabla tendría más columnas o filas. Las anotaciones en las casillas de una tabla de contingencia pueden ser frecuencias absolutas o pueden transformarse en proporciones o en porcentajes. Es importante, sin embargo, hacer notar que en cualquier forma en que sean presentados los datos serán primeramente frecuencias absolutas o cuentas, en vez de mediFabricio Penna & Silvia Huarte Págin@ 47 das continuas, pues en otra forma la prueba o ensayo de ji cuadrado (χ2) no podría ser aplicada en ellos. La prueba χ2 solo puede ser usada con datos discretos; para propósitos de la prueba, los datos continuos pueden frecuentemente disponerse en forma discreta mediante el uso de intervalos en una escala continua. 6.4c CÁLCULO DE χ2 La distribución de χ2 es quizá la siguiente distribución más conocida. Es la distribución de probabilidad de la suma de los cuadrados de un número de variables independientes, las cuales están normalmente, o casi normalmente distribuidas con las medias de desviaciones estándar y cero de la unidad. Dicha distribución de probabilidad depende del número de variables independientes, o más estrictamente del número de grados de libertad asociados con las variables. La suma de los cuadrados en cuestión se denota generalmente χ2, y cuando se manejan datos de frecuencias, se puede demostrar, siempre que las frecuencias esperadas (Ei) no sean demasiado pequeñas, que la expresión: n (Ο i − Ε i )2 i =1 Εi χ =∑ 2 (47) está distribuida aproximadamente como χ2. En esta expresión, Oi se refiere a las frecuencias observadas y Ei a las esperadas, considerando al subíndice i de 1 a n, el número de casillas de la tabla de contingencias. 6.4d CORRECCIÓN DE YATES Cuando las frecuencias esperadas son pequeñas o menos de 5, se aplica una corrección de continuidad, conocida como: Corrección de Yates, esto se hace restando 0,5 de las discrepancias positivas (Oi – Ei) y añadiendo 0,5 a las discrepancias negativas antes de que estos valores sean elevados al cuadrado. n.( ad − bc − 0,5.n) χ = ; gl = 1 (a + b )(c + d )(a + c )(b + d ) 2 2 (48) En esta ecuación las líneas verticales a cada lado de la expresión (ab-bc) significan que siempre se toma el valor absoluto de ésta, es decir: que tomamos su valor como positivo, ya sea que resulte positivo o negativo. Es conveniente aplicar la corrección de Yates en cualquier caso, ya que los valores de Ei sean o no mayores que 5, pero es esencial hacerlo así cuando el tamaño de la muestra es pequeño. Fabricio Penna & Silvia Huarte Págin@ 48 7. NOCIONES DE ESTADÍSTICA SANITARIA 7.1- DEMOGRAFÍA Parte de la estadística que trata de los habitantes de un país, según sus profesiones, edades, sexo, tasas de crecimiento, natalidad, mortalidad, etc. El estudio científico de la población y de los factores que la determinan se inició en Europa en el siglo XVII por obra de los aritméticos políticos (John Graunt, William Petty, Gregory King, etc.). En el siglo siguiente, los gobiernos de Francia, España, Suecia, Prusia, etc., al comprender la utilidad de conocer con detalle sus recursos humanos, patrocinaron los estudios demográficos y llevaron a cabo, por sí mismos, encuestas y censos, algunos de sorprendente modernidad. En el siglo XIX las posibilidades de la demografía se multiplicaron gracias a la creación del registro civil y a la realización de censos periódicos en la mayor parte de estados. Fue también en el siglo XIX cuando apareció el término demografía, utilizado por vez primera en 1855 por Archille Guillard, quien dio de ella dos definiciones; en sentido restringido, la demografía sería “el estudio de las poblaciones consideradas desde el punto de vista numérico (…), el conocimiento matemático de las poblaciones, de sus movimientos generales, de su estado físico, civil, intelectual y moral”; en sentido amplio sería “la historia natural y social de la especie humana”. Desarrollando, en cierto modo, la división esbozada por Guillard, actualmente se distingue entre demografía cuantitativa y demografía cualitativa. La demografía cuantitativa estudia la repartición geográfica de la población; su población; su distribución por edades y por sexos; las tasas de crecimiento, de natalidad, de mortalidad, de nupcialidad, de fecundidad; las migraciones, etc. La demografía cualitativa se interesa por los caracteres de los individuos (estado de salud, inteligencia, etc.) que puedan explicar las variaciones cuantitativas de la población; sus límites son poco precisos y con frecuencia roza o penetra en el terreno de otras ciencias (medicina, psicología, sociología, etc.) Hoy la demografía ha adquirido especial interés: el hombre actual trata de descubrir unas leyes de población que le permitan prever el futuro de la especie humana; para ello se vale de la informática. 7.2- CENSO Lista o padrón de la población o riqueza de un país, con fines estadísticos. Sirve para evaluar el estado de la población de un país en un momento dado, generalmente cada diez años. Aunque en la antigüedad tenía una finalidad estrictamente impositiva, hoy constituye el punto de partida para la elaboración de las políticas demográficas y sociales. El documento básico del censo es un cuestionario en el que figuran datos como el lugar de residencia, la edad, el sexo, el estado civil, Fabricio Penna & Silvia Huarte Págin@ 49 la lengua materna, el nivel de estudios y la profesión. A partir de este cuestionario, el censo indica el tamaño de la población, su distribución en el territorio y su estructura o composición. Entre las variables que pueden extraerse de los datos censales cabe mencionar la densidad de población (relación entre el número de habitantes y la superficie); la distribución por edad y sexo, que permite elaborar las denominadas pirámides de edad (representación gráfica del grado de juventud o envejecimiento de la población), y la estructura socioeconómica de la población considerada (población activa y no activa, reparto de la primera en los distintos sectores productivos, etc.). Fabricio Penna & Silvia Huarte Págin@ 50 8. ANEXO 1: SIMBOLOGÍA UTILIZADA • ∈ → pertenece • ⇒ → entonces o implica • ∪ → unión • ∩ → intersección • ≈ → se distribuye como • ∑ → sumatoria • > → mayor que • ≥ → mayor o igual que • < → menor que • ≤ → menor o igual que Fabricio Penna & Silvia Huarte Págin@ 51 9. ANEXO 2: TABLA DE DISTRIBUCIÓN χ2 Nivel de significación gl 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Nivel de significación 0,100 0,050 0,025 0,010 0,005 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,088 40,256 41,422 42,585 43,745 44,903 46,059 47,212 48,363 49,513 50,660 51,805 52,949 54,090 55,230 56,369 57,505 58,641 59,774 60,907 62,038 63,167 3,842 5,992 7,815 9,488 11,071 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,925 35,173 36,415 37,653 38,885 40,113 41,337 42,557 43,773 44,985 46,194 47,400 48,602 49,802 50,999 52,192 53,384 54,572 55,759 56,942 58,124 59,304 60,481 61,656 62,830 64,001 65,171 66,339 67,504 5,024 7,378 9,348 11,143 12,833 14,449 16,013 17,535 19,023 20,483 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 35,479 36,781 38,076 39,364 40,647 41,923 43,195 44,461 45,722 46,979 48,232 49,480 50,725 51,966 53,203 54,437 55,668 56,896 58,120 59,342 60,561 61,777 62,990 64,201 65,410 66,617 67,821 69,023 70,222 71,420 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892 52,191 53,486 54,775 56,061 57,342 58,619 59,893 61,162 62,428 63,691 64,950 66,206 67,459 68,710 69,957 71,202 72,443 73,683 74,919 76,154 7,879 10,597 12,838 14,860 16,750 18,548 20,278 21,955 23,589 25,188 26,757 28,300 29,819 31,319 32,802 34,267 35,718 37,156 38,582 39,997 41,401 42,796 44,181 45,558 46,928 48,290 49,645 50,994 52,336 53,672 55,003 56,328 57,648 58,964 60,275 61,581 62,883 64,181 65,475 66,766 68,053 69,336 70,616 71,892 73,166 74,437 75,704 76,969 78,231 79,490 Fabricio Penna & Silvia Huarte gl 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 0,100 0,050 0,025 0,010 0,005 64,295 65,422 66,548 67,673 68,796 69,919 71,040 72,160 73,279 74,397 75,514 76,630 77,745 78,860 79,973 81,086 82,197 83,308 84,418 85,527 86,635 87,743 88,850 89,956 91,062 92,166 93,270 94,374 95,476 96,578 97,680 98,780 99,881 100,980 102,079 103,177 104,275 105,372 106,469 107,565 108,661 109,756 110,850 111,944 113,038 114,131 115,223 116,315 117,407 118,498 68,669 69,832 70,993 72,153 73,312 74,468 75,624 76,778 77,931 79,082 80,232 81,381 82,529 83,675 84,821 85,965 87,108 88,250 89,391 90,531 91,670 92,808 93,945 95,082 96,217 97,351 98,484 99,617 100,749 101,880 103,010 104,139 105,267 106,395 107,522 108,648 109,773 110,898 112,022 113,145 114,268 115,390 116,511 117,632 118,752 119,871 120,990 122,108 123,225 124,342 72,616 73,810 75,002 76,192 77,380 78,567 79,752 80,936 82,117 83,298 84,476 85,654 86,830 88,004 89,177 90,349 91,519 92,689 93,857 95,023 96,189 97,353 98,516 99,678 100,839 101,999 103,158 104,316 105,473 106,629 107,783 108,937 110,090 111,242 112,393 113,544 114,693 115,842 116,989 118,136 119,282 120,427 121,571 122,715 123,858 125,000 126,141 127,282 128,422 129,561 77,386 78,616 79,843 81,069 82,292 83,514 84,733 85,950 87,166 88,379 89,591 90,802 92,010 93,217 94,422 95,626 96,828 98,028 99,227 100,425 101,621 102,816 104,010 105,202 106,393 107,582 108,771 109,958 111,144 112,329 113,512 114,695 115,876 117,057 118,236 119,414 120,591 121,767 122,942 124,116 125,289 126,462 127,633 128,803 129,973 131,141 132,309 133,476 134,642 135,807 80,747 82,001 83,253 84,502 85,749 86,994 88,237 89,477 90,715 91,952 93,186 94,419 95,649 96,878 98,105 99,330 100,554 101,776 102,996 104,215 105,432 106,647 107,862 109,074 110,285 111,495 112,704 113,911 115,116 116,321 117,524 118,726 119,927 121,126 122,324 123,522 124,718 125,912 127,106 128,299 129,490 130,681 131,871 133,059 134,247 135,433 136,619 137,803 138,987 140,170 Págin@ 52 10. ANEXO 3: TABLA DE DISTRIBUCIÓN NORMAL ESTANDARIZADA Z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 0.00000 0.03983 0.07926 0.11791 0.15542 0.19146 0.22575 0.25804 0.28814 0.31594 0.34134 0.36433 0.38493 0.40320 0.41924 0.43319 0.44520 0.45543 0.46407 0.47128 0.47725 0.48214 0.48610 0.48928 0.49180 0.49379 0.49534 0.49653 0.49744 0.49813 0.49865 0.00399 0.04380 0.08317 0.12172 0.15910 0.19497 0.22907 0.26115 0.29103 0.31859 0.34375 0.36650 0.38686 0.40490 0.42073 0.43448 0.44630 0.45637 0.46485 0.47193 0.47778 0.48257 0.48645 0.48956 0.49202 0.49396 0.49547 0.49664 0.49752 0.49819 0.49869 0.00798 0.04776 0.08706 0.12552 0.16276 0.19847 0.23237 0.26424 0.29389 0.32121 0.34614 0.36864 0.38877 0.40658 0.42220 0.43574 0.44738 0.45728 0.46562 0.47257 0.47831 0.48300 0.48679 0.48983 0.49224 0.49413 0.49560 0.49674 0.49760 0.49825 0.49874 0.01197 0.05172 0.09095 0.12930 0.16640 0.20194 0.23565 0.26730 0.29673 0.32381 0.34849 0.37076 0.39065 0.40824 0.42364 0.43699 0.44845 0.45818 0.46638 0.47320 0.47882 0.48341 0.48713 0.49010 0.49245 0.49430 0.49573 0.49683 0.49767 0.49831 0.49878 0.01595 0.05567 0.09483 0.13307 0.17003 0.20540 0.23891 0.27035 0.29955 0.32639 0.35083 0.37286 0.39251 0.40988 0.42507 0.43822 0.44950 0.45907 0.46712 0.47381 0.47932 0.48382 0.48745 0.49036 0.49266 0.49446 0.49585 0.49693 0.49774 0.49836 0.49882 0.01994 0.05962 0.09871 0.13683 0.17364 0.20884 0.24215 0.27337 0.30234 0.32894 0.35314 0.37493 0.39435 0.41149 0.42647 0.43943 0.45053 0.45994 0.46784 0.47441 0.47982 0.48422 0.48778 0.49061 0.49286 0.49461 0.49598 0.49702 0.49781 0.49841 0.49886 0.02392 0.06356 0.10257 0.14058 0.17724 0.21226 0.24537 0.27637 0.30511 0.33147 0.35543 0.37698 0.39617 0.41308 0.42785 0.44062 0.45154 0.46080 0.46856 0.47500 0.48030 0.48461 0.48809 0.49086 0.49305 0.49477 0.49609 0.49711 0.49788 0.49846 0.49889 0.02790 0.06749 0.10642 0.14431 0.18082 0.21566 0.24857 0.27935 0.30785 0.33398 0.35769 0.37900 0.39796 0.41466 0.42922 0.44179 0.45254 0.46164 0.46926 0.47558 0.48077 0.48500 0.48840 0.49111 0.49324 0.49492 0.49621 0.49720 0.49795 0.49851 0.49893 0.03188 0.07142 0.11026 0.14803 0.18439 0.21904 0.25175 0.28230 0.31057 0.33646 0.35993 0.38100 0.39973 0.41621 0.43056 0.44295 0.45352 0.46246 0.46995 0.47615 0.48124 0.48537 0.48870 0.49134 0.49343 0.49506 0.49632 0.49728 0.49801 0.49856 0.49896 0.03586 0.07535 0.11409 0.15173 0.18793 0.22240 0.25490 0.28524 0.31327 0.33891 0.36214 0.38298 0.40147 0.41774 0.43189 0.44408 0.45449 0.46327 0.47062 0.47670 0.48169 0.48574 0.48899 0.49158 0.49361 0.49520 0.49643 0.49736 0.49807 0.49861 0.49900 Fabricio Penna & Silvia Huarte Págin@ 53 11. BIBLIOGRAFÍA CONSULTADA Agresti, A. (2001). Categorical Data Analysis. (2nd ed.). John Wiley & Sons: New York. Andersen, E.B. (1997). Introduction to the Statistical Analysis of Categorical Data. Springer–Verlag: Berlin. Cook, R.D. & Weisberg, S. (1992) Residuals and Influence in Regression. (5th ed.). Chapman & Hall: London. Dawson–Saunders, B. y Trapp, R.G. (1998) Bioestadística Médica. (1ª ed., 2ª reimpresión). Manual Moderno: México. Di Rienzo, J.; Casanoves, F.; González, L.; Tablada, M.; Díaz, M.P.; Robledo, C.W.; y Balzarini, M. (2000). Estadística para las ciencias agropecuarias. (1ª ed.). Editora Screen: Córdoba. Ferreira Murteira, B.J. (1979). Probabilidades e Estatistica (Volume 1). McGraw–Hill: Lisboa. Freund, J.E. y Walpole, R.E. (1996). Estadística Matemática con Aplicaciones. (4ª ed.). Prentice–Hall Hispanoamericana: México. Hernández Sampieri, R.; Fernández Collado, C.; y Baptista Lucio, P. (1997). Metodología de la Investigación. McGraw-Hill: México. Hopkins, K.D.; Hopkins, B.R. y Glass, G.V. (1997). Estadística Básica para las Ciencias Sociales y del Comportamiento. (3ª ed.). Prentice–Hall Hispanoamericana: México. InfoStat (2002). InfoStat, versión 1.1. Manual del Usuario. Grupo InfoStat, FCA, Universidad Nacional de Córdoba. Primera Edición, Editorial Brujas Argentina: Córdoba. Infostat (2003). InfoStat Profesional versión 1.5. Grupo InfoStat, FCA, Universidad Nacional de Córdoba: Argentina. Pineda, E.B.; De Alvarado, E.L.; y De Canales, F.H. (1994). Metodología de la Investigación. Manual para el desarrollo del personal de salud. (2ª ed.). Organización Panamericana de la Salud: Washington D.C. Quinn, G.P. & Keough, M.J. (2002). Experimental Design and Data Analysis for Biologists. Cambridge University Press: Cambridge. Sabulsky, J. (2000). Investigación Científica en Salud–Enfermedad. (3ª ed.). Ed. Kosmos: Córdoba. Sokal, R.R. y Rohlf, F.J. (1979). Biometría. H. Blume Ediciones: Madrid. Sokal, R.R. y Rohlf, F.J. (1980). Introducción a la Bioestadística. Ed. Reverté: Madrid. Fabricio Penna & Silvia Huarte