BIOESTADÍSTICA I 1. DEFINICIONES 1.1 ESTADÍSTICA. Es una disciplina, que hace parte de la matemática aplicada, que provee métodos y procedimientos para colectar, clasificar, resumir y analizar información (datos) proveniente de una población. 1.2 BIOESTADÍSTICA. Es la disciplina que se encarga de generar y aplicar métodos estadísticos a información o datos provenientes de las áreas biológicas. 1.3 VARIABLE. Es una característica que interesa evaluar ya sea en un individuo o en un objeto, y que, como su nombre lo dice, varía o cambia de un individuo a otro. Si todos los individuos observados son homogéneos para la característica en cuestión, ya no se habla de una variable, sino de una constante. Otra definición más corta: variable es lo que está siendo observado o medido. Las variables pueden ser clasificadas de diferentes maneras: 1.3.1 Cualitativas y Cuantitativas. Las variables cualitativas o atributos no se pueden medir numéricamente (por ejemplo: nacionalidad, color de la piel, sexo). Las variables cuantitativas tienen valor numérico (edad, precio de un producto, ingresos anuales). Ejemplos: Cuantitativas • Peso • Diámetro • Altura • Número de plantas Cualitativas • Variedad o especie • Raza • Color • Tipo de suelo 1.3.2 Discretas y continuas. Esta es otra forma de clasificar las variables. Una variable es discreta si entre dos valores contiguos no existe ningún otro valor posible, es decir, hay “saltos” entre los valores que toma la variable; mientras que en una variable continua, entre cualquier para de valores observables siempre hay infinitos valores posibles de ser observados. A veces se toma como regla de clasificación que las variables discretas no pueden tomar valores que involucren cifras decimales, pero esto no siempre se cumple, veamos un ejemplo: Si en un examen definimos una variable como la relación de respuestas correctas respecto al total de preguntas formuladas, los valores posibles siempre serán fraccionarios: 1/5, 2/5, ...etcétera y a pesar de esto, la variable sería discreta. 2 Otras definiciones: Una variable es discreta si sólo puede tomar valores en un conjunto finito; es continua, si puede tomar cualquier valor de un intervalo determinado. Debido a las unidades en que algunas variables son expresadas, éstas pueden parecer discretas, por ejemplo, el tiempo expresado en segundos, el peso expresado en gramos. En estos casos, las limitaciones están dadas por el instrumento de medida. Sin embargo, conceptualmente tales variables siguen siendo continuas, pues sin importar que contemos con el instrumento para su medición o no, entre 4 g y 5 g hay infinitos pesos. Discretas • Número de huevos • Sexo • Número de plantas Continuas • Peso • Altura • Tiempo 1.3.3 Escalas de medición. Esta forma de clasificar las variables hace referencia a la cantidad de información que contenga cada una de ellas y a la forma en que se mida. 1.3.3.1 Nominal. Es la escala de medición más débil, los valores de la variable simplemente indican diferentes categorías y no existe un orden entre ellas. Ejemplo: Color, sexo, especie, raza, nombre, materia. Una forma de evaluar si una variable es nominal, es identificar si al representarla gráficamente se pierde información al colocar en diferentes posiciones cada una de las categorías. Si las categorías pueden presentarse indiferentemente en cualquier posición, se trata de una variable medida en escala nominal. 1.3.3.2 Ordinal. En este tipo de escala se halla un poco más de información que en la anterior. Existe un orden o jerarquía entre los objetos del grupo, de tal forma que se sabe cuál es el primero, el segundo,... con relación a una característica particular. No puede afirmarse, sin embargo, que la diferencia o distancia entre las categorías sea la misma. Ejemplo: Nivel de producción (Alto, medio o bajo), orden de llegada en una carrera (primero, segundo, tercero), evaluación nutricional, calificación (excelente, bueno, regular, malo). 1.3.3.3 Interválica. En esta escala existen categorías ordenadas y las distancias o intervalos entre éstas son iguales, por eso se puede afirmar que la diferencia entre 5 y 6 es la misma que entre 10 y 11, es decir, una unidad. Una característica de esta escala es que el cero no es verdadero, es arbitrario, pues no indica ausencia de la característica medida, por lo tanto, aunque se pueden realizar comparaciones de diferencia (restas), las comparaciones de razón (divisiones) no son posibles. Ejemplos: Cociente intelectual y, la más famosa de todas, la temperatura, donde el valor de 0 °C no indica ausencia de temperatura; una ilustración de porque las razones no son posibles se tiene al comparar las temperaturas 20 °C y 40 °C ; aunque numéricamente 40 es el doble de 20, en el caso de la temperatura no se puede afirmar que a 40 °C es el doble de calor que a 20 °C. 1.3.3.4 Razón o Proporción. Es la escala que tiene más información. Además de existir un orden entre los niveles de la escala, estos tienen igual distancia entre sí y el cero sí es real (indica ausencia). Por lo tanto, las comparaciones de razón (divisiones) sí son posibles. Ejemplos: Peso, altura, número de hojas de una planta, etcétera. 3 1.4 POBLACIÓN. Es cualquier conjunto de individuos o elementos que tienen una o más características comunes. Las características comunes no son sólo físicas, pueden ser espaciales o temporales. Ejemplos: estudiantes matriculados en el primer semestre del 2004 (característica temporal) ; estudiantes del núcleo de minas (característica espacial). La estadística matemática define una población como el conjunto de todos los valores que puede tomar una variable, en este caso se hablaría de población de pesos, etcétera, lo que pasa es que desde el punto de vista del investigador, se define como el conjunto de individuos poseedores de la característica. 1.5 MUESTRA. Es cualquier subconjunto de elementos seleccionado de una población, lo ideal es que sea un subconjunto representativo de toda la población, o sea que refleje las características esenciales de la misma, de manera que se puedan realizar generalizaciones sobre la población. Las razones para trabajar con muestras son: ahorro de tiempo, ahorro de dinero, facilidades operativas y conservación de la población (si la variable que se quiere medir implica destrucción de la unidad experimental, como en análisis bromatológicos, de composición, etcétera). 1.6 PARÁMETRO. Es una medida que caracteriza a una población, por lo cual se necesitaría tener acceso a todos los elementos de la población para su cálculo. Se representa por medio de letras griegas. 1.7 ESTADÍSTICO. Es cualquier medida de resumen calculada a partir de los datos de la muestra. Sirve como estimador del respectivo parámetro poblacional. Se representa por medio de letras latinas. 1.8 ESTADÍSTICA DESCRIPTIVA. Es la rama de la estadística que se dedica a la presentación, organización y resumen de los datos, usando tablas, gráficos y “medidas de resumen” que son aquéllas que representan las características esenciales de los datos en términos fáciles de interpretar. 1.9 ESTADÍSTICA INFERENCIAL. Esta es la parte de la estadística que permite generalizar los resultados obtenidos a partir de los datos de una muestra, a un número más grande de individuos. En otras palabras, hacer inferencia estadística es sacar conclusiones válidas acerca de una población de elementos o medidas, con base en información contenida en una muestra de dicha población. Se hace a través de dos actividades relacionadas: estimación y prueba de hipótesis. 4 Tarea: Plantear 10 variables que tengan que ver con su carrera y clasificarlas con las tres formas vistas. 2. ESTADÍSTICA DESCRIPTIVA. Como se mencionó anteriormente, la estadística descriptiva se basa en el uso de tres herramientas básicas: medidas de resumen, tablas y gráficos. 2.1 MEDIDAS DE RESUMEN Las medidas de resumen, como su nombre lo dice, sirven para resumir la información contenida en un grupo de datos y se dividen en: medidas de tendencia central, medidas de dispersión, medidas de forma y medidas de posición. 2.1.1 Medidas de Tendencia Central. Una medida de tendencia central es aquel valor hacia el cual converge la mayoría de los datos, viene a ser una especie de representante del conjunto de datos, existen varias medidas de tendencia central. 2.1.1.1 Media. Es la más famosa de las medidas de tendencia central y se define como el promedio aritmético de todos los datos. Podemos definir la media muestral (estadístico) y la media poblacional (parámetro). n ___ X = ∑x i =1 i ; Así, es un estadístico. n N µ= ∑x i =1 N i ; Así, es el parámetro. Tarea: Calcule la media para el siguiente conjunto de datos: Repita con el siguiente conjunto de datos: Compare los dos valores obtenidos y concluya. {3, 5, 6, 8, 9} {3, 5, 6, 8, 20} 2.1.1.2 Mediana: Es el valor central de un conjunto de datos ordenados, se dice también que es aquel valor que divide el conjunto de datos exactamente por la mitad. Para el siguiente conjunto de datos: {2, 4, 5, 6, 8} la mediana es 5 ¿ Y para el siguiente conjunto de datos? 2, 4, 5, 6, 20 la mediana es 5 ¿Qué se puede concluir a partir de estos resultados? 5 Si se tiene un conjunto de datos par : {2, 4, 5, 6} ¿qué hacemos? La solución es calcular la media de los dos valores centrales. Existen dos fórmulas que facilitan el cálculo de la mediana cuando se tienen muchos datos, pero para ver las fórmulas, primero debemos definir que es un “Estadístico de Orden”. 2.1.1.3 Estadístico de Orden. Se define el estadístico de orden i-ésimo como el valor que toma la observación i-ésima, después de ordenar todos los datos, así: X(1) es el estadístico de orden 1 y correspondería al menor valor de todos. X(2) es el estadístico de orden 2 y correspondería al segundo menor valor. . . . X(n) es el estadístico de orden n y correspondería al mayor valor. Al calcular la mediana de un conjunto de datos siempre se estará en una de dos situaciones: el conjunto de datos es impar o el conjunto de datos es par. Si el conjunto es impar, Me = X( n +1 2 ) X( n +1 2 ) ; es decir, el estadístico de orden (n+1)/2 X( n Si el conjunto es par, Me = 2 ) + X ((n 2 )+1) X( 2 n 2 ) + X ((n 2 )+1) 2 ; es decir, la media aritmética de los dos estadísticos de orden que aparecen en el numerador. Nota: “n” es el número de datos evaluados. 2.1.1.4 Moda. El significado estadístico de la palabra moda es similar al que le damos en nuestra sociedad, ¿qué es moda? Lo que más se usa, entonces la moda es simplemente el valor que más se repite, ejemplo: en el siguiente conjunto de datos la moda sería 5: {2, 5, 5, 5, 6, 7, 8} En el conjunto de datos: : {3, 5, 6, 3, 4, 3, 5, 8, 5}, ¿cuál es la moda? Se puede apreciar que hay dos modas: 3 y 5. (el conjunto es bimodal) Un último conjunto de datos: {2, 4, 6, 8, 9, 3, 5}, ¿cuál es la moda? Aquí vemos que no hay moda, a partir de estos tres ejemplos se puede observar que la moda puede no existir, ser única o pueden existir múltiples modas (datos multimodales). Cuando exista, siempre corresponderá con algunos de los valores observados en el conjunto de datos. 2.1.1.5 Media ponderada. Es una media donde todas las observaciones no tienen el mismo “peso” o importancia, un ejemplo clásico es la nota definitiva de una asignatura, supongamos el caso de un estudiante en un curso cualquiera con las siguientes notas: 6 Evaluación Parcial 1 Parcial 2 Parcial 3 Taller Porcentaje (Pi) 30% 20% 30% 20% Nota (Xi) 4.2 2.1 3.2 3.7 Para calcular la nota definitiva no podríamos simplemente calcular la media aritmética de las cuatro notas, pues le estaríamos dando el mismo “peso” a cada una de las notas, por lo tanto calculamos la media ponderada, que permite darle “pesos” diferentes a los valores observados. n __ X p = ∑P *X i i =1 = 3.38 n ∑P i =1 i i 2.1.1.6 Recorrido Medio. Esta medida de tendencia central se utiliza muy poco, una aplicación práctica se da cuando se quiere calcular la temperatura media de un día cualquiera, simplemente consiste en calcular la media aritmética de los valores mayor y menor. Tarea: Analizar para cada una de las escalas de medición cuáles medidas de tendencia central es posible aplicar y cuáles no. Antes de continuar con la siguiente medida de resumen, veamos lo siguiente: se tienen dos explotaciones A y B de cualquier producto agrícola: Explotación A B Producción Promedio 4 t/ha 4 t/ha A simple vista podríamos decir que los conjuntos de datos que dieron origen a estas dos medias son iguales, pero si ahora vemos los conjuntos originales, la situación es muy diferente: Explotación A B Producción Promedio Datos 4 t/ha 4, 4, 4 4 t/ha 0, 4, 8 Estos dos conjuntos de datos ponen en evidencia que la medida de tendencia central por sí sola no es suficiente para describir un conjunto de datos, de ahí la importancia de utilizar otra medida de resumen que me refleje la situación del ejercicio anterior. 7 2.1.2 Medidas de Dispersión. Las medidas de dispersión indican qué tan cerca o qué tan lejos están los datos de la medida de tendencia central, en otras palabras, indican que tan homogéneos o heterogéneos son los datos. 2.1.2.1 Varianza. Es la más conocida de las medidas de dispersión y su análisis es la base de todos los métodos de estadística inferencial. Podemos definir la varianza muestral (estadístico) y la varianza poblacional (parámetro). ___ ⎛ ⎞ − X⎟ ⎜ ∑ x i ⎠ ⎝ S 2 = i =1 n −1 n ⎞ ⎛ ⎜ xi − µ ⎟ ∑ ⎠ i =1 ⎝ = N N σ2 2 ; Así, es un estadístico. 2 ; Así, es el parámetro. Existe una fórmula operacional que hace mucho más fácil el cálculo de la varianza, que surge de desarrollar y luego simplificar el numerador de la expresión anterior: ⎛ n ⎞ ⎜ ∑ xi ⎟ n 2 xi − ⎝ i =1 n ⎠ ∑ S 2 = i =1 n −1 2 Supongamos valores de producción de mango en t/ha: 3, 5, 6, 8, 9 Donde la varianza es: 5.7 (t/ha)2, (verificar el cálculo) ahora..... ¿qué es una (t/ha)2 ? pues este es el problema de la varianza, está dada en unidades al cuadrado, lo cual hace que no tenga una interpretación fácil, entonces.... ¿qué hacemos? ¡Pues saquemos raíz cuadrada! 2.1.2.2 Desviación estándar. Simplemente es la raíz cuadrada de la varianza y por lo tanto está dada en las unidades de medida originales y por eso es más utilizada. Podemos definir la desviación estándar muestral (estadístico) y la desviación estándar poblacional (parámetro). S = Raíz cuadrada de: S2; Así, es un estadístico. σ = Raíz cuadrada de: σ2; Así, es el parámetro. En el ejemplo anterior la desviación estándar sería: S = 2.387 t/ha, valor que está dado en las unidades de medida originales y por lo tanto es fácil de entender. Ejercicio: Se tienen los siguientes conjuntos de datos, ¿en cuál de ellos hay mayor dispersión? Media DE A 10 t/ha 2.5 t/ha B 4 t/ha 2 t/ha 8 Se podría pensar que el conjunto A tiene una mayor dispersión que el B, pero debe recordarse la definición de medida de dispersión: es un valor que me indica qué tan lejos o cerca se encuentran los datos respecto a la medida de tendencia central, de tal manera que si se desea saber cuál de los dos conjuntos tiene una mayor dispersión, el análisis no puede basarse exclusivamente en la D. E., debe tener en cuenta también la media. Para hacer esta comparación se podría hacer uso de la siguiente medida de dispersión. 2.1.2.3 Coeficiente de Variación (CV). Esta es una medida de dispersión muy utilizada porque es adimensional (no tiene unidades de medida) y por lo tanto es muy útil para comparar la dispersión de dos conjuntos de datos, ya sea que éstos tengan o no, la misma unidad de medida; expresa la desviación estándar como un porcentaje de la media. CV = S _____ *100 X 2.1.2.4 Desviación Mediana. Es una medida de dispersión donde la medida de tendencia central de referencia es la Mediana y se calcula así: n ∑ x − Me D. Mediana = i =1 i n Básicamente es para variables ordinales; en general, cuando se calcule la mediana como medida de tendencia central, lo correcto entonces será calcular la desviación mediana. 2.1.2.5 Recorrido o Rango. Es una medida poco utilizada porque provee de muy poca información, se calcula como la diferencia entre los dos valores extremos del conjunto de datos, por lo tanto simplemente indica la distancia que hay entre el valor menor y el valor mayor. R: (Valor mayor – Valor menor) ≡ (X(n) – X(1)). Tarea: Analizar para cada una de las escalas de medición cuáles medidas de dispersión es correcto aplicar y cuáles no Ejercicio: Qué se puede decir de la producción de mango en estas dos fincas? A 9.475 4.26807 Media: S B 9.475 4.26807 Aparentemente son dos conjuntos de datos iguales, pero si vemos los datos originales vamos a encontrar lo siguiente: A: B:0.85, 5, 6.3, 6.9, 7.4, 9.2, 10, 12.9, 6.05, 11.55, 12.05, 12.65, 13.95 8.95, 9.75, 18.1 9 Con estos dos conjuntos se hace evidente que una medida de tendencia central junto con una medida de dispersión, tampoco son suficientes para describir de manera completa un conjunto de datos, hace falta algo más, veamos la siguiente medida de resumen. 2.1.3 Medidas de Forma. Una medida de forma simplemente refleja cual es la forma de los datos al hacer un gráfico de dispersión con ellos. 2.1.3.1 Coeficiente de Asimetría (a). Indica si un conjunto de datos es simétrico o no respecto a la media, se calcula de la siguiente manera: __ 3 ⎤ ⎡ n ⎛ ⎞ ⎢ ∑ ⎜⎜ xi − x ⎟⎟ ⎥ ⎡ ⎤ ⎢ i =1 ⎝ n ⎠ ⎥ a =⎢ ⎥ 3 ⎢ ⎥ ⎣ (n − 1)(n − 2 )⎦ ⎢ S ⎥ ⎢⎣ ⎥⎦ Donde S es la desviación estándar. Básicamente se puede hablar de tres situaciones (no son las únicas): • Distribución Simétrica: a = 0: Cuando hay simetría perfecta, la media, la mediana y la moda toman el mismo valor. • Sesgo a la derecha: a > 0: Cuando hay sesgo a la derecha, la moda < la mediana < la media. • Sesgo a la izquierda: a < 0: 10 Cuando hay sesgo a la izquierda, la media < la mediana < la moda. Evaluemos los dos conjuntos de datos anteriores: aA = [ 8 / 7*6 ]*[ (5-9.475)3 + (6.3-9.475)3 +...... +(18.1-9.475)3 / 4.2683] aA = 1.3089 = Asimetría positiva o sesgo a la derecha. aB = [8 / 7*6 ]*[(0.85-9.475)3+ (6.05-9.475)3 +....+(13.95-9.475)3 /4.2683] aB = - 1.3089 = Asimetría negativa o sesgo a la izquierda. Tarea: Verificar los anteriores resultados. Ejercicio: ¿Qué se puede decir de la producción de mango en estas dos fincas? A 7 3.6228 0 Media: S a B 7 3.6228 0 Aparentemente son dos conjuntos de datos iguales, pero si vemos los datos originales vamos a encontrar lo siguiente: A: 0.5, B: 1.5, 4, 6, 6.5, 7, 7.5, 8, 10, 3.5, 4, 8, 6, 7, 13.5 10, 10.5, 12.5 Con estos dos conjuntos se hace evidente que una medida de tendencia central junto con una medida de dispersión y la medida de asimetría, tampoco son suficientes para describir de manera completa un conjunto de datos, hace falta algo más. 2.1.3.2 Coeficiente de Curtosis o Curtosis (K). Evalúa como es la concentración de los datos alrededor de la media y de las colas. __ 4 ⎤ ⎡ n ⎛ ⎞ ⎢ ∑ ⎜⎜ xi − x ⎟⎟ ⎥ 2 ⎡ ⎤ ⎢ i =1 ⎝ n(n + 1) ⎠ ⎥ ⎡ 3(n − 1) ⎤ K= ⎢ − ⎥⎢ 4 ⎥ ⎢ (n − 2 )(n − 3) ⎥ ⎣ (n − 1)(n − 2 )(n − 3) ⎦ ⎢ ⎦ S ⎥ ⎣ ⎢⎣ ⎥⎦ Situaciones posibles: Distribución Mesocúrtica: K = 0. 11 Distribución Leptocúrtica: K > 0 Distribución Platicúrtica: K < 0 Evaluemos los dos conjuntos de datos anteriores: KA: 1.235 : Leptocúrtica KB: -1.004: Platicúrtica Tarea : Verificar los dos valores de curtosis anteriores. 2.1.4 Medidas de Posición. Son medidas que permiten estimar en qué punto de la distribución de los datos se encuentra un determinado valor. 2.1.4.1 Cuantiles. Son la expresión más general de medidas de posición y comprenden a todas las otras; el valor que tome el cuantil “X” es el valor que deja por debajo de sí al “X” % de los datos. Para el calculo de los cuantiles vamos a recurrir nuevamente a los estadísticos de orden. Primero se debe calcular el valor n*X (Siendo n el número de datos y “X” el cuantil deseado), a partir del valor hallado se hace lo siguiente: si (nx/100) no es entero, entonces el Cuantil X = X ( [| nx/100 |] + 1 ) ;. Recordar, [| |] quiere decir menor entero contenido en, lo que traduce: redondee por debajo. Si (nx/100) es entero, entonces el Cuantil X = {X (nx/100) + X[(nx/100) + 1] }/ 2;. Importante: 12 Cuantil “0” Cuantil “100” = X (1) = El valor Mínimo = X (n) = El valor Máximo 2.1.4.2 Cuartiles. Son valores que dividen el conjunto de datos en cuatro partes. • Q1: Primer cuartil: Es el valor por debajo del cual se encuentra el 25% de los datos. • Q2: Segundo cuartil: Es el valor por debajo del cual se encuentra el 50% de los datos. • Q3: Tercer cuartil: Es el valor por debajo del cual se encuentra el 75% de los datos. 2.1.4.3 Deciles. Son valores que dividen el conjunto de datos en diez partes. • • D1: Decil uno: Es el valor por debajo del cual está el 10% de los datos. D2: Decil dos: Es el valor por debajo del cual está el 20% de los datos. 2.1.4.4 Percentiles. Son los valores que dividen la información en centésimas, o sea en 100 partes. Son los mismos cuantiles. P1: Percentil uno: Es el valor por debajo del cual está el 1% de los datos. P2: Percentil dos: Es el valor por debajo del cual está el 2% de los datos. Tarea: Hallar equivalencias entre las diferentes medidas de posición, ejemplo: Mediana = Q2 = D5 = P50 Tarea: Calcular todas las anteriores medidas de resumen para describir dos conjuntos de datos que ustedes mismos pueden inventar. 2.2 TABLAS. 2.2.1 Tablas de frecuencias (Tablas de distribución de frecuencias). La distribución de frecuencia es la representación estructurada, en forma de tabla, de toda la información que se ha recogido sobre la variable estudiada. Veamos un ejemplo: Medimos la altura de los niños de una clase y obtenemos los siguientes resultados (cm): 13 Estudiante Estudiante 1 Estudiante 2 Estudiante 3 Estudiante 4 Estudiante 5 Estudiante 6 Estudiante 7 Estudiante 8 Estudiante 9 Estudiante 10 Estatura 1,25 1,28 1,27 1,21 1,22 1,29 1,30 1,24 1,27 1,29 Estudiante Estudiante 11 Estudiante 12 Estudiante 13 Estudiante 14 Estudiante 15 Estudiante 16 Estudiante 17 Estudiante 18 Estudiante 19 Estudiante 20 Estatura 1,23 1,26 1,30 1,21 1,28 1,30 1,22 1,25 1,20 1,28 Estudiante Estudiante 21 Estudiante 22 Estudiante 23 Estudiante 24 Estudiante 25 Estudiante 26 Estudiante 27 Estudiante 28 Estudiante 29 Estudiante 30 Estatura 1,21 1,29 1,26 1,22 1,28 1,27 1,26 1,23 1,22 1,21 Si presentamos esta información estructurada obtendríamos la siguiente tabla de frecuencias: Variable (Valor) Frecuencias absolutas Simple Acumulada Frecuencias relativas Simple Acumulada 1,20 1 1 3,3% 3,3% 1,21 1,22 4 4 5 9 13,3% 13,3% 16,6% 30,0% 1,23 2 11 6,6% 36,6% 1,24 1,25 1,26 1,27 1,28 1,29 1,30 1 2 3 3 4 3 3 12 14 17 20 24 27 30 3,3% 6,6% 10,0% 10,0% 13,3% 10,0% 10,0% 40,0% 46,6% 56,6% 66,6% 80,0% 90,0% 100,0% Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera obtendríamos una tabla de frecuencia muy extensa de muy poco valor para fines de síntesis. 2.2.1.1 Distribuciones de frecuencia agrupada. Supongamos que medimos la estatura de los habitantes de un edificio y obtenemos los siguientes resultados (cm): Habitante Habitante 1 Habitante 2 Habitante 3 Habitante 4 Habitante 5 Habitante 6 Habitante 7 Habitante 8 Estatura 1,15 1,48 1,57 1,71 1,92 1,39 1,40 1,64 Habitante Habitante 11 Habitante 12 Habitante 13 Habitante 14 Habitante 15 Habitante 16 Habitante 17 Habitante 18 Estatura 1,53 1,16 1,60 1,81 1,98 1,20 1,42 1,45 Habitante Habitante 21 Habitante 22 Habitante 23 Habitante 24 Habitante 25 Habitante 26 Habitante 27 Habitante 28 Estatura 1,21 1,59 1,86 1,52 1,48 1,37 1,16 1,73 14 Habitante 9 Habitante 10 1,77 1,49 Habitante 19 Habitante 20 1,20 1,98 Habitante 29 Habitante 30 1,62 1,01 Si presentáramos esta información en una tabla de frecuencia obtendríamos una tabla de 30 líneas (una para cada valor), cada uno de ellos con una frecuencia absoluta de 1 y con una frecuencia relativa del 3,3%. Esta tabla nos aportaría escasa información En lugar de ello, preferimos agrupar los datos por intervalos, con lo que la información queda más resumida (se pierde, por tanto, algo de información), pero es más manejable e ilustrativa: Tabla de distribución de frecuencias para la variable aleatoria estatura de los estudiantes. Estatura Cm Frecuencias absolutas Simple Acumulada Frecuencias relativas Simple Acumulada 1,01 - 1,10 1 1 3,3% 3,3% 1,11 - 1,20 1,21 - 1,30 3 3 4 7 10,0% 10,0% 13,3% 23,3% 1,31 - 1,40 2 9 6,6% 30,0% 1,41 - 1,50 1,51 - 1,60 1,61 - 1,70 1,71 - 1,80 1,81 - 1,90 1,91 - 2,00 6 4 3 3 2 3 15 19 22 25 27 30 20,0% 13,3% 10,0% 10,0% 6,6% 10,0% 50,0% 63,3% 73,3% 83,3% 90,0% 100,0% El número de intervalos en los que se agrupa la información es una decisión que debe tomar el analista: la regla es que mientras más intervalos se utilicen menos información se pierde, pero puede que menos representativa e informativa sea la tabla. Se encuentran varias propuestas para esto; una es la formula de Sturges: K = 1 + 3.32 * log(n) , pero también se usan (Scott) K = 2n o K = 3 n[rango] 2 * (Q3 − Q1 ) 3 (Freedman, and Diaconis,1981). Se recomienda que sean menos de 20 y más de cuatro intervalos. El procedimiento para crear una tabulación de frecuencias tiene las siguientes operaciones: • • Determine el número de intervalos a construir (K). Calcule el rango (r = máximo - mínimo). • Calcule el ancho inicial del intervalo: Ai = • Establezca una amplitud de clase (ancho del intervalo) aumentando Ai al menos en un 2% ( A ≈ (1.02) * A i ). Esta no es una regla que se tenga que cumplir al pie de la letra, el asunto es que se pueda ampliar “razonablemente” el rango. r K 15 • Determine el rango ampliado: ra = A * K • Calcule 2d = ra − r • Reste d al valor mínimo de la muestra (mínimo reducido). El primer intervalo se construye o va desde el mínimo reducido (límite inferior) a la suma del mínimo reducido y la amplitud de clase (A). El segundo intervalo tiene como límite inferior el límite superior del primer intervalo; el límite superior se construye con sumar la amplitud de clase al límite inferior. De esta forma se repite el proceso hasta completarse todos los intervalos. La tabla se completa al contabilizar, para cada intervalo, las respectivas frecuencias absolutas y el resto de los componentes de la tabla (columnas). En una tabla de frecuencias, los percentiles (y cualquier cuantil) se calculan usando la siguiente expresión: i*n − ∑ fk 100 Pi = L i + *C fj Pi : Li: ∑fk: fj: C: Es el i-ésimo percentil. Límite inferior de la clase o intervalo de interés, esto es, la clase que supera o iguala la proporción buscada por el percentil. Es la suma de las frecuencias anteriores a la clase de interés. La frecuencia absoluta de la clase de interés. Amplitud de clase o longitud del intervalo Tarea: calcule a la tabla de frecuencias anterior la mediana, el percentil diez, el cuartil uno y el percentil 95. 2.2.2 Tablas de contingencia. En muchas ocasiones para el investigador será de interés recolectar, de manera simultánea, en una muestra más de una cualidad o variable. Por ejemplo, se midió en una empacadora de carnes la cantidad (concentración) de preservativos que se requieren para que las proteínas no inicien su proceso de desnaturalización. Para esto se evaluaron los efectos de tres tipos (marcas comerciales) de preservantes en cuatro dosis, sobre la carne de burro, de caballo, de cerdo y de res. Como se puede apreciar, estos resultados serán mejor evaluados si se presentan resumidos en una tabla de doble entrada como la que se muestra a continuación. Tabla de contingencia. Días para el inicio de la desnaturalización de la carne de caballo Concentración (mg/k) 5 12 18 20 Marca Rocinante 19 25 27 17 Imperial 17 28 30 24 Resplandor 12 20 22 25 Nótese que será necesaria la construcción de una tabla similar para cada tipo de carne o construir una tabla más elaborada que muestre toda la información. 16 2.3 GRÁFICOS. Los gráficos son el principal instrumento de análisis exploratorio de las características de una variable y se construyen de varios tipos, según el propósito y/o el nivel deseado para el análisis y según el tipo de variable que se grafique. 2.3.1 Diagrama de dispersión. La representación en un gráfico los pares de valores de dos variables suministra información a cerca de posibles relaciones entre las ellas, con una simple inspección a la nube de puntos. Ejemplo: Se tiene la siguiente información acerca de número de nemátodos en una muestra de suelo y el contenido de materia orgánica en la misma muestra Nematodos Materia Nemátodos Orgánica 7 4.2 6.7 12 9.8 11 15 12.5 13 23 15.7 24 4 5.8 4 Dibuje el diagrama de dispersión entre las dos variables. Materia Orgánica 4 11 12.5 15.9 6.8 2.3.2 Diagrama de barras. Se usa para variables de tipo categórico. Se realiza graficando las frecuencias absolutas o las frecuencias relativas de la variable (eje Y) contra los valores observados (eje X). Se distingue del histograma por la separación de las barras, que no existe en el histograma. 2.3.3 Diagrama de sectores. Las frecuencias relativas de las categorías que se encuentran en la variable son graficadas usando el círculo como representación de la totalidad de la muestra, cada categoría se le asigna un sector (segmento de arco) que es proporcional a esta frecuencia. De esta forma, una categoría que tenga una frecuencia relativa de 50% le corresponde el arco descrito por un ángulo de 180º 17 ¿Qué porcentaje de las ventas corresponde a los helados de manzana (apple)? 2.3.4 Diagrama de cajas. Se construyen usando la mediana y los cuartiles. La caja tiene un par de líneas que se prolongan a 1,5 veces el rango intercuartílico (1.5*{Q3 – Q1}). La caja la constituyen tres líneas, la primera está a la altura del cuartil uno (Q1), la segunda es la mediana y la tercera el cuartil tres (Q3). Diagrama de cajas y bigotes para la variable aleatoria X. 2.3.5 Histograma de frecuencias Se construye graficando las frecuencias absolutas o las frecuencias relativas de la variable (eje Y) contra las categorías o clases en las que se dividió la misma (eje X). Se distingue del diagrama de barras por que la separación de las barras es cero. 18 Los pasos para construir el histograma son: 1. Defina los intervalos o clases de igual longitud. 2. Cuente el número de observaciones que caen en cada clase o intervalo. Esto es llamado la frecuencia. 3. Calcule la frecuencia relativa, hi = observacio nes _ en _ el _ int ervalo número _ de _ datos 4. Grafique los rectángulos cuyas alturas son proporcionales a las frecuencias relativas. Realizar histogramas de esta manera tiene las siguientes ventajas • • • • Es útil para apreciar la forma de la distribución de los datos, si se escoge adecuadamente el número de clases y su amplitud. Se puede presentar como un gráfico definitivo en un reporte. Se puede utilizar para comparar dos o más muestras o poblaciones. Se puede refinar para crear gráficos más especializados, por ejemplo la pirámide poblacional. Desventajas • • Las observaciones individuales se pierden. La selección del número de clases y su amplitud que adecuadamente representan la distribución puede ser complicado. Un histograma con muy pocas clases agrupa demasiadas observaciones y uno con muchas deja muy pocas en cada clase. Ninguno de los dos extremos es adecuado. Debido a que nuestros ojos responden al área de las barras, es importante mantener la anchura de las barras iguales. Si estamos enfrentados a un problema donde los intervalos tienen diferente amplitud, por ejemplo cuando obtenemos datos agrupados desde la fuente, la siguiente fórmula se usa Altura del rectángulo = Frecuencia Relativa / Amplitud del Intervalo 19 2.3.6 Ojiva. Se realiza graficando las frecuencias acumuladas de la variable en estudio (eje Y) contra los valores de la variable (punto medio del intervalo de clase {xi} en el eje X). Tarea: usando las frecuencias acumuladas de la tabla de distribución de frecuencias de los estudiantes grafique la ojiva correspondiente.