Análisis estadístico de datos muestrales M. en A. Víctor D. Pinilla Morán Facultad de Ingeniería, UNAM Resumen Representación de los datos de una muestra: tablas de frecuencias, frecuencias relativas y frecuencias relativas acumuladas. Representación gráfica de dichas tablas: Histogramas y polígonos de frecuencias. Analogías de estos polígonos con las funciones de probabilidad según el concepto frecuentista de la probabilidad: distribuciones empíricas de probabilidad. Medidas de tendencia central, de dispersión de la muestra, de sesgo y aplanamiento de la muestra, cuando los datos de ella están o no agrupados. Analogía de estas medidas con las correspondientes a la función de probabilidad de la variable aleatoria discreta. 1.1 La población y la muestra. Relación entre la probabilidad y la estadística. Clasificaciones de la estadística. De esta definición pueden percibirse dos grandes áreas de acción de la Estadística, la Descriptiva y la Inferencial. Estadística: En el lenguaje común es conocida como un conjunto de datos. Se refiere a un conjunto de métodos para manejar la obtención, presentación y el análisis de observaciones numéricas. Sus fines son: Describir al conjunto de datos obtenidos y tomar decisiones, o bien, realizar generalizaciones acerca de las características de todas las posibles observaciones bajo consideración. Estadística Descriptiva. Se refiere a aquella parte del estudio que incluye la obtención, organización, presentación y descripción de la información numérica. Probabilidad y Estadística Noviembre 2009 Estadística Inferencial. Es una técnica de la cual se obtienen generalizaciones o se toman decisiones con base a información parcial o incompleta obtenida mediante técnicas descriptivas. M.A. Víctor Damián Pinilla Morán. 1 Es necesario determinar que todas las ciencias sin importar la disciplina tienen como denominador común al método científico, por ende, la Estadística al ser una herramienta necesaria ara el método científico, forma parte también de todas las ciencias. Desde el punto de vista de la naturaleza de la información manipulada, la Estadística puede clasificarse como Paramétrica y No Paramétrica. Estadística Paramétrica. Son todas aquellas técnicas y herramientas estadísticas que utilizan variables cuantitativas, es decir, medibles. Estadística No Paramétrica. Son todas aquellas técnicas y herramientas estadísticas que utilizan variables cualitativas. Desde el punto de vista del número de variables sobre las cuales se basa el análisis matemático respectivo, siendo la estadística univariable la que utiliza una sola variable, mientras que la estadística multivariable analiza dos o más variables. Población. Conjunto de todas las posibles observaciones. Sinónimo de Conjunto Universal se le define como la totalidad de todas las posibles mediciones observables, bajo consideración en una situación dada por determinado problema, circunstancias diferentes implican situaciones diferentes. Probabilidad y Estadística Noviembre 2009 Las Poblaciones se clasifican en función a su cardinalidad. Población Finita. Es aquella que incluye un número limitado de medidas y observaciones. Población Infinita. Es aquella que por incluir un gran número de medidas y observaciones no es posible determinar la cantidad de éstas. En lo general, las características medibles de una población son denominadas Parámetros. Muestra. Conjunto de observaciones o medidas tomadas a partir de una población dada, es decir, es un subconjunto de la población. Desde luego, la cardinalidad de la muestra depende de la cardinalidad de la población. Las muestras deben ser representativas para evitar un sesgo u error. Estadísticos Muestrales1. En lo general, son las características medibles de una muestra El muestreo es la técnica seguida para obtener o extraer una muestra. Su ventaja radica en que nos permite conocer, con un grado de aproximación aceptable, a partir de sus características, las características propias de la población de la cual proviene. Esto resulta En la literatura suelen denominarse por igual estadísticos o estadísticas a las características de las muestras. 1 M.A. Víctor Damián Pinilla Morán. 2 invaluable, tomando en cuenta que en la mayoría de los casos, las características de las muestras son desconocidas. El sesgo es la diferencia que existe entre los datos obtenidos a través de una muestra y los datos reales (normalmente desconocidos) pertenecientes a la población. Puede interpretarse como un error absoluto entre un valor real y uno aproximado. Cuando se denomina como sesgado a determinado resultado se pretende establecer que su valor es diferente al real. Las técnicas de muestreo pueden clasificarse de la siguiente forma: Muestreo Estratificado. Esta técnica implica dividir a la población en clases o grupos denominados Estratos. Se supone que las unidades que componen al estrato, son relativamente homogéneas, con respecto a las características que vayan a estudiarse. A menudo se toma una razón de muestreo igual para todos los estratos generalmente en proporción; a una muestra seleccionada así, se le llama Muestra Estratificada Proporcional. (Se estudia sólo el estrato) Cuando la proporción de rastreo está directamente relacionada con la homogeneidad es decir entre más homogéneo sea el estrato menor será su proporción incluida en la muestra. A una muestra obtenida de esta forma se le denomina: Muestra estratificada Desproporcionada. (De una población normal se toma una muestra proporcional) Muestreo por Conglomerados. Este procedimiento implica la selección de grupos (conglomerados) a partir de la población, las diferencias entre conglomerados son generalmente pequeñas, aunque internamente sus unidades son heterogéneas. Cada conglomerado es una miniatura de la población. Muestreo Probabilístico. Es aquel en donde en la elección de una muestra interviene el azar. Muestreo No Probabilístico. Es aquel en donde en la selección de una muestra no interviene el azar. Muestreo sistemático. Se selecciona una muestra tomada cada k-ésima unidad de la población a la vez, una vez que las unidades de la población están arregladas de alguna forma. k, es la razón del muestreo. (En el metro, preguntar a cada 5 personas que pasan.) Muestreo Aleatorio Simple. Cada uno de los componentes de la muestra tienen la misma probabilidad de ser elegido. Puede ser: Con Reemplazo logra un número infinito de las muestras, lo que asegura la independencia estadística entre ellas. Sin Reemplazo logra un número finito de las muestras las cuales son estadísticamente dependientes. Probabilidad y Estadística Noviembre 2009 M.A. Víctor Damián Pinilla Morán. 3 Representación de los datos de una muestra. La Estadística Descriptiva se encarga de la obtención, organización, representación y descripción de los datos. general se coincide que no sean tan pocos que no resulte apropiada la agrupación de datos ni tantos que la haga poco práctica. En general, se recomienda que el número de intervalos no sea ni menor de cinco ni mayor a quince. La obtención de los datos se logra a través de las técnicas de muestreo, conforme al diseño del experimento seleccionado. Por otra parte, ciertos autores han establecido algunas reglas matemáticas para determinar el número de intervalos. Dos de ellas son: 1.2 Estadística descriptiva. Como se podrá observar más adelante, existen expresiones que permiten trabajar con la totalidad de los datos de la muestra; al arreglo que utiliza la totalidad de los datos se le conoce como datos no agrupados. Antes de la evolución tecnológica o bien, cuando los recursos de cómputo son limitados, trabajar con un número alto de datos resulta complicado. Por tal motivo, se conformó un arreglo de datos basado en intervalos conocido como tabla de frecuencias. Cuando se utiliza la tabla de frecuencias se dice que se trabaja con datos agrupados. Ahora bien, con el avance en los recursos de cómputo resulta ahora de lo más sencillo trabajar con datos no agrupados, lo que evita errores numéricos y los propios ocasionados por el agrupamiento de los datos en las tablas de frecuencia. No obstante, las tablas de frecuencias son necesarias para construir las representaciones gráficas de las muestras. Intervalos de clase. Se refiere a los intervalos en los cuales serán agrupados los n datos obtenidos en el muestreo. Una tabla de frecuencias se compone de un número finito de intervalos continuos, todos del mismo ancho. El número de intervalos es variable y su elección depende de la experiencia de quién construye la tabla. No existe consenso por parte de los autores para determinar el número óptimo de intervalos, pero en lo Probabilidad y Estadística Noviembre 2009 Ley de Sturges: # intervalos = 1 + 3.322 Log (n) # intervalos = n En ambos casos, n es el número total de datos. Lo que resulta importante, más que determinar el número de intervalos, es que estos cumplan con una serie de características: 1. Todos los intervalos deben tener el mismo ancho. 2. Un dato sólo puede pertenecer a un solo intervalo. 3. No debe haber intervalos vacíos. Ilustremos lo anterior con un ejemplo. Ejemplo. Los siguientes datos corresponden a 80 mediciones de la longitud de un travesaño parte de un chasis. Sus dimensiones son en centímetros. 50.1 50.6 50.7 51.1 52.0 50.8 51.4 49.9 51.8 51.3 50.6 49.1 51.4 51.8 51.3 51.5 51.0 50.9 50.3 51.2 51.1 51.8 51.9 50.3 51.1 51.1 51.7 50.2 50.5 51.6 50.8 51.0 50.4 51.5 50.8 51.2 50.1 51.5 51.7 51.9 52.2 50.8 51.7 51.7 49.4 50.3 52.1 51.0 51.7 51.9 51.9 51.8 51.0 50.3 50.3 51.3 51.0 50.2 50.4 51.6 51.2 51.1 49.5 49.9 51.1 51.7 52.8 49.6 49.6 53.1 52.0 49.7 52.0 49.7 51.2 51.8 51.1 51.3 51.2 51.8 M.A. Víctor Damián Pinilla Morán. 4 El primer paso para construir los intervalos de clase consiste en ordenar los datos de menor a mayor, sin eliminar ninguno de ellos. 49.1 49.4 49.5 49.6 49.6 49.7 49.7 49.9 49.9 50.1 50.1 50.2 50.2 50.3 50.3 50.3 50.3 50.3 50.4 50.4 50.5 50.6 50.6 50.7 50.8 50.8 50.8 50.8 50.9 51.0 51.0 51.0 51.0 51.0 51.1 51.1 51.1 51.1 51.1 51.1 51.1 51.2 51.2 51.2 51.2 51.2 51.3 51.3 51.3 51.3 51.4 51.4 51.5 51.5 51.5 51.6 51.6 51.7 51.7 51.7 51.7 51.7 51.7 51.8 51.8 51.8 51.8 51.8 51.8 51.9 51.9 51.9 51.9 52.0 52.0 52.0 52.1 52.2 52.8 53.1 Rango. Es la diferencia entre el dato mayor y el menor. Rango = 53.1 – 49.1 = 4.0 Número de intervalos. Es atribución del diseñador del experimento definir el número de intervalos con la recomendación de que no sean ni menos de cinco ni más de quince. No obstante, es posible utilizar como guía las siguientes expresiones: # intervalos = 1 + 3.322 Log (80) = 7.32 # intervalos = n = 80 = 8.94 Se conviene en establecer ocho intervalos Ancho del intervalo. Se define como: menor. Para motivos de nuestro ejemplo, comenzaremos en el dato menor. Clase 1 2 3 4 5 6 7 8 4.0 8 Uno de estos recursos consiste en aprovechar la uniformidad de los datos producto del diseño del experimento. En nuestro caso, el muestreo arrojó datos uniformes en el sentido de que todos ellos son compuestos por dos cifras enteras y una cifra decimal. Se puede proceder de dos formas: 1. Iniciar los intervalos un poco antes que el dato menor, por ejemplo en 49.05. Al establecer un límite de intervalos con una cifra decimal más, se minimiza la probabilidad de que algún dato coincida con alguna frontera. Sin embargo, el dato mayor quedará excluido del último intervalo, por lo que se deberá aumentar el ancho del intervalo. = 0.5 Todos los intervalos medirán 0.5 cm de ancho. Ahora bien, el primer intervalo puede comenzar justo en el dato más pequeño, aunque esto no es regla general; si al diseñador le conviene, puede empezar con un límite inferior menor al dato 2 Probabilidad y Estadística Noviembre 2009 49.6 50.1 50.6 51.1 51.6 52.1 52.6 53.1 A este respecto, algunos autores en apego fiel a la definición de intervalos expresan a los intervalos de clase en forma de intervalos abiertos por un extremo y cerrados por el otro (el extremo cerrado o abierto es decisión del diseñador)2. Sin embargo, por usos y costumbres y pensando en las representaciones gráficas de los datos, se utilizan algunos recursos para evitar esta eventualidad. Para nuestro ejemplo: = 49.1 49.6 50.1 50.6 51.1 51.6 52.1 52.6 Puede observarse que tanto el dato menor como el mayor son incluidos en algún intervalo; sin embargo, se produce un conflicto ya que algunos datos coinciden con las fronteras compartidas de los intervalos, lo cual no satisface la segunda característica de los intervalos de clase. W : Ancho del Intervalo Rango W= # intervalos W Intervalos de Clase Límite Límite Inferior Superior Se les denomina Límites Reales de Clase. M.A. Víctor Damián Pinilla Morán. 5 2. Aumentar el ancho de intervalo en una cifra decimal más que la que contienen los datos, por ejemplo, 0.55. Debe tomarse en cuenta que en determinado momento, la suma de los anchos de intervalo pueden hacer coincidir un dato. Resulta más conveniente utilizar 0.51 Clase 1 2 3 4 5 6 7 8 Intervalos de Clase Límite Límite Inferior Superior 49.10 49.61 50.12 50.63 51.14 51.65 52.16 52.67 49.61 50.12 50.63 51.14 51.65 52.16 52.67 53.18 Marcas de clase. Son los puntos intermedios de cada intervalo de clase. Clase 1 2 3 4 5 6 7 8 Ti = Lsup − Linf Intervalos de Clase Límite Límite Inferior Superior 49.10 49.61 49.61 50.12 50.12 50.63 50.63 51.14 51.14 51.65 51.65 52.16 52.16 52.67 52.67 53.18 50.1 50.2 50.2 50.3 50.3 50.3 50.3 50.3 50.4 50.4 50.5 50.6 50.6 50.7 50.8 50.8 50.8 50.8 50.9 51.0 51.0 51.0 51.0 51.0 51.1 51.1 51.1 51.1 51.1 51.1 51.1 51.2 51.2 51.2 51.2 51.2 51.3 51.3 51.3 51.3 51.4 51.4 51.5 51.5 51.5 51.6 51.6 51.7 51.7 51.7 51.7 51.7 51.7 51.8 51.8 51.8 51.8 51.8 51.8 51.9 51.9 51.9 51.9 52.0 52.0 52.0 52.1 52.2 52.8 53.1 Naturalmente, la suma de todas las frecuencias debe coincidir con el número total de datos (n). Este último arreglo garantiza el cumplimiento de las tres características de los intervalos de clase. Ti : Marca de Clase 49.1 49.4 49.5 49.6 49.6 49.7 49.7 49.9 49.9 50.1 2 Frecuencia Relativa. Se refiere a la frecuencia de cada una de las clases dividida entre el número total de datos (n). De aquí se deriva la interpretación frecuentista de la probabilidad. F 'i : Frecuencia relativa de la i-ésima clase F F 'i = i n Comprobando el axioma de la probabilidad para variables aleatorias discretas: P( x) = 1 , la Marcas de Clase 49.36 49.87 50.38 50.89 51.40 51.91 52.42 52.93 ∑ ∀X suma de todas las frecuencias relativas debe ser la unidad. Frecuencia Acumulada. Son los datos acumulados desde el primer dato hasta la i-ésima clase. Faci : Frecuencia Acumulada de la i-ésima clase. Frecuencia. Es el número de datos que pertenece a cada intervalo de clase. Fi : Frecuencia de la i-ésima clase Probabilidad y Estadística Noviembre 2009 Este concepto coincide con el particular de Función de Distribución o Función de Probabilidad Acumulada. Debe destacarse que la Frecuencia Acumulada de la última clase debe coincidir con el número total de datos (n). M.A. Víctor Damián Pinilla Morán. 6 Frecuencia Acumulada Relativa. En la frecuencia acumulada de la clase i-ésima entre el numero total de datos (n). F ' aci : Frecuencia Acumulada Relativa F ' aci = Faci n El polígono de frecuencias es una línea quebrada que une los puntos de intersección de la abscisa que corresponde a la marca de clase con la ordenada que puede ser la frecuencia o la frecuencia relativa. El polígono se cierra con el eje horizontal al iniciarlo en el límite inferior del primer intervalo de clase y concluirlo en el límite superior del última intervalo de clase. De la misma forma, se comprueba que P( x) = 1 ya que la frecuencia relativa de la ∑ ∀X última clase, debe ser la unidad. La tabla completa queda de la siguiente forma: Clase 1 2 3 4 5 6 7 8 Σ Intervalos de Clase Límite Límite Inferior Superior 49.10 49.61 49.61 50.12 50.12 50.63 50.63 51.14 51.14 51.65 51.65 52.16 52.16 52.67 52.67 53.18 Marcas de Clase 49.36 49.87 50.38 50.89 51.40 51.91 52.42 52.93 Esta tabla se conoce como Distribución de Frecuencias. Representación gráfica de la distribución de frecuencias. Una forma muy rápida y efectiva de interpretar la información contenida en una distribución de frecuencias consiste en graficar sus elementos. Básicamente existen representaciones: tres tipos El Histograma en una gráfica de barras o columnas que se construye en un sistema coordenado en cuyo eje horizontal o de abscisas se detallan los intervalos de clase y en el eje vertical o de ordenadas se ubican las frecuencias o las frecuencias relativas. Frecuencia Frecuencia Relativa 5 6 12 18 16 20 2 1 80 0.06 0.08 0.15 0.23 0.20 0.25 0.03 0.01 1.00 Frecuencia Frecuencia Acumulada Acumulada Relativa 5 0.06 11 0.14 23 0.29 41 0.51 57 0.71 77 0.96 79 0.99 80 1.00 Cuando un polígono se dibuja sobre un histograma de la misma distribución, la línea quebrada une los centros de las bases superiores de los rectángulos del histograma. Las ojivas de frecuencias son líneas quebradas que se trazan por los puntos de intersección de las coordenadas que corresponden a las marcas de clase y sus respectivas frecuencias acumuladas o frecuencias acumuladas relativas. de Histograma Representaciones Gráficas Polígono de frecuencias Ojiva de frecuencias Probabilidad y Estadística Noviembre 2009 M.A. Víctor Damián Pinilla Morán. 7 20 18 20 16 12 15 10 5 6 2 5 1 0 49 . 1 0 49. 61 50. 12 50. 63 5 1. 14 5 1. 65 52. 16 52. 67 5 3. 18 Histograma 20 20 18 16 15 12 10 5 5 6 2 0 49.36 49.87 50.38 50.89 51.40 51.91 52.42 1 52.93 Polígono de frecuencias 100 80 60 77 79 80 51.91 52.42 52.93 57 41 40 23 20 5 0 49.36 11 49.87 50.38 50.89 51.40 Ojiva de frecuencias Probabilidad y Estadística Noviembre 2009 M.A. Víctor Damián Pinilla Morán. 8 Medidas descriptivas. Estos índices permiten caracterizar a las distribuciones de frecuencias para poder hacer una interpretación acertada de la misma. representar de la mejor forma a los datos de los cuales proviene. Esta representación puede lograrse de varias formas. Media Aritmética En lo general, todas estas medidas pueden ser calculadas para datos no agrupados y para datos agrupados. Cuando se datos agrupados se trata, se utiliza la información contenida en la distribución de frecuencias lo que realmente implica una simplificación, ya que se considera que todos los datos que se ubican en un mismo intervalo de clase (frecuencia) son iguales y se ubican sobre la marca de clase respectiva. Naturalmente, esta simplificación origina un error en los cálculos, mismo que no se considera significativo y que puede reducirse utilizando intervalos de confianza angostos. Medidas de Tendencia Central. Son aquellas medidas que nos proporcionan un dato que, con ciertos matices, puede considerarse representante de los n datos obtenidos del muestreo. Media. Tradicionalmente se considera a la media como un promedio aritmético de n datos. En realidad es más que esto. La media pretende Probabilidad y Estadística Noviembre 2009 n X = Para datos no agrupados: ∑X i =1 i n donde n es el número total de datos. Para datos agrupados: k X= ∑F T i i =1 n i k = ∑ F 'i Ti i =1 Donde: Fi es la frecuencia de la i-ésima clase Ti es la marca de clase de la i-ésima clase F 'i es la frecuencia relativa de la i-ésima clase k representa el total de clases de la distribución M.A. Víctor Damián Pinilla Morán. 9 Como dato representante de una muestra, la media aritmética presenta el problema de los datos ubicados en los extremos de la muestra, los más pequeños y los más grandes, que en la generalidad suelen ser pocos, sesgan o inducen un error en el resultado. La media aritmética nunca debe utilizarse por sí sola para hacer alguna conclusión sobre la muestra, resulta conveniente acompañarla de alguna medida de dispersión como se verá más adelante. Media Ponderada. A diferencia del promedio aritmético, el promedio ponderado toma en cuenta la existencia de los elementos además de su valor a promediar. Es decir, al tomar en cuenta el número de elementos repetidos minimiza la posibilidad de uno o dos datos extremos modifiquen dramáticamente el resultado. La media ponderada corresponde directamente al valor esperado o esperanza matemática estudiado en Probabilidad. Para calcular la media ponderada de n datos (datos no agrupados) es necesario contar todos ellos para establecer cuantos de ellos se repiten. En la práctica, esto implica ordenarlos, motivo por el cual no se acostumbra su cálculo en esta modalidad. Por otra parte, como puede observarse, la media ponderada para datos agrupados coincide con la media aritmética para datos agrupados, si consideramos un punto de vista frecuentista de la probabilidad, ya que la frecuencia de la clase i-ésima dividida entre el número total de datos es la probabilidad de que un dato pertenezca a la clase respectiva, mientras que la marca de clase representa el valor específico del dato. k X= ∑F T i i =1 i n k = ∑ F 'i Ti i =1 Media geométrica. En la práctica suele obtenerse a través de logaritmos. Log (G ) = 1 [Log ( X 1 ) + Log ( X 2 ) + Log ( X 3 ) + ... + Log ( X n )] n Media armónica. La media armónica de una serie de números es el recíproco de la media aritmética de los recíprocos de los números. X= 1 n 1 1 ∑ n i =1 X i = n n 1 ∑n i =1 en la práctica se utiliza: n 1 = X 1 ∑X i =1 i n Mediana. Es el dato que divide exactamente a la mitad a la muestra. n impar n par Se muestran los dos posibles casos de la mediana con datos no agrupados, en el primer caso la muestra está compuesta por un número non de observaciones. La mediana es el dato que se encuentra exactamente a la mitad de la muestra ordenada. (de menor a mayor por ejemplo); esto se puede entender considerando una balanza que contiene los datos; para que esté equilibrada debe existir el mismo número de datos de cada lado, por lo que la mediana será la que quede situada en el centro de la balanza. X = n X 1 ⋅ X 2 ⋅ X 3 ⋅ ... ⋅ X n Probabilidad y Estadística Noviembre 2009 M.A. Víctor Damián Pinilla Morán. 10 El segundo caso cuando la muestra está compuesta por un número par de observaciones. En este caso, la mediana es el promedio de los dos valores centrales. Para su cálculo como dato no agrupado es necesario ordenar los datos en forma descendente o ascendente y atender la siguiente regla, de acuerdo a la naturaleza del número total de datos n: Si n es impar: med = X n +1 2 Xn +Xn Si n es par: med = 2 2 +1 2 Como puede observarse, cuando el número de elementos es par no hay un valor que se encuentre exactamente a la mitad de la muestra; en este caso se pueden promediar los dos valores más cercanos a la mitad. Para nuestro caso, n es par e igual a 80. De tal forma: X 80 + X 80 med = 2 2 2 +1 = X 40 + X 41 51.1 + 51.1 = = 51.1 2 2 Para su cálculo como dato agrupado, la mediana se obtiene determinando cual es la clase que incluye a la mediana, la cual se distingue porque tiene una frecuencia acumulada relativa mayor o igual a 0.5 (50% de los datos). Para obtener una expresión que permita su cálculo, a partir de la ojiva de frecuencias acumuladas relativas se puede aproximar su mediana trazando una línea horizontal a partir de la ordenada 0.5 (o 50%) hasta cortar la gráfica y en dicho punto localizar el correspondiente en el eje de las abscisas. Fac w n n 2 Fk F’ack-1 Linfk Probabilidad y Estadística Noviembre 2009 Med Lsupk M.A. Víctor Damián Pinilla Morán. 11 A partir de una interpolación lineal, se utiliza la ecuación de la recta: y = y0 + m( x − x0 ) de acuerdo con la anterior figura: y = 0.5 y = F ' ack −1 x = med x 0 = Liminf m= f 'k w donde: k : Clase donde se ubica a la mediana F ' ack : Frecuencia acumulada relativa de la clase anterior a la en que se encuentra la mediana f 'k : frecuencia de la clase donde se ubica la median w : ancho del intervalo Liminf : Límite inferior de la clase donde se ubica la mediana. Sustituyendo los valores: 0.5 = F ' ac k −1 + f 'k (me − Lminf ) w para nuestro ejemplo, la clase mediana (o la que incluye a la mediana) es la clase 4, ya que su frecuencia acumulada relativa es de 0.51. De tal forma: ⎛ 80 ⎞ ⎜ − 23 ⎟ ⎟(0.51) = 51.11 med = 50.63 + ⎜ 2 ⎜ 18 ⎟ ⎜ ⎟ ⎝ ⎠ Moda. Es el elemento de la muestra que más se repite. Una muestra puede tener una o más modas. Cuando todos los elementos de la muestra son diferentes, no tiene sentido hablar de ella. Para datos no agrupados, la moda se determina por inspección, mientras que para datos agrupados se puede aproximar con la marca de clase del intervalo de la clase modal, que es la que tenga la mayor frecuencia. En algunos casos se puede mejorar la aproximación considerando que la moda es la abscisa del máximo de una curva hipotética que pasa por las marcas de clase, como se observa: R D1 E S P D2 T despejando: med = Liminf F w (0.5 − F ' ac k −1 ) + f 'k Q No obstante, por motivos generalistas, resulta mejor expresar a la mediana en función de frecuencias absolutas en lugar de relativas: X Linf med = Liminf Lsup ⎛n ⎞ ⎜ − Fac k −1 ⎟ ⎟w +⎜ 2 ⎜ ⎟ Fk ⎜ ⎟ ⎝ ⎠ Probabilidad y Estadística Noviembre 2009 mod M.A. Víctor Damián Pinilla Morán. 12 Medidas de dispersión. Estas medidas reflejan la separación o alejamiento de los elementos de una muestra. Estas medidas deben acompañar a las medidas de tendencia central, particularmente a la media, para evitar los efectos que los datos extremos tienen sobre ellas. De acuerdo con lo anterior, se puede considerar que la moda debe pertenecer al intervalo de clase con máxima frecuencia, pero proporcionalmente más cercano al intervalo adyacente que le siga en frecuencia, de esta manera se puede plantear la proporción (triángulos semejantes): EP PF = RQ ST ⎯ ⎯→ La medida de dispersión más sencilla es el Rango, amplitud o recorrido, que como ya se mencionó es la diferencia entre el dato mayor y del menor. Mod − Linf Lsup − Mod = D1 D2 (Mod − Linf )D2 = (Lsup − Mod )D1 Varianza. Tal y como la define la probabilidad, la varianza de una variable aleatoria es el segundo momento de la misma con respecto a la media. Asimismo, se interpreta de la misma forma, como un promedio de las distancias de cada dato hacia la media. Mod (D1 − D2 ) = Linf D2 + Lsup D1 Si: w = Lsup − Linf ⎯ ⎯→ Lsup = Linf + w sustituyendo Momentos Mod (D1 − D2 ) = Linf D2 + (Linf + w)D1 mk = L (D + D2 ) + wD1 Mod = inf 1 D1 + D2 Mod = Linf para mk = agrupados: para datos 1 k Fi (Ti − X ) ∑ n i =1 agrupados: r 3 Para datos no agrupados la varianza se define como: donde: ∑ (X 2 −X) n Linf : Límite inferior de la clase modal w : ancho del intervalo D1 :diferencia de las frecuencias de la σ = 2 clase modal y la premodal D2 : diferencia de las frecuencias de la clase modal y la postmodal i =1 i n Esta fórmula puede expresarse de una forma más sencilla a partir del desarrollo del binomio al cuadrado: para nuestro ejemplo, la clase modal es la número 6. Dado lo anterior: ∑ (X 2 n σ = 2 ⎛ 4 ⎞ mod = 51.65 + ⎜ ⎟(0.51) = 51.7 ⎝ 4 + 18 ⎠ σ = 2 A partir de la inspección de la muestra, el dato que más se repite es 51.1 con siete repeticiones. no 1 ∑ (X i − X ) n i =1 Momentos ⎛ D1 ⎞ ⎟⎟ w + ⎜⎜ ⎝ D1 + D2 ⎠ datos k n i =1 i −X) = n n n i =1 i =1 ∑ (X n i =1 ∑ X i2 − 2 X ∑ X i + n X n 2 i − 2X i X + X 2 ) n n 2 1 n = ∑ X i2 − 2 X n i =1 ∑X i =1 3 En este caso r representa el total de clases, haciendo una distinción con k, que es el orden del momento. Probabilidad y Estadística Noviembre 2009 M.A. Víctor Damián Pinilla Morán. 13 n i +X 2 n ya que X = ∑X i =1 i sustituyendo n σ2 = 1 2 2 X i2 − 2 X − X ∑ n Desviación media. Ciertos autores opinan que para obtener el promedio de las distancias de cada dato con respecto a la media debe obtenerse el valor absoluto de la distancia entre ambos puntos y después obtenerse su promedio. De tal forma, la desviación media (para datos no agrupados) se define como: n σ2 = n 1 2 X i2 − X ∑ n i =1 Para datos agrupados: Desviación Media = ∑X i =1 Utilizando esta última expresión, para nuestro ejemplo la varianza es de: σ 2 = 0.6564 Por otra parte, utilizando la fórmula para datos no agrupados: σ 2 = 0.6308 Desviación estándar. Es fácil de percibir, a partir de un análisis dimensional, que la varianza posee las unidades de la variable muestreada elevada al cuadrado. Esta situación no permite una rápida visualización o interpretación de la dispersión de los datos. En virtud de lo anterior, la desviación estándar es la raíz cuadrada de la varianza: σ = σ2 La desviación estándar también es conocida como desviación típica o error estándar. Probabilidad y Estadística Noviembre 2009 −X n Asimismo, algunos autores utilizan como referencia a la mediana en lugar de la media. n r 1 r 2 2 σ 2 = ∑ Fi (Ti − X ) = ∑ F ' i (Ti − X ) n i =1 i =1 i Desviación Media = ∑X i =1 − med i n Es necesario comentar que debido a las complejidades que implica el manejo del valor absoluto, estos conceptos no son muy socorridos. Asimetría. Esta medida, también llamada sesgo, tiene como finalidad mostrar hacia qué lado de le media se ubican más datos. Corresponde al tercer momento con respecto a la media determinar esta situación. No obstante, en situación similar a lo que ocurre con la varianza, el tercer momento posee las unidades de la variable muestreada elevada al cubo. Con el fin de volver adimensional al tercer momento, se define al coeficiente de asimetría de la siguiente forma: α3 = ( m3 m2 = m3 ) (σ ) 3 3 2 2 Este coeficiente tiene como referencia al valor cero. Si: α 3 = 0 La distribución es simétrica, es decir, existe la misma cantidad de datos a ambos lados de la media. M.A. Víctor Damián Pinilla Morán. 14 Esto implica que debe cumplirse la siguiente relación: X = med = mod Si: α 3 < 0 La distribución es asimétrica negativa, es decir, existen más datos a derecha de la media. Datos no agrupados: α 3 = − 0.28 Datos agrupados: α 3 = − 0.2382 Implica que se trata de una curva asimétrica negativa. Comprobando lo anterior: X = 51.0571 med = 51.1117 mod = 51.7423 Esto implica que debe cumplirse la siguiente relación: mod = med = X mod < med < X Si: α 3 > 0 La distribución es asimétrica positiva, es decir, existen más datos a izquierda de la media. Esto implica que debe cumplirse la siguiente relación: X > med > mod α3 = 0 Apuntamiento. Corresponde al cuarto momento con respecto a la media identificar a una medida que auxiliar directamente a las medidas de dispersión. El apuntamiento o curtosis4 detalla lo puntiagudo o aplastado de una distribución. Una distribución puntiaguda implica que los datos están más cercanos a la media lo que a su vez arroja una varianza pequeña. En caso contrario, una distribución aplastada implica que los datos se alejan de la media, lo que implica una varianza grande. El cuarto momento con respecto a la media posee las unidades de la variable muestreada elevadas a la cuarta potencia. Para mejorar una posible interpretación, se define al coeficiente de apuntamiento o coeficiente de curtosis: α3 > 0 α3 < 0 α4 = m4 (m2 ) 2 = m4 (σ ) 2 2 El valor de referencia de este coeficiente es tres. Algunos autores, para homologar el uso de este coeficiente con el de simetría, disminuyen en tres unidades el valor obtenido y así logran que el valor de referencia sea cero. α4 = m4 (m2 ) 2 −3= m4 (σ ) 2 2 −3 Para nuestro ejemplo: 4 Probabilidad y Estadística Noviembre 2009 Kurtosis en Inglés M.A. Víctor Damián Pinilla Morán. 15 El lector deberá estar atento a esta situación, ya que la gran mayoría de los programas de computadoras realizan su comparación contra el cero. La interpretación es la siguiente: Si α 4 = 0 (o tres), se trata de una distribución mesocúrtica. Si α 4 > 0 (o tres), se trata de una distribución Leptocúrtica (o puntiaguda). Si α 4 < 0 (o tres), se trata de una distribución Platicúrtica (o aplastada). Fractiles. Si una serie de datos que se colocan en orden de magnitud, el valor medio (o la media aritmética de los dos valores medios) que divide al conjunto de datos en dos partes iguales es la mediana. Por extensión, de esta idea se puede pensar en aquellos valores que dividen a los datos en cuatro partes iguales. Estos valores se llaman primero, segundo y tercer cuartíl, respectivamente; el segundo cuartíl corresponde a la mediana de la distribución. Análogamente, los valores que dividen a la distribución en diez partes iguales se denominan deciles, mientras que aquellos que lo hacen en cien partes iguales se llaman percentiles. El quinto decíl y el quincuagésimo percentil corresponden a la mediana. Para nuestro ejemplo: α = − 0.1121 4 Para datos no agrupados: Para datos agrupados: α = − 0.4986 El cálculo de los fractiles es bajo el mismo procedimiento utilizado para la mediana. 4 ⎛ n ⋅ fracción − Fac k −1 ⎞ ⎟⎟ w Fractil = Liminf + ⎜⎜ Fk ⎝ ⎠ donde: Probabilidad y Estadística Noviembre 2009 M.A. Víctor Damián Pinilla Morán. 16 Liminf : n: fracción : Fack −1 : Fk : w: Límite inferior de la clase en que se ubica el fractil buscado. Total de datos de la distribución. Porcentaje de la muestra buscado. Frecuencia acumulada de la clase anterior a aquella en que se ubica el fractil buscado. Frecuencia de la clase en la cual se ubica el fractil buscado. Ancho del intervalo. Asimismo, si se restan el tercer y primer cuartíl estaremos acotando el 50% de la distribución, pero centrada en torno a la mediana. A esta distancia se le conoce como distancia intercuartílica. Análogamente, a la diferencia entre el noveno y el primer decíl se le conoce como distancia interdecílica y acta al 80% de la población centrada en torno a la mediana. Para el ejemplo desarrollado, los cálculos son los siguientes: Primer cuartíl (ubicado en la tercera clase) El procedimiento es análogo al utilizado para calcular la mediana. Con auxilio de la frecuencia acumulada relativa debe ubicarse la clase en la cual se ubica el fractil buscado. Por ejemplo, si de desea calcular el primer cuartíl debe ubicarse la clase que incluye a la frecuencia acumulada relativa al 0.25 o 25%; para el tercer cuartíl corresponde al 0.75 o 75% de la distribución; para noveno decíl ocurre a .90 o 90%. La fracción corresponde a la parte de la distribución en la que se desea dividir, por ejemplo, para la mediana o mitad de la distribución la fracción fue primer cuartíl será 1 4 1 o 0.5, para el 2 o 0.25 y Una forma de interpretar la información que nos entregan los fractiles consiste en ubicar los límites que comprenden las fronteras mismas que son los fractiles. Por ejemplo, la mediana nos ubica a la frontera que divide en dos partes iguales a la muestra. Pero además implica que la primer parte de la muestra inicia en el límite inferior de la primera clase y concluye en la mediana, así como que la segunda parte inicia en la mediana y concluye en el límite superior del último intervalo de clase. Noviembre 2009 Tercer cuartíl (ubicado en la sexta clase) ⎡ (80)(.75) − 57 ⎤ Q3 = 51.65 + ⎢ ⎥⎦ (0.51) = 51.7265 20 ⎣ Distancia intercuartílica: 51.7265 – 50.5025 = 1.224 Primer decíl (ubicado en la segunda clase) así consecutivamente. Probabilidad y Estadística ⎡ (80 )(.25) − 11⎤ Q1 = 50.12 + ⎢ ⎥⎦ (0.51) = 50.5025 12 ⎣ ⎡ (80(0.1) − 5) ⎤ D1 = 49.61 + ⎢ ⎥⎦ (0.51) = 49.8650 6 ⎣ Noveno decíl (ubicado en la sexta clase) ⎡ (80 )(0.9 ) − 57 ⎤ D9 = 51.56 + ⎢ ⎥⎦ (0.51) = 52.0325 20 ⎣ Distancia interdecílica: 52.0325 – 49.8650 = 2.1675 M.A. Víctor Damián Pinilla Morán. 17 Como conclusión de este capítulo, se muestra una tabla resumen con las medidas descriptivas del ejemplo que se ha desarrollado a lo largo del mismo. Datos no agrupados n Rango Sturges n 80 4.0 7.32 8.94 51.0625 media= mediana= moda= Varianza= 0.6308 Desv. Est.= 0.7943 Asimetría= -0.2800 Apuntamiento= -0.1121 Primer cuartil= 50.4750 Tercer cuartil= 51.7000 Primer decil= 49.9000 Noveno decil= 51.9 Datos Agrupados media= mediana= moda= Varianza= Desv. Est.= Asimetría= Apuntamiento= Primer cuartil= Tercer cuartil= Primer decil= Noveno decil= 51.0571 51.1117 51.7427 0.6564 0.8102 -0.2382 -0.4986 50.5025 51.7265 49.8650 52.0325 Bibliografía Taro Yamane, Estadística, Editorial Harla, México 1999. Spiegel, Estadística Serie Schaum, Edit. Mc. Graw Hill, México 1999. Frontana et al, Apuntes de Probabilidad y Estadística, Facultad de Ingeniería, México 1985 Berk & Carey, Análisis de datos con Microsoft Excel, Edit. Thompson Learning, México 2001 Canavos, Probabilidad y Estadística, Mc. Graw Hill, México 1994. Captura y Edición: M.A. María Torres Hernández. Probabilidad y Estadística Noviembre 2009 M.A. Víctor Damián Pinilla Morán. 18