UNIDAD 3 ESTADÍSTICA DESCRIPTIVA OBJETIVO El estudiante será capaz de recopilar, presentar, describir, analizar y elaborar gráficos e interpretar compilaciones de datos, asimismo podrá presentar conclusiones sobre uno o dos elementos de información que caractericen la totalidad de éstos, con el fin de identificar la medida en que los datos se agrupan o dispersan en torno a un valor central. TEMARIO 3.1 EXPERIMENTACIÓN 3.2 CONCEPTOS 3.3 PRESENTACIÓN DE DATOS 3.4 MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN PARA DATOS NO AGRUPADOS 3.5 MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN PARA DATOS AGRUPADOS 84 MAPA CONCEPTUAL Varianza Desviación estándar Coeficiente de variación Compilación de datos son Medidas de tendencia central se mide mediante Moda Media Mediana son Medidas de dispersión mediante Censos o muestreo permite Estadística descriptiva requiere Definiciones preliminares la información se representa con Gráfico y tablas 85 INTRODUCCIÓN Resulta importante conocer la estadística descriptiva sin importar la profesión que se haya elegido, ya que es una herramienta que permite mostrar a los estudiantes o profesionistas cómo organizar y resumir datos. La ordenación y la recopilación de datos puede presentar variabilidad o incertidumbre para los estudios encomendados y el solo hecho de conocerlos permite en su momento hacer correcciones ante alguna anomalía, de ahí la importancia de realizar los cálculos de las medidas de tendencia central o dispersión. Un gran apoyo para la estadística descriptiva es la presentación de los datos por medio de tablas o de gráficas, simplemente porque sintetizan un gran acervo de información y es más sencillo valorar todos los datos de un fenómeno en general con ellas. 86 3.1 EXPERIMENTACIÓN Para lograr entender la experimentación en estadística, sobre todo dentro de la descriptiva, es importante mencionar que la probabilidad es la base del estudio de la estadística ya que se interesa por estudiar las muestras de la población. Para Wayne W. Daniel, estadística4 es “la recopilación, organización, y resumen de los datos y la obtención de inferencias acerca del conjunto de datos cuando se observa una parte de ello”; de acuerdo con lo anterior, se puede decir que la estadística es la presentación de los datos pero que parte desde su obtención, recolección e interpretación y la toma de decisiones para la población de acuerdo con el resultado obtenido por la muestra trabajada. La estadística se divide en dos áreas de estudio, la estadística descriptiva, que se estudia en este apartado, y la inferencial que se estudiará en la siguiente unidad y será definida posteriormente. La descriptiva estudia la parte de la ordenación y la presentación de datos de manera sencilla, por lo tanto, describe las variables con las que se trabaja y para este caso son las del tipo aleatorio, las cuales ya fueron explicadas en la primera unidad. En estadística existen dos tipos de estudio para la casualidad: el experimental y el observacional; en el caso del primero se puede medir el estudio, por tanto hay manipulación en el experimento y en el segundo caso, no existe manipulación en la experimentación. La experimentación depende del grado de conocimiento que se tiene, gracias a la información obtenida en estadística. Los métodos de experimentación que se emplean son el diagrama de árbol y los principios básicos de conteo, estudiados anteriormente. En algunas ocasiones, el conteo de los elementos de forma individual se puede realizar con apoyo del diagrama de árbol (éste es la representación gráfica de las posibilidades de un evento). El diagrama de árbol se realiza partiendo de una rama que contiene cada una de las posibilidades, y cabe la posibilidad de crear nuevas ramas. 4 Daniel Wayne W., Bioestadística, 3a. ed., Limusa, 1993, p. 18. 87 Ejemplo: suponga que una agencia de viajes ofrece dos destinos turísticos, uno con playa y otro sin playa, y en cada uno de estos destinos se ofrece la trasportación, área o terrestre; entonces el diagrama de árbol se representa de la siguiente manera: Avión Centro turístico playa Camión Inicio Avión Centro turístico no playa Camión ACTIVIDAD DE APRENDIZAJE Realizar el diagrama de árbol en los siguientes ejercicios: a) En un restaurante se ofrece un desayuno en tres tiempos, el primer tiempo es jugo o fruta, el segundo tiempo es huevo, molletes o chilaquiles y el tercer tiempo es crepa o helado. Representar el diagrama de árbol respectivo. b) En la rifa de fin de año de una empresa, se sortean 2 regalos, una televisión y un DVD, y los departamentos que entran a la rifa son Contabilidad, con 3 trabadores; Ventas, con 6 trabajadores; Compras, con 2 trabajadores, y Finanzas, con 4 trabajadores. Representar el diagrama de árbol respectivo. 3.2 CONCEPTOS Para poder entender la representación de los datos y su cálculo, es necesario esclarecer algunos conceptos. La población es el conjunto de personas, animales o cosas que tienen una característica en común y que son susceptibles de medirse; pero sucede 88 que existen poblaciones que suelen ser muy grandes y es complicado trabajar con ellas, primero porque implica tener costos elevados y segundo, se requiere una mayor inversión en tiempo para el estudio, o bien es más difícil la observación de los elementos estudiados, es por esta razón que se requiere trabajar con la muestra, la cual es un subconjunto de la población que se estudia. Lo que se estudia en cada muestra son las variables, las cuales son de dos tipos: cualitativas y cuantitativas. Las primeras representan las cualidades de los datos y se clasifican por medio de categorías, por ejemplo, si realizamos un estudio de adiestramiento canino, una variable de tipo cualitativo puede ser la raza del perro. Las variables de tipo cuantitativo son medibles, y se representan de forma numérica, por ejemplo el número de perros que participa en el estudio. En estadística se trabaja con variables, cuando éstas son cuantificadas dentro de una población, reciben el nombre de parámetros, y cuando es dentro una muestra, reciben el nombre de estimadores. Existen diferentes tipos de poblaciones y muestras. La población en estadística puede ser finita o infinita, la primera es la que tiene una cantidad exacta, es decir, una cifra limitada y por tanto los elementos se pueden numerar; la segunda es incuantificable, es decir, no tiene fin y no sabemos exactamente cuántos elementos contiene, por ejemplo, el pelo de un gato o la arena del mar. El muestreo puede ser de tipo probabilístico y no probabilístico. El primero, hace mención a su nombre, es cuando todos los elementos de la población tienen la misma probabilidad de pertenecer a la muestra; en el segundo, el investigador selecciona los elementos de la muestra de acuerdo con sus criterios. El muestreo probabilístico puede ser, a su vez, estratificado, simple o de conglomerados. El muestreo estratificado se divide por estratos homogéneos de la población de acuerdo con las mismas características. El muestreo simple consiste en elaborar una lista de la población y mediante números aleatorios se 89 selecciona cada uno de los elementos de la muestra. Finalmente, el muestreo por conglomerados consiste en elaborar subgrupos homogéneos de elementos de grupos ya existentes o previamente definidos. El muestreo no probabilístico puede ser por juicios, donde la muestra es elegida por el experto con los elementos más representativos y usualmente se emplea para muestras de tamaño pequeño. ACTIVIDAD DE APRENDIZAJE Elaborar un cuadro comparativo de los diferentes tipos de muestreo que incluya tres ejemplos de cada uno. 3.3 PRESENTACIÓN DE DATOS En estadística descriptiva se trabaja en la obtención, la ordenación y la presentación de datos, buscando que la información sea confiable y se exprese de manera simple y sencilla. Los datos se pueden presentar por medio de cuadros numéricos o gráficos. La presentación de datos por cuadros numéricos de la información, a su vez, se hace por representación tabular. Es decir, es presentada en filas y columnas, con título (que es el objeto del cuadro), columna principal, lugar donde se anotan categorías, encabezado de las columnas, explicación del objeto de las columnas, cuerpo donde se anota la información y notas de pie en las que se aclara la información. Ejemplo: una consultoría que se dedica a realizar estimadores, calculó la siguiente información de la Encuesta Nacional de Empleo: el número de personas pertenecientes a la licenciatura concluida en Economía, en hombres es de 49,755 y en mujeres 16,568; la población económicamente activa en hombres es de 43,874 y en mujeres 15,959 y, finalmente, la población no económicamente activa en hombres es de 5,881 y en mujeres 609, lo cual 90 resulta en un total de 66,323; 59,833 y 6,490, respectivamente; lo anterior se representa de la siguiente manera: Población con licenciatura concluida en Economía, según condición de actividad y sexo Sexo / Condición Población con Población Población no de actividad licenciatura económicamente económicamente concluida activa activa (1) (2) (3) Personas Personas Personas Hombres 49,755 43,874 5,881 Mujeres 16,568 15,959 609 Total 66,323 59,833 6,490 Elaboración propia. La representación gráfica, es la otra alternativa para presentar los datos. Un gráfico en general debe contener el título, claro y completamente definido, además las unidades en que se expresa la medición, información suficiente que permita cotejar la validez de los argumentos y la fuente de la información. Los principios básicos de un gráfico son simplicidad, fidelidad, ayuda y respuesta del objetivo planteado. Las reglas de los gráficos incluyen la participación de la población en cada una de las observaciones y la ordenación de éstas. Existen gráficos que facilitan la representación de los datos dependiendo de las variables de estudio. Para las variables cualitativas son representativas las de pastel, barras simples, barras múltiples, barras compuestas; para las cuantitativas, funcionan muy bien histogramas, polígonos de frecuencia, ojivas y diagramas de caja y bigote. a) Gráfica de pastel. Representa las frecuencias relativas (la frecuencia relativa es un determinado valor con respecto al número total de datos) o porcentuales. Dibujar la gráfica de pastel es sencillo, solamente se traza un círculo y se divide según el número de 91 frecuencias, lo ideal es representar menos de siete datos en este tipo de gráficos. Ejemplo: una consultoría calculó que la población económicamente activa de estudiantes egresados de la carrera de economía es de 86% y la población no económicamente activa es de 14%: Población Económicamente Activa (PEA) y Población No Económicamente Activa (PNEA) con licenciatura concluida en Economía 66,323 86% Elaboración propia 11,172 PEA 14% PNEA 5 b) Gráfica de barras. Representa datos del tipo cualitativos que se han resumido en una distribución de frecuencias; en el eje horizontal se expresan los indicadores o nombres de cada clase y en el eje vertical la escala de frecuencia. Ejemplo: una consultoría representó la PEA y la PNEA de hombres y de mujeres en el segundo trimestre del 2010: 5 Fuente: Encuesta Nacional de Ocupación y Empleo, segundo trimestre de 2010. 92 Población Económicamente Activa y Población No Economicamente Activa Mujeres Hombres, PEA, 49,755 Mujeres, PEA, 16,568 Hombres Hombres, PNEA, 5,011 Mujeres, PNEA, 6,161 6 Elaboración propia. c) Gráfica de barras múltiples. Sirve para representar frecuencias observadas en clasificaciones dobles, es decir, cuando son más de dos criterios de clasificación porque representan dos variables o más de acuerdo con el número de clases (las barras se colocan juntas de acuerdo con su clasificación). Ejemplo: una consultoría representó el crecimiento poblacional en México de hombres y mujeres en tres periodos: Población Crecimiento poblacional en México Hombres Mujeres Año 7 Elaboración propia. d) Gráfica de barras compuestas. Representa frecuencias relativas en forma porcentual, y clasificaciones dobles; se divide de manera 6 7 5 Fuente: Encuesta Nacional de Ocupación y Empleo, segundo trimestre de 2010. Fuente: INEGI. Fuente: INEGI. 93 proporcional respecto de los porcentajes correspondientes a las clases del otro criterio de clasificación. Ejemplo: una consultoría representó la población en México de hombres y mujeres en tres periodos: Población en México Mujeres, 2000, 51.18% Mujeres, 2005, 51.34% Mujeres, 2010, 51.17% Hombres, 2000, 48.82% Hombres, 2005, 48.66% Hombres, 2010, 48.83% Hombres Mujeres Año 8 Elaboración propia. e) Histograma. Resume la distribución de frecuencias. En el eje horizontal se representa la variable de interés y en el vertical la distribución de frecuencia. A diferencia del gráfico de barras no hay separación entre los rectángulos formados por las clases y éstos se separan con la línea vertical. Ejemplo: en la siguiente gráfica se representa la venta en millones de pesos de barriles de petróleo de datos agrupados, tema que se estudiará en los próximos apartados en la parte teórica: Venta en millones de pesos de barriles de petróleo Elaboración propia. 94 f) Polígono de frecuencia. Se forma por medio del histograma ya que se plotea el punto medio de la clase; se utiliza para las frecuencias de variables cuantitativas continuas y sólo se utilizan los segmentos de la recta. Ejemplo: de la gráfica anterior se forma el polígono de frecuencia: Venta en millones de pesos de barriles de petróleo Elaboración propia. g) Ojiva. También se conoce como gráfico de frecuencia acumulada, representa distribuciones de frecuencias de variables continuas acumuladas y para su trazo se utilizan los segmentos de la rectas y se plotea al final de cada clase. Ejemplo: con base en el histograma se formula la ojiva: Venta en millones de pesos de barriles de petróleo Elaboración propia. 95 ACTIVIDAD DE APRENDIZAJE Elaborar un cuadro comparativo en el que se anoten las similitudes y las diferencias de los diferentes tipos de gráficos. 3.4 MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN PARA DATOS NO AGRUPADOS En el apartado anterior se estudiaron los gráficos y fue posible apreciar que la mayor densidad de frecuencia se encuentra en la parte central de éstos, es decir, de acuerdo con el tipo de gráfico, los valores altos de la gráfica se encuentran en medio y de ahí el interés de conocerlos. Los valores medios se obtienen con las medidas de tendencia central: media aritmética, media geométrica y media armónica, moda y mediana. 1. Media aritmética. Es la suma de los valores de ciertos números de cantidades dividido entre el número total de elementos; se expresa por medio de la siguiente fórmula: ̅ ∑ Ejemplo: el departamento de informática de una empresa da mantenimiento a las computadoras una vez por semana, este servicio por cada una de las semanas es el siguiente: 29, 27, 26, 28 y 30. Calcular el promedio de mantenimiento de computadoras. Sustituyendo: ̅ 96 Respuesta: el promedio de mantenimiento en cinco semanas en la oficina es de 28 computadoras. 2. Media geométrica. Es la raíz de n del producto de n términos, se utiliza para calcular tasas de crecimiento y se expresa con la siguiente fórmula: √ Ejemplo: el crecimiento de la población de niños con déficit de atención en los últimos cuatro años es de 8, 17, 21 y 22%, respectivamente. Calcular la media geométrica anual de crecimiento. Para multiplicar los crecimientos correspondientes se agrega el número uno a cada dato y cuando se tenga el resultado se elimina. Sustituyendo: √ √ Respuesta: la tasa de crecimiento en los últimos cuatro años de déficit de atención es de 16.86%. 97 3. Media armónica. Es el recíproco de la media aritmética de los recíprocos de los números de la serie. Se expresa con la siguiente fórmula: Ejemplo: Un psicólogo entrega 3 reportes psicométricos en un día y otro entrega 2. Calcular el rendimiento representativo de los dos psicólogos. Sustituyendo: Respuesta: el rendimiento representativo de entrega de reportes es de 2.4. 98 4. Mediana. Es el valor intermedio que divide un conjunto de datos previamente ordenados de menor a mayor. 5. Moda. Es el valor que más se repite de un conjunto de datos Ejemplo 1: en un examen extraordinario de la materia de contabilidad se obtuvieron las siguientes calificaciones: 2, 7, 0, 9, 1, 9, 7, 8, 2, 9, 0, 8, 0, 8, 2, 0, 0, 7, 2 ¿cuál es la media y la moda de las calificaciones? Para calcular la media, primero se ordenan los datos de menor a mayor: El dato marcado divide en partes iguales la serie de datos, de cada lado se tienen 9 valores. Para calcular la moda, se observa que el valor que más se repite es el número 0, porque aparece 5 veces. Respuesta: La mediana de las calificaciones del extraordinario de contabilidad es 2, y la moda es 0. Las medidas de dispersión hacen referencia a la variedad de valores de las observaciones. Si se diera el caso de que todos los valores fueran iguales entonces no existiría dispersión; por tanto, hablar de dispersión significa que los datos no son iguales. Entonces cuando los datos están muy cercanos entre sí existe una varianza pequeña y caso contrario, si están alejados, la varianza es grande. Las medidas de dispersión que se emplean en el estudio de la estadística, son varianza, desviación estándar y coeficiente de variación. 1. Varianza. Son los valores de observaciones muy cercanos a la media que se calculan para conocer la dispersión de los datos, mediante la siguiente fórmula: 99 ∑ ( ̅) Ejemplo: suponga que el número de ventas de automóviles en una agencia durante los días hábiles de una semana, es 10, 11, 21, 23 y 26. Calcular la varianza de los datos anteriores. Primero se debe calcular ̅, y recordando la sección anterior de medidas de tendencia central se obtiene: ̅ ̅ Sustituyendo en la fórmula de la varianza: ( ) ( ( ) ) ( ( ) ) ( ) ( ( ) ) ( ( ) ) Respuesta: la varianza de los datos representativos de la venta de automóviles es de 42.152. 100 2. Desviación estándar. Es la raíz cuadrada de la varianza, mide la separación que hay entre los datos y su fórmula es: √ ∑ ( ̅) Ejemplo: con base en el ejercicio anterior del número de ventas de automóviles en una agencia de automóviles, calcular la desviación estándar. De acuerdo con lo desarrollo anteriormente, el resultado de la varianza es 42.152 y a este resultado se le calcula su raíz cuadrada: √ Respuesta: la desviación estándar de los datos representativos de la venta de automóviles es de 6.4924. 3. Coeficiente de variación. Se utiliza cuando se quiere comparar la dispersión de dos conjuntos de datos porque se desea conocer la variación relativa y se expresa la desviación estándar como un porcentaje de la media, quedando la siguiente fórmula: ̅ Ejemplo: con base en los ejercicios que se han desarrollado anteriormente, calcular el coeficiente de variación. De los desarrollos anteriores, el resultado de la media es 18.2 y la desviación estándar es 6.4924, que se sustituyen en la fórmula: 101 Respuesta: el coeficiente de variación de los datos representativos de la venta de automóviles es 35.67%. ACTIVIDAD DE APRENDIZAJE Determinar las medidas de tendencia central (la media aritmética, moda, mediana) y medidas de dispersión (varianza, desviación estándar y coeficiente de variación), de los siguientes conjuntos de datos: 1. 4, 5, 5, 8, 8, 7, 9. 2. 2, 7, 0, 9, 1, 9, 7, 8. 3. Unos encuestadores realizaron visitas a zonas de alta marginación y recorrieron las siguientes distancias: 5, 6, 9, 18, 5, 9, 11, 3, 9, 9 km, respectivamente. Calcular las medidas de tendencia central y dispersión. 3.5 MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN PARA DATOS AGRUPADOS En algunas ocasiones se requieren realizar los cálculos de medidas de tendencia central y dispersión en datos que no se encuentran de manera bruta sino que sólo se tiene la distribución de frecuencias. La distribución de 102 frecuencias es el arreglo ordenado de los datos para sintetizar la información y éstos se presentan sin los valores individuales o las medidas descriptivas. Cuando los datos se encuentran agrupados, las observaciones individuales pierden su identidad y en la distribución de frecuencias se tiene el número de observaciones que caen dentro de los intervalos de clase; éstos son los que se utilizan para agrupar el conjunto de observaciones y se dan intervalos contiguos de tal manera que cada valor pueda ubicarse en uno sólo. Las medidas de tendencia central y dispersión de datos agrupados no se calculan de la misma forma que para los datos no agrupados. Para las medidas de tendencia central se tiene: Media: ̅ Donde ∑ ∑ = marca de clase, es el punto medio de cada intervalo de clase y se obtiene y = frecuencia; se presenta en una tabla en que se organizan los datos que caen en cada una de las clases y representa la agrupación de los datos. Mediana: ( Donde de datos; ) = límite inicial donde se ubica la mediana; = número total = frecuencia acumulada (es la cantidad de datos que integra cada una de las clases) anterior de donde se encuentra la mediana; donde se ubica la mediana, y = frecuencia = tamaño del intervalo de las clases. Moda: 103 ( Donde ) = limite inicial donde se ubica la moda; y = diferencia de las frecuencias, antes y después, respectivamente, de donde se encuentra la moda. Para las medidas de dispersión se tiene: Varianza: ∑ ( ̅) ∑ √ ( ̅) Desviación estándar: Coeficiente de variación: ̅ Ejemplo: en la siguiente tabla se presenta una serie de datos agrupados, calcular las respectivas medidas de tendencia central y dispersión: Intervalos Frecuencia (f) Frecuencia acumulada (F) 21.5 - 26.5 1 1 26.5 - 31.5 1 2 31.5 - 36.5 4 6 36.5 – 41.5 9 15 41.5 – 46.5 13 28 104 46.5 – 51.5 1 29 Para calcular la media conforme la fórmula, se requiere conocer la marca de clase, por tanto en el cuadro se incorpora una nueva columna con el encabezado “marca de clase” m y se realiza el cálculo con : Frecuencia Frecuencia absoluta Marca de clase (f) (F) (m) 21.5 - 26.5 1 1 24 26.5 - 31.5 1 2 29 31.5 - 36.5 4 6 34 36.5 – 41.5 9 15 39 41.5 – 46.5 13 28 44 46.5 – 51.5 1 29 49 Intervalos Después se forma otra columna de mf, donde se multiplica la columna m con la columna f y se suman los resultados además de sumar f: Intervalos Frecuencia (f) Frecuencia Marca de absoluta clase (F) (m) mf 21.5 - 26.5 1 1 24 24 26.5 - 31.5 1 2 29 29 31.5 - 36.5 4 6 34 136 36.5 – 41.5 9 15 39 351 41.5 – 46.5 13 28 44 572 46.5 – 51.5 1 29 49 49 ∑ ∑ Posteriormente se sustituyen los valores en la fórmula de la media: ̅ ̅ 105 Respuesta: la media es 40.03. Ahora se va a calcular la mediana, y se identifica en la fila de color amarillo donde de acuerdo con los 29 datos, el valor intermedio que los divide es 14.5 y el valor más cercano es 15 y se ubica en la columna F; se realiza la sustitución de la fórmula: ( ) ( ) Respuesta: la mediana es 41.44. Para calcular la moda se identifica en la fila de color rosa y la columna f, porque representa cuantos datos se encuentran en el intervalo y como se trata de la moda, son los datos donde hay una mayor cantidad; se realiza la sustitución de la fórmula: ( ) ( ) Respuesta: la moda es 42.75. 106 Para determinar la varianza y antes de sustituir los respectivos valores en la fórmula, se requiere incorporar nuevas columnas para obtener el dato deseado. ̅ y se obtiene: Primero se realiza la operación Frecuencia Intervalos Frecuencia Marca de absoluta clase (F) (m) (f) mf ̅ 21.5 - 26.5 1 1 24 24 -16.03 26.5 - 31.5 1 2 29 29 -11.03 31.5 - 36.5 4 6 34 136 -6.03 36.5 – 41.5 9 15 39 351 -1.03 41.5 – 46.5 13 28 44 572 3.97 46.5 – 51.5 1 29 49 49 8.97 En segundo lugar, se realiza la operación ( Intervalos Frecuencia (f) Frecuencia Marca de absoluta clase (F) (m) ̅ ) y se obtiene: mf ̅ ( ̅) 21.5 - 26.5 1 1 24 24 -16.03 256.96 26.5 - 31.5 1 2 29 29 -11.03 121.66 31.5 - 36.5 4 6 34 136 -6.03 36.36 36.5 – 41.5 9 15 39 351 -1.03 1.06 41.5 – 46.5 13 28 44 572 3.97 15.76 46.5 – 51.5 1 29 49 49 8.97 80.46 En tercer lugar, se realiza la operación ( Intervalos Frecuencia (f) Frecuencia Marca absoluta de clase (F) (m) ̅) y se obtiene: mf ̅ ( ̅) ( ̅) 21.5 - 26.5 1 1 24 24 -16.03 256.96 256.96 26.5 - 31.5 1 2 29 29 -11.03 121.66 121.66 31.5 - 36.5 4 6 34 136 -6.03 36.36 145.44 107 36.5 – 41.5 9 15 39 351 -1.03 1.06 9.55 41.5 – 46.5 13 28 44 572 3.97 15.76 204.89 46.5 – 51.5 1 29 49 49 8.97 80.46 80.46 ∑ Finalmente se sustituyen los valores de la sumatoria y el número total de datos: Respuesta: la varianza es 28.24. Para calcular la deviación estándar solamente son sustituidos los valores: √ Respuesta: la desviación estándar es 5.31. Y finalmente para calcular el coeficiente de determinación se sustituyen los respectivos valores en la fórmula: 108 Respuesta: el coeficiente de variación es 13.26%. ACTIVIDAD DE APRENDIZAJE Calcular las medidas de tendencia central y dispersión de los siguientes datos agrupados: 1. Intervalos de clase f F 3.5 – 4.5 3 3 4.5 - 5.5 5 8 5.5 – 6.5 2 10 6.5 – 7.5 1 11 2. Intervalos de clase f 21.5 – 26.5 9 26.5 – 31.5 5 31.5 – 36.5 3 36.5 – 41.5 8 41.5 – 46.5 6 3. Intervalos de clase Frecuencia Frecuencia acumulada 54.5 – 57.5 2 2 57.5 - 60.5 5 7 60.5 – 63.5 6 13 63.5 – 66.5 5 18 66.5 - 69.5 2 20 109 AUTOEVALUACIÓN 5. Relacionar las siguientes columnas: 1. Consiste en elaborar subgrupos a) concepto de estadística homogéneos de elementos de grupos ya b) muestreo probabilístico existentes o previamente definidos. ( c) muestreo de juicio ) 2. Consiste en elaborar una lista de la d) muestreo de conglomerados población y a través de números e) concepto de estadística aleatorios se selecciona a cada uno de descriptiva los elementos de la muestra. ( f) muestreo simple ) 3. Es un ejemplo claro de muestreo no probabilístico. ( ) 4. Es la recopilación, organización, y resumen de los datos. ( ) 5. Es cuando todos los elementos de la población tienen la misma probabilidad de pertenecer a la muestra. ( ) 6. Estudia la parte de la ordenación y la presentación de datos de manera sencilla. ( ) 6. Subrayar la respuesta que corresponda con la afirmación: e) Representa las frecuencias relativas o porcentuales trazando un círculo: gráfica de pastel gráfica de barras simple gráfica de barras múltiples gráfica de barras compuestas 110 f) Representa frecuencias observadas en clasificaciones dobles, cuando existen más de dos criterios de clasificación: gráfica de pastel gráfica de barras simple gráfica de barras múltiples gráfica de barras compuestas g) Resume la distribución de frecuencias, no hay separación entre los rectángulos formados por las clases y se separa con una línea vertical: polígono de frecuencia histograma gráfica de barras múltiples ojiva h) Se plotea el punto medio de la clase, se utiliza para las frecuencias de variables cuantitativas continuas y sólo emplea segmentos de la recta: polígono de frecuencia histograma gráfica de barras múltiples ojiva 7. En las siguientes afirmaciones o definiciones, indicar la palabra que falta: d) La ___________________________ es la suma de los valores de ciertos números de cantidades dividido entre el número total de elementos. e) La __________________________ es la raíz de n del producto de n términos, se utiliza para calcular las tasas de crecimiento. f) La __________________________ es el valor intermedio que divide un conjunto de datos previamente ordenados de mayor a menor. g) Las medidas de __________________________ hacen referencia a la variedad de los valores de las observaciones. 111 h) Las medidas de dispersión son: la __________________________, la __________________________ y el __________________________ . i) La __________________________ es la raíz cuadrada de la varianza y mide la separación que hay entre los datos. Respuestas 1. 1. d) 2. f) 3. c) 4. a) 5. b) 6. e) 2. a) gráfica de pastel b) gráfica de barras múltiples c) histograma d) polígono de frecuencia 3. a) media aritmética b) media geométrica c) mediana d) dispersión e) varianza, desviación estándar y coeficiente de variación f) desviación estándar 112 UNIDAD 4 ESTADÍSTICA INFERENCIAL OBJETIVO El estudiante será capaz de obtener información importante, para llevar a cabo la toma de decisiones acerca de la población de estudio a partir de las muestras, además de utilizar los procedimientos estudiados en la presente unidad en casos prácticos. TEMARIO 4.1 DISTRIBUCIONES MUESTRALES 4.1.1 Muestreo aleatorio simple 4.1.2 Distribución de la media de la muestra 4.1.3 Distribución de la diferencia entre las medias de dos muestras 4.1.4 Distribución de la proporción de la muestra 4.1.5 Distribución de la diferencia entre las proporciones de dos muestras 4.2 ESTIMADORES 4.3 PRUEBA DE HIPÓTESIS 4.4 PRUEBAS DE BONDAD DE AJUSTE 113 MAPA CONCEPTUAL Pruebas de hipótesis áreas de estudio Muestreo obtiene sus objetivos a partir Estadística inferencial permiten tener una perspectiva útil mediante Estimadores Pruebas de bondad de ajuste 114 INTRODUCCIÓN Es importante conocer la estadística inferencial porque permite a investigadores y administradores llevar a cabo la toma de decisiones en su población de estudio, con base en muestras que son extraídas de la población, pues permite disminuir costos innecesarios y ahorrar tiempos por el solo hecho de trabajar con una muestra. El estudio de las distribuciones muestrales es el vínculo con lo ya revisado de estadística descriptiva hacia la realización de inferencias. La estadística inferencial tiene dos áreas de estudio los estimadores y las pruebas de hipótesis. Los estimadores favorecen el trabajo con una pequeña porción de datos, en lugar de todos los que conforman la población, mientras que las pruebas de hipótesis facilitan tomar alguna decisión en torno a la población conforme el cálculo de la muestra. Es importante señalar que en ocasiones surgen discrepancias sobre los valores observados y los esperados en los cálculos, por lo que se requiere comprobar si la serie de datos está ajustada a las distribuciones de probabilidad ya conocidas, por medio de las pruebas de ajuste de bondad. 115 4.1 DISTRIBUCIONES MUESTRALES La distribución muestral es la frecuencia de un estadístico muestral que se obtiene de todos los posibles valores calculados a partir de muestras del mismo tamaño extraídas al azar de la misma población. Las distribuciones muestrales son importantes para comprender la inferencia estadística, recordando que ésta es la que permite realizar conclusiones acerca de las poblaciones por medio de muestras representativas. Para lograr entender la experimentación en estadística, sobre todo dentro de la descriptiva, es importante mencionar que la probabilidad es la base del estudio de la estadística, ya que se interesa por estudiar las muestras de la población. Para construir una distribución muestral se requiere: 1. Población de tamaño finito, donde es posible extraer las muestras. 2. Calcular el estadístico de interés 3. Enlistar los valores observados de la estadística. En forma general, las distribuciones muestrales son un apoyo para conocer la media y la varianza. ACTIVIDAD DE APRENDIZAJE Investigar, enumerar y realizar un breve resumen de las distribuciones muestrales más importantes estudiadas en la estadística inferencial. 4.1.1 Muestreo aleatorio simple Antes de poder dar una definición del muestreo aleatorio simple es importante conocer que la muestra probabilística es cuando cada uno de los elementos o miembros de una población tiene exactamente la misma probabilidad de pertenecer a la muestra. 116 Cuando se menciona el concepto de muestra aleatoria simple, se define que cada una de las muestras pertenecientes a la población tiene exactamente la misma probabilidad de ser seleccionada. Hay dos diferentes tipos de muestreo: con reemplazo y sin reemplazo. En primer caso, cada miembro de la población está disponible para la extracción; por ejemplo, cuando se realiza alguna auditoria de ISO-9000 los auditores seleccionan al azar algunos trabajadores y al término de las preguntas que se les realizan, regresan a la población, estando nuevamente disponibles para otra extracción. El segundo caso, se ocupa más en la práctica y se define que cuando algún miembro de la población es extraído para la muestra, ya no vuelve a estar disponible para otra extracción; por ejemplo las degustaciones de algún producto nuevo de comida en los centros comerciales, una vez que un individuo se extrae una muestra, ya no puede conformar parte de una nueva extracción. ACTIVIDAD DE APRENDIZAJE Elaborar un listado de cinco ejemplos de muestreo con reemplazo y sin reemplazo, aplicables a la profesión que está estudiando. 4.1.2 Distribución de la media de la muestra Pueden existir dos casos de muestreo: el primero, que pueda partir de una distribución normal y el segundo, a partir de una población que no tiene distribución normal. La distribución normal se estudió en la unidad 2, y para el caso de no existir una distribución normal, cuando se tiene una muestra grande, se utiliza el teorema del límite central. El teorema del límite central consiste en que dada una población no normal con medias y varianzas finitas, pero con distribución muestral de la media grande, éstas se distribuyen en forma aproximadamente normal . 117 En estadística, se considera que una muestra es grande, cuando es mayor de 30 elementos o contiene más de 5% de las observaciones en la población; sin embargo, con la aplicación del teorema del límite central se corrige, porque la distribución de muestreo de la media será aproximadamente normal. Entonces, modificando la fórmula de Z, estudiada en la unidad 2, se obtiene la fórmula de la distribución normal de la muestra en la distribución normal unitaria, quedando: ̅ ̅ √ Donde la raíz cuadrada de la varianza de la distribución muestral, es decir √ , se conoce como el error estándar ̅. Ejemplo: supóngase que las calificaciones de los alumnos de una prueba diagnóstica están distribuidas de forma casi normal con una media de 185.6 y una desviación estándar de 12.7, ¿cuál es la probabilidad de que una muestra aleatoria de tamaño 10 de esta población, tenga una calificación media mayor a 190? Se aplica el teorema del límite central porque aunque la muestra es menor a 30, tiene una distribución no normal, entonces es aplicable el teorema. Sustituyendo: √ 118 El valor de 1.09 se busca en la tabla de distribución normal empleada en la unidad 2 (véase tabla al final de la unidad, antes de la Autoevaluación). De acuerdo con la tabla, el valor es 0.3621, al cual se le resta 0.5, ya que tiende a la derecha porque se quiere conocer la probabilidad de que la media sea mayor a 90; por tanto, el resultado es 0.1379. Respuesta: la probabilidad de que la muestra tenga una calificación media mayor a 190 es de 13.79%. ACTIVIDAD DE APRENDIZAJE De acuerdo con los siguientes ejercicios, calcular las probabilidades, además de valorar para el desarrollo de los problemas si se aplica el teorema del límite central. 1 Si la media y la desviación de respuestas asertivas en un examen de conocimientos es de 120 y 13, respectivamente, ¿cuál es la probabilidad de que una muestra al azar de tamaño 40 proporcione una media entre 115 y 128? 2 De acuerdo con los datos del ejercicio anterior, ¿cuál es la probabilidad que la muestra al azar de tamaño 40, proporcione una media menor a 105? i) Supóngase que los salarios por día de los empleados de una empresa están distribuidos de forma casi normal con una media y una desviación estándar de 58.6 y 6.5, respectivamente, y si se selecciona una muestra al azar de tamaño 16, ¿cuál es la probabilidad de que la media del salario por día de la muestra sea mayor a 90? 4.1.3 Distribución de la diferencia entre las medias de dos muestras Suele haber casos en los que existe interés en calcular la diferencia entre las medias de dos poblaciones; incluso se puede darse el caso de que al existir dos medias diferentes, exista interés por saber cuánto difieren éstas. Este cálculo se puede realizar por medio de la siguiente fórmula: 119 (̅̅̅ ( ̅̅̅) ) √ Ejemplo: supóngase que hay dos grupos de personas que empacan el producto de venta de una empresa; el primero, lo hace en promedio en 45 min, con una desviación estándar de 15 min, y el segundo lo hace en 30 min, con una desviación estándar de 20 min. Si un trabajador seleccionado al azar del primer grupo empaca 35 productos y un trabajador seleccionado al azar del segundo grupo empaca 40, ¿cuál es la probabilidad de que la duración media del empaque difiera entre los dos grupos por más de 20 min? Sustituyendo: (̅̅̅ ( ̅̅̅) ) √ ( √( ) ) ( ( ) ) √ 120 El valor de 1.23 se busca en la tabla de distribución normal (véase tabla al final de la unidad, antes de la Autoevaluación). De acuerdo con la tabla, el valor es 0.3907, al cual se le resta 0.5, ya que se quiere conocer la diferencia entre las medias de las dos muestras mayor a 20 min, por tanto, el resultado es .01093. Respuesta: la probabilidad que la duración media del empaque difiera entre los dos grupos por más de 20 min es de 10.93%. ACTIVIDAD DE APRENDIZAJE Calcular la probabilidad de los siguientes ejercicios. 1. Dadas dos poblaciones con distribución no normal, la primera con media de 280 y varianza de 122, y la segunda con media de 350 y varianza de 188, ¿cuál es la probabilidad de que las muestras 1 y 2 (de tamaño 41 y 48, respectivamente), proporcionen una diferencia de medias menor a 17? 2. En un estudio de ingreso familiar se investigó a dos poblaciones: la primera con un ingreso medio familiar de 6,800, varianza de 2,800 y muestra de 32, y la segunda con un ingreso medio familiar de 6,250, varianza de 3,200 y muestra de 47, ¿cuál es la probabilidad de que el ingreso familiar medio difiera entre los dos grupos por menos de 1,000? 4.1.4 Distribución de la proporción de la muestra Cuando se quiere calcular la probabilidad de la proporción de una muestra se emplea la siguiente fórmula: ̌ √ ( ) Ejemplo: supóngase que el promedio de personas que realizan estudios de nivel medio superior en una comunidad de alta marginación económica, es 121 de 8%. Si se seleccionan al azar 150 personas, ¿cuál es la probabilidad de que la proporción de alta marginación sea mayor a 10%? Sustituyendo: ( √ ) ( √ ) √ √ El valor de 0.81 se busca en la tabla de distribución normal (véase tabla al final de la unidad, antes de la Autoevaluación). De acuerdo con la tabla, el valor es 0.291, al cual se le resta 0.5, ya que se quiere conocer que la probabilidad de que la proporción de alta marginación sea mayor a 10%, por tanto, el resultado es 0.209. Respuesta: la probabilidad de que la proporción de alta marginación sea mayor a 10% es de 20.9%. 122 ACTIVIDAD DE APRENDIZAJE Calcular la probabilidad de los siguientes ejercicios. 1. Si en una población de adultos mayores, 21% no recibe ningún tipo de pensión por retiro, ¿cuál es la probabilidad de que de una muestra al azar de tamaño 90 dé una proporción mayor a 30%? 2. De acuerdo con el ejercicio anterior, calcular la probabilidad de que una muestra al azar de tamaño 133 dé una proporción menor a 13%. 4.1.5 Distribución de la diferencia entre las proporciones de dos muestras En ocasiones no sólo se tiene interés por conocer la probabilidad de una sola muestra si no de dos, por tanto se debe calcular la probabilidad de la diferencia en las proporciones de dos muestras independientes extraídas de cada una de las poblaciones; para ello se emplea la siguiente fórmula: (̌ ̌) ( √ ) ( ) ( ) Ejemplo: supóngase que la proporción de personas que compran discos compactos pirata de una población grupo 1, es 0.50, mientras que en la otra población, grupo 2, la proporción es 0.33. ¿Cuál es la probabilidad de que muestras de 100 individuos, extraídas de cada una de las poblaciones, tengan una diferencia entre las proporciones de muestras tan grande como 0.30? Los valores son sustituidos de la siguiente manera: ( √ ) ( ( √ ( ) ) ( ) ( ( ) ) ) ( ) 123 ( ) ( ) ) ( ) √ ( √ √ El valor 1.89 se busca en la tabla de distribución normal (véase tabla al final de la unidad, antes de la Autoevaluación). De acuerdo con la tabla, el valor es 0.4706, al cual se le resta 0.5, ya que se quiere conocer la diferencia entre las medias de las dos muestras que sea tan grande como 0.30, por tanto, el resultado es 0.0294. Respuesta: la probabilidad de que la diferencia entre las medias de las dos muestras sea tan grande como 0.30 es de 2.94%. ACTIVIDAD DE APRENDIZAJE Calcular la probabilidad de los siguientes ejercicios. 1. En cierta población de mujeres, se sabe que la proporción que han sufrido algún tipo de violencia familiar es de 0.40 y se extrajo al azar una muestra de 100 individuos y otra de tamaño 110, con la proporción de 0.30 con el mismo problema. ¿Cuál es la probabilidad de que la muestra proporcione una diferencia entre las dos muestras mayor de 0.60? 2. En una empresa, 40% de los trabajadores no está titulado, una muestra extraída al azar de 81 personas y otra de 60 dio como diferencia 11%. Si 124 no existe diferencia entre los dos grupos en la proporción de los trabajadores no titulados, ¿cuál es la probabilidad de observar una diferencia como ésta o menor? 4.2 ESTIMADORES Para abordar este tema, es importante recordar que la inferencia estadística es el procedimiento mediante el cual se trabaja con muestras y de acuerdo con los resultados arrojados se realizan las inferencias en las poblaciones. La estadística inferencial se divide en dos áreas de estudio: los estimadores y las pruebas de hipótesis. El estudio de los estimadores implica calcular a partir de los datos de la muestra, algún estadístico que permite una aproximación del parámetro correspondiente a la población de la cual se extrajo la muestra; para cada uno de los parámetros se pueden calcular dos diferentes tipos de estimadores: el puntual y el de intervalos. El estimador puntual es un solo valor numérico empleado para estimar el parámetro correspondiente de la población; los estimadores de este tipo se forman por medio de fórmulas (lo que ya se trabajó en este libro); por ejemplo, si se desea calcular la media muestral, se emplea la fórmula ̅ ∑ y al unísono se estima la media de la población, es decir, . Los estimadores cuentan con tres propiedades y la nomenclatura para representar un parámetro, es decir, el valor numérico que describe las características de la población, el cual es ; y para expresar el estimador, es decir, el valor numérico que describe las características de la muestra, se emplea ̂. Los estimadores tienen las siguientes propiedades: Si el lím E( ̂) = E( ) Lím var( ̂) = 0; propiedad de los insesgados. Cuando n ; y si n crece se vuelve insesgado. 125 La varianza media o sesgo medio, también se conoce como varianza media uniforme,ya que se tiene una muestra aleatoria de una distribución de densidad g( siendo el estadístico ̂ = u( ) y se representa como f( ) y ) un estimador con E( ̂) = y var( ̂)menor que cualquier otro estimador insesgado del parámetro para todos los posibles valores, es insesgada y de varianza mínima. La eficiencia, si ̂ y ̂ son 2 estimadores insesgados de y la varianza de ̂ es menor a 0 o al menos a la varianza de ̂ . Cuando ̂ es insesgado de varianza mínima se llama estimador eficiente. El otro estimador es por intervalos; consta de dos valores numéricos, definidos por medio de un intervalo con un grado de confianza que incluye el parámetro que se está estimando. La forma general para calcular un intervalo de confianza es: Estimador coeficiente de confianza × error estándar El coeficiente de confianza puede ser cualquier valor, pero en la práctica los más utilizados son 90, 95 y 99% y aunque los valores de los diferentes valores de los coeficientes de confianza corresponden con los valores de la tabla z de distribución normal, con la que se ha trabajado en ejercicios anteriores, para facilitar el trabajo se presenta una tabla donde vienen especificados los coeficientes de confiabilidad de más uso. Nivel de confianza Z 99% 2.58 98% 2.33 96% 2.05 95% 1.96 90% 1.645 85% 1.43 126 80% 1.28 Se pueden construir diferentes intervalos de confianza, los cuales se mencionan a continuación: a) Intervalo de confianza para la media de una población. ̅ ( ̅ ) Ejemplo: el departamento de selección de una empresa desea estimar, con 99% de confianza, la media de calificaciones de un cierto grupo de candidatos de ser seleccionados para un empleo. La distribución es aproximadamente normal y su desviación estándar es de 12. De una población se extrae una muestra de 16 individuos, la cual arrojó 88 como resultado en su media de calificaciones. Calcular el intervalo de confianza. Solución: √ Respuesta: de la media de las calificaciones de la población con 99% de confianza, está entre 80.26 y 95.74. b) Intervalo de confianza para la diferencia entre las medias de dos poblaciones. ̅ ̅ ( ) √ 127 Ejemplo: el ingreso medio familiar de una muestra de 50 personas es de $8,000, mientras que en otra muestra, también de 50 personas, es de $6,000; las desviaciones estándar son de $20 y $50, respectivamente, ¿cuál es el intervalo de confianza de 99% para la diferencia de las dos poblaciones? Solución: √ √ Respuesta: la diferencia entre las medias de dos poblaciones con 99% de confianza, está entre $1,980.35 y $2019.64. c) Intervalo de confianza para la proporción de una población. ̌ ( ) √ ̌) ̌( Ejemplo: se encuestó a 800 personas, de las cuales 600 afirmaron que pagan sus respectivos impuestos. Calcular el intervalo de confianza de 99%. Solución: ( √ √ ) ( ) 128 √ Respuesta: la proporción de una población con 99% de confianza, se encuentra entre 0.7105 y 0.7894. d) Intervalo de confianza para la diferencia entre las proporciones de dos poblaciones. (̆ ̌ ) ( ) √ ̆( ̌ ̆) ̆ ( ̌ ̆) Ejemplo: de una muestra de 200 personas, 100 de ellos cuentan con un ahorro en una institución bancaria y de otra muestra seleccionada de 120 personas, 60 de ellas tienen una cuenta de ahorro. Calcular el intervalo de confianza de 95%. Solución: ( ) √ ( ) ( ) 129 e) Respuesta: la confianza de la diferencia de 95% entre las proporciones de dos poblaciones, se encuentra entre -0.1326 y 0.1326. ACTIVIDAD DE APRENDIZAJE Calcular la probabilidad de los siguientes ejercicios e identificar el tipo de intervalo de confianza. 1. En una oficina gubernamental se quiere conocer el intervalo de confianza de 95% del tiempo de retraso en la llegada al trabajo; los datos arrojados del estudio elaborado son de 11.2 minutos en promedio, con una desviación estándar de 8 minutos, de una muestra extraída al azar de 50 trabajadores. 2. Calcular el intervalo de confianza de 99% de un estudio elaborado en un consultorio dedicado a impartir terapia de pareja. Se trabajó con dos muestras, una de 10 parejas y otra de 8. Todas las parejas contestaron un cuestionario acerca de los logros con su pareja. La calificación media de la primera muestra fue de 57 y de la segunda de 89; de acuerdo con la experiencia bajo situaciones similares, las calificaciones de parejas sin problemas al contestar el cuestionario muestran una distribución normal con desviaciones estándar de 13 y 17, respectivamente. 3. Calcular el intervalo de confianza de 99% de una encuesta que se realizó a 350 personas, en relación con su chequeo anual de salud, de las cuales 127 contestaron que se lo realizan. 4.3 PRUEBA DE HIPÓTESIS Las hipótesis son empleadas por los investigadores o los administradores que pretenden tomar una decisión en torno a su población, mediante la elaboración de ciertos cálculos con apoyo de la muestra. La prueba de hipótesis es una afirmación acerca de los parámetros poblacionales y se valora por medio del desarrollo de los siguientes pasos: 130 1. Datos. Son la base del desarrollo de la prueba de hipótesis. 2. Suposiciones. Hacen referencia a la independencia de las muestras y las varianzas. 3. Hipótesis. Se manejan dos hipótesis, la nula se nombra alternativa, . La y la es la hipótesis de no diferencia y esto significa que es de conformidad; pero durante el desarrollo de la prueba de hipótesis se valora su aceptación o su rechazo. De acuerdo con lo anterior, la hipótesis nula se puede rechazar o se puede aceptar, si no es rechazada se argumenta que los datos sobre los cuales está basada la prueba no arrojan evidencia suficiente; si es rechazada, significa que no es compatible con la hipótesis nula, pero avala la otra hipótesis, es decir, la alternativa, . 4. Estadístico de prueba. Es la enunciación que facilita el cálculo de los estadísticos por medio de la muestra. 5. Regla de decisión. Es cuando la distribución de la estadística se divide en dos grupos: la zona de aceptación y la de rechazo. La zona de aceptación es aquella región que tiene mayor probabilidad de suceder, cuando la hipótesis nula es verdadera. La zona de rechazo es la región que tiene menor probabilidad de suceder, si la hipótesis nula es verdadera. Consiste en valorar la , la cual se rechaza si una vez calculado el estadístico de prueba, cae en la zona de rechazo, y se acepta, si el cálculo del estadístico de prueba cae en la zona de aceptación. Lo que permite valorar cuánto abarca la zona de aceptación y la zona de rechazo es el nivel de significancia; éste especifica el área debajo de la curva de la distribución estadística de prueba referente a la probabilidad de rechazar una ; por lo que siempre se buscan probabilidades pequeñas de rechazar una que sea verdadera. Los valores que en la práctica se trabajan más en el nivel de significancia son 0.01, 0.05 y 0.10. 131 Región de aceptación y rechazo de dos colas Zona de aceptación Zona de rechazo Zona de rechazo Nivel de significancia Región de aceptación y rechazo de una sola cola Zona de aceptación Zona de rechazo Nivel de significancia 132 Región de aceptación y rechazo de una sola cola Zona de aceptación Zona de rechazo Nivel de significancia En algunas ocasiones se pueden cometer errores, los cuales son de dos tipos. El de tipo I, se comete cuando se rechaza una verdadera y el de tipo II, es cuando se acepta una falsa. 6. Cálculo del estadístico de prueba. Es la elaboración del estadístico. 7. Decisión estadística. Es la valoración de aceptación o rechazo de la 8. Conclusión. Si se acepta rechaza, se dice que , se concluye que es verdadera y si se es verdadera. La prueba de hipótesis es una herramienta que facilita a los investigadores y administrativos la toma de decisiones, sin embargo aunque su resultado no es definitivo, sí es una posibilidad que se debe tomar en cuenta además de la información enriquecedora que puedan poseer el investigador o el administrador. Ejemplo 1: en una encuesta se entrevistó a 36 personas; uno de los detalles de la información obtenida son las veces que han salido de vacaciones durante toda su vida. El resultado que arrojó es que el promedio de salidas es de 22, con una desviación estándar de 6. El investigador desea saber si la encuesta realizada en la muestra, proporciona evidencia suficiente para indicar 133 que la media de población sale en promedio 25 veces en su vida, si el grado de confianza es de 95%, es decir, un nivel de significancia de 0.05. Solución: , ̅ 1. Datos: 2. Suposición: . . 3. Hipótesis: y . ̅ 4. Estadístico de prueba: √ 5. Regla de decisión: Para este caso, el grado de significancia es de 0.05, y se tienen dos zonas de rechazo por lo que divide entre dos, quedando se , por lo que el valor en cada cola es 0.025. Los valores del grado de confianza se obtienen por medio de la tabla de distribución normal, buscando los más próximos para la obtención de z (para facilitar el trabajo se presenta un tabla donde vienen especificados los coeficientes de confiabilidad de más uso). Nivel de confianza 99% 2.58 2.33 95% 1.96 1.645 90% 1.645 1.28 De manera más práctica, con apoyo de la tabla cuando el caso es de dos colas con un nivel de significancia de 95%, el valor es 1.96, y se representa de la siguiente manera: 134 0.95 0 -1.96 Zona de rechazo -1.96 Zona de aceptación Zona de rechazo 6. Cálculo del estadístico de prueba: √ 7. Decisión estadística: se rechaza , porque el valor de -3 se ubica en la zona de rechazo. 135 El valor del estadístico de prueba es -3 0 -1.96 -1.96 Zona de aceptación Zona de rechazo Zona de rechazo Por tanto, el valor calculado del estadístico de prueba es significativo a 95%. 8. Conclusión: la media poblacional no sale en promedio 25 veces de vacaciones en su vida las personas, sólo hace falta valorar que el investigador esté de acuerdo con esta conclusión, recordando que no es una afirmación si no una posibilidad de acuerdo con la confiabilidad de 95%. Ejemplo 2: conforme los datos del ejercicio anterior, valorar si la encuesta realizada a la muestra, proporciona la evidencia suficiente para indicar que la media de población sale en promedio en su vida menos de 25 veces. Solución: 1. Datos: 2. Suposición: 3. Hipótesis: , ̅ . . y 4. Estadístico de prueba: ̅ √ 5. Regla de decisión: de manera más práctica, con apoyo de la tabla cuando el caso es de una cola con un nivel de 136 significancia de 95%, el valor es 1.645, y se representa de la siguiente manera: 0.95 0.05 -1.645 Zona de rechazo 0 Zona de aceptación 6. Cálculo del estadístico de prueba: √ 7. Decisión estadística: se rechaza , porque el valor de -3 se ubica en la zona de rechazo. 137 El valor del estadístico de prueba es -3 0.95 0 -1.645 Zona de aceptación Zona de rechazo Por tanto, el valor calculado del estadístico de prueba es significativo a 95%. 8. Conclusión: la media poblacional sale en promedio menos 25 veces de vacaciones en su vida; sólo hace falta valorar que el investigador esté de acuerdo con esta conclusión, recordando que no es una afirmación si no una posibilidad de acuerdo con la confiabilidad de 95%. ACTIVIDAD DE APRENDIZAJE Calcular los siguientes ejercicios con ayuda de la prueba de hipótesis. 1. Se recolectó una muestra de 45 muertes registradas en el Estado de México y arrojó que el promedio de esperanza de vida es de 75.4 años, con una desviación estándar de 1.9 años. Se desea saber si la muestra proporciona suficiente evidencia para indicar que la población vive menos de 46 años, además se ocupará 99% de confianza, es decir un nivel de significancia de 0.01. 2. De acuerdo con el ejercicio anterior, valorar si la población vive en promedio 68 años, empleando 95% de confianza, es decir, un nivel de significancia de 0.05. 138 4.4 PRUEBAS DE BONDAD DE AJUSTE Las pruebas de bondad de ajuste permiten examinar problemas con la finalidad de verificar si el conjunto de datos se puede ajustar o aseverar que proviene de una determinada distribución, es decir, permiten medir el grado de ajuste que existe entre la distribución determinada a partir de la muestra y la distribución teórica que se supone debe seguir esa muestra (los datos se ajustan a una determinada distribución que proviene de la muestra). En muchas ocasiones no es posible conocer la distribución de probabilidad de la variable aleatoria que se está estudiando, por lo que se supone X, y se desea probar la hipótesis de que X sigue una distribución de probabilidad particular. Por ejemplo, podría ser de interés probar la hipótesis de que X sigue una distribución normal, una exponencial, etc., por lo que las pruebas de bondad de ajuste se pueden realizar en aquellos casos en que la distribución planteada en la hipótesis es de tipo normal, binominal, de Poisson, Chi cuadrada o cualquier otra distribución de las que ya se estudiaron en la unidad 2. Las pruebas de bondad de ajuste brindan una perspectiva útil para poder evaluar la viabilidad o sustentabilidad de un modelo potencial para el suministro de datos. La ventaja que se tiene al realizar pruebas de bondad de ajuste es que no hay una sola distribución en aplicaciones reales, sino que se plantean hipótesis en diferentes distribuciones. Es muy importante entender el efecto del tamaño de la muestra, debido a que si muy pocos datos están disponibles, entonces una prueba de bondad de ajuste puede rechazar alguna distribución postulante; pero si hay muchos datos disponibles, entonces una prueba de ajuste de bondad puede rechazar todas las pruebas postulantes. ACTIVIDAD DE APRENDIZAJE 139 De acuerdo con la bibliografía sugerida, escribir en una cuartilla cuál es la utilidad de las pruebas de bondad de ajuste. Tabla de distribución normal Z 0 0 0.01 0 0.004 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.008 0.012 0.016 0.0199 0.0239 0.0279 0.0319 0.0359 0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753 0.2 0.0793 0.0832 0.0871 0.091 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141 0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.148 0.1517 0.4 0.1554 0.1591 0.1628 0.1664 0.17 0.1736 0.1772 0.1808 0.1844 0.1879 0.5 0.1915 0.195 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.219 0.2224 0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549 0.7 0.258 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852 0.8 0.2881 0.291 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133 0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.334 0.3365 0.3389 1 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621 1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 1.2 0.3849 0.3869 0.3888 0.3907 1.3 0.4032 0.4049 0.4066 1.4 0.4192 0.4207 0.4222 1.5 0.4332 1.6 0.377 0.379 0.381 0.383 0.3925 0.3944 0.3962 0.398 0.3997 0.4015 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319 0.4345 0.4357 0.437 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545 1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633 1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706 1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.475 0.4756 0.4761 0.4767 0.4808 0.4812 0.4817 2 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 2.1 0.4821 0.4826 0.483 0.4834 0.4838 0.4842 0.4846 0.485 0.4854 0.4857 2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.489 2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916 2.4 0.4918 0.492 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936 2.5 0.4938 0.494 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952 2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.496 0.4961 0.4962 0.4963 0.4964 2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.497 0.4971 0.4972 0.4973 0.4974 2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.498 0.4981 2.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986 3 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.499 0.499 140 141 AUTOEVALUACIÓN 8. Relacione las siguientes columnas. 1. Es la frecuencia de un estadístico a) muestreo sin reemplazo muestral que se obtiene de todos los b) muestreo con reemplazo posibles valores calculados a partir de c) muestra aleatoria simple muestras del mismo tamaño extraídos d) muestra probabilística e) distribución muestral al azar de la misma población. ( ) 2. Cada uno de los elementos de la población tienen probabilidad de la misma pertenecer a la muestra. ( ) 3. Cada una de las muestras pertenecientes a la población tienen exactamente la misma probabilidad de ser seleccionadas. ( ) 4. Cada miembro de la población está disponible para otra extracción después de utilizarse. ( ) 5. Cuando cada miembro de la población es extraído para la muestra, pero ya no vuelve a estar disponible para otra extracción; este tipo de muestreo usualmente se utiliza en la práctica. ( ) 9. Subrayar la respuesta que corresponda con la afirmación. j) El teorema del límite central se utiliza cuando se tienen muestras de tamaño grande y son las que se consideran: 142 mayores a 20 elementos menores a 20 elementos mayores a 30 elementos k) Los estimadores y las pruebas de hipótesis son dos áreas de estudio de la: probabilidad estadística descriptiva estadística inferencial l) Se calculan a partir de los datos de la muestra de algún estadístico que permite alguna aproximación del parámetro correspondiente de una población de la cual se extrajo la muestra: distribuciones normales estimadores pruebas de hipótesis m) Es un solo valor numérico empleado para estimar un parámetro correspondiente de la población: estimador puntual estimador por intervalos prueba de hipótesis n) Son dos valores numéricos y son definidos por medio de un intervalo con un grado de confianza e incluyen el parámetro estimado: estimador puntual estimador por intervalos prueba de hipótesis 10. En las siguientes afirmaciones o definiciones indicar la palabra que falta. j) Las ___________________________ son empleadas por los investigadores o administradores que pretenden tomar una decisión en 143 torno a su población, mediante la elaboración de ciertos cálculos con el apoyo de la muestra. k) Las__________________________ hacen referencia a la independencia de las muestras y las varianzas. l) El __________________________ es la enunciación que facilita calcular los estadísticos por medio de la muestra. m) El __________________________ es cuando se acepta una hipótesis nula falsa. n) La __________________________ es valorar la aceptación o el rechazo de la hipótesis nula. o) Las __________________________ permiten examinar problemas con la finalidad de verificar si el conjunto de datos se pueden ajustar o aseverar que provienen de una determinada distribución. Respuestas 1. 1. e) 2. d) 3. c) 4. b) 5. a) 2. a) mayores a 30 elementos b) estadística inferencial c) estimadores d) estimador puntual e) estimador por intervalos 3. a) hipótesis b) suposiciones 144 c) estadístico de prueba d) error tipo II e) decisión estadística f) pruebas de bondad 145 GLOSARIO Axioma. Premisa que se considera evidente y se acepta sin requerir demostración previa. Coeficiente de variación. Se utiliza cuando se quiere comparar la dispersión de dos conjuntos de datos porque se desea conocer la variación relativa y se expresa la desviación estándar como un porcentaje de la media. Combinación. Selección de diferentes de artículos sin importar el orden de los objetos sin repetición. Desviación estándar. Raíz cuadrada de la varianza, mide la separación que hay entre los datos. Distribución muestral. Frecuencia de un estadístico muestral que se obtiene de todos los posibles valores calculados a partir de muestras del mismo tamaño extraídas al azar de la misma población. Equiprobable. Caso en el que todos los eventos tienen la misma probabilidad de ocurrencia. Error de tipo I. Cuando se rechaza una verdadera. Error de tipo II. Cuando se acepta una falsa. Espacio muestral. Conjunto de todos los posibles resultados que pueden ocurrir en un experimento. Esperanza matemática. Valor esperado de una variable aleatoria Estadística descriptiva. Estudia la parte de la ordenación y la presentación de datos de manera sencilla; por tanto, describe las variables con las que se trabaja. Estadística inferencial. Consiste en extrapolar los resultados obtenidos en el análisis de los datos y a partir de ello predecir acerca de una población, con un margen de confianza conocido; se apoya en el cálculo de probabilidades. Estimador puntual. Un solo valor numérico empleado para estimar el parámetro correspondiente de la población. Evento. Suceso subconjunto del espacio muestral. 146 Experimento determinístico. Aquel en que independientemente de las condiciones naturales mediante las cuales se efectúa el experimento, los resultados siempre serán los mismos. Experimento no determinístico. Aquel en el que las condiciones materiales bajo las cuales se efectúa el experimento, determinan la probabilidad de ocurrencia de los resultados. Experimento. Proceso mediante el cual se obtienen resultados con la propiedad de la repetibilidad. Hipótesis. Afirmación acerca de los parámetros poblacionales. Media aritmética. Suma de los valores de ciertos números de cantidades dividido entre el número total de elementos. Media armónica. Recíproco de la media aritmética de los recíprocos de los números de la serie. Media geométrica. Raíz de n del producto de n términos; se utiliza para calcular tasas de crecimiento. Mediana. Valor intermedio que divide un conjunto de datos previamente ordenados de menor a mayor. Moda. Valor que más se repite en un conjunto de datos. Muestra aleatoria simple. Caso en el que cada una de las muestras pertenecientes a la población tiene exactamente la misma probabilidad de ser seleccionada. Muestra probabilística. Caso en el que cada uno de los elementos o miembros de una población tiene exactamente la misma probabilidad de pertenecer a la muestra. Muestreo con reemplazo. Caso en el que cada miembro de la población está disponible para la extracción. Muestreo sin reemplazo. Caso en el que cada miembro de la población está disponible sólo para una extracción. Mutuamente excluyente. Implica la ocurrencia de un evento u otro, no dos a la vez. 147 Permutación. Arreglo ordenado de artículos, en el cual interesa el orden de los objetos sin repetición. Probabilidad clásica. Probabilidad a priori, se calcula antes del evento. Probabilidad condicional. Medida en que ocurre un evento en particular, dado que otro ya ha ocurrido o es seguro que ocurra. Probabilidad frecuencial. Probabilidad a posteriori porque es modificada con base en información nueva. Probabilidad subjetiva. Probabilidad de asignación basada en conjeturas y experiencia; puede ocurrir una vez y a lo máximo unas cuantas veces más. Probabilidad. Asignación de un número entre cero y uno a cada resultado experimental que permite medir la certidumbre o incertidumbre. Teorema. Afirmación que puede ser demostrada dentro de un sistema formal. Variable. Objeto matemático que puede tomar diferentes valores, generalmente asociado con propiedades o características de las unidades de la muestra. Variable aleatoria. Variable cuyo resultado depende de la muestra de una distribución de probabilidad. Variables aleatorias continuas. Variables que permiten una infinidad de valores al azar dentro de un intervalo, considerándose continuas precisamente por la posibilidad de poder tomar cualquier valor dentro de una infinidad de valores. Variables aleatorias discretas. Variables cuya naturaleza toma un número finito de valores enteros. Varianza. Valores de observaciones muy cercanos a la media que se calcula para conocer la dispersión de los datos. 148 BIBLIOGRAFÍA Webster, Allen L., Estadística aplicada a los negocios y la economía, México, McGraw-Hill, 2002. Canavos, George, Probabilidad y estadística, México, McGraw-Hill, 1992. Cuadras, Carles M., Problemas de probabilidades y estadística I y II, España, PPU, 1999. Díaz, Godino, Azar y probabilidad, España, Síntesis, 1991. Elorza, Haroldo, Estadística para las ciencias sociales y del comportamiento, México, Oxford University Press, 1999. Engel, Arthur, Probabilidad y estadística, España, Consorci d'Editors Valencians, 1988. Freud, John y Gary A. Simon, Estadística elemental, México, Prentice-Hall, 2003. Fuenlabrada, Samuel, Probabilidad y estadística, México, McGraw-Hill, 2000. Leonard J., Kazmier, Estadística aplicada a la administración y la economía, México McGraw-Hill, 1998. Martín Pliego, Francisco Javier, Introducción a la estadística económica y empresarial, España, Editorial AC, 1994. MendenHall, William, Richard Scheaffer y Dennis Wackely, Estadística matemática con aplicaciones, México, Grupo Editorial Iberoamericana, 1986. 149 Peña, Daniel y Juan Romo, Introducción a la estadística para las ciencias sociales, España, McGraw-Hill, 1997. Quesada, Isidoro, Curso y ejercicios de estadística, España, Alhambra, 1989. Stevenson, William J., Estadística para administración y economía, México, Harla, 1993. Spiegel, Murray R., Estadística, México, McGraw-Hill, 1970. Ritchey, Ferris J., Estadística para las ciencias sociales, México, McGraw-Hill, 2002. 150