Estadística Descriptiva Estadística Descriptiva 2 Estadística Descriptiva PRESENTACIÓN En el marco del Programa Integral de Capacitación, Formación e Investigación (PICFI), se desarrolló en el INEGI el proyecto de capacitación en Estadística apoyada con instructores internos, con el propósito de brindar los elementos teórico—prácticos necesarios para el uso y aprovechamiento de las diversas herramientas y metodología estadísticas, que coadyuven a un mayor rendimiento y una mejor calidad en las labores cotidianas de los trabajadores. Para que este fin pueda ser alcanzado, es necesario que haya una producción de material didáctico de apoyo a los eventos de capacitación; la cual es por un lado creativa y por otro reproductiva. La producción creativa implica todo un proceso que abarca desde la definición de objetivos de aprendizaje hasta la edición final del documento que constituirá el manual para el curso. En tanto que la reproductiva se refiere a la multiplicación del manual original para cada uno de los participantes. Evidentemente, el principal esfuerzo se centra en la elaboración de nuevos manuales de instrucción, ya que así estamos en posibilidades de brindar la capacitación y formación necesaria, a fin de que el personal que conforma el instituto, pueda afrontar los retos de productividad que se plantean en el corto y mediano plazo. Con cada nuevo material, se fortalece el programa institucional y se fomenta una nueva cultura: la cultura de una nueva formación profesional, cuyo eje principal descansa en la participación activa y responsable del individuo en su propio proceso de enseñanza—aprendizaje. En este entorno, presentamos al lector el manual de Estadística descriptiva como parte de este esfuerzo por alcanzar la misión del PICFI, esperando contribuir positivamente en las tareas sustantivas que desarrolla el INEGI. 3 Estadística Descriptiva ESTADÍSTICA DESCRIPTIVA Objetivo: manejar las herramientas básicas (graficas y numéricas) de estadística descriptiva, entender sus limitaciones e identificar la temática general que tocan distintas disciplinas de la estadística como lo son: muestreo, inferencia y regresión. Dirigido a: todo el personal que requiera actualizarse en las distintas disciplinas relacionadas con su actividad. Requisitos: acreditar satisfactoriamente álgebra básica. Contenido: 1. Introducción • Objetivos de la estadística • Concepto de población y muestra • Tipos básicos de datos 2. Descripción de datos por tablas y graficas • Diagrama de barras • Diagrama de puntos • Tablas de frecuencia • Histogramas 3. Medidas numéricas • Medidas de localización y dispersión • Medidas de sesgo • Otras medidas 4. Descripción de datos divariados • Diagramas de dispersión • Tablas de contingencia • Coeficiente de correlación Duración: 20 horas 4 Estadística Descriptiva Bibliografía: • Título: Estadística para Administración y Economía Autor: Mendenhall Reinmuth Editorial: Grupo Editorial Iberoamérica • Título: Probabilidad y Estadística Aplicaciones y Métodos Autor: G.C. Canavos Editorial: Mc. Graw Hill, 1987 • Título: Statistics Third Edition Autor: David S. Moore Editorial: W.H. Freeman and Company 5 Estadística Descriptiva 1. INTRODUCCIÓN Para mucha gente, estadística significa descripciones numéricas. Esto puede verificarse fácilmente al escuchar, un domingo cualquiera, a un comentarista de televisión narrar un juego de fútbol. Sin embargo, en términos más precisos, la estadística es el estudio de los fenómenos aleatorios. En este sentido la ciencia de la estadística tiene, virtualmente, un alcance ilimitado de aplicaciones en un espectro tan amplio de disciplinas que van desde las ciencias y la ingeniería hasta las leyes y la medicina. El aspecto más importante de la estadística es la obtención de conclusiones basadas en los datos experimentales. Este proceso se conoce como inferencia estadística. Si una conclusión dada pertenece a un indicador económico importante o a una posible concentración peligrosa de cierto contaminante, o bien, si se pretende establecer una relación entre la incidencia de cáncer pulmonar y el fumar, es muy común que la conclusión esté basada en la inferencia estadística. OBJETIVOS DE LA ESTADÍSTICA El objetivo de la estadística y lo que son las partes de un problema estadístico se dan a continuación. El objetivo de la estadística es el de hacer inferencias (predecir, decidir) sobre algunas características de una población1 con base en la información contenida en una muestra2. ¿Cómo lograr este objetivo? Se verá que todo problema estadístico consta de cinco partes. La solución de cada una de estas partes permite el logro del objetivo. La primera y más importante de las partes de un problema es una especificación clara de la pregunta a contestar y de la población sobre la cual dicha pregunta se hace. 1 Definición: Una población es el conjunto de todas las mediciones de interés al muestrista. 1 Definición: Una muestra es una colección de mediciones seleccionadas de la población de interés. 6 Estadística Descriptiva La segunda parte concierne al problema estadístico referente a la obtención de la muestra. Esta parte se conoce como diseño del experimento o procedimiento de muestreo y es importante porque la información cuesta tiempo y dinero. No es poco común que un estudio para una empresa cueste 50 000 o 500 000 dólares y en muchos casos, el costo de ciertos experimentos puede ser de millones. ¿Qué es lo que estos estudios proveen? Los resultados son números; en una palabra, información. El incluir demasiadas observaciones en la muestra es costoso y en muchos casos inútil, y por el otro lado el incluir muy pocas puede ser insatisfactorio. Además, la forma en que la muestra sea seleccionada afecta la cantidad de información contenida en cada observación. Un buen diseño de muestreo puede reducir, en ocasiones, el costo del «levantamiento» de la muestra a un décimo o un centésimo del costo utilizando otro diseño. La tercera parte de un problema estadístico consiste en el análisis de la información muestral. Independientemente de la cantidad de información contenida en la muestra, se tiene que utilizar aquí el método estadístico apropiado para extraer la información de los datos. La cuarta parte de un problema estadístico corresponde a inferir acerca de la población haciendo uso de la información muestral. Como se verá, se pueden utilizar muchos procedimientos para hacer una estimación, decidir sobre alguna característica de la población o predecir el valor de algún miembro de la misma. Por ejemplo, puede haber 10 métodos distintos para predecir las ventas de una empresa, de las cuales uno puede ser más preciso. Por lo tanto, se quiere en esta parte utilizar el mejor procedimiento de inferencia para estimar, decidir o predecir con base en la información muestral. La última parte de un problema estadístico se identifica con lo que posiblemente es la mayor contribución de la estadística al análisis de toma de decisiones. En esta parte se contesta a la pregunta «¿Qué tan buena es la inferencia?» Con propósitos de ilustración, suponga que se conduce un estudio estadístico y como resultado se estima que el producto de la compañía obtendrá un 34% adicional de mercado para el próximo año. No satisfechos con la información cabe preguntarse «¿Qué tan precisa es la estimación?» ¿De qué valor puede ser 7 Estadística Descriptiva una estimación sin una medida de confiabilidad? ¿Será la estimación precisa dentro de un 1%, 5% ó 20%? ¿Será lo suficientemente confiable como para basar en ella planes de producción? Como se verá más adelante, los procedimientos de estimación, toma de decisiones y predicción permiten calcular una medida de la bondad de cada inferencia. En consecuencia, en una situación práctica, toda inferencia debe ir acompañada por una medida que diga «que tanta fe» se le puede tener. Partes de un problema estadístico 1. Una definición clara de la población de interés. 2. El diseño del experimento o procedimiento de muestreo. 3. Recopilación y análisis de los datos. 4. Identificación del procedimiento para hacer inferencias sobre la población con base en la información muestral. 5. Obtención de una medida de la bondad (confiabilidad) de la inferencia. El enfoque precedente para la inferencia estadística descansa únicamente en la evidencia muestral. Este es denominado teoría del muestreo o enfoque clásico de la inferencia estadística y para la mayor parte de ésta, será el que se tome en este curso. CONCEPTO DE POBLACIÓN Y MUESTRA Para comprender la naturaleza de la inferencia estadística, es necesario entender las nociones de población y muestra. La población es la colección de toda la posible información que caracteriza a un fenómeno. En estadística, población es un concepto mucho más general del que tiene la acepción común de esta palabra. En este sentido, una población es cualquier colección ya sea de un número finito de mediciones o una colección grande, virtualmente infinita, de datos acerca de algo de interés. Por otro lado, la muestra es un subconjunto representativo seleccionado de una población. La palabra representativo es la clave de esta idea. Una buena muestra es aquella que refleja las características esenciales de la población de la cual se obtuvo. En estadística, el objetivo de las técnicas de muestreo conduce a una muestra aleatoria. Las observaciones de la muestra aleatoria se usan para calcular 8 Estadística Descriptiva ciertas características de la muestra denominadas estadísticas. Las estadísticas se usan como base para hacer inferencias acerca de ciertas características de la población, que reciben el nombre de parámetros. Así, muchas veces se analiza la información que contiene una muestra aleatoria con el propósito principal de hacer inferencias sobre la naturaleza de la población de la cual se obtuvo la muestra. En estadística la inferencia es inductiva porque se proyecta de lo específico (muestra) hacia lo general (población). En un procedimiento de esta naturaleza siempre existe la posibilidad de error. Nunca podrá tenerse el 100% de seguridad sobre una proposición que se basa en la inferencia estadística. Sin embargo, lo que hace que la estadística sea una ciencia (separándola del arte de adivinar la fortuna) es que unida a cualquier proposición, existe una medida de la confiabilidad de ésta. En estadística la confiabilidad se mide en términos de probabilidad. En otras palabras, para cada inferencia estadística se identifica la probabilidad de que la inferencia sea correcta. 9 Estadística Descriptiva TIPOS BÁSICOS DE DATOS En el estudio de la estadística interesa, básicamente, la presentación e interpretación de resultados aleatorios que se dan en un estudio planeado o en una investigación científica. De aquí que los estadísticos frecuentemente manejen ya sea datos experimentales, que representan conteos o mediciones, o tal vez datos categóricos que puedan clasificarse de acuerdo con algún criterio. Cualquier registro de información, sea éste numérico o categórico, se denominará observación. EJERCICIOS En cualquier experimento que incluya análisis de datos, es importante tener una imagen clara de la composición tanto de la muestra como de la población. A menudo los conceptos se confunden o se definen vagamente por lo que los resultados experimentales resultan de difícil interpretación. En ocasiones los errores llevan a conclusiones absurdas o simplemente sin sentido. Para aclarar las nociones de muestra y población se consideran tres actividades a realizar ya sea individualmente o por grupos de estudiantes. 1. Visite la biblioteca de su centro de trabajo y seleccione una revista de investigación apropiada para su ámbito. Después de seleccionar una revista, escoja un artículo en el que se hable de una encuesta por muestreo, sin necesidad de que aparezcan en él los datos. Establezca el objetivo de la encuesta e identifique el procedimiento utilizado en el levantamiento de los datos. Defina e identifique las unidades experimentales, la muestra y la población. Recuerde el objetivo de la estadística y explique cómo la inferencia sobre la población pudo ayudar a contestar las preguntas postuladas en la investigación. 10 Estadística Descriptiva 2. Las encuestas de opinión aparecen con frecuencia en la prensa. Encuentre una de esas encuestas y discuta el objetivo de ella y el procedimiento empleado para obtener los datos muéstrales, la muestra y la población. Explique cómo los resultados encontrados pueden representar una inferencia sobre la población. En la vecindad de períodos de elecciones presidenciales, continuamente se realizan encuestas para sondear la predilección del público por los distintos candidatos. ¿Qué problemas especiales enfrentan los encuestadores en la selección de sus unidades experimentales, problemas que no enfrentan en otro tipo de encuestas de opinión? ¿Debe preocuparse el encuestador por sólo aquellas personas que pueden votar? Si es así, ¿Cómo puede identificar a las personas con derecho a voto? 3. Seleccione una intersección de calles con tráfico intenso y diseñe un experimento para medir el tráfico diario. Defina la población e incluya en su estudio los vehículos que desee. Defina las unidades experimentales y la muestra y encuentre un procedimiento para la selección de los datos muéstrales. ¿Qué problemas encuentra para diseñar el experimento, definir las unidades, muestra y población? ¿De qué forma el objetivo de su estudio le ayuda para ir aclarando las nociones de unidades, muestra y población? 11 Estadística Descriptiva 2. DESCRIPCIÓN DE DATOS POR TABLAS Y GRÁFICAS Recuerde que el objetivo de la estadística moderna es hacer inferencias acerca de un conjunto de datos, usualmente grande, llamado población, con base en la información contenida en una muestra. Para formular las inferencias es necesario poder describir un conjunto de datos ya sea éste la población o una muestra. Un buen número de textos tratan de los métodos de la estadística descriptiva, es decir, los métodos usados para describir conjuntos de datos numéricos. Estos métodos pueden ser clasificados en dos tipos: métodos gráficos y métodos numéricos. Aquí la discusión se restringe a unos cuantos métodos, tanto gráficos como numéricos, que son útiles no solamente para propósitos descriptivos sino también para hacer inferencias. DIAGRAMA DE BARRAS Cuando se tienen datos que fueron colectados en distintos períodos de tiempo o distintas áreas geográficas es conveniente usar tablas o diagramas de diversos tipos para su presentación. Se cuenta con auxiliares como los diagramas de barras, las gráficas de líneas o los diagramas circulares que sirven como un resumen visual de los datos. Hay muchos otros métodos gráficos que usa el estadístico en los negocios y en la economía pero la discusión se limita a los ya mencionados. 1974 1975 1976 1977 100 115 110 150 Profesionales 40 44 42 58 Hombres 37 40 39 48 Mujeres 3 4 3 10 No Profesionales 60 71 68 92 Hombres 50 58 56 69 Mujeres 10 13 12 23 Total de Empleados Tabla 1. Análisis de los empleados en un despacho de asesoría 12 Estadística Descriptiva La tabla 1 muestra, como ejemplo de una tabla estadística, el desglose por nivel académico y sexo de los empleados en un despacho de asesores para los años de 1974 a 1977. Las clasificaciones por cada uno de los cuatro años son las mismas, lo cual permite hacer comparaciones entre los distintos años. Las entradas de la tabla dan el número total de empleados, desglosado en profesionales y no profesionales por cada año. Note que la suma de profesionales y no profesionales da el número total de empleados para un año dado. La tabla también desglosa a profesionales y no profesionales en número de hombres y mujeres. Algunas veces se usan porcentajes como entradas de las tablas estadísticas. Cuando sea éste el caso, las tablas deben ser examinadas cuidadosamente puesto que las comparaciones entre entradas correspondientes a distintas muestras pueden verse distorsionadas si el número de observaciones varía de muestra a muestra. Por ejemplo, dos entradas en un mismo renglón de la tabla pueden tener 50% ambas, pero la primera entrada puede representar 100 de 200 y la segunda puede representar 1 de 2. El 50% de la primera entrada basado en un total de 200 observaciones es, en este caso, más representativo que el segundo, basado en un total de 2. Por lo tanto, ambos porcentajes deben compararse con cuidado. En la gráfica 1 se ejemplifica como se puede usar un diagrama de barras para exhibir gráficamente algunos de los datos de los empleados en la tabla 1. Por lo general los diagramas de barras no se subdividen tan finamente como las tablas puesto que particiones adicionales hacen confusa la apariencia de la gráfica, lo que desvirtúa el objetivo de producir una gráfica que sea de lectura sencilla y permita un análisis rápido de datos. Es posible construir distintos diagramas de barras que exhiban la misma información. En el ejemplo de la gráfica 1 es posible usar 3 barras para cada año, una barra exhibiendo el número de hombres, otra el número de mujeres y la tercera el número total de empleados. El tipo de diagrama usado no es importante, en tanto describa la información en forma clara y fácil de interpretar. 13 Estadística Descriptiva Número de Empleados 200 150 hombres 100 mujeres 50 0 1974 1975 1976 1977 Años Gráfica 1. Diagrama de barras Los diagramas de barras sirven principalmente para representar el total de una cierta cantidad para cada año o para cada categoría presentada. DIAGRAMA DE PUNTOS Basta ilustrar con un ejemplo, considérense las observaciones muéstrales 5, 7, 1, 2, 4. Estas observaciones se muestran en el diagrama de puntos que se presenta en la gráfica 2. 0 1 2 3 Gráfica 2. Diagrama de puntos 14 4 5 6 7 8 Estadística Descriptiva TABLA DE FRECUENCIAS Una descripción informativa de cualquier conjunto de datos está dada por la frecuencia de repetición u arreglo distribucional de las observaciones en el conjunto. Para apreciar lo necesario de un resumen de datos, considere el ejemplo del Servicio de Hacienda Interno (SHI) que se encarga de recibir y procesar millones de declaraciones de ingresos durante todo el año. Es dudoso que el SHI pueda descubrir los patrones ocultos de ingresos e impuestos examinando simplemente la información contenida en las declaraciones. Similarmente, el Departamento del Censo no podría avanzar mucho al analizar los datos del censo, si éstos no pudiesen visualizarse. Para identificar los patrones en un conjunto de datos es necesario agrupar las observaciones en un número relativamente pequeño de clases que no se superpongan entre sí, de tal manera que no exista ninguna ambigüedad con respecto a la clase a que pertenece una observación en particular. El número de observaciones en una clase recibe el nombre de frecuencia de clase, mientras que el cociente de una frecuencia de clase con respecto al número combinado de observaciones en todas las clases se conoce como la frecuencia relativa de esa clase. Las fronteras de la clase se denominan límites, y el promedio aritmético entre los límites superior e inferior recibe el nombre de punto medio de la clase. Número de unidades vendidas (clase) 89 - 89 90 - 99 100 - 109 110 - 119 120 - 129 130 - 139 140 - 149 150 - 159 160 - 169 Total Frecuencia de la clase Frecuencia relativa 7 20 5 11 11 12 6 23 5 100 7/100 = 0.07 20/100 = 0.20 5/100 = 0.05 11/100 = 0.11 11/100 = 0.11 12/100 = 0.12 6/100 = 0.06 23/100 = 0.23 5/100 = 0.05 1.00 Tabla 2. Frecuencias para el número de unidades vendidas de cierto producto 15 Estadística Descriptiva HISTOGRAMAS Este 0,15 Oeste Norte 0,1 Columnas 4 Columnas 5 Columnas 6 0,05 Frecuencia relativa 0,2 0,25 Al graficarse las frecuencias relativas de las clases contra sus respectivos intervalos en forma de rectángulos, se produce lo que comúnmente se conoce como histograma de frecuencia relativa o distribución de frecuencia relativa. Esta última es la que puede hacer evidentes los patrones existentes en un conjunto de datos. Como ilustración, los datos de la tabla 2 representan las frecuencias de unidades vendidas por día de un determinado producto por una compañía. El histograma de frecuencia relativa se construye graficando en el eje vertical la frecuencia relativa y en el eje horizontal las fronteras inferiores de cada clase, como se ilustra en la gráfica 3. Columnas 7 Columnas 8 0 Columnas 9 Número de unidades vendidas Gráfica 3. Histograma de frecuencia relativa para el no. de unidades vendidas. El número de clases que se emplea para clasificar los datos en un conjunto depende del total de observaciones de éste. Si el número de observaciones es relativamente pequeño, el número de clase a emplear será cercano a cinco, pero generalmente nunca menor que este valor. Si existe una cantidad sustancial de datos, el número de clases debe encontrarse entre ocho y doce y generalmente no existirán más de 15 clases. Un número muy pequeño de clases puede ocultar la distribución real del conjunto de datos, mientras que un número muy grande puede dejar sin observaciones a algunas de las clases, limitando de esta forma su uso. A manera de ilustración, si se reducen las nueve clases a sólo tres, en el ejemplo anterior, como se indica en la tabla 3, el histograma de frecuencia relativa resultante (gráfica 4) es muy diferente al mostrado en la gráfica 3. 16 Estadística Descriptiva Número de unidades vendidas (clase) 80 - 109 110 - 139 140 - 169 Total Frecuencia de la clase 32 34 34 100 Frecuencia relativa 32/100 = 0.32 34/100 = 0.34 34/100 = 0.34 1.00 0,1 Frecuencia relativa 0,2 0,3 0,4 Tabla 3. Frecuencia para el número de unidades vendidas de cierto producto Número de unidades vendidas Gráfica 4. Histograma modificado para el número de unidades vendidas. Una buena práctica es la creación de clases que tengan una longitud igual. Esto puede lograrse tomando la diferencia entre los dos valores extremos del conjunto de datos y dividiéndola entre el número de clases; el resultado será aproximadamente la longitud del intervalo para cada clase. Sin embargo, existen casos donde esta regla no puede o no debe aplicarse. Por ejemplo, si se tuviera a la mano la lista de impuestos del SHI pagados por la población en un año, estas cantidades pueden encontrarse en un intervalo de $0 a $1 000 000. Aún a pesar de que se eligiesen 20 clases para la distribución de frecuencia relativa, con intervalos de igual longitud, cada clase tendría una cobertura de $50 000. Lo anterior daría origen a una situación en la que casi todas las observaciones caerían en la primera clase. Para casos como éste es preferible seleccionar una escala más pequeña en el extremo inicial que la utilizada para el extremo superior. Esta elección aclarará el patrón de la distribución. 17 Estadística Descriptiva EJERCICIOS. 1. De acuerdo con la revista Informes al consumidor en su número de febrero de 1980, las cuotas anuales de 40 compañías para un seguro de $25 000 para hombre de 35 años de edad son las siguientes: $ 82 92 99 105 85 93 99 105 86 94 100 106 87 95 100 107 87 95 101 107 89 95 101 107 89 95 103 109 90 95 103 110 91 97 103 110 91 98 104 111 Establecer un esquema de agrupamiento para este conjunto de datos y determinar las frecuencias relativas. El Departamento de Agricultura de Estados Unidos informó que, en 1976, los ingresos netos por cosecha para los 50 estados de la nación, fueron los siguientes: $ 13 647 8 681 11 771 4 963 10 207 8 043 4 626 5 119 2 892 5 952 63 855 10 630 5 332 9 378 4 543 7 627 8 972 4 845 8 621 5 405 39 362 6 644 2 304 5 992 11 177 8 992 6 480 10 452 2 290 2 789 9 692 4 438 6 859 7 000 12 292 23 811 6 824 9 922 4 973 30 Establecer un esquema de agrupamiento para este conjunto de datos y determinar las frecuencias relativas. 2. Los datos en la tabla representan los gastos de consumo personal por tipo de bienes en los Estados Unidos, para algunos años entre 1929 y 1969 (en miles de millones de dólares): 18 27 611 19 106 8 141 12 543 6 695 7 657 9 554 7 683 3 904 241 Estadística Descriptiva TIPO DE BIENES bienes perdurables bienes perecederos Servicios AÑO 1929 9.2 37.7 30.3 1949 24.6 94.6 54.6 1959 44.3 146.6 120.3 1969 90.0 245.8 241.6 a. Elabore una gráfica de barras que represente estos datos. b. Use la gráfica para discutir los cambios en el tiempo de los gastos en los 3 tipos de bienes en el período de 1929 a1969. 19 Estadística Descriptiva 3. MEDIDAS NUMÉRICAS En la sección anterior se plantearon las técnicas gráficas para descubrir los patrones de distribución ocultos en un conjunto de datos. En esta sección se definen algunas medidas numéricas que se emplean comúnmente para describir conjuntos de datos. Si el conjunto es una muestra aleatoria de una población y la última meta es hacer inferencia estadística, estas medidas serán utilizadas como bases para las inferencias. Medidas de localización Existen dos medidas de interés para cualquier conjunto de datos: la localización de su centro y su variabilidad. La tendencia central de un conjunto de datos es la disposición de éstos para agruparse ya sea alrededor del centro o de ciertos valores numéricos. La variabilidad de un conjunto de datos es la dispersión de las observaciones en el conjunto. Existen principalmente tres medidas de tendencia central: la media, la mediana y la moda. DEFINICIÓN 3.1 La media de las observaciones x1, x2, xn, es el promedio aritmético de éstas y se denota por X = n ∑X i n i =1 La media es una medida apropiada de tendencia central para muchos conjuntos de datos. Sin embargo, dado que cualquier observación en el conjunto se emplea para su cálculo, el valor de la media puede afectarse de manera desproporcionada por la existencia de algunos valores extremos (aislados). Definición 3.2 La mediana de un conjunto de observaciones es el valor para el cual, cuando todas las observaciones se ordenan de manera creciente (ascendente), la mitad de éstas es menor que este valor y la otra mitad mayor. Si el número de observaciones en el conjunto es impar, la mediana es el valor de la observación que se encuentra a la mitad del conjunto ordenado. Si el número es par se considera 20 Estadística Descriptiva la mediana como el promedio aritmético de los valores de las dos observaciones que se encuentren a la mitad del conjunto ordenado. Alternativamente, la mediana puede determinarse a partir de la distribución acumulativa, es decir, la mediana es el percentil cincuenta. Puesto que la mediana es un valor que se basa en la secuencia ordenada de las observaciones en un conjunto de datos, es necesario saber que la existencia de algunos valores extremos no afectará su valor. Por lo tanto, si un conjunto contiene unos cuantos valores extremos y un agregado muy alto de observaciones, la mediana puede ser una medida de tendencia central mucho más deseable que la media. Generalmente los conjuntos de datos que describen información acerca de ingresos caen en esta categoría. Definición 3.3 La moda de un conjunto de observaciones es el valor de la observación que ocurre con mayor frecuencia en el conjunto. La moda muestra hacia qué valor tienden los datos a agruparse. En conjuntos relativamente pequeños, puede que no exista un par de observaciones cuyo valor sea el mismo. En esta situación no es clara la definición de moda. También puede suceder que la frecuencia más alta se encuentre compartida por dos o más observaciones. En estos casos, la moda tiene la utilidad limitada como medida de tendencia central. Si se ha determinado una distribución de frecuencia relativa, la clase con la frecuencia más alta recibirá el nombre de clase modal, con lo que se define a la moda como el punto medio de esa clase. En este caso la clase modal sirve como punto de concentración en el conjunto de datos. La inferencia estadística resulta en general más simple cuando se usa la media. Puesto que es la inferencia el tema principal y debido a que la media es más usada para este propósito, de aquí en adelante concentraremos la atención en la media como medida de tendencia central. 21 Estadística Descriptiva Ejercicios 1. Los siguientes datos representan el número de interrupciones por día de trabajo debidas a fallas mecánicas en una planta procesadora de alimentos: 2, 3, 0, 5, 4, 3, 1, 3, 5, 2 Calcule la media, la mediana y encuentre el número modal de interrupciones diarias. (Respuesta: Media = 2.8, mediana = 3, moda = 3) 2. Diga usted que medidas de tendencia central serían más útiles en cada uno de los siguientes casos. a. El gerente de producción de una fábrica de envases de vidrio quiere saber cuál es el tamaño de envase que debe fabricar en mayor cantidad. El tiene a la mano un buen número de datos de los tamaños de envase ordenados por los clientes. b. El gerente de ventas de una compañía que produce mobiliario de lujo desea seleccionar regiones para establecer salas de exhibición. ¿En qué medida del ingreso familiar por región estará más interesado, en la media o en la mediana? c. Un analista de la bolsa de valores está interesado en describir el cambio diario en el precio en el mercado de una acción de cierta compañía. Rara vez el precio cambia más de un punto, pero hay ocasiones en que el precio cambia hasta cuatro puntos. ¿Qué medida debe usar el analista para describir el cambio de precio de la acción en cuestión, la media, la mediana o la moda de los cambios de precio en el mercado? (Respuesta: a. Moda b. Mediana c. Media) Medidas de dispersión Una medida de tendencia central proporciona información acerca de un conjunto de datos pero no proporciona ninguna idea de la variabilidad de las observaciones en dicho conjunto. Por ejemplo, considere los dos siguientes conjuntos de datos, cada uno de los cuales consiste de cuatro observaciones: 0, 25, 75, 100; 48, 49, 51, 52. En ambos casos, media = mediana = 50. Estos dos conjuntos son muy diferentes entre sí, sin embargo las observaciones en el primero se encuentran mucho más dispersas que en el segundo. Una de las medidas más útiles de dispersión o variación es la varianza. 22 Estadística Descriptiva Definición 3.4 La varianza de las observaciones x1, x2, xn es, en esencia, el promedio del cuadrado de las distancias entre cada observación y la media del conjunto de observaciones. La varianza se denota por n s = ∑ ( xi − x ) 2 ( n − 1) i =1 La varianza es una medida razonablemente buena de la variabilidad debido a que si muchas de las diferencias son grandes (o pequeñas) entonces el valor de la varianza s2 será grande (o pequeño). El valor de la varianza puede sufrir un cambio muy desproporcionado, aún más que la media, por la existencia de algunos valores extremos en el conjunto. Definición 3.5 La raíz cuadrada positiva de la varianza recibe el nombre de desviación estándar y se denota por ⎧n 2 s = ⎨∑ ( xi − x ) ⎩ i =1 ⎫ ( n − 1)⎬ ⎭ La varianza y la desviación estándar no son medidas de variabilidad distintas, debido a que la última no puede determinarse a menos que se conozca la primera. A menudo se prefiere la desviación estándar en relación con la varianza, porque se expresa en las mismas unidades físicas de las observaciones. 23 Estadística Descriptiva Medidas de sesgo Para ilustrar una distribución de muestreo, permítannos hacer un experimento. Tengo una caja que contiene un número grande de bolas, idénticas excepto por el color. Estas bolas son la población. La proporción de bolas negras en la caja es p = 0.20 y este número es un parámetro describiendo esta población de bolas. Suponemos que disponemos de una pala con 25 celdas y que cuando la introducimos en la caja, extraemos una muestra de 25 bolas. Si las bolas en la caja están bien mezcladas, esta es una muestra aleatoria simple de tamaño 25. Nos preguntamos sobre una muestra simple aleatoria de tamaño 25 de una población que contiene 20% de bolas negras, lo siguiente: ¿Cuántas bolas negras esperamos que aparezcan en la muestra? —Si toma varias muestras simples aleatorias, ¿Espera encontrar una muestra con 25 bolas negras? ¿Una sin bolas negras? ¿Una con 15 bolas negras? Razonablemente esperaría que alrededor del 20% de las bolas fuesen negras, esto es, aproximadamente 5 bolas negras de entre las 25 bolas en la muestra. Pero no siempre obtendremos exactamente 5 bolas negras. Si obtenemos, por decir, 4 bolas negras, entonces la estadística p^ = 4 / 25 = 0.16. Es, sin embargo, una buena aproximación del parámetro p = 0.20. Pero si sacamos una muestra con 15 bolas negras, entonces p^ = 15 / 25 = 0.60. Es una estimación mala de p. ¿Qué tan frecuentemente obtendremos tan pobres estimaciones de una muestra simple aleatoria? Realizamos este experimento 200 veces y registramos el número de bolas negras en cada muestra. (Fuimos cuidadosos de regresar la muestra a la población y agitar la población después de cada repetición). Los resultados se muestran en la tabla y gráfica siguientes. Ninguna de las 200 muestras tuvo más de 9 bolas negras. 24 Estadística Descriptiva Número de bolas negras en la muestra Proporción muestral p^ Número de muestras con este resultado Proporción de muestras con este resultado 0 1 2 3 4 5 6 7 8 9 0 3 0.04 8 0.08 12 0.12 34 0.16 40 0.20 47 0.24 24 0.28 20 0.32 9 0.36 3 0.015 0.040 0.060 0.170 0.200 0.235 0.120 0.100 0.045 0.015 Tabla 4. Resultados de 200 muestras aleatorias simples de tamaño 25 cuando p = 0.20 50 0 Número de muestras 45 1 40 2 35 3 30 4 25 5 20 6 7 15 8 10 9 5 0 Bolas negras en la muestra Gráfica 5. Resultados de 200 muestras simples aleatorias de tamaño 25 cuando p = 0.20 La proporción muestral p^ desde luego que varía de muestra a muestra: recorrió de 0 (ninguna bola negra) hasta 0.36 (9 bolas negras) cuando las 200 muestras fueron examinadas. Pero estimaciones tan malas como p^ = 0 o p^ = 0.36 (recuerde que el verdadero p es 0.20 para esta población) no ocurren frecuentemente. De las 200 muestras, 56% tuvieron 4, 5 o 6 bolas negras (p^ de 0.16, 0.20 o 0.24) y 83% tuvieron 3, 4, 5, 6 o 7 bolas negras (p^ entre 0.12 y 0.38). Errores en el muestreo En nuestro experimento, conocemos p. Si p fuera desconocido, los mismos hechos deberían mantenerse. No podemos garantizar que la estadística muestral p^ esté cercano al desconocido p (por la variación del muestreo), pero podemos estar seguros que así es (porque la mayoría de las veces las muestras aleatorias simples dan valores de p^ cercanos a p). Así, los resultados de una muestra aleatoria simple no solo son 25 Estadística Descriptiva imparciales sino que tienden a ser reiterativos de muestra a muestra. Finalmente, debemos abundar que el hecho de la falta de repeticiones en un método muestral (la muestra resulta extraviarse en el corral) es un problema tan serio como el favoritismo. Puesto que una muestra es seleccionada con el propósito de obtener información de una población, por «error en una muestra» obtenemos una incorrecta estimación del parámetro de una población para una estadística muestral. Dos tipos básicos de errores son asociados con cualquier método de recolección muestral de datos. El sesgo consiste en divergencias repetidas de la estadística muestral (en la misma dirección) del parámetro poblacional. La escasez de precisión significa que en repetidas muestras los valores de la estadística muestral están diseminados o esparcidos; los resultados del muestreo no se pueden repetir. Un malentendido frecuente es confundir, en un método muestral, el sesgo con una fuerte tendencia de la población misma, especialmente si esa tendencia es una reflexión de prejuicio o sesgo en el sentido ordinario de esa palabra. Si, por ejemplo, 93% de una población de directores corporativos de personal se opone en una acción firme al Programa de Empleo del Gobierno Federal, esto no es sesgo en el sentido estadístico. Es solamente un hecho sobre esta población. La distribución muestral de una estadística describe a ambos, su sesgo y su precisión. Por ejemplo, la precisión de p^ como un estimador de p puede ser expresado tal como «56% de las muestras simples aleatorias de tamaño 25 tienen un valor de p^ con ±0.04 del valor real de p». La forma de la distribución de valores mostrada en la tabla 4 es típica de una muestra simple aleatoria. Estas distribuciones pueden ser estudiadas matemáticamente evitándonos el trabajo de experimentación. Podrías adivinar tales estudios (y experimentos también) que muestran que el incremento del tamaño de la muestra aumenta la precisión de la estadística muestral. Si en nuestro experimento hemos usado muestras de tamaño 100, el 74% de esas muestras debería tener proporciones muéstrales p^ con ±0.04 de p. Si, como Newsday, tomamos muestras de tamaño 1 373, poco menos que 2 en 10 000 fallaran al tener p^ con ±0.04 de la realidad sobre la población. Sólo agregaremos un dato más para darle el tiro de gracia al 26 Estadística Descriptiva escepticismo del reportero periodístico sobre muestras 1 en 40 000: La precisión de una estadística muestral no depende en que si el tamaño de la población es mucho más grande que el tamaño de la muestra. En otras palabras, el patrón de resultados de repetidamente sumergir la pala en una enorme caja conteniendo bolas no depende en si la caja contiene 1 000 bolas (como en el experimento) o 1 000 000 de bolas. La precisión depende en cuantas bolas extrae la pala de la caja (el tamaño de la muestra) y, en menor grado, en la proporción p de bolas negras en la población. Estas son noticias nuevas para Newsday. Su muestra de tamaño 1 373 tiene gran precisión porque el tamaño de la muestra es grande. Que sólo 1 en 40 000 de la población fueron seleccionados es irrelevante. Los conocimientos hasta aquí adquiridos son el fundamento para un acuerdo sobre los usos del muestreo. En resumen, estos hechos son como sigue: 1. No obstante la dispersión muestral de las estadísticas de una muestra simple aleatoria, los valores de esas estadísticas tiene una distribución conocida (esto es, un patrón conocido) cuando se repiten las muestras. 2. La precisión de una estadística de una muestra simple aleatoria depende del tamaño de la muestra y puede ser tan alta como se desee con sólo tomar una muestra bastante grande. Ejercicios Establezca si los valores dados son parámetro o estadística. 1. El Buró de Estadísticas Laborales anuncia que el mes próximo pasado entrevistó a todos los miembros de la fuerza laboral en una muestra de 55 800 familias, de los cuales 6.5% estaban desempleados. 2. Un lote de balines tiene un diámetro promedio de 2.503 centímetros. Esto es con las especificaciones para aceptación del lote por parte del comprador. Pero el procedimiento muestral de aceptación inspecciona 100 balines del lote con un diámetro promedio de 2.515 centímetros. Esto está fuera de los límites especificados, 27 Estadística Descriptiva así que el lote es equivocadamente rechazado. 3. Una compañía que vende teléfonos en Los Ángeles usa un dispositivo que marca aleatoriamente números telefónicos residenciales en dicha ciudad. De los primeros 100 números marcados, 47 son números no registrados. Esto no es sorpresa, porque 52% del total de teléfonos residenciales son no registrados. 4. El registro de votantes muestra que 68% del total de votantes en Marion County, Indiana están registrados como Republicanos. Para comprobarlo, se utiliza un dispositivo digital aleatorio de marcación, se usa el dispositivo para llamar a 150 teléfonos residenciales seleccionados aleatoriamente. De los votantes registrados contactados, 73% se registraron Republicanos. 5. Justo antes de una elección presidencial, una firma de encuestas de opinión pública aumenta el tamaño de su muestra semanal de la usual de 1 500 personas a 4 000 personas. ¿Optar por una muestra aleatoria más grande, hace el sesgo de los resultados de la encuesta menores? ¿Se mejora la precisión de la muestra? 28 Estadística Descriptiva 4 DESCRIPCIÓN DE DATOS BIVARIADOS Diagramas de dispersión Para efectos de ilustración se introduce el tema considerando el problema de predecir las ventas mensuales y de una compañía en la cual sus productos no experimentan una variación estacionaria en sus ventas. Como la variable predictora x se utiliza la cantidad gastada en publicidad por la compañía en el mes bajo estudio. Es de interés ver si en efecto hay una relación entre lo gastado en publicidad y lo vendido y además, si se puede predecir lo que se venderá, y, como una función de lo que se esté dispuesto a gastar en publicidad, x. La evidencia que se presenta en la tabla 5 es una lista de gastos publicitarios y volúmenes de ventas de 10 meses que fueron seleccionados al azar de los archivos. Se supondrá que los gastos publicitarios y ventas de estos 10 meses constituyen una muestra de mediciones de las operaciones pasadas y presentes de la compañía. MES GASTOS PUBLICITARIOS x (X $10 000) VOLUMEN DE VENTAS y (X $10 000) 1 1.2 101 2 0.8 92 3 1.0 110 4 1.3 120 5 0.7 90 29 Estadística Descriptiva 6 7 8 9 10 0.8 1.0 0.6 0.9 1.1 82 93 75 91 105 Tabla 5. Gastos publicitarios y volúmenes de venta de una compañía durante 10 meses elegidos al azar Volumen de Ventas Lo primero que se hace para analizar los datos de la tabla 5 es el graficar los datos como puntos en una gráfica, representando el volumen mensual de ventas y en el eje vertical y los gastos publicitarios correspondientes x en el eje horizontal. 130 120 110 100 90 80 70 0,5 0,6 0,7 0,8 0,9 1 1,1 1,2 1,3 Gasto Publicitario Gráfica 6. Diagrama de dispersión de los datos de la tabla 5 La gráfica 6 es referida como diagrama de dispersión. Se observa en ella que aparentemente y crece cuando x crece. (¿Podría haber ocurrido un tal diagrama por casualidad si x y y no estuvieren relacionadas?) Un método para obtener una ecuación de predicción que relacione a y con x consiste en poner una regla de dibujo sobre la gráfica y moverla hasta que dé la apariencia de que pasa a través de los puntos. La línea recta que resulta se considera el «mejor ajuste» a los datos. Se puede utilizar de ahí en adelante, la gráfica de la recta para predecir el volumen de ventas y en función de los gastos publicitarios x que se presupuesten para ese mes. Estimación por mínimos cuadrados para el modelo lineal simple. En la estimación por mínimos cuadrados para el modelo lineal simple sólo se tiene una variable de predicción, y se supone 30 Estadística Descriptiva una ecuación de regresión lineal. Por ejemplo, los estudiantes universitarios que aprenden más rápido tienen mejores calificaciones promedio (CP) y por lo tanto, mejores oportunidades de obtener buenos empleos después de graduarse. Supóngase que los datos que se encuentran en la tabla A representan las calificaciones promedio de 15 egresados y sus correspondientes salarios iniciales. CP 2.95 3.20 3.40 3.60 3.20 Salario inicial 18.5 20.0 21.1 22.4 21.2 CP 2.85 3.10 2.85 3.05 2.70 Salario inicial 15.0 18.0 18.8 15.7 14.4 CP 2.75 3.10 3.15 2.95 2.75 Salario inicial 15.5 17.2 19.0 17.2 16.8 Tabla A. Datos de la muestra para un modelo lineal simple (miles de dólares) Para este ejemplo, la variable respuesta es el salario inicial y la variable de predicción potencial es la calificación promedio. Estas últimas se seleccionaron de tal manera que reflejen un amplio intervalo. Se desea determinar una ecuación de regresión para el salario inicial promedio como una función de la calificación promedio. Dado que se ha propuesto sólo una variable de predicción, graficar los datos puede ser útil en la selección inicial de un modelo de regresión. La gráfica de los salarios iniciales contra las calificaciones promedio se muestra en la gráfica A. A pesar que esta gráfica muestra una gran dispersión3, se observa una tendencia lineal. De acuerdo con lo anterior se supondrá un modelo de la forma Yi = ß0 + ß1xi + εi i = 1, 2, 3, . . . , n, X Donde Y, es la i-ésima observación de la variable respuesta, la cual corresponde al i-ésimo valor xi de la variable de predicción, εi es el error aleatorio no observable asociado con Y, y ß0 y ß1 son los parámetros desconocidos que representan la intersección y la pendiente, respectivamente. La expresión X se conoce como modelo lineal simple, debido a que es lineal en los parámetros y se tiene sólo una variable de predicción. Cada observación Y, es una variable aleatoria que es la suma de dos componentes; el término no aleatorio ß0 + ß1xi, y la componente aleatoria εi. Si εi fuera un valor igual a cero, la observación Y, se encontraría precisamente sobre la línea de regresión ß0 + ß1xi. Por lo tanto, εi es la distancia vertical de la observación a la línea de regresión. Dado que se supone 3 Por esta razón, este tipo de gráfica se conoce como gráfica de dispersión. 31 Estadística Descriptiva E(εi) = 0, Var(εi) = σ2 i = 1, 2, . . . , n, y Cov(εi, εj) = 0 i ≠ j; entonces E(Yi) = E(ß0 + ß1x + εi) = ß0 + ß1x, Cov(Yi, Yj) = σ2 i ≠ j, y Var(Yi) = Var(ß0 + ß1xi + εi) = Var(εi) = σ2. El último resultado surge del hecho de que la varianza de una variable aleatoria no varía con respecto a la localización; en este caso, el corrimiento en localización está proporcionado por el término no aleatorio ß0 + ß1xi. Por lo tanto, en términos reales. lo que se supone es que para cada calificación promedio x existe una distribución de probabilidad para los salarios iniciales cuya media es una función lineal de x y cuya varianza es la misma para toda x. El modelo proporcionado por X debe considerarse sólo como una selección inicial para la forma funcional de la curva de regresión. Con base en análisis más apropiados, puede ser necesario hacer ajustes y éstos a su vez pueden dar como resultado una ecuación final de predicción diferente de la del modelo inicial. Para obtener los estimadores de mínimos cuadrados de ß0 y ß1, se generalizará un conjunto de datos consistente en n pares (x1, y1), (x2, y2), . . . , (xn, yn), donde los valores de y son las observaciones de la variable aleatoria respuesta. El método de mínimos cuadrados considera la desviación de la observación Yi de su valor medio y determina los valores de ß0 y ß1 que minimizan la suma de los cuadrados de estas desviaciones. La i-ésima desviación o error es εi = Yi - (ß0 + ß1xi), Y y la suma de los cuadrados de los errores es n n Σ εi = Σ (Yi - ß0 - ß1xi)2 2 Z 32 i =1 i =1 Estadística Descriptiva Los estimadores de mínimos cuadrados de ß0 y ß1 se obtienen mediante la diferenciación de Z con respecto a ß0 y ß1 y después al igualar cada derivada parcial con cero, es decir ∂Σ εi2 = -2 Σ(Yi - B0 - B1xi) = 0, ∂ß0 y ∂Σ εi2 = -2 Σxi(Yi - B0 - B1xi) = 0, ∂ ß1 Donde B0 y B1 son los estimadores de mínimos cuadrados de β0 y β1, respectivamente. Al simplificar y distribuir las sumas en estas ecuaciones, se tiene Σ Yi = nB0 + B1 Σ xi y Σ xiYi = B0 Σ xi + B1 Σ xi2. [ Las dos ecuaciones dadas por [ se conocen como ecuaciones normales. Dadas las realizaciones y1, y2, . . . , yn, las ecuaciones pueden resolverse para los estimados de mínimos cuadrados b0 y b1. Si se dividen ambos miembros de la primera ecuación entre n, se obtiene (Σ yi)/n = b0 + b1 (Σ xi)/n ; entonces el estimador de mínimos cuadrados de β0 es _ _ b0 = (Σ yi)/n - b1(Σ xi)/n = y - b1x. \ Al sustituir b0 en la segunda ecuación de [ se obtiene Σ xiYi = [(Σ yi)/n - b1(Σ xi)/n] Σ xi + B1 Σ xi2, la que, después de resolver para b1, se reduce a _ _ _ b1 = [Σ (xi - x)(yi - y)]/[Σ (xi - x)2] ] Los valores dados por \ y ] son aquellos que minimizan la suma de los cuadrados de los errores. Dados los estimadores de mínimos cuadrados de B0 y B1 para la intersección y la pendiente, respectivamente, la recta de regresión estimada para el modelo X es Y^i = B0 + B1xi ^ donde Y^i es el estimador para la media de la observación Yi, la cual corresponde al valor xi de la variable de predicción. 33 Estadística Descriptiva Nótese que si se sustituye \ por B0 en ^ se obtiene una forma alternativa para la recta de regresión estimada, la cual se encuentra dada por _ _ _ Y^i = (y - b1x) + B1xi = Y + B1(xi - x). _ Con base en Y, la diferencia entre la realización yi y el valor estimado y^i es un estimador del correspondiente error. Este estimador se conoce como el i-ésimo residual y se denota por ei = yi - y^i . ` De nuevo, nótese que los residuos no son estimados en el sentido clásico de la estimación de parámetros (fijos), sino que son estimadores de los valores de las variables aleatorias no observables εi, los cuales se obtienen de la recta de regresión estimada. Los residuos e1, e2, . . . , en son muy importantes debido a que proporcionan una abundante información sobre lo que puede faltar del modelo de regresión estimado. En este momento se ilustrarán los pesos de cálculo para obtener la recta de regresión estimada para el modelo lineal simple empleando para ello los datos de los salarios. El propósito de esto radica en familiarizar al estudiante únicamente con el procedimiento de cálculo. En la tabla B, se incluyen los cálculos básicos necesarios para obtener los estimadores de mínimos cuadrados de la intersección y la pendiente. 34 Estadística Descriptiva Totales CP xi 2.95 3.20 3.40 3.60 3.20 2.85 3.10 2.85 3.05 2.70 2.75 3.10 3.15 2.95 2.75 45.6 Salario yi 18.5 20.0 21.1 22.4 21.2 15.0 18.0 18.8 15.7 14.4 15.5 17.2 19.0 17.2 16.8 270.8 x iy i 54.575 64.000 71.740 80.640 67.840 42.750 55.800 53.580 47.885 38.880 42.625 53.320 59.850 50.740 46.200 830.425 x i2 8.7025 10.2400 11.5600 12.9600 10.2400 8.1225 9.6100 8.1225 9.3025 7.2900 7.5625 9.6100 9.9225 8.7025 7.5625 139.5100 Tabla B. Cálculos básicos para obtener los estimadores de mínimos cuadrados b0 y b1 (con base en los datos de salarios dados en la tabla A) Mediante el empleo de \ y ]el estimador de mínimos cuadrados para la pendiente es b1 = [830.425 - (45.6)(270.8)/15]/[139.51 - (45.6)2/15] = 8.12, y el correspondiente estimado de mínimos cuadrados para la intersección es b0 = 270.8/15 - (8.12)(45.6/15) = - 6.63. De acuerdo con lo anterior, la ecuación estimada de regresión es ^yi = - 6.63 + 8.12 xi. a Al intentar interpretar esta ecuación se tiene que los valores ^yi son los estimadores para las medias de las distribuciones de probabilidad de los salarios iniciales correspondientes a las calificaciones promedio xi. Tener una intersección negativa resulta fastidioso, ya que, por ejemplo, si x = 0.5, ^y = - 2.57, lo cual es absurdo. Pero las calificaciones promedio en este conjunto de datos varían de 2.70 a 3.60, por lo tanto, cualquiera que sea la validez que tiene la ecuación estimada de regresión al predecir los salarios iniciales promedio se mantiene, para todos aquellos valores de x que se encuentren entre 2.70 y 3.60. En la práctica, muchas veces se desea predecir la respuesta más allá del intervalo de valores de x para los cuales se obtuvo la ecuación estimada de regresión. Si un valor de x se encuentra muy cercano a este intervalo, la predicción tendrá 35 Estadística Descriptiva cierta validez. De esta forma, ésta debe verse con mucho cuidado, ya que la ecuación de regresión estimada puede no ser apropiada para un intervalo de valores más amplio de la variable de predicción. La interpretación del valor estimado de la pendiente es directa. El incremento estimado en el salario inicial promedio para cada aumento igual a una unidad de la calificación promedio es de 8 120 dólares. EJERCICIOS 1. Suponga que le son dados cinco puntos cuyas coordenadas son las de la tabla. x y -3 6 -1 4 1 3 1 1 2 1 a. Encuentre la recta de mínimos cuadrados para los datos. b. Como una verificación de sus cálculos en el inciso a, grafique los puntos y la recta de mínimos cuadrados. 2. Por presupuesto flexible, se entiende la relación entre ingresos y costos. Suponga que un ejecutivo de una empresa quiere establecer un presupuesto flexible para estimar sus costos para un cierto rango de producción. Los costos y predicciones pasadas se encuentran en la tabla. Producció n (X $10 000) Costos fijos (X $1 000) 3 4 5 6 7 8 9 12 10.5 13 12 13 13.3 16.5 a. Encuentre la recta de mínimos cuadrados que le permita estimar costos a partir de la producción. b. Como verificación de sus cálculos, grafique los 7 puntos y la recta de mínimos cuadrados. 36 Estadística Descriptiva TABLAS DE CONTINGENCIA Muchas veces surge la necesidad de determinar si existe alguna relación entre dos rasgos diferentes en los que una población ha sido clasificada y en donde cada rasgo se encuentra subdividido en cierto número de categorías. Por ejemplo, ¿Existe una relación entre el fumar cigarrillos y la predisposición a desarrollar cáncer pulmonar?, o también ¿Existe una relación entre la filiación política y la opinión con respecto a incrementar el presupuesto armamentista? En ambos ejemplos, se ha clasificado a la población en dos características y en donde se supone que cada una de éstas tiene por lo menos dos categorías exhaustivas y mutuamente excluyentes. En el primer ejemplo las dos características son, si se es fumador, y si se desarrolla cáncer pulmonar. Las características para estas dos características podrían ser si se es fumador crónico, moderado o no fumador, para la primera, y el si se desarrolla o no cáncer pulmonar para la segunda. Cuando una muestra aleatoria que se obtiene de una población se clasifica de esta manera, el resultado recibe el nombre de tabla de contingencia con dos criterios de clasificación. Esta tabla se forma por las frecuencias relativas que se observaron para las dos clasificaciones y sus correspondientes categorías. El análisis de una tabla de este tipo supone que las dos clasificaciones son independientes. Esto es, bajo la hipótesis nula de independencia se desea saber si existe una diferencia suficiente entre las frecuencias que se observan y las correspondientes frecuencias que se esperan, tal que la hipótesis nula se rechace. Ejemplo 1. Una compañía evalúa una propuesta para fusionarse con una corporación. El consejo de directores desea muestrear la opinión de los accionistas para determinar si ésta es independiente del número de acciones que cada uno posee. Una muestra aleatoria de 250 accionistas proporciona la información que se muestra en la tabla 7. Con base en esta información, ¿existe alguna razón para dudar de que la opinión con respecto a la propuesta es independiente del número de acciones que posee el accionista? Úsese α = 0.10. La hipótesis nula se establece de la siguiente forma 37 Estadística Descriptiva H0 : pij = pi· p·j, Número de acciones Menos de 200 200 — 1 000 Más de 1 000 Totales i = 1, 2, 3; j = 1, 2, 3. Opinión En contra 29 42 59 130 A favor 38 30 32 100 Indecisos 9 7 4 20 Tabla 7. datos muéstrales para el ejemplo de los accionistas En ésta, pij es la probabilidad de que un accionista seleccionado al azar se encuentre en la categoría (i, j); pi· es la probabilidad marginal de que el número de acciones que posee un accionista seleccionado al azar se encuentre el la categoría i; y p·j es la probabilidad marginal de que un accionista seleccionado al azar tenga una opinión j. Por la expresión r c ∑ ∑ ⎨[Nij - (ni·n·j)/n]2 / [(ni·n·j)/n]⎬ Y i =1 j =1 (que para valores grandes de n es, en forma aproximada, una variable aleatoria ji—cuadrada con (r - 1)(c - 1) grados de libertad) la frecuencia esperada de la celda (i, j) es el producto del total del i-ésimo renglón por el total de la j-ésima columna dividido por el tamaño de la muestra n = 250. Por ejemplo, el número esperado de accionistas que están a favor de la propuesta y que poseen más de 1 000 acciones, es (95)(100)/250 = 38. Al continuar este proceso, se determinan las frecuencias esperadas para cada combinación. En cada celda de la tabla 8, la primera línea representa la frecuencia observada, la segunda la frecuencia esperada y la tercera la contribución de cada celda al valor de la estadística, de acuerdo con la expresión Y. De esta manera, el valor de la estadística es χ2 = (38 - 30.4)2/30.4 + (29 - 39.52)2/39.52 + . . . + (4 7.6)2/7.6 = 10.80 Dado que r = c = 3, el número de grados de libertad es 4. Para α = 0.1, el valor crítico es χ20.9, 4 = 7.78. De esta forma, el valor que se observa de la estadística de prueba se encuentra dentro de la región crítica, y la hipótesis nula debe rechazarse 38 Totales 76 79 95 250 Estadística Descriptiva De acuerdo con lo anterior, existe una razón para creer que la opinión con respecto a la propuesta y el número de acciones que cada accionista posee, no son independientes. Número de acciones A favor 38 30.40 1.90 En contra 29 39.52 2.80 Indecisos 9 6.08 1.40 Totales 76 76 6.10 200 — 1 000 30 31.60 0.08 42 41.08 0.02 7 6.32 0.07 79 79 0.17 Más de 1 000 32 38 0.95 59 49.40 1.87 4 7.60 1.71 95 95 4.53 Menos de 200 Totales 100 130 20 100 130 20 2.93 4.69 3.18 Tabla 8. Frecuencias esperadas y observadas para el ejemplo 1 250 250 10.80 Ejemplo 2. En una fábrica de muebles se desean clasificar defectos encontrados en los muebles según el tipo de defecto y según el turno de trabajo en el cual se fabricó el mueble. Es claro que lo que se busca es estudiar la posible dependencia entre las dos clasificaciones. ¿Varían las proporciones de defectuosos según tipo de defecto de turno a turno? Un total de n = 309 defectos fueron registrados y clasificados según el tipo A, B, C ó D y al mismo tiempo, el mueble al cual se le encontraba el defecto, era identificado según el turno en el que había sido producido, el primero, segundo o tercer turno. Estas observaciones se presentan en la tabla 9 (conocida como una tabla de contingencia). Denótese por pA a la probabilidad incondicional de observar un defecto del tipo A. Similarmente, denote por pB, pC y pD a las probabilidades de observar los otros tipos de defectos. Las probabilidades anteriores, que referiremos como probabilidades de columnas de la tabla 9 satisfacen pA + pB + pC + pD = 1 De manera análoga sean pi (i = 1, 2 ó 3) las probabilidades de filas de que un defecto se haya producido en el turno i, i = 1, 2 ó 3, en donde p1 + p2 + p3 = 1 Si las dos clasificaciones son independientes entre sí, la probabilidad de una celda será igual al producto de su respectiva probabilidad de fila y su respectiva probabilidad de 39 Estadística Descriptiva columna, de acuerdo a la ley multiplicativa de la probabilidad. Por ejemplo, la probabilidad que un defecto en particular ocurra en el primer turno y que sea del tipo A es p1pA. Observe que los valores de las probabilidades de las celdas no están totalmente especificados en este problema. La hipótesis nula especifica solamente que cada probabilidad de celda debe ser igual al producto de la probabilidad de su fila por la probabilidad de su columna, y por ello implica la independencia de las dos clasificaciones. La hipótesis alternativa es que la igualdad mencionada no es cierta para al menos una de las celdas. Turno 1 2 3 Totales A 15 26 33 74 Tipo de defecto B 21 31 17 69 C 45 34 49 128 D 13 5 20 38 Tabla 9. Tabla de contingencia en la que se clasifican defectos de muebles según tipo de defecto y turno de operación En el análisis de los datos obtenidos de la tabla de contingencia se tienen que estimar las probabilidades de filas y las probabilidades de columnas para poder estimar las frecuencias esperadas de las celdas. Se puede mostrar que el estimador de la probabilidad de una columna es igual al total observado en esa columna dividido por n, que en este caso es n = 309. Si se denota el total para la columna j por n·j, se tiene p^C = n·3/n = 128/309 p^A = n·1/n = 74/309 p^B = n·2/n = 69/309 p^D = n·4/n = 38/309 De manera similar, las probabilidades de renglones p1, p2 y p3 se pueden estimar usando los totales de renglones n1·, n2·, n3·. p^1 = n1·/n = 94/309 p^2 = n2·/n = 96/309 p^3 = n3·/n = 119/309 40 Totales 94 96 119 309 Estadística Descriptiva Si se denota la frecuencia observada para la celda situada en el renglón i y la columna j por nij, entonces el valor que se ha estimado para el valor esperado de nij es Ê(nij) = ni· n·j / n Observase que el estimador de la frecuencia esperada para la celda i, j de una tabla de contingencia es igual al producto de sus totales respectivos de fila y columna divididos por la frecuencia total. Las estimaciones de las frecuencias esperadas de cada celda del ejemplo 2 aparecen en la segunda línea de las celdas de la tabla 10. Se pueden ahora usar las frecuencias esperadas y las observadas de la tabla 10 Turno 1 2 3 Totales A 15 22.51 2.51 B 21 20.99 0.00 Tipo de defecto C 45 38.94 0.94 D 13 11.56 0.18 Totales 94 94 3.63 26 22.99 0.40 31 21.44 4.26 34 39.77 0.84 5 11.81 3.92 96 96 9.42 33 17 49 20 119 28.50 0.71 26.57 3.44 49.29 0.00 14.63 1.97 119 6.12 74 74 3.62 69 69 7.70 128 128 1.78 38 38 6.07 309 309 19.17 Tabla 10. Frecuencias esperadas y observadas para el ejemplo 2 para calcular el valor de la estadística χ2, de acuerdo con la expresión Y. De esta manera, el valor de la estadística es χ2 = (15 - 22.51)2/22.51 + (26 - 22.99)2/22.99 + . . . + (20 14.63)2/14.63 = 19.18 El único problema que queda para resolver es el de la determinación de los grados de libertad apropiados. Se dan como una receta y se presenta alguna justificación. Los grados 41 Estadística Descriptiva de libertad asociados a una tabla de contingencia de r filas y c columnas son siempre (r - 1)(c - 1). Para el ejemplo de los muebles, se compara χ2 con el valor crítico de una χ2 con (r 1)(c - 1) = (3 - 1)(4 - 1) = 6 grados de libertad. Los grados de libertad asociados con la estadística χ2 son el número de celdas (en este caso k = rc) menos un grado de libertad por cada restricción lineal independiente que deban satisfacer las frecuencias de las celdas. El número de celdas para los datos de la tabla 10 es k = 12. De este número hay que restar un grado de libertad ya que la suma de todas las frecuencias de las celdas debe ser n; esto es, n11 + n12 + . . . + n34 = 309 Además de lo anterior, se utilizaron las frecuencias de las celdas para estimar 3 de las 4 probabilidades de columna. Observe que el estimador para la probabilidad de la cuarta columna se obtiene de los otros tres estimadores ya que si se conoce p^A, p^B y p^C, p^D se deduce de ellos pues p^A + p^B + p^C + p^D = 1 o sea que se pierden (c - 1) = 3 grados de libertad por haber estimado las probabilidades de columna. Finalmente, se utilizaron las frecuencias de las celdas para estimar (r - 1) = 2 probabilidades de fila y por ello se pierden (r 1) = 2 grados de libertad adicionales. El total de grados de libertad que quedan es g. l. = 12 - 1 - 3 - 2 = 6 En general, se observa que el número de grados de libertad asociados a cualquier tabla de contingencia r × c es g.l. = rc - 1 - (c - 1) - (r - 1) = (r - 1)(c - 1) De lo anterior que, si se usa α = 0.05, se rechaza la hipótesis nula de que las dos clasificaciones son independientes si el valor calculado de χ2 excede a 12, 592 . Como el valor calculado χ2 = 19.18, excede al valor crítico de χ2, se rechaza la hipótesis nula. Los datos presentan suficiente evidencia de que la proporción de defectos de los distintos tipos varía según turno. Un estudio sobre las distintas operaciones en la producción posiblemente revelaría la causa. 42 Estadística Descriptiva Ejemplo 3. El incluir en las etiquetas de los productos alimenticios el precio unitario del producto tiene por objeto el facilitar a los compradores la elección. Sin embargo, Isakson y Maurizi4 en estudios sobre el comportamiento de los consumidores en los Estados Unidos, han encontrado que aquellos de nivel socioeconómico bajo no están usando la ventaja que representa el tener exhibido en la etiqueta el precio unitario. En un estudio posterior, y a manera de corroboración de los resultados reportados, un economista observó el proceso de selección de n = 1 000 compradores en tres supermercados. Los supermercados se encontraban ubicados en tres áreas distintas de una ciudad, y correspondían a clases socioeconómicas de nivel bajo, medio y alto respectivamente. Se habían puesto paquetes de productos de la misma marca pero con precios unitarios distintos. Los datos sobre los n = 1 000 compradores, clasificados de acuerdo a su clase socioeconómica y al hecho de haber comprado con base en los precios unitarios o no, se muestran en la tabla 11. Usó precios unitarios No usó precios unitarios Totales Clase socioeconómica Alta 201 Baja 249 Media 494 Totales 944 26 26 4 56 275 520 205 1 000 Tabla 11. Datos para el ejemplo 3. ¿Muestran estos datos evidencia que respalde los reportes de Isakson y Maurizi? El problema es ver si los datos proporcionan evidencia suficiente que indique una dependencia entre la clasificación de los compradores por clase socioeconómica y la clasificación dada por el uso que hacen de la información contenida en los precios unitarios. Se analiza la información con una tabla de contingencia. 4 H.R. Isakson y A.R. Maurizi, «The Consumer Economics of Unit Pricing,» Journal of Marketing (1973). 43 Estadística Descriptiva Las frecuencias esperadas de cada celda se estiman calculando los totales de fila y columna. Ê(nij) = ni· n·j / n Se tiene Ê(n11) = n1· n·1 / n = (944)(275)/1000 = 259.6 Ê(n12) = n1· n·2 / n = (944)(520)/1000 = 490.9 Ê(n13) = n1· n·3 / n = (944)(205)/1000 = 193.5 Ê(n21) = n2· n·1 / n = (56)(275)/1000 = 15.4 Ê(n22) = n2· n·2 / n = (56)(520)/1000 = 29.1 Ê(n23) = n2· n·3 / n = (56)(205)/1000 = 11.5 y así sucesivamente. Estos valores aparecen en la tabla 12 Usó precios unitarios No usó precios unitarios Totales Clase socioeconómica Alta 201 193.5 Baja 249 259.6 Media 494 490.9 0.43 0.02 0.30 0.75 26 15.4 26 29.1 4 11.5 56 56 7.30 0.33 4.89 12.52 275 275 7.73 520 520 0.35 205 205 5.19 1000 1000 13.27 Tabla 12. Frecuencias esperadas y observadas para el ejemplo 3 El valor de la estadística de prueba χ2 se calcula y se compara con el valor crítico de la χ2 con (r - 1)(c - 1) = (1)(2) = 2 grados de libertad. Para α = 0.05, se rechaza la hipótesis nula si χ2 > 5.991. Sustituyendo los valores en la fórmula para χ2 se obtiene χ2 = (249 - 259.6)2/259.6 + (494 - 490.9)2/490.9 + . . . + (4 11.5)2/11.5 = 13.26 Observe que χ2 cae en la región de rechazo por lo que se rechaza la hipótesis de independencia entre ambas clasificaciones. Una comparación posterior entre los porcentajes de los compradores de cada clase socioeconómica que hacen uso de los precios unitarios sugiere que en efecto, los de las clases más bajas son los que no están haciendo uso de la ventaja que proporcionan los precios unitarios, respaldando así los reportes de Isakson y Maurizi. 44 Totales 944 944 Estadística Descriptiva Ejercicios. 1. ¿Cree usted que existan compañías cuyas acciones no estén siendo consideradas sistemáticamente en algunos fondos de inversión debido a razones de tipo político, social o moral? Algunos investigadores observan que la reacción a la anterior pregunta varía enormemente según los agentes de distintos fondos en los cuales se hace la pregunta.5 Para estudiar el problema se entrevistaron agentes de los cuatro principales fondos de inversión y se les pregunto si estaban o no de acuerdo con seleccionar las acciones que forman el fondo, atendiendo a razones de tipo político, social o moral. El número de agentes para cada una de las 8 posibles categorías se muestra en la tabla. De acuerdo en razones extra-económicas No de acuerdo en razones extraeconómicas Totales Fondo de inversión C 11 A 7 B 6 D 13 23 31 30 41 30 37 41 54 ¿Presentan estos datos evidencia suficiente de que la proporción de agentes en favor de incorporar razones de tipo no económico en la selección, varía de fondo a fondo? Use α = 0.10. 2. Con base en los registros de una tienda de modas, el 50% de los vestidos adquiridos por ésta para la temporada se venderán a precio de menudeo, el 25% a un 20% menos del precio de menudeo, 15% se venderán después de una reducción en su precio del 40% y los restantes con una disminución en su precio del 60%. Para esta temporada, se adquirieron 300 vestidos y su venta fue en la siguiente forma: Precio de venta 140 20% de 90 40% de 30 60% de 40 5 B.G. Malkiel y R.E. Quandt, «Moral Issues in Investment Policy,» Harvard Business Review, marzo-abril de 1971. 45 Estadística Descriptiva ¿Existe alguna razón para creer que la disminución en ventas fue diferente en esta temporada con respecto a las anteriores? Úsese α = 0.05. ¿Cuál es el valor de p? 3. Muchas compañías aseguradoras están revisando su política de cobrar primas reducidas para los seguros de automóviles pequeños ya que la proporción de accidentes fatales a bordo de un automóvil pequeño es mayor que a bordo de un automóvil grande. Para investigar este problema, se hizo un análisis de datos de accidentes para determinar la distribución de los accidentes en los que al menos un pasajero resultó gravemente herido o falleció. Los datos de 346 accidentes se muestran en la tabla. Accidentes con heridos fatales o graves Accidentes sin heridos fatales o graves Tamaño de automóvil Pequeño Compacto 67 26 128 63 Grande 16 46 ¿Indican estos datos que la frecuencia de accidentes con heridos fatales o graves depende del tamaño del automóvil? Use α = 0.05. 4. En un hospital, el número de nacimientos observados para cada mes de cierto año, fueron los siguientes: Ene 95 Feb 105 Mar 95 Abr 105 May 90 Jun 95 Jul 105 Ago 110 Sep 105 Si α = 0.01, ¿existe alguna razón para creer que el número de nacimientos no se encuentra distribuido en forma uniforme durante todos los meses del año? ¿Cuál es el valor de p? COEFICIENTE DE CORRELACIÓN Con frecuencia se requiere de un indicador o medida de la fuerza con la que dos variables y y x se encuentran linealmente relacionadas, de modo que el indicador no dependa de las escalas en las que cada una de las variables y y x se hayan medido. Un tal indicador o medida se conoce como medida de la correlación lineal entre y y x. 46 Oct 100 Nov 95 Dic 100 Estadística Descriptiva La medida de correlación lineal comúnmente usada en la estadística es el llamado coeficiente de correlación de Pearson entre y y x. Esta cantidad, denotada por el símbolo r, se calcula como se indica en el cuadro. Coeficiente de correlación de Pearson r = SCxy / √(SCx SCy) En donde _ n n n SCx = ∑ (xi - x)² = ∑ xi² - (∑ xi )² / n i=1 i=1 i=1 y _ _ n n n n SCxy = ∑ (xi - x)(yi - y) = ∑xiyi - (∑xi)(∑yi) / n i=1 i=1 i=1 i=1 Ejemplo 1 . Calcule el coeficiente de correlación para los datos de gastos publicitarios y volúmenes de venta de la tabla 5. Solución. El coeficiente de correlación para los datos de la tabla 5 se obtiene utilizando la fórmula de r y las cantidades SCxy = 23.34 SCx = 0.444 SCy = 1600.9 que ya habían sido calculadas. De ahí, r = SCxy / √(SCxSCy) = 23.34 / √[(0.444)(1600.9)] ≈ 0.88 Un estudio sobre el coeficiente de correlación r proporciona resultados interesantes y entre ellos, la razón por la cual se escoge como medida de correlación lineal. Primero se observa que los denominadores son siempre positivos por ser esencialmente sumas de cuadrados. También, se observa que el numerador es el mismo. Así que r = 0 implica la ausencia de correlación lineal entre y y x. Un valor de r positivo implica que la pendiente de la recta es positiva (la recta crece a la derecha); un valor de r negativo indica que la recta decrece a la derecha (pendiente negativa). 47 Estadística Descriptiva EJERCICIOS 1. ¿Existe relación entre el consumo de energía de un país y su producto interno bruto (PIB)? Uno estaría dispuesto a suponer que un país con mayor ingreso per cápita requeriría de mayor consumo de energía. Para examinar este problema se seleccionaron al azar 12 países y se han obtenido para ellos el consumo per cápita (en libras) y el producto interno bruto per cápita (en dólares). Los resultados se presentan en la tabla. 48 Estadística Descriptiva Valores críticos de la ji-cuadrada g. de libertad 1 2 3 4 χ2 0.995 0.0000393 0.0100251 0.0717212 0.2069900 χ2 0.990 0.0001571 0.0201007 0.1148320 0.2971100 χ2 0.975 0.0009821 0.0506356 0.2157950 0.4844190 χ2 0.950 0.0039321 0.1025870 0.3518460 0.7107210 χ2 0.900 0.0157908 0.2107200 0.5843750 1.0636230 5 6 7 8 9 0.411740 0.675727 0.989265 1.344419 1.734926 0.554300 0.872085 1.239043 1.646482 2.087912 0.831211 1.237347 1.689870 2.179730 2.700390 1.145476 1.635390 2.167350 2.732640 3.325110 1.610310 2.204130 2.833110 3.489540 4.16816 10 11 12 13 14 2.15585 2.60321 3.07382 3.56503 4.07468 2.55821 3.05347 3.57056 4.10691 4.66043 3.24697 3.81575 4.40379 5.00874 5.62872 3.94030 4.57481 5.22603 5.89186 6.57063 4.86518 5.57779 6.30380 7.04150 7.78953 15 16 17 18 19 4.60094 5.14224 5.69724 6.26481 6.84398 5.22935 5.81221 6.40776 7.01491 7.63273 6.26214 6.90766 7.56418 8.23075 8.90655 7.26094 7.96164 8.67176 9.39046 10.1170 8.54675 9.31223 10.0852 10.8649 11.6509 20 21 22 23 24 7.43386 8.03366 8.64272 9.26042 9.88623 8.26040 8.89720 9.54249 10.19567 10.8564 9.59083 10.28293 10.9823 11.6885 12.4011 10.8508 11.5913 12.3380 13.0905 13.8484 12.4426 13.2396 14.0415 14.8479 15.6587 25 26 27 28 29 10.5197 11.1603 11.8076 12.4613 13.1211 11.5240 12.1981 12.8786 13.5648 14.2565 13.1197 13.8439 14.5733 15.3079 16.0471 14.6114 15.3791 16.1513 16.9279 17.7083 16.4734 17.2919 18.1138 18.9392 19.7677 30 40 50 60 13.7867 20.7065 27.9907 35.5346 14.9535 22.1643 29.7067 37.4848 16.7908 24.4331 32.3574 40.4817 18.4926 26.5093 34.7642 43.1879 20.5992 29.0505 37.6886 46.4589 70 80 90 100 43.2752 51.1720 59.1963 67.3276 45.4418 53.5400 61.7541 70.0648 48.7576 57.1532 65.6466 74.2219 51.7393 60.3915 69.1260 77.9295 55.3290 64.2778 73.2912 82.3581 49 Estadística Descriptiva χ2 0.100 2.70554 4.60517 6.25139 7.77944 χ2 0.050 3.84146 5.99147 7.814473 9.48773 χ2 0.025 5.02389 7.37776 9.34840 11.1433 χ2 0.010 6.63490 9.21034 11.3449 13.2767 χ2 0.005 7.87944 10.5966 12.8381 14.8602 9.23635 10.6446 12.0170 13.3616 14.6837 11.0705 12.5916 14.0671 15.5073 16.9190 12.8325 14.4494 16.0128 17.5346 19.0228 15.0863 16.8119 18.4753 20.0902 21.6660 16.7496 18.5476 20.2777 21.9550 23.5893 5 6 7 8 9 15.9871 17.2750 18.5494 19.8119 21.0642 18.3070 19.6751 21.0261 22.3621 23.6848 20.4831 21.9200 23.3367 24.7356 26.1190 23.2093 24.7250 26.2170 27.6883 29.1413 25.1882 26.7569 28.2995 29.8194 31.3193 10 11 12 13 14 22.3072 23.5418 24.7690 25.9894 27.2036 24.9958 26.2962 27.5871 28.8693 30.1435 27.4884 28.8454 30.1910 31.5264 32.8523 30.5779 31.9999 33.4087 34.8053 36.1908 32.8013 34.2672 35.7185 37.1564 38.5822 15 16 17 18 19 28.4120 29.6151 30.8133 32.0069 33.1963 31.4104 32.6705 33.9244 35.1725 36.4151 34.1696 35.4789 36.7807 38.0757 39.3641 37.5662 38.9321 40.2894 41.6384 42.9798 39.9968 41.4010 42.7956 44.1813 45.5585 20 21 22 23 24 34.3816 35.5631 36.7412 37.9159 39.0875 37.6525 38.8852 40.1133 41.3372 42.5569 40.6465 41.9232 43.1944 44.4607 45.7222 44.3141 45.6417 46.9630 48.2782 49.5879 46.9278 48.2899 49.6449 50.9933 52.3356 25 26 27 28 29 40.2560 51.8050 63.1671 74.3970 43.7729 55.7585 67.5048 79.0819 46.9792 59.3417 71.4202 83.2976 50.8922 63.6907 76.1539 88.3794 53.6720 66.7659 79.4900 91.9517 30 40 50 60 85.5271 96.5782 107.565 118.498 90.5312 101.879 113.145 124.342 95.0231 106.629 118.136 129.561 100.425 112.329 124.116 135.807 104.215 116.321 128.299 140.169 70 80 90 100 Concluye 2 Tomada de «Tables of the Percentage Points of the -Distribution,» Biometrika, Vol. 32 50 g. de libertad 1 2 3 4 Estadística Descriptiva Áreas de la curva normal6 z 0.0 0.1 0.2 0.3 0.4 0.5 .00 .0000 .0398 .0793 .1179 .1554 .1915 .01 .0040 .0438 .0832 .1217 .1591 .1950 .02 .0080 .0478 .0871 .1255 .1628 .1985 .03 .0120 .0517 .0910 .1293 .1664 .2019 .04 .0160 .0557 .0948 .1331 .1700 .2054 .05 .0199 .0596 .0987 .1368 .1736 .2088 .06 .0239 .0636 .1026 .1406 .1772 .2123 .07 .0279 .0675 .1064 .1443 .1808 .2157 .08 .0319 .0714 .1103 .1480 .1844 .2190 .09 .0359 .0753 .1141 .1517 .1879 .2224 0.6 0.7 0.8 0.9 1.0 .2257 .2580 .2881 .3159 .3413 .2291 .2611 .2910 .3186 .3438 .2324 .2642 .2939 .3212 .3461 .2357 .2673 .2967 .3238 .3485 .2389 .2704 .2995 .3264 .3508 .2422 .2734 .3023 .3289 .3531 .2454 .2764 .3051 .3315 .3554 .2486 .2794 .3078 .3340 .3577 .2517 .2823 .3106 .3365 .3599 .2549 .2852 .3133 .3389 .3621 1.1 1.2 1.3 1.4 1.5 .3643 .3849 .4032 .4192 .4332 .3665 .3869 .4049 .4207 .4345 .3686 .3888 .4066 .4222 .4357 .3708 .3907 .4082 .4236 .4370 .3729 .3925 .4099 .4251 .4382 .3749 .3944 .4115 .4265 .4394 .3770 .3962 .4131 .4279 .4406 .3790 .3980 .4147 .4292 .4418 .3810 .3997 .4162 .4306 .4429 .3930 .4015 .4177 .4319 .4441 1.6 1.7 1.8 1.9 2.0 .4452 .4554 .4641 .4713 .4772 .4463 .4564 .4649 .4719 .4778 .4474 .4573 .4656 .4726 .4783 .4484 .4582 .4664 .4732 .4788 .4495 .4591 .4671 .4738 .4793 .4505 .4599 .4678 .4744 .4798 .4515 .4608 .4686 .4750 .4803 .4525 .4616 .4693 .4756 .4808 .4535 .4625 .4699 .4761 .4812 .4545 .4633 .4706 .4767 .4817 2.1 2.2 2.3 2.4 2.5 .4821 .4861 .4893 .4918 .4938 .4826 .4864 .4896 .4920 .4940 .4830 .4868 .4898 .4922 .4941 .4834 .4871 .4901 .4925 .4943 .4838 .4875 .4904 .4927 .4945 .4842 .4878 .4906 .4929 .4946 .4846 .4881 .4909 .4931 .4948 .4850 .4884 .4911 .4932 .4949 .4854 .4887 .4913 .4934 .4951 .4857 .4890 .4916 .4936 .4952 2.6 2.7 2.8 2.9 3.0 .4953 .4965 .4974 .4981 .4987 .4955 .4966 .4975 .4982 .4987 .4956 .4967 .4976 .4982 .4987 .4957 .4968 .4977 .4983 .4988 .4959 .4969 .4977 .4984 .4988 .4960 .4970 .4978 .4984 .4989 .4961 .4971 .4979 .4985 .4989 .4962 .4972 .4979 .4985 .4989 .4963 .4973 .4980 .4986 .4990 .4964 .4974 .4981 .4986 .4990 6 Versión extractada de la tabla 1 de Statistical Tables and Formulas, por A. Hald (New York: John Wiley & Sons, Inc., 1952). 51