Facultad de Ciencias Económicas Universidad Nacional de Misiones Estadística I Notas de Cátedra Índice general 1. Estadística Descriptiva 1.1. Introducción y conceptos fundamentales . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Resumen de la información . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1. Tablas o distribuciones de frecuencia . . . . . . . . . . . . . . . . . . . . . . 1.2.2. Gráco de barras y diagramas circulares . . . . . . . . . . . . . . . . . . . . 1.2.3. Tablas de frecuencias para variables cuantitativas . . . . . . . . . . . . . . . 1.2.4. Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.5. Polígonos de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Medidas descriptivas numéricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P 1.3.1. El símbolo sumatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2. Medidas de localización o de posición . . . . . . . . . . . . . . . . . . . . . 1.3.3. Medidas de variabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4. Reglas Empírica y Desigualdad de Chebyshev . . . . . . . . . . . . . . . . . . . . . 1.4.1. Regla empírica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.2. Desigualdad de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5. Medidas de localización relativa. Detección de valores atípicos . . . . . . . . . . . 1.6. Medidas de asimetría o sesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7. Distribuciones bidimensionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7.1. Tabla para variables discretas. Distribución conjunta . . . . . . . . . . . . . 1.7.2. Tablas para variables cualitativas . . . . . . . . . . . . . . . . . . . . . . . . 1.8. Medidas de asociación. Variables cuantitativas . . . . . . . . . . . . . . . . . . . . . 1.8.1. Diagrama de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.8.2. La covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.8.3. Coeciente de correlación lineal de Pearson . . . . . . . . . . . . . . . . . . 5 5 10 10 11 12 17 18 19 19 21 27 34 34 35 36 40 42 42 44 44 45 46 48 2. Introducción a la Probabilidad 2.1. Denición de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1. Denición clásica de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2. Denición de probabilidad como frecuencia relativa . . . . . . . . . . . . . . 2.1.3. Denición subjetiva de probabilidad . . . . . . . . . . . . . . . . . . . . . . 2.2. Propiedades básicas de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Probabilidad condicional. Eventos independientes . . . . . . . . . . . . . . . . . . . 2.3.1. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2. Eventos independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 56 57 57 58 58 60 60 62 3. Variables aleatorias. Distribuciones de probabilidad 65 3 3.1. Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1. Valor esperado y varianza de una variable aleatoria discreta . . . . . . . . . 3.1.2. Distribución de probabilidad acumulada. Variables aleatorias discretas . . 3.2. Modelos de distribución de probabilidad. Variables aleatorias discretas . . . . . . . 3.2.1. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2. Distribución Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1. Valor esperado y varianza de una variable aleatoria continua . . . . . . . . 3.3.2. Densidad de probabilidad acumulada. Variables aleatorias continuas . . . . 3.4. Modelos de densidad de probabilidad. Variables continuas . . . . . . . . . . . . . . 3.4.1. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2. Distribución Normal Estándar . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3. Aplicaciones de la distribución Normal . . . . . . . . . . . . . . . . . . . . . 3.5. Funciones de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6. Propiedades del valor esperado y la varianza de una variable aleatoria . . . . . . . 3.6.1. Propiedades del valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.2. Propiedades de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7. Funciones lineales de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 66 68 70 72 73 77 79 80 83 84 85 86 88 91 93 95 95 96 97 4. Distribuciones muestrales. Estimación 101 4.1. Distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 4.2. Muestras aleatorias. Estadísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.3. Distribución de muestre de la media muestral X̄ . . . . . . . . . . . . . . . . . . . 105 4.3.1. Muestreo de poblaciones nitas . . . . . . . . . . . . . . . . . . . . . . . . . 109 4.4. Estimadores y sus propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 4.5. Estimación de un parámetro poblacional . . . . . . . . . . . . . . . . . . . . . . . . 114 4.5.1. Intervalo de conanza para estimar µ, población Normal, σ 2 conocida . . . 115 4.5.2. Intervalo de conanza para estimar µ, varianza poblacional desconocida . . 122 4.5.3. Población nita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 4.6. Inferencia acerca de la proporción de una población . . . . . . . . . . . . . . . . . . 126 4.6.1. Distribución de la proporción muestral P̄ . . . . . . . . . . . . . . . . . . . 126 4.7. Intervalos de conanza para estimar p . . . . . . . . . . . . . . . . . . . . . . . . . 127 4.8. Tamaño de la muestra para estimar la media y la proporción de una población . . 129 4.8.1. Tamaño de la muestra para estimar la media de una población . . . . . . . 129 4.8.2. Tamaño de la muestra para estimar la proporción de una población . . . . 131 4.9. Estimación de la varianza de una población . . . . . . . . . . . . . . . . . . . . . . 133 2 4.9.1. Distribución Chi cuadrado y la distribución de (n−1)S . . . . . . . . . . . . 133 σ2 4.9.2. Estimación de la varianza poblacional . . . . . . . . . . . . . . . . . . . . . 135 5. Pruebas de hipótesis 139 5.1. Introducción y conceptos fundamentales . . . . . . . . . . . . . . . . . . . . . . . . 139 5.2. Errores en las pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 5.3. Pruebas de hipótesis bilaterales y unilaterales . . . . . . . . . . . . . . . . . . . . . 147 4 Capítulo 1 Estadística Descriptiva 1.1. Introducción y conceptos fundamentales Es indudable que la Estadística se ha convertido en una de las herramientas analíticas más importantes para el profesional de las Ciencias Económicas cualquiera sea su rama de actividad profesional. Problemas derivados de auditorías a empresas o instituciones, del control de calidad, de la administración de la producción, los análisis micro o macro-económicos en la Economía, etc. pueden ser abordados y eventualmente resueltos mediante técnicas o modelos estadísticos. A diario, y en la mayoría de los medios de comunicación, se pueden encontrar informes económicos sobre variaciones del producto bruto interno, variaciones del índice de precios al consumidor, sobre el número de personas desocupadas, etc. Estos informes suelen ir acompañados por tablas, grácos y por alguna medida descriptiva numérica como un promedio, una proporción, etc. Aunque estos ejemplos reejan en parte que es y de que se ocupa la Estadística, su campo de acción es mucho más amplio sobre todo para aquellas personas que la utilizan a diario en sus actividades laborales y/o de investigación. Debido al extenso y variado campo abarcado por la Estadística resulta difícil proponer una denición precisa y abarcadora de esta disciplina sin el riesgo de incurrir en alguna omisión importante. No obstante, proponemos una, sabiendo que será incompleta, con el objetivo de dar una idea aproximada de que es y de que se ocupa esta disciplina y que además sirva como introducción a los temas que desarrollaremos en este material. Denición 1.1 La Estadística es la disciplina que se encarga de la recopilación, organización, resumen, análisis, interpretación y comunicación de la información. En la mayoría de los trabajos estadísticos se llevan adelante todas estas acciones. Cuando se diseña un trabajo estadístico es para alcanzar uno de los siguientes objetivos o ambos: 1. Describir cuantitativamente un grupo de personas, lugares o cosas 2. Dar información de la que se pueda extraer conclusiones acerca de un grupo grande de personas, lugares o cosas analizando la información de una fracción del conjunto total Las actividades estadísticas encaminadas a lograr el primer objetivo pertenecen a la rama de la Estadística Descriptiva, las que se diseñan para alcanzar el segundo, a la rama de la Estadística Inferencial. Ambas ramas de la Estadística cumplen funciones complementarias en el análisis de la información. Analicemos el siguiente ejemplo. 5 Suponga que el jefe de personal de una gran empresa suministra una prueba de aptitud a un grupo de empleados de la misma. Algunas de las tareas que puede realizar con las puntuaciones que resulten de la prueba, utilizando herramientas de la Estadística Descriptiva, son las siguientes: Tabular las puntuaciones de manera que se pueda lograr una imagen global de sus propiedades Calcular alguna medida descriptiva numérica como un promedio, una proporción, etc. Construir grácos etc. Las conclusiones de la prueba sólo se aplican al conjunto de empleados seleccionados. No se realizan generalizaciones al conjunto total de empleados de la empresa ni a los de otras empresas similares. Si bien es cierto la descripción de los datos recolectados es a veces un n en sí mismo, en la mayoría de los trabajos estadísticos estamos más bien al comienzo de la tarea que al nal de la misma. Esto es así porque casi siempre el objetivo último de la actividad estadística es la de extraer conclusiones sobre todas las observaciones posibles a partir de la información contenida en una fracción del total. Es decir, la estadística descriptiva no es más que un trabajo preliminar para la inferencia, entendiéndose por inferencia estadística el proceso de obtener conclusiones acerca de alguna característica o propiedad de una población a partir de la información contenida en una muestra tomada de esa población. Un poco más adelante daremos deniciones más precisas de población y muestra. Como toda disciplina, la Estadística posee una terminología propia que es necesario conocer para poder aplicar sus técnicas adecuadamente y comprender sus resultados. Veremos a continuación una serie de conceptos que se utilizarán extensamente a lo largo de este material. La lista será lo más breve posible limitándonos a aquellos que utilizaremos inmediatamente, dejando para más adelante los restantes, los que serán denidos en la medida que sean necesarios. Unidad observacional En todo trabajo de investigación que utilice a la Estadística como herramienta para el análisis de la información, el analista dirige su atención en un grupo de personas, lugares o cosas. Cada una de ellas, tomadas de manera individual, recibe el nombre de unidad observacional. Por ejemplo, para un investigador que estudia las características socio-demográcas de los estudiantes de una universidad, cada uno de los estudiantes, tomados de manera individual, constituye una unidad observacional. Para un analista de mercados que estudia las propiedades de la renta mensual de las familias de una ciudad, cada una de las familias tomadas de manera individual, constituye una unidad observacional. Por lo tanto, una unidad observacional es una persona, un lugar o una cosa de la cual se toma algún tipo de información. Variable Es toda característica que toma diferentes valores en distintas unidades observacionales. Por ejemplo, la altura o el peso de las personas, su lugar de residencia, la renta mensual de las familias de una ciudad, el estado civil de un grupo de estudiantes de una universidad, etc. 6 Variable cuantitativa Asume valores numéricos acompañados de una unidad de medida. Por ejemplo, el ingreso mensual de las familias de una ciudad. El peso o la altura de los estudiantes de una universidad, etc. El ingreso mensual de una familia puede ser de 150.000 pesos, el peso de un estudiante puede ser de 80 Kilogramos, su altura puede ser de 1,85 metros, etc. Las variables cuantitativas se pueden clasicar a la vez en discretas y continuas. Una variable cuantitativa discreta puede tomar un número nito o innito de valores separados entre si por alguna cantidad. Por ejemplo, el número de personas que ingresan por hora a un banco en busca de algún servicio puede ser 0,1,2,3,...,etc. El número de hijos por familia en una ciudad puede ser 0,1,2,3,4. Por lo general las variables cuantitativas discretas se generan en los proceso de contar. Por otro lado, una variable cuantitativa continua es aquella que al menos en teoría puede tomar cualquier valor dentro de un intervalo real de valores posibles de la variable. La altura de de un grupo de personas, el tiempo que se tarda en realizar una tarea son dos ejemplos de variables cuantitativas continuas. Por ejemplo, la altura de un grupo de persona puede ser algún valor en el intervalo [1, 50 − 1.90] metros1 El tiempo en horas necesario para realizar cierta tarea puede ser algún valor en el intervalo [2, 5 − 8, 0] horas2 Por lo general, las variables continuas se generan en los procesos de medición. Variables cualitativas o categóricas Los valores que asume corresponden a categorías de una clasicación como el lugar de nacimiento, el estado civil de las personas, su lugar de residencia, etc. Las variables cualitativas se clasican a su vez en nominales y ordinales. Una variable cualitativa nominal es una variable cuyas categorías no siguen ningún orden, no existen jerarquías en su valores. Algunos ejemplos son los siguientes: Lugar de nacimiento (Posadas, Oberá, Eldorado, etc.) Estado civil (soltero, casado, viudo, etc.) Una variable cualitativa ordinal es una variable cuyas categorías siguen un orden, es decir, existen jerarquía entre sus valores. Por ejemplo: Condición académica de un estudiante al nalizar el cursado de una asignatura: libre, regular o promocionado Puesto alcanzado en una justa deportiva: primero, segundo, tercer, etc. En general, las variables se designan con letras mayúscula y su valores con la minúscula respectiva. Por ejemplo, si X = Número de clientes que ingresan a un banco por hora a buscar algún servicio algunos de sus valores pueden ser los siguientes: x1 = 0, x2 = 1, x3 = 2, . . ., etc. Ahora bien, si 1 Valores teóricos 2 También valores teóricos 7 Y = Lugar de procedencia de los estudiantes de la Universidad algunos de sus categorías podrían se y1 = Posadas, y2 = Oberá, etc. Población En el lenguaje común, la palabra población se utiliza para referirse a un conjunto de personas como las que habitan una ciudad o un país. Sin embargo, desde el punto de vista de la Estadística, el término población tiene un signicado más amplio. Para la Estadística una población puede estar constituida por: Un grupo de personas como todos los estudiantes de una universidad Un grupo de objetos como todas las lámparas de iluminación hogareñas producidas cierto por una fábrica Un grupo de medidas como el ingreso mensual de todas las familias de una ciudad Observe que desde el punto de vista de la Estadística el término población no necesariamente se reere a un grupo de personas. Por lo tanto, y desde el punto de vista de la Estadística una población es el conjunto de todos los posibles individuos, personas, objetos, o mediciones de interés estadístico. Es importante tener en cuenta que es el analista quien dene la población objetivo jando su alcance y limitaciones, no existiendo ningún factor o característica predeterminada en su denición. Muestra En general, cuando se pretende obtener alguna conclusión acerca de una población se lo hace a partir de una muestra tomada de esa población. Podemos armar entonces que una muestra es una parte, una porción de una población seleccionada de tal manera que resulte representativa de la misma. ¾Por qué tomar una muestra y no analizar directamente todas las unidades observacionales de la población? Una muestra de votantes empadronados es necesaria debido al costo prohibitivo de entrevistar a los millones de votantes registrados con el n de averiguar sus preferencias políticas para las próximas elecciones. Sería prácticamente imposible por razones de tiempo y costos entrevistar a todas las familias de una ciudad con el n de investigar algunas propiedades socio-económicas de las mismas. Parámetros y estadísticos Las características numéricas de una población pueden resumirse a partir de ciertas cantidades numéricas llamadas parámetros. Por ejemplo, el ingreso mensual promedio de todas las familias de un ciudad es un parámetro, siempre y cuando la población objetivo haya sido denida como las de todas las familias de esa ciudad. Cuando las características numéricas de una población se estudian a partir de una muestra, el resumen de dicha característica puede realizarse a partir de un estadístico. Por ejemplo, si se toma una muestra de 100 familias de la ciudad y se registran sus ingresos mensuales, los 100 ingresos seleccionadas constituyen una muestra y el ingreso mensual promedio de esas 100 observaciones un estadístico. Estamos ahora en condiciones de dar una de las deniciones centrales de la Estadística. Estamos ahora en condiciones de dar una de las deniciones centrales de la Estadística. 8 Denición 1.2 La inferencia estadística se ocupa de obtener conclusiones acerca de algún parámetro poblacional a partir del valor de un estadístico calculado con los datos de una muestra de esa población Muestra aleatoria simple Hemos dicho que la inferencia estadística se encarga de obtener conclusiones acera de alguna característica poblacional a partir de la información contenida en una muestra tomada de esa población. Para que las conclusiones que se obtengan con los datos de una muestra sean signicativos, la muestra debe ser representativa de la información contenida en la población. Es decir, la información contenida en la muestra debe ser una copia lo más exacta posible de la información existente en la población. Obtener una muestra con estas características no es una tarea sencilla, y las técnicas de muestreo son tantas y de tal complejidad que conforman una disciplina dentro de la Estadística. Por el momento diremos que, para obtener una muestra representativa de una población, las unidades que la conforman deben ser seleccionadas de manera aleatoria. Es decir, debe haber algún mecanismo que garantice una selección aleatoria o al azar de las unidades observacionales, sin sesgos ni preferencias por parte de quien las selecciona. De todas las técnicas aleatorias de selección, el muestro aleatorio simple es uno de los métodos que puede utilizarse para seleccionar una muestra sin sesgos ni preferencias. Además, el muestreo aleatorio simple sirve de fundamento para otras técnicas más complejas de selección como el muestreo estraticado, el de conglomerados, sistemático, etc. Denición 1.3 Una muestra aleatoria simple de tamaño n es una muestra seleccionada de tal manera que todas las muestras del mismo tamaño tiene la misma probabilidad de ser seleccionada. El hecho de que todas las muestras de tamaño n tengan la misma probabilidad de ser seleccionada garantiza a su vez que todas las unidades observacionales de la población tendrán la misma probabilidad de selección. Por ejemplo, supongamos que se quiera formar un comité de 3 personas a partir de un grupo de 10. ¾Como podemos seleccionar los integrantes del comité utilizando un muestreo aleatorio simple? Se puede proceder de la siguiente manera: 1. Numerar las personas del 1 al 10 2. Introducir en un bolillero 10 bolitas numeradas de 1 a 10 3. Seleccionar 3 bolitas del bolillero Supongamos que en la primera selección se obtuvo la bolita que tiene el número 9. Entonces, la persona identicada con este número es la primera selección. En general no se repone la bolita con el número 9 (¾por qué?) y se realiza la segunda selección. Supongamos que en la segunda selección se obtuvo la bolita con el número 2, entonces la persona que está identicada con el número 2 será nuestra segunda selección. No se repone la bolita con el número 2 y se realiza la tercera selección. Supongamos que se extrae la bolita con el número 7. Entonces nuestro comité estará integrado por las personas identicadas con los números 9, 2 y 7. En realidad, una muestra aleatoria simple se elije a partir de una tabla de números aleatorios o mediante programas para computadoras. No obstante, el principio de selección es el del bolillero. 9 1.2. Resumen de la información Por lo general, los datos que se obtienen en una investigación estadística no son susceptibles de ser analizados e interpretados en la forma que se recogen. Casi siempre, a la etapa de recolección le sigue otra de organización y resumen, previa a la aplicación alguna técnica estadística más compleja. Presentaremos a continuación algunos procedimientos tabulares, grácos y numéricos que son utilizados para resumir y organizar las observaciones seleccionadas al inicio de una investigación. 1.2.1. Tablas o distribuciones de frecuencia Antes de ver que son, y como se construyen las tablas de frecuencias, es necesario introducir algunas deniciones previas. Sea n un conjunto de observaciones pertenecientes a una variable, la frecuencia absoluta de una observación es el número de veces que se repite su valor en el conjunto de datos. Por ejemplo, supongamos que en cierto grupo de estudiantes de una facultad, 20 cursan al primer año de su carrera, 30 cursan el segundo año y que 50 cursan materias del ciclo profesional. Si consideramos la variable X = Año de cursado de la carrera en una muestra de 100 estudiantes podemos resumir esta información de la siguiente manera: La primera categoría (primer año) de la variable tiene una frecuencia absoluta igual a 20 y escribimos f1 = 20 La segunda categoría (segundo año) de la variable tiene una frecuencia absoluta igual 30 y escribimos f2 = 30 La tercera categoría (ciclo profesional) de la variable tiene una frecuencia absoluta igual a 50 y escribiremos f3 = 50 Una forma más económica de presentar esta información es mediante la Tabla (1.1): Año de cursada Primer año Segundo año Ciclo profesional Total Frecuencia absoluta fi 20 30 50 100 Tabla 1.1: Tabla de frecuencias absolutas Las tablas de frecuencias se pueden construir a partir de las observaciones de variables cualitativas o cuantitativas. Analicemos otro ejemplo, suponga que un profesor de educación física de una universidad seleccionó una muestra de 50 estudiantes y a cada uno de ellos le preguntó su preferencia por algún deporte en particular. Suponga adicionalmente que del total de 50 estudiantes 19 respondieron que preeren el Fútbol, 8 preeren el Tenis, 5 Rugby, 13 Natación y 5 respondieron que no preeren ningún deporte. Esta información puede condensarse en una tabla de frecuencias absolutas tal como se muestra en la Tabla (1.2) Al analizar la tabla de frecuencias puede verse que el Fútbol es el deporte preferido por un número mayor de estudiantes (f1 = 19) seguido de la Natación (f4 = 13). Solo 3 alumnos de los 50 encuestados preere el Rugby. Evidentemente pueden realizarse otras lecturas del la Tabla (1.2). 10 Deporte preferido X Fútbol Tenis Rugby Natación Ninguno Total Frecuencia absoluta fi 19 8 5 13 5 50 Tabla 1.2: Deporte preferido. Muestra de 50 estudiantes Una tabla de frecuencias para datos de una variable cualitativa es muy fácil de construir. Pueden seguirse los siguientes pasos: 1. En la primera columna de coloca el nombre de la variable como encabezado y en las las posteriores sus categorías 2. En la segunda columna se consignan las frecuencias absolutas (fi ) de cada categoría obtenidas a partir de conteos o de registros previamente confeccionados Muchas veces interesa conocer, además de las frecuencias absolutas de cada categoría, su proporción o porcentaje. Si se tiene un conjunto de n observaciones pertenecientes a una variable categoría , la frecuencia relativa de la clase o categoría i se dene de la siguiente manera: fri = fi n (1.1) donde fri es la frecuencia relativa de la clase i y fi su frecuencia absoluta. La frecuencia porcentual es la frecuencia relativa de una clase multiplicada por 100. Se puede completar la Tabla (1.2) con las frecuencias relativas y porcentuales obteniéndose de esta manera la Tabla (1.3). Deporte preferido X Fútbol Tenis Rugby Natación Ninguno Total Frecuencia absoluta fi 19 8 5 13 5 50 fri 0,38 0,16 0,10 0,26 0,10 1,00 100 × fri 38 16 10 26 10 100 Tabla 1.3: Frecuencias relativas y porcentuales. Muestra de 50 estudiantes Analizando la información de la Tabla (1.3) puede verse que el 38 Además entre el Fútbol y la Natación se cuentan el 64 % de las preferencias. Solo el 10 % de los encuestados preere el Rugby. Es evidente que pueden realizarse otras lecturas e interpretaciones. 1.2.2. Gráco de barras y diagramas circulares Un gráco de barras es una forma gráca de presentar los datos de una variable cualitativa cuya información se he resumido previamente en una tabla de frecuencias. Para la construcción de una diagrama de barras se pueden seguir los siguientes pasos: 1. Se trazan un par de ejes perpendiculares entre si, uno horizontal 2. Sobre el eje horizontal se registran las distintas categorías de la variable 11 3. Sobre el eje vertical se registran las frecuencias absolutas o relativas de cada categoría 4. A partir de cada categoría registrada en el eje horizontal se levantan barras cuyas alturas sean las de las frecuencias absolutas o relativas correspondientes 5. Las barras se separan con el n de indicar que las clases son independientes En la Figura (1.1) se muestra el diagrama de barras correspondiente a las frecuencias absolutas registradas en la Tabla (1.3). 5 Figura 1.1: Diagrama de barras. Deporte preferido El gráco de barras para las frecuencias relativas es similar al de las frecuencias absolutas solo que en el eje vertical se registran las frecuencias relativas y no las absolutas. Otra herramienta gráca que se utiliza para resumir y describir la información de una variable categórica son los diagramas circulares. Supongamos que queremos representar en un diagrama circular las frecuencias relativas de las categorías de la variable deporte preferido. Para trazarlo se dibuja primero un círculo y a continuación se divide el círculo en sectores o partes proporcionales a las frecuencias relativas de cada clase. Por ejemplo, como en un circulo hay 360º, y en él deberá representarse el 100 % de las observaciones, a la categoría Fútbol, que representa el 38 % de las observaciones, le corresponderán un sector circular de 38 % × 360º = 137º aproximadamente 100 % El resto de los sectores se determinan de la misma manera. En la Figura (1.2) se muestra el diagrama circular para los datos del ejemplo sobre las preferencias deportivas de los estudiantes. 1.2.3. Tablas de frecuencias para variables cuantitativas Hasta el momento hemos visto algunas herramientas tabulares y grácas que se utilizan para resumir la información proveniente de una variable cualitativa o categórica. Varemos como proceder con las variables cuantitativas. Las tablas de frecuencias también pueden utilizarse para resumir la información proveniente de una variable cuantitativa. 12 Figura 1.2: Diagrama circular. Deporte preferido Una tabla de frecuencias para datos cuantitativos, en su forma más simple, es una tabla que resume observaciones enumerando las clases o intervalos en los cuales se agrupan los valores de la variable en la primera columna, en la segunda columna se listan los intervalos en los cuales se agrupan valores similares de la variable, y en la tercera columna el número de observaciones (frecuencias absolutas) que se contabilizan en cada uno de esos intervalos. En una tabla de frecuencias para una variable cuantitativa las clases o intervalos en los que serán agrupados los valores de la variable no son fácilmente identicables. Presentamos a continuación una tabla de frecuencias para datos cuantitativos con el n de mostrar cuáles son sus partes. Luego veremos cómo se construyen este tipo de tablas. En la Tabla (1.4) se presenta la tabla de frecuencias de la variable longitud en pulgadas de una muestra de 50 barras de acero producidas en una fábrica metalúrgica3 . Clase o intervalo 1 2 3 4 5 6 7 Total Longitud 53 55 56 58 59 61 62 64 65 67 68 70 71 73 ... Frecuencia fi 2 5 9 15 12 5 2 50 Tabla 1.4: Longitud rn pulgadas de una muestra de una muestra de 50 barras de acero En la primera columna de la tabla aparecen enumerados los intervalos o clases en los que serán agrupados los valores similares de la variable. En este ejemplo se ha decidido agrupar las 50 longitudes en 7 intervalos o clases. En la segunda columna se registran los intervalos propiamente dicho y en la tercera columna se indican el número de observaciones (frecuencia absoluta) que se registran en cada intervalo. Así, en el intervalo [53 55] pulgadas se registran las longitudes de 2 barras mientras que en el intervalo [62 - 64] pulgadas se contabilizaron 15 longitudes. Si bien es cierto, al agrupar las observaciones en una tabla de frecuencias se pierde información en el proceso de condensación, se logra una mejor aproximación en la identicación de las características más sobresaliente del conjunto de observaciones. 3 Una pulgadas es aproximadamente igual a 2,5 centímetros 13 Pasamos ahora a describir como se construyen estas tablas de frecuencias. La primera cuestión que deberá resolverse es decidir cuántos intervalos (clases) se considerarán. Este número dependerá principalmente de la cantidad de datos a resumir. El número de intervalos no puede ser muy grande (longitud de los intervalos muy pequeña) pues puede ocurrir que queden intervalos con muy pocos datos o incluso ninguno. Esto no permitirá apreciar las características más sobresalientes de las observaciones. Un número pequeño de intervalos (longitud grande) puede ocultar las propiedades principales de las observaciones. Presentamos a continuación algunas recomendaciones que pueden ayudar en la construcción de una tabla de frecuencias para datos cuantitativos. Número de intervalos Hemos dicho que el número de intervalos es recomendable elegirlo de acuerdo con la cantidad de datos. En la Tabla (1.5) se muestra la relación entre el número de datos y la cantidad aproximada de intervalos. Número de observaciones Menos de 50 De 50 a 100 De 101 a 500 De 501 a 1.000 De 1.001 a 5.000 Más de 5.000 Número de intervalos 5-7 7-8 8 - 10 10 - 11 11 - 14 14 - 20 Tabla 1.5: Relación aproximada entre el número de datos y la cantidad de intervalos Otra forma de determinar aproximadamente el número de intervalos de agrupación es utilizando la fórmula de Sturges. Si k es el número de intervalos sugeridos, entonces la fórmula siguiente se puede utilizar para aproximar el valor de k: k = 1 + 3, 322 log(n) (1.2) donde n es el número de observaciones. Amplitud de los intervalos Una vez elegido el valor de k, el siguiente paso es determinar la longitud l de cada uno de los intervalos. Esto puede lograrse a partir de la siguiente fórmula: l= XM − Xm k (1.3) donde XM es el valor mayor y Xm es el valor menor del conjunto de observaciones. Construcción de la tabla de frecuencias El primer intervalo debe contener el menor valor y el último el mayor. Todos los intervalos deben tener la misma longitud. Se construye una tabla en la cual, en la primera columna se identican las clases (1, 2, ..., k). En la segunda se identican los intervalos en los cuales se agrupan los valores similares de la variable y en la tercera columna las frecuencias absolutas. 14 En el ejemplo que sigue pondremos en prácticas estas recomendaciones. Ejemplo 1.1 Suponga que el administrador de calidad de una fábrica metalúrgica desea analizar como varían las longitudes, en pulgadas, de las barras de acero producidas cierto día. Para ello toma una muestra de 50 barras, las mide y decide agrupar la información en una tabla de frecuencias. Los datos recogidos se presentan en la Tabla (1.6) 65 64 64 63 64 63 65 65 65 64 65 64 64 63 63 63 72 71 70 69 69 68 68 67 67 67 66 66 66 66 53 55 56 57 58 58 57 59 59 60 60 60 61 61 61 61 62 62 62 62 Tabla 1.6: Longitud en pulgadas de una muestra de 50 barras de acero ¾Como debería proceder el administrador si quiere agrupar las observaciones en una tabla de frecuencias? Solución En primer lugar debe calcular el número aproximado de intervalos que tendrá la tabla de frecuencias. Puede hacerlo utilizando la Tabla (1.5) o la fórmula de Sturges. Supongamos que se decide por la fórmula de Sturges. Entonces: k = 1 + 3, 322 log(50) = 6, 67 Puede tomar k = 7 intervalos. Seguidamente debe calcular la amplitud de cada intervalo. Analizando la Tabla (1.6) puede verse que XM = 72 y Xm = 53, por lo tanto l= 72 − 53 = 2, 7 7 Puede tomar l = 3. Ahora debe decidir dónde comienza el primer intervalo. Lo que habitualmente se hace es considerar el comienzo del primer intervalo en el dato menor, es decir 53. Como la longitud de los intervalos es 3, el primer intervalo es [53 55], el segundo [56 58], etc. Una vez denidas las dos primeras columnas de la tabla, debe contar cuantas longitudes (frecuencia) se agrupan dentro de cada intervalo. En el primer intervalo observan dos longitudes, 53 y 55, por lo tanto, f1 = 2. En el segundo intervalo se observan las longitudes 58, 57, 56, 57 y 58, por lo tanto,f2 = 5, etc. Por último, puede colocar toda esta información en una tabla obteniendo como resultado la Tabla (1.4). Observe que en esta tabla, los intervalos considerados están separados entre sí por una unidad. Esto indicaría que la variable longitud da saltos de una unidad de intervalo a intervalo lo cual parece no tener sentido con la condición de continuidad de la viable. Con el propósito de construir una tabla que reeje la idea de continuidad de la variable los intervalos deben estar unidos. Para ello se puede proceder de la siguiente manera: 1. El extremo inferior del primer intervalo se sustituye por 52+53 = 52, 5 2 2. El extremo superior del primer intervalo se reemplaza por 55+56 = 55, 5. Este valor pasa a 2 ser el extremo superior del primer intervalo y el extremo inferior del segundo 3. Se continúa de la misma manera con el resto de los intervalos y el resultado nal se presenta en la Tabla (1.7) 15 Clase 1 2 3 4 5 6 7 Total Longitud 52,5 55,5 55,5 58,5 58,5 61,5 61,5 64,5 64,5 67,5 67,5 70,5 70,5 73,5 ... fi 2 5 9 15 12 5 2 50 Tabla 1.7: Intervalos reales. Longitud de 50 barras de acero Denidos de esta manera los intervalos quedan cerrados dando la idea de continuidad de la variable. Cuando los intervalos se denen como en la Tabla (1.7) reciben el nombre de intervalos reales. Los intervalos denido en la Tabla (1.4) reciben el nombre de intervalos cticios. La Tabla (1.7) puede completarse para obtener más información acerca de las propiedades del conjunto de observaciones. Se denomina marca de clase del intervalo i al punto medio del intervalo de clase correspondiente. Habitualmente se simboliza mi con i = 1, 2, 3, ..., etc. Así, para el primer intervalo m1 = 52, 5 + 55, 5 = 54 2 Procediendo de la misma manera con el resto de los intervalos obtendremos: m2 = 57, m3 = 60, · · · , m7 = 72. Se llama frecuencia acumulada absoluta de la clase i al número que resulta de sumar la frecuencia absoluta de la clase i con las frecuencias absolutas de las clases que le anteceden. La frecuencia acumulada absoluta de la clase i se simboliza Fi con i = 1, 2, ...,etc. Así, F1 = 2; F2 = 5 + 2 = 7; F3 = 9 + 7 = 16, ..., F7 = 50. Se llama frecuencia relativa de la clase i al cociente entre la frecuencia absoluta de la clase y el total de datos. La simbolizaremos fri . Es decir: fri = fi n Se treta de la misma denición de frecuencia relativa que dimos para variables cualitativas. 2 5 Así, para el primer intervalo, fr1 = 50 = 0, 04; para el segundo intervalo fr2 = 50 = 0, 10; etc. Se llama frecuencia relativa acumulada de la clase i al número que resulta de sumar la frecuencia relativa de la clase i con la frecuencia relativa de las clases que le anteceden. La simbolizaremos Fri con i = 1, 2, ..., etc. Para el primer intervalo de la tabla de frecuencias, Fr1 = 0, 04; para el segundo Fr2 = 0, 14; y así sucesivamente hasta Fr7 = 1, 00. Toda esta nueva información se muestra en la Tabla (1.8). ¾Cómo se interpretan las cantidades de la Tabla (1.8)? Consideremos la cuarta clase o intervalo. Entonces: Hay 15 barras cuyas longitudes están comprendidas entre 61,5 y 64,5 pulgadas Hay 31 barras cuyas longitudes son menores o iguales a 64,5 pulgadas El 30 por ciento de las barras tienen una longitud comprendida entre 61,5 y 64,5 pulgadas El 62 por ciento de las barras tiene una longitud menor o igual 64,5 pulgadas El resto de los intervalo puede interpretarse de manera análoga. 16 Intervalo 1 2 3 4 5 6 7 Total Longitud 52,5 55,5 55,5 58,5 58,5 61,5 61,5 64,5 64,5 67,5 67,5 70,5 70,5 73,5 ... Marca de clase 54 57 60 63 66 69 72 ... fi 2 5 9 15 12 5 2 50 Fi 2 7 16 31 43 48 50 ... Fr 0,04 0,10 0,18 0,30 0,24 0,10 0,04 1,00 Fri 0,04 0,14 0,32 0,62 0,86 0,96 1,00 ... Tabla 1.8: Tabla de frecuencias absolutas, relativas y porcentuales 1.2.4. Histogramas Un histograma es una representación visual de los datos resumidos previamente en la Tabla (1.8). Un histograma es similar a un gráco de barras para datos categóricos solo que aquí las barras se dibujan unidas para dar la idea de continuidad de la variable. Un histograma se construye de la siguiente manera: 1. Se trazan un par de ejes perpendiculares, uno horizontal 2. La base de las barras se localizan en el eje horizontal. El ancho de las barras representa la longitud de los intervalos 3. La altura de las barras se registran sobre el eje vertical y corresponden a las frecuencias (absolutas o relativas) de cada una de las clases o intervalos de la variable 4. Las áreas de las barras son proporcionales a las frecuencias de las clases Figura 1.3: Histograma de frecuencias absolutas El histograma muestra algunas de las propiedades más importantes del conjunto de observaciones. Por ejemplo, los datos están centradas aproximadamente alrededor del valor x = 63 pulgadas. Además el histograma tiene una conguración casi simétrica con respecto de este valor central. Un poco más adelante veremos como expresar numéricamente estas importantes propiedades de un conjunto de observaciones. 17 1.2.5. Polígonos de frecuencias Otro recurso gráco que sirve para describir un conjunto de observaciones de una variable cuantitativa es el polígono de frecuencias. Se los construye utilizando un par de ejes perpendiculares al colocar sobre cada marca de clase un punto a una altura igual a la frecuencia asociada a dicha clase, luego se unen dichos puntos con segmentos de recta. Para que el polígono quede cerrado se considera un intervalo más al inicio (con frecuencia cero) y otro al nal (también con frecuencia cero). Puede superponerse el polígono de frecuencias con el histograma o no. En la Figura (1.4) se muestra el polígono de frecuencias para los datos del Ejemplo (1.1) en el cual se han representado conjuntamente el histograma y el polígono correspondiente. Figura 1.4: Polígono de frecuencias. Longitud de las barras de acero El polígono de frecuencias al ser construido a partir de los datos muestrales se puede considerar como una representación aproximada del comportamiento poblacional, el cual para poblaciones innitas o muy grandes está dado por una curva continua. Esta curva suele denominarse gráco o curva de frecuencias. En la Figura (1.5) se muestra un histograma junto a su curva de frecuencias. En la medida que se tomen más intervalos la curva de frecuencias se irá pareciendo al histograma. En el límite, el histograma podrá ser reemplazado por la curva de frecuencias. Los métodos tabulares y grácos tienen como función principal hacer que se aprecie de manera rápida las principales propiedades de los datos. Sin embargo, las técnicas grácas presentan limitaciones en la descripción y análisis de las observaciones. Por ejemplo, estas técnicas no se pueden utilizar para hacer inferencias (n que generalmente se persigue) aunque si pueden ser el punto de partida para algunos procesos de este tipo. Las tablas y los grácos casi siempre son acompañados por medidas descriptivas numéricas las que complementan el análisis y preparan el camino para la aplicación de técnicas estadísticas más complejas. En las secciones siguientes se denirán y estudiarán las propiedades de algunas de las medidas descriptivas numéricas más utilizadas en la Estadística. 18 Figura 1.5: Gráco o curva de frecuencias 1.3. Medidas descriptivas numéricas Presentaremos a continuación algunas de las medidas descriptivas numéricas más utilizadas con el objetivo de obtener conclusiones acerca de las principales propiedades de un conjunto de observaciones. Se las utiliza, al igual que las tablas y los grácos, para resumir y describir las observaciones disponibles, solo que ahora la descripción es numérica. Existen medidas descriptivas numéricas de localización, dispersión, forma, apuntamiento, asociación etc. Cuando se las calculan a partir de las observaciones de una población reciben el nombre de parámetros, que cuando se calculan a parir de las observaciones de una muestra se las denominan estadísticos. Antes de denir y analizar las propiedades de las medidas descriptivas que veremos en este material es necesario tener presente algunas propiedades del símbolo sumatoria. 1.3.1. El símbolo sumatoria P El símbolo sumatoria es muy utilizado en Matemática en general y Estadística en particular. Se lo emplea con el n de simplicar algunas notaciones matemáticas. Algunos parámetros y estimadores incluyen en su denición la suma de varios términos. Por ejemplo, si se tiene una sucesión de observaciones de una variable cuantitativa x1 ,P x2 , ..., xn su suma puede expresarse de manera abreviada, utilizando el símbolo de sumatoria ( ) de la siguiente manera: x1 + x2 + · · · + xn = n X xi i=1 que se lee sumatoria de i = 1 hasta n de xi . Se pueden combinar otras operaciones matemáticas con la sumatoria. Por ejemplo, si se quiere sumar los cuadrados de cada observación podríamos expresarlo abreviadamente de la siguiente manera: x21 + x22 + · · · + x2n = n X x2i i=1 Algunas propiedades de la sumatoria se presentan a continuación. 19 Primera propiedad Si k es una constante entonces: n X i=1 k = k + k + · · · + k = nk {z } | n Por ejemplo 3 X 2=2+2+2=6 i=1 Como un caso particular de esta propiedad es posible vericar que n X 1=n i=1 Segunda propiedad n X kxi = k i=1 Demostración n X xi i=1 Por denición de sumatoria n X kxi = kx1 + kx2 + · · · + kxn i=1 Pero n X kxi = kx1 + kx2 + · · · + kxn = k(x1 + x2 · · · + xn ) i=1 Por lo tanto n X kxi = k i=1 n X xi i=1 Como se quería demostrar. Tercera propiedad n n n X X X (xi + yi ) = xi + yi i=1 Demostración i=1 i=1 Por denición de sumatoria n X (xi + yi ) = (x1 + x2 + · · · + xn ) + (y1 + y2 + · · · + yn ) i=1 Por lo tanto 20 n X (xi + yi ) = i=1 n X xi + i=1 n X yi i=1 como se quería demostrar. Se deja como tarea propuesta demostrar que también se cumple la siguiente propiedad: n X (xi − yi ) = i=1 n X xi − i=1 n X yi i=1 1.3.2. Medidas de localización o de posición Media o promedio La media o promedio es una de las medidas descriptivas numéricas más utilizadas cuando se quiere describir numéricamente datos provenientes de una variable cuantitativa. Cuando se la calcula a partir de una población se la simboliza con la letra griega µ (mu). Cuando se la calcula a partir de los datos de una muestra tomada de una población se la simboliza x̄. Denición 1.4 Sea x1 , x2 , ..., xn observaciones pertenecientes a una muestra de tamaño n. La media de la muestra o media muestral se dene de la siguiente manera. x̄ = x1 + x2 + · · · + xn = n Pn i=1 xi (1.4) n Ejemplo 1.2 Suponga que en la Tabla (1.9) se muestra los gastos diarios en alimentos de una muestra de 12 familias de la ciudad. Calcular la media e interpretar el valor obtenido. 2.210 2.255 2.350 2.380 2.380 2.390 2.420 2.440 2.450 2.550 2.630 2.825 Tabla 1.9: Datos para el Ejemplo 1.2 Solución Como se trata de una muestra de 12 observaciones, la media muestral se calcula de la siguiente manera: x̄ = 2.210 + 2.255 + · · · + 2.825 = 2.440 pesos 12 Es decir, en promedio, estas familias gastan 2.440 pesos diarios en alimentos. Como puede observarse, el valor obtenido representa bastante bien el conjunto pues no es muy diferente de los datos de la muestra. Este es el n que se persigue cuando se calcula la media. Encontrar un número que describa o resuma de la mejor manera un conjunto de observaciones. Supongamos que ahora se cambia la última observación por 10.000 pesos y volvemos a calcular x̄ con este nuevo valor. Obtendremos x̄ = 2.210 + 2.255 + · · · + 10.000 = 3.038 10 Evidentemente esta cantidad no representa tan bien como la anterior el conjunto de datos. Hay 11 valores que son menores que el promedio y solo uno mayor, muy distinto del resto. Un solo valor extremo de la variable, relativamente mayor que el resto de las observaciones, hizo que el promedio se desplazar hacia los valores mayores de la distribución. 21 Algo similar puede ocurrir si en lugar de una observación muy grande se agrega una relativamente pequeña. En este caso el valor del promedio puede (no necesariamente) desplazarse hacia valores pequeños de la distribución y no representarla adecuadamente. Es importante tener en cuenta que la sola presencia de un valor extremo en el conjunto de observaciones no necesariamente inuirá signicativamente en el valor de la media. Suponga que en la Tabla (1.10) se muestra la distribución de frecuencias absolutas de una variable cuantitativa X . Frecuencia absoluta fi 20 30 40 30 20 1 X 2 3 4 5 6 100 Tabla 1.10: Tabla de frecuencias de X La media o promedio de X se puede calcular de la siguiente manera: Pk x̄ = i=1 xi fi k = 2 × 20 + 3 × 30 + · · · + 100 × 1 660 = = 4, 68 141 141 Puede verse que la sola presencia de x6 = 100 no ocasionó un desplazamiento signicativo en el valor del promedio. La explicación tiene que ver con las frecuencias absolutas de cada una de las observaciones. Mientras que existen 40 observaciones del valor x = 4, hay una sola observación cuyo valor es x = 100. Evidentemente x = 4 tiene mucho más peso o importancia que x = 100 al calcular el promedio. En aquellos casos en los cuales se tenga acceso a todas las observaciones de una población, la media poblacional se dene de la siguiente manera: PN µ= i=1 xi N = x1 + x2 + · · · + xN N en donde N es el tamaño de la población. En general, la media µ poblacional es desconocida y hay que estimarla. Por ejemplo, suponga que un analista de mercados quiera saber cual es la renta promedio de todas las familias de una gran ciudad. Entrevistar a todas y cada una de las familias de la ciudad puede resultar imposible por el costo y el tiempo que insumiría realizar la tarea. En general lo que se hace es tomar una muestra aleatoria de familias, calcular la media muestral x̄ y utilizar su valor como una estimación de la media poblacional desconocida. Esta forma de proceder es la base de la inferencia estadística. Los problema de la estimación de parámetros serán abordados extensamente a parir del Capítulo 4 de este material Algunas de las características más importantes de la media son las siguientes: Fácil de calcular Fácil de interpretar Utiliza todos los datos (toda la información) cuando se la calcula La presencia de valores extremos puede inuir signicativamente en su valor 22 Media ponderada Suponga que una empresa comercial paga a sus empleados un sueldo básico de 6, 50 7, 50 y 8, 50 dólares por hora de trabajo. Podemos llegar a la conclusión de que la media de los sueldos por hora es µ= 6, 50 + 7, 50 + 8, 50 = $7, 50 3 Esto es cierto solo si hay el mismo número de vendedores que perciben esas sumas. Sin embargo, suponga que 14 vendedores ganan 6,50; que a 10 vendedores se les paga 7,50 y que solo 2 vendedores cobran 8,50 dólares por hora. Para calcular la media, 6,50 debe ponderarse (o pesarse) por 14, 7,50 debe ponderarse por 10 y 7,50 se debe ponderar por 2. Al promedio resultante se lo denomina media ponderada y se la simboliza µw . La expresión Es decir µw = 6, 50 × 14 + 7, 50 × 10 + 8, 50 × 2 = 7, 038 14 + 10 + 2 O sea, en promedio, estos trabajadores ganan 7,038 dolares por hora de trabajo La expresión PN xi w i x1 w1 + x2 w2 + · · · + xN wN = Pi= µw = N w1 + w2 + · · · + wN i=1 wi (1.5) recibe el nombre de media poblacional ponderada. La media poblacional ponderada en general es desconocida y hay que estimarla. Su estimación recibe el nombre de media muestral ponderada y se dene de la siguiente manera: Denición 1.5 Sea x1 , x2 , . . . , xn una muestra de tamaño n donde las observaciones tienen ponderaciones o pesos w1 ; w2 , ..., wn respectivamente. La media muestral ponderada se dene de la siguiente manera: Pn xi wi x1 w1 + x2 w2 + · · · + xn wn x̄w = = Pi=1 n w1 + w2 + · · · + wn i=1 wi (1.6) Ejemplo 1.3 Demostrar que si todas las ponderaciones wi de un conjunto de n observaciones perteneciste a una muestra son iguales, entonces x̄w = x̄. Solución Sean x1 , x2 , ..., xn las n observaciones de una muestra. Sea w el peso o ponderación común de cada una de las observaciones. Por lo tanto: Pn xi w x1 w + x2 w + · · · + xn w w(x1 + x2 + · · · + xn ) x̄w = Pi=1 = = n w + w + ··· + w nw i=1 w | {z } n Finalmente Pn xi w x1 + x2 + · · · + xn x̄w = Pi=1 = = x̄ n n w i=1 como se quería demostrar. 23 Mediana Cuando en el conjunto de observaciones se detecta algún valor extremo que sospechamos puede inuir signicativamente en el valor de la media, podemos buscar el centro de los datos con otra medida descriptiva numérica muy utilizada en la estadística descriptiva. Se trata de la mediana. La denimos de la siguiente manera: Denición 1.6 La mediana es el valor intermedio de las observaciones cuando las mismas han sido ordenadas de manera ascendente. La mediana se simboliza Me tanto para datos de una población o de una muestra. El contexto del problema nos dirá si estamos calculando la mediana poblacional o la muestral. Antes de calcular la medina hay que vericar si se tiene un número par o impar de observaciones. Veamos como se procede encada caso. Ejemplo 1.4 Calcular la mediana del siguiente conjunto de observaciones: 46, 54, 42, 46, 32. Solución En primer lugar hay que ordenar los datos de manera ascendente. Al hacerlo se obtiene 32 42 46 46 54 Como se trata de un número impar de observaciones hay un único valor central. Ese valor central se lo asigna a la mediana. Por lo tanto Me = 46. Ejemplo 1.5 Teniendo en cuenta los datos del Ejemplo (1.2) (gastos diarios en alimentos) calcular la mediana del conjunto de observaciones. Solución Los datos que ya están ordenados son los siguientes: 2.210 2.255 2.350 2.380 2.380 2.390 2.420 2.440 2.450 2.550 2.630 2 .825 Como se trata de un número par de observaciones no habrá un único valor central. La mediana se encuentra promediando los dos valores centrales. Me = 2.390 + 2.420 = 2.405 2 Si en el conjunto de datos se cambia la última observación, 2.850 por 10.000 la mediana seguirá teniendo el mismo valor. Por lo tanto, la mediana no se ve afectada por valores extremos de la variable. Algunas de las propiedades de la median son las siguientes: Algunas de las propiedades de la mediana son las siguientes: Fácil de calcular Fácil de interpretar No se ve afectada 0pr valores extremos No utiliza todos los datos (información) cuando se la calcula 24 Moda Denición 1.7 La moda o modo es el valor o la categoría de una variable que presenta mayor frecuencia. Se la simboliza Mo si los datos provienen de una población o de una muestra. La moda puede calcularse tanto para una variable cuantitativa como cualitativa. Así, para la distribución de frecuencias presentada en la la Tabla (1.3) la moda es el Fútbol, es decir Mo = Fútbol con una frecuencia igual a 19. Para los datos del Ejemplo (1.2) Mo = 2.380 dólares con una frecuencia igual a 2. Algunas de las características más importantes de la moda son las siguientes: Fácil de calcular y de interpretar Puede utilizarse para describir variables cualitativas y cuantitativas Pueden existir conjuntos de datos que no tengan moda (todas las observaciones con la misma frecuencia) Un conjunto de observaciones puede ser multimodal, es decir tener 2 o más modas. En este caso no se recomienda utilizar la moda como medida descriptiva Dado un conjunto de observaciones ¾cuál es la mejor medida de posición o de localización para describirlas? Pues bien, que todo depende del contexto. Uno de los factores que inuye en la decisión es si se cuenta con datos de una variable cualitativa o de una cuantitativa. La media suele ser la medida descriptiva numérica preferida para describir datos provenientes de una variable cuantitativa. Sin embargo, no tiene sentido tratar de utilizarla con datos de una variable cualitativa o categórica. Por ejemplo, si un conjunto de personas se clasican de acuerdo a su estado civil como soltero, casado, viudo, divorciado, etc. ¾tiene sentido hablar del el estado civil promedio del conjunto de personas? En las variables categóricas tiene sentido estadístico encontrar su moda. Percentiles A los percentiles se los suele clasicar como medidas descriptivas numérica no centrales. Un percentil suministra información acerca de cómo se distribuyen los datos sobre ciertos intervalos. Por ejemplo, el p - ésimo percentil divide el conjunto de datos en dos partes. Más o menos el p por ciento de las observaciones tiene valores menores al p - ésimo percentil y aproximadamente el (1 − p) por ciento de las observaciones tienen valores mayores que el p - ésimo percentil. Las observaciones deben estar ordenadas de manera ascendente. Denición 1.8 El p - ésimo percentil es el valor tal que aproximadamente un p por ciento de las observaciones tienen dicho valor o menos y aproximadamente el (100 − p) por ciento de las observaciones tienen ese valor o más. Para ver la utilidad práctica de los percentiles analicemos la siguiente situación hipotética. Suponga que un estudiante ha obtenido una calicación de 8 puntos en una evaluación de Estadística. Si el profesor desea investigar cuál ha sido el desempeño del estudiante respecto del conjunto total de calicaciones puede razonar de la siguiente manera: si la calicación 8 se corresponde con el percentil 70, es decir, P70 = 8, el profesor sabrá que aproximadamente el 70 % de los estudiantes tuvo una calicación menor o igual que 8 y que aproximadamente el 30 % de los estudiantes obtuvo una nota superior a este valor. 25 Para calcular el p - ésimo percentil de un conjunto de observaciones se puede proceder de la siguiente manera: 1. Ordenar las observaciones de manera ascendente 2. Calcular la cantidad i = ciones p 100 n donde p es el percentil de interés y n el número de observa- Si i es un número decimal, se redondea su valor al entero inmediato superior. Este valor indica la posición del i - ésimo percentil Si i es un número entero el i - ésimo percentil es el promedio de las observaciones ubicadas en los lugares i e i + 1 de la serie de datos Ejemplo 1.6 Utilizando la información del Ejemplo (1.2) calcular el percentil 85 de los gastos diarios en alimentos para la muestra de las 12 familias. Solución Los datos ya están ordenados. Seguidamente se calcula el valor de i: i= p 100 n= 85 100 12 = 10, 2 Como i no es entero se redondea su valor al entero inmediato superior. Por lo tanto, el percentil 85 se encuentra en la posición 11 del conjunto de observaciones. Luego P85 = 2.630 pesos. ¾Como interpretamos este valor? Podemos decir que aproximadamente el 85 % de las familias de la muestras gastan esa suma o menos por día en alimentos y que aproximadamente el 15 % gastan esa suma o más. Supongamos ahora que se quiera calcular el percentil 50. Procedemos como en el caso anterior. i= 50 100 12 = 6 Como en este caso, i es un número entero, el percentil 50 es el promedio de las observaciones ubicadas en el sexto y séptimo lugar. Por lo tanto P50 = 2.390 + 2.420 = 2.405 pesos 2 Observe que el percentil 50 coincide con el valor de la mediana, es decir, P50 = Me . Cuartiles Con frecuencia, se busca dividir el conjunto de observaciones en cuatro partes, cada una con el 25 A los puntos de división se los llama cuartiles y se los dene de la siguiente manera: Q1 = primer cuartil o percentil 25 Q2 = segundo cuartil o percentil 50 (es igual a la mediana) Q3 =tercer cuartil o percentil 75 Ejemplo 1.7 Utilizando la información del Ejemplo (1.2) calcular e interpretar los cuartiles Q1 , Q2 y Q3 . Solución Se deja como tarea propuesta. 26 Proporción A continuación denimos y analizamos las propiedades de otra de las medidas descriptivas numéricas muy utilizadas en el análisis estadístico, la proporción. La proporción muestral simbolizada p̄ se dene como la fracción de una muestra que posee cierta característica o propiedad. Por ejemplo, si en un grupo de 80 estudiantes de una facultad, 15 pertenecen al ultimo año de su carrera, entonces p̄ = 15 = 0, 1875 80 o el 18,75 % de los estudiantes del grupo están cursado el ultimo año de su carrera. Si la población estudiada es nita y de tamaño moderado, se podrá calcular la proporción poblacional efectuando el cociente entre todas las unidades que resulten ser un éxito y el número total de unidades observacionales de la población. La proporción poblacional se simboliza con la letra p. Es decir: p= X N (1.7) donde X es el número de éxitos en la población y N su tamaño. Si la población objetivo se extrae una muestra de tamaño n y el ella se encuentran x éxitos, entonces x n p̄ = (1.8) representa la proporción de individuos de la muestra que poseen la característica de interés. Como todo parámetro, la proporción poblacional p en general es desconocida.Es común estimarla por medio de la proporción muestral. 1.3.3. Medidas de variabilidad Ademas de las medidas de localización o posición, siempre es necesario considerar alguna medida de dispersión para una completa descripción de un conjunto de observaciones. Analicemos la siguiente situación hipotética: Ejemplo 1.8 Dos departamentos de 10 trabajadores cada uno produjeron las siguientes cantidades de un mismo bien cierto día de trabajo: Trabajador Departamento 1 Departamento 2 1 7 3 2 8 4 3 8 5 4 9 6 5 9 9 6 9 9 7 9 12 8 10 13 9 10 14 10 11 15 Tabla 1.11: Datos para el Ejemplo 1.8 Describir y comparar las producciones de los dos departamentos. Solución Puede comprobarse que la producción media en los dos departamentos es la misma e igual a 9 unidades, es decir, x̄1 = x̄2 = 9. Sin embargo, la producción del Departamento 2 está mas dispersa respecto de este valor central. Para el Departamento 1 la diferencia entre el promedio y los dos valores extremos de la serie de datos (7 y 11) es igual a 3 unidades mientras que la diferencia entre la media y los dos valores extremos (3 y 15) para el Departamento 2 es igual a 6 unidades. 27 Evidentemente las observaciones en el primer departamento están más concentradas respecto de su producción media que en el segundo departamento. Si solamente nos quedáramos con los valores de las producciones medias de los dos departamentos estaríamos realizando una descripción incompleta del las observaciones. Algunas de las razones por las cuales es necesario considerar siempre las medidas de variabilidad conjuntamente con las de posición son las siguientes: Las medidas de variabilidad permiten investigar la representatividad del promedio o medida de localización utilizada. Una dispersión de las observaciones relativamente pequeña respecto del promedio indicará que se encuentran muy próximas a este valor central. En este caso, el promedio podrá considerarse representativo del conjunto de datos. Por el contrario, una dispersión relativamente grande respecto del promedio indicará que las observaciones se encuentran muy dispersas respecto de este valor central. En este caso se dice que el promedio no es representativo del conjunto de observaciones Una medida de dispersión permite comparar la variabilidad de dos o más conjunto de observaciones En general Una medida de variabilidad es un número que indica el grado de dispersión de un conjunto de datos. Si el número es pequeño respecto de la unidad de medida de la variable, entonces habrá una gran uniformidad entre los datos. Por el contrario, un valor relativamente grande indicará que hay poca uniformidad en las observaciones A continuación analizaremos algunas de las medidas de dispersión más utilizadas cuando se describe un conjunto de observaciones. Rango o amplitud El rango o amplitud de un conjunto de datos es igual a la diferencia entre el mayor y el menor valor de las observaciones. Es decir A = XM − Xm (1.9) donde XM es la mayor y Xm es la menor observación del conjunto de observaciones. Ejemplo 1.9 Las capacidades de cinco recipientes metálicos son 38, 20, 37, 64 y 27 litros respectivamente. Hallar la amplitud o rango del conjunto de observaciones. Solución Como XM = 64 y Xm = 20 entonces A = 64 − 20 = 44 litros La amplitud es fácil de calcular y es una forma usual de describir la dispersión cuando el objetivo de la investigación es solamente determinar alcance de las variaciones extremas. Por ejemplo, la evolución del precio de una acción en la bolsa de valores se suele conocer por la amplitud de sus valores entre la apertura y cierre de una ronda. El rango o amplitud también es muy utilizado en el control estadístico de calidad. De acuerdo con su denición, la amplitud es muy sensible a valores extremos de la variable. Además, al no tener en cuenta ninguna medida de posición , no informa nada acerca de cómo se comportan los datos respecto del centro. Es aconsejable utilizar el rango en conjuntos de pocas observaciones. 28 Rango intercuartílico El rango intercuartílico (RIC ) mide la dispersión en el 50 por ciento central de los datos. Se lo dene como diferencia entre la observación correspondiente al tercer cuartil Q3 y la correspondiente al primer cuartil Q1 . Por lo tanto: RIC = Q3 − Q1 (1.10) Ejemplo 1.10 Calcular el rango intercuartílico de los gastos semanales en alimentos de la muestra de 12 familias de la ciudad del Ejemplo (1.2). Solución Calculamos el primer cuartil: Los datos ya se encuentran ordenados. Por lo tanto: i= 25 100 12 = 3 Luego P25 = 2.350 + 2.380 = 2.365 pesos 2 Tercer cuartil i= 75 100 12 = 9 Por lo tanto P75 = 2.450 + 2.550 = 2.500 pesos 2 Finalmente: RIC = 2.500 pesos − 2.365 pesos = 135 pesos Podemos decir que en un rango de 135 pesos se encuentran los gastos en alimentos del 50 % central de las familias de la ciudad. Desviación media Esta medida de dispersión tiene en cuenta todas las observaciones para su cálculo. Es decir, se considera toda la información disponible en el conjunto de observaciones. Se la suele denominar también desviación promedio porque calcula el promedio de las desviaciones de las observaciones respecto de su media. Denición 1.9 Sean x1 , x2 , ..., xn observaciones de una muestra de tamaño n tomada de una población. La desviación media muestral se dene de la siguiente manera Pn DM = i=1 |xi − x̄| n donde x̄ es la media de la muestra. 29 (1.11) Analizando esta denición, cada término |xi − x̄| no es más que la distancia de xi a la media del grupo. Por lo tanto, la desviación media puede interpretarse como la distancia promedio de las observaciones respecto de su media. Si se tienen x1 , x2 , ..., xN observaciones pertenecientes a una población de tamaño N , la desviación media se dene de la siguiente manera PN DM = i=1 |xi − µ| N (1.12) donde µ es la media de la población. Como en general la desviación media poblacional no se conoce y habrá que estimarla. Es usual estimarla por medio de la desviación media muestral. Ejemplo 1.11 Los pesos de una muestra de 5 cajas listas para embarcarse son los siguientes: 103, 97, 101, 106 y 103 kilogramos. Calcular e interpretar el valor de la desviación media. Solución Media de la muestra x̄ = 103 + 97 + ... + 103 = 102 kilogramos 5 Luego. el peso promedio de las 5 cajas es 102 kilogramos. Por otro lado DM = |103 − 102| + |97 − 102| + ... + |103 − 102| = 2, 4 kilogramos 5 Podemos armar que los pesos de las cajas se desvían en promedio 2,4 kilogramos respecto de la media. Se concluya que existe poca dispersión de las observaciones de la variable respecto de su media. Varianza Es otra medida de dispersión que utiliza todas las observaciones de un conjunto de datos. Denición 1.10 Sea x1 , x2 , ..., xn una muestra aleatoria de n observaciones pertenecientes a una muestra de una población. La varianza muestral se dene de la siguiente manera: s2 = Pn i=1 (xi − x̄) 2 n−1 = (x1 − x̄)2 + (x2 − x̄)2 + · · · + (xn − x̄)2 n−1 (1.13) donde x̄ es la media de la muestra. Ejemplo 1.12 Considere las siguientes 8 observaciones pertenecientes a una muestra de cierta población: 2, 3, 3, 5, 5, 8, 10, 12. Calcular la varianza muestral. Solución Comenzamos calculando la media de la muestra. x̄ = 2 + 3 + 3 + · · · + 12 =6 8 Por lo tanto s2 = (2 − 6)2 + (3 − 6) + · · · + (12 − 6)2 = 13, 14 8−1 30 Analizando la Fórmula (1.13) puede verse que, exceptuando el hecho de que la división es por (n − 1) y no por n, la varianza podría interpretarse como promedio de las desviaciones al cuadrado de las observaciones respecto de la media del grupo. El denominador n − 1 recibe el nombre de grados de libertad concepto que será denido un poco más adelante. La Fórmula (1.13) recibe el nombre de fórmula conceptual o fórmula de denición de la varianza. A partir de la fórmula de denición se pude deducir la siguiente expresión para calcular la varianza muestral denominada fórmula de cálculo de s2 2 s = n Pn 2 i=1 xi ) Pn 2 i=1 xi − ( (1.14) n(n − 1) A modo de ejemplo utilizaremos la Fórmula (1.14) para volver a calcular la varianza de los datos del Ejemplo (1.12). Los cálculos auxiliares necesarios se disponen en la Tabla (1.12). Observación 1 2 3 4 5 6 7 8 Total x2 x 2 3 3 5 5 8 10 12 48 4 9 9 25 25 64 100 144 380 Tabla 1.12: Datos para el cálculo de la varianza Por lo tanto s2 = 8(380) − 482 = 13, 14 8×7 Valor que coincide con el calculado con la fórmula de denición. Ejemplo 1.13 A partir de la fórmula de denición de s2 demostrar que s2 = n Pn 2 i=1 xi − Pn ( i=1 xi 2 ) n(n−1) Solución Pariendo de la fórmula de denición de la varianza muestral s2 tendremos: Pn 2 2 i=1 (xi − x̄) s = n−1 Pn 2 2 i=1 (xi − 2xi x̄ + x̄ ) = n−1 Por propiedades de la sumatoria se obtiene Pn 2 i=1 xi − 2x̄ Pn i=1 xi + x̄ 2 Pn i 1 n−1 Pn Pn Pn xi Como x̄ = i=1 ⇒ i=1 xi = nx̄. Además, i=1 1 = n. Reemplazando estas cantidades en la n s2 = expresión anterior obtendremos: s2 = Pn 2 2 2 i=1 xi − 2nx̄ + nx̄ n−1 Realizando un nuevo reemplazo se obtiene 31 Pn = 2 2 i=1 xi − nx̄ n−1 P 2 ( ni=1 xi ) 2 2 i=1 xi − n n Pn 2 s = ( 2 i=1 xi − Pn = n−1 Pn i=1 xi ) 2 n n−1 Finalmente n 2 s = Pn 2 i=1 xi − ( Pn i=1 xi ) 2 ⇒ s2 = n n−1 n Pn 2 i=1 xi − ( 2 i=1 xi ) Pn n(n − 1) como se quería demostrar. Desviación estándar La varianza tiene el inconveniente de que, por su denición, estará medida en unidades de la variable al cuadrado, como dólares al cuadrado, kilogramos al cuadrado, etc. Esto diculta la interpretación práctica de su resultado. Por este y otros motivos que analizaremos más adelante, se dene una medida de variabilidad derivada de la varianza llamada desviación estándar. Denición 1.11 Para un conjunto de n observaciones provenientes de una muestra, la desviación estándar muestral se dene como igual a la raíz cuadrada positiva de la varianza. Se la simboliza con la letra s. Es decir √ s= Teniendo en cuenta los datos del Ejemplo (1.12) obtenemos s = La varianza poblacional se dene de la siguiente manera: σ2 = (1.15) s2 PN 2 i=1 (xi − µ) N √ 13, 14 = 3, 62. (1.16) Donde N es el tamaño de la población y µ su media. La letra griega σ recibe el nombre de sigma. La desviación estándar poblacional se dene como la raíz cuadrada positiva de la varianza. O sea √ σ= σ2 (1.17) Observe que el denominador de σ 2 es N y el de s2 es n − 1, ¾por qué esta diferencia? Como todo parámetro, la varianza poblacional en general es desconocida y debe ser estimada. Suena lógico entonces que se elija el mejor estimador para realizar la estimación. Bajo ciertas condiciones que analizaremos másP adelante, puede demostrarse que el mejor estimador de la varianza poblacional se logra dividiendo ni=1 (xi − x̄)2 por sus respectivos grados de libertad n − 1. Téngase siempre presenta que: Si el objetivo analítico consiste unicamente en describir la variabilidad que presenta las observaciones de una muestra, es perfectamente satisfactorio calcular s2 dividiendo por n solamente . Paro si el propósito es estimar σ 2 por medio de s2 debe calcularse la varianza muestral dividiendo por n − 1 32 Coeciente de variación Una comparación directa de dos o más medidas de dispersión, por ejemplo, la desviación estándar de la renta mensual de los empleados de una empresa y la desviación estándar del número de inasistencias mensuales al trabajo del mismo grupo de empleados no tiene sentido. ¾Se puede decir que la desviación estándar de 1.200 pesos para la variable renta mensual es mayor que la desviación estándar de 4, 5 días para la variable número de inasistencias al trabajo? Es obvio que no porque no se pueden comparar directamente unidades monetarias y días de inasistencias al trabajo. Se trata de dos variables diferentes. Con el n de realizar una comparación signicativa de la variabilidad de las rentas y de las inasistencias manuales al trabajo, es necesario convertir cada una de estas medidas en una expresión relativa, es decir, en un porcentaje. Analicemos esta otra situación. Si se comparan las desviaciones estándar de las ventas de los grandes y pequeños comercios que venden productos similares, casi siempre la desviación estándar de los grandes comercios será mayor que la de los pequeños, no necesariamente porque exista mayor variabilidad en las ventas sino simplemente por las diferencias en las escalas de medición. Las ventas de los grandes comercios pueden medirse en millones de pesos al mes y la de los pequeños comercios en cientos de miles. La comparación de la variabilidad de las ventas utilizando solamente la desviación estándar puede resultar engañosa. El coeciente de variación de Pearson es una medida de variabilidad relativa que puede utilizarse para comparar la variabilidad de dos conjuntos de observaciones. Es una medida de dispersión muy útil cuando: Los datos están medidos en unidades diferentes Los datos están en las misma unidades pero en escala muy diferente El coeciente de variación de Pearson, simbolizado CV, es una medida de dispersión relativa que expresa la desviación estándar como porcentaje de la media (siempre que la media sea positiva). El coeciente de variación poblacional se dene mediante la siguiente expresión: CV = σ × 100 µ (1.18) Por otro lado, el coeciente de variación muestral se dene así: CV = s x̄ × 100 (1.19) Supongamos que un conjunto de datos pertenecientes a una muestra de cierta población tiene una media x̄ = 44 y una desviación estándar s = 8. Su coeciente de variación muestral vale: CV = 8 44 × 100 = 18, 2 % Supongamos otro conjunto de datos con una media x̄ = 2.440 y una desviación estándar s = 165, 65. Este segundo conjunto de datos parece tener mayor variabilidad que el primero si la comparación se hace solo con la desviación estándar. Si calculamos el coeciente de variación para este grupo obtenemos CV = 165, 65 2.440 100 = 6, 79 % Evidentemente el segundo conjunto tiene menor variabilidad. 33 1.4. Reglas Empírica y Desigualdad de Chebyshev La Regla Empírica y la Desigualdad de Chebyshev son dos reglas4 muy utilizadas para describir conjuntos de datos pertenecientes a variables cuantitativas. En las dos se combinan la media y la desviación estándar con el n de una mejor caracterización de la información. Como se verá, la Regla Empírica es más precisas que la Desigualdad de Chebyshev pero de aplicación mas restringida debido a las características particulares que deben tener las observaciones. Por otro lado la Desigualdad de Chebyshev es menos precisa que la Regla Empírica, pero más general pues se aplica a todo conjunto de observaciones, siempre y cuando pertenezcan a una variable cuantitativa. 1.4.1. Regla empírica La Regla Empírica arma lo siguiente: Para un conjunto de observaciones de una variable con una distribución de frecuencias con forma de campana, el intervalo µ ± σ = [µ − σ ≤ X ≤ µ + σ] contiene aproximadamente el 68 % de las observaciones µ ± 2σ = [µ − 2σ ≤ X ≤ µ + 2σ] contiene aproximadamente el 95 % de las observaciones µ ± 3σ = [µ − 3σ ≤ X ≤ µ + 3σ] contiene aproximadamente el 99 % de las observaciones En la Figura (1.6) se muestra grácamente las armaciones de la Regla empírica. Figura 1.6: Interpretación gráca de la Regla empírica Si bien es cierto hemos enunciado la Regla empírica para datos de una población también se cumple para las observaciones de una muestra. Ejemplo 1.14 En una línea de producción se llenan automáticamente envases de plásticos con detergente líquido. El peso de llenado es una variable que tiene una distribución de frecuencias con forma de campana con un peso promedio de 16 gramos y una desviación estándar igual a 0,25 gramos. Describir la variable peso de llenado de los envases plásticos con detergente a partir de lo enunciado por la Regla empírica. 4 En realidad son dos teoremas que daremos sin demostración 34 Solución Datos: X =Peso de llenado de los envases de plástico con detergente líquido Parámetros de la variable: µ = 16 y σ = 0, 25gramos. Por lo tanto, el intervalo: µ ± σ = 16 ± 0, 25 = [15, 75 ≤ X ≤ 16, 25] contendrá aproximadamente el 68 % de los pesos de los envases µ ± 2σ = 16 ± 2(0, 25) = [15, 50 ≤ X ≤ 16, 50] contendrá aproximadamente el 95 % de los pesos de los envases µ ± 3σ = 16 ± 3(0, 25) = [15, 25 ≤ X ≤ 16, 75] contendrá aproximadamente el 99 % de los pesos de los envases 1.4.2. Desigualdad de Chebyshev La desigualdad de Chebyshev arma que: Para todo conjunto de datos, y para toda constante k > 1, el intervalo µ ± kσ contiene al menos o por lo menos el 1 − k12 100 % de las observaciones. Por ejemplo: Si k = 2, el intervalo µ ± 2σ = [µ − 2σ ≤ X ≤ µ + 2σ] contendrá por lo menos o al menos 1 − 212 = 34 o el 75 % de las observaciones de la variable Si k = 3 el intervalo µ ± 3σ = [µ − 3σ ≤ X ≤ µ + 3σ] contendrá por lo menos o al menos 1 − 312 = 89 o el 8 % de las observaciones etc. La desigualdad de Chebyshev también se cumple para muestras tomadas de poblaciones. Ejemplo 1.15 Los datos de la Tabla (1.13) representan los porcentajes de la renta mensual familiar asignada a la compra de alimentos en una muestra de 30 familias de cierta ciudad. 26 29 33 40 35 28 39 24 29 26 30 49 34 35 42 37 31 40 44 36 33 28 29 32 37 30 26 41 45 35 Tabla 1.13: Datos para el Ejemplo 1.15 1. Calcular la media, la varianza y la desviación estándar de la variable porcentaje de la renta mensual familiar destinada a la compra de alimentos por las familias de la ciudad 2. Aplique la desigualdad de Chebyshev para k = 2 y comente los resultados obtenidos Solución Primer punto: En primer lugar se calcula la media de la muestra: x̄ = 26 + 28 + · · · + 37 + 35 = 34, 10 30 35 Luego estas 30 familias gastan en promedio el 34, 10 % de su renta mensual en la compra de alimentos. La varianza de la muestra es: s2 = Por lo tanto, s = √ (26 − 34, 1)2 + (28 − 34, 1)2 + · · · + (35 − 34, 1)2 = 40, 195 3−1 40, 195 = 6, 34 Segundo punto: Hemos visto que si k = 2 la regla de Chebyshev asegura que por lo menos el 75 % de las observaciones estarán en el intervalo x̄ ± 2(s). Por lo tanto x̄ ± 2(s) = 34, 10 ± 2(6, 34) = 34 ± 12, 68 Luego, el intervalo [21, 42 ≤ X ≤ 46, 78] debe contener al menos o por lo menos el 75 % de los datos. Si se observa la información de la Tabla (1.13) puede vericarse que solamente x = 49 no pertenece al intervalo. O sea , 29 30 = 0, 96 o el 96 % de las observaciones están incluidas en el intervalo [21, 42 ≤ X ≤ 46, 78]. Se cumple holgadamente la regla de Chebyshev. 1.5. Medidas de localización relativa. Detección de valores atípicos En las secciones anteriores se han denido e interpretado algunas medidas de localización y de dispersión que se utilizan para la descripción de un conjunto de observaciones de una variable cuantitativa. La media aritmética o promedio es una de las medidas de localización mas utilizada cuando se trata de encontrar el centro de un conjunto de observaciones, mientras que la varianza y la desviación estándar son dos de las más empleadas para estudiar la dispersión de las observaciones respecto de la media. En realidad, cuando estas medidas se utilizan conjuntamente puede verse su potencial descriptivo. Ya lo vericamos cuando estudiamos el coeciente de variación, la Regla empírica y la Desigualdad de Chebyshev. Ahora vamos a denir una nueva medida descriptiva cuyo objetivo es el de determinar la posición relativa de una observación respecto del conjunto de observaciones. Recibe el nombre de valor z y la denimos a continuación. Denición 1.12 Sean x1 , x2 , ..., xn , observaciones pertenecientes a una muestra de tamaño n tomada de una población. El valor zi asociado a la observación xi se dene de la siguiente manera: zi = xi − x̄ s (1.20) donde x̄ y s son la media y la desviación estándar de la muestra. Con frecuencia al valor zi se lo denomina valor estándar de xi . El valor de zi se puede interpretar como la cantidad de desviaciones estándar que dista xi del promedio x̄. Por ejemplo, si z1 = 1, 2 esto indica que x1 es 1, 2 desviaciones estándar mayor que la media de la muestra. 36 O sea, si x1 − x̄ ⇒ x1 = x̄ + 1, 2(s) s 1, 2 = Igualmente, si z2 = −0, 5 esto quiere decir que x2 se encuentra 0, 5 desviaciones estándar debajo de la media. Es decir, si −0, 5 = x2 − x̄ ⇒ x2 = x̄ − 0, 5(s) s Como puede deducirse de lo expuesto, los valores de z mayores que cero se dan en observaciones mayores que la media, y los menores que cero en observaciones menores que la media. Un valor de z igual a cero indica que el valor de la observación es igual a la media. O sea x − x̄ = 0 ⇒ x − x̄ = 0 ⇒ x = x̄ s Ejemplo 1.16 El siguiente conjunto de datos 45, 54, 42, 46, 32 corresponden a una muestra de tamaño n = 5 tomadas de una población. Calcular los valores z para cada una de las observaciones xi . Solución La media o promedio de las 5 observaciones es: x̄ = 45 + 54 + · · · + 32 = 44 5 Varianza s2 = P5 2 i=1 (xi − x̄) n−1 = (46 − 44)2 + (54 − 44)2 + · · · + (32 − 44)2 = 64 4 √ Por lo tanto, s = 64 = 8 Para x1 = 54 su valor z1 es z1 = 46 − 44 = 0, 25 8 z2 = 54 − 44 = 1, 25 8 Para x2 = 54 Continuando de la misma manera se obtienen los valores z para el resto de las observaciones. En la Tabla (1.14) se muestran los valores originales de la variable y sus respectivos valores z . Valores x 46 54 42 46 32 xi − x̄ 2 10 -2 2 -12 Valores z 0,25 1,25 -0,25 0.25 -1.50 Tabla 1.14: Valores z para los datos del Ejemplo 1.16 Volvamos nuevamente a la Regla Empírica que fuera analizada anteriormente. 37 Esta regla arma que para una variable con una distribución de frecuencias con forma de campana, el intervalo µ ± σ = [µ − σ ≤ X ≤ µ + σ] contiene aproximadamente el 68 % de las observaciones µ ± 2σ = [µ − 2σ ≤ X ≤ µ + 2σ] contiene aproximadamente el 95 % de las observaciones µ ± 3σ = [µ − 3σ ≤ X ≤ µ + 3σ] contiene aproximadamente el 99 % de las observaciones ¾Como se modica el enunciado de la Regla empírica si estandarizamos los valores extremos de cada uno de los intervalos? Para el primer intervalo, el valor estandarizado del extremos inferior es: µ−σ−µ = −1 σ z1 = Para el mismo intervalo el valor estandarizado del extremos superior es: z2 = µ+σ−µ =1 σ Utilizando los valores estandarizados de los extremos del intervalo, el primer punto de la Regla empírica arma entonces que el intervalo [−1 ≤ Z ≤ 1] contiene aproximadamente el 68 % de las observaciones de la variable. Si procedemos de la misma manera para el segundo intervalo obtendremos los siguientes resultados: El valor estandarizado del extremos inferior es: z1 = µ − 2σ − µ = −2 σ El valor estandarizado del extremos superior es: z2 = µ + 2σ − µ =2 σ Utilizando los valores estandarizados de la variable X , el segundo punto de la Regla empírica armaría entonces que el intervalo [−2 ≤ Z ≤ 2] contiene aproximadamente el 95 % de las observaciones de la variable. Procediendo de la misma manera con los extremos inferior y superior del tercer intervalo se llega a la conclusión que el intervalo [−3 ≤ Z ≤ 3] contiene aproximadamente el 99 % de las observaciones de la variable. Estos resultados se resumen en la Tabla (1.15). Intervalo 1 2 3 Extremos no estandarizados Extremos estandarizados [µ − σ < X < µ + σ] [µ − 2σ < X < µ + 2σ] [µ − 3σ < X < µ + 3σ] [−1 < Z < 1] [−2 < Z < 2] [−3 < Z < 3] Tabla 1.15: Regla empírica. Extremos estandarizados La Figura (1.7) se muestra la relación entre los extremos no estandarizados y estandarizados de una variable cuantitativa X la cual cumple con las condiciones de la Regla empírica. El valor z de una observación es una valiosa herramienta para determinar si un valor de una variable puede clasicarse como atípico. Recordemos que la Regla empírica expresa en uno de su puntos que aproximadamente el 95 % de las observaciones se encuentran comprendidas en el intervalo [µ−2(σ) ≤ X ≤ µ+2(σ)]. Analicemos detenidamente este enunciado con la ayuda de la Figura (1.7). 38 Figura 1.7: Regla empírica. Extremos estandarizados A partir de la gura puede apreciarse que por debajo del valor µ − 2(σ) solo se encuentra el 2,35 % de las observaciones de la variable y que por encima del valor µ + 2(σ) el 2,35 % restante. Es tan bajo el porcentaje de observaciones que son menores a µ − 2σ o mayores que µ + 2σ que, de registrarse un valor en esa región, deberá analizarse como un posible valor extremo. También puede tratarse de un valor mal registrado. Recordemos que los valores extremos pueden inuir en el cálculo de algunas medidas descriptivas numéricas como la media, el rango, la varianza etc. ¾Como se procede si se encuentra una observación que pertenece al 2,35 % superior o inferior del conjunto de observaciones? Si se trata de un valor mal registrado se lo corrige. Si se trata de un valor bien registrado puede optarse por: Eliminar directamente la observación y realizar el análisis previsto No eliminarla. Esta observación podría estar reejando alguna característica particular de la variable analizada Si en lugar de realizar este análisis con los valores originales de la variable lo hacemos con sus valores estandarizados, se puede considerar como un posible valor extremo toda aquella observación tal que zi < −2 o bien zi > 2. Ejemplo 1.17 A medida que los consumidores tienen más cuidado con los alimentos que consumen, los procesadores de alimentos tratan de ser competitivos en evitar cantidades excesivas de grasas, colesterol y sodio en los alimentos que procesan. Los datos siguientes muestran las cantidades de sodio, por rebanada, para cada una de 8 marcas líderes de queso regular venidas en cierto país: 340, 300, 520, 340, 320, 290, 260 y 330 miligramos. A partir de estos datos determine si exististe algún posible valor atípico. Solución De acuerdo con los datos del ejemplo, el valor promedio del contenido de sodio en las rebanadas de queso es: x̄ = 340 + 300 + · · · + 330 = 337, 50 miligramos 8 En la Tabla (1.16) se presentan los cálculos auxiliares necesarios para calcula s2 . Por lo tanto s2 = n P8 2 i=1 xi − P n(n − 1) 8 i=1 xi 2 = 8 × 954.600 − 2.7002 646.800 = = 6.192, 86 8×7 56 39 Observación 1 2 3 4 5 6 7 8 Total x2i xi 340 300 520 340 320 290 260 P 330 xi = 2.700 115.600 90.00 270.400 115.600 102.400 84.100 67.600 108.900 P x2i = 954.600 Tabla 1.16: Cálculos auxiliares para calcular s2 . Ejemplo 1.17 En la Tabla (1.17) se presentan los valores originales de la variable y sus respectivos valores estandarizados. Observación 1 2 3 4 5 6 7 8 xi 340 300 520 340 320 290 260 330 zi -0,031 -0,476 2,319 0,031 -0,222 -0,603 -0,984 -0,095 Tabla 1.17: Valores estandarizados De las 8 observaciones, x3 = 520 miligramos parece ser signicativamente diferentes a las demás. Su valor estandarizado es: z3 = 520 − 337, 5 = 2, 32 78, 69 Como z3 > 2 esta observación puede resultar un valor atípico con el criterio del 95 %. 1.6. Medidas de asimetría o sesgo Como hemos visto anteriormente, la Regla empírica exige que la distribución de frecuencias de la variable estudiada debe ser simétrica y con forma de campana. Si embargo, existen variables cuyas distribuciones de frecuencias no son simétrica y que además presentan algún tipo de sesgo a asimetría. En la Figura (1.8) se muestra las tres formas características de distribuciones de frecuencias para variables cuantitativas. De la distribución ubicada en el extremo izquierdo de la Figura (1.8) se dice que tiene sesgo negativo o que es sesgada a izquierda. Note que en este tipo de distribuciones la media, la moda y la mediana guardan la siguiente relación: µ < Me < Mo De la distribución ubicada en el centro de la gura se dice que es simétrica, insesgada o que no tiene sesgo. En este tipo de distribuciones la media, la mediana y la moda son iguales, es decir, µ = Me = M0 Por último, de la distribución ubicada a la derecha de la Figura (1.8) se dice que sesgada a derecha o que tiene sesgo positivo. En este tipo de distribuciones la moda es menor que la mediana y esta a su vez menor que la media. Es decir, µ > Me > Mo 40 Figura 1.8: Asimetría o sesgo de variables cuantitativas Existen varias medidas descriptivas numéricas que son utilizadas para decidir el tipo de sesgo que pueda tener la distribución de frecuencia de una variable cuantitativa. Una de las más utilizadas es el coeciente de asimetría de Pearson que se dene de la siguiente manera: Denición 1.13 Para una variable cuantitativa de media µ, mediana Me y moda Mo el coeciente de asimetría poblacional de Pearson se dene de la siguiente manera: CA = 3(µ − Me ) σ (1.21) siendo σ la desviación estándar poblacional. Por lo tanto: Si la distribución es sesgada a izquierda µ < Me por lo tanto el coeciente de asimetría es negativo Si la distribución es simétrica µ = Me y el coeciente de asimetría será igual a cero Si la distribución es sesgada a derecha µ > Me por lo tanto el coeciente de asimetría es positivo Observación 1.1 Si bien es cierto hemos denido el coeciente de asimetría de Pearson utilizando la media, moda y mediana poblacionales, también se lo puede denir a partir de datos de una muestra. En este caso, el coeciente de asimetría se dene de la siguiente manera: CA = 3(x̄ − Me ) s (1.22) El coeciente de asimetría de Pearson es un número real comprendido en el intervalo real [−3, 3], es decir −3 ≤ CA ≤ 3. Cuanto más cerca sea su valor a algunos de los extremos del intervalo, más asimétrica (negativa o positiva) será la distribución de frecuencia de la variable. Por ejemplo, suponga que un conjunto de observaciones pertenecientes a una muestra tiene una media x̄ = 2.436, una mediana Me = 2.459 y una desviación estándar s = 76, 7. Por lo tanto CA = 3(2.436 − 2.456) = −0, 91 76, 7 Luego, la distribución es levemente sesgada a izquierda. 41 1.7. Distribuciones bidimensionales En general, cuando se seleccionan unidades observacionales para algún estudio de interés, se registran valores de varias variables con el objetivo de lograr una descripción más completa de las unidades. Suponga que un analista de mercados selecciona un grupo de familias de cierta ciudad con el n de realizar algún estudio socio-económico de interés para alguna empresa. Lo más probable es que no solo se interese por los ingresos monetarios de las familias seleccionadas sino que además es muy posible que registre los valores de otras variables como ser el número de integrantes por familia, cuantos hijos tiene las familias en la universidad, cuantos adultos mayores residen en la casa, etc. Existen muchas técnicas estadísticas diseñadas para el análisis de múltiples variables sobre cada unidad observacional. En esta sección veremos una de las herramientas más utilizadas para describir unidades observacionales en las cuales se registran los valores de dos variables. Se trata de tablas de doble entrada. Cuando las dos variables son cualitativas reciben el nombre de tablas de contingencia . Cuando las dos variables son cuantitativas reciben el nombre de distribución conjunta. 1.7.1. Tabla para variables discretas. Distribución conjunta En el caso que se analicen dos variables cuantitativas se llamara tabla de distribución conjunta a la tabla que muestra los valores observado de las variables y las frecuencias (absolutas o relativas) asociadas a cada par. Ejemplo 1.18 Suponga que se recogieron datos sobre la evolución del stock de 40 empresas que si bien es cierto llevan un control de inventario, tuvieron ruptura de stock en un período determinado. Las empresas consideradas tienen características similares. En la Tabla (1.18) se presentan las frecuencias absolutas para cada combinación de los valores de las variables. Ruptura 1 2 3 Total Producción en unidades 12.000 13.000 15.000 5 4 3 6 5 2 8 7 0 19 16 5 Total 12 13 15 40 Tabla 1.18: Datos para el Ejemplo 1.18 Analizando la información de la tabla precedente puede verse que: Hay 5 empresas que producen 12.000 unidades y que han tenido una ruptura de stock Ninguna empresa que produzca 15.000 unidades ha tenido 3 rupturas Hay 13 empresas que han tenido 2 rupturas independientemente de las cantidades que producen Hay 5 empresas que producen 15.000 unidades independientemente del número de ruptura que hayan tenido etc. Si se divide cada una de las frecuencias absolutas de las celdas por 40 (total de empresas analizadas), se obtienen las frecuencias relativas respecto de gran total. Para los datos del ejemplo analizado las frecuencias relativas respecto del gran total se muestran el la Tabla (1.19) Algunas de las lecturas que pueden hacerse a partir de la Tabla (1.19) son las siguientes: 42 Rupturas 1 2 3 Total Producción en unidades 12.000 13.000 15.000 0,125 0,10 0,075 0,15 0,125 0,05 0,20 0,175 0 0,475 0,40 0,125 Total 0,30 0,325 0,375 1,00 Tabla 1.19: Frecuencias relativas respectp del gran total El 12,5 por ciento de las empresas producen 13.000 unidades y han tenido 2 rupturas de stock El 37,5 por ciento de las empresas han tenido 3 rupturas independientemente de las cantidades que producen El 40 por ciento de las empresas produjeron 13.000 unidades independientemente de las rupturas que hayan tenido etc. Los totales que aparecen en los márgenes de una tabla de contingencia reciben el nombre de totales marginales. Si cada una de las las se divide por el total de su la se obtienen las frecuencias relativas respecto de los totales las. La Tabla (1.20) muestra los resultados para nuestro ejemplo. Total 1 2 3 Total Producción en unidades 12.000 13.000 15.000 0,42 0,33 0,25 0,42 0,39 0,15 0,53 0,47 0 0,475 0,40 0,125 Total 1 1 1 1 Tabla 1.20: Frecuencias relativas respecto de los totales las Algunas lecturas que pueden hacerse a partir de la información suministrada por la Tabla (1.20) son las siguientes: De las empresas que han tenido 3 rupturas de stock ninguna produce 15.000 unidades De as empresas que han tenido una ruptura el 33 por ciento produce 13.000 unidades etc. Finalmente, si cada una de las columnas de la tabla se divide por el total de la columna se obtienen las frecuencias relativas respecto de los totales columnas. En la Tabla (1.21) se muestran los resultados obtenidos para el ejemplo en desarrollo. Rupturas 1 2 3 Total Producción en unidades 12.000 13.000 15.000 0,26 0,25 0,60 0,32 0,31 0,40 0,42 0,44 0 1 1 1 Total 0,300 0,325 0,375 1 Tabla 1.21: Frecuencias relativas respecto de los totales columnas Algunas lecturas que pueden hacerse a partir de la información suministrada por la Tabla (1.21) son las siguientes: 43 De as empresas que producen 13.000 unidades, el 31 por ciento tuvo dos veces ruptura de stock De las empresas que producen 15.000 unidades, el mayor porcentaje de empresas tuvo una sola ruptura de stock etc. 1.7.2. Tablas para variables cualitativas Si el análisis es de dos variables categóricas en forma conjunta, la presentación se hace por medio de una tabla de contingencia. En el cuerpo de la tabla se anotan las frecuencias conjuntas y en los márgenes las frecuencias marginales que no son otra cosa más que las observaciones de una categoría en particular independientemente de la otra variable. Por ejemplo, en la Tabla (1.22) se presenta una muestra de 40 casas de la ciudad en las cuales se han registrado el tipo de vivienda (A, B y C) y la capacidad de las cocheras de cada tipo de vivienda. Vivienda A B C Total Tipo de cochera Ninguna Un auto Dos autos 2 4 4 2 12 3 5 5 3 9 21 10 Total 10 17 13 30 Tabla 1.22: Tipo de casa vs tipo de cochera Las tablas de contingencia tienen el mismo tratamiento estadístico que las tablas de distribución conjunta. Se deja como actividad propuesta el análisis e interpretación de la información registrada en la Tabla (1.22) 1.8. Medidas de asociación. Variables cuantitativas Las secciones precelentes se dedicaron al estudio de algunas de las herramientas y técnicas más utilizadas en la Estadística Descriptiva. Se vio como seleccionar una muestra aleatoria simple, cómo organizar los datos recogidos en una tabla de frecuencias, se emplearon grácos descriptivos para analizar la información contenida en las tablas de frecuencias y se denieron varias medidas descriptivas numéricas con el n de describir cuantitativamente las principales características de las observaciones. En esta sección damos un paso más en la descripción de los datos estudiando la relación entre dos variables cuantitativas. Algunos de los problemas que pueden abordarse con las técnicas que estudiaremos en esta sección son los siguientes: ¾Existe alguna relación entre los años de antigüedad de los empleados en una empresa y sus ingresos? ¾Existe alguna relación entre los gastos en publicidad y las ventas posteriores en cierta empresa? ¾Cómo se relacionan las notas de un estudiante en el nivel medio con sus notas en la universidad? 44 En esta sección deniremos tres herramientas estadísticas utilizadas para estudiar la forma y la intensidad de la relación entre variables cuantitativas. Ellas son: Los diagramas de dispersión La covarianza El coeciente de correlación lineal de Pearson 1.8.1. Diagrama de dispersión Supongamos que el administrador de un comercio está interesado en investigar la posible relación entre la cantidad de comerciales por TV que aparecen los nes de semana en un canal local y las ventas del comercio durante la semana posterior a la emisión de los comerciales. En la Tabla (1.23) se presenta los datos de un muestra de 10 semanas donde las ventas se expresan en miles de pesos. Semana 1 2 3 4 5 6 7 8 9 10 Cantidad de comerciales X 2 5 1 3 4 1 5 3 4 2 Volumen de ventas Y 50 57 41 54 54 38 63 48 59 46 Tabla 1.23: Número de comerciales vs ventas posteriores Aún cuando en la Tabla (1.23) se registran pocas observaciones, es muy difícil ver si existe alguna relación entre las variables X e Y . Podemos utilizar un diagrama de dispersión para investigar la posible vinculación entre los valores de estas dos variables. Un diagrama de dispersión consta de un par de ejes perpendiculares entre si. Vamos a anotar los valores de la variable X (número de comerciales) en el eje horizontal. El eje vertical registramos los valores de la variable Y (volumen de ventas). Los valores de estas variables para la primera semana son x = 2 (dos comerciales) e y = 50 (ventas por 50.000 pesos). En el diagrama de dispersión se graca un punto con esas coordenadas. En la segunda semana se tienen los siguientes valores para las variables: x = 5 (cinco comerciales) e y = 57 (ventas por 57.000 pesos). Se graca otro punto con estas coordenadas. Con el resto de los valores de las variables X e Y de la Tabla (1.23) se procede de la misma manera obteniéndose el diagrama de dispersión que se muestra en la Figura (1.9). Como puede observarse en la Figura (1.9) que a mediada que los valores de la variable X aumentan, los valares de la variable Y también aumentan. En este caso se dice que existe una relación positiva entre las variables números de comerciales y ventas posteriores. La relación no es perfecta porque no existe una función de fórmula conocida cuyo gráco pase exactamente por todos los puntos del diagrama de dispersión. Sin embargo el comportamiento general de los puntos sugieren una tendencia también lineal. En la Figura (1.10) se muestra una relación negativa donde Y tiende a disminuir a medida que X aumenta. Tampoco aquí la relación es perfecta pero el comportamiento general de los datos sugiere una tendencia lineal. 45 Figura 1.9: Diagrama de dispersión comerciales vs ventas La Figura (1.11) siguiere que no existe una relación entre las variables X e Y . En este caso se dice que las variables son independientes Si bien es cierto los diagramas de dispersión son de gran ayuda para estudiar las posibles relaciones entre dos variables cuantitativas, siempre es conveniente acompañarlos de alguna medida numérica que nos ayude a comprender mejor la naturaleza de la relación y que evite en lo posible la interpretación subjetiva de un gráco. A continuación presentamos la covarianza como una medida descriptiva numérica de asociación lineal entre dos variables cuantitativas. 1.8.2. La covarianza Para una muestra de n pares ordenados (x1 , y1 ); (x2 , y2 ); ...; (xn , yn ) de valores de las variables X e Y la covarianza muestral se dene de la siguiente manera: Pn i=1 (xi − x̄)(yi − ȳ) n−1 (1.23) (x1 − x̄)(y1 − ȳ) + (x2 − x̄)(y2 − ȳ) + · · · + (xn − x̄)(yn − ȳ) n−1 (1.24) sxy = O sea: sxy = En la fórmula que dene la covarianza, cada valor xi está apareado con un valor yi . Además, n es el tamaño de la muestra. Se calcula a continuación la covarianza entre las variables X e Y del ejemplo que estamos analizando. 30 Puede vericarse sin dicultad que x̄ = 10 = 3 y que ȳ = 510 10 = 51. Por lo tanto sxy = (2 − 3)(50 − 21) + (5 − 3)(57 − 54) + · · · + (2 − 3)(46 − 51) 99 = = 11 10 − 1 9 La fórmula para calcular la covarianza de una población de tamaño N es la siguiente: PN σxy = i=1 (xi − µx )(yi − µy ) N 46 (1.25) Figura 1.10: Relación negativa entre las variables X e Y donde µx es la media de la variable X y µy es la media de la variable Y . La covarianza poblacional en general se desconoce y si es necesario, se la estima por medio de la covarianza muestra sxy . Para ver como se interpreta este valor de la covarianza analizamos la Figura (1.12). Se trata del mismo diagrama de dispersión de la Figura (1.9) al cual se la ha agregado una recta vertical trazada x̄ = 3 y una recta horizontal trazada por ȳ = 51. Figura 1.12: Interpretación de la covarianza Al proceder de esta manera, el plano en el cual se encuentran los puntos del diagrama de dispersión queda dividido en 4 partes o cuadrantes identicados como cuadrantes I, II, II y IV. Los puntos del diagrama de dispersión ubicados en el primer cuadrante tienen la particularidad de que xi > x̄ e yi > ȳ . Por lo tanto, para estos puntos (xi − x̄)(yi − ȳ) > 0 Los puntos del diagrama de dispersión ubicados en el tercer cuadrante tienen la propiedad de que xi < x̄ e yi < ȳ . Por lo tanto, también para estos puntos (xi − x̄)(yi − ȳ) > 0 47 Figura 1.11: Variables independientes Los puntos ubicados en el segundo cuadrante tiene la propiedad de que xi < x̄ e yi > ȳ . Por lo tanto, para estos puntos (xi − x̄)(yi − ȳ) < 0 Finalmente, los puntos ubicados en el cuarto cuadrante tiene la propiedad de que xi > x̄ e yi < ȳ . Por lo tanto, para estos puntos también (xi − x̄)(yi − ȳ) < 0 Entonces, si el valor de sxy es positivo, esto implica que los puntos que tuvieron mayor peso para determinar el signo de la covarianza están ubicado en el primer y tercer cuadrante. Es decir, al aumentar los valores de X también aumentan los valores de Y y el diagrama de dispersión debe tener una conguración como la de la Figura (1.9). Se dice entonces que las variables tienen una relación positiva. Si el signo de de sxy es negativo, los puntos de mayor inuencia en la determinación del signo de la covarianza estarán en el segundo y cuarto cuadrante. El diagrama de dispersión tendrá una conguración como el de la gura (1.10) (a), Es decir, a medida que aumentan los valores de X disminuyen los de Y . En este caso se dice que entre las variables hay una relacinnegativa. Por ultimo, si los puntos del diagrama de dispersión se distribuyen más o menos de manera uniforme en los cuatro cuadrantes, los valores de los productos (xi − x̄)(yi − ȳ) con distintos signos se compensarán y el valor de sxy será cercano a cero, indicando que no existe una asociación lineal ente las variables X e Y . Como en nuestro ejemplo el valor de la covarianza sxy = 11, esto indica que existe una relación positiva entre las variables X e Y . Un problema que surge con el uso de la covarianza como medida de la intensidad de la relación lineal entre dos variables, es que su valor depende de las unidades en las que se registran las variables. Además, valores extremos pueden hacer que aumente articialmente. Para evitar estas y otras dicultades se dene el coeciente de correlación lineal de Pearson medida descriptiva numéricas diseñada para cuanticar la intensidad de la relación lineal entre dos variables cuantitativas. 1.8.3. Coeciente de correlación lineal de Pearson Denición 1.14 Para los datos de una muestra de pares (xi , yi ) de los valores de las variables cuantitativas X e Y el coeciente de correlación lineal de Pearson se dene de la siguiente manera: rxy = sxy sx sy 48 (1.26) donde sxy es la covarianza de las variables X e Y sx y sy son las desviaciones estándar muestrales de las variables X e Y respectivamente Calculemos el coeciente de correlación lineal para los datos del ejemplo que estamos analizando. Para la variable X : s2x = Por lo tanto sx = q P10 i=1 (xi − 3) 2 (2 − 3)2 + (5 − 3)2 + · · · + (2 − 3)2 20 = 10 − 1 9 = 10 − 1 20 9 = 1, 4907 Para la variable Y : s2y = Por lo tanto sy = P10 2 i=1 (yi − 51) 10 − 1 q = (50 − 51)2 + (57 − 51)2 + · · · (46 − 51)2 566 = 10 − 1 9 566 9 = 7, 9303 Luego rxy = sxy 11 = 0, 93 = sx sy 1, 4907 × 7, 9303 Una forma alternativa de calcular el coeciente de correlación lineal de Pearson es mediante la Fórmula (1.27) que puede derivarse de la Fórmula (1.26) mediante algunas transformaciones algebraicas. Pn i=1 xi yi − rxy = r Pn 2 i=1 xi − Pn ( i=1 xi )( Pn r n Pn 2 Pn ( i=1 xi ) i=1 yi 2 i=1 yi − n ) ( Pn i=1 yi ) 2 (1.27) n A manera de ejemplo calculamos rxy utilizando la Fórmula (1.28). Los cálculos auxiliares necesarios se realizan en la Tabla (1.24). Semana 1 2 3 4 5 6 7 8 9 10 Total x 2 5 1 3 4 1 5 3 4 2 30 y 50 57 41 54 54 38 63 48 59 46 510 xy 100 285 41 162 216 38 315 144 236 92 1.629 x2 4 25 1 9 16 1 25 9 16 4 110 y2 2.500 3.249 1.681 2.916 2.916 1.444 3.969 2.304 3.481 2.116 26.576 Tabla 1.24: Cálculos auxiliares para determinar rxy Por lo tanto 1.629 − 30×510 99 q 10 =√ √ rxy = q = 0, 93 2 2 30 20 566 110 − 100 26.576 − 510 10 49 La expresión para calcular el coeciente de correlación poblacional es la siguiente ρxy = σxy σx σy (1.28) donde ρxy es el coeciente de correlación lineal de Pearson poblacional σxy es la covarianza poblacional σx y σy las desviaciones estándar poblacionales de las variables X e Y respectivamente El coeciente de correlación poblacional generalmente es desconocido y de ser necesario se lo estima por medio del muestral rxy . Una vez calculado el coeciente de correlación de Pearson, hay que interpretar su valor. Para ello analizamos la siguiente situación. Consideremos las variables X e Y cuyos valores hipotéticos se muestran en la Tabla (1.25). X Y 1 2 3 10 30 50 Tabla 1.25: Valores de las variables X e Y En la Figura (1.13) se muestra el diagrama de dispersión correspondiente a los datos de la Tabla (1.25). Figura 1.13: Interpretación del coeciente de correlación rxy La recta que se trazó y que pasa por cada uno de los tres puntos indica que hay una relación lineal perfecta entre los valores de las variables X e Y . Realizando los cálculos correspondientes se obtiene el siguiente valor del coeciente de correlación lineal para los datos de las variables X e Y : rxy = p 220 − 6×90 p 3 =1 14 − 62 /3 3.500 − 902 /3 50 Como puede apreciarse, el valor del coeciente de correlación muestral para este conjunto de datos particular es igual a 1. En general, si todos los puntos de un conjunto de datos están alineados en una línea recta con pendiente positiva, el valor del coeciente de correlación es +1. Esto es, un coeciente de correlación muestral igual +1 corresponde a una relación lineal positiva perfecta entre las variables X e Y . Por otro lado, si los puntos de un conjunto de datos están alineados en una recta de pendiente negativa, el valor del coeciente de correlación muestral será igual a −1. Es decir, un coeciente de correlación muestral igual a −1 indica una relación lineal negativa perfecta entre las variables X e Y . Supongamos ahora que, para cierto conjunto de datos, hay una relación lineal positiva entre X e Y pero que esta relación no es perfecta. El valor de rxy será menor que uno, lo que implica que los puntos del diagrama de dispersión no están perfectamente alineados. A medida que los puntos se desvían más y más de una relación lineal positiva perfecta, el valor del coeciente de correlación rxy se hace más y más cercano a cero. Un valor de rxy igual a cero indica que no hay relación lineal entre las variables. Los valores del coeciente de correlación lineal cercanos a cero señalan una relación lineal débil. En general −1 ≤ rxy ≤ 1. En la Figura (1.14) se presentan los puntos del diagrama de dispersión de las variables cantidad de comerciales y volumen de ventas y la recta que mejor se ajusta a los puntos del diagrama. Figura 1.14: Recta de mejor ajuste entre el número de comerciales y ventas posteriores Puede verse que si bien es cierto los puntos del diagrama de dispersión no están perfectamente alineados, una recta de pendiente positiva puede utilizarse para describir aproximadamente la relación entre las variables. Más adelante veremos como encontrar la ecuación de esta recta. Estamos en condiciones de enunciar el siguiente resultado: Si las variables X e Y son independientes, entonces rxy = 0 . Sin embargo, el enunciado recíproco no es siempre verdadero pues puede ser rxy = 0 y aun así las variables no ser independientes Recuerde que el coeciente de correlación lineal de Pearson mide la fuerza de la relación lineal entre dos variables. Las variables pueden estar relacionadas de manera no lineal y en ese caso rxy = 0 no porque no estén relacionadas sino porque la relación no es lineal. 51