Probabilidad y Estadística (I.I.) Tema 1 Tema 1 ESTADÍSTICA DESCRIPTIVA Cuando coloquialmente se habla de Estadística, se suele pensar en una relación de datos numéricos presentada de forma ordenada y sistemática. Esta idea es la consecuencia del concepto popular que existe sobre el término y que cada vez está más extendido debido a la influencia de nuestro entorno, ya que hoy día es casi imposible que cualquier medio de difusión, periódico, radio, televisión, etc, no nos aborde diariamente con cualquier tipo de información estadística sobre accidentes de tráfico, índices de crecimiento de población, turismo, tendencias políticas, etc. Sólo cuando nos adentramos en un mundo más específico como es el campo de la investigación de las Ciencias Sociales: Medicina, Biología, Psicología, ... empezamos a percibir que la Estadística no sólo es algo más, sino que se convierte en la única herramienta que, hoy por hoy, permite dar luz y obtener resultados, y por tanto beneficios, en cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad intrínseca, no puedan ser abordadas desde la perspectiva de las leyes determistas. La ESTADÍSTICA es la ciencia que se ocupa de la ordenación y análisis de datos procedentes de muestras y de la realización de inferencias sobre las poblaciones de las que éstas proceden. Generalmente se pueden distinguir dos fases en la realización de cualquier experimento o estudio científico. Una primera, que consiste en la observación y análisis de los hechos que acontecen (recogida de información, colecciones de datos) y otra segunda, de interpretación y obtención de conclusiones. La estadística descriptiva es la primera herramienta para el manejo de los datos y proporciona métodos para resumirlos y organizarlos. Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos. Es la 1ª fase de toda investigación. Implica realizar inferencias acerca de la población a partir de los datos muestrales y requiere cálculo de probabilidades. 1.- Conceptos Básicos. Tipos de variables Veamos los conceptos generales necesarios para estructurar de alguna forma la información. Población: Es el conjunto de referencia sobre el que van a recaer las observaciones, todos los elementos que porten información sobre el fenómeno que se estudia (por ejemplo, si 1 Probabilidad y Estadística (I.I.) Tema 1 estudiamos el precio de la vivienda en una ciudad, la población será el total de las viviendas de dicha ciudad). Generalmente este conjunto viene definido por comprensión, es decir, citando la propiedad que lo caracteriza (habitantes de Telde con edades comprendidas entre 3 y 7 años inclusive). Las poblaciones pueden ser finitas o infinitas, dependiendo del número de elementos que las forman. Individuo: Es cada uno de los elementos que componen la población estadística en estudio. Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo. Es un ser observable que no tiene por qué ser una persona, puede ser un objeto, un ser vivo, etc… Muestra: Es un subconjunto de individuos que seleccionamos de la población. Se suelen tomar muestras cuando es muy difícil o costosa la observación de todos los elementos de la población. El número de elementos de la misma se llama tamaño de la muestra. Se deben escoger los individuos de la muestra de manera que sean representativos de la población de la que proceden, es decir, que conserven las propiedades de aquella. Así, si se estudia el precio de la vivienda de una ciudad, lo normal será no recoger información sobre todas las viviendas de la ciudad (sería una labor muy compleja), sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente representativo. Caracteres o variables estadísticas: El carácter es cualquier cualidad o propiedad inherente al individuo. Por ejemplo, si el individuo observado es un libro, podremos describirlo mediante los caracteres peso, tamaño, número de hojas, color de las pastas, etc… A cada una de estas características la llamamos variable estadística y la representamos normalmente por las letras mayúsculas X, Y, Z,… Hay caracteres que son medibles, esto es, se pueden cuantificar, como por ejemplo la edad, el peso y la estatura de las personas, el precio de un producto, los ingresos anuales, etc… Pero hay otros que no se pueden cuantificar como el color de los ojos, el partido votado en unas elecciones, el estado civil, el sexo, la nacionalidad, etc… A los primeros se les llama caracteres cuantitativos (y a las variables que los representan variables cuantitativas) y a los segundos caracteres cualitativos o categóricos (y variables cualitativas a las variables que los representan). Una clasificación que podemos hacer de las variables estadísticas es: Variables cualitativas: cuando las modalidades posibles son de tipo nominal. Por ejemplo, el grupo sanguíneo tiene por modalidades A, B, AB, O ; o bien una variable A de color: Variables cuasicuantitativas: son las que, aunque sus modalidades son de tipo nominal, es posible establecer un orden entre ellas. Por ejemplo, si estudiamos la llegada a la meta de un corredor en una competición de 20 participantes, su clasificación C es tal que: Otro ejemplo de variable cuasicuantitativa es el nivel de dolor, D, que sufre un paciente ante un tratamiento médico: 2 Probabilidad y Estadística (I.I.) Tema 1 Variables cuantitativas: son las que tienen por modalidades cantidades numéricas con las que podemos hacer operaciones aritméticas. Dentro de este tipo de variables podemos distinguir dos grupos: Discretas: Toman valores aislados y no pueden tomar ningún valor entre dos consecutivos fijados, sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos (puede ser 1, 2, 3...., etc, pero nunca podrá ser 3,45); nº de monedas que una persona lleva en el bolsillo (0, 1, 2, …). Es obvio que cada valor de la variable es un número natural X ∈ N. Continuas: Pueden tomar cualquier valor real dentro de un intervalo real. Siempre pueden tomar valores entre dos consecutivos, por muy próximos que los fijemos. Por ejemplo, la velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h; altura de las personas, medida del tiempo,...etc. En este caso los valores de las variables son números reales X ∈ ℜ Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece como discreta. Este es el caso en que hay limitaciones en lo que concierne a la precisión del aparato de medida de esa variable, v.g. si medimos la altura en metros de personas con una regla que ofrece dos decimales de precisión, podemos obtener En realidad lo que ocurre es que con cada una de esas mediciones expresamos que el . Por tanto cada verdadero valor de la misma se encuentra en un intervalo de radio una de las observaciones de X representa más bien un intervalo que un valor concreto. Modalidades o valores de las variables: Es cada uno de los posibles valores que puede tomar una carácter y se representan con las letras minúsculas x1, x2, …, xn. Por ejemplo, el carácter o variable estadística cualitativa estado civil puede tomar los valores o modalidades: casado, soltero o viudo. El carácter o variable estadística cuantitativa edad puede tomar las modalidades o valores: 10 años, 12 años, 15 años, etc… Una variable estadística puede tomar distintos valores y cada uno de ellos puede aparecer repetido más de una vez en la muestra que se estudia de la población. A veces el conjunto de modalidades o valores que puede tomar una variable son muy numerosas (v.g. cuando una variable es continua) y conviene reducir su número, agrupándolas en una cantidad inferior de clases. Estas clases deben ser construidas de modo que sean exhaustivas e incompatibles, es decir, cada modalidad debe pertenecer a una y sólo una de las clases. Las variables estadísticas también se pueden clasificar en: Variables unidimensionales: sólo recogen información sobre una característica (por ejemplo: edad de los alumnos de una clase). 3 Probabilidad y Estadística (I.I.) Tema 1 Variables bidimensionales: recogen, a la vez y sobre el mismo individuo, información sobre dos características de la población, que pueden o no estar relacionadas, (por ejemplo: edad y altura de los alumnos de una clase). Variables pluridimensionales: recogen, a la vez y sobre el mismo individuo, información sobre tres o más características de la población, que pueden o no estar relacionadas (por ejemplo: edad, altura y peso de los alumnos de una clase). 2.- Organización de los datos. Tablas de frecuencias. Antes de trabajar con cualquier conjunto de datos obtenidos de un experimento debemos organizarlos. La tabla de frecuencias es la representación estructurada, en forma de tabla, de toda la información que se ha recogido sobre la variable que se estudia. Variable Frecuencias absolutas Frecuencias relativas (Valor) Simple Acumulada Simple x1 n1 N1= n1 f1 = n1 / N F1= f1 x2 n2 N2= n1 + n2 f2 = n2 / N F2= f1 + f2 ... ... ... ... ... xn-1 nn-1 Nn-1= n1 + n2 + fn-1 = nn-1 / N ...+ nn-1 Fn-1= f1 + f2 +… + f n-1 xn nn Nn = Σn = N Fn = Σf =1 fn = nn / N Acumulada en la cual utilizamos la siguiente notación: - N = tamaño de la muestra = número total de observaciones - xi = cada uno de los distintos valores discretos de la variable. Si las modalidades o valores posibles de la variable en estudio son muy numerosas y están agrupadas en clases c1, c2, c3, … cn, los valores xi, i = 1, …, n corresponden a las marcas de cada una de las clases (punto medio del intervalo de clase). - ni = frecuencia absoluta de xi = número de observaciones en la muestra que toman el valor xi - fi = frecuencia relativa de xi = proporción de observaciones en la muestra que toman el valor xi . Las siguientes frecuencias acumuladas se calculan sobre variables cuantitativas o cuasi cuantitativas. No tienen sentido para variables cualitativas. Para su cálculo se requiere que los valores estén ordenados en orden ascendente. - Ni = frecuencia absoluta acumulada de xi = número de observaciones en la muestra que toman valor menor o igual que xi - Fi = frecuencia relativa acumulada de xi = proporción de observaciones en la muestra que toman valor menor o igual que xi Observar que se cumplen las siguientes igualdades: Veamos un ejemplo: Medimos la altura de los niños de una clase y obtenemos los siguientes resultados (cm): 4 Probabilidad y Estadística (I.I.) Tema 1 Alumno Estatura Alumno Estatura Alumno Estatura Alumno 1 1,25 Alumno 11 1,23 Alumno 21 1,21 Alumno 2 1,28 Alumno 12 1,26 Alumno 22 1,29 Alumno 3 1,27 Alumno 13 1,30 Alumno 23 1,26 Alumno 4 1,21 Alumno 14 1,21 Alumno 24 1,22 Alumno 5 1,22 Alumno 15 1,28 Alumno 25 1,28 Alumno 6 1,29 Alumno 16 1,30 Alumno 26 1,27 Alumno 7 1,30 Alumno 17 1,22 Alumno 27 1,26 Alumno 8 1,24 Alumno 18 1,25 Alumno 28 1,23 Alumno 9 1,27 Alumno 19 1,20 Alumno 29 1,22 Alumno 10 1,29 Alumno 20 1,28 Alumno 30 1,21 Si presentamos esta información estructurada obtendríamos la siguiente tabla de frecuencias: Variable Frecuencias absolutas Frecuencias relativas (Valor) Simple Acumulada Simple Acumulada 1,20 1 1 3,3% 3,3% 1,21 4 5 13,3% 16,6% 1,22 4 9 13,3% 30,0% 1,23 2 11 6,6% 36,6% 1,24 1 12 3,3% 40,0% 1,25 2 14 6,6% 46,6% 1,26 3 17 10,0% 56,6% 1,27 3 20 10,0% 66,6% 1,28 4 24 13,3% 80,0% 1,29 3 27 10,0% 90,0% 1,30 3 30 10,0% 100,0% Si la variable que intentamos estudiar no es discreta (como en el ejemplo anterior), sino que es continua (puede tomar cualquier valor de la recta real), o bien, siendo discreta, los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces; entonces conviene agruparlos por intervalos, ya que de otra manera obtendríamos una tabla de frecuencia muy extensa que aportaría muy poco valor a efectos de síntesis. Veamos un ejemplo. Supongamos que medimos la estatura de los habitantes de una vivienda y obtenemos los siguientes resultados (cm): Habitante Estatura Habitante Estatura Habitante Estatura Habitante 1 1,15 Habitante 11 1,53 Habitante 21 1,21 Habitante 2 1,48 Habitante 12 1,16 Habitante 22 1,59 Habitante 3 1,57 Habitante 13 1,60 Habitante 23 1,86 5 Probabilidad y Estadística (I.I.) Tema 1 Habitante 4 1,71 Habitante 14 1,81 Habitante 24 1,52 Habitante 5 1,92 Habitante 15 1,98 Habitante 25 1,48 Habitante 6 1,39 Habitante 16 1,20 Habitante 26 1,37 Habitante 7 1,40 Habitante 17 1,42 Habitante 27 1,16 Habitante 8 1,64 Habitante 18 1,45 Habitante 28 1,73 Habitante 9 1,77 Habitante 19 1,20 Habitante 29 1,62 Habitante 10 1,49 Habitante 20 1,98 Habitante 30 1,01 Si presentáramos esta información en una tabla de frecuencia obtendríamos una tabla de 30 líneas (una para cada valor), cada uno de ellos con una frecuencia absoluta de 1 y con una frecuencia relativa del 3,3%. Esta tabla nos aportaría escasa información. En lugar de ello, preferimos agrupar los datos por intervalos, con lo que la información queda más resumida (se pierde, por tanto, algo de información), pero es más manejable e informativa: Estatura Frecuencias absolutas Frecuencias relativas Cm Simple Acumulada Simple Acumulada 1,01 - 1,10 1 1 3,3% 3,3% 1,11 - 1,20 3 4 10,0% 13,3% 1,21 - 1,30 3 7 10,0% 23,3% 1,31 - 1,40 2 9 6,6% 30,0% 1,41 - 1,50 6 15 20,0% 50,0% 1,51 - 1,60 4 19 13,3% 63,3% 1,61 - 1,70 3 22 10,0% 73,3% 1,71 - 1,80 3 25 10,0% 83,3% 1,81 - 1,90 2 27 6,6% 90,0% 1,91 - 2,00 3 30 10,0% 100,0% El número de tramos en los que se agrupa la información es una decisión que debe tomar el analista: la regla es que mientras más tramos se utilicen menos información se pierde, pero puede que menos representativa e informativa sea la tabla. Hemos de elegir un número de intervalos que equilibre estos dos aspectos y que en cada caso el investigador los acomodará a la forma y cantidad de información obtenida. A la diferencia entre el extremo superior e inferior del intervalo se le llama amplitud del intervalo y puede ser constante o variable. Al punto medio de cada intervalo se le llama marca de clase. Es el valor que representa la información que contiene el intervalo. Se entiende que cuando se hace una agrupación en intervalos de clase, se está interesado sólo en el número de observaciones que caen dentro del mismo y no en la distribución de éstos en su interior, que siempre se supone homogénea, de ahí la pérdida de información a que nos referíamos antes. La división de los intervalos se puede hacer de forma automática o atendiendo a la división “natural” del recorrido de la variable en estudio. Existen varias reglas automáticas para determinar el número de intervalos a usar en la construcción de una tabla. Los programas 6 Probabilidad y Estadística (I.I.) Tema 1 estadísticos de uso habitual, las usan a menudo en su configuración estándar, aunque también permiten que el usuario decida por su cuenta las características de los intervalos que desea usar. Una de las reglas más conocidas fue propuesta por Herbert Sturges y calcula el número k de intervalos mediante la expresión k = 1 + log2(n) = 1 + 3.322 * log(n) donde n es el tamaño de la muestra. Ejemplo: Tenemos las siguientes calificaciones obtenidas en un examen por 15 alumnos diferentes (evaluadas entre 1 y 7 puntos, se aprueba a partir de 4). 1.9, 2.3, 2.5, 3.2, 3.5, 3.7, 3.9, 4.1, 4.3, 4.9, 5.3, 5.5, 5.8, 6.5, 6.8. Al aplicar la Regla Sturges con n = 15, se obtiene un total de 5 intervalos. Su aplicación “automática” daría lugar a la siguiente tabla: Notas Nº de alumnos 1.8 – 2.8 3 2.8 – 3.8 3 3.8 – 4.8 3 4.8 – 5.8 4 5.8 – 6.8 2 TOTAL 15 Si, por otra parte, se analizan los datos según el punto de vista del usuario, resulta mejor construir esta otra tabla Notas Nº de alumnos 1.0 – 2.0 1 2.0 – 3.0 2 3.0 – 4.0 4 4.0 – 5.0 3 5.0 - 6 .0 3 6.0 - 7.0 2 TOTAL 15 7 Probabilidad y Estadística (I.I.) Tema 1 Esta segunda tabla se puede interpretar en forma mucho más útil, en particular, porque la nota cuatro tiene un sentido especial dentro del sistema de calificaciones, ya que es la menor nota para aprobar. En este caso el resumen estadístico permite determinar más fácilmente el número de aprobados y suspensos en un examen. 3.- Descripciones gráficas de los datos: Hemos visto que la tabla estadística resume los datos que disponemos de una población, de forma que ésta se puede analizar de una manera más sistemática y resumida. Para darnos cuenta de un sólo vistazo de las características de la población resulta aún más esclarecedor el uso de gráficos y diagramas, cuya construcción abordamos en esta sección. La representación gráfica de una distribución de frecuencias depende del tipo de datos que la constituya. Datos correspondientes a un carácter cualitativo La representación gráfica de este tipo de datos está basada en la proporcionalidad de las áreas a las frecuencias absolutas o relativas. Veremos dos tipos de representaciones: a. Diagrama de sectores (también llamados de tarta o de queso): Está representación gráfica consiste en dividir un círculo (360º) en tantos sectores circulares como modalidades presente el carácter cualitativo, asignando un ángulo central a cada sector circular proporcional a la frecuencia absoluta ni, ,o relativa fi, consiguiendo de esta manera un sector con área proporcional también a ni o fi . El arco de cada porción se calcula usando una regla de tres: N → 360º ⎫ 360 * ni ⎬ xi = ni → x i ⎭ N Si se comparan dos poblaciones de diferente tamaño es conveniente usar frecuencias relativas en la representación para no llevarse a engaños. Ejemplo: Así, los ángulos que corresponden a las cuatro modalidades de la tabla adjunta serán: Número de casos Ángulo(grados) Rehusaron cirugía 26 234° Rehusaron radiación 3 27° Empeoraron por una enfermedad ajena al cáncer 10 90° Otras causas 1 9° Y su representación en un diagrama de sectores será: 8 Probabilidad y Estadística (I.I.) Tema 1 b. Diagrama de rectángulos: Esta representación gráfica consiste en construir tantos rectángulos como modalidades presente el carácter cualitativo en estudio, todos ellos con base de igual amplitud. La altura se toma igual a la frecuencia absoluta o relativa (según la distribución de frecuencias que estemos representando), consiguiendo de esta manera rectángulos con áreas proporcionales a las frecuencias que se quieren representar. Igual que antes, si se comparan dos poblaciones de diferente tamaño es conveniente usar frecuencias relativas en la representación ya que en otro caso podrían resultar engañosas. Ejemplo: La representación gráfica de la distribución de frecuencias absolutas del ejemplo anterior será de la forma: 9 Probabilidad y Estadística (I.I.) Tema 1 c. Pictogramas: Actualmente, y mucho en los medios masivos de comunicación, se utilizan gráficos para ilustrar los datos o los resultados de alguna investigación. Regularmente se utilizan dibujos alusivos al tema de estudio para representar dicha información, y el tamaño o el número o de estos dibujos dentro de una gráfica queda determinado por la frecuencia correspondiente. Estos son dos ejemplos: El de la izquierda representa la población de los Estados Unidos (cada hombrecillo representa a dos millones de habitantes), el de la derecha representa la masa de tres planetas de nuestro sistema solar tomando como unidad a la masa de la Tierra (cada representa la masa de nuestro planeta: Venus tiene masa menor y Neptuno tiene más 17 veces más masa que la Tierra). Datos correspondientes a un carácter cuantitativo Para las variables cuantitativas, consideraremos dos tipos de gráficos, en función de que para realizarlos se usen las frecuencias simples (absolutas o relativas) o las frecuencias acumuladas: Diagramas diferenciales: Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se representa el número o porcentaje de elementos que presenta una modalidad dada. Diagramas integrales: Son aquellos en los que se representan el número de elementos que presentan una modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias acumuladas, lo que da lugar a gráficos crecientes, y es obvio que este tipo de gráficos no tiene sentido para variables cualitativas. 10 Probabilidad y Estadística (I.I.) Tema 1 Según hemos visto existen dos tipos de variables cuantitativas: discretas y continuas. Vemos a continuación las diferentes representaciones gráficas que pueden realizarse para cada una de ellas así como los nombres específicos que reciben. Gráficos para variables discretas: a. Diagrama de barras: Consiste en levantar, para cada valor de la variable, una barra cuya altura sea su frecuencia absoluta o relativa, dependiendo de la distribución de frecuencias que estemos representando. Ejemplo: Así, la representación gráfica de la distribución de frecuencias del ejemplo del nº de hijos será: b. Diagrama de frecuencias acumuladas: Esta representación gráfica se corresponde con la de una función constante entre cada dos valores de la variable a representar, e igual en cada tramo a la frecuencia relativa acumulada (o absoluta acumulada si se trata de representar una distribución de frecuencias absolutas) hasta el menor de los dos valores de la variable que construyen el tramo en el que es constante. Ejemplo: También para el ejemplo del Número de Hijos, se tendrá un diagrama de frecuencias acumuladas como el del siguiente gráfico: 11 Probabilidad y Estadística (I.I.) Tema 1 Gráficos para variables contínuas: Al igual que antes, existen también dos tipos de representaciones gráficas dependiendo de si la distribución de frecuencias en estudio es de datos acumulados o de datos sin acumular. a. Histograma: Al ser esta representación una representación por áreas, hay que distinguir si los intervalos en los que aparecen agrupados los datos son de igual amplitud o no. Si la amplitud de los intervalos es constante, dicha amplitud puede tomarse como unidad y al ser Frecuencia (área) = amplitud del intervalo · altura la altura correspondiente a cada intervalo puede tomarse igual a la frecuencia. Si los intervalos tienen diferente amplitud, se toma alguna de ellas como unidad (generalmente la menor) y se levantan alturas para cada intervalo de forma que la ecuación anterior se cumpla. Ejemplo; En el ejemplo de los Niveles de Colinesterasa, al tener los intervalos igual amplitud, la representación gráfica será: 12 Probabilidad y Estadística (I.I.) Tema 1 Ejemplo: Si tuviéramos una distribución de frecuencias como la siguiente, correspondiente a puntuaciones obtenidas en un test psicológico y en la que los intervalos son de diferente amplitud Ii ni fi 0-20 8 8/70 20-30 9 9/70 30-40 12 12/70 40-45 10 10/70 45-50 9 9/70 50-60 10 10/70 60-80 8 8/70 80-100 4 4/70 ?ni= 70 ?fi=1 Tomando la amplitud 5 como unidad, deberemos levantar para el primer intervalo una altura de 2/70 para que el área sea la frecuencia relativa 8/70. Procediendo de la misma manera con el resto de los intervalos obtendríamos como representación gráfica la figura siguiente: 13 Probabilidad y Estadística (I.I.) Tema 1 Obsérvese que la suma de todas las áreas debe ser 1, tanto si los intervalos de la distribución de frecuencias relativas son o no de igual amplitud. b. Polígono de frecuencias acumuladas: Se utiliza para representar distribuciones de frecuencias (relativas o absolutas) acumuladas. Consiste en representar la gráfica de una función que una por segmentos las alturas correspondientes a los extremos superiores de cada intervalo, tengan o no todos igual amplitud, siendo dicha altura igual a la frecuencia acumulada, dando una altura cero al extremo inferior del primer intervalo y siendo constante a partir del extremo superior del último. Ejemplo: Así, para el ejemplo de los Niveles de Colinesterasa, el polígono de frecuencias relativas acumuladas tendrá una representación gráfica de la forma: 14 Probabilidad y Estadística (I.I.) Tema 1 3.- Descripciones numéricas de una variable: Al analizar los datos contenidos en una muestra, un paso importante es presentar diversos resúmenes numéricos (estadísticas) de la información que contiene. De los muchos aspectos de los datos, que intentamos representar numéricamente con estadísticas, tres son los más importantes: su posición, su dispersión, su forma. Medidas de posición Las medidas de posición nos facilitan información sobre la serie de datos que estamos analizando. Estas medidas permiten conocer diversas características de esta serie de datos. Son de dos tipos: a) Medidas de posición central Informan sobre los valores medios de la serie de datos. Las principales medidas de posición central son las que definiremos a continuación. Para ver ejemplos de cálculo, utilizaremos la tabla de distribución de frecuencias con los datos de la estatura de los alumnos que ya hemos visto anteriormente. Variable Frecuencias absolutas Frecuencias relativas (Valor) Simple Acumulada Simple Acumulada 1,20 1 1 3,3% 3,3% 1,21 4 5 13,3% 16,6% 1,22 4 9 13,3% 30,0% 1,23 2 11 6,6% 36,6% 1,24 1 12 3,3% 40,0% 1,25 2 14 6,6% 46,6% 1,26 3 17 10,0% 56,6% 1,27 3 20 10,0% 66,6% 1,28 4 24 13,3% 80,0% 1,29 3 27 10,0% 90,0% 1,30 3 30 10,0% 100,0% 1.- Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo las más utilizadas: a) Media aritmética: La media aritmética de una variable estadística es la suma de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores de una variable X es 15 Probabilidad y Estadística (I.I.) Tema 1 X ni fi x1 n1 f1 ... ... ... xk nk fk la media es el valor que podemos escribir de las siguientes formas equivalentes: Si los datos no están ordenados en una tabla, entonces Observación: Hemos supuesto implícitamente en la definición de media que tratábamos con una variable X discreta. Si la variable es continua tendremos que cambiar los valores de xi por las marcas de clase correspondientes. En general, la media aritmética obtenida a partir de las marcas de clase ci, diferirá de la media obtenida con los valores reales, xi. Es decir, habrá una perdida de precisión que será tanto mayor cuanto mayor sea la diferencia entre los valores reales y las marcas de clase, o sea, cuanto mayores sean las longitudes ai, de los intervalos. A pesar de las buenas propiedades que ofrece la media, ésta posee algunos inconvenientes: • • • • Uno de ellos es que es muy sensible a los valores extremos de la variable: ya que todas las observaciones intervienen en el cálculo de la media, la aparición de una observación extrema, hará que la media se desplace en esa dirección. En consecuencia, no es recomendable usar la media como medida central en las distribuciones muy asimétricas; Depende de la división en intervalos en el caso de variables continuas. Si consideramos una variable discreta, por ejemplo, el número de hijos en las familias de Málaga el valor de la media puede no pertenecer al conjunto de valores de la variable; Por ejemplo hijos. Ejemplo: x= (1,20 *1) + (1,21 * 4) + (1,22 * 4) + (1,23 * 2) + ......... + (1,29 * 3) + (1,30 * 3) = 1.253 30 Por lo tanto, la estatura media de este grupo de alumnos es de 1,253 cm. 16 Probabilidad y Estadística (I.I.) Tema 1 b) Media geométrica: La media geométrica los valores de la variable: , es la media de los logaritmos de Luego Si los datos están agrupados en una tabla, entonces se tiene: Se eleva cada valor al número de veces que se ha repetido. Se multiplican todo estos resultados y al producto final se le calcula la raíz "n" (siendo "n" el total de datos de la muestra). Ejemplo: ( X = 1.201 *1.12 4 * 1.22 4 * ... *1.29 3 *1.30 3 ) 1 30 = 1.253 En este ejemplo la media aritmética y la media geométrica coinciden, pero no tiene siempre por qué ser así. Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media geométrica. La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación, etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. En todo caso, la media aritmética es la medida de posición central más utilizada. 2.- Mediana: es el valor de la serie de datos que se sitúa justamente en el centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores). Es una medida de posición central que resulta ser un caso particular de percentil (es el percentil 50). Entre las propiedades de la mediana, vamos a destacar las siguientes: • • • Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en distribuciones asimétricas. Es de cálculo rápido y de interpretación sencilla. A diferencia de la media, la mediana de una variable discreta es siempre un valor de la variable que estudiamos (ej. La mediana de una variable número de hijos toma siempre valores enteros). Así, si en la siguiente distribución de frecuencias, xi ni 17 Ni Probabilidad y Estadística (I.I.) Tema 1 0 3 3 1 2 5 2 2 7 7 ordenamos los valores en orden creciente, que cumple la definición de mediana. 0 0 0 1 1 2 2 el 1 será el valor Datos sin agrupar: Para datos sin agrupar, la Mediana será la primera observación que deja debajo de sí estrictamente a las [N/2] observaciones menores, x[N/2] + 1. Ejemplo: La distribución de frecuencias acumuladas del ejemplo del número de hijos era Nº de hijos(xi) 0 1 2 3 4 Frecuencias Acumuladas(Ni) 5 11 19 23 25 y como es n/2=12'5 y en consecuencia 11 < 12'5 < 19 la mediana será Me= 2. Datos Agrupados: Las gráficas siguientes, correspondientes a polígonos de frecuencias absolutas acumuladas, nos plantea de nuevo dos situaciones diferentes a considerar: El más sencillo, el de la derecha, en el que existe una frecuencia absoluta acumulada Nj tal que n/2 = Nj, la mediana es Me = xj. Si la situación es como la que se representa en la figura de la izquierda, en la que Nj-l < n/2 < Nj entonces, la mediana, está en el intervalo [xj-1, xj), es decir entre xj-1 y xj, tomándose en ese caso, por razonamientos de proporcionalidad, como mediana el valor siendo cj la amplitud del intervalo [xj-1, xj). Ejemplo: La distribución de frecuencias del ejemplo de los niveles de colinesterasa es: Intervalo Ii 7'5-9 18 9-10'5 10'5-12 12-13'5 13'5-15 15-16'5 Probabilidad y Estadística (I.I.) Tema 1 Frecuencia ni 3 8 10 10 1 2 Frecuencia Acumulada Ni 3 11 21 31 32 34 Al ser n/2 = 17 y estar 11 < 17 < 21 la mediana estará en el intervalo [10'5 , 12), y aplicando la fórmula anterior, será Ejemplo: La mediana de esta muestra es 1,26 cm, ya que por debajo está el 50% de los valores y por arriba el otro 50%. Esto se puede ver al analizar la columna de frecuencias relativas acumuladas. En este ejemplo, como el valor 1,26 se repite en 3 ocasiones, la mediana se situaría exactamente entre el primer y el segundo valor de este grupo, ya que entre estos dos valores se encuentra la división entre el 50% inferior y el 50% superior. 3.- Moda: es el valor que más se repite en la muestra. Ejemplo: Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta serie cuenta con 3 modas. b) Medidas de posición no centrales Informan de como se distribuye el resto de los valores de la serie. Permiten conocer otros puntos característicos de la distribución que no son los valores centrales. Entre otros indicadores, se suelen utilizar una serie de valores que dividen la muestra en tramos iguales. Vamos a utilizar los mismos datos anteriores para calcular los cuartiles. Los deciles y percentiles se calculan de igual manera, aunque harían falta distribuciones con mayor número de datos. Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados. 1º cuartil: es el valor 1,22 cm, ya que por debajo suyo se sitúa el 25% de la frecuencia (tal como se puede ver en la columna de la frecuencia relativa acumulada). 2º cuartil: es el valor 1,26 cm, ya que entre este valor y el 1º cuartil se sitúa otro 25% de la frecuencia. 19 Probabilidad y Estadística (I.I.) Tema 1 3º cuartil: es el valor 1,28 cm, ya que entre este valor y el 2º cuartil se sitúa otro 25% de la frecuencia. Además, por encima suyo queda el restante 25% de la frecuencia. Atención: cuando un cuartil recae en un valor que se ha repetido más de una vez (como ocurre en el ejemplo en los tres cuartiles) la medida de posición no central sería realmente una de las repeticiones. Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados. Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados. O más formalmente: Para una variable discreta, se define el percentil de orden k, como la observación, Pk, que deja por debajo de si el k% de la población. Esta definición nos recuerda a la mediana, pues como consecuencia de la definición es evidente que Med = P50 En el caso de una variable continua, el intervalo donde se encuentra Pk ∈ (li-1, li], se calcula buscando el que deja debajo de si al k% de las observaciones. Dentro de él, Pk se obtiene según la relación: Ejemplo (variable discreta) Dada la siguiente distribución en el número de hijos de cien familias, calcular sus cuartiles. xi ni Ni 0 14 14 1 10 24 2 15 39 3 26 65 4 20 85 5 15 100 n = 100 Solución: 1. Primer cuartil: 2. Segundo cuartil: 20 Probabilidad y Estadística (I.I.) Tema 1 3. Tercer cuartil: Ejemplo (variable continua) Calcular los cuartiles en la siguiente distribución de una variable continua: li-1 - li ni Ni 0-1 10 10 1-2 12 22 2-3 12 34 3-4 10 44 4-5 7 51 n = 51 Solución: 1. Primer cuartil: 2. Segundo cuartil: 3. Tercer cuartil : Comentario. No hay sólo un criterio para calcular percentiles. De hecho, importantes paquetes estadísticos para ordenador devuelven resultados diferentes debido a que usan criterios similares, pero no iguales. No debe causar sorpresa, entonces, encontrar estas diferencias originadas por la falta de un procedimiento universalmente aceptado. Esta técnica explicada anteriormente sirve para calcular los deciles y la mediana igualmente. Medidas de dispersión Estudia la distribución de los valores de la serie, analizando si estos se encuentran más o menos concentrados, o más o menos dispersos. Supongamos que tenemos los tres conjuntos 21 Probabilidad y Estadística (I.I.) Tema 1 de datos indicados. Si calculamos la media, la mediana y la moda para cada uno de ellos tenemos lo siguiente: Conjunto 1: 10 20 30 40 50 media = 30, mediana = 30, moda = no existe Conjunto 2: 10 30 30 30 50 media = 30, mediana = 30, moda = 30 Conjunto 3: 30 30 30 30 30 media = 30, mediana = 30, moda = 30 A la vista de estas medidas podríamos llegar a la conclusión equivocada de que los tres conjuntos de datos son muy similares. Sin embargo, si dibujamos los histogramas: vemos claramente la diferencia entre los tres conjuntos: en el primero, la dispersión de los datos es total, en el tercero es la máxima concentración y el segundo es una situación intermedia. Existen diversas medidas de dispersión, entre las más utilizadas podemos destacar las siguientes. Para ver ejemplos de cálculos volveremos a utilizar la tabla de la estatura de los alumnos de una clase usada anteriormente. 1.- Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor más elevado y el valor más bajo. Muchas veces esta medida no es suficiente. En los conjuntos 1 y 2 anteriores el rango resulta ser el mismo: 50 – 40 = 10. Ejemplo: la diferencia entre el mayor valor de la muestra (1,30) y el menor valor (1,20), y por tanto su rango es 10 cm. 2.- Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el número de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tamaño de la muestra. 22 Probabilidad y Estadística (I.I.) Tema 1 La varianza siempre será mayor o igual que cero, y sólo será cero si todas las observaciones son idénticas (y por tanto la media es igual a cualquiera de las observaciones). Mientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están. Otra forma de expresar la varianza es la siguiente. Tomemos el numerador: Si la varianza en lugar de aparecer dividida por n, aparece dividida por n-1, la llamamos cuasivarianza. Tanto la varianza como la cuasivarianza se expresan en el cuadrado de las unidades de la variable observada. Ejemplo: recordemos que la media de esta muestra es 1,253. Luego, aplicamos la fórmula: Por lo tanto, la varianza es 0,0010 3.- Desviación típica o desviación estándar: Se calcula como raíz cuadrada de la varianza. A la raíz cuadrada de la cuasivarianza se la conoce como cuasidesviación típica. La desviación típica y la cuasidesviación típica se miden en las mismas unidades que la variable observada. Ejemplo: Luego: 4.- Coeficiente de variación de Pearson: se calcula como cociente entre la desviación típica y la media de la muestra. Cv = σ x Ejemplo: Cv = 0.0320 = 0.0255 1.253 23 Probabilidad y Estadística (I.I.) Tema 1 El interés del coeficiente de variación es que al ser un porcentaje permite comparar el nivel de dispersión de dos muestras. Esto no ocurre con la desviación típica, ya que viene expresada en las mismas unidades que los datos de la serie. Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la altura de los alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las desviaciones típicas (una viene vienes expresada en cm y la otra en kg). En cambio, sus coeficientes de variación son ambos porcentajes, por lo que sí se pueden comparar. Medidas de forma Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de datos de la muestra. En concreto, podemos estudiar las siguientes características de la curva: a) Asimetría El concepto de asimetría se refiere a si la curva que forman los valores de la serie presenta la misma forma a izquierda y derecha de un valor central, considerado el centro de simetría (media aritmética) Para medir el nivel de asimetría se utiliza el llamado Coeficiente de Asimetría de Fisher, que viene definido: Los resultados pueden ser los siguientes: g1 = 0 (distribución simétrica; existe la misma concentración de valores a la derecha y a la izquierda de la media) g1 > 0 (distribución asimétrica positiva; existe mayor concentración de valores a la derecha de la media que a su izquierda) g1 < 0 (distribución asimétrica negativa; existe mayor concentración de valores a la izquierda de la media que a su derecha) Ejemplo: Vamos a calcular el Coeficiente de Asimetría de Fisher de la serie de datos referidos a la estatura de un grupo de alumnos que ya hemos utilizado. Recordemos que la media de esta muestra es 1,253 24 Probabilidad y Estadística (I.I.) Tema 1 Σ(xi - xm)3 *ni Σ(xi - xm)2 *ni 0,000110 0,030467 ⎛ 1 ⎞ ⎜ ⎟0.000110 ⎝ 30 ⎠ Luego: g 1 = = −0.1586 ⎛ 1 ⎞3 2 ⎜ ⎟ 0.030467 ⎝ 30 ⎠ Por lo tanto el Coeficiente de Fisher de Simetría de esta muestra es -0,1586, lo que quiere decir que presenta una distribución asimétrica negativa (se concentran más valores a la izquierda de la media que a su derecha). b) Curtosis El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución o cuan aplastada o apuntada es la forma de la distribución respecto de la distribución normal. Se definen 3 tipos de distribuciones según su grado de curtosis: Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable. El Coeficiente de Curtosis viene definido por la siguiente fórmula: Los resultados pueden ser los siguientes: g2 = 0 (distribución mesocúrtica). g2 > 0 (distribución leptocúrtica). 25 Probabilidad y Estadística (I.I.) Tema 1 g2 < 0 (distribución platicúrtica). Ejemplo: Vamos a calcular el Coeficiente de Curtosis de la serie de datos referidos a la estatura de un grupo de alumnos: Recordemos que la media de esta muestra es 1,253 Σ(xi - xm)4 *ni Σ(xi - xm)2 *ni 0,00004967 0,03046667 ⎛ 1 ⎞ ⎜ ⎟0.00004967 ⎝ 30 ⎠ Luego: g 2 = − 3 = −1.39 ⎛ 1 ⎞ 2 ⎜ ⎟0.03046667 ⎝ 30 ⎠ Por lo tanto, el Coeficiente de Curtosis de esta muestra es -1,39, lo que quiere decir que se trata de una distribución platicúrtica, es decir, con una reducida concentración alrededor de los valores centrales de la distribución. 26