MATEMÁTICAS CC SS I ESTADÍSTICA TEMA 10: ESTADÍSTICA La Estadística es la parte de las matemáticas que se ocupa de recoger, organizar y analizar grandes cantidades de datos para estudiar alguna característica de un colectivo. 1. VARIABLES ESTADÍSTICAS UNIDIMENSIONALES 1.1. Conceptos básicos Llamamos: • Población al conjunto de todos los elementos sobre el que se realiza el estudio. • Individuo a cada uno de los elementos de la población o de la muestra. • Variable estadística unidimensional: es el resultado de una característica de la población que deseamos estudiar. Si la variable estadística unidimensional toma valores numéricos se llama cuantitativa; en caso contrario se llama cualitativa. A su vez, las variables cuantitativas se clasifican en continuas o discretas. En el primer caso la variable puede tomar cualquier valor dentro de un intervalo, mientras que en el segundo sólo puede tomar un número finito de valores. Ejemplos: 1. Si analizamos las preferencias deportivas de los alumnos de tu clase: la población es toda la clase, individuo es cada uno de los alumnos de la clase y la variable estadística es cualitativa. 2. Si estudiamos el tiempo medio que los alumnos del instituto dedican cada día a estudiar: la población es todos los alumnos del instituto, individuo es cada uno de los alumnos del instituto y la variables estadística es cuantitativa continua. 3. Si el ayuntamiento está interesado en averiguar cuántos libros saca al año de la biblioteca cada usuario, la población son todos los vecinos de la localidad socios de la biblioteca, individuo es cada uno de esos socios y la variable estadística es cuantitativa discreta. Al realizar un estudio estadístico no siempre es posible analizar a todos los individuos de la población. En estos casos se toma una muestra de la población sobre la que se observa la característica objeto del estudio. Para que el estudio sea fiable la muestra debe ser representativa del total de la población. Se llama tamaño de la muestra al número de individuos que la forman. 1.2. Tablas de frecuencias Para ordenar los datos y proceder a su análisis se utilizan las tablas de frecuencias. Una vez realizado el recuento de los resultados, construimos una tabla: en la primera columna ponemos los datos, x i , (si la variable es cuantitativa se deben poner ordenados de menor a mayor) y en la segunda el número de veces que aparece ese dato en la muestra (frecuencia absoluta, ni ). La tabla de frecuencias puede completarse con: • La frecuencia relativa, f i , es el cociente de la frecuencia absoluta y el número total de datos, N. 1/13 IBR-IES LA NÍA MATEMÁTICAS CC SS I • • ESTADÍSTICA La frecuencia absoluta acumulada, N i , es la suma de todas las frecuencias absolutas de los valores anteriores. La frecuencia relativa acumulada, Fi , es la suma de todas las frecuencias relativas de los valores anteriores. Ejemplo1: Un equipo de baloncesto ha anotado en 20 partidos los siguientes puntos: 80, 101, 92, 80, 110, 83, 101, 75, 80, 107, 75, 85, 80, 110, 101, 92, 85, 110, 85, 80. La variable estadística es cuantitativa discreta. Vamos a construir la tabla de frecuencias: Valor xi ni Ni fi Fi Observa que: La última frecuencia absoluta acumulada, N i , es 20 y debe coincidir con el total de datos, N . La última frecuencia relativa acumulada, Fi , debe ser siempre 1. Si las frecuencias relativas se multiplican por 100 se obtienen los porcentajes. Total N=20 1 Los valores de la variable del ejemplo anterior podrían no haber presentado repeticiones y ser todos, o casi todos, diferentes. En ese caso no tendría sentido hacer una tabla con 20 valores de frecuencia absoluta 1 cada uno de ellos. Cuando la variable estadística es continua, o el número de datos del estudio es grande, conviene organizar los datos en intervalos, llamados clases. Los intervalos deben ser todos de la misma amplitud, y el punto medio de cada uno es la marca de clase. La tabla de frecuencias tiene una columna más con las marcas de clase. El extremo inferior del intervalo se toma cerrado y el superior abierto, de modo que, si un dato coincide con un extremo, pertenece al intervalo posterior Ejemplo2: Las calificaciones de 49 alumnos en una prueba son: 3; 5,5; 4,4; 6; 4,3; 7,2; 4,7; 6,5; 6,7; 4; 5,9; 5,8; 1,4; 3,2; 5,8; 4,6; 4,1; 3,5; 6,8; 5; 5,9; 2,1; 4,2; 4,5; 4,1; 4,8; 2,8; 4,7; 7,7; 6; 3; 5,7; 4,5; 4,9; 3,3; 4,8; 4,7; 7,7; 6; 3; 5,7; 4,5; 4,9; 3,3; 4,8; 4,7; 5,2; 3,8; 6,1. Vamos a agrupar los datos en 7 intervalos (se suelen poner entre 5 y 10) y a construir la tabla de frecuencias. Primero buscamos el valor mínimo: 1,4, y el valor máximo: 7,7, y calculamos su diferencia: 7,7 − 1,4 = 6,3 , este es el recorrido de la variable. Ahora dividimos el recorrido entre el nº de 6,3 intervalos: = 0,9 ≅ 1 , esto nos da la longitud de cada intervalo. 7 2/13 IBR-IES LA NÍA MATEMÁTICAS CC SS I ESTADÍSTICA El extremo inferior del primer intervalo debe ser algo inferior al valor mínimo (1,4) y el extremo superior del último intervalo debe ser algo mayor que el valor máximo (7,7). En este caso, si empezamos con el 1 y acabamos en el 8, con siete intervalos de longitud 1 cubriremos todo el recorrido: Intervalo Marca de clase, xi [1,2[ [2,3[ [3,4[ [4,5[ [5,6[ [6,7[ [7,8[ Total ni 49 Ni fi Fi 1 Ejercicios: 1º) Se ha realizado un estudio sobre la edad de los asistentes al teatro. Esta tabla muestra los resultados. Completa la tabla de frecuencias. ¿Qué porcentaje de los asistentes tiene entre 30 y 40 años?¿Qué porcentaje tiene menos de 40 años? Edad Nº personas [20,30[ 19 [30,40[ 36 [40,50[ 41 [50,60[ 29 1.3. Gráficos estadísticos La información de las tablas de frecuencias también se puede representar mediante gráficos estadísticos. Diagrama de barras – Ejemplo1 Polígono de frecuencias – Ejemplo1 En el eje de abscisas se escriben los datos de la variable con la misma separación (aunque sean datos numéricos no equidistantes), y en el eje de ordenadas las frecuencias. Sobre cada valor se levanta un rectángulo cuya altura es igual a la frecuencia. En el eje de abscisas se escriben los datos de la variable con la misma separación (aunque sean datos numéricos no equidistantes), y en el eje de ordenadas las frecuencias. Sobre cada valor se marca un punto cuya altura es igual a la frecuencia y se unen formando una poligonal. 3/13 IBR-IES LA NÍA MATEMÁTICAS CC SS I ESTADÍSTICA Histograma – Ejemplo2 (para intervalos) Diagrama de sectores – Ejemplo1 En el eje de abscisas se representan los intervalos de clase y en el eje de ordenadas las frecuencias. Sobre cada intervalo se levanta un rectángulo de altura igual a su frecuencia. Si se traza la poligonal que une los puntos medios de las bases superiores de los rectángulos se puede obtener también el polígono de frecuencias. En el caso, poco frecuente, de que los intervalos no tengan la misma amplitud, los rectángulos que se levantan deben tener el área proporcional a las frecuencias. Se divide un círculo en tantos sectores como datos tenga la variable, y la amplitud de cada uno debe ser proporcional a las frecuencias que toma la variable. Se suele acompañar por el tanto por ciento que representa cada sector, f i ⋅ 100 . Se trata de repartir los 360º del proporcionalmente a las frecuencias: f i ⋅ 360 . círculo Hay otros gráficos estadísticos como: Pictogramas: Diagrama de barras con dibujos representativos de la variable, en lugar de rectángulos. Cartogramas: Mapas coloreados según los valores de la variable. Diagrama de barras horizontal: Diagrama de barras con la posición de los ejes invertida. Pirámide de población: Dos histogramas horizontales que comparten los intervalos de clase en el eje vertical. 1.4. Parámetros de centralización Una vez ordenados los datos en las tablas de frecuencias, la información se suelde sintetizar con unas medidas llamadas parámetros estadísticos. Los hay de dos tipos: de centralización y de dispersión. Los parámetros de centralización nos indican en torno a qué valor (centro) se distribuyen los datos, y son la media, la moda y la mediana. La media aritmética: es el valor que se obtiene al dividir la suma de todos los datos entre el número total de éstos. En lugar de sumar los N datos es más cómodo multiplicar cada xi por su frecuencia absoluta ni . La media se representa por: x x i ni . N Si los datos están agrupados por intervalos se toman como xi las marcas de clase. La moda , Mo, es el valor de la variable con mayor frecuencia absoluta. Puede haber variables con más de una moda. Si los datos están agrupados por intervalos se puede tomar como moda la marca de clase del intervalo con mayor frecuencia, aunque tiene más sentido hablar del intervalo modal. 4/13 IBR-IES LA NÍA MATEMÁTICAS CC SS I ESTADÍSTICA La mediana, Me, es el valor que ocupa la posición central, una vez ordenados todos los datos. Si el nº de datos es par hay dos datos centrales y tomaremos como mediana el promedio (media) de los dos. Si los datos están agrupados por intervalos se habla de intervalo mediano, y es el primero cuya frecuencia absoluta acumulada, Ni, es mayor o igual que la mitad del nº de datos, N/2. Ejemplo3: 0 1 2 3 Se pregunta a una serie de personas cuántos cafés toman Nº de cafés al día y obtenemos los siguientes datos: Nº de personas 2 4 3 1 2 ⋅ 0 + 4 ⋅1 + 3 ⋅ 2 + 1 ⋅ 3 La media es x = = 1,3 cafés. 10 La mayor frecuencia es 4, que corresponde a 1 café: Mo=1 café, es la moda. Ordenamos los datos: 0, 0, 1, 1, 1, 1, 2, 2, 2, 3; como N=10 es par hay dos datos centrales, los que 1+1 ocupan el 5º y el 6º lugar, luego la mediana es la media de esos dos datos: Me = = 1. 2 − La media indica que, por término medio, el nº de cafés diarios es 1,3. Es decir entre 1 y 2 cafés (aunque más veces 1 que 2). − La moda señala que lo más frecuente es tomarse un café al día. − La mediana indica que hay tanta gente que toma un café o más como gente que toma un café o menos. Ejercicios: 2º) Los siguientes datos corresponden a los precios de 25 discos que están en oferta: 10, 8, 12, 9, 11, 11, 11, 12, 9, 10, 11, 12, 11, 10, 8, 11, 10, 10, 9, 10, 11, 11, 12, 9, 15. Calcula los parámetros de centralización. 3º) a) Completa los datos que faltan en la siguiente tabla estadística, xi ni Ni fi donde ni , N i y f i representan, respectivamente, la frecuencia 1 4 0,08 absoluta, acumulada y relativa. b) Calcula la media, mediana y moda de esta distribución. 2 3 4 5 6 7 8 4 16 7 5 7 0,16 0,14 28 38 45 1.5. Parámetros de dispersión Los parámetros de dispersión informan sobre cuánto se alejan del centro los valores de la variable, es decir, permiten conocer el grado de agrupamiento de los datos en torno a las medidas de centralización. Los más comunes son el recorrido, la varianza y la desviación típica. Recorrido: es la diferencia entre el mayor y el menor valor de la variable. En el ejemplo3 el recorrido es 3. Nos da una idea de la amplitud del conjunto de datos. Varianza: es la media de los cuadrados de las desviaciones de los datos respecto de ( x i − x ) 2 ⋅ ni ∑ 2 la media. Se representa por = . Hay otra fórmula equivalente N x i2 ni 2 x2 . para calcular la varianza y de cálculo un poco más sencillo: N Desviación típica: es la raíz cuadrada de la varianza. Se representa con σ. 5/13 IBR-IES LA NÍA MATEMÁTICAS CC SS I ESTADÍSTICA Coeficiente de variación: es el cociente entre la desviación típica y la media: CV = . Se puede expresar en forma de porcentaje y se utiliza para comparar la x dispersión de dos conjuntos de datos de la misma variable que no tienen la misma media. Si la media es el centro de gravedad de la distribución, la desviación típica nos dice cómo de dispersos están los datos. Si observamos las siguientes distribuciones, todas tienen la misma media, pero sus desviaciones típicas son diferentes: En la primera todos los valores están acumulados en la media. Su desviación típica es 0, ya que no hay dispersión. Al pasar de cada una a la siguiente aumenta la dispersión, pues cada vez más individuos se van alejando de la media. Ejemplo4: Queremos comparar la duración de dos marcas de lentes desechables, A y B. Para ello observamos la duración en horas de 10 pares de lentes de cada marca y obtenemos los resultados de la siguiente tabla. ¿Qué marca es aconsejable escoger? A 144 142 140 141 145 144 139 141 142 144 B 143 143 148 136 142 150 134 142 134 150 Organizamos los datos en tablas para calcular la media y la desviación típica de cada una de las dos distribuciones. A B 2 2 2 xi ni x i ⋅ ni xi ni x i ⋅ ni x i ⋅ ni xi2 ⋅ ni xi xi ∑ La media es: x = 2 x ∑ N= 2 i ni ∑x ⋅n i N i N= La media es: x = = x = x 2 i ∑x ⋅n i N i = ni x2 = N La desviación típica es: 2 N La desviación típica es: 6/13 2 IBR-IES LA NÍA MATEMÁTICAS CC SS I ESTADÍSTICA Las dos tienen la misma duración media. Es aconsejables escoger la marca A pues la DT es mucho menor: 1,89 frente a 5,74. Esto indica que, por lo general, la duración de estas lentillas se aleja poco de la media. Ejemplo5: Dos grupos de 1º de bachillerato, B y C, han hecho el mismo examen. Los parámetros obtenidos son xB = 6,5, B = 2,08, xC = 8,5, C = 2,38 . Si las medias fueran iguales, como en el ejemplo anterior, estaría claro que las notas de 1ºC serían más dispersas porque C > B . Como las medias son distintas, para comparar la dispersión, utilizamos el coeficiente de variación: 2,08 2,38 CVB = = = 0,32 y CVC = = 0,28 x 6,5 8,5 Ejercicios: 4º) El nº de aciertos de 100 alumnos en una prueba de 30 pregunta se representa en la siguiente tabla. Calcula todos los parámetros de centralización y dispersión. Aciertos [0,5[ [5,10[ [10,15[ [15,20[ [20,25[ [25,30[ Alumnos 3 10 25 38 16 8 1.6. Medidas de posición Sabemos que la mediana es el valor que ocupa la posición central en un conjunto ordenado de valores (o el promedio de los valores centrales si el nº de datos es par): Si generalizamos este concepto, podemos considerar los valores que dividen la distribución en cuatro partes iguales: los cuartiles. Hay tres cuartiles, Q1, Q2 y Q3, que son los valores de la variable que dividen el conjunto ordenado de datos en cuatro partes iguales. En el caso de distribuciones discretas obtenemos primero la mediana, Q2 , en la forma ya explicada. Para obtener el primer cuartil, Q1 ¸ hacemos otra mediana con los datos anteriores a Q2 . Para el tercer cuartil, Q3 ¸ hacemos otra mediana más, pero ahora con los datos posteriores a Q2 . Ejemplo6: Estudiamos el nº de horas semanales que cada uno de los 25 alumnos de un grupo ha faltado a clase: Primero calculamos la mediana, Q2 : como N=25 es impar hay un valor central, que ocupará la posición nº 13 → Me= Q2 =2. De los doce valores anteriores a la mediana, los valores centrales serían dos, la sexta y la séptima posiciones, luego se haría el promedio de ambos valores, pero como ambos son 0 → Q1 =0. 7/13 IBR-IES LA NÍA MATEMÁTICAS CC SS I ESTADÍSTICA El tercer cuartil estaría entre las posiciones 19 y 20, por tanto hacemos el promedio de los 6 + 10 dos valores que ocupan esas posiciones → Q3 = =8. 2 Para obtener los cuartiles en el caso de datos agrupados se analizan las frecuencias acumuladas. Buscamos primero el intervalo que contiene al cuartil: el primer valor que tiene una frecuencia absoluta acumulada mayor que N 4 para Q1 , el primer valor que tiene una frecuencia absoluta acumulada mayor que N 2 para Q2 (mediana) y el primer valor que tiene una frecuencia absoluta acumulada mayor que 3N 4 para Q3 . Una vez determinados los intervalos utilizamos las siguientes fórmulas: N N 3N − N i −1 − N i −1 − N i −1 Q1 = Li + a ⋅ 4 , Q2 = Li + a ⋅ 2 y Q3 = Li + a ⋅ 4 , donde ni ni ni Li es el extremo inferior del intervalo I que contiene al cuartil a es la amplitud de los intervalos N el nº de datos Ni-1 es la frecuencia absoluta acumulada del intervalo anterior a I ni es la frecuencia absoluta del intervalo I. Estas fórmulas se obtienen por interpolación lineal, suponiendo que los datos de cada intervalo se reparten uniformemente en él, y que es al final de cada intervalo cuando se alcanza la frecuencia acumulada correspondiente: El recorrido intercuartílico es la diferencia entre el tercer y el primer cuartil: Q3 − Q1 . En el recorrido intercuartílico figura el 50% de los datos; por tanto, cuanto menor sea este recorrido, más concentrados estarán. Cuando un conjunto de datos está muy disperso, no es conveniente representarlos con la media aritmética y, por tanto, tampoco tiene sentido calcular la desviación típica, ya que es un parámetro de dispersión que depende de la media. En estos casos, el parámetro central que se debe hallar es la mediana, y los parámetros de dispersión son el recorrido y el recorrido intercuartílico. De la misma manera, podemos dividir la distribución en 100 partes iguales y considerar los valores que dejan por debajo un porcentaje (k%) determinado de datos. Estos valores se llaman percentiles y se representan Pk. Para calcularlos se procede como en el caso de los cuartiles: k⋅N buscamos el primer intervalo con frecuencia absoluta acumulada mayor que el k% de N: ,y 100 kN − N i −1 100 sustituimos en: Pk = Li + a ⋅ ni Ejercicios: 5º) Con los datos del Ejemplo1 calcula la media, la moda, la mediana, la desviación típica, el coeficiente de variación, los cuartiles, el recorrido, el recorrido intercuartílico y el percentil 32. 8/13 IBR-IES LA NÍA MATEMÁTICAS CC SS I ESTADÍSTICA 6º) Halla los cuartiles, el recorrido intercuartílico y el percentil 95 en la distribución de las estaturas representadas en Estatura 148,5-153,5 153,5-158,5 158,5-163,5 163,5-168,5 168,5-173,5 173,5-178,5 ni 2 4 11 14 5 4 Intervalo ni 7º) En la siguiente tabla aparece el peso (en gr) de 100 comprimidos de un [4,45 , 4,55) 1 medicamento. [4,55 , 4,65) 2 a) Construye el histograma y el polígono de frecuencias. [4,65 , 4,75) 10 b) Calcula la media y la desviación típica. [4,75 , 4,85) 21 c) Calcula el primer y tercer cuartiles y el percentil 15. [4,85 , 4,95) 33 d) ¿Qué porcentaje de comprimidos pesa menos de 4,87 gr? [4,95 , 5,05) [5,05 , 5,15) [5,15 , 5,25) [5,25 , 5,35) 18 9 4 2 2. VARIABLES ESTADÍSTICAS BIDIMENSIONALES Si al efectuar un estudio estadístico se consideran conjuntamente dos características diferentes de los individuos de una misma población, X e Y, resulta una variable estadística bidimensional (X,Y). Ejemplos: − Estudio de la altura y el peso de un colectivo. − Calificación de dos asignaturas de un curso. − Capital invertido en publicidad y ventas obtenidas posteriormente. − Número de leucocitos y plaquetas en la sangre de personas afectadas por una cierta enfermedad. 2.1. ORGANIZACIÓN DE DATOS Para organizar los datos de una variable estadística bidimensional se utilizan las tablas de doble entrada, en las cuales se agrupan los datos en filas y columnas. Construimos una tabla con tantas columnas como valores tome X y con tantas filas como valores tome Y en la distribución. Hallamos la frecuencia absoluta de cada par de valores de la variable (X, Y). Para ello contamos el número de veces que se repite ese par de valores en la distribución y lo anotamos en la casilla correspondiente (frecuencia absoluta conjunta). Después añadimos la última fila y la última columna de la tabla de doble entrada que contienen, respectivamente, las frecuencias absolutas de las variables X e Y, consideradas por separado. Estas frecuencias reciben el nombre de frecuencias marginales. Ejemplo7: Preguntamos a algunas personas sobre el nº de autobuses (X) que utilizan y el tiempo (Y), en minutos, que tardan en llegar a su destino. Mostramos los resultados en una tabla de doble entrada: 9/13 IBR-IES LA NÍA MATEMÁTICAS CC SS I ESTADÍSTICA • 16 es la frecuencia absoluta conjunta del par (2,20), es decir, hay 16 personas que utilizan dos autobuses y tardan veinte minutos en llegar a su destino. • Si sumamos toda la columna de X=2 obtenemos 30, que es la frecuencia absoluta marginal de ese resultado para la variable unidimensional X. Significa que hay 30 personas que cogen 2 autobuses. • Si sumamos toda la fila de y=20 obtenemos 27, que es la frecuencia absoluta marginal de ese resultado para la variable unidimensional Y. Significa que hay 27 personas que tardan 20 minutos en llegar. Distribución Distribución marginal de marginal de X Y Si consideramos por separado los datos de la última columna y de la xi ni yi ni última fila se obtienen las distribuciones marginales: 1 45 10 17 2 30 20 27 3 15 30 22 También se puede hacer una tabla de la distribución bidimensional 90 40 16 Σ con todos los pares de resultados y sus frecuencias absolutas: 50 8 90 Σ xi 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 yi 10 20 30 40 50 10 20 30 40 50 10 20 30 40 50 ni 12 8 14 7 4 4 16 3 5 2 1 3 5 4 2 Ejercicio: 8º) Los datos obtenidos al estudiar las variables X = número de goles marcados e Y = número de goles recibidos, en 40 partidos jugados \ por el equipo campeón de la liga de fútbol sala, son: (5, 4), (4, 2), (6, 3), (4, 4), (3, 2), (6, 4), (3, 1), (4, 2), (4, 2), (6, 4), (4, 2), (5, 3), (3, 1), (2, 2), (4, 3), (3, 1), (4, 2), (5, 3), (5, 3), (4, 2), (3, 3), (1,1), (4, 2), (5, 3), (3, 2), (5, 3), (6, 4), (4, 2), (5, 3), (2, 1), (3, 2), (6, 4), (5, 3), (4, 2), (4, 2), (3, 3), (3, 1), (2, 2), (6, 4), (5, 3) Construye la tabla de doble entrada, las distribuciones marginales y la tabla de la distribución bidimensional con las frecuencias de todos los pares de resultados. 2.2. Relación entre variables- Diagrama de dispersión Se llama diagrama de dispersión o nube de puntos al gráfico que se obtiene al representar en unos ejes de coordenadas todos los pares correspondiente a los datos observados. • Si los puntos se ajustan completamente a una recta o a una curva cuya expresión matemática podríamos determinar, hay una dependencia funcional entre las dos variables. • Si los puntos de la nube se agrupan en torno a una posible curva o recta , no muy definida, pero reconocible, diremos que hay dependencia estadística o correlación entre las dos variables 10/13 IBR-IES LA NÍA MATEMÁTICAS CC SS I • ESTADÍSTICA Si los puntos de la nube no se agrupan en torno a ninguna curva y están completamente dispersos, diremos que las dos variables son independientes. Nosotros vamos a estudiar la dependencia o correlación lineal, es decir, si los puntos siguen aproximadamente una configuración rectilínea. − Diremos que la correlación o dependencia es positiva si la recta a la que se ajustan los puntos es creciente, y que es negativa si la recta a la que se ajustan los puntos es decreciente. − Diremos que la correlación o dependencia es fuerte si la nube de puntos está muy próxima a la recta (la nube es estrecha), y que es débil si la nube de puntos se ajusta menos a la recta (la nube es más ancha). 2.3. Covarianza y coeficiente de correlación Cada una de las variables estadísticas que forman la distribución bidimensional puede ser analizada independientemente, y podemos calcular su media y su desviación típica: x , x , y , y . El punto ( x , y ) es el punto medio de la distribución bidimensional, es decir, si se sujetara la nube de puntos apoyándola en él, el diagrama estaría en equilibrio. Introducimos un nuevo parámetro estadístico que mide la desviación de cada variable respecto de ∑( xi − x )( y i − y )ni ∑ xi y i ni su media, la covarianza: XY = = − xy . N N Par cuantificar la correlación lineal entre dos variables se calcula el coeficiente de correlación de Pearson: r = XY X ⋅ Y El coeficiente de correlación indica la aproximación de los valores de la variable a una línea recta: − Si r >0 la correlación es positiva; si r <0 la correlación es negativa. − Su valor está comprendido entre -1 y 1. − Cuanto más se acerque a 0 la dependencia es más débil. − Cuanto más se acerque a -1 o 1 la dependencia es más fuerte. (si llega a -1 o a 1 es dependencia funcional) 11/13 IBR-IES LA NÍA MATEMÁTICAS CC SS I ESTADÍSTICA Ejercicios: 9º) Se han observado dos variables conjuntas en 50 individuos. La información obtenida se ha resumido en la siguiente tabla incompleta: a) Completa la tabla. b) Obtén la covarianza. c) Calcula el coeficiente de correlación e interprétalo. 10º) El número de horas dedicadas al estudio de una asignatura y la calificación final obtenida en el correspondiente Horas de 20 16 34 23 27 32 18 22 examen por ocho personas vienen dados en la estudio:X siguiente tabla. Halla la covarianza y el coeficiente Calificación: 6,5 6 8,5 7 9 9,5 7,5 8 de correlación entre las dos variables. Interpreta el Y significado del coeficiente de correlación. 2.4. Rectas de regresión. Estimación Llamaremos recta de regresión a la que mejor se ajuste a la nube de puntos. La regresión pretende explicar el comportamiento de una variable según los valores que toma la otra. Si deseamos saber el valor de la variable Y según los valores que toma X, la regresión se llama de Y sobre X. La recta de regresión de Y sobre X debe hacer mínima la suma de las distancias entre las ordenadas de cada punto y la recta, y su ecuación es: y−y = xy (x − x) x2 Si deseamos saber el valor de la variable X según los valores que toma Y, la regresión se llama de X sobre Y. La recta de regresión de X sobre Y debe hacer mínima la suma de las distancias entre las abscisas de cada punto y la recta, y su ecuación es: x − x = xy ( y − y) y2 Las dos rectas de regresión tienen un punto en común, ( x , y ) , luego se cortan en ese punto. Además, cuanto más fuerte sea la dependencia (r más cerca de -1 o 1), menor será el ángulo que forman las rectas: Las rectas de regresión nos permiten obtener de forma aproximada el valor esperado de una variable, conocida la otra. El valor obtenido es una estimación, y es más fiable si r toma valores próximos a -1 o 1. Además la estimación debe hacerse para valores dentro del intervalo de datos o muy próximos a él. Ejercicios: 11º) El índice de mortalidad, Y, de una muestra de población que consumía diariamente X cigarrillos aparece en la siguiente tabla, donde se estudiaron siete muestras distintas de población que consumía distinto nº de cigarrillos. Estudia la correlación entre X e Y. 12/13 IBR-IES LA NÍA MATEMÁTICAS CC SS I nº cigarrillos Índice mortalidad ESTADÍSTICA 3 0,2 5 0,3 6 0,3 15 0,5 20 0,7 40 1,4 45 1,5 ¿Qué mortalidad se podría predecir para un consumidor de 60 cigarrillos diarios? 12º) La siguiente tabla muestra los valores de las variables (X,Y), X: gastos en publicidad de un producto (miles de €), Y: ventas conseguidas (miles de €) x 1 2 3 4 5 6 y 10 17 30 28 39 47 Halla las dos rectas de regresión y calcula la estimación de Y para x=5,5, y la estimación de X para y=15, y explica su significado. 13º) Una persona se somete a una dieta de adelgazamiento. La siguiente tabla muestra el peso en kilogramos de esta persona, Y, según el nº de semanas, X, que lleva haciendo dieta: Calcula e interpreta el coeficiente de correlación. X 1 2 3 4 5 6 Y 92 88 85 83 80 77 ¿Cuánto cabe esperar que pese esta persona después de 8 semanas de dieta? ¿Cuánto pesaría si siguiese esta dieta 20 semanas? Valora los resultados. 14º) La siguiente tabla recoge las notas en Matemáticas, X, y las notas medias de todas las asignaturas, Y, de 10 alumnos. .X 4 6 8 5 6 3 5 6 8 3 Y 5 7 8 6 6 4 6 7 8 4i — ¿qué nota media se podría estimar? a) Si un alumno obtiene un 7 en Matemáticas, —j¿qué nota tendría en Matemáticas? b) Si un alumno tuviera un 3 de nota media c) ¿Son fiables ambas estimaciones? Razona la respuesta. [ x = 5,4; y = 6,1; x = 1,69; y = 1,37; xy = 2,26 ; y = 0,8 x + 1,78 ; x = 1,2 y − 1,92 ; a)7,38; b)1,68; r=0,98] 15º) Se ha realizado un estudio estadístico a un grupo de 100 alumnos. Con los datos recogidos se ha obtenido que la estatura media del grupo es de 155 cm, con una desviación típica de 15,5 cm. La recta de regresión que relaciona el peso de los alumnos, X, con su estatura, Y, es y = 80 + 1,5 x a) ¿Cuál es el peso medio del grupo de alumnos? b) ¿Cuál será el signo de la covarianza? c) ¿Se puede afirmar, en este grupo de alumnos, que cuanto mayor sea el peso hay mayor altura? 16º) Indica cuál es la correlación correspondiente a cada una de las nubes de puntos y explica por qué. 1) r=0,95 2) r=-1 3) r=0 4) r=-0,63 17º) Asocia razonadamente las siguientes rectas de regresión con las nubes de puntos de las 1 figuras: 1) y=-2x+10 2) y=x+4 3) y = x + 2 3 13/13 IBR-IES LA NÍA