ESTADÍSTICA APLICADA Grado en Nutrición Humana y Dietética Tema 1: Análisis exploratorio de datos I Tipos de variables I Distribución de una variable I Representación gráfica de la distribución I Medidas numéricas para resumir la distribución I Correlación I Transformaciones: estandarización y transformación logarı́tmica Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 1 Introducción Queremos estudiar una caracterı́stica o variable en una población. • • • • • • • • Ejemplos: Contenido en grasa en 100 g de una hamburguesa Longitud de los peces de una cierta especie en un lago Marca de coche preferida por un comprador Porcentaje de una vitamina perdida al irradiar una fruta Índice de masa corporal de una persona Ingesta (en g) de proteı́nas al dı́a de una persona Cantidad (en ppm) de plaquicida captado por 100 g de manzana Número de visitas anuales de un español al médico de cabecera A veces es imposible o demasiado caro observar la variable en toda la población (censo), ası́ que se extrae una muestra. Llamamos individuo o elemento a cada miembro de la población o de la muestra. Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 2 Objetivo de la Estadı́stica Descriptiva: Hacer una descripción sencilla (numérica o gráfica) de la información muestral. Para describir un conjunto de datos se realiza un análisis individual de cada variable y posteriormente se estudian las relaciones entre las distintas variables. • Población: Conjunto de elementos objeto de estudio (niños menores de 6 meses; personas con ı́ndice de masa corporal superior a 25; piñas exportadas por la India; pepinos ecológicos producidos en Andalucı́a; etc.). • Muestra: Subconjunto de la población en el que se observa la variable de interés. • Tamaño muestral: Cardinal de la muestra (se suele denotar n). • Un conjunto de datos es el resultado de medir una o más variables en una muestra. Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 3 Pregunta: ¿Por qué necesitamos de una muestra y no estudiamos toda la población (censo)? 1 En poblaciones infinitas (o de tamaño muy grande) es materialmente imposible efectuar un censo. 2 Coste económico más reducido. 3 Menor tiempo empleado. 4 En ocasiones los elementos muestreados se destruyen o modifican en el proceso. Por ejemplo, pruebas de airbag o de armamento explosivo. Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 4 Clases importantes de variables estadı́sticas En general, la técnica estadı́stica adecuada para analizar una variable depende de su tipo. Variables cualitativas Son cualidades o atributos de los individuos. No son un número: no podemos operar con sus valores. Ejemplos: • Sexo de un individuo: hombre o mujer • Grado de reacciones secundarias a un tratamiento oncológico (alto, medio, bajo) • Sabores primarios en una prueba básica de cata: dulce, salado, ácido, amargo A veces se asigna un número a cada una de las cualidades. Por ejemplo, si la variable cualitativa es el sexo de un paciente, podemos asignar a hombres el número 0 y a mujeres el número 1. Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 5 Tenemos una muestra de tamaño n: hemos observado n datos, que agrupamos en K categorı́as o clases. Ejemplo 1.1: Variable = Estado de una pieza de fruta recolectada en una huerta Categorı́a= Perfecta, aceptable, pasada, verde, podrida ⇒ K = Llamamos frecuencia absoluta al número de frutas observados en cada una de las categorı́as: n1 = 23, n2 = 5, n3 = 20, n4 = 7, n5 = 15 ⇒ n = ni se La proporción de datos observados en cada clase fi = n denomina frecuencia relativa. Observemos que siempre fi ≥ 0 y f1 + f2 + . . . + fK = 1. f1 = , f2 = , f3 = , f4 = , f5 = . Representaciones gráficas: diagrama de barras, diagrama de sectores,. . . Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 6 Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 7 Variables cuantitativas Miden algo cuantificable en cada individuo. Toman valores numéricos. Las denotamos por X , Y , Z , ... Si la variable cuantitativa sólo puede tomar una cantidad finita o numerable de valores entonces es una variable discreta. Es habitual que una variable discreta tome valores enteros. Ejemplos: Número de hijos de una familia, número de goles de un equipo en cada partido, número de accesos diarios a una página web. Las variables continuas toman valores en un intervalo. Ejemplos: La estatura de una persona, el nivel de alcohol en sangre de un individuo, el contenido en hierro de un mineral. En la práctica siempre hay un lı́mite de precisión en el número de dı́gitos con el que expresamos una variable continua. Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 8 La variable y su muestra • Normalmente, los valores que toma una variable X en una muestra de tamaño n se denotan de manera genérica por x1 , x2 , . . . , xn . • La distribución de una variable viene determinada por los valores que toma esa variable y la frecuencia con la que los toma. • La frecuencia absoluta de un valor (o de un intervalo) es el número de individuos para los que la variable toma ese valor (o pertenece a ese intervalo). • La frecuencia relativa es igual a la frecuencia absoluta dividida por el número total de datos n. • La frecuencia relativa siempre es un número entre 0 y 1. Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 9 Aspectos interesantes de una distribución 1 Su posición: en torno a qué valor central toma valores la variable. 2 Su dispersión: el grado de concentración de los valores que toma la variable alrededor de su posición central. 3 Su forma: por ejemplo, la simetrı́a, es decir, si los valores se reparten de la misma forma a uno y otro lado del centro. Piensa en dos conjuntos de 5 datos que tengan: (a) La misma posición y distinta dispersión. (b) La misma dispersión y distinta posición. Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 10 Descripción gráfica de variables cuantitativas Variables discretas: diagrama de barras Ejemplo 1.2: Se realiza un examen tipo test con 5 preguntas a un grupo de estudiantes. No respuestas No estudiantes (n ) Frecuencia i correctas relativa fi 0 3 1 11 2 9 3 20 4 5 5 2 n= 1 Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Frecuencia acumulada Fi Tema 1: Análisis exploratorio de datos 11 20 Recuento 15 10 5 0 0 1 2 3 4 5 Respuestas Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 12 Variables continuas: histograma Se agrupan los datos en una serie de intervalos A1 , . . . , Ak . Calculamos la frecuencia absoluta ni de cada intervalo Ai (no de observaciones que caen en Ai ). Cada dato debe pertenecer a sólo una clase. Se representan los lı́mites de los intervalos sobre el eje horizontal. Luego se dibujan rectángulos cuya base es el intervalo Ai y cuya altura es la frecuencia absoluta del mismo (ni ). En la práctica, dadas unas observaciones, elegimos nosotros el lı́mite inferior del primer intervalo y la amplitud. Por ejemplo, se determina primero el rango de valores de los datos (máximo - mı́nimo de las observaciones). Luego se subdivide el rango en k intervalos iguales. Es habitual √ tomar k ' n, siendo n el número total de observaciones. A veces se utiliza la frecuencia relativa fi en lugar de la frecuencia absoluta ni . Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 13 Ejemplo 0 (contaminación por mercurio en el pescado): Mı́nimo = 0,11 Máximo = 3,60 Rango = 3,49 √ √ n = 171 → n ' 13 → Rango/ n ' 0, 27 50 Frecuencia 40 30 20 10 0 0 1 2 3 4 CONC Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 14 Con SPSS: Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 15 La forma del histograma depende del número de intervalos: 50 40 Recu ento Recuento 75 50 30 20 25 10 0 1,00 2,00 3,00 CONC Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo 1,00 2,00 3,00 CONC Tema 1: Análisis exploratorio de datos 16 Aspectos a tener en cuenta para interpretar un histograma: • Normalmente la base de todos los rectángulos es la misma por lo que la altura es proporcional a la frecuencia. • Identificar si se han usado frecuencias absolutas o relativas. • ¿Cuántas modas hay? • ¿Hay algún dato atı́pico en relación al resto? • ¿Es simétrica la distribución? • En caso de asimetrı́a, ¿es asimétrica a la izquierda o a la derecha? • ¿En torno a qué valor aproximado están centrados los datos? • ¿Están muy dispersos los datos en torno a este centro o muy concentrados? Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 17 50 40 40 30 30 20 20 10 10 0 Distribución simétrica unimodal 0 100 100 80 80 60 60 40 40 20 20 0 Distribución asimétrica a la derecha Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo 0 Distribución simétrica bimodal Distribución asimétrica a la izquierda Tema 1: Análisis exploratorio de datos 18 Ejemplo 1.3 (grasa en carne picada) (Bower 2009, Statistical Methods for Food Science): En el fichero GrasaCarnePicada.txt aparece el porcentaje de grasa en porciones de carne picada a la venta. Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 19 Indicación: Para hacer histogramas con la hoja de cálculo Excel hay que tener instalada la herramienta Análisis de datos. Si no está instalada, realizar lo siguiente: Paso 1: Paso 2: Paso 3: Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 20 Resumen numérico de datos cuantitativos Medidas de centralización, posición o localización Informan acerca de la posición alrededor de la cual se “centran” o distribuyen los datos x1 , . . . , xn (muestra aleatoria). Pn xi x1 + x2 + . . . + xn media muestral = x̄ = = i=1 n n Ejemplo 1.2 (cont.): Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 21 Ejemplo 1.3 (cont.): Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 22 Algunas propiedades: • La suma de las desviaciones a la media siempre es igual a cero: (x1 − x̄) + (x2 − x̄) + · · · + (xn − x̄) = 0. Esto significa que x̄ es el centro de gravedad de los datos. • Si la distribución es muy asimétrica, la media puede distorsionar nuestra percepción de cómo son los datos. • La media es muy sensible a la existencia de datos atı́picos. Ejemplo 1.4 (Ranking ATP): En el fichero ATP2014.txt aparece la clasificación de los tenistas de la ATP con sus ingresos. Calcular los ingresos medios de un tenista entre los 100 primeros puestos y luego entre los 200. Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 23 Posición de la media en un histograma: Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 24 La mediana es el dato que ocupa el lugar central respecto a los datos ordenados x(1) , x(2) , . . . , x(n) . Si el tamaño muestral es impar (n = 2m + 1), med = x(m+1) . Ejemplo 1.3 (grasa en carne picada): Calcular la mediana. La mediana es más robusta que la media. Pregunta: ¿Cuál es la relación entre la simetrı́a de una distribución y la posición relativa entre la media y la mediana? Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 25 x(m) + x(m+1) . 2 Ejemplo 1.5: Contaminación por metilmercurio (p.p.m.) en el sushi de atún obtenido en 10 tiendas: Si el tamaño muestral es par (n = 2m), med = 0,60 0,40 0,74 0,30 0,79 0,35 0,55 1,90 0,21 0,58 Calcular la media y la mediana. Ejemplo 1.4 (Ranking ATP): Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 26 Medidas de dispersión o variabilidad Dispersión respecto a la media La media es un valor representativo de la variable de interés en la población o en la muestra. Por tanto, es útil para comparar poblaciones o muestras entre sı́. Sin embargo, lo bien o lo mal que la media represente a la muestra depende de la dispersión de ésta. Si los datos están agrupados cerca de la media, ésta será muy representativa de la localización de los datos. Por el contrario, si los datos están muy dispersos, la media no será un buen representante de las observaciones. Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 27 Ejemplo 1.6: 2 0 1 6 No alumnos grupo A No alumnos grupo B No alumnos grupo C 3 0 5 12 4 0 15 14 obtenida 6 7 60 0 31 18 24 9 Grupo B 60 50 50 50 40 40 40 30 20 20 10 10 0 2 3 4 5 6 7 8 9 10 Frecuencia 60 30 0 8 0 4 3 9 0 1 5 10 0 1 9 Grupo C 60 Frecuencia Frecuencia Grupo A Nota 5 40 24 18 30 20 10 2 3 4 Nota Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo 5 6 Nota 7 8 9 10 0 2 3 4 5 6 7 8 9 10 Nota Tema 1: Análisis exploratorio de datos 28 Podemos medir las discrepancias de los individuos respecto a la media mediante las diferencias x1 − x̄, x2 − x̄, . . . , xn − x̄. Desventaja: La suma de estas discrepancias es cero. Por ello definimos las discrepancias de los individuos respecto a la media como las diferencias al cuadrado (x1 − x̄)2 , (x2 − x̄)2 , . . . , (xn − x̄)2 . Cuantificamos la dispersión de la muestra x1 , . . . , xn en torno a la media mediante la varianza muestral n s2 = 1 X (xi − x̄)2 . n−1 i=1 Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 29 Ejemplo 1.6 (notas en grupos A, B y C): Ejemplo 1.5 (metilmercurio en sushi): Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 30 Una medida más conveniente de la dispersión es la desviación tı́pica, que se define como la raı́z cuadrada de la varianza y se expresa en las mismas unidades que X y x̄: Ejemplo 1.5: Para comparar la dispersión de variables de magnitudes distintas a s veces se usa el coeficiente de variación CV = . El CV no depende x̄ de las unidades de medida de la variable X (es adimensional). A mayor CV, menos representativa es la media x̄. Ejemplo 1.3 (grasa en carne picada): Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 31 Dispersión respecto a la mediana Q1 = Primer cuartil= Valor tal que el 25 % de los datos de la muestra son menores que Q1 y el 75 % de los datos son mayores. Q2 = Mediana= Valor que deja por debajo y por encima sendas mitades de la muestra. Q3 = Tercer cuartil= Valor que deja el 75 % de los datos por debajo (los menores) y el 25 % de los datos por encima. Para calcular los cuartiles de una muestra ordenamos las observaciones x1 , x2 , . . . , xn de menor a mayor: x(1) , x(2) , . . . , x(n) . Existen varios métodos, por lo que distintos programas informáticos pueden dar distintos cuartiles para una misma muestra. Todos ellos hacen una media ponderada de dos observaciones consecutivas x(j) y x(j+1) de la muestra ordenada que aproximadamente dejan una cierta proporción de los datos “a la izquierda”. Para tamaños muestrales grandes, los resultados de todos los métodos son parecidos. Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 32 En general, para p ∈ (0, 1) se llama cuantil p, qp , o percentil 100p al valor que deja el 100p % de los datos “a la izquierda” (es decir, el 100p % de los datos son menores que él) y el resto “a la derecha” (es decir, son mayores). Ası́, q0.25 = Q1 , q0.75 = Q3 . Si n + 1 es múltiplo de 4, podemos tomar n+1 4 3(n + 1) Q3 = La observación x(i) que ocupa el lugar 4 Si p(n + 1) no es un número entero, entonces se pondera entre las observaciones ordenadas que están en la posición [p(n + 1)] y [p(n + 1)] + 1, donde [z] denota la parte entera de z: Q1 = La observación x(i) que ocupa el lugar p(n + 1) = j + m con j entero y 0 ≤ m < 1 qp = (1 − m)x(j) + m x(j+1) Si p < 1/(n + 1), se toma qp = x(1) . Si p ≥ n/(n + 1) se toma qp = x(n) . Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 33 Ejemplo 1.5 (metilmercurio en sushi): Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 34 De acuerdo con las anteriores definiciones, responde a las siguientes cuestiones: ¿Qué porcentaje de datos hay... (a) ... entre Q1 y Q3 ? (b) ... a la izquierda de Q1 ? (c) ... a la derecha de Q3 ? (d) ... entre el mı́nimo y Q3 ? Una descripción útil de un conjunto de datos viene dada por los cinco números siguientes: Mı́nimo, Q1 , Mediana, Q3 , Máximo Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 35 Ejemplo 1.4 (Ranking ATP): Para los 100 primeros tenistas q0.1 = 321354 q0.25 = Q1 = 390939 q0.75 = Q3 = 857837 q0.9 = 1600987 Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 36 El rango intercuartı́lico (RI) es la diferencia entre el primer y el tercer cuartil: RI = Q3 − Q1 . Si separamos los datos ordenados en cuatro grupos del mismo tamaño, el RI mide la distancia entre los grupos más extremos. Para visualizar estas medidas de dispersión respecto a la mediana se utiliza el diagrama de caja (box plot). Para construir el diagrama de caja de la muestra, calculamos Q1 , Q2 , Q3 , RI y los lı́mites inferior y superior del diagrama LI = LS = La menor observación en el intervalo [Q1 − 1.5 · RI, Q3 + 1.5 · RI] La mayor observación en el mismo intervalo Consideramos que un dato xi que se salga del intervalo [LI,LS] es un dato atı́pico o outlier. Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 37 Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 38 0.5 1.0 1.5 Ejemplo 1.5 (metilmercurio en sushi): Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 39 Excel no dibuja boxplots, pero hay applets en la web para dibujar diagramas de caja sencillos, por ejemplo, www.shodor.org/interactivate/activities/BoxPlot/ Ejemplo 1.4 (Ranking ATP): Para los 100 primeros tenistas Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 40 Los diagramas de caja son especialmente útiles para comparar varios conjuntos de datos. Ejemplo 0 (contaminación por mercurio en el pescado): 4,00 162 70 CONC 66 2,00 0,00 ,00 1,00 RIO Concentración del mercurio según el rı́o Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 41 4,00 66 CONC 123 2,00 24 25 76 138 82 75 0,00 ,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00 11,00 12,00 13,00 14,00 15,00 ESTACION Concentración de mercurio según la estación Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 42 7 Relaciona cada histograma con su diagrama de cajas ● ● ● ● 1 −1 4 2 0 5 3 1 4 6 2 5 ● ● Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo ● ● 0 3 −2 ● Tema 1: Análisis exploratorio de datos 43 Cuestiones: Da un ejemplo de un conjunto de datos tal que s 2 = 0. Dado un conjunto de observaciones medidas en kg, supongamos que cambiamos las unidades y las pasamos a gramos (es decir, multiplicamos por mil). Determina si son verdaderas o falsas las siguientes afirmaciones: • Tanto la media como la mediana de los nuevos datos se multiplican también por mil. • La varianza se multiplica también por mil. ¿Cómo cambiarı́a la desviación tı́pica? Ahora sumamos 100 a todos los datos. Determina si son verdaderas o falsas las siguientes afirmaciones: • Los cuartiles no cambian. • El rango intercuartı́lico no cambia. • La desviación tı́pica no cambia. Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 44 Ejemplo 0 (contaminación por mercurio en el pescado): Descripción numérica univariante con SPSS Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 45 Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 46 Estadísticos N Válidos Perdidos Media Error típ. de la media PESO 171 CONC 171 0 0 0 39,9708 1147,9123 1,1918 ,65132 66,95359 ,05825 Mediana 39,0000 873,0000 ,9300 Desv. típ. 8,51715 875,53176 ,76166 Varianza 72,542 766555,869 ,580 Rango 39,80 4308,00 3,49 Mínimo 25,20 203,00 ,11 Máximo Percentiles LONG 171 65,00 4511,00 3,60 25 33,3000 491,0000 ,5900 50 39,0000 873,0000 ,9300 75 46,2000 1455,0000 1,6000 Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 47 Cuestiones: • Calcula el coeficiente de variación de las tres variables. ¿Qué se deduce sobre la dispersión de los valores que toman? • Comparando los valores de la media y la mediana, ¿cuál de las tres distribuciones parece ser más simétrica? • Verdadero o falso: Al menos para 100 peces, la concentración de mercurio es superior a 0.93 ppm. • Verdadero o falso: La longitud de aproximadamente 42 peces es mayor que 25.20 cm y menor que 33.3 cm. • ¿Cuál es el rango intercuartı́lico de la variable que mide el peso de los peces? Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 48 Estadı́stica descriptiva de dos variables (bivariante) Ahora estamos interesados en dos variables estadı́sticas X e Y o un vector bidimensional (X , Y ) en cada individuo de una población. X −→ x1 , x2 , . . . , xn −→ (x1 , y1 ), . . . , (xn , yn ) Y −→ y1 , y2 , . . . , yn A partir de la información muestral deseamos encontrar una relación funcional aproximada entre Y y X : Y ' g (X ). A g la llamamos la función de regresión de Y sobre X . Se comienza estudiando el diagrama de dispersión de Y frente a X . Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 49 Ejemplo 1.7 (sabor del queso cheddar) (Moore y McCabe 1989, Introduction to the Practice of Statistics): A medida que el queso se añeja, se producen procesos quı́micos que determinan el sabor del producto final. En 30 porciones de queso cheddar curado se evaluó el sabor (Y ) y se midió la concentración de ácido láctico (X ). La variable sabor resulta de la combinación de puntuaciones dadas por varios degustadores. Caso Sabor Ac. Láctico Caso Sabor Ac. Láctico Caso Sabor Ac. Láctico 1 12.3 0.86 11 34.9 1.68 21 14.0 1.15 2 20.9 1.53 12 57.2 1.90 22 15.2 1.33 3 39.0 1.57 13 0.7 1.06 23 32.0 1.44 4 47.9 1.81 14 25.9 1.30 24 56.7 2.01 Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo 5 5.6 0.99 15 54.9 1.52 25 16.8 1.31 6 25.9 1.09 16 40.9 1.74 26 11.6 1.46 7 37.3 1.29 17 15.9 1.16 27 26.5 1.72 8 21.9 1.78 18 6.4 1.49 28 0.7 1.25 Tema 1: Análisis exploratorio de datos 9 18.1 1.29 19 18.0 1.63 29 13.4 1.08 10 21.0 1.58 20 38.9 1.99 30 5.5 1.25 50 60 50 Sabor 40 30 20 10 0 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 Ácido láctico Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 51 Interpretación de un diagrama de dispersión: • ¿Se observa alguna asociación entre las variables? • ¿Cómo es de estrecha la asociación entre las variables? • ¿Qué forma tiene la asociación entre variables (recta, cuadrática, ...)? • ¿Cuál es la “dirección” de la asociación entre las variables? • ¿Hay algún punto o colección de puntos que no siga el patrón general del resto? • Si hay una tercera variable cualitativa, resulta conveniente utilizar sı́mbolos o colores diferentes para cada valor de esta tercera variable. Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 52 El modelo más sencillo es el de regresión lineal, en el que Y es función lineal de X , es decir, g (x) = a + bx, recta de pendiente b y ordenada en el origen a. Covarianza muestral entre X e Y : covx,y = n n i=1 i=1 1X 1X (xi − x̄)(yi − ȳ ) = xi yi − x̄ ȳ n n Depende de las unidades en que se midan x e y . Ejemplo 1.7 (sabor del queso cheddar): Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 53 La recta de regresión de Y sobre X es la recta g (x) = a + bx que minimiza el error cuadrático medio n 1X ECM = (yi − a − bxi )2 . n i=1 b= covx,y vx a = ȳ − bx̄ Ejemplo 1.7 (sabor del queso cheddar): Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 54 Ejemplo 1.7 (sabor del queso cheddar): 60 50 Sabor 40 30 20 10 0 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 Ácido láctico Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 55 El coeficiente de correlación covx,y r=√ vx vy mide el grado de relación lineal entre X e Y . r vx Obsérvese que r = b . Por tanto, r y b tienen el mismo signo. vy La correlación r sólo puede tomar valores entre -1 y 1. No depende de las unidades (es adimensional). Una correlación r cercana a 1 indica un alto grado de ajuste lineal de y en términos de x. Se dice que hay una alta “correlación positiva” o “relación lineal directa” entre ambas variables (en el sentido de que al aumentar los valores de una de ellas esperamos que aumenten los correspondientes valores de la otra). Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 56 Un r cercano a -1 indica también un alto grado de ajuste lineal de y en términos de x pero en este caso hay una “correlación negativa” o “relación lineal inversa” entre ambas variables. Un r cercano a 0 se interpreta como una débil asociación lineal entre x e y . Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 57 Ejemplo 1.7 (sabor del queso cheddar): Cálculo de la recta de regresión con Excel Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 58 Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 59 Ejemplo 1.7 (sabor del queso cheddar): Análisis con SPSS Estadísticos descriptivos Sabor N 30 Rango 56,5 Mínimo ,7 Máximo 57,2 Suma 736,0 Media 24,533 Desv. típ. 16,2554 Varianza 264,237 Ác. Lactico 30 1,15 ,86 2,01 43,26 1,4420 ,30349 ,092 N válido (según lista) 30 Correlaciones Sabor Sabor 1 Ác. Láctico ** ,704 7662,887 100,753 264,237 3,474 30 30 Correlación de Pearson Sig. (bilateral) ,000 Suma de cuadrados y productos cruzados Covarianza N Ác. Láctico Correlación de Pearson Sig. (bilateral) Suma de cuadrados y productos cruzados Covarianza N ,704 ** 1 ,000 100,753 2,671 3,474 ,092 30 30 **. La correlación es significativa al nivel 0,01 (bilateral). Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 60 Ejemplo 1.7 (sabor del queso cheddar): Análisis con SPSS Regresión b Variables introducidas/eliminadas Modelo 1 Variables introducidas a Ac. Lactico Variables eliminadas Método Introducir . a. Todas las variables solicitadas introducidas. b. Variable dependiente: Sabor Resumen del modelo R a ,704 Modelo 1 R cuadrado ,496 R cuadrado corregida ,478 Error típ. de la estimación 11,7450 a. Variables predictoras: (Constante), AcLactico b ANOVA Modelo 1 Regresión Suma de cuadrados 3800,398 1 Media cuadrática 3800,398 137,946 gl Residual 3862,489 28 Total 7662,887 29 F 27,550 Sig. a ,000 a. Variables predictoras: (Constante), AcLactico b. Variable dependiente: Sabor a Coeficientes Coeficientes no estandarizados Modelo 1 (Constante) AcLactico B -29,859 Error típ. 10,582 37,720 7,186 Coeficientes tipificados Beta ,704 t -2,822 Sig. ,009 5,249 ,000 a. Variable dependiente: Sabor Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 61 Ejemplo 0 (contaminación por mercurio en el pescado): Covarianzas y correlaciones con SPSS Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 62 Correlaciones LONG LONG PESO CONC Correlación de Pearson Sig. (bilateral) Suma de cuadrados y productos cruzados Covarianza N Correlación de Pearson Sig. (bilateral) Suma de cuadrados y productos cruzados Covarianza N Correlación de Pearson Sig. (bilateral) Suma de cuadrados y productos cruzados Covarianza N Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo 1 PESO ,900 ,000 CONC ,650 ,000 12332,114 1141004 716,835 72,542 171 ,900 ,000 6711,790 171 1 4,217 171 ,554 ,000 1141004 1E+008 62786,546 6711,790 171 ,650 ,000 766555,9 171 ,554 ,000 369,333 171 1 716,835 62786,546 98,622 4,217 171 369,333 171 ,580 171 Tema 1: Análisis exploratorio de datos 63 Transformaciones A menudo la relación lineal g (x) = a + bx no será la que mejor describa la relación entre X e Y , o simplemente no tendrá sentido. Ejemplo 1.8 (alcalinidad y mercurio en lagos): En 1990 y 1991 se tomaron muestras de percas y agua en 53 lagos de Florida para estudiar factores ambientales relacionados con la contaminación por mercurio (ppm) en estos peces. Se midió, por ejemplo, la alcalinidad del agua (mg CaCO3 l−1 ). Alcalinidad media frente a concentración media de mercurio para los 53 lagos Concentración de mercurio 1.4 1.2 1 0.8 0.6 0.4 0.2 0 0 20 40 Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo 60 80 100 Alcalinidad 120 140 Tema 1: Análisis exploratorio de datos 64 Ejemplo 1.8 (alcalinidad y mercurio en lagos): Lago Alligator Annie Apopka Blue Cypress Brick Bryant Cherry Crescent Deer Point Dias Dorr Down Eaton East Tohopekaliga Farm-13 George Griffin Harney Hart Hatchineha Iamonia Istokpoga Jackson Josephine Kingsley Kissimmee Alcalinidad 5.9 3.5 116.0 39.4 2.5 19.6 5.2 71.4 26.4 4.8 6.6 16.5 25.4 7.1 128.0 83.7 108.5 61.3 6.4 31.0 7.5 17.3 12.6 7.0 10.5 30.0 Mercurio 1.23 1.33 0.04 0.44 1.20 0.27 0.48 0.19 0.83 0.81 0.71 0.50 0.49 1.16 0.05 0.15 0.19 0.77 1.08 0.98 0.63 0.56 0.41 0.73 0.34 0.59 Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Lago Lochloosa Louisa Miccasukee Minneola Monroe Newmans Ocean Pond Ocheese Pond Okeechobee Orange Panasoffkee Parker Placid Puzzle Rodman Rousseau Sampson Shipp Talquin Tarpon Tohopekaliga Trafford Trout Tsala Apopka Weir Wildcat Yale Alcalinidad 55.4 3.9 5.5 6.3 67.0 28.8 5.8 4.5 119.1 25.4 106.5 53.0 8.5 87.6 114.0 97.5 11.8 66.5 16.0 5.0 25.6 81.5 1.2 34.0 15.5 17.3 71.8 Tema 1: Análisis exploratorio de datos Mercurio 0.34 0.84 0.50 0.34 0.28 0.34 0.87 0.56 0.17 0.18 0.19 0.04 0.49 1.10 0.16 0.10 0.48 0.21 0.86 0.52 0.65 0.27 0.94 0.40 0.43 0.25 0.27 65 Si modelizamos la relación entre X e Y incorrectamente, nuestro modelo no dará predicciones fiables de valores desconocidos de Y en función de valores conocidos de X . Una solución sencilla es transformar las variables Y y/o X mediante una función no lineal (log x, x 2 , e x , . . . ) y calcular la recta de regresión entre las variables transformadas. 1 1 0 0 −1 −1 log(y) log(y) Ejemplo 1.8 (alcalinidad y mercurio en lagos): −2 −3 −4 0 −2 −3 20 40 60 80 100 120 140 −4 0 1 x Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 66 Ejemplo 1.8 (alcalinidad y mercurio en lagos): Transformar una variable tiene efectos sobre su media, su varianza, su simetrı́a, ... 8 10 Media =0,53 Desviación típica =0,341 N =53 Media =-0,91 Desviación típica =0,839 N =53 8 Frecuencia Frecuencia 6 4 2 0 6 4 2 0 0,00 0,25 0,50 0,75 1,00 1,25 Mercurio Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo -4 -3 -2 -1 0 1 LogMercurio Tema 1: Análisis exploratorio de datos 67 Ejemplo 1.9: Peso del cerebro (en g) en función del peso corporal (en kg) para 62 especies de mamı́feros (Fuente: Allison & Sacchetti 1976, Science) 6000 10 Elefante africano 4000 8 Log(Peso cerebro) Peso cerebro (en g) 5000 Elefante asiático 3000 2000 Humano 6 4 2 0 1000 −2 0 0 2000 4000 6000 Peso cuerpo (en kg) 8000 Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo −5 0 5 Log(Peso cuerpo) Tema 1: Análisis exploratorio de datos 10 68 Ejemplo 0 (contaminación por mercurio en el pescado): Transformaciones con SPSS Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 69 Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 70 Estandarización o tipificación Estandarizar o tipificar consiste en restarle a cada observación la media de todos los datos y dividir por la desviación tı́pica: zi = xi − x̄ s El valor zi representa la distancia de xi a la media en unidades de desviación tı́pica (zi > 0 si y sólo si xi > x̄). Utilidad de la tipificación • Eliminar los efectos de las unidades de medida, ya que la variable z = (x − x̄)/s es adimensional. • Detectar posibles valores atı́picos en los datos. • Realizar comparaciones de los valores de una variable en diferentes poblaciones. Preguntas: ¿Cuánto vale la media de los datos estandarizados? ¿Y su desviación tı́pica? Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 71 Efecto de estandarizar un conjunto de datos −4 −2 0 2 4 6 8 4 6 8 4 6 8 Datos originales −4 −2 0 2 Datos centrados (media cero) −4 −2 0 2 Datos estandarizados (media cero y varianza uno) Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 72 Ejemplo 1.10 (Calorı́as y contenido en sodio en salchichas): Se ha considerado la cantidad de calorı́as y de sodio en salchichas de varias marcas de cada uno de los tipos siguientes: • Carne de ternera • Mezcla (hasta 15 % de carne de pavo) • Carne de pavo Nombre variable tipo calorias sodio Descripción Tipo de carne (1=ternera, 2=mezcla, 3=pavo) Cantidad de calorı́as Cantidad de sodio Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 73 Estadísticos Medidas descriptivas numéricas N Media Error típ. de la media Mediana Desv. típ. Varianza Mínimo Máximo Percentiles Válidos Perdidos 25 50 75 Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo calorias 54 0 146,6111 3,95691 146,0000 29,07727 845,487 86,00 195,00 132,0000 146,0000 173,5000 sodio 54 0 424,8333 13,04440 405,0000 95,85637 9188,443 144,00 645,00 359,7500 405,0000 506,2500 Tema 1: Análisis exploratorio de datos 74 50 75 146,0000 173,5000 405,0000 506,2500 Diagramas de caja calorias 200,00 180,00 calorias 160,00 140,00 120,00 100,00 80,00 1 2 3 tipo 700,00 sodio 600,00 sodio 500,00 400,00 300,00 200,00 33 Página 1 100,00 1 2 3 tipo 4 3 Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 75 3 tipo Histogramas de la cantidad de calorı́as 4 3 3 2 1 0 3 tipo 2 Frecuencia 4 2 1 0 4 3 1 2 1 0 80,00 100,00 120,00 140,00 160,00 180,00 200,00 calorias Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 76 Histogramas de la cantidad de sodio 6 3 4 2 6 tipo 2 Frecuencia 0 4 2 0 6 1 4 2 0 100,00 200,00 300,00 400,00 500,00 600,00 700,00 sodio Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 77 Diagrama de dispersión tipo 1 2 3 200,00 180,00 calorias 160,00 140,00 120,00 100,00 80,00 100,00 200,00 300,00 400,00 500,00 600,00 700,00 sodio Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 78 \estap\datos\hotdogs.sav Covarianzas y correlaciones Correlaciones calorias calorias sodio Correlación de Pearson Sig. (bilateral) Suma de cuadrados y productos cruzados Covarianza N Correlación de Pearson Sig. (bilateral) Suma de cuadrados y productos cruzados Covarianza N Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo 1 sodio ,516 ,000 44810,833 76233,500 845,487 54 ,516 ,000 1438,368 54 1 76233,500 486987,50 1438,368 54 9188,443 54 Tema 1: Análisis exploratorio de datos 79 Cuestiones: • (V ó F) Aproximadamente 27 marcas de salchichas tienen entre 132 y 173 calorı́as. • ¿Cuál es el rango intercuartı́lico de la cantidad de sodio? • Calcula el coeficiente de variación de ambas variables. • (V ó F) Aproximadamente 13 marcas de salchichas tienen un contenido de sodio entre 506.25 y 645. • (V ó F) Con la información disponible en la tabla de medidas descriptivas numéricas es posible calcular la correlación entre ambas variables. • (V ó F) Al menos el 75 % de las marcas de salchichas de mezcla tienen más sodio que la mediana de las marcas de ternera. • Identifica en el diagrama de dispersión el dato atı́pico que se observa en los diagramas de cajas. Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo Tema 1: Análisis exploratorio de datos 80