Tema 1: Análisis exploratorio de datos

Anuncio
ESTADÍSTICA APLICADA
Grado en Nutrición Humana y Dietética
Tema 1:
Análisis exploratorio de datos
I Tipos de variables
I Distribución de una variable
I Representación gráfica de la distribución
I Medidas numéricas para resumir la distribución
I Correlación
I Transformaciones: estandarización y transformación logarı́tmica
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
1
Introducción
Queremos estudiar una caracterı́stica o variable en una población.
•
•
•
•
•
•
•
•
Ejemplos:
Contenido en grasa en 100 g de una hamburguesa
Longitud de los peces de una cierta especie en un lago
Marca de coche preferida por un comprador
Porcentaje de una vitamina perdida al irradiar una fruta
Índice de masa corporal de una persona
Ingesta (en g) de proteı́nas al dı́a de una persona
Cantidad (en ppm) de plaquicida captado por 100 g de manzana
Número de visitas anuales de un español al médico de cabecera
A veces es imposible o demasiado caro observar la variable en toda
la población (censo), ası́ que se extrae una muestra. Llamamos
individuo o elemento a cada miembro de la población o de la
muestra.
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
2
Objetivo de la Estadı́stica Descriptiva: Hacer una descripción
sencilla (numérica o gráfica) de la información muestral.
Para describir un conjunto de datos se realiza un análisis individual
de cada variable y posteriormente se estudian las relaciones entre
las distintas variables.
• Población: Conjunto de elementos objeto de estudio (niños
menores de 6 meses; personas con ı́ndice de masa corporal superior
a 25; piñas exportadas por la India; pepinos ecológicos producidos
en Andalucı́a; etc.).
• Muestra: Subconjunto de la población en el que se observa la
variable de interés.
• Tamaño muestral: Cardinal de la muestra (se suele denotar n).
• Un conjunto de datos es el resultado de medir una o más
variables en una muestra.
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
3
Pregunta: ¿Por qué necesitamos de una muestra y no estudiamos
toda la población (censo)?
1
En poblaciones infinitas (o de tamaño muy grande) es
materialmente imposible efectuar un censo.
2
Coste económico más reducido.
3
Menor tiempo empleado.
4
En ocasiones los elementos muestreados se destruyen o
modifican en el proceso. Por ejemplo, pruebas de airbag o de
armamento explosivo.
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
4
Clases importantes de variables estadı́sticas
En general, la técnica estadı́stica adecuada para analizar una
variable depende de su tipo.
Variables cualitativas
Son cualidades o atributos de los individuos. No son un número: no
podemos operar con sus valores.
Ejemplos:
• Sexo de un individuo: hombre o mujer
• Grado de reacciones secundarias a un tratamiento oncológico (alto,
medio, bajo)
• Sabores primarios en una prueba básica de cata: dulce, salado,
ácido, amargo
A veces se asigna un número a cada una de las cualidades. Por
ejemplo, si la variable cualitativa es el sexo de un paciente,
podemos asignar a hombres el número 0 y a mujeres el número 1.
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
5
Tenemos una muestra de tamaño n: hemos observado n datos, que
agrupamos en K categorı́as o clases.
Ejemplo 1.1: Variable = Estado de una pieza de fruta recolectada
en una huerta
Categorı́a= Perfecta, aceptable, pasada, verde, podrida ⇒ K =
Llamamos frecuencia absoluta al número de frutas observados en
cada una de las categorı́as:
n1 = 23, n2 = 5, n3 = 20, n4 = 7, n5 = 15 ⇒ n =
ni
se
La proporción de datos observados en cada clase fi =
n
denomina frecuencia relativa. Observemos que siempre fi ≥ 0 y
f1 + f2 + . . . + fK = 1.
f1 = , f2 = , f3 = , f4 = , f5 =
.
Representaciones gráficas: diagrama de barras, diagrama de
sectores,. . .
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
6
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
7
Variables cuantitativas
Miden algo cuantificable en cada individuo. Toman valores
numéricos. Las denotamos por X , Y , Z , ...
Si la variable cuantitativa sólo puede tomar una cantidad finita o
numerable de valores entonces es una variable discreta. Es habitual
que una variable discreta tome valores enteros.
Ejemplos: Número de hijos de una familia, número de goles de un
equipo en cada partido, número de accesos diarios a una página
web.
Las variables continuas toman valores en un intervalo.
Ejemplos: La estatura de una persona, el nivel de alcohol en
sangre de un individuo, el contenido en hierro de un mineral.
En la práctica siempre hay un lı́mite de precisión en el número de
dı́gitos con el que expresamos una variable continua.
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
8
La variable y su muestra
• Normalmente, los valores que toma una variable X en una
muestra de tamaño n se denotan de manera genérica por
x1 , x2 , . . . , xn .
• La distribución de una variable viene determinada por los valores
que toma esa variable y la frecuencia con la que los toma.
• La frecuencia absoluta de un valor (o de un intervalo) es el
número de individuos para los que la variable toma ese valor (o
pertenece a ese intervalo).
• La frecuencia relativa es igual a la frecuencia absoluta dividida
por el número total de datos n.
• La frecuencia relativa siempre es un número entre 0 y 1.
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
9
Aspectos interesantes de una distribución
1
Su posición: en torno a qué valor central toma valores la
variable.
2
Su dispersión: el grado de concentración de los valores que
toma la variable alrededor de su posición central.
3
Su forma: por ejemplo, la simetrı́a, es decir, si los valores se
reparten de la misma forma a uno y otro lado del centro.
Piensa en dos conjuntos de 5 datos que tengan:
(a) La misma posición y distinta dispersión.
(b) La misma dispersión y distinta posición.
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
10
Descripción gráfica de variables cuantitativas
Variables discretas: diagrama de barras
Ejemplo 1.2: Se realiza un examen tipo test con 5 preguntas a un
grupo de estudiantes.
No respuestas No estudiantes (n ) Frecuencia
i
correctas
relativa fi
0
3
1
11
2
9
3
20
4
5
5
2
n=
1
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Frecuencia
acumulada Fi
Tema 1: Análisis exploratorio de datos
11
20
Recuento
15
10
5
0
0
1
2
3
4
5
Respuestas
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
12
Variables continuas: histograma
Se agrupan los datos en una serie de intervalos A1 , . . . , Ak .
Calculamos la frecuencia absoluta ni de cada intervalo Ai (no de
observaciones que caen en Ai ). Cada dato debe pertenecer a sólo
una clase.
Se representan los lı́mites de los intervalos sobre el eje horizontal.
Luego se dibujan rectángulos cuya base es el intervalo Ai y cuya
altura es la frecuencia absoluta del mismo (ni ).
En la práctica, dadas unas observaciones, elegimos nosotros el
lı́mite inferior del primer intervalo y la amplitud.
Por ejemplo, se determina primero el rango de valores de los datos
(máximo - mı́nimo de las observaciones).
Luego se subdivide el rango en k intervalos iguales. Es habitual
√
tomar k ' n, siendo n el número total de observaciones.
A veces se utiliza la frecuencia relativa fi en lugar de la frecuencia
absoluta ni .
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
13
Ejemplo 0 (contaminación por mercurio en el pescado):
Mı́nimo = 0,11
Máximo = 3,60
Rango = 3,49
√
√
n = 171 → n ' 13 → Rango/ n ' 0, 27
50
Frecuencia
40
30
20
10
0
0
1
2
3
4
CONC
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
14
Con SPSS:
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
15
La forma del histograma depende del número de intervalos:
50
40
Recu ento
Recuento
75
50
30
20
25
10
0
1,00
2,00
3,00
CONC
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
1,00
2,00
3,00
CONC
Tema 1: Análisis exploratorio de datos
16
Aspectos a tener en cuenta para interpretar un histograma:
• Normalmente la base de todos los rectángulos es la misma por
lo que la altura es proporcional a la frecuencia.
• Identificar si se han usado frecuencias absolutas o relativas.
• ¿Cuántas modas hay?
• ¿Hay algún dato atı́pico en relación al resto?
• ¿Es simétrica la distribución?
• En caso de asimetrı́a, ¿es asimétrica a la izquierda o a la
derecha?
• ¿En torno a qué valor aproximado están centrados los datos?
• ¿Están muy dispersos los datos en torno a este centro o muy
concentrados?
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
17
50
40
40
30
30
20
20
10
10
0
Distribución simétrica unimodal
0
100
100
80
80
60
60
40
40
20
20
0
Distribución asimétrica a la derecha
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
0
Distribución simétrica bimodal
Distribución asimétrica a la izquierda
Tema 1: Análisis exploratorio de datos
18
Ejemplo 1.3 (grasa en carne picada) (Bower 2009, Statistical
Methods for Food Science): En el fichero GrasaCarnePicada.txt
aparece el porcentaje de grasa en porciones de carne picada a la venta.
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
19
Indicación: Para hacer histogramas con la hoja de cálculo Excel hay que
tener instalada la herramienta Análisis de datos. Si no está instalada,
realizar lo siguiente:
Paso 1:
Paso 2:
Paso 3:
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
20
Resumen numérico de datos cuantitativos
Medidas de centralización, posición o localización
Informan acerca de la posición alrededor de la cual se “centran” o
distribuyen los datos x1 , . . . , xn (muestra aleatoria).
Pn
xi
x1 + x2 + . . . + xn
media muestral = x̄ =
= i=1
n
n
Ejemplo 1.2 (cont.):
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
21
Ejemplo 1.3 (cont.):
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
22
Algunas propiedades:
• La suma de las desviaciones a la media siempre es igual a cero:
(x1 − x̄) + (x2 − x̄) + · · · + (xn − x̄) = 0.
Esto significa que x̄ es el centro de gravedad de los datos.
• Si la distribución es muy asimétrica, la media puede distorsionar
nuestra percepción de cómo son los datos.
• La media es muy sensible a la existencia de datos atı́picos.
Ejemplo 1.4 (Ranking ATP): En el fichero ATP2014.txt
aparece la clasificación de los tenistas de la ATP con sus ingresos.
Calcular los ingresos medios de un tenista entre los 100 primeros
puestos y luego entre los 200.
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
23
Posición de la media en un histograma:
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
24
La mediana es el dato que ocupa el lugar central respecto a los
datos ordenados x(1) , x(2) , . . . , x(n) .
Si el tamaño muestral es impar (n = 2m + 1), med = x(m+1) .
Ejemplo 1.3 (grasa en carne picada): Calcular la mediana.
La mediana es más robusta que la media.
Pregunta: ¿Cuál es la relación entre la simetrı́a de una
distribución y la posición relativa entre la media y la mediana?
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
25
x(m) + x(m+1)
.
2
Ejemplo 1.5: Contaminación por metilmercurio (p.p.m.) en el
sushi de atún obtenido en 10 tiendas:
Si el tamaño muestral es par (n = 2m), med =
0,60 0,40 0,74 0,30 0,79 0,35 0,55 1,90 0,21 0,58
Calcular la media y la mediana.
Ejemplo 1.4 (Ranking ATP):
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
26
Medidas de dispersión o variabilidad
Dispersión respecto a la media
La media es un valor representativo de la variable de interés en la
población o en la muestra. Por tanto, es útil para comparar
poblaciones o muestras entre sı́.
Sin embargo, lo bien o lo mal que la media represente a la muestra
depende de la dispersión de ésta.
Si los datos están agrupados cerca de la media, ésta será muy
representativa de la localización de los datos.
Por el contrario, si los datos están muy dispersos, la media no
será un buen representante de las observaciones.
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
27
Ejemplo 1.6:
2
0
1
6
No alumnos grupo A
No alumnos grupo B
No alumnos grupo C
3
0
5
12
4
0
15
14
obtenida
6
7
60 0
31 18
24 9
Grupo B
60
50
50
50
40
40
40
30
20
20
10
10
0
2
3
4
5
6
7
8
9
10
Frecuencia
60
30
0
8
0
4
3
9
0
1
5
10
0
1
9
Grupo C
60
Frecuencia
Frecuencia
Grupo A
Nota
5
40
24
18
30
20
10
2
3
4
Nota
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
5
6
Nota
7
8
9
10
0
2
3
4
5
6
7
8
9
10
Nota
Tema 1: Análisis exploratorio de datos
28
Podemos medir las discrepancias de los individuos respecto a la
media mediante las diferencias
x1 − x̄, x2 − x̄, . . . , xn − x̄.
Desventaja: La suma de estas discrepancias es cero.
Por ello definimos las discrepancias de los individuos respecto a la
media como las diferencias al cuadrado
(x1 − x̄)2 , (x2 − x̄)2 , . . . , (xn − x̄)2 .
Cuantificamos la dispersión de la muestra x1 , . . . , xn en torno a la
media mediante la varianza muestral
n
s2 =
1 X
(xi − x̄)2 .
n−1
i=1
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
29
Ejemplo 1.6 (notas en grupos A, B y C):
Ejemplo 1.5 (metilmercurio en sushi):
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
30
Una medida más conveniente de la dispersión es la desviación
tı́pica, que se define como la raı́z cuadrada de la varianza y se
expresa en las mismas unidades que X y x̄:
Ejemplo 1.5:
Para comparar la dispersión de variables de magnitudes distintas a
s
veces se usa el coeficiente de variación CV = . El CV no depende
x̄
de las unidades de medida de la variable X (es adimensional). A
mayor CV, menos representativa es la media x̄.
Ejemplo 1.3 (grasa en carne picada):
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
31
Dispersión respecto a la mediana
Q1 = Primer cuartil= Valor tal que el 25 % de los datos de la
muestra son menores que Q1 y el 75 % de los datos son mayores.
Q2 = Mediana= Valor que deja por debajo y por encima sendas
mitades de la muestra.
Q3 = Tercer cuartil= Valor que deja el 75 % de los datos por
debajo (los menores) y el 25 % de los datos por encima.
Para calcular los cuartiles de una muestra ordenamos las
observaciones x1 , x2 , . . . , xn de menor a mayor: x(1) , x(2) , . . . , x(n) .
Existen varios métodos, por lo que distintos programas
informáticos pueden dar distintos cuartiles para una misma
muestra. Todos ellos hacen una media ponderada de dos
observaciones consecutivas x(j) y x(j+1) de la muestra ordenada
que aproximadamente dejan una cierta proporción de los datos “a
la izquierda”. Para tamaños muestrales grandes, los resultados de
todos los métodos son parecidos.
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
32
En general, para p ∈ (0, 1) se llama cuantil p, qp , o percentil 100p
al valor que deja el 100p % de los datos “a la izquierda” (es decir,
el 100p % de los datos son menores que él) y el resto “a la
derecha” (es decir, son mayores). Ası́, q0.25 = Q1 , q0.75 = Q3 .
Si n + 1 es múltiplo de 4, podemos tomar
n+1
4
3(n + 1)
Q3 = La observación x(i) que ocupa el lugar
4
Si p(n + 1) no es un número entero, entonces se pondera entre las
observaciones ordenadas que están en la posición [p(n + 1)] y
[p(n + 1)] + 1, donde [z] denota la parte entera de z:
Q1 = La observación x(i) que ocupa el lugar
p(n + 1) = j + m
con j entero y 0 ≤ m < 1
qp = (1 − m)x(j) + m x(j+1)
Si p < 1/(n + 1), se toma qp = x(1) . Si p ≥ n/(n + 1) se toma
qp = x(n) .
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
33
Ejemplo 1.5 (metilmercurio en sushi):
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
34
De acuerdo con las anteriores definiciones, responde a las
siguientes cuestiones:
¿Qué porcentaje de datos hay...
(a) ... entre Q1 y Q3 ?
(b) ... a la izquierda de Q1 ?
(c) ... a la derecha de Q3 ?
(d) ... entre el mı́nimo y Q3 ?
Una descripción útil de un conjunto de datos viene dada por los
cinco números siguientes:
Mı́nimo, Q1 , Mediana, Q3 , Máximo
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
35
Ejemplo 1.4 (Ranking ATP): Para los 100 primeros tenistas
q0.1 = 321354 q0.25 = Q1 = 390939
q0.75 = Q3 = 857837 q0.9 = 1600987
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
36
El rango intercuartı́lico (RI) es la diferencia entre el primer y el
tercer cuartil: RI = Q3 − Q1 .
Si separamos los datos ordenados en cuatro grupos del mismo
tamaño, el RI mide la distancia entre los grupos más extremos.
Para visualizar estas medidas de dispersión respecto a la mediana
se utiliza el diagrama de caja (box plot).
Para construir el diagrama de caja de la muestra, calculamos Q1 ,
Q2 , Q3 , RI y los lı́mites inferior y superior del diagrama
LI
=
LS
=
La menor observación en el intervalo
[Q1 − 1.5 · RI, Q3 + 1.5 · RI]
La mayor observación en el mismo intervalo
Consideramos que un dato xi que se salga del intervalo [LI,LS] es
un dato atı́pico o outlier.
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
37
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
38
0.5
1.0
1.5
Ejemplo 1.5 (metilmercurio en sushi):
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
39
Excel no dibuja boxplots, pero hay applets en la web para dibujar
diagramas de caja sencillos, por ejemplo,
www.shodor.org/interactivate/activities/BoxPlot/
Ejemplo 1.4 (Ranking ATP): Para los 100 primeros tenistas
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
40
Los diagramas de caja son especialmente útiles para comparar
varios conjuntos de datos.
Ejemplo 0 (contaminación por mercurio en el pescado):
4,00
162
70
CONC
66
2,00
0,00
,00
1,00
RIO
Concentración del mercurio según el rı́o
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
41
4,00
66
CONC
123
2,00
24
25
76
138
82
75
0,00
,00
1,00
2,00
3,00
4,00
5,00
6,00
7,00
8,00
9,00
10,00 11,00 12,00 13,00 14,00 15,00
ESTACION
Concentración de mercurio según la estación
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
42
7
Relaciona cada histograma con su diagrama de cajas
●
●
●
●
1
−1
4
2
0
5
3
1
4
6
2
5
●
●
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
●
●
0
3
−2
●
Tema 1: Análisis exploratorio de datos
43
Cuestiones:
Da un ejemplo de un conjunto de datos tal que s 2 = 0.
Dado un conjunto de observaciones medidas en kg, supongamos
que cambiamos las unidades y las pasamos a gramos (es decir,
multiplicamos por mil). Determina si son verdaderas o falsas las
siguientes afirmaciones:
• Tanto la media como la mediana de los nuevos datos se
multiplican también por mil.
• La varianza se multiplica también por mil.
¿Cómo cambiarı́a la desviación tı́pica?
Ahora sumamos 100 a todos los datos. Determina si son
verdaderas o falsas las siguientes afirmaciones:
• Los cuartiles no cambian.
• El rango intercuartı́lico no cambia.
• La desviación tı́pica no cambia.
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
44
Ejemplo 0 (contaminación por mercurio en el pescado):
Descripción numérica univariante con SPSS
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
45
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
46
Estadísticos
N
Válidos
Perdidos
Media
Error típ. de la media
PESO
171
CONC
171
0
0
0
39,9708
1147,9123
1,1918
,65132
66,95359
,05825
Mediana
39,0000
873,0000
,9300
Desv. típ.
8,51715
875,53176
,76166
Varianza
72,542
766555,869
,580
Rango
39,80
4308,00
3,49
Mínimo
25,20
203,00
,11
Máximo
Percentiles
LONG
171
65,00
4511,00
3,60
25
33,3000
491,0000
,5900
50
39,0000
873,0000
,9300
75
46,2000
1455,0000
1,6000
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
47
Cuestiones:
• Calcula el coeficiente de variación de las tres variables.
¿Qué se deduce sobre la dispersión de los valores que toman?
• Comparando los valores de la media y la mediana, ¿cuál de las
tres distribuciones parece ser más simétrica?
• Verdadero o falso: Al menos para 100 peces, la concentración
de mercurio es superior a 0.93 ppm.
• Verdadero o falso: La longitud de aproximadamente 42 peces
es mayor que 25.20 cm y menor que 33.3 cm.
• ¿Cuál es el rango intercuartı́lico de la variable que mide el
peso de los peces?
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
48
Estadı́stica descriptiva de dos variables (bivariante)
Ahora estamos interesados en dos variables estadı́sticas X e Y o
un vector bidimensional (X , Y ) en cada individuo de una población.
X −→ x1 , x2 , . . . , xn
−→ (x1 , y1 ), . . . , (xn , yn )
Y −→ y1 , y2 , . . . , yn
A partir de la información muestral deseamos encontrar una
relación funcional aproximada entre Y y X : Y ' g (X ). A g la
llamamos la función de regresión de Y sobre X .
Se comienza estudiando el diagrama de dispersión de Y frente a X .
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
49
Ejemplo 1.7 (sabor del queso cheddar) (Moore y McCabe 1989,
Introduction to the Practice of Statistics):
A medida que el queso se añeja, se producen procesos quı́micos
que determinan el sabor del producto final. En 30 porciones de
queso cheddar curado se evaluó el sabor (Y ) y se midió la
concentración de ácido láctico (X ). La variable sabor resulta de la
combinación de puntuaciones dadas por varios degustadores.
Caso
Sabor
Ac. Láctico
Caso
Sabor
Ac. Láctico
Caso
Sabor
Ac. Láctico
1
12.3
0.86
11
34.9
1.68
21
14.0
1.15
2
20.9
1.53
12
57.2
1.90
22
15.2
1.33
3
39.0
1.57
13
0.7
1.06
23
32.0
1.44
4
47.9
1.81
14
25.9
1.30
24
56.7
2.01
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
5
5.6
0.99
15
54.9
1.52
25
16.8
1.31
6
25.9
1.09
16
40.9
1.74
26
11.6
1.46
7
37.3
1.29
17
15.9
1.16
27
26.5
1.72
8
21.9
1.78
18
6.4
1.49
28
0.7
1.25
Tema 1: Análisis exploratorio de datos
9
18.1
1.29
19
18.0
1.63
29
13.4
1.08
10
21.0
1.58
20
38.9
1.99
30
5.5
1.25
50
60
50
Sabor
40
30
20
10
0
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
Ácido láctico
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
51
Interpretación de un diagrama de dispersión:
• ¿Se observa alguna asociación entre las variables?
• ¿Cómo es de estrecha la asociación entre las variables?
• ¿Qué forma tiene la asociación entre variables (recta,
cuadrática, ...)?
• ¿Cuál es la “dirección” de la asociación entre las variables?
• ¿Hay algún punto o colección de puntos que no siga el patrón
general del resto?
• Si hay una tercera variable cualitativa, resulta conveniente
utilizar sı́mbolos o colores diferentes para cada valor de esta
tercera variable.
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
52
El modelo más sencillo es el de regresión lineal, en el que Y es
función lineal de X , es decir, g (x) = a + bx, recta de pendiente b
y ordenada en el origen a.
Covarianza muestral entre X e Y :
covx,y =
n
n
i=1
i=1
1X
1X
(xi − x̄)(yi − ȳ ) =
xi yi − x̄ ȳ
n
n
Depende de las unidades en que se midan x e y .
Ejemplo 1.7 (sabor del queso cheddar):
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
53
La recta de regresión de Y sobre X es la recta g (x) = a + bx que
minimiza el error cuadrático medio
n
1X
ECM =
(yi − a − bxi )2 .
n
i=1
b=
covx,y
vx
a = ȳ − bx̄
Ejemplo 1.7 (sabor del queso cheddar):
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
54
Ejemplo 1.7 (sabor del queso cheddar):
60
50
Sabor
40
30
20
10
0
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
Ácido láctico
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
55
El coeficiente de correlación
covx,y
r=√
vx vy
mide el grado de relación lineal entre X e Y .
r
vx
Obsérvese que r = b
. Por tanto, r y b tienen el mismo signo.
vy
La correlación r sólo puede tomar valores entre -1 y 1.
No depende de las unidades (es adimensional).
Una correlación r cercana a 1 indica un alto grado de ajuste lineal
de y en términos de x. Se dice que hay una alta “correlación
positiva” o “relación lineal directa” entre ambas variables (en el
sentido de que al aumentar los valores de una de ellas esperamos
que aumenten los correspondientes valores de la otra).
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
56
Un r cercano a -1 indica también un alto grado de ajuste lineal de
y en términos de x pero en este caso hay una “correlación
negativa” o “relación lineal inversa” entre ambas variables.
Un r cercano a 0 se interpreta como una débil asociación lineal
entre x e y .
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
57
Ejemplo 1.7 (sabor del queso cheddar): Cálculo de la recta de
regresión con Excel
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
58
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
59
Ejemplo 1.7 (sabor del queso cheddar): Análisis con SPSS
Estadísticos descriptivos
Sabor
N
30
Rango
56,5
Mínimo
,7
Máximo
57,2
Suma
736,0
Media
24,533
Desv. típ.
16,2554
Varianza
264,237
Ác. Lactico
30
1,15
,86
2,01
43,26
1,4420
,30349
,092
N válido (según lista)
30
Correlaciones
Sabor
Sabor
1
Ác. Láctico
**
,704
7662,887
100,753
264,237
3,474
30
30
Correlación de Pearson
Sig. (bilateral)
,000
Suma de cuadrados y
productos cruzados
Covarianza
N
Ác. Láctico
Correlación de Pearson
Sig. (bilateral)
Suma de cuadrados y
productos cruzados
Covarianza
N
,704
**
1
,000
100,753
2,671
3,474
,092
30
30
**. La correlación es significativa al nivel 0,01 (bilateral).
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
60
Ejemplo 1.7 (sabor del queso cheddar): Análisis con SPSS
Regresión
b
Variables introducidas/eliminadas
Modelo
1
Variables
introducidas
a
Ac. Lactico
Variables
eliminadas
Método
Introducir
.
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: Sabor
Resumen del modelo
R
a
,704
Modelo
1
R cuadrado
,496
R cuadrado
corregida
,478
Error típ. de la
estimación
11,7450
a. Variables predictoras: (Constante), AcLactico
b
ANOVA
Modelo
1
Regresión
Suma de
cuadrados
3800,398
1
Media
cuadrática
3800,398
137,946
gl
Residual
3862,489
28
Total
7662,887
29
F
27,550
Sig.
a
,000
a. Variables predictoras: (Constante), AcLactico
b. Variable dependiente: Sabor
a
Coeficientes
Coeficientes no estandarizados
Modelo
1
(Constante)
AcLactico
B
-29,859
Error típ.
10,582
37,720
7,186
Coeficientes
tipificados
Beta
,704
t
-2,822
Sig.
,009
5,249
,000
a. Variable dependiente: Sabor
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
61
Ejemplo 0 (contaminación por mercurio en el pescado):
Covarianzas y correlaciones con SPSS
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
62
Correlaciones
LONG
LONG
PESO
CONC
Correlación de Pearson
Sig. (bilateral)
Suma de cuadrados y
productos cruzados
Covarianza
N
Correlación de Pearson
Sig. (bilateral)
Suma de cuadrados y
productos cruzados
Covarianza
N
Correlación de Pearson
Sig. (bilateral)
Suma de cuadrados y
productos cruzados
Covarianza
N
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
1
PESO
,900
,000
CONC
,650
,000
12332,114
1141004
716,835
72,542
171
,900
,000
6711,790
171
1
4,217
171
,554
,000
1141004
1E+008
62786,546
6711,790
171
,650
,000
766555,9
171
,554
,000
369,333
171
1
716,835
62786,546
98,622
4,217
171
369,333
171
,580
171
Tema 1: Análisis exploratorio de datos
63
Transformaciones
A menudo la relación lineal g (x) = a + bx no será la que mejor
describa la relación entre X e Y , o simplemente no tendrá sentido.
Ejemplo 1.8 (alcalinidad y mercurio en lagos): En 1990 y 1991
se tomaron muestras de percas y agua en 53 lagos de Florida para
estudiar factores ambientales relacionados con la contaminación
por mercurio (ppm) en estos peces. Se midió, por ejemplo, la
alcalinidad del agua (mg CaCO3 l−1 ).
Alcalinidad media frente a concentración media de mercurio para los 53 lagos
Concentración de mercurio
1.4
1.2
1
0.8
0.6
0.4
0.2
0
0
20
40
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
60
80
100
Alcalinidad
120
140
Tema 1: Análisis exploratorio de datos
64
Ejemplo 1.8 (alcalinidad y mercurio en lagos):
Lago
Alligator
Annie
Apopka
Blue Cypress
Brick
Bryant
Cherry
Crescent
Deer Point
Dias
Dorr
Down
Eaton
East Tohopekaliga
Farm-13
George
Griffin
Harney
Hart
Hatchineha
Iamonia
Istokpoga
Jackson
Josephine
Kingsley
Kissimmee
Alcalinidad
5.9
3.5
116.0
39.4
2.5
19.6
5.2
71.4
26.4
4.8
6.6
16.5
25.4
7.1
128.0
83.7
108.5
61.3
6.4
31.0
7.5
17.3
12.6
7.0
10.5
30.0
Mercurio
1.23
1.33
0.04
0.44
1.20
0.27
0.48
0.19
0.83
0.81
0.71
0.50
0.49
1.16
0.05
0.15
0.19
0.77
1.08
0.98
0.63
0.56
0.41
0.73
0.34
0.59
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Lago
Lochloosa
Louisa
Miccasukee
Minneola
Monroe
Newmans
Ocean Pond
Ocheese Pond
Okeechobee
Orange
Panasoffkee
Parker
Placid
Puzzle
Rodman
Rousseau
Sampson
Shipp
Talquin
Tarpon
Tohopekaliga
Trafford
Trout
Tsala Apopka
Weir
Wildcat
Yale
Alcalinidad
55.4
3.9
5.5
6.3
67.0
28.8
5.8
4.5
119.1
25.4
106.5
53.0
8.5
87.6
114.0
97.5
11.8
66.5
16.0
5.0
25.6
81.5
1.2
34.0
15.5
17.3
71.8
Tema 1: Análisis exploratorio de datos
Mercurio
0.34
0.84
0.50
0.34
0.28
0.34
0.87
0.56
0.17
0.18
0.19
0.04
0.49
1.10
0.16
0.10
0.48
0.21
0.86
0.52
0.65
0.27
0.94
0.40
0.43
0.25
0.27
65
Si modelizamos la relación entre X e Y incorrectamente, nuestro
modelo no dará predicciones fiables de valores desconocidos de Y
en función de valores conocidos de X .
Una solución sencilla es transformar las variables Y y/o X
mediante una función no lineal (log x, x 2 , e x , . . . ) y calcular la
recta de regresión entre las variables transformadas.
1
1
0
0
−1
−1
log(y)
log(y)
Ejemplo 1.8 (alcalinidad y mercurio en lagos):
−2
−3
−4
0
−2
−3
20
40
60
80
100
120
140
−4
0
1
x
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
66
Ejemplo 1.8 (alcalinidad y mercurio en lagos):
Transformar una variable tiene efectos sobre su media, su varianza,
su simetrı́a, ...
8
10
Media =0,53
Desviación típica =0,341
N =53
Media =-0,91
Desviación típica =0,839
N =53
8
Frecuencia
Frecuencia
6
4
2
0
6
4
2
0
0,00 0,25 0,50 0,75 1,00 1,25
Mercurio
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
-4
-3
-2
-1
0
1
LogMercurio
Tema 1: Análisis exploratorio de datos
67
Ejemplo 1.9: Peso del cerebro (en g) en función del peso corporal
(en kg) para 62 especies de mamı́feros (Fuente: Allison &
Sacchetti 1976, Science)
6000
10
Elefante africano
4000
8
Log(Peso cerebro)
Peso cerebro (en g)
5000
Elefante asiático
3000
2000
Humano
6
4
2
0
1000
−2
0
0
2000
4000
6000
Peso cuerpo (en kg)
8000
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
−5
0
5
Log(Peso cuerpo)
Tema 1: Análisis exploratorio de datos
10
68
Ejemplo 0 (contaminación por mercurio en el pescado):
Transformaciones con SPSS
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
69
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
70
Estandarización o tipificación
Estandarizar o tipificar consiste en restarle a cada observación la
media de todos los datos y dividir por la desviación tı́pica:
zi =
xi − x̄
s
El valor zi representa la distancia de xi a la media en unidades de
desviación tı́pica (zi > 0 si y sólo si xi > x̄).
Utilidad de la tipificación
• Eliminar los efectos de las unidades de medida, ya que la
variable z = (x − x̄)/s es adimensional.
• Detectar posibles valores atı́picos en los datos.
• Realizar comparaciones de los valores de una variable en
diferentes poblaciones.
Preguntas: ¿Cuánto vale la media de los datos estandarizados? ¿Y
su desviación tı́pica?
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
71
Efecto de estandarizar un conjunto de datos
−4
−2
0
2
4
6
8
4
6
8
4
6
8
Datos originales
−4
−2
0
2
Datos centrados (media cero)
−4
−2
0
2
Datos estandarizados (media cero y varianza uno)
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
72
Ejemplo 1.10 (Calorı́as y contenido en sodio en salchichas):
Se ha considerado la cantidad de calorı́as y de sodio en salchichas
de varias marcas de cada uno de los tipos siguientes:
• Carne de ternera
• Mezcla (hasta 15 % de carne de pavo)
• Carne de pavo
Nombre variable
tipo
calorias
sodio
Descripción
Tipo de carne (1=ternera, 2=mezcla, 3=pavo)
Cantidad de calorı́as
Cantidad de sodio
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
73
Estadísticos
Medidas descriptivas numéricas
N
Media
Error típ. de la media
Mediana
Desv. típ.
Varianza
Mínimo
Máximo
Percentiles
Válidos
Perdidos
25
50
75
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
calorias
54
0
146,6111
3,95691
146,0000
29,07727
845,487
86,00
195,00
132,0000
146,0000
173,5000
sodio
54
0
424,8333
13,04440
405,0000
95,85637
9188,443
144,00
645,00
359,7500
405,0000
506,2500
Tema 1: Análisis exploratorio de datos
74
50
75
146,0000
173,5000
405,0000
506,2500
Diagramas
de caja
calorias
200,00
180,00
calorias
160,00
140,00
120,00
100,00
80,00
1
2
3
tipo
700,00
sodio
600,00
sodio
500,00
400,00
300,00
200,00
33
Página 1
100,00
1
2
3
tipo
4
3
Estadı́stica Aplicada
(NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
75
3
tipo
Histogramas de la cantidad de calorı́as
4
3
3
2
1
0
3
tipo
2
Frecuencia
4
2
1
0
4
3
1
2
1
0
80,00
100,00
120,00
140,00
160,00
180,00
200,00
calorias
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
76
Histogramas de la cantidad de sodio
6
3
4
2
6
tipo
2
Frecuencia
0
4
2
0
6
1
4
2
0
100,00
200,00
300,00
400,00
500,00
600,00
700,00
sodio
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
77
Diagrama de dispersión
tipo
1
2
3
200,00
180,00
calorias
160,00
140,00
120,00
100,00
80,00
100,00
200,00
300,00
400,00
500,00
600,00
700,00
sodio
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
78
\estap\datos\hotdogs.sav
Covarianzas y correlaciones
Correlaciones
calorias
calorias
sodio
Correlación de Pearson
Sig. (bilateral)
Suma de cuadrados y
productos cruzados
Covarianza
N
Correlación de Pearson
Sig. (bilateral)
Suma de cuadrados y
productos cruzados
Covarianza
N
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
1
sodio
,516
,000
44810,833
76233,500
845,487
54
,516
,000
1438,368
54
1
76233,500
486987,50
1438,368
54
9188,443
54
Tema 1: Análisis exploratorio de datos
79
Cuestiones:
• (V ó F) Aproximadamente 27 marcas de salchichas tienen entre
132 y 173 calorı́as.
• ¿Cuál es el rango intercuartı́lico de la cantidad de sodio?
• Calcula el coeficiente de variación de ambas variables.
• (V ó F) Aproximadamente 13 marcas de salchichas tienen un
contenido de sodio entre 506.25 y 645.
• (V ó F) Con la información disponible en la tabla de medidas
descriptivas numéricas es posible calcular la correlación entre
ambas variables.
• (V ó F) Al menos el 75 % de las marcas de salchichas de mezcla
tienen más sodio que la mediana de las marcas de ternera.
• Identifica en el diagrama de dispersión el dato atı́pico que se
observa en los diagramas de cajas.
Estadı́stica Aplicada (NHyD). Profesora: Amparo Baı́llo
Tema 1: Análisis exploratorio de datos
80
Descargar