Análisis estadístico básico (I) - Universitat de les Illes Balears

Anuncio
Análisis estadístico básico (I)
Magdalena Cladera Munar
mcladera@uib.es
Departament d’Economia Aplicada
Universitat de les Illes Balears
CONTENIDOS
ƒ Introducción a la inferencia estadística.
ƒ Muestreo.
ƒ Estimación de parámetros.
ƒ Contrastación de hipótesis.
ƒ Asociación de variables categóricas.
ƒ Tablas de contingencia.
ƒ Medidas de asociación.
REFERENCIAS
ƒ Alegre, J. y Cladera, M. (2003). Introducción a la Estadística
Descriptiva para Economistas. Materials Didàctics UIB, 101.
Palma de Mallorca.
ƒ Newbold, P. (1997). Estadística para los Negocios y la
Economía. Prentice-Hall. Madrid.
ƒ Peña, D. y Romo, D. (1997). Introducción a la Estadística
para las Ciencias Sociales. McGrawHill. Madrid.
ƒ Pardo, A. y Ruíz, M. A. (2001). SPSS 10.0. Guía para el
análisis de datos. Accesible en:
http://www.uca.es/serv/ai/formacion/spss/Inicio.pdf.
ƒ Pérez, C. (2001). Técnicas Estadísticas con SPSS, Prentice
Hall, Madrid.
Inferencia estadística
Contenidos:
ƒ Muestreo.
ƒ Estimación de parámetros.
ƒ Contrastación de hipótesis.
Inferencia estadística
Objetivo: extraer conclusiones sobre una población a partir
de la información contenida en un subconjunto de elementos
extraídos de la misma, es decir, una muestra.
En el contexto de la inferencia estadística se supone que en
la población se estudia una variable aleatoria, X, con una
determinada función de probabilidad, caracterizada por un/os
parámetro/s. Mediante el análisis de las observaciones
contenidas en una muestra extraída de esta población, se
querrán obtener aproximaciones de las características de la
distribución poblacional de X, y utilizar esta información para
contrastar hipótesis sobre la misma.
Inferencia estadística
Ejemplo. Coste en farmacia por habitante de los EAP.
Inferencia estadística
Conceptos:
ƒPoblación. Conjunto de todos los elementos que se quieren analizar.
ƒMuestra. Subconjunto de la población seleccionado para el análisis,
cuando no es posible estudiar toda la población.
ƒParámetro. Medida estadística de una variable en la población.
ƒEstimación. Valor obtenido a partir de la muestra, que se utiliza como
aproximación al valor de un parámetro.
ƒEstimador. Función matemática que se aplica a las observaciones
muestrales para obtener estimaciones. Es una variable aleatoria.
Inferencia estadística
Procedimientos:
ƒEstimación de parámetros. Obtención de aproximaciones
al valor de parámetros poblacionales a partir de una muestra.
ƒ Puntual. Se obtiene un único valor como aproximación
al valor del parámetro poblacional.
ƒ Por intervalos. Se obtiene un rango de valores como
aproximación al valor del parámetro.
ƒContraste de hipótesis. Utilización de la información
muestral para comprobar la validez de una afirmación sobre
una característica de la población.
Inferencia estadística
Etapas de un estudio de muestreo:
1) ¿Qué infomación se
necesita?
6) ¿Qué conclusiones pueden
extraerse sobre la población?
2) ¿Cuál es la población
relevante? ¿Es posible
analizarla?
Métodos de muestreo
Estimación
5) ¿Cómo se utilizará la
información de la muestra para
realizar inferencias sobre la
población?
3) ¿Cómo se seleccionan los
elementos de la muestra?
¿Cuántos?
Contrastación
4) ¿Cómo se obtiene la
información de los elementos de
la muestra?
Determinación del tamaño
muestral
Inferencia estadística
Estimación puntual:
POBLACIÓN
MUESTRA
Observaciones
muestrales
(x1, x2, x3,..., xn)
X
Parámetro
ación
Aproxim
Estimación
Estimador
Inferencia estadística
Estimación puntual:
Estimadores más utilizados.
Parámetro
Estimador
n
Media (µ)
Media muestral
x=
∑x
i =1
n
n
Varianza (σ )
2
Proporción (p)
Varianza muestral
Proporción muestral
Sˆ 2 =
∑ (x
i =1
i
i
− x)
n −1
pˆ =
n1
n
2
Inferencia estadística
Estimación por intervalos:
Un intervalo de confianza consiste en dos valores entre los
que se espera que esté contenido el verdadero valor del
parámetro con una determinada probabilidad.
Nivel de confianza: probabilidad de que el intervalo contenga
el verdadero valor del parámetro. 90%, 95% y 99% son los
más habituales.
Hay una relación positiva entre el nivel de confianza y la
amplitud del intervalo.
Hay una relación inversa entre el tamaño de la muestra y la
amplitud del intervalo.
Inferencia estadística
Ejemplo. Coste en farmacia por habitante de los EAP.
Descriptivos
Costes totales por
habitante (población
total) en euros
Media
Interv alo de conf ianza
para la media al 95%
Varianza
Desv . tí p.
Límite inf erior
Límite superior
Estadí st ico
136,7028
134,5845
138,8210
1353,248
36,78652
Inferencia estadística
Contraste de hipótesis:
Objetivo: comprobar la certeza de una afirmación sobre
alguna característica de la población, utilizando la información
contenida en una muestra extraída de dicha población.
Definiciones:
ƒHipótesis estadística. Afirmación sobre alguna característica de la
población.
ƒContraste de hipótesis. Comparación de la hipótesis con la realidad
observada (muestra), para decidir, con un margen de error
admisible, si esta realidad contradice o no la hipótesis.
ƒHipótesis nula (H0). Afirmación sobre una característica de la
población, de la que se quiere contrastar su validez.
ƒHipótesis alternativa (HA). Hipótesis por la que será substituida la
hipótesis nula, en caso de que la evidencia muestral la contradiga.
Inferencia estadística
Contraste de hipótesis:
Metodología. Para realizar un contraste de hipótesis se
necesita:
ƒ Un estadístico de contraste
ƒ Una regla de decisión. Para aplicar esta regla será
necesario fijar el nivel de significación del contraste (α).
Inferencia estadística
Contraste de hipótesis:
Ejemplo. Contraste sobre la igualdad de medias del gasto en
farmacia de la C.A. de Madrid y de las Illes Balears.
Estadísticos de grupo
Costes totales por
habitante (población
total) en euros
Nombre de la
Comunidad autónoma
Illes Balears
N
Madrid
Media
Desv iación
típ.
Error típ. de
la media
41
119,8415
26,98319
4,21407
289
102,2012
28,72670
1,68981
Prueba de muestras independientes
Prueba de Lev ene
para la igualdad de
v arianzas
F
Costes totales por
habitante (población
total) en euros
Se han asumido
v arianzas iguales
No se han asumido
v arianzas iguales
Sig.
,395
,530
Prueba T para la igualdad de medias
t
gl
Sig. (bilateral)
Dif erencia
de medias
Error típ. de
la dif erencia
95% Interv alo de
conf ianza para la
dif erencia
Inf erior
Superior
3,706
328
,000
17,64028
4,75951
8,27726
27,00330
3,885
53,705
,000
17,64028
4,54024
8,53650
26,74406
Asociación de variables categóricas
Instrumentos estadísticos:
ƒTablas de frecuencias conjuntas. Tablas de contingencia.
ƒEstadísticos de asociación.
Asociación de variables categóricas
Ejemplo. Relación entre la edad y la impresión sobre la
prestación de un servicio recibido.
Tabla de contingencia IMPRESIÓN * EDAD
Asociación de variables categóricas
Distribuciones marginales. Son las frecuencias (absolutas y
relativas) de cada una de las variables. Para ello es suficiente
con sumar todas las celdas correspondientes a cada una de
las filas o de las columnas.
Asociación de variables categóricas
Distribución de frecuencias relativas. Son las frecuencias
relativas de cada una de las celdas respecto al total de
observaciones
Asociación de variables categóricas
Perfiles fila (porcentajes fila). Recogen las frecuencias
relativas de cada una de las celdas con respecto al total de
las filas
Asociación de variables categóricas
Perfiles columna (porcentajes columna). Son las
frecuencias relativas de cada una de las celdas con respecto
al total de las columnas
Asociación de variables categóricas
Distribución de frecuencias conjuntas
Asociación de variables categóricas
Distribución de frecuencias marginales
Asociación de variables categóricas
Distribución conjunta de frecuencias relativas
Asociación de variables categóricas
Perfiles fila
Asociación de variables categóricas
Perfiles columna
Asociación de variables categóricas
Estadísticos de asociación:
Para variables nominales u ordinales:
chi-cuadrado
C de contingencia
lambda
Para variables ordinales
Gamma
Asociación de variables categóricas
Chi-Cuadrado y C de contingencia
Ejemplo. Relación entre la edad y la impresión sobre un
servicio.
Tabla de porcentajes columna (observada)
Asociación de variables categóricas
Chi-Cuadrado y C de contingencia
Ejemplo. Relación entre la edad y la impresión sobre un
servicio.
Tabla de porcentajes columna (esperada)
EDAD
MENOS
DE 30
AÑOS
IMPRESIÓN
Total
MUY
BUENA
BUENA
NORMAL
MALA
ENTRE
30 Y 45
ENTRE
45 Y 60
MÁS DE
60
AÑOS
Total
42,1%
42,1%
42,1%
42,1%
42,1%
44,3%
12,3%
1,4%
100
44,3%
12,3%
1,4%
100
44,3%
12,3%
1,4%
100
44,3%
12,3%
1,4%
100
44,3%
12,3%
1,4%
100
Asociación de variables categóricas
Chi-Cuadrado y C de contingencia
Ejemplo. Relación entre la edad y la impresión sobre un
servicio.
Tabla de frecuencias observadas
Tabla de frecuencias esperadas
EDAD
ENTRE 30 Y ENTRE 45
45
Y 60
MÁS DE
60 AÑOS
42,1%*2229
42,1%*1657 42,1%*755
42,1%*211
44,3%*2229
12,3%*2229
1,4%*2229
2229
44,3%*1657 44,3%*755
12,3%*1657 12,3%*755
1,4%*1657
1,4%*755
1657
755
44,3%*211
12,3%*211
1,4%*211
211
MENOS DE
30 AÑOS
IMPRESIÓN
Total
MUY
BUENA
BUENA
NORMAL
MALA
Total
Asociación de variables categóricas
Chi-Cuadrado y C de contingencia
Ejemplo. Relación entre la edad y la impresión sobre un
servicio.
Tabla de frecuencias esperadas
MENOS DE
30 AÑOS
IMPRESIÓN
Total
MUY
BUENA
BUENA
NORMAL
MALA
EDAD
ENTRE 30 Y ENTRE 45
45
Y 60
Total
MÁS DE
60 AÑOS
938,1
697,4
317,7
88,8
2042
987,2
273,3
30,3
2229
733,9
203,2
22,5
1657
334,4
92,6
10,3
755
93,5
25,9
2,9
211
2149
595
66
4852
Asociación de variables categóricas
Estadístico Chi-Cuadrado
MENOS DE
30 AÑOS
IMPRESIÓN
Total
MUY
BUENA
BUENA
NORMAL
MALA
EDAD
ENTRE 30 Y ENTRE 45
45
Y 60
Total
MÁS DE
60 AÑOS
938,1
697,4
317,7
88,8
2042
987,2
273,3
30,3
2229
733,9
203,2
22,5
1657
334,4
92,6
10,3
755
93,5
25,9
2,9
211
2149
595
66
4852
Asociación de variables categóricas
Estadístico Chi-Cuadrado
I
J
χ =∑∑
2
i =1 j =1
MENOS DE 30
AÑOS
IMPRESIÓN
MUY
BUENA
BUENA
NORMAL
MALA
1,46723164
0,89955429
0,08082693
0,24059406
(n
ij
− eij
)
eij
2
= 7,035
EDAD
ENTRE 30 Y ENTRE 45 Y
45
60
0,49607112
0,38916746
0,00019685
0,1
0,21683979
0,00586124
0,33866091
0,16407767
MÁS DE 60
AÑOS
1,17162162
1,4144385
0,04671815
0,00344828
Asociación de variables categóricas
Estadístico C de contingencia
χ2
C=
n +χ 2
Límite máximo:
1−
1
,
mín ( I, J )
mín (I, J ) ≥ 2
Asociación de variables categóricas
Estadístico C de contingencia
Ejemplo. Impresión sobre un servicio y edad
C=
7 ,035
= 0,038
4852+ 7 ,035
Límite máximo =
1−
1
= 0 ,866
4
Asociación de variables categóricas
Estadístico Lambda
Lambda toma valores entre cero y uno: 0 ≤
λ =0 ⇒
λ =1 ⇒
0<λ < 1 ⇒
λ ≤ 1:
La predicción condicionada no reduce el error original.
La predicción condicionada reduce el error original en un 100%.
El error de predicción se reduciría en un 100 ⋅ λ %
Estadístico Gamma (sólo para variables ordinales)
El estadístico gamma proporciona valores entre -1 y 1.
El grado más alto de asociación positiva entre dos variables se da cuando
El grado más alto de asociación negativa se da cuando
Un valor de
γ =0
γ = −1.
se interpreta como la ausencia de asociación.
γ =1 .
Asociación de variables categóricas
Asociación de variables categóricas. Ejemplo.
% de médicos con formación MIR y dispersión de la zona.
abla de contingencia Formación de médicos y pediatras. % de médicos y pediatras con formación MIR * Dispersión
ZBS (geográfi ca)
Recuent o
Formación de médicos
y pediatras. % de
médicos y pediatras
con f ormación MIR
0
inf erior al 34%
entre el 34% y el 66%
superior al 66%
Total
ZBS poco
dispersa
0
99
113
92
304
Dispersión ZBS (geográf ica)
ZBS bastante
dispersa
ZBS dispersa
0
2
84
158
61
34
25
9
170
203
ZBS muy
dispersa
21
308
22
2
353
Total
23
649
230
128
1030
abla de contingencia Formación de médicos y pediatras. % de médicos y pediatras con formación MIR * Dispersión
ZBS (geográfi ca)
% de Dispersión ZBS (geográf ica)
ZBS poco
dispersa
Formación de médicos
y pediatras. % de
médicos y pediatras
con f ormación MIR
Total
0
inf erior al 34%
entre el 34% y el 66%
superior al 66%
32,6%
37,2%
30,3%
100,0%
Dispersión ZBS (geográf ica)
ZBS bastante
dispersa
ZBS dispersa
1,0%
49,4%
77,8%
35,9%
16,7%
14,7%
4,4%
100,0%
100,0%
ZBS muy
dispersa
5,9%
87,3%
6,2%
,6%
100,0%
Total
2,2%
63,0%
22,3%
12,4%
100,0%
Asociación de variables categóricas
Asociación de variables categóricas. Ejemplo.
Proporción de médicos con formación MIR y dispersión de la
zona.
Pruebas de chi-cuadrado
Chi-cuadrado de Pearson
N de casos v álidos
Valor
340,230a
1030
gl
9
Sig. asintótica
(bilateral)
,000
a. 2 casillas (12, 5%) tienen una f recuencia esperada inf erior a 5.
La f recuencia mí nima esperada es 3,80.
Medidas direcci onales
Nominal
por nominal
Lambda
Valor
,184
Simétrica
Error típ.
a
asint.
,022
b
T aproximada
7,768
Sig.
aproximada
,000
c
c
a. Asumiendo la hipót esis alternativ a.
b. Empleando el error t ípico asintótico basado en la hipót esis nula.
c. Basado en la aproximación chi-cuadrado.
Medidas simétricas
Valor
Nominal por
nominal
Ordinal por ordinal
N de casos v álidos
Coef iciente de
contingencia
Gamma
Error típ.
a
asint.
b
T aproximada
,498
-,731
1030
Sig.
aproximada
,000
,024
a. Asumiendo la hipótesis alt ernativ a.
b. Empleando el error típico asint ótico basado en la hipótesis nula.
-22,392
,000
Descargar