Análisis estadístico básico (I) Magdalena Cladera Munar mcladera@uib.es Departament d’Economia Aplicada Universitat de les Illes Balears CONTENIDOS Introducción a la inferencia estadística. Muestreo. Estimación de parámetros. Contrastación de hipótesis. Asociación de variables categóricas. Tablas de contingencia. Medidas de asociación. REFERENCIAS Alegre, J. y Cladera, M. (2003). Introducción a la Estadística Descriptiva para Economistas. Materials Didàctics UIB, 101. Palma de Mallorca. Newbold, P. (1997). Estadística para los Negocios y la Economía. Prentice-Hall. Madrid. Peña, D. y Romo, D. (1997). Introducción a la Estadística para las Ciencias Sociales. McGrawHill. Madrid. Pardo, A. y Ruíz, M. A. (2001). SPSS 10.0. Guía para el análisis de datos. Accesible en: http://www.uca.es/serv/ai/formacion/spss/Inicio.pdf. Pérez, C. (2001). Técnicas Estadísticas con SPSS, Prentice Hall, Madrid. Inferencia estadística Contenidos: Muestreo. Estimación de parámetros. Contrastación de hipótesis. Inferencia estadística Objetivo: extraer conclusiones sobre una población a partir de la información contenida en un subconjunto de elementos extraídos de la misma, es decir, una muestra. En el contexto de la inferencia estadística se supone que en la población se estudia una variable aleatoria, X, con una determinada función de probabilidad, caracterizada por un/os parámetro/s. Mediante el análisis de las observaciones contenidas en una muestra extraída de esta población, se querrán obtener aproximaciones de las características de la distribución poblacional de X, y utilizar esta información para contrastar hipótesis sobre la misma. Inferencia estadística Ejemplo. Coste en farmacia por habitante de los EAP. Inferencia estadística Conceptos: Población. Conjunto de todos los elementos que se quieren analizar. Muestra. Subconjunto de la población seleccionado para el análisis, cuando no es posible estudiar toda la población. Parámetro. Medida estadística de una variable en la población. Estimación. Valor obtenido a partir de la muestra, que se utiliza como aproximación al valor de un parámetro. Estimador. Función matemática que se aplica a las observaciones muestrales para obtener estimaciones. Es una variable aleatoria. Inferencia estadística Procedimientos: Estimación de parámetros. Obtención de aproximaciones al valor de parámetros poblacionales a partir de una muestra. Puntual. Se obtiene un único valor como aproximación al valor del parámetro poblacional. Por intervalos. Se obtiene un rango de valores como aproximación al valor del parámetro. Contraste de hipótesis. Utilización de la información muestral para comprobar la validez de una afirmación sobre una característica de la población. Inferencia estadística Etapas de un estudio de muestreo: 1) ¿Qué infomación se necesita? 6) ¿Qué conclusiones pueden extraerse sobre la población? 2) ¿Cuál es la población relevante? ¿Es posible analizarla? Métodos de muestreo Estimación 5) ¿Cómo se utilizará la información de la muestra para realizar inferencias sobre la población? 3) ¿Cómo se seleccionan los elementos de la muestra? ¿Cuántos? Contrastación 4) ¿Cómo se obtiene la información de los elementos de la muestra? Determinación del tamaño muestral Inferencia estadística Estimación puntual: POBLACIÓN MUESTRA Observaciones muestrales (x1, x2, x3,..., xn) X Parámetro ación Aproxim Estimación Estimador Inferencia estadística Estimación puntual: Estimadores más utilizados. Parámetro Estimador n Media (µ) Media muestral x= ∑x i =1 n n Varianza (σ ) 2 Proporción (p) Varianza muestral Proporción muestral Sˆ 2 = ∑ (x i =1 i i − x) n −1 pˆ = n1 n 2 Inferencia estadística Estimación por intervalos: Un intervalo de confianza consiste en dos valores entre los que se espera que esté contenido el verdadero valor del parámetro con una determinada probabilidad. Nivel de confianza: probabilidad de que el intervalo contenga el verdadero valor del parámetro. 90%, 95% y 99% son los más habituales. Hay una relación positiva entre el nivel de confianza y la amplitud del intervalo. Hay una relación inversa entre el tamaño de la muestra y la amplitud del intervalo. Inferencia estadística Ejemplo. Coste en farmacia por habitante de los EAP. Descriptivos Costes totales por habitante (población total) en euros Media Interv alo de conf ianza para la media al 95% Varianza Desv . tí p. Límite inf erior Límite superior Estadí st ico 136,7028 134,5845 138,8210 1353,248 36,78652 Inferencia estadística Contraste de hipótesis: Objetivo: comprobar la certeza de una afirmación sobre alguna característica de la población, utilizando la información contenida en una muestra extraída de dicha población. Definiciones: Hipótesis estadística. Afirmación sobre alguna característica de la población. Contraste de hipótesis. Comparación de la hipótesis con la realidad observada (muestra), para decidir, con un margen de error admisible, si esta realidad contradice o no la hipótesis. Hipótesis nula (H0). Afirmación sobre una característica de la población, de la que se quiere contrastar su validez. Hipótesis alternativa (HA). Hipótesis por la que será substituida la hipótesis nula, en caso de que la evidencia muestral la contradiga. Inferencia estadística Contraste de hipótesis: Metodología. Para realizar un contraste de hipótesis se necesita: Un estadístico de contraste Una regla de decisión. Para aplicar esta regla será necesario fijar el nivel de significación del contraste (α). Inferencia estadística Contraste de hipótesis: Ejemplo. Contraste sobre la igualdad de medias del gasto en farmacia de la C.A. de Madrid y de las Illes Balears. Estadísticos de grupo Costes totales por habitante (población total) en euros Nombre de la Comunidad autónoma Illes Balears N Madrid Media Desv iación típ. Error típ. de la media 41 119,8415 26,98319 4,21407 289 102,2012 28,72670 1,68981 Prueba de muestras independientes Prueba de Lev ene para la igualdad de v arianzas F Costes totales por habitante (población total) en euros Se han asumido v arianzas iguales No se han asumido v arianzas iguales Sig. ,395 ,530 Prueba T para la igualdad de medias t gl Sig. (bilateral) Dif erencia de medias Error típ. de la dif erencia 95% Interv alo de conf ianza para la dif erencia Inf erior Superior 3,706 328 ,000 17,64028 4,75951 8,27726 27,00330 3,885 53,705 ,000 17,64028 4,54024 8,53650 26,74406 Asociación de variables categóricas Instrumentos estadísticos: Tablas de frecuencias conjuntas. Tablas de contingencia. Estadísticos de asociación. Asociación de variables categóricas Ejemplo. Relación entre la edad y la impresión sobre la prestación de un servicio recibido. Tabla de contingencia IMPRESIÓN * EDAD Asociación de variables categóricas Distribuciones marginales. Son las frecuencias (absolutas y relativas) de cada una de las variables. Para ello es suficiente con sumar todas las celdas correspondientes a cada una de las filas o de las columnas. Asociación de variables categóricas Distribución de frecuencias relativas. Son las frecuencias relativas de cada una de las celdas respecto al total de observaciones Asociación de variables categóricas Perfiles fila (porcentajes fila). Recogen las frecuencias relativas de cada una de las celdas con respecto al total de las filas Asociación de variables categóricas Perfiles columna (porcentajes columna). Son las frecuencias relativas de cada una de las celdas con respecto al total de las columnas Asociación de variables categóricas Distribución de frecuencias conjuntas Asociación de variables categóricas Distribución de frecuencias marginales Asociación de variables categóricas Distribución conjunta de frecuencias relativas Asociación de variables categóricas Perfiles fila Asociación de variables categóricas Perfiles columna Asociación de variables categóricas Estadísticos de asociación: Para variables nominales u ordinales: chi-cuadrado C de contingencia lambda Para variables ordinales Gamma Asociación de variables categóricas Chi-Cuadrado y C de contingencia Ejemplo. Relación entre la edad y la impresión sobre un servicio. Tabla de porcentajes columna (observada) Asociación de variables categóricas Chi-Cuadrado y C de contingencia Ejemplo. Relación entre la edad y la impresión sobre un servicio. Tabla de porcentajes columna (esperada) EDAD MENOS DE 30 AÑOS IMPRESIÓN Total MUY BUENA BUENA NORMAL MALA ENTRE 30 Y 45 ENTRE 45 Y 60 MÁS DE 60 AÑOS Total 42,1% 42,1% 42,1% 42,1% 42,1% 44,3% 12,3% 1,4% 100 44,3% 12,3% 1,4% 100 44,3% 12,3% 1,4% 100 44,3% 12,3% 1,4% 100 44,3% 12,3% 1,4% 100 Asociación de variables categóricas Chi-Cuadrado y C de contingencia Ejemplo. Relación entre la edad y la impresión sobre un servicio. Tabla de frecuencias observadas Tabla de frecuencias esperadas EDAD ENTRE 30 Y ENTRE 45 45 Y 60 MÁS DE 60 AÑOS 42,1%*2229 42,1%*1657 42,1%*755 42,1%*211 44,3%*2229 12,3%*2229 1,4%*2229 2229 44,3%*1657 44,3%*755 12,3%*1657 12,3%*755 1,4%*1657 1,4%*755 1657 755 44,3%*211 12,3%*211 1,4%*211 211 MENOS DE 30 AÑOS IMPRESIÓN Total MUY BUENA BUENA NORMAL MALA Total Asociación de variables categóricas Chi-Cuadrado y C de contingencia Ejemplo. Relación entre la edad y la impresión sobre un servicio. Tabla de frecuencias esperadas MENOS DE 30 AÑOS IMPRESIÓN Total MUY BUENA BUENA NORMAL MALA EDAD ENTRE 30 Y ENTRE 45 45 Y 60 Total MÁS DE 60 AÑOS 938,1 697,4 317,7 88,8 2042 987,2 273,3 30,3 2229 733,9 203,2 22,5 1657 334,4 92,6 10,3 755 93,5 25,9 2,9 211 2149 595 66 4852 Asociación de variables categóricas Estadístico Chi-Cuadrado MENOS DE 30 AÑOS IMPRESIÓN Total MUY BUENA BUENA NORMAL MALA EDAD ENTRE 30 Y ENTRE 45 45 Y 60 Total MÁS DE 60 AÑOS 938,1 697,4 317,7 88,8 2042 987,2 273,3 30,3 2229 733,9 203,2 22,5 1657 334,4 92,6 10,3 755 93,5 25,9 2,9 211 2149 595 66 4852 Asociación de variables categóricas Estadístico Chi-Cuadrado I J χ =∑∑ 2 i =1 j =1 MENOS DE 30 AÑOS IMPRESIÓN MUY BUENA BUENA NORMAL MALA 1,46723164 0,89955429 0,08082693 0,24059406 (n ij − eij ) eij 2 = 7,035 EDAD ENTRE 30 Y ENTRE 45 Y 45 60 0,49607112 0,38916746 0,00019685 0,1 0,21683979 0,00586124 0,33866091 0,16407767 MÁS DE 60 AÑOS 1,17162162 1,4144385 0,04671815 0,00344828 Asociación de variables categóricas Estadístico C de contingencia χ2 C= n +χ 2 Límite máximo: 1− 1 , mín ( I, J ) mín (I, J ) ≥ 2 Asociación de variables categóricas Estadístico C de contingencia Ejemplo. Impresión sobre un servicio y edad C= 7 ,035 = 0,038 4852+ 7 ,035 Límite máximo = 1− 1 = 0 ,866 4 Asociación de variables categóricas Estadístico Lambda Lambda toma valores entre cero y uno: 0 ≤ λ =0 ⇒ λ =1 ⇒ 0<λ < 1 ⇒ λ ≤ 1: La predicción condicionada no reduce el error original. La predicción condicionada reduce el error original en un 100%. El error de predicción se reduciría en un 100 ⋅ λ % Estadístico Gamma (sólo para variables ordinales) El estadístico gamma proporciona valores entre -1 y 1. El grado más alto de asociación positiva entre dos variables se da cuando El grado más alto de asociación negativa se da cuando Un valor de γ =0 γ = −1. se interpreta como la ausencia de asociación. γ =1 . Asociación de variables categóricas Asociación de variables categóricas. Ejemplo. % de médicos con formación MIR y dispersión de la zona. abla de contingencia Formación de médicos y pediatras. % de médicos y pediatras con formación MIR * Dispersión ZBS (geográfi ca) Recuent o Formación de médicos y pediatras. % de médicos y pediatras con f ormación MIR 0 inf erior al 34% entre el 34% y el 66% superior al 66% Total ZBS poco dispersa 0 99 113 92 304 Dispersión ZBS (geográf ica) ZBS bastante dispersa ZBS dispersa 0 2 84 158 61 34 25 9 170 203 ZBS muy dispersa 21 308 22 2 353 Total 23 649 230 128 1030 abla de contingencia Formación de médicos y pediatras. % de médicos y pediatras con formación MIR * Dispersión ZBS (geográfi ca) % de Dispersión ZBS (geográf ica) ZBS poco dispersa Formación de médicos y pediatras. % de médicos y pediatras con f ormación MIR Total 0 inf erior al 34% entre el 34% y el 66% superior al 66% 32,6% 37,2% 30,3% 100,0% Dispersión ZBS (geográf ica) ZBS bastante dispersa ZBS dispersa 1,0% 49,4% 77,8% 35,9% 16,7% 14,7% 4,4% 100,0% 100,0% ZBS muy dispersa 5,9% 87,3% 6,2% ,6% 100,0% Total 2,2% 63,0% 22,3% 12,4% 100,0% Asociación de variables categóricas Asociación de variables categóricas. Ejemplo. Proporción de médicos con formación MIR y dispersión de la zona. Pruebas de chi-cuadrado Chi-cuadrado de Pearson N de casos v álidos Valor 340,230a 1030 gl 9 Sig. asintótica (bilateral) ,000 a. 2 casillas (12, 5%) tienen una f recuencia esperada inf erior a 5. La f recuencia mí nima esperada es 3,80. Medidas direcci onales Nominal por nominal Lambda Valor ,184 Simétrica Error típ. a asint. ,022 b T aproximada 7,768 Sig. aproximada ,000 c c a. Asumiendo la hipót esis alternativ a. b. Empleando el error t ípico asintótico basado en la hipót esis nula. c. Basado en la aproximación chi-cuadrado. Medidas simétricas Valor Nominal por nominal Ordinal por ordinal N de casos v álidos Coef iciente de contingencia Gamma Error típ. a asint. b T aproximada ,498 -,731 1030 Sig. aproximada ,000 ,024 a. Asumiendo la hipótesis alt ernativ a. b. Empleando el error típico asint ótico basado en la hipótesis nula. -22,392 ,000