TRABAJO FINAL METODOS ESTADISTICOS 1º Documentación Índice: Identificación de las variables: justificación de la elección del −−−−−−−−−−−−−−−−−−−−−−−− Pág. 3−4 tipo de variable. Análisis estadístico de cada −−−−−−−−−−−−−−−−−−−−−−−−−−−− Pág. 5−11 una de las variables: Análisis conjunto de las −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− Pág. 12−13 variables: Conclusiones: −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− Pág. 14 Bibliografía: −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− Pág. 15 Identificación de las variables: justificación de la elección del tipo de variable. He elegido dos variables para su estudio estadístico, estas son Nº de Bibliotecas públicas y Nº de Habitantes de las Comunidades Autónomas. La razón de la elección de estas dos variables, es el interés que tiene su estudio estadístico para los profesionales de la información. Así podremos observar si el número de bibliotecas esta relacionado con el numero de habitantes de las diferentes comunidades autónomas de España, así como, observar diferentes aspectos de las mismas que sin su estudio estadístico no podríamos ver. Estas dos variables proceden de un muestreo aleatorio, puesto que los individuos de la muestra se eligen al azar, de modo que todos los individuos de la población tienen la misma probabilidad de ser elegidos. Son variables cualitativas discretas, puesto que sus valores se expresan mediante números y además son variables discretas, porque son valores aislados. Estas variables han sido extraídas de las bases de datos del Instituto Nacional de Estadística de España y ambas corresponden a datos extraídos de estudios pertenecientes al año 2005. Las variables son: CC. AA. Andalucía Aragón Nº Habitantes Empadronados 7.849.799 1.269.027 Nº Bibliotecas Públicas 645 213 1 Asturias Baleares Canarias Cantabria Castilla León C. Mancha Cataluña Valencia Extremadura Galicia Madrid Murcia Navarra País Vasco Rioja Ceuta Melilla 1.076.635 983.131 1.968.280 562.309 2.510.849 1.894.667 6.995.206 4.692.449 1.083.879 2.762.198 5.964.143 1.335.792 593.472 2.124.846 301.084 75.276 65.488 103 112 167 36 276 438 412 458 394 325 90 43 80 225 23 2 1 Análisis estadístico de cada una de las variables: • Tabla de frecuencias: X = Nº de Bibliotecas Públicas Y 1 2 23 36 43 80 90 103 112 167 213 225 276 325 394 412 438 458 645 ni 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Fi 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 % 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 2 19 1 100% Y = Nº de Habitantes Empadronados Y 65.488 75.276 301.084 562.309 593.472 983.131 1.076.635 1.083.879 1.269.027 1.335.792 1.894.667 1.968.280 2.124.846 2.510.849 2.762.198 4.692.449 5.964.143 6.995.206 7.849.799 ni 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 19 Ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Fi 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 0,05263158 1 % 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 5,20% 100% • Gráficos: Variable X = Nº de Bibliotecas Públicas 3 4 Variable Y = Nº de Habitantes Empadronados 5 (X 1, E6) 6 (X 1, E6) • Medidas de centralización: ♦ Media: ; ; ♦ Mediana: 7 Es el centro físico de los datos, ordenados de mayor a menor, por lo tanto: Me X = 167 Me Y = 1.335.792 ♦ Moda: Es el valor que aparece con una frecuencia mayor, puede haber más de una moda: unimodal, bimodal, trimodal, plurimodal. En este caso, para ambas variables la moda será plurimodal. Mo X = todo los valores que aparecen puesto que todos tiene frecuencia 1 Mo Y = todo los valores que aparecen puesto que todos tiene frecuencia 1 ♦ Cuartiles: Para X: Se coge el valor de la tabla de frecuencias absolutas que sea inmediatamente mayor a 4,75, por lo tanto: Y se realiza lo mismo con los demás cuartiles: 8 Para Y: Se coge el valor de la tabla de frecuencias absolutas que sea inmediatamente mayor a 4,75, por lo tanto: Y se realiza lo mismo con los demás cuartiles: • Medidas de dispersión: ♦ Varianza: Para X: Para Y: ♦ Desviación típica: Para X: Para Y: ♦ Coeficiente de Variación: 9 Para X: Para Y: Análisis conjunto de las variables: • Ajustar un modelo de regresión simple: Así lo muestra el programa Statgraphics: • Escribir la ecuación del modelo resultante. Dibujar el diagrama de dispersión correspondiente y la recta ajustada. Obtener el coeficiente de correlación lineal y el coeficiente de determinación. La ecuación del modelo resultante es: Nº Habitantes Empadronados = 453950 + 8776,52*Nº Bibliotecas públicas ♦ Diagrama de dispersión: 10 ♦ Coeficiente de correlación lineal: ♦ Coeficiente de determinación: Conclusiones: Respecto al Análisis descriptivo de cada una de las variables, los valores y datos hallados para las dos variables muestran un resumen estadístico de las mismas, de particular interés están los coeficientes de asimetría y curtosis estandarizados que se pueden utilizar para determinar si la muestra procede de una 11 distribución normal. Tanto de una variable como de la otra los valores estadísticos fuera del rango de −2 a +2 indican alejamiento significante de normalidad que tendería a invalidar cualquier test estadístico respecto a la desviación normal. En este caso, el valor del coeficiente de asimetría estandarizado no esta dentro del rango esperado para los datos de una distribución normal. El valor del coeficiente de curtosis estandarizado esta dentro del rango esperado para los datos de una distribución normal. Respecto al Análisis conjunto de las variables, al comprobar la ecuación del modelo ajustado podemos aclara muchas cosas, existe relación estadísticamente significativa entre Nº de Habitantes Empadronados y Nº de Bibliotecas públicas para un nivel de confianza del 99%. El estadístico R cuadrado indica que el modelo explica un 48,9% de la variabilidad en Nº de Habitantes Empadronados. El coeficiente de correlación, indica una relación moderadamente fuerte entre las variables. El error estándar de la estimación muestra la desviación típica de los residuos que es 1726000. El error absoluto medio de 1068690 es el valor medio de los residuos. Se examinan los residuos para saber si hay alguna correlación significativa. Dado que el valor es superior a 0,05 no hay indicio de auto correlación serial en los residuos. Bibliografía: PEÑA, Daniel. Fundamentos de Estadística. Madrid: Alianza Editorial. 2001. 683 p. ISBN 84−206−8696−4. Otros: Instituto Nacional de Estadística de España. http://www.ine.es [Consulta 8 de Septiembre de 2006] Manugistics, Inc. Statgraphics Plus Versión 5. http://www.statgraphics.com [Consulta 8 de Septiembre de 2006] Apuntes Asignatura Métodos Estadísticos. Curso 2005−2006. 14 12