07 – Estimación puntual e introducción a la estadística inferencial Diego Andrés Alvarez Marín Profesor Asistente Universidad Nacional de Colombia Sede Manizales 1 Contenido ● ¿Qué es la estadística inferencial? ● Muestreo aleatorio ● Estimador puntual ● ● Estimación de parámetros de una FDP utilizando el método de la máxima verosimilitud Distribuciones de muestreo: – Método bootstrap para distribución de muestreo – FDP chi-cuadrada – FDP t-Student – FDP F la aproximación de la 2 Estadística Es la rama matemática relacionada con la colección, el análisis, la interpretación (o explicación) y la representación de datos. Teoría de probabilidades vs Estadística ● ● La teoría de probabilidades es la rama de la matemática relacionada con el análisis de fenómenos aleatorios; esta se desarrolló como un modelo abstracto y sus conclusiones y deducciones están basados en axiomas. La estadística se basa en la aplicación de la teoría de probabilidad a problemas reales y sus conclusiones son inferencias basadas en observaciones. Ramas de la estadística La estadística se divide en dos ramas: ● ● Estadística descriptiva Estadística inferencial Estadística descriptiva La estadística descriptiva se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos en forma numérica y/o gráfica. 6 Estadística inferencial Esta comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma (muestra). Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden dividirse en los siguientes temas: estimación de parámetros ● prueba de hipótesis (respuestas a preguntas si/no) ● pronósticos de futuras observaciones ● descripciones de asociación (correlación) ● modelamiento de relaciones entre variables (análisis 7 de regresión) ● Estadística descriptiva vs. Estadística inferencial La diferencia entre la estadística descriptiva y la estadística inferencial es que la primera intenta resumir los datos de forma cuantitativa mientras que la segunda se usa para sustentar afirmaciones, tomar decisiones y obtener conclusiones sobre la población que está representada por los datos recopilados (muestra). 8 Definiciones Se quiere estudiar una población. Sin embargo por razones prácticas se analiza una muestra de la población. Los datos se coleccionan mediante un muestreo o experimento. Las observaciones de la muestra aleatoria se usan para calcular ciertas características de la muestra llamadas estadísticas. (ver las definiciones en la siguiente diapositiva) Población La población es el conjunto de elementos de referencia sobre el que se realizan todas las observaciones. La población es la colección de toda la información que caracteriza un fenómeno. El tamaño de la población puede ser grande o pequeño, finito o infinito. Como en general, toda la población no se puede observar, debe hacerse un análisis a partir de un subconjunto de las observaciones provenientes de la población que sean de ayuda para tomar decisiones sobre esta, la llamada muestra. Muestra estadística (o aleatoria) Muestra estadística (o aleatoria): es un subconjunto representativo de individuos de la población Muestreo: es la técnica por la cual se selecciona una muestra aleatoria a partir de una población Para que las inferencias sean válidas, la muestra debe ser representativa de la población (de este modo se debe tener cuidado de no introducir sesgos durante la fase de muestreo); por lo tanto es conveniente seleccionar una muestra aleatoria como el resultado de un mecanismo aleatorio. Estadística Una estadística es el resultado de aplicar una función a una muestra aleatoria. Como es posible obtener muchas muestra aleatorias de una población, el valor de la estadística cambiará de muestra a muestra, esto es la estadística en sí es una variable aleatoria. De notaremos en forma general una estadística (entendida como variable aleatoria) por el símbolo mientras que una realización de dicha variable aleatoria se denotará mediante . Tipos de muestreo Distribución de muestreo Puesto que una estadística es una variable aleatoria, esta tiene una FDP, la cual llamaremos la distribución de muestreo de la estadística. Bootstrap: método para la estimación de las distribuciones de muestreo Como veremos en las siguientes diapositivas, buena parte de la estadística inferencial convencional se apoya en la suposición que las variables estudiadas se distribuyen de acuerdo con una FDP normal. Bajo este supuesto, es posible determinar la distribución muestral de diferentes estadísticos que utilizamos en la estimación de parámetros poblacionales y en el contraste de hipótesis acerca de tales parámetros. 16 Bootstrap: método para la estimación de las distribuciones de muestreo El método bootstrap, el cual tiene sus raíces en las técnicas de simulación de Monte Carlo, provee un enfoque probabilístico que evita hacer dicho tipo de suposición de normalidad y estima la distribución muestral a partir de la información suministrada por la muestra misma. Este método de remuestreo no paramétrico fue propuesto por Bradley Efron en 1979. 17 18 19 Bootstrap: método para la estimación de las distribuciones de muestreo La idea central de este método es simple; dada una muestra aleatoria con n observaciones dicha muestra es tratada como si fuera toda la población y de ésta extraeremos B muestras con reemplazo. 20 ● La estimación de la FDP de muestreo de un estadístico será mucho mejor entre mayor sea la muestra. Incluso con muestras pequeñas entre 10 y 20 obsercaciones el método puede ofrecer resultados correctos, juzgándose inadecuados para muestras de tamaño inferior a 5. 21 ● Estos métodos han llamado la atención de la comunidad estadística a partir del final de la década de los 1980's, debido a la introducción del computador personal, y hoy en día ha llegado a considerarse una herramienta general para el trabajo estadístico. 22 Bootstrap: método para la estimación de las distribuciones de muestreo Para cada remuestreo se calculará el valor del estimador y luego con este se estimará la distribución de muestreo. Tal y como los estudios teóricos han demostrado, este enfoque proporciona una buena aproximación de la distribución de los estimadores, lo cual permitirá describir algunas de sus propiedades muestrales, así como el cálculo de intervalos de confianza y la realización de contrastes de hipótesis. 23 Bootstrap con MATLAB ● bootci ● bootstrp ● jackknife - Jackknife statistics. ● - Bootstrap confidence intervals. - Bootstrap statistics. randsample - Random sample, with or without replacement ● ● http://en.wikipedia.org/wiki/Bootstrapping_(stati stics) 24 25 26 Selección de estimadores Eventualmente podrían tenerse varias opciones para el estimador puntual de un parámetro. Por ejemplo, si se desea estimar la media de una población, pueden considerarse como estimadores puntuales la media muestral, la mediana muestral o quizás el promedio de las observaciones más grande y más pequeña. Para decidir cuál es el mejor estimador puntual para un parámetro en particular, es necesario examinar las propiedades estadísticas de estos y desarrollar algunos criterios para comparar estimadores. 27 Propiedades de los estimadores 28 Varianza y error cuadrático medio de un estimador puntual 29 Método de la máxima verosimilitud (maximum likelihood method) 30 Censoring 31 Distribuciones de muestreo 32 Distribución de muestreo de medias 33 FDP chi-cuadrado 34 FDP chi-cuadrado 35 FDP chi-cuadrado 36 FDP t de Student Gosset era un empleado de la destilería Guinness. Guiness había prohibido que sus trabajadores publicaran sus conocimientos, ya que anteriormente otro investigador de Guinness había publicado un artículo que contenía secretos industriales de la destilería. Esto significaba que Gosset no podía publicar su trabajo usando su propio nombre. De ahí el uso de su pseudónimo Student en sus publicaciones, para evitar que su empleador lo detectara. Por tanto, su logro más famoso se conoce ahora como la FDP t de Student (que fue descubierta en 1908), de otra manera hubiera sido la FDP t de Gosset. William Sealy Gosset (1876 – 1937), químico y matemático inglés 37 FDP t de Student df = ∞ es la 38 FDP normal estándar Distribución F 39