07 – Estimación puntual e introducción a la estadística inferencial

Anuncio
07 – Estimación puntual e
introducción a la estadística
inferencial
Diego Andrés Alvarez Marín
Profesor Asistente
Universidad Nacional de Colombia
Sede Manizales
1
Contenido
●
¿Qué es la estadística inferencial?
●
Muestreo aleatorio
●
Estimador puntual
●
●
Estimación de parámetros de una FDP utilizando el
método de la máxima verosimilitud
Distribuciones de muestreo:
–
Método bootstrap para
distribución de muestreo
–
FDP chi-cuadrada
–
FDP t-Student
–
FDP F
la
aproximación
de
la
2
Estadística
Es la rama matemática relacionada con la
colección, el análisis, la interpretación (o
explicación) y la representación de datos.
Teoría de probabilidades vs
Estadística
●
●
La teoría de probabilidades es la rama de la
matemática relacionada con el análisis de
fenómenos aleatorios; esta se desarrolló como
un modelo abstracto y sus conclusiones y
deducciones están basados en axiomas.
La estadística se basa en la aplicación de la
teoría de probabilidad a problemas reales y sus
conclusiones son inferencias basadas en
observaciones.
Ramas de la estadística
La estadística se divide en dos ramas:
●
●
Estadística descriptiva
Estadística inferencial
Estadística descriptiva
La estadística descriptiva se dedica a los
métodos
de
recolección,
descripción,
visualización y resumen de datos originados a
partir de los fenómenos en estudio. Los datos
pueden ser resumidos en forma numérica y/o
gráfica.
6
Estadística inferencial
Esta comprende los métodos y procedimientos para
deducir propiedades (hacer inferencias) de una
población, a partir de una pequeña parte de la misma
(muestra). Se usa para modelar patrones en los datos
y extraer inferencias acerca de la población bajo
estudio. Estas inferencias pueden dividirse en los
siguientes temas:
estimación de parámetros
● prueba de hipótesis (respuestas a preguntas si/no)
● pronósticos de futuras observaciones
● descripciones de asociación (correlación)
● modelamiento de relaciones entre variables (análisis
7
de regresión)
●
Estadística descriptiva vs.
Estadística inferencial
La diferencia entre la estadística descriptiva y la
estadística inferencial es que la primera intenta
resumir los datos de forma cuantitativa mientras
que la segunda se usa para sustentar
afirmaciones, tomar decisiones y obtener
conclusiones sobre la población que está
representada por los datos recopilados (muestra).
8
Definiciones
Se quiere estudiar una población. Sin embargo
por razones prácticas se analiza una muestra de
la población. Los datos se coleccionan mediante
un muestreo o experimento. Las observaciones
de la muestra aleatoria se usan para calcular
ciertas características de la muestra llamadas
estadísticas.
(ver las definiciones en la siguiente diapositiva)
Población
La población es el conjunto de elementos de
referencia sobre el que se realizan todas las
observaciones. La población es la colección de
toda la información que caracteriza un fenómeno.
El tamaño de la población puede ser grande o
pequeño, finito o infinito.
Como en general, toda la población no se puede
observar, debe hacerse un análisis a partir de un
subconjunto de las observaciones provenientes
de la población que sean de ayuda para tomar
decisiones sobre esta, la llamada muestra.
Muestra estadística (o aleatoria)
Muestra estadística (o aleatoria): es un
subconjunto representativo de individuos de la
población
Muestreo: es la técnica por la cual se selecciona
una muestra aleatoria a partir de una población
Para que las inferencias sean válidas, la muestra
debe ser representativa de la población (de este
modo se debe tener cuidado de no introducir
sesgos durante la fase de muestreo); por lo tanto
es conveniente seleccionar una muestra aleatoria
como el resultado de un mecanismo aleatorio.
Estadística
Una estadística es el resultado de aplicar una
función a una muestra aleatoria. Como es posible
obtener muchas muestra aleatorias de una
población, el valor de la estadística cambiará de
muestra a muestra, esto es la estadística en sí es
una variable aleatoria.
De notaremos en forma general una estadística
(entendida como variable aleatoria) por el
símbolo
mientras que una realización de
dicha variable aleatoria se denotará mediante .
Tipos de muestreo
Distribución de muestreo
Puesto que una estadística es una variable
aleatoria, esta tiene una FDP, la cual llamaremos
la distribución de muestreo de la estadística.
Bootstrap: método para la estimación
de las distribuciones de muestreo
Como veremos en las siguientes diapositivas,
buena parte de la estadística inferencial
convencional se apoya en la suposición que las
variables estudiadas se distribuyen de acuerdo
con una FDP normal. Bajo este supuesto, es
posible determinar la distribución muestral de
diferentes estadísticos que utilizamos en la
estimación de parámetros poblacionales y en el
contraste de hipótesis acerca de tales
parámetros.
16
Bootstrap: método para la estimación
de las distribuciones de muestreo
El método bootstrap, el cual tiene sus raíces en
las técnicas de simulación de Monte Carlo,
provee un enfoque probabilístico que evita hacer
dicho tipo de suposición de normalidad y estima
la distribución muestral a partir de la información
suministrada por la muestra misma.
Este método de remuestreo no paramétrico fue
propuesto por Bradley Efron en 1979.
17
18
19
Bootstrap: método para la estimación
de las distribuciones de muestreo
La idea central de este método es simple; dada
una muestra aleatoria con n observaciones dicha
muestra es tratada como si fuera toda la
población y de ésta extraeremos B muestras con
reemplazo.
20
●
La estimación de la FDP de muestreo de un
estadístico será mucho mejor entre mayor sea
la muestra. Incluso con muestras pequeñas
entre 10 y 20 obsercaciones el método puede
ofrecer resultados correctos, juzgándose
inadecuados para muestras de tamaño inferior
a 5.
21
●
Estos métodos han llamado la atención de la
comunidad estadística a partir del final de la
década de los 1980's, debido a la introducción
del computador personal, y hoy en día ha
llegado a considerarse una herramienta
general para el trabajo estadístico.
22
Bootstrap: método para la estimación
de las distribuciones de muestreo
Para cada remuestreo se calculará el valor del
estimador y luego con este se estimará la
distribución de muestreo.
Tal y como los estudios teóricos han demostrado,
este
enfoque
proporciona
una
buena
aproximación de la distribución de los
estimadores, lo cual permitirá describir algunas
de sus propiedades muestrales, así como el
cálculo de intervalos de confianza y la realización
de contrastes de hipótesis.
23
Bootstrap con MATLAB
●
bootci
●
bootstrp
●
jackknife - Jackknife statistics.
●
- Bootstrap confidence intervals.
- Bootstrap statistics.
randsample - Random sample, with or
without replacement
●
●
http://en.wikipedia.org/wiki/Bootstrapping_(stati
stics)
24
25
26
Selección de estimadores
Eventualmente podrían tenerse varias opciones
para el estimador puntual de un parámetro. Por
ejemplo, si se desea estimar la media de una
población,
pueden
considerarse
como
estimadores puntuales la media muestral, la
mediana muestral o quizás el promedio de las
observaciones más grande y más pequeña. Para
decidir cuál es el mejor estimador puntual para un
parámetro en particular, es necesario examinar
las propiedades estadísticas de estos y
desarrollar algunos criterios para comparar
estimadores.
27
Propiedades de los estimadores
28
Varianza y error cuadrático medio
de un estimador puntual
29
Método de la máxima verosimilitud
(maximum likelihood method)
30
Censoring
31
Distribuciones de muestreo
32
Distribución de muestreo de medias
33
FDP chi-cuadrado
34
FDP chi-cuadrado
35
FDP chi-cuadrado
36
FDP t de Student
Gosset era un empleado de la destilería
Guinness. Guiness había prohibido que
sus
trabajadores
publicaran
sus
conocimientos, ya que anteriormente otro
investigador de Guinness había publicado
un artículo que contenía secretos
industriales de la destilería. Esto
significaba que Gosset no podía publicar
su trabajo usando su propio nombre. De
ahí el uso de su pseudónimo Student en
sus publicaciones, para evitar que su
empleador lo detectara. Por tanto, su logro
más famoso se conoce ahora como la
FDP t de Student (que fue descubierta en
1908), de otra manera hubiera sido la FDP
t de Gosset.
William Sealy Gosset
(1876 – 1937), químico y
matemático inglés
37
FDP t de Student
df = ∞ es la 38
FDP normal estándar
Distribución F
39
Descargar