Subido por SEBASTIAN ALEJANDRO CEVALLOS MACIAS

ANÁLISIS PREVIO DE DATOS: VALORES PERDIDOS Y SUPUESTOS

Anuncio
ANÁLISIS PREVIO DE DATOS: VALORES
PERDIDOS Y SUPUESTOS
ÁREA DE ESTADÍSTICA
DEPARTAMENTO DE CIENCIAS EXACTAS – ESPE
Asignatura: ESTADÍSTICA APLICADA AL MERCADO
Docente: Vanessa Mena
1
Contenido
Título
Análisis previo de datos
Duración
8 horas
Información general
Análisis previo de datos
Objetivo
Analizar y tratar valores perdidos
2
Encuestas por muestreo
Determinación de tamaño de muestra Muestreo Aleatorio Simple
Tamaños de Muestra Poblaciones finitas
Medias
𝑆2 𝑁 − 𝑛
)
𝑒 = 𝐾 ∝⁄2 ∗ √ (
𝑛
𝑁
𝑒 2 = 𝐾∝2⁄ ∗
2
𝑒2
=
𝑆2 𝑁 − 𝑛
(
)
𝑛
𝑁
(𝐾∝2⁄ 𝑆 2 𝑁) − (𝐾∝2⁄ 𝑆 2 𝑛)
2
2
𝑁𝑛
𝑒 2 𝑁𝑛 + (𝐾∝2⁄ 𝑆 2 𝑛) = 𝐾∝2⁄ 𝑆 2 𝑁
2
𝑛=
2
𝐾∝2⁄ 𝑆 2 𝑁
2
𝑒 2 𝑁 + (𝐾∝2⁄ ∗ 𝑆 2 )
2
𝑛=
𝐾∝2⁄ 𝜎 2 𝑁
2
𝑒 2 (𝑁 − 1) + (𝐾∝2⁄ ∗ 𝜎 2 )
2
Proporciones
𝑝𝑞 𝑁 − 𝑛
)
𝑒 = 𝐾∝⁄2 √ (
𝑛
𝑁
𝑝𝑞 𝑁 − 1
)
𝑒 2 = 𝐾∝2⁄ ( ) (
2 𝑛
𝑁
𝑒2
=
(𝐾∝2⁄ 𝑝𝑞𝑁) − (𝐾∝2⁄ 𝑝𝑞𝑛)
2
2
𝑁𝑛
𝑒 2 𝑁𝑛 + 𝐾∝2⁄ 𝑝𝑞𝑛 = 𝐾∝2⁄ 𝑝𝑞𝑁
2
𝑛=
2
𝐾∝2⁄ ∗ 𝑝𝑞𝑁
2
𝑁𝑒 2 + 𝐾∝2⁄ 𝑝𝑞
2
3
𝑛=
𝐾∝2⁄ ∗ 𝜋(1 − 𝜋)𝑁
2
𝑒 2 (𝑁 − 1) + 𝐾∝2⁄ 𝜋(1 − 𝜋)
2
Totales
𝑒 = 𝐾∝⁄2 ∗ √𝑁 2
𝑆2 𝑁 − 𝑛
(
)
𝑛
𝑁
𝑒 2 = 𝐾∝2⁄ ∗ 𝑁 2
𝑆2 𝑁 − 𝑛
(
)
𝑛
𝑁
2
𝑒2
=
(𝐾∝2⁄ 𝑁 3 𝑆 2 ) − (𝐾∝2⁄ 𝑁 2 𝑆 2 𝑛)
2
2
𝑁𝑛
𝑒 2 𝑁𝑛 = (𝐾∝2⁄ 𝑁 3 𝑆 2) − (𝐾∝2⁄ 𝑁 2 𝑆 2𝑛)
2
𝑒 2 𝑁𝑛 +
2
(𝐾∝2⁄ 𝑁 2 𝑆2 𝑛)
2
= (𝐾∝2⁄ 𝑁 3 𝑆2 )
2
𝑛 ( 𝑁𝑒 2 + (𝐾∝2⁄ 𝑁 2 𝑆2 )) = (𝐾∝2⁄ 𝑁 3𝑆 2 )
2
𝑛=
2
(𝐾∝2⁄ 𝑁 3 𝑆2 )
2
𝑁𝑒 2 + (𝐾∝2⁄ 𝑁 2 𝑆 2 )
2
𝑛=
(𝐾∝2⁄ 𝑁 2 𝑆2 )
2
𝑒 2 + (𝐾∝2⁄ 𝑁𝑆 2 )
2
Tamaños de Muestra (para poblaciones infinitas)
Medias
𝑆2
𝑒 = 𝐾∝⁄2 ∗ √
𝑛
𝑒 2 = 𝐾∝2⁄ ∗
2
𝑛=
Proporciones
𝑆2
𝑛
𝐾∝2⁄ ∗ 𝑆 2
2
𝑒2
𝑝𝑞
𝑒 = 𝐾 ∝⁄2 ∗ √
𝑛
𝑒 2 = 𝐾∝2⁄ ∗
2
𝑛=
𝑝𝑞
𝑛
𝐾∝2⁄ ∗ 𝑝𝑞
2
𝑒2
4
Totales
𝑒 = 𝐾∝⁄2 ∗ √ 𝑁 2
𝑒 2 = 𝐾∝2⁄ ∗
2
𝑛=
𝑆2
𝑛
𝑁 2𝑆 2
𝑛
𝐾∝2⁄ ∗ 𝑁 2 ∗ 𝑆 2
2
𝑒2
Análisis previo de los datos
Introducción:
Antes de aplicar alguna técnica multivariante, es importante verificar la fiabilidad de los datos:
-
Existencia de los valores perdidos.
-
Observaciones anómalas, también llamadas outliers, casos atípicos.
Valores Perdidos:
Cuando en una BDD no existe algún valor para alguna variable (no existe información) se trata de
valores perdidos
-
Los valores perdidos se deben a que los entrevistados en una encuesta se niegan a
contestar.
El entrevistado no recoge una respuesta en la casilla adecuada.
El patrón de los valores perdidos es más importante que su cuantía, si su distribución es
aleatoria en la matriz de datos no puede causar mucho daña al análisis (VPCA= valores
perdidos completamente aleatorios)
Condiciones de los VPCA:
Para establecer si los valores perdidos guardan o no un patrón se basa en la lógica de la investigación,
si existe un patrón los casos con valores perdidos deberán tener un comportamiento distinto respecto
a otras variables que en los casos sin valores perdidos
De no existir variables cuya media sea distinta en los casos con y sin valore perdidos habrá que asumir
la aleatoriedad (medias iguales).
La condición de los VPCA es que deben ser independientes del resto de valores observados del resto
de variables
Diagnóstico de aleatoriedad
Primer procedimiento: Analizar si existen patrones en otras variables relacionadas, comparando
los subgrupos entre valores perdidos y valores observados (comparación de medias de mu estras
independientes)
5
Segundo procedimiento: Analizar si existe correlación entre los valores perdidos de la variable
analizadas y los valores perdidos de otras variables (prueba de correlaciones dicotomizadasCorrelación de Pearson)
Tratamiento de los valores perdidos: Solamente si los datos son VPCA
-
Eliminación de los casos: se eliminan los casos de los valores perdidos, la desventaja es
que se trabaja con una muestra más reducida. Una alternativa es la eliminación de casos
siguiendo el método por parejas, se eliminan los casos únicamente cuando tiene valores
perdidos en las variables que se están analizando.
-
Imputación de un valor estimado:
La imputación es sustituir el valor perdido por la media de la variable
-
Un método alternativo de la imputación es el de regresión, la variable cuyos valores
perdidos se quiere estimar actúa como variable dependiente y el reto como
independiente
Observaciones anómalas casos atípicos o outliers
Casos en los que una dos o múltiples variables toman valores extremos que lo hacen diferentes
del comportamiento del resto. Las consecuencias de no identificarlos son: Distorsión de
resultados, afectan las condiciones de aplicabilidad de las técni cas.
Causas:
-
Errores en los datos.
-
Errores en la recogida e introducción de los datos.
-
Errores intencionados en la contestación.
-
Errores en el muestreo.
-
Casos atípicos legítimos.
Detección de casos atípicos:
-
Detección Univariante: para establecer si un valor Xi es atípico solo es necesario determinar
el umbral que de superar y que normalmente se expresa en número de desviaciones típicas,
dado que son valores estandarizados la media es 0 y la desviación 1.
-
Lo normal es considerar K=2,5 para muestras pequeñas menos de 80 casos.
K=3 o k=4 para muestras mayores
-
Segundo procedimiento: Test de Grubbs
-
Detección Bivariante: a una variable se la tiene que definir como dependiente y realizar una
inspección con la relación con cada independiente (graficar SPSS).
6
-
Detección Multivariante: este procedimiento contempla simultáneamente a todas las
variables, el procedimiento consiste en determinar cuánto dista cada caso del centroide de
los datos, es decir del vector de medias de las variables implicadas.
D 2= diag{ [X - 𝑋̅]S-1][X – 𝑋̅]´}
Distancia de Mahalanobis
Donde S=
1
𝑛−1
(X - 𝑋̅)´(X – 𝑋̅)
Para determinar si alguno de los datos es atípicos se asume que D 2 se distribuye
según X2 con m grados de libertad.
Ho = el caso i no es un caso atípico,
Hi = el caso i es un caso atípico.
Si D > Dc RHo, si D < Dc Aho
La siguiente gráfica de caja muestra valores atípicos en algunas variables
Gráfico de cajas de edad (izquierda), peso (derecha) en dos patologías
SUPUESTOS BÁSICOS DEL ANALISIS MULTIVARIANTE
Normalidad:
En algunas técnicas se requiere comprobar si los datos siguen una distribución normal de manera
multivariante. Si la distribución no es multivariante normal, hay que indagra que variables están
causando el problema y hay que utilizar contrastes univariantes.
Analisis univariante: Se puede utilizar las pruebas de asimetría (A=0) y de curtosis (C=3), gráficos
Q-Q (si n>20), o pruebas como Kolmogorov-Smirnov (muestras grandes) o Shapiro Wilks
(muestras pequeñas)
Análisis multivariante: Se puede realizar un gráfico chi-cuadrado o utilizar la distancia de
Mahalanobis.
7
Si los datos no son normales, se recomienda transformar las variables (usando logaritmos, o
funciones exponenciales, raíz cuadrada, etc.)
Homocedasticidad:
En el caso de datos agrupados, la homocedasticidad implica que la varianza es la misma para cada
uno de los grupos formados (Ejm: ANOVA). Para estos casos, se utiliza la prueba de Levene.
En el caso de datos no agrupados, la homocedasticidad implica que los datos se distribuyen de
manera constante para todos los valores de otra variable continua (Ejm. Regresión lineal). Este
caso se analizará en detalle más adelante
Linealidad
En algunas técnicas se requiere que la relación entre las variables sea lineal (debido a que se
basan en la correlación lineal de Pearson (R), que solo mide relaciones lineales). Para verificar
esta condición, se realizan gráficos de dispersión bivariante entre todas las variables y se analiza
la linealidad en dichos gráficos y sus respectivos valores R.
Independencia de las observaciones
Dos observaciones son independientes cuando los valores que toman las variables en un caso no
se ven afectadas por los valores de otro caso.
Si las observaciones no son independientes, el nivel de significación debe disminuir 10 veces, por
ejemplo, en lugar del 5% se trabaja al 0,5% para rechazar una hipótesis.
REFERENCIAS BIBLIOGRAFICAS
•
•
•
Uriel, E.; Aldaz, J.; “Análisis Multivariante aplicado” (2005), 1ra edición, Editorial
Thomson.
Peña, D. “Análisis de datos multivariantes” (2002), 1ra edición, Editorial Mc Graw Hill.
https://cran.r-project.org/
Ejercicio propuesto :
De una base de datos pública, analice los valores perdidos y atípicos e impute los datos con
cualquier método que incluye el software SPSS, defina las dimensiones de la matriz,
previamente segmente la base según el alcance que usted quiera estudiar
https://www.ecuadorencifras.gob.ec/estadisticas/
8
9
Descargar