Subido por Lulu Mendoza

ESTADÍSTICA NO PARAMÉTRICA

Anuncio
ESTADÍSTICA NO PARAMÉTRICA
Tipo
Naturaleza
Escala
Característica
Ejemplo
Valores
Variables categóricas
Cualitativas
Nominal
Ordinal
Posee
Posee las
categorías
categóricas
a las que
ordenadas,
se les
pero no
asigna un
permite
nombre
cuantificar
sin que
la distancia
exista
entre una
orden.
categoría y
otra.
Genero
Masculino,
femenino.
Intensidad
Leve,
moderado
Pruebas no paramétricas
Variables numéricas
Cuantitativas
Intervalo
Razón
Tiene
Tiene
intervalos
intervalos
iguales y
constantes
medibles.
entre
No tiene un
valores;
origen real,
además de
por loque
un origen
puede
real.
asumir
El cero
valores
significa
negativos.
ausencia.
Temperatura Peso
-10°C, 0°C
0 Kg, 1Kg
Si hay T°
Variable
dependien
te
Una
muestra
Nominal
Binomial
Chicuadrado
Rachas
Kolmogoro
v-Smimov
Ordinal/
intervalo
➢
Muestras
relacionadas
2
+2
muestra
muestra
s
s
McNem
Cochran
ar
Muestras
independientes
2 muestras
+2
muestras
--
--
Signos
Wilcoxo
n
Rachas de
wald
Woldowitz
U de
MannWhitney
Moses
Kolmogoro
v-Smimov
Mediana
Kruskal
Wells
Jonckeer
eTerpstra
Friedma
n
Kendall
Prueba de McNemar
-
TIPOS DE ESTADISTICA:
Decide si puede o no aceptarse que determinado
tratamiento (uno) induce un cambio en la
respuesta de elementos sometidos a este.
Contrasta 2 muestras relacionadas (pareadas).
Las medidas en cada objeto o sujeto se obtienen
dos veces: una antes y otra después del
tratamiento.
Contrasta
hipótesis
sobre
igualdad
de
proporciones
Compara el cambio en la distribución de proporciones
entre dos mediciones de una variable dicotómica (en
ausencia puede trabajarse con 1 y 0) y determinar que la
diferencia no se deba al azar (que la diferencia sea
estadísticamente significativa).
Parametrica:
Debe cumplirse:
Paramétricas
De intervalo y razón; rango,
mediana, moda, desviación
estándar y varianza.
No paramétricas
Ordinal: además se puede incluir
percentiles y mediana.
Nominal: se describe con
frecuencia, moda, proporciones.
1. La distribución de los datos es de tipo normal
(gaussiana).
2. Homocedasticidad o varianza contante.
3. Las observaciones son independientes.
4. La escala de medición es cuantitativa (variable
numérica)
No paramétrica: cuando no se cumplen los supuestos
anteriores.
1.
2.
3.
4.
Distribución libre.
Heterocedasticidad, varianza diferente.
Observaciones no independientes.
Escala de medición nominal u ordinal.
1. Los datos se ajustan a la distribución Chi
cuadrada.
2. Variable nominal y dicotómica (puede tomar
solo 2 valores)
3. Datos pareados
Donde:
n: número de observaciones.
a: número de individuos que mantuvieron su
respuesta positiva sin cambio.
b: número de individuos que cambiaron su
respuesta de positiva a negativa.
c: número de individuos que cambiaron
su respuesta de negativa a positiva.
d: número de individuos que mantuvieron su
respuesta negativa.
Juego de Hipótesis:
H0: No existe cambio en la variable después de aplicar el
tratamiento.
HA: El tratamiento tiene efecto en la variable de interés.
Estadístico de prueba
Se rechaza Ho cuando:
Prueba bilateral, por lo que hay 2 zonas de rechazo. Hay
2 valores críticos, uno a la derecha y otro a la derecha.
Ejemplo:
Antes de aplicar el nuevo etiquetado de productos, una
empresa decidió hacer un estudio de preferencia y se le
pregunto a 100 personas si consumirían o no cierto
producto. Posteriormente se le presentaron a esas
mismas 100 personas el producto con el nuevo
etiquetado y se les volvió a cuestionar, los resultados se
muestran a continuación:
➢
Pasos:
1. Calcular las diferencias de las variables a estudiar
(𝑋1−𝑋2). En caso de que la diferencia sea nula, se
elimina el registro.
2. Ordenar las diferencias considerando el valor
absoluto.
3. Asignamos un rango o categoría de orden a las
mismas en orden ascendente.
4. Sumar los rangos según los signos que tengan las
diferencias.
𝑇+=suma de los rangos con signo positivo
𝑇−=suma de los rangos con signo negativo.
5. Calcular el estadístico T=𝑻+
6. Determinar el 𝑝−𝑣𝑎𝑙𝑜𝑟con ayuda de tablas.
7. Concluir.
Ejemplo:
Una empresa desea reemplazar el sabor tradicional de su
producto, por uno nuevo, para lo cual necesita
determinar si a los clientes les gustará más el nuevo
sabor, se realiza una consulta en donde se califica de 0 a
20 a los dos sabores.
Prueba de Wilcoxon
Es una alternativa para distribuciones libres puede
considerarse como muy eficiente, sobre todo en
poblaciones con distribución discreta o inespecíficas
Se utiliza para comparar dos mediciones (relacionadas y
determinar si la diferencia entre ellas se debe al azar o no
(en este último caso, que la diferencia sea
estadísticamente significativa).
Juego de Hipótesis:
H0: 𝜃1=𝜃2: no existe cambio en la mediana de la variable
tras aplicar el tratamiento.
HA: 𝜃1≠𝜃2: el tratamiento tiene efecto en la mediana de la
variable.
Estadístico de prueba:
Se rechaza Ho cuando:
En este caso n=12
T+=23
Con eso se busca en la tabla
La del otro lado es lo mismo por ser simétrica
Así el total es 0.234 el p-valor
Donde:
𝑥2𝑟= estadístico calculado del análisis de varianza por
rangos de Friedman.
𝐻= representa el número de elementos o de bloques
(número de hileras).
𝐾= el número de variables relacionadas.
Ʃ𝑅𝑐2= es la suma de rangos por columnas al cuadrado.
Pasos:
1. Ordenar los datos de tal forma que en columnas se
encuentren las 𝐾variables y los 𝐻elementos en las filas.
2. A los valores de cada fila se les asigna un número del 1
a K, según el orden de magnitud de menor a mayor a este
número se le denomina rango.
3. Se suman los respectivos rangos en función de las
columnas Ʃ𝑅𝑐
4. Calcular el estadístico 𝒙𝟐𝒓
5. Determinar el valor critico 𝝌𝜶, 𝑲−𝟏𝟐
6. Concluir
➢
Prueba de Friedman
Prueba no paramétrica de comparación de tres o más
muestras relacionadas.
Es libre de curva, no necesita una distribución específica
Nivel ordinal de la variable dependiente
Se utiliza para comparar más de dos mediciones de
rangos (y determinar que la diferencia no se deba al azar
(que la diferencia sea estadísticamente significativa)
Es la opción no paramétrica a DBCA
Juego de Hipótesis:
H0: No existe diferencia entre los grupos.
HA: Existe diferencia entre los grupos.
Para resolver el contraste de la hipótesis anterior,
Friedman propuso un estadístico que se distribuye como
un Chi cuadrado con K 1 grados de libertad, siendo K el
número de variables relacionadas.
Regla de decisión:
Estadístico de prueba:
Ejemplo:
Un estudio pretende determinar si existe diferencia en
como de bueno consideran los consumidores que es un
vino dependiendo de la hora del día en la que lo toman.
Para ello se selecciona a un grupo de 11 sujetos a los que
se les da a probar un vino por la mañana, por la tarde y
por la noche. En cada degustación se valora del 1 al 11 el
vino (los degustadores no saben que es el mismo vino).
Poner rango de menor a mayor en cada horizontal
Sumar esos rangos verticalmente 33-19-14
K=3
H=11
𝑋𝑟2 =
12
× ((332 + 192 + 142 ) − 3(11)(3 + 1))
11(33)(3 + 1)
𝑋𝑟2 = 17.64
α=0.05
2
𝑋0.05/2
= 5.9915
Rechaza Ho: hay una diferencia de la hora de consumo
en el sabor del vino
➢
Prueba U de Mann Whitney
➢ Prueba U de Mann Whitney
Pasos:
1. Ordenar los valores de las dos muestras en orden
ascendiente.
2. Asignar un rango de orden a cada valor (asignar
un rango ordinal, de manera que 1 corresponde a
la observación de menor magnitud, 2 a la
segunda y así sucesivamente).
3. Si existen empates en los datos entonces se
corrigen, a cada valor se le asigna el promedio de
los rangos que les corresponderían si se les diera
rangos sucesivos a cada uno de ellos.
4. Separar 𝑅1y 𝑅2y calcular σ 𝑅1y σ 𝑅2.
5. Calcular 𝑈1y 𝑈2y el estadístico.
6. Comparar el estadístico con el valor crítico y
concluir.
Juego de hipótesis:
Prueba no paramétrica que permite comparar dos
muestras independientes.
Los datos no requieren una distribución
especifica.
La variable dependiente en escala ordinal.
Comparar dos grupos de rangos (medianas) y
determinar que la diferencia no se deba al azar (que la
diferencia sea estadísticamente significativa).
Juego de Hipótesis:
Sean dos muestras aleatorias independientes, con
mediana Me1 y Me2.
• H0: 𝑀𝑒1=𝑀𝑒2 no existe diferencia entre las
medias
• HA: 𝑀𝑒1≠𝑀𝑒2 existe diferencia entre las medias
Estadístico de prueba:
Donde:
𝑈1y 𝑈2: estadísticos de cada muestra
𝑛1: tamaño de muestra del grupo
𝑛2: tamaño de muestra del grupo 2
Ʃ𝑅1: sumatoria de los rangos del grupo 1
Ʃ𝑅2: sumatoria de los rangos del grupo 2
SI Ho NO SE RECHAZA, NO EXISTE DIFERENCIA
SIGNIFICATIVA
Ejemplo:
Se desea estudiar el consumo de carne en dos
comunidades. Para contrastar si hay diferencias se anota
el consumo en kg, durante un determinado periodo, en
una muestra de 10 familias en la comunidad A y otras 5
en la Comunidad B, se encontró lo siguiente:
Comunidad A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
Comunidad B: 12, 14, 11, 30, 10.
PASO 4.
Sumar lo de B
Sumar rangos de A
PASO 5. CALCULAR U1 Y U2
aproximar la distribución de 𝑇 bajo 𝐻𝑜 por la distribución
Ji cuadrada con 𝑡−1grados de libertad, entonces:
6.Comparar el estadístico con el valor crítico y concluir.
En caso de empates, y si éstos son numerosos es
conveniente usar, el estadístico 𝑇∗en lugar de 𝑇, el cual
se define como:
Donde
𝑟: número de empates
𝑒𝑗: número de observaciones en el empate 𝑗−é𝑠𝑖𝑚𝑜
➢
Prueba de Kruskal Wallis
Prueba no paramétrica que permite comparar dos o más
muestras independientes.
Es la alternativa no paramétrica a DCA.
Se desconfía de la suposición de normalidad.
Los supuestos de esta prueba son:
• Las muestras son muestras aleatorias de sus
respectivas poblaciones y además son
independientes entre sí.
• La escala de medición es al menos ordinal.
Juego de Hipótesis: Sean 𝒕 tratamientos.
H0: Los efectos de los 𝑡tratamientos son iguales.
HA: Al menos el efecto de un tratamiento es diferente.
Estadístico de prueba
Pasos:
Nota: considérese una extensión de la Prueba U de Mann
Whitney.
1. Ordenar los valores de los diferentes
tratamientos en orden ascendiente.
2. Asignar un rango de orden a cada valor (asignar
un rango ordinal, de manera que 1 corresponde
a la observación de menor magnitud, 2 a la
segunda y así sucesivamente).
3. Si existen empates en los datos entonces se
corrigen, a cada valor se le asigna el promedio de
los rangos que les corresponderían si se le diera
rangos sucesivos a cada uno de ellos.
4. Determinar la suma de rangos para cada
tratamento 𝑅𝑖
5. Calcular el estadístico.
6. Comparar el estadístico con el valor crítico y
concluir.
Ejemplo:
En algunos estudios sobre el crecimiento de levaduras
se utiliza un índice de turbidez del medio como medida.
En un experimento se desea estudiar el efecto de tres
medios diferentes, sobre el crecimiento. Los resultados
fueron:
Donde
𝑁: número total de observaciones.
𝑛𝑖: número de observaciones por tratamiento.
𝑅𝑖: rangos para cada tratamiento.
La distribución de 𝑇 bajo 𝐻𝑜 no es difícil de calcular, pero
su presentación en una tabla requeriría mucho espacio,
ya que para cada valor de 𝑡 habría que considerar los
diferentes valores de 𝑛1, 𝑛2…, 𝑛𝑡, por lo que es usual


UNIDAD III: MUESTREO ESTADÍSTICO
Se estudiarán poblaciones que ya no son teóricas sino
poblaciones cuyas unidades experimentales pueden
enumerarse, y en consecuencia se pueden muestrear
aleatoriamente
Tipos de poblaciones
Finita o contable
Infinita o no contable
Población y muestra
Medidas de tendencia central y dispersión (varianza,
desviación estándar, rango) para describir
comportamiento de población.
La coordinación y el trabajo conjunto entre los
responsables de la toma de muestras y de laboratorio son
esenciales con el fin de garantizar:
Las muestras tomadas sean las adecuadas.
Puedan ser analizadas con celeridad y acorde con
la capacidad del laboratorio.
La cantidad recolectada sea mayor o igual a la
mínima necesaria según los métodos de análisis.
Para que el resultado de este análisis sea significativo y
confiable, debe provenir de una muestra representativa
del lote que haya sido tomada y manejada de forma tal
que asegure su integridad.
Ventajas del muestreo
Es útil resumir en qué casos conviene obtener muestras,
en lugar de censos o investigaciones exhaustivas de todos
los elementos de la población.
- Resulta más económica la muestra que una
enumeración completa.
- El tiempo para obtener los resultados a través de una
muestra es sustancialmente más pequeño.
- Cuando el proceso de medida o examen de las
características de cada elemento sea destructivo o
disminuya su valor.
- Cuando la población es tan grande que el tratamiento
total exceda las posibilidades del investigador.
- Cuando los elementos de la población sean
suficientemente homogéneos.
MUESTREO
Consiste en la obtención efectiva de la muestra esto es,
en la recolección de los elementos o datos que la
constituyen.
El objetivo es conseguir un grado de precisión deseado
con los mínimos recursos.
El mayor peligro es que aumente el error de muestreo,
en particular porque el material seleccionado de cada
tratamiento no sea representativo de la población
Etapas del muestreo:
tamaño de la muestra, de modo que los resultados no
sean en exceso costosos o imprecisos.
A error más pequeño, mayor tamaño de muestra. Mas
nivel de confianza, mas muestra.
Tipos de muestreo:
Factores que deben tomarse en cuenta:
- La variabilidad de la característica de interés en los
elementos de la población
- El tamaño de la población bajo estudio
- El nivel de precisión que se desea para estimar el
parámetro de interés
- El nivel de confiabilidad deseado
Para población infinita
Muestreo probabilístico
El muestreo es probabilístico cuando
- Cada unidad de muestreo tiene, o se le ha asignado
una probabilidad conocida de estar en la muestra
- Existe una selección aleatoria en alguna etapa del
procedimiento de muestreo y está directamente
relacionada con probabilidades conocidas
- El método de cálculo de una estimación de una
media se establece claramente y llevará a un valor de
la estimación.
Cuando se cumplen estos criterios, puede asignarse una
probabilidad de selección a cada muestra y a cada
estimación
Por lo tanto, se puede construir una distribución (normal)
de probabilidades de las estimaciones dadas por el
muestreo.
Tipos:
1. Aleatorio simple (más común)
2. Estratificado
3. Por conglomerados
4. Sistemático
Tamaño de la muestra
Establecida la característica o características a estimar, el
grado de confianza y de precisión requeridos, se decide el
Para población finita
Donde
- 𝒁𝜶/𝟐 valor de la distribución normal estándar de
tal manera que, 𝑃(𝑍≥𝑍𝛼/2) =𝛼/2
Usualmente, los valores críticos son 90 Z= 1 65
95 Z= 1 96 99 Z= 2 58
- 𝝈𝟐 Varianza poblacional
- 𝑬 Error máximo de la estimación
- 𝑵 Tamaño de la población bajo estudio
Ejemplo infinito:
Se sabe que la duración, en horas, de un foco de 75 watts
tiene una distribución, aproximadamente normal, con
una desviación estándar de 25 horas. Supóngase que se
desea una confianza del 95% en que el error en la
estimación de la duración promedio sea menor que 5
horas. ¿Qué tamaño de muestra debe usarse?
Para estimar la media de la población (infinita):
Para alcanzar un margen de error de 5 horas con un nivel
de confianza de 95%, se necesitan muestrear 97 focos.
Ejemplo finito:
Tamaño de muestra
pequeño, menor a 30
Tamaño de muestra,
mayor a 30
Puesto que 𝑋̅ es una variable aleatoria, esta tiene su
propia desviación estándar.
De manera que entonces:
Muestreo simple aleatorio
Consiste en la selección al azar de 𝒏 elementos entre los
𝑵 que constituyen la población. Todas las muestras
posibles de tamaño 𝑛 (tantas como combinaciones de N
elementos de n en n) tienen la misma probabilidad de ser
obtenidas 𝑁𝑛.
Pasos:
1. Primero se le asigna un número consecutivo a
cada elemento de la población
2. Se fija el plan y tamaño de la muestra
3. Se obtienen los números de los elementos
seleccionados
Puede usar tabla de números aleatorios
Puede usar una calculadora
Programa de selección aleatoria
4. Se realiza el muestreo
5. Evaluar la variable de interés
ESTIMACIÓN POR INTERVALOS
La estimación por intervalos consiste en la obtención de
un intervalo o rango, dentro del cual estará el valor del
parámetro estimado, con una cierta probabilidad.
Construir un intervalo con un nivel de confianza (𝟏–𝜶)
para un parámetro desconocido 𝜃, consiste en estimar
dos números (estadísticos) 𝐿y 𝑈, de manera que la
probabilidad de que 𝜃se encuentre entre ellos sea
1–𝛼, es 𝑃𝐿≤𝜃≤𝑈=1−𝛼
Donde 𝐿y 𝑈 forman el intervalo de confianza buscado.
Nivel de confianza son complementarios.
Intervalo de confianza para la media
Tamaño de muestra
pequeño, menor a 30
Tamaño de muestra,
mayor a 30
En poblaciones finitas (<100,000 y 𝑛≥5%𝑁) debe de
aplicarse un factor de corrección:
Como 𝝈𝟐es desconocida, se estima mediante su
estimador insesgado que es
Ejemplo: 
Una fábrica de embutidos desea conocer el contenido de
grasa (g) promedio de la producción diaria. Al día se
producen 200 productos.
Determinar el intervalo de confianza para la media,
considerando que se seleccionaron al azar 15 productos y
los datos de contenido de grasa son los siguientes: 21, 14,
13, 12, 14, 13, 16, 20, 23, 22, 20, 19, 25, 25, 23
MUESTREO ALEATORIO ESTRATIFICADO
Población compuesta por varios grupos bien identificados
(estratos).
Los individuos pertenecen a uno y solamente uno de los
estratos.
Deben ser analizados de forma diferente, ya que pueden
obtenerse estimaciones más precisas (menos errores)
tomando una muestra aleatoria en cada estrato.
Se garantiza que todos los estratos estén
representados
Cada estrato tiene elementos que son homogéneos entre
sí y heterogéneos respecto a los demás estratos.
𝑁=𝑁1+𝑁2+⋯+𝑁𝐿.
Donde:
𝑁ℎ=𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑒𝑛 𝑒𝑙 ℎ−é𝑠𝑖𝑚𝑜 𝑒𝑠𝑡𝑟𝑎𝑡𝑜.
Determinar el tamaño de la muestra (𝑛) y lo distribuimos
en los 𝐿estratos, usando asignación proporcional:
𝑛ℎ=𝑁ℎ𝑛𝑁
Una vez determinado 𝑛ℎ se procede a realizar un
muestreo aleatorio simple en cada estrato.
Ejemplo:
En una empresa de elaboración de mermeladas, se ha
producido un número diferente por día, debido a que
cada día varía el sabor de la mermelada. Las cantidades
por día son: 853 de lunes, 512 de martes, 321 de
miércoles, 204 de jueves y 110 en viernes. Queremos
extraer una muestra de 120 productos:
a) ¿Cuántas hay que elegir de cada presentación para que
el muestreo sea estratificado con reparto
proporcional?
b) ¿Cómo ha de ser la elección dentro de cada estrato?
Dentro de cada estrato, la elección ha de ser aleatoria.
Descargar