ESTADÍSTICA NO PARAMÉTRICA Tipo Naturaleza Escala Característica Ejemplo Valores Variables categóricas Cualitativas Nominal Ordinal Posee Posee las categorías categóricas a las que ordenadas, se les pero no asigna un permite nombre cuantificar sin que la distancia exista entre una orden. categoría y otra. Genero Masculino, femenino. Intensidad Leve, moderado Pruebas no paramétricas Variables numéricas Cuantitativas Intervalo Razón Tiene Tiene intervalos intervalos iguales y constantes medibles. entre No tiene un valores; origen real, además de por loque un origen puede real. asumir El cero valores significa negativos. ausencia. Temperatura Peso -10°C, 0°C 0 Kg, 1Kg Si hay T° Variable dependien te Una muestra Nominal Binomial Chicuadrado Rachas Kolmogoro v-Smimov Ordinal/ intervalo ➢ Muestras relacionadas 2 +2 muestra muestra s s McNem Cochran ar Muestras independientes 2 muestras +2 muestras -- -- Signos Wilcoxo n Rachas de wald Woldowitz U de MannWhitney Moses Kolmogoro v-Smimov Mediana Kruskal Wells Jonckeer eTerpstra Friedma n Kendall Prueba de McNemar - TIPOS DE ESTADISTICA: Decide si puede o no aceptarse que determinado tratamiento (uno) induce un cambio en la respuesta de elementos sometidos a este. Contrasta 2 muestras relacionadas (pareadas). Las medidas en cada objeto o sujeto se obtienen dos veces: una antes y otra después del tratamiento. Contrasta hipótesis sobre igualdad de proporciones Compara el cambio en la distribución de proporciones entre dos mediciones de una variable dicotómica (en ausencia puede trabajarse con 1 y 0) y determinar que la diferencia no se deba al azar (que la diferencia sea estadísticamente significativa). Parametrica: Debe cumplirse: Paramétricas De intervalo y razón; rango, mediana, moda, desviación estándar y varianza. No paramétricas Ordinal: además se puede incluir percentiles y mediana. Nominal: se describe con frecuencia, moda, proporciones. 1. La distribución de los datos es de tipo normal (gaussiana). 2. Homocedasticidad o varianza contante. 3. Las observaciones son independientes. 4. La escala de medición es cuantitativa (variable numérica) No paramétrica: cuando no se cumplen los supuestos anteriores. 1. 2. 3. 4. Distribución libre. Heterocedasticidad, varianza diferente. Observaciones no independientes. Escala de medición nominal u ordinal. 1. Los datos se ajustan a la distribución Chi cuadrada. 2. Variable nominal y dicotómica (puede tomar solo 2 valores) 3. Datos pareados Donde: n: número de observaciones. a: número de individuos que mantuvieron su respuesta positiva sin cambio. b: número de individuos que cambiaron su respuesta de positiva a negativa. c: número de individuos que cambiaron su respuesta de negativa a positiva. d: número de individuos que mantuvieron su respuesta negativa. Juego de Hipótesis: H0: No existe cambio en la variable después de aplicar el tratamiento. HA: El tratamiento tiene efecto en la variable de interés. Estadístico de prueba Se rechaza Ho cuando: Prueba bilateral, por lo que hay 2 zonas de rechazo. Hay 2 valores críticos, uno a la derecha y otro a la derecha. Ejemplo: Antes de aplicar el nuevo etiquetado de productos, una empresa decidió hacer un estudio de preferencia y se le pregunto a 100 personas si consumirían o no cierto producto. Posteriormente se le presentaron a esas mismas 100 personas el producto con el nuevo etiquetado y se les volvió a cuestionar, los resultados se muestran a continuación: ➢ Pasos: 1. Calcular las diferencias de las variables a estudiar (𝑋1−𝑋2). En caso de que la diferencia sea nula, se elimina el registro. 2. Ordenar las diferencias considerando el valor absoluto. 3. Asignamos un rango o categoría de orden a las mismas en orden ascendente. 4. Sumar los rangos según los signos que tengan las diferencias. 𝑇+=suma de los rangos con signo positivo 𝑇−=suma de los rangos con signo negativo. 5. Calcular el estadístico T=𝑻+ 6. Determinar el 𝑝−𝑣𝑎𝑙𝑜𝑟con ayuda de tablas. 7. Concluir. Ejemplo: Una empresa desea reemplazar el sabor tradicional de su producto, por uno nuevo, para lo cual necesita determinar si a los clientes les gustará más el nuevo sabor, se realiza una consulta en donde se califica de 0 a 20 a los dos sabores. Prueba de Wilcoxon Es una alternativa para distribuciones libres puede considerarse como muy eficiente, sobre todo en poblaciones con distribución discreta o inespecíficas Se utiliza para comparar dos mediciones (relacionadas y determinar si la diferencia entre ellas se debe al azar o no (en este último caso, que la diferencia sea estadísticamente significativa). Juego de Hipótesis: H0: 𝜃1=𝜃2: no existe cambio en la mediana de la variable tras aplicar el tratamiento. HA: 𝜃1≠𝜃2: el tratamiento tiene efecto en la mediana de la variable. Estadístico de prueba: Se rechaza Ho cuando: En este caso n=12 T+=23 Con eso se busca en la tabla La del otro lado es lo mismo por ser simétrica Así el total es 0.234 el p-valor Donde: 𝑥2𝑟= estadístico calculado del análisis de varianza por rangos de Friedman. 𝐻= representa el número de elementos o de bloques (número de hileras). 𝐾= el número de variables relacionadas. Ʃ𝑅𝑐2= es la suma de rangos por columnas al cuadrado. Pasos: 1. Ordenar los datos de tal forma que en columnas se encuentren las 𝐾variables y los 𝐻elementos en las filas. 2. A los valores de cada fila se les asigna un número del 1 a K, según el orden de magnitud de menor a mayor a este número se le denomina rango. 3. Se suman los respectivos rangos en función de las columnas Ʃ𝑅𝑐 4. Calcular el estadístico 𝒙𝟐𝒓 5. Determinar el valor critico 𝝌𝜶, 𝑲−𝟏𝟐 6. Concluir ➢ Prueba de Friedman Prueba no paramétrica de comparación de tres o más muestras relacionadas. Es libre de curva, no necesita una distribución específica Nivel ordinal de la variable dependiente Se utiliza para comparar más de dos mediciones de rangos (y determinar que la diferencia no se deba al azar (que la diferencia sea estadísticamente significativa) Es la opción no paramétrica a DBCA Juego de Hipótesis: H0: No existe diferencia entre los grupos. HA: Existe diferencia entre los grupos. Para resolver el contraste de la hipótesis anterior, Friedman propuso un estadístico que se distribuye como un Chi cuadrado con K 1 grados de libertad, siendo K el número de variables relacionadas. Regla de decisión: Estadístico de prueba: Ejemplo: Un estudio pretende determinar si existe diferencia en como de bueno consideran los consumidores que es un vino dependiendo de la hora del día en la que lo toman. Para ello se selecciona a un grupo de 11 sujetos a los que se les da a probar un vino por la mañana, por la tarde y por la noche. En cada degustación se valora del 1 al 11 el vino (los degustadores no saben que es el mismo vino). Poner rango de menor a mayor en cada horizontal Sumar esos rangos verticalmente 33-19-14 K=3 H=11 𝑋𝑟2 = 12 × ((332 + 192 + 142 ) − 3(11)(3 + 1)) 11(33)(3 + 1) 𝑋𝑟2 = 17.64 α=0.05 2 𝑋0.05/2 = 5.9915 Rechaza Ho: hay una diferencia de la hora de consumo en el sabor del vino ➢ Prueba U de Mann Whitney ➢ Prueba U de Mann Whitney Pasos: 1. Ordenar los valores de las dos muestras en orden ascendiente. 2. Asignar un rango de orden a cada valor (asignar un rango ordinal, de manera que 1 corresponde a la observación de menor magnitud, 2 a la segunda y así sucesivamente). 3. Si existen empates en los datos entonces se corrigen, a cada valor se le asigna el promedio de los rangos que les corresponderían si se les diera rangos sucesivos a cada uno de ellos. 4. Separar 𝑅1y 𝑅2y calcular σ 𝑅1y σ 𝑅2. 5. Calcular 𝑈1y 𝑈2y el estadístico. 6. Comparar el estadístico con el valor crítico y concluir. Juego de hipótesis: Prueba no paramétrica que permite comparar dos muestras independientes. Los datos no requieren una distribución especifica. La variable dependiente en escala ordinal. Comparar dos grupos de rangos (medianas) y determinar que la diferencia no se deba al azar (que la diferencia sea estadísticamente significativa). Juego de Hipótesis: Sean dos muestras aleatorias independientes, con mediana Me1 y Me2. • H0: 𝑀𝑒1=𝑀𝑒2 no existe diferencia entre las medias • HA: 𝑀𝑒1≠𝑀𝑒2 existe diferencia entre las medias Estadístico de prueba: Donde: 𝑈1y 𝑈2: estadísticos de cada muestra 𝑛1: tamaño de muestra del grupo 𝑛2: tamaño de muestra del grupo 2 Ʃ𝑅1: sumatoria de los rangos del grupo 1 Ʃ𝑅2: sumatoria de los rangos del grupo 2 SI Ho NO SE RECHAZA, NO EXISTE DIFERENCIA SIGNIFICATIVA Ejemplo: Se desea estudiar el consumo de carne en dos comunidades. Para contrastar si hay diferencias se anota el consumo en kg, durante un determinado periodo, en una muestra de 10 familias en la comunidad A y otras 5 en la Comunidad B, se encontró lo siguiente: Comunidad A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12 Comunidad B: 12, 14, 11, 30, 10. PASO 4. Sumar lo de B Sumar rangos de A PASO 5. CALCULAR U1 Y U2 aproximar la distribución de 𝑇 bajo 𝐻𝑜 por la distribución Ji cuadrada con 𝑡−1grados de libertad, entonces: 6.Comparar el estadístico con el valor crítico y concluir. En caso de empates, y si éstos son numerosos es conveniente usar, el estadístico 𝑇∗en lugar de 𝑇, el cual se define como: Donde 𝑟: número de empates 𝑒𝑗: número de observaciones en el empate 𝑗−é𝑠𝑖𝑚𝑜 ➢ Prueba de Kruskal Wallis Prueba no paramétrica que permite comparar dos o más muestras independientes. Es la alternativa no paramétrica a DCA. Se desconfía de la suposición de normalidad. Los supuestos de esta prueba son: • Las muestras son muestras aleatorias de sus respectivas poblaciones y además son independientes entre sí. • La escala de medición es al menos ordinal. Juego de Hipótesis: Sean 𝒕 tratamientos. H0: Los efectos de los 𝑡tratamientos son iguales. HA: Al menos el efecto de un tratamiento es diferente. Estadístico de prueba Pasos: Nota: considérese una extensión de la Prueba U de Mann Whitney. 1. Ordenar los valores de los diferentes tratamientos en orden ascendiente. 2. Asignar un rango de orden a cada valor (asignar un rango ordinal, de manera que 1 corresponde a la observación de menor magnitud, 2 a la segunda y así sucesivamente). 3. Si existen empates en los datos entonces se corrigen, a cada valor se le asigna el promedio de los rangos que les corresponderían si se le diera rangos sucesivos a cada uno de ellos. 4. Determinar la suma de rangos para cada tratamento 𝑅𝑖 5. Calcular el estadístico. 6. Comparar el estadístico con el valor crítico y concluir. Ejemplo: En algunos estudios sobre el crecimiento de levaduras se utiliza un índice de turbidez del medio como medida. En un experimento se desea estudiar el efecto de tres medios diferentes, sobre el crecimiento. Los resultados fueron: Donde 𝑁: número total de observaciones. 𝑛𝑖: número de observaciones por tratamiento. 𝑅𝑖: rangos para cada tratamiento. La distribución de 𝑇 bajo 𝐻𝑜 no es difícil de calcular, pero su presentación en una tabla requeriría mucho espacio, ya que para cada valor de 𝑡 habría que considerar los diferentes valores de 𝑛1, 𝑛2…, 𝑛𝑡, por lo que es usual UNIDAD III: MUESTREO ESTADÍSTICO Se estudiarán poblaciones que ya no son teóricas sino poblaciones cuyas unidades experimentales pueden enumerarse, y en consecuencia se pueden muestrear aleatoriamente Tipos de poblaciones Finita o contable Infinita o no contable Población y muestra Medidas de tendencia central y dispersión (varianza, desviación estándar, rango) para describir comportamiento de población. La coordinación y el trabajo conjunto entre los responsables de la toma de muestras y de laboratorio son esenciales con el fin de garantizar: Las muestras tomadas sean las adecuadas. Puedan ser analizadas con celeridad y acorde con la capacidad del laboratorio. La cantidad recolectada sea mayor o igual a la mínima necesaria según los métodos de análisis. Para que el resultado de este análisis sea significativo y confiable, debe provenir de una muestra representativa del lote que haya sido tomada y manejada de forma tal que asegure su integridad. Ventajas del muestreo Es útil resumir en qué casos conviene obtener muestras, en lugar de censos o investigaciones exhaustivas de todos los elementos de la población. - Resulta más económica la muestra que una enumeración completa. - El tiempo para obtener los resultados a través de una muestra es sustancialmente más pequeño. - Cuando el proceso de medida o examen de las características de cada elemento sea destructivo o disminuya su valor. - Cuando la población es tan grande que el tratamiento total exceda las posibilidades del investigador. - Cuando los elementos de la población sean suficientemente homogéneos. MUESTREO Consiste en la obtención efectiva de la muestra esto es, en la recolección de los elementos o datos que la constituyen. El objetivo es conseguir un grado de precisión deseado con los mínimos recursos. El mayor peligro es que aumente el error de muestreo, en particular porque el material seleccionado de cada tratamiento no sea representativo de la población Etapas del muestreo: tamaño de la muestra, de modo que los resultados no sean en exceso costosos o imprecisos. A error más pequeño, mayor tamaño de muestra. Mas nivel de confianza, mas muestra. Tipos de muestreo: Factores que deben tomarse en cuenta: - La variabilidad de la característica de interés en los elementos de la población - El tamaño de la población bajo estudio - El nivel de precisión que se desea para estimar el parámetro de interés - El nivel de confiabilidad deseado Para población infinita Muestreo probabilístico El muestreo es probabilístico cuando - Cada unidad de muestreo tiene, o se le ha asignado una probabilidad conocida de estar en la muestra - Existe una selección aleatoria en alguna etapa del procedimiento de muestreo y está directamente relacionada con probabilidades conocidas - El método de cálculo de una estimación de una media se establece claramente y llevará a un valor de la estimación. Cuando se cumplen estos criterios, puede asignarse una probabilidad de selección a cada muestra y a cada estimación Por lo tanto, se puede construir una distribución (normal) de probabilidades de las estimaciones dadas por el muestreo. Tipos: 1. Aleatorio simple (más común) 2. Estratificado 3. Por conglomerados 4. Sistemático Tamaño de la muestra Establecida la característica o características a estimar, el grado de confianza y de precisión requeridos, se decide el Para población finita Donde - 𝒁𝜶/𝟐 valor de la distribución normal estándar de tal manera que, 𝑃(𝑍≥𝑍𝛼/2) =𝛼/2 Usualmente, los valores críticos son 90 Z= 1 65 95 Z= 1 96 99 Z= 2 58 - 𝝈𝟐 Varianza poblacional - 𝑬 Error máximo de la estimación - 𝑵 Tamaño de la población bajo estudio Ejemplo infinito: Se sabe que la duración, en horas, de un foco de 75 watts tiene una distribución, aproximadamente normal, con una desviación estándar de 25 horas. Supóngase que se desea una confianza del 95% en que el error en la estimación de la duración promedio sea menor que 5 horas. ¿Qué tamaño de muestra debe usarse? Para estimar la media de la población (infinita): Para alcanzar un margen de error de 5 horas con un nivel de confianza de 95%, se necesitan muestrear 97 focos. Ejemplo finito: Tamaño de muestra pequeño, menor a 30 Tamaño de muestra, mayor a 30 Puesto que 𝑋̅ es una variable aleatoria, esta tiene su propia desviación estándar. De manera que entonces: Muestreo simple aleatorio Consiste en la selección al azar de 𝒏 elementos entre los 𝑵 que constituyen la población. Todas las muestras posibles de tamaño 𝑛 (tantas como combinaciones de N elementos de n en n) tienen la misma probabilidad de ser obtenidas 𝑁𝑛. Pasos: 1. Primero se le asigna un número consecutivo a cada elemento de la población 2. Se fija el plan y tamaño de la muestra 3. Se obtienen los números de los elementos seleccionados Puede usar tabla de números aleatorios Puede usar una calculadora Programa de selección aleatoria 4. Se realiza el muestreo 5. Evaluar la variable de interés ESTIMACIÓN POR INTERVALOS La estimación por intervalos consiste en la obtención de un intervalo o rango, dentro del cual estará el valor del parámetro estimado, con una cierta probabilidad. Construir un intervalo con un nivel de confianza (𝟏–𝜶) para un parámetro desconocido 𝜃, consiste en estimar dos números (estadísticos) 𝐿y 𝑈, de manera que la probabilidad de que 𝜃se encuentre entre ellos sea 1–𝛼, es 𝑃𝐿≤𝜃≤𝑈=1−𝛼 Donde 𝐿y 𝑈 forman el intervalo de confianza buscado. Nivel de confianza son complementarios. Intervalo de confianza para la media Tamaño de muestra pequeño, menor a 30 Tamaño de muestra, mayor a 30 En poblaciones finitas (<100,000 y 𝑛≥5%𝑁) debe de aplicarse un factor de corrección: Como 𝝈𝟐es desconocida, se estima mediante su estimador insesgado que es Ejemplo: Una fábrica de embutidos desea conocer el contenido de grasa (g) promedio de la producción diaria. Al día se producen 200 productos. Determinar el intervalo de confianza para la media, considerando que se seleccionaron al azar 15 productos y los datos de contenido de grasa son los siguientes: 21, 14, 13, 12, 14, 13, 16, 20, 23, 22, 20, 19, 25, 25, 23 MUESTREO ALEATORIO ESTRATIFICADO Población compuesta por varios grupos bien identificados (estratos). Los individuos pertenecen a uno y solamente uno de los estratos. Deben ser analizados de forma diferente, ya que pueden obtenerse estimaciones más precisas (menos errores) tomando una muestra aleatoria en cada estrato. Se garantiza que todos los estratos estén representados Cada estrato tiene elementos que son homogéneos entre sí y heterogéneos respecto a los demás estratos. 𝑁=𝑁1+𝑁2+⋯+𝑁𝐿. Donde: 𝑁ℎ=𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑒𝑛 𝑒𝑙 ℎ−é𝑠𝑖𝑚𝑜 𝑒𝑠𝑡𝑟𝑎𝑡𝑜. Determinar el tamaño de la muestra (𝑛) y lo distribuimos en los 𝐿estratos, usando asignación proporcional: 𝑛ℎ=𝑁ℎ𝑛𝑁 Una vez determinado 𝑛ℎ se procede a realizar un muestreo aleatorio simple en cada estrato. Ejemplo: En una empresa de elaboración de mermeladas, se ha producido un número diferente por día, debido a que cada día varía el sabor de la mermelada. Las cantidades por día son: 853 de lunes, 512 de martes, 321 de miércoles, 204 de jueves y 110 en viernes. Queremos extraer una muestra de 120 productos: a) ¿Cuántas hay que elegir de cada presentación para que el muestreo sea estratificado con reparto proporcional? b) ¿Cómo ha de ser la elección dentro de cada estrato? Dentro de cada estrato, la elección ha de ser aleatoria.