MÉTODOS ESTADÍSTICOS PARA LA INVESTIGACIÓN PECUARIA Ing. Zoot. M.Cs. Wuesley Yusmein, Alvarez García. Investigador RENACYT - P0053304 https://orcid.org/0000-0002-9655-3149 Se Pretende introducir sobre el uso y manejos de datos numéricos: • Distinguir y clasificar las características en estudio • Organizar y tabular las medidas obtenidas mediante la construcción de tablas de frecuencia y • emplear métodos para elaborar una imagen que sea capaz de mostrar gráficamente unos resultados. “Un gráfico bien elaborado vale más que mil tablas de frecuencias” “La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones” Estadística descriptiva Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos. Estadística inferencial Apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos. Individuos o elementos personas u objetos que contienen cierta información que se desea estudiar. Población conjunto de individuos propiedades comunes. o elementos que cumplen ciertas Muestra subconjunto representativo de una población. Parámetro función definida sobre los valores numéricos de características medibles de una población. Estadístico función definida sobre los valores numéricos de una muestra. En relación al tamaño de la población, esta puede ser: Finita Como es el caso del número de personas que llegan al servicio de urgencia de un hospital en un día. Infinita Si por ejemplo estudiamos el mecanismo aleatorio que describe la secuencia de caras y cruces obtenida en el lanzamiento repetido de una moneda al aire. CÁLCULO DEL TAMAÑO DE LA MUESTRA DESCONOCIENDO EL TAMAÑO DE LA POBLACIÓN La fórmula para calcular el tamaño de muestra cuando se desconoce el tamaño de la población es la siguiente: En donde Z = nivel de confianza, p = probabilidad de éxito, o proporción esperada q = probabilidad de fracaso d = precisión (error máximo admisible en términos de proporción) CÁLCULO DEL TAMAÑO DE LA MUESTRA CONOCIENDO EL TAMAÑO DE LA POBLACIÓN La fórmula para calcular el tamaño de muestra cuando se conoce el tamaño de la población es la siguiente: % de confianza 80% 85% 88% 90% 95% 98% 99% En donde, N = tamaño de la población Z = nivel de confianza, p = probabilidad de éxito, o proporción esperada q = probabilidad de fracaso d = precisión (Error máximo admisible en términos de proporción). Coeficiente de confianza Z 1.29 1.44 1.56 1.64 1.96 2.33 2.58 Población de ganado bovino en Cajamarca (CENAGRO, 2012) Raza Holstein Bovinos Proporcion Muestra estatificada 72603 Brown Swiss 93571 Gyr/Cebú Criollos Otras Razas 21168 497119 35866 Total 720327 Raza Bovinos Proporcion Muestra estatificada Holstein 72603 0.10 39 Brown Swiss 93571 0.13 50 Gyr/Cebú 21168 0.03 11 497119 0.69 265 35866 0.05 19 720327 1.00 384 Criollos Otras Razas Total Caracteres: propiedades, rasgos o cualidades de los elementos de la población. Estos caracteres pueden dividirse en cualitativos y cuantitativos. Modalidades: diferentes situaciones posibles de un carácter. Las modalidades deben ser a la vez exhaustivas y mutuamente excluyentes - cada elemento posee una y solo una de las modalidades posibles. Clases: conjunto de una o más modalidades en el que se verifica que cada modalidad pertenece a una y solo una de las clases. ORGANIZACIÓN DE LOS DATOS Variables estadísticas Variables cualitativas, cuando las modalidades posibles son de tipo nominal. • Por ejemplo, el grupo sanguíneo tiene por modalidades: Grupos Sanguíneos posibles: A, B, AB, O. Variables cuasicuantitativas u ordinales, son las que, aunque sus modalidades son de tipo nominal, es posible establecer un orden entre ellas. Por ejemplo, si estudiamos el grado de recuperación de un paciente al aplicarle un tratamiento, podemos tener como modalidades: Grado de recuperación: Nada, Poco, Moderado, Bueno, Muy Bueno. A veces se representan este tipo de variables en escalas numéricas, por ejemplo, puntuar el dolor en una escala de 1 a 5. Debemos evitar sin embargo realizar operaciones algebraicas con estas cantidades. ¡Un dolor de intensidad 4 no duele el doble que otro de intensidad 2! Variables cuantitativas o numéricas son las que tienen por modalidades cantidades numéricas con las que podemos hacer operaciones aritméticas. Dentro de este tipo de variables podemos distinguir dos grupos: • Discretas, cuando no admiten siempre una modalidad intermedia entre dos cualesquiera de sus modalidades. Un ejemplo es el número de hijos en una población de familias: Número de hijos posibles: 0, 1, 2, 3, 4, 5, . . . • Continuas, cuando admiten una modalidad intermedia entre dos cualesquiera de sus modalidades, v.g. el peso X de un niño al nacer. Tablas estadísticas Consideremos una población estadística de n individuos, descrita según un carácter o variable C cuyas modalidades han sido agrupadas en un número k de clases, • Frecuencia absoluta de la clase ci es el número ni, de observaciones que presentan una modalidad perteneciente a esa clase. • Frecuencia relativa de la clase ci es el cociente fi, entre las frecuencias absolutas de dicha clase y el número total de observaciones, es decir. Obsérvese que fi es el tanto por uno de observaciones que están en la clase ci. Multiplicado por 100 % representa el porcentaje de la población que comprende esa clase. • Frecuencia absoluta acumulada Ni, se calcula sobre variables cuantitativas o cuasicuantitativas, y es el número de elementos de la población cuya modalidad es inferior o equivalente a la modalidad ci: • Frecuencia relativa acumulada , Fi, se calcula sobre variables cuantitativas o cuasicuantitativas, siendo el tanto por uno de los elementos de la población que están en alguna de las clases y que presentan una modalidad inferior o igual a la ci, es decir, Llamaremos distribución de frecuencias al conjunto de clases junto a las frecuencias correspondientes a cada una de ellas. Una tabla estadística sirve para presentar de forma ordenada las distribuciones de frecuencias Calcular los datos que faltan en la siguiente tabla. Representaciones gráficas Gráficos para variables cualitativas Los gráficos más usuales para representar variables de tipo nominal son los siguientes: Diagramas de barras: • Diagrama de sectores: Se divide un círculo en tantas porciones como clases existan, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa El arco de cada porción se calcula usando la regla de tres: Pictogramas: Expresan con dibujos alusivo al tema de estudio las frecuencias de las modalidades de la variable. • El escalamiento de los dibujos debe ser tal que el área de cada uno de ellos sea proporcional a la frecuencia de la modalidad que representa. • Este tipo de gráficos suele usarse en los medios de comunicación, para que sean comprendidos por el público no especializado, sin que sea necesaria una explicación compleja. Gráficos para variables cuantitativas Diagramas diferenciales: Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se representa el número o porcentaje de elementos que presenta una modalidad dada. Diagramas integrales: Son aquellos en los que se representan el número de elementos que presentan una modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias acumuladas, lo que da lugar a gráficos crecientes, y es obvio que este tipo de gráficos no tiene sentido para variables cualitativas. • Para variables discretas, usamos el diagrama de barras cuando se pretende realizar una gráfica diferencial. Para variables continuas: se utilizan los diagramas diferenciales los histogramas y los polígonos de frecuencias. Ejercicio … • La siguiente distribución se refiere a la duración en horas (completas) de un lote de 500 tubos. • Representar el histograma de frecuencias relativas y el polígono de frecuencias. • Trazar la curva de frecuencias relativas acumuladas. • Determinar el número mínimo de tubos que tienen una duración inferior a 900 horas. Resumen Elementos de la inferencia estadística Ing. Zoot. M.Cs. Wuesley Yusmein, Alvarez García. 1. Población y muestra, parámetros y estadísticos Una población o universo es una colección o totalidad de posibles individuos, especímenes, objetos o medidas de interés sobre los que se hace un estudio. Las poblaciones pueden ser finitas o infinitas. Población finita Es aquella en la que se pueden medir todos los individuos para tener un conocimiento exacto de sus características. 9/12/2022 2 Población infinita Es aquella en la que la población es grande y es imposible e incosteable medir a todos los individuos. En este caso se tendrá que sacar una muestra representativa de dicha población. Parámetros Características que, mediante su valor numérico, describen a un conjunto de elementos o individuos. Muestra representativa Es una parte de una población, seleccionada adecuadamente, que conserva los aspectos clave de la población. 9/12/2022 3 Una forma de lograr representatividad en la muestra es diseñar de manera adecuada un muestreo aleatorio (azar), donde la selección no se haga con algún sesgo en una dirección que favorezca la inclusión de ciertos elementos en particular, sino que todos los elementos de la población tengan las mismas oportunidades de ser incluidos en la muestra. Existen varios métodos de muestreo aleatorio, entre ellos: • el simple, • el estratificado, • el muestreo sistemático y • por conglomerados; cada uno de ellos logra muestras representativas en función de los objetivos del estudio y de ciertas circunstancias y características particulares de la población. 9/12/2022 4 Inferencia estadística Son afirmaciones válidas acerca de la población o proceso con base en la información contenida en una muestra. Estadístico Cualquier función de los datos muestrales que no contiene parámetros desconocidos 9/12/2022 5 2. distribuciones de probabilidad e inferencia Relaciona el conjunto de valores posibles de X (rango de X), con la probabilidad asociada a cada uno de estos valores y los representa a través de una tabla o por medio de una función planteada como una fórmula. Las distribuciones de probabilidad que más se usan en intervalos de confianza y pruebas de hipótesis son las distribuciones: normal, T de Student, ji-cuadrada y F. 9/12/2022 6 Muestra de las distribuciones de probabilidad de mayor uso en inferencia. 9/12/2022 7 Como se muestra: ✓Las distribuciones normal y T de Student sirven para hacer inferencias sobre las medias • La distribución ji-cuadrada será de utilidad para hacer inferencias sobre varianzas y la distribución F se empleará para comparar varianzas. Es por esto: La distribución F es de mayor relevancia en el diseño de experimentos, dado que el análisis de la variabilidad que se observó en un experimento se hace comparando varianzas. 9/12/2022 8 3. estimación puntual y por intervalo Las distribuciones de probabilidad que tienen una variable que representa cierta característica de una población se definen completamente cuando se conocen sus parámetros, pero cuando éstos no se conocen, será necesario estimarlos con base en los datos muestrales para hacer inferencias sobre la población. 9/12/2022 9 ESTIMACIÓN PUNTUAL Es un estadístico que genera un valor numérico simple, que se utiliza para hacer una estimación del valor del parámetro desconocido. • La media µ del proceso (población). • La varianza ơ2 o la desviación estándar ơ del proceso. • La proporción p de artículos defectuosos. 9/12/2022 10 Los estimadores puntuales (estadísticos) más recomendados para estimar estos parámetros son, respectivamente: • La media muestral µ = X • La varianza muestral ơ2 = S2. • La proporción de defectuosos en la muestra, p = x/n, donde x es el número de artículos defectuosos en una muestra de tamaño n. 9/12/2022 11 ESTIMACIÓN POR INTERVALO De esta forma, cuando se quiere tener mayor certidumbre sobre el verdadero valor del parámetro poblacional, será necesario obtener la información sobre qué tan precisa es la estimación puntual. Una forma de saber qué tan variable es el estimador, consiste en calcular la desviación estándar o error estándar del estadístico, visto como una variable aleatoria. 9/12/2022 12 Una forma operativa de saber qué tan precisa es la estimación consiste en calcular un intervalo de confianza que indique un rango “donde puede estar el parámetro” con cierto nivel de seguridad o confianza. Construir un intervalo al 100(1 – α)% de confianza para un parámetro desconocido θ, consiste en estimar dos números (estadísticos) L y U, de manera que la probabilidad de que q se encuentre entre ellos sea 1 – α, es decir: 𝑃(𝐿 ≤ 𝜃 ≤ 𝑈) = 1 – 𝛼 donde L y U forman el intervalo de confianza buscado [L, U]. 9/12/2022 13 La longitud del intervalo de confianza es una medida de la precisión de la estimación. Es deseable que la longitud de los intervalos sea pequeña y con alto nivel de confianza. El ancho de los intervalos es mayor a medida que sea mayor la varianza de la población y el nivel de confianza exigido. El ancho del intervalo es menor si se incrementa el tamaño de la muestra. 9/12/2022 14 Intervalo de confianza para una media Por definición de intervalo de confianza se trata de encontrar dos números L y U, tales que el parámetro µ se encuentre entre ellos con una probabilidad de 1–α. 𝑃(𝐿 ≤ µ ≤ 𝑈) = 1 – 𝛼 Sea X1, X2, …, Xn una muestra aleatoria de tamaño n de una población, con una distribución normal con media µ y varianza ơ2, ambas desconocidas. El procedimiento general para deducir el intervalo consiste en partir de un estadístico que involucra al parámetro de interés y que tiene una distribución conocida. Tal estadístico es: 9/12/2022 15 𝑋 − 𝜇 𝑡= 𝑆 𝑛 El cual sigue una distribución T de Student con n – 1 grados de libertad. 𝑋 − 𝜇 𝑃 −𝑡𝛼/2 ≤ ≤ 𝑡𝛼/2 = 1 − 𝛼 𝑆 𝑛 De aquí, despejando hasta dejar sólo en medio de las desigualdades al parámetro de interés, se llega a que: 𝑆 𝑆 𝑃 𝑋 − 𝑡𝛼/2 ≤ 𝜇 ≤ 𝑋 + 𝑡𝛼/2 =1 − 𝛼 𝑛 𝑛 9/12/2022 16 Puntos críticos para la distribución t de Student. 9/12/2022 17 Tamaño de la muestra En ocasiones es necesario calcular el tamaño de muestra n para lograr la estimación de una media poblacional µ tenga como error máximo a un numero E. • En este caso, como el error de estimación esta dado por E = t(α/2,n-1)S/ 𝑛 𝑡 2 𝛼 Τ2 , 𝑛 − 1 𝑆 2 𝑛= 𝐸2 entonces para propósitos prácticos y con tamaños de muestra mayores que 30 4𝑆 2 𝑛= 2 𝐸 9/12/2022 18 Trabajo encargado • Encontrar el intervalo de confianza para la media de un indicador productivo o reproductivo (especie domestica o para pasturas), considerando los valores de muestra de 18 a 30, nivel de confianza 95%. • Simular los datos y mostrar los resultados. • Mostrar la fuente del indicador. • Fecha de entrega: 12/12/22 9/12/2022 19