Subido por BAUTISTA TERRONES GILMER

CLASES SEM 1, 2 Y 3

Anuncio
MÉTODOS ESTADÍSTICOS PARA LA
INVESTIGACIÓN PECUARIA
Ing. Zoot. M.Cs.
Wuesley Yusmein, Alvarez García.
Investigador RENACYT - P0053304
https://orcid.org/0000-0002-9655-3149
Se Pretende introducir sobre el uso y manejos
de datos numéricos:
• Distinguir y clasificar las características en
estudio
• Organizar y tabular las medidas obtenidas
mediante la construcción de tablas de
frecuencia y
• emplear métodos para elaborar una imagen
que sea capaz de mostrar gráficamente
unos resultados.
“Un gráfico bien elaborado vale más que mil tablas de frecuencias”
“La Estadística se ocupa de los métodos y procedimientos
para recoger, clasificar, resumir, hallar regularidades y
analizar los datos, siempre y cuando la variabilidad e
incertidumbre sea una causa intrínseca de los mismos; así
como de realizar inferencias a partir de ellos, con la
finalidad de ayudar a la toma de decisiones y en su caso
formular predicciones”
Estadística descriptiva
Describe, analiza y representa un grupo de
datos utilizando métodos numéricos y
gráficos que resumen y presentan la
información contenida en ellos.
Estadística inferencial
Apoyándose en el cálculo de probabilidades
y a partir de datos muestrales, efectúa
estimaciones, decisiones, predicciones u
otras generalizaciones sobre un conjunto
mayor de datos.
Individuos o elementos
personas u objetos que contienen cierta información que se desea
estudiar.
Población
conjunto de individuos
propiedades comunes.
o elementos
que cumplen ciertas
Muestra
subconjunto representativo de una población.
Parámetro
función definida sobre los valores numéricos de características
medibles de una población.
Estadístico
función definida sobre los valores numéricos de una muestra.
En relación al tamaño de la población, esta
puede ser:
Finita
Como es el caso del número de personas que
llegan al servicio de urgencia de un hospital
en un día.
Infinita
Si por ejemplo estudiamos el mecanismo
aleatorio que describe la secuencia de caras
y cruces obtenida en el lanzamiento repetido
de una moneda al aire.
CÁLCULO DEL TAMAÑO DE LA MUESTRA
DESCONOCIENDO EL TAMAÑO DE LA
POBLACIÓN
La fórmula para calcular el tamaño de muestra
cuando se desconoce el tamaño de la
población es la siguiente:
En donde
Z = nivel de confianza,
p = probabilidad de éxito, o proporción esperada
q = probabilidad de fracaso
d = precisión (error máximo admisible en términos de
proporción)
CÁLCULO DEL TAMAÑO DE LA MUESTRA
CONOCIENDO EL TAMAÑO DE LA POBLACIÓN
La fórmula para calcular el tamaño de
muestra cuando se conoce el tamaño de la
población es la siguiente:
% de confianza
80%
85%
88%
90%
95%
98%
99%
En donde,
N = tamaño de la población
Z = nivel de confianza,
p = probabilidad de éxito, o proporción esperada
q = probabilidad de fracaso
d = precisión (Error máximo admisible en términos de proporción).
Coeficiente de
confianza
Z
1.29
1.44
1.56
1.64
1.96
2.33
2.58
Población de ganado bovino en Cajamarca (CENAGRO, 2012)
Raza
Holstein
Bovinos
Proporcion Muestra estatificada
72603
Brown Swiss
93571
Gyr/Cebú
Criollos
Otras Razas
21168
497119
35866
Total
720327
Raza
Bovinos
Proporcion
Muestra estatificada
Holstein
72603
0.10
39
Brown Swiss
93571
0.13
50
Gyr/Cebú
21168
0.03
11
497119
0.69
265
35866
0.05
19
720327
1.00
384
Criollos
Otras Razas
Total
Caracteres: propiedades, rasgos o cualidades de los
elementos de la población. Estos caracteres pueden
dividirse en cualitativos y cuantitativos.
Modalidades: diferentes situaciones posibles de un
carácter. Las modalidades deben ser a la vez
exhaustivas y mutuamente excluyentes - cada
elemento posee una y solo una de las modalidades
posibles.
Clases: conjunto de una o más modalidades en el
que se verifica que cada modalidad pertenece a una
y solo una de las clases.
ORGANIZACIÓN DE
LOS DATOS
Variables estadísticas
Variables cualitativas, cuando las modalidades posibles son de tipo nominal.
• Por ejemplo, el grupo sanguíneo tiene por modalidades: Grupos Sanguíneos
posibles: A, B, AB, O.
Variables cuasicuantitativas u ordinales, son las que, aunque sus modalidades son
de tipo nominal, es posible establecer un orden entre ellas. Por ejemplo, si
estudiamos el grado de recuperación de un paciente al aplicarle un tratamiento,
podemos tener como modalidades:
Grado de recuperación: Nada, Poco, Moderado, Bueno, Muy Bueno.
A veces se representan este tipo de variables en escalas numéricas, por ejemplo,
puntuar el dolor en una escala de 1 a 5. Debemos evitar sin embargo realizar
operaciones algebraicas con estas cantidades. ¡Un dolor de intensidad 4 no duele
el doble que otro de intensidad 2!
Variables cuantitativas o numéricas son las que tienen por
modalidades cantidades numéricas con las que podemos hacer
operaciones aritméticas. Dentro de este tipo de variables podemos
distinguir dos grupos:
• Discretas, cuando no admiten siempre una modalidad intermedia
entre dos cualesquiera de sus modalidades. Un ejemplo es el número
de hijos en una población de familias:
Número de hijos posibles: 0, 1, 2, 3, 4, 5, . . .
• Continuas, cuando admiten una modalidad intermedia entre dos
cualesquiera de sus modalidades, v.g. el peso X de un niño al nacer.
Tablas estadísticas
Consideremos una población estadística de n
individuos, descrita según un carácter o variable C
cuyas modalidades han sido agrupadas en un
número k de clases,
• Frecuencia absoluta de la clase ci es el número ni, de observaciones que
presentan una modalidad perteneciente a esa clase.
• Frecuencia relativa de la clase ci es el cociente fi, entre las frecuencias
absolutas de dicha clase y el número total de observaciones, es decir.
Obsérvese que fi es el tanto por uno de observaciones que están en la
clase ci. Multiplicado por 100 % representa el porcentaje de la población
que comprende esa clase.
• Frecuencia absoluta acumulada Ni, se calcula
sobre variables cuantitativas o cuasicuantitativas, y
es el número de elementos de la población cuya
modalidad es inferior o equivalente a la modalidad
ci:
• Frecuencia relativa acumulada , Fi, se calcula
sobre variables cuantitativas o cuasicuantitativas,
siendo el tanto por uno de los elementos de la
población que están en alguna de las clases y que
presentan una modalidad inferior o igual a la ci, es
decir,
Llamaremos distribución de frecuencias al conjunto de clases junto
a las frecuencias correspondientes a cada una de ellas.
Una tabla estadística sirve para presentar de
forma ordenada las distribuciones de
frecuencias
Calcular los datos que
faltan en la siguiente
tabla.
Representaciones
gráficas
Gráficos para variables cualitativas
Los gráficos más usuales para representar
variables de tipo nominal son los siguientes:
Diagramas de barras:
• Diagrama de sectores:
Se divide un círculo
en tantas porciones como
clases existan, de modo que a
cada clase le
corresponde un arco de
círculo proporcional a su
frecuencia absoluta
o relativa
El arco de cada porción se calcula
usando la regla de tres:
Pictogramas:
Expresan con dibujos alusivo al tema de estudio
las frecuencias de las modalidades de la variable.
• El escalamiento de los dibujos debe ser tal que
el área de cada uno de ellos sea proporcional a
la frecuencia de la modalidad que representa.
• Este tipo de gráficos suele usarse en los medios
de comunicación, para que sean comprendidos
por el público no especializado, sin que sea
necesaria una explicación compleja.
Gráficos para variables cuantitativas
Diagramas diferenciales:
Son aquellos en los que se representan
frecuencias absolutas o relativas. En ellos se
representa el número o porcentaje de elementos
que presenta una modalidad dada.
Diagramas integrales:
Son aquellos en los que se representan el número
de elementos que presentan una modalidad
inferior o igual a una dada. Se realizan a partir de
las frecuencias acumuladas, lo que da lugar a
gráficos crecientes, y es obvio que este tipo de
gráficos no tiene sentido para variables
cualitativas.
• Para variables discretas, usamos el
diagrama de barras cuando se pretende
realizar una gráfica diferencial.
Para variables continuas:
se utilizan los diagramas
diferenciales los
histogramas y los
polígonos de frecuencias.
Ejercicio …
• La siguiente distribución se refiere a la duración en horas
(completas) de un lote de 500 tubos.
• Representar el histograma de frecuencias relativas y el polígono de
frecuencias.
• Trazar la curva de frecuencias relativas acumuladas.
• Determinar el número mínimo de tubos que tienen una duración inferior a
900 horas.
Resumen
Elementos de la inferencia
estadística
Ing. Zoot. M.Cs.
Wuesley Yusmein, Alvarez García.
1. Población y muestra, parámetros y
estadísticos
Una población o universo es una colección o
totalidad de posibles individuos, especímenes,
objetos o medidas de interés sobre los que se hace
un estudio.
Las poblaciones pueden ser finitas o infinitas.
Población finita
Es aquella en la que se pueden medir todos los
individuos para tener un conocimiento exacto de sus
características.
9/12/2022
2
Población infinita
Es aquella en la que la población es grande y es
imposible e incosteable medir a todos los individuos.
En este caso se tendrá que sacar una muestra
representativa de dicha población.
Parámetros
Características que, mediante su valor numérico,
describen a un conjunto de elementos o individuos.
Muestra representativa
Es una parte de una población, seleccionada
adecuadamente, que conserva los aspectos clave de la
población.
9/12/2022
3
Una forma de lograr representatividad en la muestra es
diseñar de manera adecuada un muestreo aleatorio
(azar), donde la selección no se haga con algún sesgo en
una dirección que favorezca la inclusión de ciertos
elementos en particular, sino que todos los elementos de
la población tengan las mismas oportunidades de ser
incluidos en la muestra.
Existen varios métodos de muestreo aleatorio, entre ellos:
• el simple,
• el estratificado,
• el muestreo sistemático y
• por conglomerados;
cada uno de ellos logra muestras representativas en
función de los objetivos del estudio y de ciertas
circunstancias y características particulares de la
población.
9/12/2022
4
Inferencia estadística
Son afirmaciones válidas acerca de la población o
proceso con base en la información contenida en
una muestra.
Estadístico
Cualquier función de los datos muestrales que no
contiene parámetros desconocidos
9/12/2022
5
2. distribuciones de probabilidad e inferencia
Relaciona el conjunto de valores posibles de X (rango
de X), con la probabilidad asociada a cada uno de
estos valores y los representa a través de una tabla o
por medio de una función planteada como una
fórmula.
Las distribuciones de probabilidad que más se usan
en intervalos de confianza y pruebas de hipótesis son
las distribuciones: normal, T de Student, ji-cuadrada
y F.
9/12/2022
6
Muestra de las distribuciones de probabilidad de mayor uso en inferencia.
9/12/2022
7
Como se muestra:
✓Las distribuciones normal y T de Student sirven para
hacer inferencias sobre las medias
• La distribución ji-cuadrada será de utilidad para hacer
inferencias sobre varianzas y la distribución F se
empleará para comparar varianzas.
Es por esto:
La distribución F es de mayor relevancia en el diseño de
experimentos, dado que el análisis de la variabilidad
que se observó en un experimento se hace comparando
varianzas.
9/12/2022
8
3. estimación puntual y por intervalo
Las distribuciones de probabilidad que tienen una
variable que representa cierta característica de una
población se definen completamente cuando se
conocen sus parámetros, pero cuando éstos no se
conocen, será necesario estimarlos con base en los
datos muestrales para hacer inferencias sobre la
población.
9/12/2022
9
ESTIMACIÓN PUNTUAL
Es un estadístico que genera un valor numérico simple,
que se utiliza para hacer una estimación del valor del
parámetro desconocido.
• La media µ del proceso (población).
• La varianza ơ2 o la desviación estándar ơ del proceso.
• La proporción p de artículos defectuosos.
9/12/2022
10
Los estimadores puntuales (estadísticos) más
recomendados para estimar estos parámetros son,
respectivamente:
• La media muestral µ = X
• La varianza muestral ơ2 = S2.
• La proporción de defectuosos en la muestra, p =
x/n, donde x es el número de artículos
defectuosos en una muestra de tamaño n.
9/12/2022
11
ESTIMACIÓN POR INTERVALO
De esta forma, cuando se quiere tener mayor
certidumbre sobre el verdadero valor del parámetro
poblacional, será necesario obtener la información
sobre qué tan precisa es la estimación puntual.
Una forma de saber qué tan variable es el estimador,
consiste en calcular la desviación estándar o error
estándar del estadístico, visto como una variable
aleatoria.
9/12/2022
12
Una forma operativa de saber qué tan precisa es la
estimación consiste en calcular un intervalo de
confianza que indique un rango “donde puede estar el
parámetro” con cierto nivel de seguridad o confianza.
Construir un intervalo al 100(1 – α)% de confianza para
un parámetro desconocido θ, consiste en estimar dos
números (estadísticos) L y U, de manera que la
probabilidad de que q se encuentre entre ellos sea 1 –
α, es decir:
𝑃(𝐿 ≤ 𝜃 ≤ 𝑈) = 1 – 𝛼
donde L y U forman el intervalo de confianza buscado
[L, U].
9/12/2022
13
La longitud del intervalo de confianza es una medida
de la precisión de la estimación.
Es deseable que la longitud de los intervalos sea
pequeña y con alto nivel de confianza.
El ancho de los intervalos es mayor a medida que sea
mayor la varianza de la población y el nivel de
confianza exigido.
El ancho del intervalo es menor si se incrementa el
tamaño de la muestra.
9/12/2022
14
Intervalo de confianza para una media
Por definición de intervalo de confianza se trata de
encontrar dos números L y U, tales que el parámetro
µ se encuentre entre ellos con una probabilidad de
1–α.
𝑃(𝐿 ≤ µ ≤ 𝑈) = 1 – 𝛼
Sea X1, X2, …, Xn una muestra aleatoria de tamaño n
de una población, con una distribución normal con
media µ y varianza ơ2, ambas desconocidas.
El procedimiento general para deducir el intervalo
consiste en partir de un estadístico que involucra al
parámetro de interés y que tiene una distribución
conocida. Tal estadístico es:
9/12/2022
15
𝑋 − 𝜇
𝑡=
𝑆
𝑛
El cual sigue una distribución T de Student con n
– 1 grados de libertad.
𝑋 − 𝜇
𝑃 −𝑡𝛼/2 ≤
≤ 𝑡𝛼/2 = 1 − 𝛼
𝑆
𝑛
De aquí, despejando hasta dejar sólo en medio
de las desigualdades al parámetro de interés, se
llega a que:
𝑆
𝑆
𝑃 𝑋 − 𝑡𝛼/2
≤ 𝜇 ≤ 𝑋 + 𝑡𝛼/2
=1 − 𝛼
𝑛
𝑛
9/12/2022
16
Puntos críticos para la
distribución t de
Student.
9/12/2022
17
Tamaño de la muestra
En ocasiones es necesario calcular el tamaño de
muestra n para lograr la estimación de una media
poblacional µ tenga como error máximo a un numero
E.
• En este caso, como el error de estimación esta dado
por E = t(α/2,n-1)S/ 𝑛
𝑡 2 𝛼 Τ2 , 𝑛 − 1 𝑆 2
𝑛=
𝐸2
entonces para propósitos prácticos y con tamaños de
muestra mayores que 30
4𝑆 2
𝑛= 2
𝐸
9/12/2022
18
Trabajo encargado
• Encontrar el intervalo de confianza para la media
de un indicador productivo o reproductivo (especie
domestica o para pasturas), considerando los
valores de muestra de 18 a 30, nivel de confianza
95%.
• Simular los datos y mostrar los resultados.
• Mostrar la fuente del indicador.
• Fecha de entrega: 12/12/22
9/12/2022
19
Descargar