ESTADÍSTICA Prof. Enrique Sandoval Instituto Universitario de Formosa 2016 Contenidos Análisis exploratorio de datos Análisis de regresión y correlación Probabilidad y variable aleatoria Modelos probabilísticos Distribución de estadísticos muestrales Estimación de parámetros Prueba de hipótesis Comparación de dos poblaciones Análisis de la varianza y diseño de experimentos Sitio web de la Cátedra www.funcionestadistica.jimdo.com Requisitos para regularizar • Aprobar dos parciales prácticos con derecho a un recuperatorio. Requisitos para aprobar la materia En condición de regular • Desarrollar correctamente tres temas en forma teórica a elección del tribunal. En condición de alumno libre: • Aprobar un examen práctico • Desarrollar correctamente tres temas en forma teórica a elección del tribunal Material bibliográfico • Balzarini, M. et al (2012) “Estadística y Biometría” • Navarro, J. (2003) “Estadística Aplicada” Material informático • Software estadístico INFOSTAT • Microsoft Excel ® ® Descarga de INFOSTAT Ingresar a www.infostat.com.ar ¿Qué es la biometría? • En Agronomía muchos experimentos se llevan a cabo para decidir cuáles prácticas de manejo son más favorables para una determinada producción • ¿Qué tipo de dieta produce mayor engorde en cerdos criollos? • ¿Cuál es el contenido promedio de biomasa por metro cuadrado en un campo destinado a pastura? • ¿Qué porcentaje de los animales de una granja están infectados? • ¿Existe algún tipo de relación entre el contenido de potasio del suelo y la biomasa? • ¿Qué candidato tiene más posibilidades de ganar una elección? • ¿Existe algún tipo de relación entre la presión arterial y la frecuencia cardíaca? • ¿Es efectivo el uso de una marca de plaguicida comparado con la que utilizaba anteriormente? ANÁLISIS EXPLORATORIO DE DATOS Población • El universo de objetos real o virtual sobre los que es posible observar la variable de interés. Es el conjunto de individuos que poseen al menos una característica en común y es de nuestro interés. • Examinar todos los objetos de este universo es, en la práctica inaccesible, de allí que la estadística examina una parte de él (muestra) para inferir sobre la totalidad Muestra • La muestra es una parte representativa de la población, es la parte que será analizada unidad por unidad para finalmente inferir o especular el comportamiento de la variable de interés en la población. Por lo tanto, es importante conseguir una buena muestra. ¿QUÉ ES ESTADÍSTICA? RECOPILAR ORGANIZAR PRESENTAR ANALIZAR INTERPRETAR RECOPILACIÓN POBLACIÓN MUESTRA UNIDAD DE ANÁLISIS VARIABLES POBLACIÓN MUESTRA UNIDAD EXPERIMENTAL O UNIDAD DE OBSERVACIÓN CUALITATIVAS O CATEGÓRICAS VARIABLES CUANTITATIVAS O NUMÉRICAS DISCRETAS CONTINUAS Tipos de variables Cuantitativas Cualitativas Variables cuantitativas Discreta Conteos Continuas Mediciones Ejemplo variables discretas cantidad de frutos por planta, número de árboles por hectárea, cantidad de insectos por trampa número de crías por parto Variables cualitativas Ordinales Nominales Ejemplo variables cualitativas Ordinales “severidad de una enfermedad” (leve=1, moderada=2, alta=3) “nivel de ataque de insectos en lotes” (debajo del umbral económico=1 y por encima del umbral=2) Ejemplo variables cualitativas Nominales “estación de concentración de partos” (Verano, otoño, invierno y primavera) “resultado del tacto” que se realiza a una vaca (preñada/vacía) “tenencia de la tierra” (alquilada, prestada, propia, ocupación precaria, otras) Ejemplo variables continuas rendimiento de soja en qq/ha, longitud de espigas de trigo en cm, aumento de peso en Kg, diámetro de granos de maíz en mm, temperatura máxima diaria en °C Tipos de muestreo • Muestreo aleatorio simple • Muestreo sistemático • Muestreo por conglomerados • Muestreo estratificado • Proporcional • No proporcional Organización de datos Tablas • Tabla de frecuencias Organiza los datos de manera tal que en una columna de la tabla aparecen los valores de la variable, y en sucesivas columnas se muestran diferentes tipos de frecuencias • • • • frecuencias frecuencias frecuencias frecuencias absolutas relativa absolutas acumuladas relativas acumuladas Tabla de frecuencias distribución de frecuencias de 50 datos de una variable cuantitativa discreta “número de años de agricultura continua en 50 lotes extraídos al azar de una población de lotes en producción agrícola para una región en un año particular” Tabla de frecuencias Frecuencias para 707 datos de una variable continua: “pesos de cabezas de ajo blanco” Cómo construir una tabla de distribución de frecuencias con intervalos Los siguientes datos corresponden a los casos notificados de enfermedades vinculadas a adiciones en distintos centros de salud. 5 9 9 10 6 5 7 10 7 7 7 9 5 5 6 8 6 12 6 6 7 8 7 7 11 8 5 7 ¿Cuál es la población?¿Cuál es la muestra? ¿Cuál es la unidad de observación? ¿Cuál es la variable de estudio? ¿Cómo es esa variable? Valores de la variable Ordenamos estos datos en una tabla de distribución de frecuencias simple Xi 5 6 7 8 9 10 11 12 fi fa fr fra Frecuencia acumulada Frecuencia absoluta n Frecuencia relativa acumulada Frecuencia relativa Xi fi fa fr fra 5 6 7 8 9 10 11 12 5 5 8 3 3 2 1 1 28 5 10 18 21 24 26 27 28 0,18 0,18 0,29 0,11 0,11 0,07 0,04 0,04 1 0,18 0,36 0,64 0,75 0,86 0,93 0,96 1 • Frecuencia acumulada: fa = fi + fa – 1 • Frecuencia relativa: fr = fi/n • Frecuencia relativa acumulada: fra = fr + fra-1 Tablas de distribución de frecuencias Def: Una tabla de distribución de frecuencias es aquella en la cual a cada valor de la variable se le asigna el número de veces en que se presenta en la distribución (FRECUENCIA). Tabla de distribución de frecuencias con intervalos de clase Clases (años) 5 - 10 10 - 15 15 - 20 20 - 25 25 - 30 30 - 35 35 - 40 fi fa fr fra 2 1 5 9 14 18 21 70 2 3 8 17 31 49 70 0,03 0,01 0,07 0,13 0,20 0,26 0,30 1 0,03 0,04 0,11 0,24 0,44 0,70 1,00 Cómo construir una tabla con intervalos 1. Decidir la cantidad de intervalos a construir (k) 5 < k < 15 2. Calcular el rango (R) R=Xmax – Xmin 3. Calcular la amplitud de cada intervalo (h) h = R/k (redondeado al entero inmediato superior) Ejemplo: Los siguientes valores corresponden a las edades de las personas que sufrieron lesiones en accidentes de tránsito en el último año. 2 24 19 10 14 5 6 24 18 14 10 6 10 20 3 14 14 7 16 20 2 13 13 29 20 21 12 12 11 28 26 17 12 5 10 31 27 29 16 16 10 10 9 5 9 8 30 5 Tablas de frecuencias Variable Clase LI LS MC FA FR FAA Edad 1 [ 2,00 7,00 ) 4,50 9 0,19 9 Edad 2 [ 7,00 12,00 ) 9,50 11 0,23 20 Edad 3 [ 12,00 17,00 ) 14,50 12 0,25 32 Edad 4 [ 17,00 22,00 ) 19,50 7 0,15 39 Edad 5 [ 22,00 27,00 ) 24,50 3 0,06 42 Edad 6 [ 27,00 32,00 ] 29,50 6 0,13 48 Tablas de distribución de frecuencias Simple Variable discreta Variable continua Con intervalos Variable discreta de gran recorrido Histogramas 14 frecuencia absoluta 12 10 8 6 4 2 0 -3 2 7 12 17 Edad 22 27 32 37 Histograma y polígono de frecuencia 14 frecuencia absoluta 12 10 8 6 4 2 0 -3 2 7 12 17 Edad 22 27 32 37 50 frec. abs. acumulada 43 36 29 22 14 7 0 -3 2 7 12 17 Edad 22 27 32 37 Histogramas y polígonos de frecuencias Histogramas y polígonos para el peso (en gr) de cabezas de ajo blanco (a)frecuencias absolutas (b)frecuencias absolutas acumuladas (c)frecuencias relativas (d) frecuencias relativas acumuladas Medidas resumen • Para resumir la distribución de un conjunto de datos de naturaleza cuantitativa se calculan medidas de posición y de variación de los mismos • La obtención de estas medidas permite complementar y acompañar a la información contenida en una tabla de frecuencias o a la distribución mostrada en un gráfico Medidas de posición Media aritmética • “Centro de gravedad” de los datos. • Se obtiene por el cociente entre la suma de todos los datos y la cantidad total de datos. Fórmula para datos simples 𝑥= 𝑛 𝑥 𝑖=1 𝑖 𝑛 Fórmula para datos agrupados 𝑥= 𝑛 𝑥 𝑖=1 𝑖.𝑓𝑖 𝑛 Mediana • Hay valores que se ubican en el centro de la distribución, o cercanos a éste, y otros que se encuentran en los extremos. Aquel valor que ocupa exactamente el centro de la distribución, de modo que la mitad de los datos son valores menores o iguales que éste y la otra mitad son valores que lo superan, se denomina mediana. Forma de cálculo 𝑥 = 𝑥(𝑛+1)/2 𝑥= 𝑥 𝑛 +𝑥 𝑛 ( +1) 2 2 2 si n es impar si n es par Modo o moda • Todos los valores de una variable no están igualmente distribuidos dentro del rango de variación; esto es, los valores se presentan con diferentes frecuencias. Al valor que aparece con mayor frecuencia se lo denomina modo o moda. Una distribución puede tener más de un valor modal Modo o moda Es el valor (o la categoría) de la variable que tiene la mayor frecuencia 𝑥 • Percentiles Un percentil es una valor de la variable que deja un porcentaje de los datos por debajo de ese valor y el resto por encima, por ejemplo, el percentil 23 deja por debajo suyo al 23% de los datos y por encima suyo queda el 77% restante. Cabe aclarar que para calcular estas medidas, el conjunto de datos debe estar ordenado de menor a mayor. Forma de cálculo 𝑃𝑘 = 𝑋 𝑘𝑛 100 Propiedades de la media aritmética 1. 𝑥 ± 𝑎 = 𝑥 ± 𝑎 2. 𝑥. 𝑎 = 𝑥. 𝑎 3. 𝑥: 𝑎 = 𝑥: 𝑎 (𝑎 ≠ 0) 𝑛 4. 𝑥𝑖 − 𝑥 = 0 𝑖=1 𝑛 5. 𝑛 𝑥𝑖 − 𝑥 𝑖=1 2 < 𝑥𝑖 − 𝑎 𝑖=1 2 (𝑎 ≠ 𝑥) Ejemplos y ejercicios de aplicación