AGRO 5005 BIOMETRÍA Notas de clase 2016 Raúl E. Macchiavelli, Ph.D. Linda Wessel-Beaver, Ph.D. Estas notas complementan el material presentado en el libro de texto del curso 1 Contenidos 1. Introducción .................................................................................................................... 3 2. Recolectando datos ......................................................................................................... 4 3. Organización y resumen de datos: métodos gráficos ...................................................... 6 4. Medidas numéricas de resumen: tendencia central ....................................................... 13 5. Medidas numéricas de resumen: variabilidad o dispersión .......................................... 15 6. Introducción a probabilidad .......................................................................................... 18 7. Distribución normal ...................................................................................................... 21 8. Muestreo aleatorio. Distribución muestral. ................................................................... 26 9. Estimación de parámetros ............................................................................................. 29 10. Pruebas estadísticas ..................................................................................................... 31 11. Pruebas t para dos muestras independientes ............................................................... 35 12. Pruebas t para datos pareados ..................................................................................... 39 13. Introducción al análisis de la varianza ........................................................................ 43 14. Comparaciones múltiples en ANOVA........................................................................ 47 15. Tablas de contingencia ................................................................................................ 51 16. Regresión lineal simple ............................................................................................... 53 17. Diseño en bloques completos al azar .......................................................................... 59 18. Introducción a los diseños experimentales ................................................................. 63 19. Documentación y comunicación de resultados ........................................................... 65 2 1. Introducción ¿Qué es la Biometría? ¿Cómo? Es la disciplina que se encarga de obtener información a partir de datos biológicos. Mediante gráficos, medidas numéricas de resumen (ej., promedio), comparaciones, predicciones, etc. Etapas que debemos seguir para obtener información “buena” a partir de los datos: 1. 2. 3. 4. Recolectar los datos Resumir los datos Analizar los datos Comunicar los resultados Ejemplo Queremos conocer el efecto de un nuevo insecticida sobre la población de un cierto insecto. Para ello el investigador selecciona cinco fincas en la región de interés y aplica el insecticida a la mitad del área sembrada en cada finca. La otra mitad del área en cada finca queda como “testigo” o “control”. Nos interesa conocer el número promedio de insectos por planta luego de aplicar el insecticida, y compararlo con el número promedio de insectos por planta en el área testigo. Población(es) de interés: Todas las plantas de ese cultivo a las que podríamos aplicar el insecticida (o todos los recuentos de insectos en todas las plantas de ese cultivo a las que podríamos aplicar el insecticida). Muestra(s): Las plantas tratadas en las cinco fincas que se usaron en el experimento (o los recuentos en las plantas usadas en el experimento). La forma más común para obtener información de los datos es realizar una INFERENCIA acerca de una población de interés con la información disponible en una muestra de esa población. Población (conjunto de todas las medidas) Muestra (subconjunto de la población) 3 2. Recolectando datos a. Muestreos b. Experimentos c. Estudios observacionales Antes de comenzar a recolectar los datos debemos especificar claramente para qué recolectamos los datos (OBJETIVOS), identificar la(s) medición(es) de interés (OBSERVACIONES) y seleccionar un diseño o plan apropiado. Estas tres etapas preliminares se pueden pensar como tres preguntas: ¿PARA QUÉ?, ¿QUÉ?, ¿CÓMO? Muestreos Planes de muestreo más comunes: 1. muestreo aleatorio simple 2. muestreo aleatorio estratificado 3. muestreo por conglomerados (de dos o más etapas) 4. muestreo sistemático En el muestreo aleatorio simple todas las posibles muestras tienen la misma probabilidad de ser elegidas. En el muestreo aleatorio estratificado la población es heterogénea, y entonces de divide en estratos más homogéneos. En cada uno de estos estratos se obtiene una muestra aleatoria simple. Por ejemplo, se muestrean aleatoriamente 15 fincas de plátano en la región central de la isla, 15 fincas en la región sur y 15 fincas en la región norte. En este ejemplo los estratos son las regiones. En el muestreo por conglomerados la población es homogénea, pero por cuestiones prácticas se muestrea en dos etapas: primero se muestrean grupos de unidades (aleatoriamente) y luego se muestrean unidades (aleatoriamente) solo en los grupos o conglomerados seleccionados en la primera etapa. Por ejemplo, muestreamos aleatoriamente 10 vaquerías, y en cada vaquería seleccionada muestreamos (aleatoriamente) la leche de 15 vacas. El conglomerado es la vaquería, y la unidad es la vaca. En el muestreo sistemático se comienza en un punto aleatorio (por ejemplo la séptima planta de la primera fila de un cultivo), y luego muestreamos cada 10 plantas. Métodos de recolección más comunes: 1. entrevistas (personales, telefónicas) 2. cuestionarios (encuestas) 3. observación directa 4. trampas (insectos) 5. muestreo de suelos 6. transectas 7. cuadrículas 4 Experimentos Diseños más comunes: 1. diseño completamente aleatorizado (DCA) 2. diseño en bloques completos aleatorizados (DBCA) 3. otros diseños y experimentos factoriales Estudios observacionales Similares a experimentos pero no hay control sobre las unidades del estudio (ya vienen con su “tratamiento” asignado). El tipo de inferencia que podemos hacer no es tan general como en los experimentos. Manejo de datos 1. Recibir los datos originales (encuestas, libro de campo, cuaderno de laboratorio, etc.) 2. Crear la base de datos en la computadora. 3. Editar la base de datos (verificar errores, pruebas lógicas, etc.) 4. Corregir y clarificar los datos. 5. Documentar la base de datos. 6. Almacenar (tanto en forma digital como en papel) los archivos originales 7. Obtener los archivos de trabajo (a partir de los originales) para pasar a las siguientes etapas. 5 3. Organización y resumen de datos: métodos gráficos 1. 2. 3. 4. ¿Qué es lo que se desea informar al lector del gráfico? Elegir cuidadosamente los títulos, ejes, colores, rayas, etc. No sobrecargar de información al gráfico. Practicar mucho! Gráficos para una variable: Gráfico de sectores (“pie chart”, gráfico de torta) Gráfico de barras (verticales, horizontales) Diagrama de tallo y hojas Histogramas de frecuencias (absolutas, relativas) Polígonos de frecuencias acumuladas (ojivas) Gráficos para dos variables: Gráfico x-y (diagrama de dispersión o “scattergram”) Series de tiempo Gráfico de sectores (“pie chart”): Se usa para representar partes de un todo (por ejemplo, porcentajes). Deben usarse para pocas categorías, y si es posible, ordenarse en forma ascendente o descendente. Variedad Cuerdas A 3500 B 1200 C 700 D 300 D (5% ) C (12% ) B (21% ) A (61% ) Gráfico de barras: similar al de sectores, excepto que la altura de la barra es la frecuencia o porcentaje que se quiere presentar. También se usa para representar totales, promedios, sumas u otras cantidades en el eje vertical. 6 Se deben dejar espacios entre las categorías discretas. Los rectángulos deben ser todos del mismo ancho. Usar barras horizontales si el número de categorías es muy alto. 3700 Cuerdas 2960 2220 1480 740 0 A B C D Variedad Gráfico x-y (diagrama de dispersión o “scattergram”): En el eje horizontal (x) se ubica la variable independiente (“explicativa”) y en el eje vertical (y) la variable dependiente (“respuesta”). 100 % Germinación 75 50 25 0 0.0025 0.0035 0.0045 Peso Seco 7 0.0055 Series de tiempo: gráfico x-y en el que el eje horizontal es el tiempo. Debe haber al menos 4-5 puntos en el eje horizontal para poder observar alguna tendencia. Diagrama de dispersión del precio de la carne de res y de cerdo entre 1925 y1941 84.0 Precio carne (cents/lbs) 74.8 65.6 56.4 47.2 38.0 1924 1927 1930 1933 1936 1939 Año Carne res Carne cerdo Otros gráficos relacionados Ganancias netas discriminadas por año de las contribuciones de la casa matriz y cuatro sucursales de una empresa agropecuaria Ganancias netas (miles de dólares) 600 500 400 300 200 100 0 1991 1992 1993 1994 1995 1996 1997 1998 1999 Año CM SUC1 SUC2 8 SUC3 SUC4 2000 2001 1942 % Germinación 100 75 50 25 0 chicas medianas grandes Tam año PG-claro PG-rojizo PG-oscuro Salto en alto en olimpiadas 95 90 altura 85 80 75 70 1896 1900 1904 1908 1912 1916 1920 1924 1928 1932 1936 1940 1944 1948 1952 1956 1960 1964 1968 1972 año Principales problemas en la construcción, presentación e interpretación de gráficos Ejes no indican claramente qué se está midiendo Escalas no apropiadas exageran u ocultan diferencias Sobrecarga de información no relevante (por ejemplo, palabras muy largas, letras muy pequeñas, 23 barras adyacentes en cada una de 5 categorías, etc.) Falta de información relevante (por ejemplo, observaciones individuales atípicas, desviaciones estándar, etc.) Demasiados detalles que distraen la atención (por ejemplo, exceso de adornos, sombras, dimensiones innecesarias, colores que no se aprecian, etc.) Énfasis en la forma y no en el contenido (estamos enseñando a estudiantes universitarios, no a alumnos de kinder!) 9 Un sitio muy interesante con ejemplos históricos de buenos y malos gráficos estadísticos que pueden visitar es http://www.math.yorku.ca/SCS/Gallery/ Diagrama de tallo y hoja: Para resumir muchos datos sin perder demasiada información. 1. Dividir cada observación en dos conjuntos de dígitos: el primero es el tallo y el segundo es la hoja. 2. Hacer una lista vertical con los tallos. 3. Para cada tallo, anotar las hojas. 4. Si quedan muy pocos tallos con muchas hojas cada uno, usar los dígitos 0-4 como hojas de un primer tallo y los dígitos 5-9 como hojas de un segundo tallo. 5. Si cada hoja tiene demasiados dígitos, redondear. Ejemplo: los siguientes son recuentos de insectos por planta en 40 plantas escogidas aleatoriamente. (Los datos ya están ordenados.) 0 30 47 1 33 49 2 34 52 4 36 55 6 36 55 8 37 56 10 38 56 11 40 57 11 42 58 15 42 58 16 45 59 19 45 59 29 46 29 46 Histograma de frecuencias (absolutas o relativas): Se usa para datos cuantitativos. (Si los datos son cualitativos, el gráfico análogo es el de barras). Primero construimos una tabla de frecuencias. Dividimos los datos en intervalos de clase. Cada dato va a pertenecer a exactamente un intervalo. Para definir estos intervalos definimos el recorrido = valor máximo – valor mínimo. Dividimos el recorrido entre la cantidad de intervalos deseados (entre 5 y 20, según el número de observaciones). Ejemplo: los siguientes son recuentos de insectos por plantas en 40 plantas escogidas aleatoriamente. (Los datos ya están ordenados.) ω=59-0=59 Recorrido: 10 Si deseamos usar 6 clases, el ancho de cada intervalo debe ser mayor de 9.8 (para cubrir todas las observaciones). Por lo tanto usaremos un ancho de cada intervalo de 10. Para evitar ambigüedades, usaremos los límites de clase con un lugar decimal más que las observaciones (de esta forma ninguna observación caerá en el límite). Intervalo -0.5 – 9.5 9.5 – 19.5 19.5 – 29.5 29.5 – 39.5 39.5 – 49.5 49.5 – 59.5 Marca de clase 4.5 14.5 24.5 34.5 44.5 54.5 Frecuencia 6 6 2 7 9 10 Frecuencia Acumulada 6 12 14 21 30 40 Frecuencia Relativa .15 .15 .05 .175 .225 .25 Frec.Relativa Acumulada .15 .30 .35 .525 .75 1.00 Histograma: 15 frecuencia absoluta 12 9 6 3 0 -0.5 9.5 19.5 29.5 39.5 Ins ectos por planta 11 49.5 59.5 Polígono de frecuencias acumuladas: 1.00 frec. rel. acumulada 0.80 0.60 0.40 0.20 0.00 -0.5 9.5 19.5 29.5 39.5 49.5 59.5 Ins ectos por planta Las frecuencias relativas siempre tienen una interpretación de probabilidad. Por ejemplo, si seleccionamos una planta al azar, ¿cuál es la probabilidad de encontrar entre 10 y 19 insectos?, ¿cuál es la probabilidad de encontrar menos de 30 insectos? 12 4. Medidas numéricas de resumen: tendencia central Las medidas numéricas de resumen son más simples que los gráficos y es más sencillo hacer inferencias sobre ellas que sobre gráficos. Podemos calcular medidas numéricas sobre todas las mediciones en una población (medidas poblacionales o parámetros), o sobre las observaciones en una muestra (medidas muestrales o estadísticos). En la práctica los estadísticos pueden usarse como estimadores de los parámetros. 1. Medidas de tendencia central 1a. Modo (moda): medición más frecuente (con la mayor frecuencia). Ejemplo: 3, 5, 7, 9, 7, 8, 5, 7, 1 Modo= Mo = 7 Para datos agrupados en tablas de frecuencia, es el centro del intervalo modal (el más “alto” en el histograma). Puede usarse para datos cualitativos o cuantitativos. Puede haber más de un modo en la distribución (bimodal, trimodal, etc.) 1b. Mediana: valor central de las observaciones cuando éstas están ordenadas de menor a mayor. n 1 . 2 n n Si n es par, la mediana es el promedio de la observaciones en posiciones y 1. 2 2 Si hacemos la convención que una posición fraccional (ej. 5.5) es el promedio de las n 1 posiciones correspondientes, entonces siempre podemos usar la fórmula para la 2 posición de la mediana. Si hay un número impar de observaciones (n), la posición de la mediana es Ejemplos: 7, 9, 11, 11, 13; n=5, posición=3, Mediana=Md=11 1, 5, 6, 7, 8, 10, 10, 11; n=8, posición= 4.5, Md= (7+8)/2=7.5 Si los datos están agrupados el libro presenta una fórmulas que no vamos a usar, pero son equivalentes a interpolar a partir de la ojiva. Nosotros podemos leerla directamente desde este gráfico, como el valor sobre el eje horizontal que acumula el 50% de la frecuencia total. Para los datos de insectos por planta, 13 Frec. Relativa Acum. Ojiva 1 0.5 0 0 5 10 15 20 25 30 35 40 45 50 55 60 Insectos En este caso la mediana es aproximadamente 38. 1c. Media (promedio o media aritmética). Según sea poblacional o muestral, la denotaremos como o Y , respectivamente. 1 n Y Yi n i 1 1 k Si los datos son agrupados en intervalos, Y f iYi , donde Yi es el centro de cada n i 1 intervalo y fi es la frecuencia de cada uno de los k intervalos. Es la medida más usada, la más simple de interpretar, pero puede estar muy afectada por valores extremos. Por ejemplo, 1, 3, 5, 7 y 9 tienen Y 5 y Md=5; pero 1, 3, 5, 7, 90 tienen la misma mediana y Y 21.2 . 1d. Media “recortada” (trimmed mean). La media recortada al 10% ( Yr10% ) se calcula eliminando el 10% superior y el 10% inferior de los datos y calculando el promedio del resto. ¿Cómo se comparan Mo, Md, Y y Yr ? Si los datos tienen una distribución simétrica con un único pico central, todas son aproximadamente iguales. Si la distribución es asimétrica o “sesgada” (tiene una “cola” más larga que la otra), la media tiende hacia la cola y el modo hacia el otro extremo. Modo No único No influido por extremos No puede combinarse Datos cualitativos o cuantitativos Mediana Único No influido por extremos No puede combinarse Datos cuantitativos (al menos ordinales) 14 Media Único Influido por extremos Puede combinarse Datos cuantitativos 5. Medidas numéricas de resumen: variabilidad o dispersión 2a. Recorrido (amplitud): ω=máximo-mínimo ω=9-1=8 Ejemplo: 3, 5, 7, 9, 7, 8, 5, 7, 1, 2 Para datos agrupados en tablas de frecuencia, es la diferencia entre el límite superior del último intervalo y el límite inferior del primero. 2b. Recorrido intercuartílico (IQR): para definirlo necesitamos presentar otras medidas de posición: los percentiles. El percentil 60 ( P60 ), por ejemplo, es un valor de las observaciones que tiene el 60% de las observaciones por debajo de él, y un 40% de las observaciones por encima. La mediana, usando esta notación es P50 . Los cuartiles son percentiles que dividen el 25%, 50% y 75% de las observaciones: Q1 P25 , Q2 Md, Q3 P75 Para el cálculo de percentiles y cuartiles de datos agrupados, se usa la ojiva (de la misma manera que se usa para el cálculo de la mediana). Para datos no agrupados debemos tener los datos ordenados (por ejemplo en un diagrama n 1 de tallo y hoja). Recordemos que la posición de la mediana es . La posición de los 2 cuartiles es posición de la mediana (truncada)+1 . 2 Si estamos calculando el primer cuartil, comenzamos a contar desde el mínimo, y si estamos calculando el tercer cuartil, comenzamos a contar desde el máximo. n 10 Ejemplo: 3, 5, 7, 9, 7, 8, 5, 7, 1, 2 posición de la mediana=5.5 posición de los cuartiles = (5+1)/2=3 Q1 3, Md=6, Q3 7. El recorrido intercuartílico es la diferencia entre los cuartiles: IQR Q3 Q1 . Se debe hacer notar que hay formas alternativas de calcular percentiles y cuartiles para datos no agrupados, y es posible que InfoStat o Excel den resultados levemente diferentes cuando la cantidad de datos es pequeña. 15 2c. Varianza. Según sea poblacional o muestral, la denotaremos como 2 o s2 , respectivamente. n s 2 (Y Y ) 2 i i 1 n 1 Es la medida más usada, aunque para expresarla en las mismas unidades de las observaciones se prefiere la: 2d. Desviación estándar: s s 2 . Fórmula de cálculo para varianza y desviación estándar: 2 n Yi 1 1 n 2 i 1 2 s SS Yi n n 1 n 1 i 1 Fórmula de cálculo para datos agrupados: 2 k fiYi 1 k 2 2 s fiYi i1 n n 1 i 1 2e. Coeficiente de variación: CV= s 100 Y Esta medida puede usarse para comparar variabilidad de conjuntos de datos diferentes. Regla empírica: Si los datos tienen un histograma (distribución) en forma de montaña, el 68% de las observaciones estarán en el intervalo Y s , el 95% en el intervalo Y 2s y prácticamente el 100% en el intervalo Y 3s. Esta regla nos permite aproximar el valor de la desviación estándar usando el recorrido: s , o podemos usar s , aunque este valor seguramente subestima s. 4 6 16 Gráfico de caja (“box plot”) Este gráfico permite representar las medidas de tendencia central y variabilidad de un conjunto de datos y nos da al mismo tiempo una idea de la forma de la distribución. Aquí representamos los cuartiles Q1 y Q3 como los bordes de una caja (es decir, adentro de la caja quedará el 75%-25%=50% central de los datos). El recorrido intercuartílico es la longitud de la caja. Además marcamos la mediana como una línea en la caja. InfoStat indica la media con un punto dentro de la caja. De cada borde de la caja (cuartil inferior o superior), se dibujan líneas (“bigotes”) que se extienden hasta la última observación que no es atípica (ver más abajo). En InfoStat, las líneas se extienden hasta el valor mínimo y máximo, si no hay valores atípicos. Otros autores o programas estadísticas dibujen estas líneas hasta el percentil 5 o 95 respectivamente. Cualquier valor que esté “lejos” del centro (recordemos que la caja representa el 50% central de los datos), va a ser considerado un valor atípico. El libro de texto y InfoStat consideran valores atípicos todos los que se encuentran a una distancia mayor de 1.5 IQR del borde de la caja (es decir, 1.5 IQR de Q1 si consideramos los extremos inferiores, o 1.5 IQR de Q3 si consideramos los valores superiores). InfoStat llama el 1.5IQR el semi recorrido intercuartílico (“SRIC”). El mismo libro de texto y InfoStat consideran valores atípicos extremos aquellas observaciones a más de 3 veces el IQR del borde de la caja. Otros textos consideran valores atípicos a las observaciones que están a una distancia mayor de 3 IQR de la mediana. En este gráfico las observaciones atípicas se representan por puntos, estrellas, etc. InfoStat utiliza un punto para valores atípicos y un círculo para valores atípicos extremos. En el gráfico abajo podemos observar la tendencia central de los datos (mediana, y la media), la forma de la distribución (simétrica, asimétrica, etc.), los extremos, etc. Título Perímetro de fruto (cm) 25 Recorrido Intercuartílico (IQR – “intercuartil range” ) (50% de las observaciones Q3 20 Q2 15 Q1 10 Valores atípicos (que se encuentran a una distancia mayor de 1.5 IQR del borde de la caja) 5 1998 1999 Año 17 6. Introducción a probabilidad (El material del capítulo 4 del texto que cubriremos en el curso está en las secciones 1, 2, 3, 6, 7, 8, 9, 10, 11, 12) ¿Para qué sirve conocer probabilidad? Definiciones: Experimento aleatorio: acción cuyo resultado no podemos predecir exactamente (sólo podemos conocer los posibles resultados) Evento: conjunto de resultados de un experimento aleatorio. Conceptos de probabilidad: A. Clásica: Ne N Determinando la probabilidad de un evento 1. Listamos todos los resultados igualmente probables (N) 2. Contamos los resultados que son favorables al evento ( N e ) 3. Calculamos la probabilidad: Ne N Ejemplo: la probabilidad de seleccionar ace: N=52; Ne = 4 (número de resultados “favorables”; P = 4/52 *Solamente funciona en el caso donde los resultados son igualmente probables n B. Frecuencia relativa: e n en muchas repeticiones. Interpretación práctica. Se halla la probablidad por medio de experimentación. La probabilidad es la frecuencia relativa. n = número de veces que se realiza el experimento; ne = número de veces que evento E ocurre C. Subjetiva: “Hay un 60% de probabilidad que llueva mañana”. Propiedad 1: 0 P( A) 1 Eventos mutuamente excluyentes: A y B son mutuamente excluyentes si cuando ocurre uno el otro no puede ocurrir. Ejemplo: supongamos que el experimento sea tirar un dado, el evento A sea que salga un número menor que 3, y el evento B sea que salga un número mayor que 5. Propiedad 2: P( A o B) P( A) P( B) para eventos mutuamente excluyentes Complemento de un evento A es el evento que A no ocurra ( A ). 18 Propiedad 3: P( A) 1 P( A) Unión de dos eventos: A B es el evento que A ocurra o que B ocurra. Intersección de dos eventos: A B es el evento que A ocurra y que B ocurra. Propiedad 4: P( A B) P( A) P( B) P( A B) Variable aleatoria: Es una variable cuyo valor no conocemos de antemano. El valor se determina mediante un experimento aleatorio. Sólo sabemos cuáles son sus valores posibles, y conocemos la probabilidad que cada uno de ellos ocurra. Ejemplo: Definamos la variable aleatoria S, la suma de los resultados obtenidos al arrojar dos dados. Sus valores posibles son 2, 3, ..., 12. Según lo discutido en clase, conocemos la probabilidad de que cada uno de los valores ocurra: P(S=2)=1/36, P(S=3)=2/36, P(S=4)=3/36, P(S=5)=4/36, P(S=6)=5/36, P(S=7)=6/36, P(S=8)=5/36, P(S=9)=4/36, P(S=10)=3/36, P(S=11)=2/36, P(S=12)=1/36 Las variables aleatorias (al igual que todas las variables) se clasifican en cualitativas y cuantitativas. En general trabajaremos con variables cuantitativas (numéricas). Éstas a su vez se clasifican en discretas y continuas. Ejemplos de variables discretas (típicamente recuentos) la variable S del ejemplo anterior cantidad de árboles enfermos en una muestra de 10 árboles cantidad de hembras en una camada de cerdos cantidad de días sin lluvia desde la siembra Ejemplos de variables continuas (típicamente medidas) peso altura concentración de Mn pH del suelo Distribución de probabilidad de una variable aleatoria (discreta): es una función que asocia a cada valor de la variable aleatoria su probabilidad. 19 Ejemplo: Y=cantidad de caras al arrojar dos monedas. 0 1 2 Suma Y 1 P(Y) .25 .5 .25 0.6 0.5 P(Y) 0.4 0.3 0.2 0.1 0.0 0 1 2 Y Variable binomial Tenemos n ensayos idénticos Cada ensayo puede resultar en “éxito” o “fracaso” P(éxito en un ensayo)=π es siempre la misma para todos los ensayos Los ensayos son independientes (el resultado de uno no afecta al resultado de otro) La variable Y es el número de éxitos en los n ensayos. Ejemplos: 1. Entrevistamos 40 vecinos y le preguntamos a cada uno cuál es su opinión sobre el nuevo vertedero (favorable/desfavorable) 2. Arrojamos una moneda 6 veces y contamos el número de caras obtenidas. 3. En una finca que tiene un 70% de las plantas de plátano con sigatoka (una enfermedad), muestreamos 50 plantas aleatoriamente y a cada planta la evaluamos para ver si tiene o no la enfermedad. La distribución de probabilidad de Y se llama la distribución binomial: n! P( y ) y (1 ) n y y !(n y )! La media y la varianza de Y son respectivamente, n y 2 n (1 ) . Ejemplo: Para el ejemplo 2, ¿cuál sería la probabilidad de observar 0 caras? ¿y 3 caras? 20 7. Distribución normal Variable aleatoria continua: ejemplos de variables continuas (típicamente medidas) peso altura concentración de Mn pH del suelo Para variables continuas nos interesa la probabilidad de encontrar observaciones en un intervalo, P(a Y b) , y no en un valor especifico, ya que P(Y a) 0 .La distribución de probabilidad se denomina f ( x) y es en general una curva suave. El área bajo esta curva es 1, y la probabilidades se calculan como áreas bajo la curva entre los valores de interés. Función de densidad 0.18 f(x) 0.14 0.09 0.05 P(3<x<9) 0.00 0 3 6 9 12 15 18 x La distribución normal es la más comúnmente usada para variables continuas. Está caracterizada por dos parámetros: y (la media y la desviación estándar respectivamente). La variable aleatoria Y puede tomar cualquier valor real. 1 Y 2 1 f (Y ) exp , 2 2 2 Y . Hay infinitas curvas normales, una para cada combinación de y . 21 1. 1 2 1 2 1.0 0.8 Curva 1 y=f(x) 0.6 0.4 Curva 2 0.2 0.0 0 1 2 3 4 X 2. 1 2 1 2 1.0 0.8 Curva 1 Curva 2 y=f(x) 0.6 0.4 0.2 0.0 0 1 2 3 4 X Para calcular probabilidades podemos usar la Tabla 1, que indica probabilidades asociadas con Z, que es una variable que tiene una distribución normal “estandarizada” ( 0, 1 ). Se debe notar que esta distribución es siempre simétrica alrededor de . Ejemplo 1 P(Z P(Z P(Z P(Z 1) ? 1.63) ? 0.5) ? 1) ? Para otros valores de ( , ) también podemos usar la tabla 1, notando que en esta tabla tenemos áreas desde menos infinito hasta Z desviaciones estándar a la derecha. Para usar Y esta tabla debemos calcular primero el valor Z . 22 Ejemplo 2, 100, 10. Calculemos P (Y 120) ? P (Y 90) ? P (95 Y 110) ? P (110 Y 120) ? El problema inverso también se puede se puede resolver con la tabla 1: Dada un área o probabilidad, calcular el valor de Z o Y asociado. Debemos recordar que las áreas que presenta la tabla 1 son áreas a la izquierda del valor. Por lo tanto siempre debemos expresarla de esta forma Ejemplo 3, calcular el valor de a tal que: P( Z P( Z P( Z P( Z a ) .75 a ) .10 P( Z a ) 0.90 a ) .3212 a ) .9599 P( Z a ) .0401 Ejemplo 4, con 100, 10, calcular el valor de a tal que: P (Y a ) .60 P (Y a ) .1515 P (Y a ) .33 P (Y a ) .67 P (Y a ) .7157 P (Y a ) .2843 Los mismos cálculos se pueden realizar en InfoStat usando el menú Estadísticas > Probabilidades y Cuantiles. Allí podemos seleccionar la distribución normal, su media y su varianza, y el dato que disponemos. Por ejemplo, para el ejemplo 1b, podemos hacer 23 Para el ejemplo 4b, Para ver gráficamente las áreas y poder variar los parámetros de la distribución normal podemos usar el menú Aplicaciones > Didácticas > Gráficos de funciones de densidad continuas, y elegir la normal, con los parámetros de interés. Por ejemplo, para visualizar el ejemplo 2d, 24 Función de densidad 0.04 Normal(100,100): p(evento)=0.1359 Densidad 0.03 0.02 0.02 0.01 0.00 50 70 90 110 Variable 25 130 150 8. Muestreo aleatorio. Distribución muestral. Recordemos que el muestreo aleatorio nos permite evitar tendencias sistemáticas (sesgos) en nuestra inferencia, ya que antes de hacer el muestreo no sabemos qué elementos de la población van a ser incluidos en la muestra. Muestra aleatoria simple: cada posible muestra de tamaño n tiene la misma probabilidad de ser elegida. Existen muestras aleatorias simples con y sin reemplazo, pero para poblaciones grandes no hay mucha diferencia. ¿Cómo obtenemos una muestra aleatoria simple? Mediante una tabla de números aleatorios, un generador de números aleatorios en la calculadora, u otro mecanismo físico que nos permita asegurar igual probabilidad a todas las muestras. Población de todas las muestras de tamaño n. Dada una población cualquiera, podemos generar una nueva población cuyos elementos son cada una de las muestras posibles de un cierto tamaño n. Es una población teórica que nos sirve para estudiar las propiedades de los estadísticos (medidas de resumen calculadas con la muestra). Ejemplo: Consideremos una población formada por los números 1, 2, 3, 4, 5. Todas las muestras posibles de tamaño n=2 (sin reemplazo). Es decir nuestra población de muestras de tamaño 2 está formada por los siguientes elementos: (1,2); (1,3); (1,4); (1,5); (2,3); (2,4); (2,5); (3,4); (3,5); (4,5) Ahora supongamos que calculamos Y , la media muestral a cada una de las muestras. Lo que tenemos ahora es una media muestral asociada a cada elemento de nuestra nueva población: 1.5; 2; 2.5; 3; 2.5; 3; 3.5; 3.5; 4; 4.5 Como ésta es una población de medias muestrales, podemos calcular su media Y , su desviación estándar Y , etc. También podemos considerar la distribución de probabilidad del estadístico Y . Esta distribución se llama la distribución muestral de Y . En este caso sería: Y f (Y ) 1.5 0.1 2.0 0.1 2.5 0.2 3.0 0.2 26 3.5 0.2 4.0 0.1 4.5 0.1 Los pasos a seguir cuando construímos la distribución muestral de un estadístico son: 1. Obtenemos todas las muestras posibles del tamaño deseado (o tomamos muchas muestras del tamaño deseado). 2. Para cada muestra calculamos el valor del estadístico. 3. Calculamos la probabilidad asociada con cada uno de los valores calculados en 2. Esto es una construcción teórica para estudiar las propiedades del estadístico. En la práctica no hacemos esto sino que obtenemos una muestra, y calculamos el valor de la media (u otro estadístico). Con las propiedades que conocemos usamos este valor de Y para hacer inferencias acerca de , la media poblacional de interés. Para la media muestral, y considerando muestreo con reemplazo, tenemos las siguientes propiedades: Y ; Y n ; 2 Y 2 n Si la población original es normal, la distribución de Y también es normal. Si n es grande, la distribución de Y es aproximadamente normal aunque la población original no lo sea. Este resultado se denomina “teorema central del límite”. ¿Cuán grande tiene que ser la muestra para que esta propiedad se cumpla? Depende de la forma de la distribución de la población original. En la práctica se considera que n 30 ya es suficientemente grande para la mayoría de las aplicaciones reales (esto depende de la simetría de la población original). El mismo ejemplo en Infostat. Para generar todas las muestras posibles, ponemos los datos en una columna, seleccionamos Aplicaciones > Didácticas > Todas las muestras posibles. 27 Los valores generados aparecerán en una nueva hoja de datos, y entonces podemos construir una tabla de frecuencias, o un histograma para observar la distribución muestral, o calcular medidas numéricas de resumen. Distribución muestral (n=2) frecuencia relativa 0.25 0.20 0.15 0.10 0.05 0.00 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 Valores de media muestral 28 9. Estimación de parámetros El problema central que la estadística trata de resolver es cómo hacer inferencias confiables. Es decir, tratamos de decir “algo” acerca de la población usando la información disponible en una muestra. Ese “algo” que nos interesa de la población es típicamente un parámetro como la media o la varianza (en otros casos el “algo” puede ser la distribución poblacional completa, no solamente la media y la varianza de la distribución). Existen dos formas principales de hacer inferencia estadística: la estimación y la prueba de hipótesis. En la estimación nos interesa dar un valor (o un conjunto de valores) aproximado al parámetro de interés, mientras que en la segunda tratamos de ver si un valor postulado del parámetro es razonable a la luz de la evidencia en la muestra. La forma más obvia de realizar estimación es la estimación puntual: usamos el esta-dístico como un estimador del parámetro. Por ejemplo, para estimar la media poblacional podemos usar la media muestral Y . Decimos entonces que Y es un estimador puntual de , y podemos indicarlo poniendo un “sombrerito” a : ˆ Y Ya sabemos de la clase anterior que usar Y como estimador de es razonable, ya que Y (es decir, el promedio de todos los valores posibles de Y es el parámetro de interés). Otro ejemplo es ˆ 2 s 2 . Podemos verificar que s 2 2 . El principal problema con la estimación puntual es que en la práctica no es muy realista. Es mejor dar un intervalo de posibles valores del parámetro. Esta forma de estimación se llama estimación por intervalos de confianza. Para construir el intervalo, recordemos el “teorema central del límite”: si n es grande, Y ~ N , . Esto significa que el 95% de n , 1.96 los valores de Y van a estar en el intervalo 1.96 . Pero cada n n vez que Y está en este intervalo, estará en el intervalo Y 1.96 , Y 1.96 . n n Esto significa que si obtuviéramos muchas muestras aleatorias de la misma población, el 95% de las veces obtendremos valores de Y con los que podemos construir intervalos que cubrirán a . 29 Podemos pensar este proceso de la siguiente manera: 1. Obtenemos una muestra, calculamos Y y el intervalo Y 1.96 , Y 1.96 n n 2. Verificamos si este intervalo cubre a . Si lo cubre, será un intervalo “bueno”, y si no lo cubre será un intervalo “malo”. 3. Repetimos los pasos 1 y 2 muchas veces. El 95% de las veces tendremos intervalos “buenos”, y el 5% de las veces intervalos “malos”. En la práctica nosotros sólo obtenemos un intervalo, y no sabemos si es “bueno” o “malo”. Pero como sabemos que la mayoría de los intervalos son “buenos”, decimos que tenemos una “confianza” del 95% que nuestro intervalo sea “bueno”. En general, para cualquier nivel de confianza 1 100%, el intervalo de confianza será donde z Y z , , Y z 2 2 n n es un valor de la tabla normal que deja un área de 2 2 a su derecha. Si la desviación estándar poblacional no se conoce y n 30, podemos usar s, la desviación estándar muestral. Si n 30 veremos más adelante qué hacer. Tamaño muestral para estimar : Para estimar con un intervalo de confianza de un ancho no mayor de W (o lo que es lo mismo, para estimar de manera que quede a una distancia no mayor de E W de la 2 media muestral Y ) podemos usar la siguiente fórmula, que se obtiene a partir del intervalo presentado antes: n 2 z 2 E2 2 . Siempre debemos redondear el resultado hacia arriba, para asegurarnos que nuestro tamaño muestral sea suficiente para lograr la precisión deseada. Si no conocemos 2 , podemos usar información de estudios previos, estudios preliminares o usar la aproximación , que presentamos junto a la regla empírica. 4 30 10. Pruebas estadísticas Esta es una forma de inferencia muy comúnmente usada: establecemos una hipótesis científica y tratamos de comprobarla (o no) mediante datos observados. Las etapas en la realización de pruebas estadísticas son las siguientes: 1. Formulación de las hipótesis. La hipótesis alternativa, H a , es la hipótesis de investigación (es decir, la que formulamos para ver si los datos la verifican). La hipótesis nula, H 0 , es la que mantendremos si no hay evidencia suficiente a favor de la alternativa. 2. Definición del estadístico de la prueba. 3. Construcción de la región de rechazo (valores del estadístico que me van a hacer rechazar H 0 ). 4. Conclusiones (aceptación o rechazo de H 0 ). Ejemplo: Queremos probar que el diámetro promedio del tronco de árboles de una cierta variedad de mango es mayor que 25 cm a los 5 años de injertado. Las hipótesis pueden formularse así: H 0 : 25 H a : 25 En la práctica, la hipótesis nula se plantea como el valor más cercano a la alternativa. En este caso sería H0 : 25 . Para probar estas hipótesis, obtenemos una muestra aleatoria de 15 árboles y medimos sus diámetros. Supongamos por el momento que conocemos que la distribución de los 10 diámetros es N ( ,10) . Entonces podemos afirmar que Y ~ N , . 15 Con esta información podemos definir nuestra región de rechazo, que estará formada por valores de Y que sean contradictorios a H 0 . En este caso podemos pensar en un conjunto de valores de Y mayores a una cierta constante Yc , ya que éstos serían los valores contradictorios a la hipótesis nula. 31 Gráficamente, si H 0 es verdadera, 0.2 f(y) 0.1 0.1 0.0 0.0 12.1 25.0 18.5 Yc 37.9 31.5 Diámetro Al tomar una decisión podemos estar cometiendo uno de los dos errores siguientes: 1. Rechazar H 0 cuando ésta es verdadera (error de tipo I). 2. Aceptar H 0 cuando ésta es falsa (error de tipo II). El criterio para definir la región de rechazo es fijar la probabilidad de cometer un error de tipo I ( ) y definir en base de este valor la región de rechazo. Debemos observar que este error de tipo I se puede cometer cuando H 0 es verdadera, y en ese caso nosotros conocemos exactamente la distribución de Y : 10 Y ~ N 25, . 15 Supongamos que fijamos 0.05 . Entonces la región de rechazo estará formada por los 10 29.25 valores de Y 25 1.645 15 Ahora supongamos que en nuestra muestra, Y 30. Como 30 está en la región de rechazo, la conclusión es que rechazamos H 0 , y por lo tanto afirmamos que el diámetro promedio es mayor que 25. Otra manera de alcanzar la misma conclusión es definir nuestro estadístico de la prueba como Z Y 0 n y calcular la región de rechazo en función de Z. En este caso sería Z 1.645. Como el 30 25 valor observado de Z 1.936 está en la región de rechazo, entonces 10 15 rechazamos H 0 . 32 Las etapas en la realización de pruebas estadísticas son las siguientes: 1. Formulación de las hipótesis nula y alternativa ( H 0 y H a ). Existen tres tipos de hipótesis alternativas, según cuál sea la hipótesis científica de interés: Ha : 0 , Ha : 0 , Ha : 0 . Las dos primeras son hipótesis unilaterales (o “de una cola”), mientras que la tercera es bilateral (“de dos colas”). 2. Definición del estadístico de la prueba: Y 0 Z . n 3. Construcción de la región de rechazo (R.R.), que son los valores del estadístico que me van a hacer rechazar H 0 . Ésta dependerá de la hipótesis alternativa: Para H a : 0 , la R.R. es Z Z , para H a : 0 , la R.R. es Z Z y para H a : 0 , la R.R. es Z Z 2 . 4. Conclusiones (aceptación o rechazo de H 0 ). Otra manera de definir nuestra región de rechazo es mediante el “valor p” o “nivel de significancia observado”. Este método consiste en calcular el área hacia los valores más extremos que el valor observado de Z y comparar esta área con . En este caso la regla de decisión es muy simple: Si p , rechazamos H 0 , y si p , no rechazamos H 0 . El cálculo de p depende de la hipótesis alternativa: Para H a : 0 , p Pr( Z Z observado ), para H a : 0 , p Pr( Z Z observado ), y para H a : 0 , p 2 Pr Z Z observado . Ejemplo: Para el ejemplo de la clase anterior, recordemos que para probar H0 : 25, Ha : 25 teníamos Y 30, 10, n 15 y Z 1.936. El valor p es el área a la derecha del valor observado de Z (1.94): p Pr(Z 1.94) 1 .9738 .0262 33 ¿Qué hacemos cuando es desconocido? Podemos estimarlo con s (la desviación estándar muestral). Si el tamaño de muestra es grande (n>30) entonces podemos sustituir por su estimador y usar el mismo estadístico que usábamos antes. En caso contrario tenemos que usar otro estadístico: la t de Student. Y 0 t . s n Los valores críticos para definir la región de rechazo son diferentes y deben buscarse en otra tabla. Para usar esta tabla necesitamos conocer los “grados de libertad”, que son el denominador del estimador de desviación estándar que estemos utilizando (en este caso recordemos que s tiene como denominador a n 1 , y por lo tanto tenemos n 1 grados de libertad). Si los grados de libertad son , entonces la distribución es la normal estándar. Resumen Hipótesis H0 : 0 Ha : 0 , Ha : 0 , Ha : 0 . Y 0 Estadístico de la prueba: t . s n Región de rechazo: t t , t t , t t 2 . Conclusiones (aceptación o rechazo de H 0 ). Para usar esta prueba, los datos deben ser normales (o por lo menos, en forma de montaña). Un intervalo de confianza para basado en el estadístico t es Y t 2 s 34 n . 11. Pruebas t para dos muestras independientes Consideremos la siguiente situación: queremos estudiar el efecto de una droga sobre la cantidad de parásitos en corderos. Para este estudio se eligieron 14 corderitos similares, todos infectados con el parásito. A 7 de ellos (elegidos aleatoriamente) se los trató con la droga, y los otros 7 se dejaron sin tratar. Al cabo de 6 meses se contó el número de gusanos presentes en los intestinos de cada uno de los corderos. Tratados 14 43 28 50 16 32 13 𝑌̅1=28.00 s22=215.00 Control 54 26 63 21 37 39 Y2 40.00 s22 215.33 40 ¿Cuáles serían las hipótesis de interés? H0 : 1 2 Ha : 1 2 (Las siguientes hipótesis son idénticas: Ha: tratados < control; Ha: control > tratados) Para poder probar estas hipótesis debemos conocer la distribución muestral de Y1 Y2 . Sabemos que Y1 ~ N 1 , 1 y que Y2 ~ N 2 , 2 . Además, ambas medias son n1 n2 independientes (por la forma en que diseñamos nuestro experimento). Entonces, 2 2 Y1 Y2 ~ N 1 2 , 1 2 n1 n2 Si suponemos que 12 22 , el error estándar de la diferencia se simplifica a 1 1 . n1 n2 El estimador de la varianza común se denomina s 2p y se calcula como un promedio ponderado de las dos varianzas: s 2 p n1 1 s12 n2 1 s22 n1 n2 2 s12 s22 . 2 estimador valor hipotético Ahora recordemos la estructura del estadístico t . Para error estándar del estim. probar las hipótesis de interés podemos usar también un estadístico t con la misma estructura. Este estimador tiene n1 n2 2 grados de libertad. Si n1 n2 , entonces s 2p 35 H 0 : 1 2 D0 H a : 1 2 D0 H a : 1 2 D0 1. Hipótesis: H a : 1 2 D0 t 2. Estadístico: 3. Región de rechazo: Y1 Y2 D0 1 1 sp n1 n2 t t , t t o t t 2 (los grados de libertad son n1 n2 2 ) 4. Conclusiones. También podemos calcular un intervalo de confianza para 1 2 basado en el estadístico t: 1 1 Y1 Y2 t 2 s p . n1 n2 Para que la prueba y el intervalo sean válidos, necesitamos realizar tres supuestos: 1. Poblaciones normales 2. Varianzas iguales 3. Muestras independientes Ejemplo (continuación). Para el ejemplo presentado antes, sp = 14.67 y t = -1.53 (t “observado”) Para .05 la región de rechazo son los valores de t 1.782 (observar que tenemos 12 g.l.). Por lo tanto la conclusión es que aceptamos H 0 : no hay evidencias para decir que el tratamiento con droga es mejor que el control sin droga. [si usamos Ha: control > tratado, entonces t = +1.53, la región de rechazo son los valores de t > +1.782, y la conclusión es la misma). Muestras con Varianzas no iguales ¿Cómo sabemos si las varianzas poblacionales son iguales? Existen distintas pruebas para ello. Infostat calcula una prueba F que la estudiaremos en el laboratorio correspondiente. Si los tamaños de muestra son iguales, podemos usar el cociente entre las varianzas muestrales como criterio aproximado: si la varianza mayor dividida la menor nos da un cociente menor a 3, entonces el supuesto de varianzas poblacionales iguales es aceptable. ¿Qué hacemos si el supuesto de varianzas iguales no se cumple? Existe una prueba aproximada, llamada la prueba t de varianzas separadas. El estadístico de esta prueba es t' Y1 Y2 D0 s12 s22 n1 n2 , y los grados de libertad se calculan como: 36 gl n1 1 n2 1 , donde c n2 1 c2 n1 1 (1 c)2 s12 n1 . s s22 n1 n2 2 1 Ejemplo en InfoStat: Cada dato se clasifica de una sola manera: por su tratamiento (tratado o control). (“tratamiento” es el “criterio de clasificación” 37 Infostat entran los nombres de grupos en orden alfabético. Para este ejemplo, grupo 1 es CONTROL y grupo 2 es TRATADOS. La Ha es: control > tratados, una prueba unilateral DERECHA ` Resultado de la prueba F de homogenidad de varianzas. Como 0.9985 > 0.05, concluimos que el supuesto de varianzas poblacionales iguales es aceptable. Dos maneras de interpretar los resultados: t “observado” (1.53) es menor que t “crítico” o “tabular” (1.782). Está en la región de aceptación. Aceptamos Ho: no hay evidencia para decir que el uso de la droga fue mejor que no usarla (control) El p-valor es mayor que alpha (0.0759 > 0.05). Aceptamos Ho: no hay evidencia para decir que el uso de la droga fue mejor que no usarla (control) 38 12. Pruebas t para datos pareados Consideremos la siguiente situación: queremos comparar dos laboratorios en cuanto a su confiabilidad para determinar residuos de plomo en muestras de suelo. Para ello escogemos aleatoriamente 7 muestras de suelo. A cada muestra la dividimos por la mitad, y enviamos una mitad al laboratorio 1 y la otra al laboratorio 2. Laboratorio1 7.6 10.1 9.5 1.3 3.0 5.4 6.2 Y1 6.1571 s12 10.4895 Laboratorio2 7.3 9.1 1.5 2.7 4.8 5.4 Y2 5.6000 s22 8.1467 8.4 ¿Cuáles serían las hipótesis de interés? H0 : 1 2 El estadístico de la prueba es t Ha : 1 2 6.1571 5.6 0.343 , y el valor crítico para .05 es 3.0525 17 17 t12;.025 2.179. Por lo tanto la conclusión sería que aceptamos H 0 . Si observamos los datos cuidadosamente podemos ver que casi siempre el laboratorio 1 presenta resultados más altos que el laboratorio 2. El problema es que la prueba t realizada supone que los datos son independientes, mientras que claramente los datos son “pareados” por lo que la prueba realizada es inválida. Para situaciones como esta existe una prueba que es apropiada: en vez de considerar los datos separadamente podríamos considerar las diferencias entre los datos de cada par. De esta manera eliminamos las diferencias entre pares (que no nos interesan) y nos concentramos en las diferencias dentro de cada par (que es lo que realmente nos interesa). En nuestro ejemplo nos interesa saber si, para una muestra de suelo dada, hay diferencias entre los dos laboratorios, pero no nos interesa que haya o no diferencias entre muestras diferentes (en realidad, es mejor que haya muchas diferencias entre los diferentes pares, así nuestra inferencia es más general). En resumen, lo único que necesitamos hacer es crear una nueva variable di Y1i Y2i , y realizar una prueba t para una muestra. Es decir, hemos reducido nuestro problema a tener una muestra aleatoria de diferencias, y ya sabemos que tenemos la prueba t disponible para esta situación. 39 1. H 0 : 1 2 0 H a : d 0 ( d 0) H a : d 0 Hipótesis: H a : d 0 t 2. Definición del estadístico: 3. Definición de la región de rechazo: (los grados de libertad son 4. d 0 sd n t t , t t o t t n 1 , donde n es el número de pares) 2 Conclusiones. También podemos calcular un intervalo de confianza para 1 2 basado en el estadístico t: s d t 2 d . n Para que la prueba y el intervalo sean válidos, sólo necesitamos suponer poblaciones normales (y tener el estudio diseñado como observaciones pareadas). Para hacer los cálculos en Infostat, los datos deben disponerse en columnas separadas, y cada fila representará un par. El menú Estadísticas>Inferencias para dos muestras> Prueba t apareada nos permite realizar la prueba. Los resultados para la prueba bilateral y para el intervalo de confianza del 95% son: Prueba T (muestras apareadas) 40 Obs(1) Lab. 1 Obs(2) Lab. 2 N 7 media(dif) 0.56 DE(dif) 0.46 T 3.22 p Bilat_ 0.0181 Usando un nivel de significancia del 5%, podemos ver que rechazamos la hipótesis nula, ya que el valor p es menor que α. Usando la tabla, el valor crítico correspondiente a 6 grados de libertad y 0.025 (α/2, ya que es una prueba a dos colas), es 2.447, por lo que la conclusión es también rechazar H0. Los mismos resultados se obtienen si creamos una variable diferencia=lab1-lab2 (usando el menú Datos>Fórmulas), y realizamos una prueba t de una muestra: 41 Si hubiésemos usado (en este caso) erróneamente la prueba t para muestras independientes, los datos se deberían haber arreglado de otra manera, 42 13. Introducción al análisis de la varianza En esta clase vamos a generalizar la idea de comparar dos medias independientes. Mediante el análisis de la varianza se puede probar la igualdad de t medias H 0 : 1 2 ... t . Consideremos los siguientes ejemplos. Los datos son diámetros de aguacates de 3 variedades (5 frutos de cada variedad). CASO A 6.00 5.95 5.90 5.85 5.80 Y 5.90 5.59 5.54 5.50 5.46 5.41 Y 5.50 CASO B 5.90 4.42 7.51 7.89 3.78 Y 5.90 5.10 5.05 5.00 4.95 4.90 Y 5.00 6.31 3.54 4.73 7.20 5.72 Y 5.50 4.52 6.93 4.48 5.55 3.52 Y 5.00 Caso B Caso A 8.30 7.30 7.30 6.30 6.30 Y Y 8.30 5.30 5.30 4.30 4.30 3.30 3.30 Var 1 Var 2 Var 1 Var 3 Var 2 Var 3 Variedad Variedad Aquí podemos ver que en ambos casos las medias muestrales son las mismas, pero nosotros estaríamos más convencidos que las medias poblacionales serían diferentes en el caso A, mientras que en el caso B no estaríamos tan seguros. Esto se debe a que los datos en A son menos variables dentro de cada muestra. Podemos particionar la variabilidad de las 15 observaciones en dos: la variabilidad dentro de cada muestra (grupo) y la variabilidad entre muestras (grupos). Si la variabilidad entre muestras es grande con respecto a la variabilidad dentro de muestras (Caso A), entonces vamos a pensar que los grupos tienen medias poblacionales distintas. Por otra parte, si la variabilidad entre grupos es más o menos comparable a la variabilidad dentro de grupos, entonces no habría evidencias para concluir que las medias poblacionales son diferentes. 43 Cuando pensamos en la variabilidad de las Yij podemos ver que éstas varían debido a dos causas: una es que pertenecen a distintos grupos (las “i” son diferentes) y la otra es la variabilidad aleatoria dentro de cada grupo (las desviaciones que existen entre cada Yij y su promedio i ): Variabilidad total = Variabilidad entre grupos + Variabilidad dentro de grupos Si sólo tuviéramos dos grupos (tratamientos) entonces usaríamos el estadístico t para dos muestras independientes Y Y t 1 2 s p n11 n12 Aquí también estamos comparando la variabilidad “entre” (en el numerador) con la variabilidad “dentro” (en el denominador). Si tenemos más de dos grupos podríamos comparar de a pares (por ejemplo, probar 1 2 , 1 3 , 2 3 ), pero tenemos el problema que los errores de tipo I pueden acumularse, y entonces las pruebas no ser válidas. La idea es entonces lograr una prueba para probar simultáneamente todas las medias. Esta prueba se basa en el estadístico F obtenido de la tabla de ANOVA para la partición de la variabilidad total en variabilidad “entre” y “dentro”. La notación que usaremos será la siguiente: tenemos t tratamientos, cada uno con ni repeticiones. Yij denota la j ésima observación del i ésimo tratamiento . ni Yi Yij , es la suma de todas las observaciones del tratamiento i. j 1 t ni t Y Yij Yi , es la suma de todas las observaciones. i 1 j 1 i 1 Yi es la media de las observaciones del tratamiento i. Y es la media de todas las observaciones (media general). n ni es la cantidad total de observaciones (nt si hay n observaciones en cada tratamiento). i 44 Las sumas de cuadrados se calculan de la siguiente manera: SCTotal=SCTot Yij Y Yij2 Y 2 2 i, j i, j n SCEntre=SCTratamientos=SCTrat ni Yi Y 2 i i Yi2 Y2 ni n SCDentro=SCResidual=SCError=SCRes Yij Yi SCTot-SCTrat 2 i, j La siguiente es la tabla de ANOVA: Fuente de Variación Tratamiento Residual (Error) Total Suma de Cuadrados SCTrat SCRes=SCE SCTot grados de libertad t 1 n t n 1 Cuadrado Medio CMTrat CMRes=CME F F=CMTrat/CME H 0 : 1 2 ... t H a : al menos una i es diferente Estadístico de la prueba: F CMTrat CME Región de rechazo: F F (g.l.: t 1, n t ) Vamos a aplicar estas ideas a un ejemplo: consideremos los siguientes datos de contenido de almidón en tallos de tomate bajo 3 regímenes diferentes de fertilización: A 22 20 21 18 16 B 12 14 15 10 9 C 7 9 7 6 2 SCTot Yij2 Y i, j n 3062 200 2 15 14 Y1 111 Y1 18.5 Y2 60 Y2 12.0 Y3 7.25 Y3 29 395.3333 Yi2 Y2 1112 602 292 2002 SCTrat 317.0833 n 6 5 4 15 i ni SCRes SCTot-SCTrat=78.2500 45 Fuente de Variación Suma de Cuadrados grados de libertad Cuadrado Medio F Tratamiento Residual (Error) Total 317.0833 78.2500 395.3333 2 12 14 158.5417 6.5208 24.313 H 0 : 1 2 ... t H a : al menos una i es diferente Estadístico de la prueba: F CMTrat CME Región de rechazo (α=.05): F 3.89 Cálculo del estadístico de la prueba: F 24.313 Conclusión: Rechazamos H 0 , al menos uno de los tratamientos es diferente. Otra manera de pensar este análisis es mediante un modelo para explicar cada observación: Yij i ij Vemos que cada tratamiento tiene su propia media. Los supuestos que hacemos para que nuestra prueba sea válida son los siguientes: vamos a asumir que los 11 ,..., tnt son independientes y tienen distribución normal con media 0 y varianza constante: ij ~ N 0, Otra manera de escribir este mismo modelo es pensando que cada media i se puede descomponer en una media general y una desviación de esa media i , que llamaremos el “efecto” del tratamiento i i i . Esta formulación nos permitirá extender el modelo a otras situaciones y diseños experimentales. Yij i ij i ij Las hipótesis que estamos probando pueden escribirse en término de cualquiera de las dos formulaciones del modelo: H 0 : 1 2 ... t 0 H 0 : 1 2 ... t H : al menos un es diferente de 0 a H a : al menos una i es diferente 46 i 14. Comparaciones múltiples en ANOVA Cuando rechazamos la hipótesis nula de igualdad de medias de tratamiento (o ausencia de efectos de tratamiento), concluimos que al menos una de las medias es diferente. La pregunta que nos hacemos inmediatamente es ¿cuál es/son la(s) media(s) diferente(s)? Una manera de responder a esta pregunta es a través de la comparación de cada media con todas las restantes, usando uno de los procedimientos de comparaciones múltiples. Éstos consisten en probar las siguientes t(t-1)/2 hipótesis: 1 2 ; 1 3 ; ...; t 1 t . Si tuviésemos una sola de estas hipótesis que probar, podríamos usar el estadístico t para dos muestras independientes. Como aquí tenemos más de una hipótesis, el uso de t para cada una podría ocasionar una acumulación de los errores, por lo que sólo se aconseja hacer esta prueba luego de encontrar mediante la prueba F que hay diferencias entre al menos una de las medias. Bajo el supuesto que las varianzas son iguales, el mejor estimador de la desviación estándar común es sw CME . Entonces podemos construir cada uno de los estadísticos t como, por ejemplo, Y1 Y3 t CME n11 n13 Supongamos que la cantidad de repeticiones en cada tratamiento es la misma (n). Entonces, Y1 Y3 . t CME n2 ¿Cuándo vamos a rechazar la hipótesis nula y quedarnos con la alternativa (de dos colas)? Cuando el valor del estadístico t sea mayor (en valor absoluto) que t 2 . Es decir, vamos a concluir que las medias i y j son diferentes cuando t Y1 Y3 CME 2 n t . Equivalentemente, vamos a concluir que las medias i y j son diferentes cuando 2 2CME Yi Y j t sw t =DMS. 2 2 n n Debemos notar que la cantidad a la derecha no depende de i o j (siempre que los n sean iguales) y se llama DMS “diferencia mínima significativa” porque es la diferencia más pequeña que va a hacer que dos medias sean consideradas diferentes. Si los tamaños muestrales fueran diferentes, entonces el DMS dependerá de los ni , n j . 47 2 Ejemplo Vamos a considerar un ejemplo en el que tenemos 6 tratamientos, cuyas medias aparecen en orden descendente a continuación. El valor de la diferencia mínima significativa es DMS=2.2. Tratamiento Trat. 3 Trat. 1 Trat. 5 Trat. 4 Trat. 2 Trat. 6 Y 35.7 34.0 33.9 25.1 24.7 22.8 a. El primer paso va a ser comparar la media del tratamiento 3 con todas las que le siguen (es decir, Y3 con Y1 , Y3 con Y5 , Y3 con Y4 , Y3 con Y2 , Y3 con Y6 ). Vamos a conectar con una línea las medias que no son significativamente diferentes (es decir, aquéllas cuya diferencia sea menor que DMS) Tratamiento Trat. 3 Trat. 1 Trat. 5 Trat. 4 Trat. 2 Trat. 6 Y 35.7 34.0 33.9 25.1 24.7 22.8 b. Ahora compararemos Y1 con todas las medias que le siguen, y conectaremos con líneas las medias que no son significativamente diferentes de Y1 : Tratamiento Trat. 3 Trat. 1 Trat. 5 Trat. 4 Trat. 2 Trat. 6 Y 35.7 34.0 33.9 25.1 24.7 22.8 c. Cuando seguimos el proceso para Y5 , observamos que la media que le sigue, Y4 , tiene una diferencia mayor que DMS, y por lo tanto no podemos poner una línea que una Y5 con una media que está más abajo. 48 d. Repetimos el proceso para Y4 y Y2 : Tratamiento Trat. 3 Trat. 1 Trat. 5 Trat. 4 Trat. 2 Trat. 6 Y 35.7 34.0 33.9 25.1 24.7 22.8 e. Observar que hay una línea (uniendo las medias 1 y 5) que está de más, ya que las medias 1 y 5 ya aparecen unidas por la línea que va desde la media 3 hasta la media 5. Por lo tanto, eliminamos la línea redundante. Tratamiento Trat. 3 Trat. 1 Trat. 5 Trat. 4 Trat. 2 Trat. 6 Y 35.7 34.0 33.9 25.1 24.7 22.8 f. Ahora podemos dejar las líneas, o cambiar las líneas por letras iguales: Tratamiento Trat. 3 Trat. 1 Trat. 5 Trat. 4 Trat. 2 Trat. 6 Y 35.7 34.0 33.9 25.1 24.7 22.8 a a a b bc c g. Se debe observar que las medias que no están unidas por líneas verticales (o la misma letra) son significativamente diferentes entre sí. 49 Intervalos de confianza para medias y diferencias de medias en ANOVA Para reportar las medias luego de realizar un ANOVA podemos usar un gráfico de barras (que se genera opcionalmente en InfoStat), e incluir límites de confianza para las medias (o errores estándar para las medias). Las fórmulas estudiadas anteriormente usando la tabla t se podrían aplicar aquí: Y t 2 s . n s n como Si usamos una salida de InfoStat, podemos leer directamente la cantidad E.E. (error estándar) en la salida “Medias ajustadas, error estándar y número de observaciones”. Como hemos hecho para el cálculo del DMS, el mejor estimador que tenemos de la desviación estándar poblacional es (bajo el supuesto que las varianzas son iguales), CME Este estimador tiene los grados de libertad del error. Por lo tanto, el intervalo de confianza para una media de tratamiento es CME Y t 2 n Recordar que en esta fórmula n representa la cantidad de observaciones en la media específica (cantidad de repeticiones), y no la cantidad total de observaciones en todo el experimento. Los grados de libertad para el valor tabular de t son los grados de libertad del error. Similarmente podemos calcular un intervalo de confianza para la diferencia de dos medias. Suponiendo igual número de repeticiones n: 2CME n Observar que el término que se suma y resta en esta fórmula es DMS, por lo que el intervalo de confianza para la diferencia de dos medias es: Yi Y j t /2 Yi Y j DMS Si este intervalo incluye el valor de cero, las dos medias correspondientes no son significativamente diferentes. Esto es lo que hemos usado cuando estudiamos la prueba de DMS: si la diferencia de dos medias es menor que DMS, esas medias no son significativamente diferentes. El intervalo va a incluir 0 si y solo si la diferencia de las dos medias es menor que DMS. 50 15. Tablas de contingencia Este tipo de análisis se usa también para estudiar el efecto de una variable (como en regresión, que estudiaremos en las próximas conferencias) o de un tratamiento (como en ANOVA). A diferencia de ANOVA, la variable dependiente en tablas de contingencia es categórica. Por ejemplo, podemos comparar la susceptibilidad de 4 cultivares de habichuela al tizón bacteriano. Se escogen 30 plántulas al azar de cada cultivar, y se clasifica cada plántula en dos categorías: con síntomas y sin síntomas de la enfermedad. Los datos se presentan a continuación. Cultivar Bac-6 V PC GNT Con síntomas 2 16 13 7 Sin síntomas 28 14 17 23 30 30 30 30 Debemos observar que la respuesta aquí es una variable con dos posibles categorías: con o sin síntomas. Nos interesa ver si la presencia de síntomas es independiente del cultivar (es decir, si la proporción de plantas con síntomas es la misma en cada cultivar). Recordando la variable binomial (SÍ / NO), la proporción de “éxitos” la denotábamos con , en este caso denotaremos con i a la verdadera proporción de éxitos en el grupo (tratamiento) i. Entonces la hipótesis que nos interesa probar es H 0 : 1 2 3 4 Usando una notación análoga a ANOVA, la cantidad de plántulas observada en cada celda se denotará como nij : Cultivar Bac-6 Con síntomas n11 =2 Sin síntomas PC n21 =16 n31 =13 n12 =28 n22 =14 n32 =17 GNT n41 =7 n42 =23 V Si todas las variedades tuvieran la misma proporción de enfermas en la población (es decir, la hipótesis nula fuese cierta), las cantidades esperadas de plántulas en cada celda se podrían calcular como ni n j (total fila i )(total columna j ) Eij n total general 51 La tabla de valores esperados sería Con síntomas Sin síntomas PC E11 9.5 E21 9.5 E31 9.5 E12 20.5 E22 20.5 E32 20.5 GNT E41 9.5 E42 20.5 Cultivar Bac-6 V ¿Cómo sabemos que lo que nosotros estamos observando nij está lo suficientemente cerca de lo que nosotros esperamos si la hipótesis nula fuese cierta Eij ? Una forma es comparando cada valor observado con cada valor esperado: n 2 ij Eij 2 Eij Éste será el estadístico de la prueba (chi-cuadrado). Debemos notar que si lo que observamos es exactamente igual a lo que esperamos, entonces 2 0 . Si lo que observamos está muy “lejos” de lo que esperamos entonces el estadístico será muy grande. Por lo tanto, una región de rechazo razonable para esta prueba rechazará cuando el estadístico tenga valores muy grandes. Para encontrar el valor crítico debemos usar la tabla de una distribución nueva: la distribución chi-cuadrado. Para usar esta tabla debemos conocer los grados de libertad, que en el caso de tablas de contingencia siempre serán r 1 c 1 , donde r es la cantidad de filas y c la cantidad de columnas. Para que esta aproximación funcione bien necesitamos que todos lo valores esperados sean mayores o iguales a 5. En el ejemplo que estamos revisando, 2 9.5 2 9.5 2 16 9.5 9.5 2 23 20.5 20.5 2 18.023 La región de rechazo, para 0.05 y 3 grados de libertad según la tabla 7 (páginas 11001101) es 2 2 7.815 . Por lo tanto rechazamos H 0 y concluimos que al menos una de las variedades tiene una susceptibilidad diferente. Otra aplicación de esta prueba es para probar que hay independencia entre dos variables categóricas observadas conjuntamente. Por ejemplo, nos puede interesar saber si el color de flor (azul/amarillo) y el tamaño de la semilla (pequeña/mediana/grande) son caracteres independientes. Las fórmulas para el estadístico de la prueba son las mismas que las que hemos presentado para probar la igualdad de proporciones. Es importante destacar que estamos siempre probando hipótesis acerca de relaciones entre proporciones (no frecuencias absolutas) y por lo tanto cualquier gráfico de resumen que construyamos debe hacerse con proporciones. 52 16. Regresión lineal simple Hasta ahora hemos estudiado la relación entre una variable dependiente (Y) y dos o más “tratamientos” (por ejemplo: tratado / control, variedades 1-4, etc.). Ahora vamos a estudiar la relación que existe entre dos variables: una independiente y otra dependiente. Por ejemplo la cantidad de proteína en la dieta y el aumento de peso. La variable que nosotros variamos a voluntad es la “variable independiente”, y sobre la que nos interesa estudiar el efecto es la “variable dependiente”. Por ejemplo, queremos ver cuál es el promedio de ganancia de peso cuando agregamos 10%, 15%, 20% y 25% de proteína a la dieta. La relación más simple es la de una línea recta Y 0 1 x , donde Y es el aumento de peso, x es el porcentaje de proteína en la dieta, 0 es el intercepto (valor de Y cuando x=0) y 1 es la pendiente (cambio en Y cuando x aumenta en una unidad). La pendiente también se denomina coeficiente de regresión asociado a la variable independiente. Y Este modelo se llama modelo determinístico: conociendo el valor de x podemos predecir exactamente el valor de Y. En la práctica no es muy realista, ya que los puntos observados no van a estar exactamente sobre la línea recta. El siguiente gráfico es más realista: 10 9 8 7 6 5 4 3 2 0 2 4 6 8 10 x Un modelo más realista es pensar que la línea recta representa la relación entre la media de las Y para un valor dado de x y la variable independiente: Y 0 1 x . Otra forma de escribir este modelo es Y 0 1 x donde es el error aleatorio y representa la diferencia entre el valor de Y y su media Y (o lo que es lo mismo, entre el valor observado y la recta). La media de estos errores aleatorio para un valor dado de x es 0 (es decir, los valores positivos y negativos se “balancean”) y por lo tanto ambas formulaciones de este modelo estocástico son equivalentes. 53 Problema: los parámetros de la recta 0 , 1 son desconocidos, por lo que necesitaremos una muestra de N observaciones x1 , Y1 ,..., xN , YN para estimarlos. La recta que obtendremos será la recta estimada: Yˆ ˆ ˆ x 0 1 La diferencia entre cada valor observado Yi y el valor correspondiente sobre la recta estimada se llama “error de predicción” o residuo, y se denomina como e Y Yˆ . i i i Observar que esto no es lo mismo que el error aleatorio i , que es la diferencia entre cada valor observado y la recta verdadera (poblacional). Para estimar la recta vamos a usar el método de mínimos cuadrados, que consiste en elegir los parámetros 0 , 1 que minimicen la suma de los cuadrados de los errores de predicción: N N i 1 i 1 (Yi Yˆi )2 (Yi ˆo ˆ1 xi )2 Los estimadores son ˆ1 S xy S xx N S xx ( X i X ) X X i i 1 i 1 i 1 N N 2 ˆ0 Y ˆ1 x , 2 2 i N = suma de cuadrados de X N N N N i 1 i 1 i 1 i 1 S xy ( X i X )(Yi Y ) X iYi X i Yi N = suma de productos Peso Consumo 4.6 87.1 5.1 93.1 4.8 89.8 4.4 91.4 5.9 99.5 4.7 92.1 5.1 95.5 5.2 99.3 4.9 93.4 5.1 94.4 Consumo Ejemplo: Relación entre el peso de gallinas (lb) y el consumo de alimento durante 1 año. 102 100 98 96 94 92 90 88 86 y = 55.2633+ 7.6901x 4 4.5 5 5.5 6 Peso Para este ejemplo S xx 1.536, S yy 11.812, ˆ1 7.69, ˆ0 55.26. Ahora vamos a estudiar cómo realizar inferencias en regresión lineal (es decir, vamos a construir intervalos de confianza y a probar hipótesis acerca de los parámetros de interés). 54 Cuando pensamos en la variabilidad de las Yi podemos ver que estas Yi varían debido a dos causas fundamentales: una es la relación que existe entre Y y las x (la recta de regresión) y la otra es la variabilidad aleatoria alrededor de la recta (las desviaciones que existen entre cada Yi y su promedio Yi : Variabilidad total = Variabilidad explicada + Variabilidad no explicada Este mismo concepto se traduce en la siguiente fórmula: Y Y Yˆ Y Y Yˆ 2 2 i i i 2 i SC “Total” = SC “Regresión” + SC “Residual” Las fórmulas de cálculo para estas sumas de cuadrados son bastante sencillas: SCTotal SYY Yi 2 Y 2 i N SCRegresión ˆ1 S XY SCResidual SCTotal SCRegresión Podemos ver qué pasaría si todas las observaciones estuviesen sobre la recta (SCResidual=0), y qué pasaría si la mejor recta de ajuste fuese una línea horizontal (SCRegresión=0). Ahora estamos en condiciones de realizar inferencias. Recordemos nuestro modelo Yi 0 1 xi i . Vamos a asumir que este es el modelo correcto, que los 1 ,..., n son independientes y tienen distribución normal con media 0 y varianza constante: i ~ N 0, Si estos supuestos se cumplen, entonces tenemos las siguientes propiedades de la distribución muestral de ˆ0 y ˆ1 : ˆ 0 , ˆ 1 0 ˆ 0 1 x 2 N S xx , ˆ 1 S xx Además, ˆ0 y ˆ1 tienen distribución normal. Un estimador de se obtiene a partir de la suma de cuadrados residual (también llamada suma de cuadrados del “error”): 55 SCResidual SYY ˆ1S XY . N 2 N 2 Con esta información podemos construir intervalos de confianza y realizar pruebas de hipótesis usando el estadístico t que hemos estudiado antes. Por ejemplo, un intervalo de confianza para 0 sería: ˆ 2 s2 ˆ0 t s x 2 2 N S xx Si usamos una salida de InfoStat, podemos leer directamente las cantidades se x 2 N S xx ó se S xx como E.E. (error estándar) que acompaña a los estimadores del intercepto y pendiente respectivamente (“Est.”) en la salida “Coeficientes de regresión y estadísticos asociados”. Otro ejemplo: H 0 : 1 0, H a : 1 0 ˆ 0 t 1 , gl N 2 s S xx Esta última prueba es la más importante en regresión lineal: si no podemos rechazar H 0 entonces estamos concluyendo que no hay una relación lineal entre el promedio de las Y y las x. Otro estadístico alternativo para esta misma prueba se obtiene a partir de la tabla de “análisis de la varianza”, que refleja la partición de la variabilidad que mencionamos al comienzo de la clase. Fuente de Variación Suma de Cuadrados grados de libertad Regresión SCRegresión 1 Residual (Error) SCResidual=SCE N-2 Total SCTotal N-1 CMReg El estadístico para esta prueba es F Cuadrado Medio F CMReg=SCReg/1 F=CMReg/CME CME=SCE/(N-2) CME y debemos rechazar H 0 si F F . Para encontrar el valor tabular de F debemos buscar en la tabla correspondiente con 1 y N2 grados de libertad. Podemos verificar que tanto para el valor observado como para el tabular, F t 2 y por lo tanto ambas pruebas siempre van a conducir a las mismas conclusiones. 56 Correlación lineal Un concepto relacionado con el de regresión es el de correlación. Cuando hablamos de correlación pensamos en la relación que existe entre dos variables, sin distinguir cuál es la dependiente y cuál la independiente. Para medir correlación se usa el coeficiente de S XY correlación lineal: r . Este coeficiente puede tomar valores entre –1 y 1, y mide S XX SYY la fuerza de la asociación lineal entre ambas variables. Observar que no importa cuál es la x y cuál es la y, el coeficiente es simétrico. 2500 40 1913 36 Salinidad Biomasa Ejemplos de correlación: 1325 738 32 28 150 24 3.00 4.25 5.50 6.75 8.00 0 7 14 21 28 35 Zinc 2500 3.28 1913 3.14 PB Biomasa pH 1325 738 3.00 2.85 150 2.71 23 27 31 35 39 1.65 Salinidad 1.77 1.90 2.03 2.15 CO Otra forma de pensar en correlación es considerar el coeficiente de determinación, que es la proporción de la variabilidad total explicada por la regresión: 57 R2 SCRegresión SCTotal Este coeficiente siempre está entre 0 y 1, y cuanto más cerca de 1 está mejor será el ajuste. Si tuviésemos una regresión lineal simple, R 2 es simplemente el cuadrado del coeficiente de correlación lineal r. 58 17. Diseño en bloques completos al azar Recordemos el diseño completamente aleatorizado. Un supuesto fundamental era que las unidades experimentales debían ser homogéneas. Cuando las unidades no son homogéneas pero pueden agruparse en grupos de unidades homogéneas existe otro diseño, que es la generalización del diseño pareado para comparar dos grupos: el diseño en bloques completos aleatorizados (DBCA). Un “bloque” es un conjunto de unidades experimentales homogéneas (es decir, parecidas entre sí). Este diseño consiste en asignar los tratamientos aleatoriamente dentro de cada bloque de manera tal que cada tratamiento que representado una vez en cada bloque. De esta manera garantizamos que todos los tratamientos estarán representados en todos los bloques, y que las comparaciones estarán libres de las diferencias entre bloques (el mismo efecto que lográbamos con el diseño pareado). Para que este efecto del DBCA sea útil en reducir la variabilidad necesitamos que haya diferencias entre los bloques y dentro de cada bloque las unidades sean homogéneas. La notación que usaremos será la misma que para el DCA: tenemos t tratamientos, cada uno con n repeticiones (=bloques). Yij denota la observación del i ésimo tratamiento en el bloque j. . Ahora tendremos una fuente adicional de variabilidad: los bloques. Las sumas de cuadrados se calculan de la siguiente manera: SCTotal=SCTot Yij Y Yij2 Y 2 2 i, j i, j nt SCTratamientos=SCTrat n Yi Y 2 i i SCBloques=SCBl t Y j Y 2 j j 2 j Y t Yi2 Y2 n nt Y2 nt SCResidual=SCError=SCRes Yij Yi Y j Y SCTot-SCTrat-SCBl 2 i, j La siguiente es la tabla de ANOVA: Fuente de Variación Tratamiento Bloque Residual (Error) Suma de Cuadrados SCTrat SCBl SCRes=SCE Total SCTot grados de libertad t 1 n 1 n 1 t 1 Cuadrado Medio CMTrat CMBl CMRes=CME F F=CMTrat/CME F=CMBl/CME nt 1 El modelo que describe los datos provenientes de este diseño es el siguiente: 59 Yij i j ij Los supuestos que necesitamos hacer son los mismos que para el DCA (los ij son independientes, tienen distribución normal y varianza constante) y además necesitamos asumir que los efectos de los tratamientos son iguales en todos los bloques. La hipótesis de interés es, como siempre, acerca de los efectos de tratamiento: H 0 : 1 2 ... t H a : al menos una i es diferente de 0. Estadístico de la prueba: F CMTrat CME Región de rechazo: F F g.l.: t 1, (n 1)(t 1) También podemos probar la hipótesis de que no existen diferencias entre bloques: H 0 : 1 2 ... t H a : al menos una i es diferente de 0. Estadístico de la prueba: F CM Bl CME Región de rechazo: F F g.l.: n 1, (n 1)(t 1) Ejemplo de bloque analizado en Infostat Estos datos aparecen en el archivo Bloque.idb en Infostat, y representan rendimientos de un ensayo con 5 tratamientos arreglados en un DBCA con 4 repeticiones (=bloques). Para hacer el análisis en Infostat usamos el menú Estadísticas>Análisis de la Varianza. Usamos bloque y tratamiento como variables de clasificación y rendimiento como variable dependiente. 60 61 Análisis de la varianza Variable N R² R² Aj CV Rendimiento 20 0.94 0.90 5.83 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 4494763.30 7 642109.04 24.88 <0.0001 Bloque 203319.00 3 67773.00 2.63 0.0983 Tratamiento 4291444.30 4 1072861.08 41.57 <0.0001 Error 309716.50 12 25809.71 Total 4804479.80 19 Test:LSD Fisher Alfa:=0.05 DMS:=247.51210 Error: 25809.7083 gl: 12 Tratamiento Medias n 0 1972.75 4 A 75 2498.50 4 B 150 2973.00 4 C 225 3093.50 4 C D 300 3237.75 4 D Letras distintas indican diferencias significativas(p<= 0.05) 62 18. Introducción a los diseños experimentales Hasta este momento hemos discutido dos diseños diferentes: el diseño completamente aleatorizado (DCA) y el diseño en bloques completos aleatorizados (DBCA). En el primer caso se requiere independencia entre todas las observaciones. En un experimento, esto se logra realizando una aleatorización completa de los tratamientos a las unidades experimentales (es decir, cada unidad experimental tiene la misma probabilidad de recibir cualquiera de los tratamientos, independientemente del tratamiento asignado a unidades vecinas). Ventajas del DCA: Simple para construir Simple para analizar, aun cuando el número de repeticiones no es constante. Sirve para cualquier número de tratamientos. Desventajas del DCA: Requiere que todas las unidades experimentales sean homogéneas. Fuentes de variación no consideradas inflarán el error experimental. Cuando las unidades no son homogéneas pero pueden agruparse en grupos de unidades homogéneas existe el diseño en bloques completos aleatorizados (DBCA). Un “bloque” es un conjunto de unidades experimentales homogéneas (es decir, parecidas entre sí). Este diseño consiste en asignar los tratamientos aleatoriamente dentro de cada bloque de manera tal que cada tratamiento que representado una vez en cada bloque. De esta manera garantizamos que todos los tratamientos estarán representados en todos los bloques, y que las comparaciones estarán libres de las diferencias entre bloques (el mismo efecto que lográbamos con el diseño pareado). Para que este efecto del DBCA sea útil en reducir la variabilidad necesitamos que haya diferencias entre los bloques y dentro de cada bloque las unidades sean homogéneas. Ventajas del DBCA: Útil para comparar tratamientos en presencia de una fuente externa de variabilidad. Simple para construir y analizar (siempre que el número de repeticiones sea constante). Desventajas del DBCA: Práctico para pocos tratamientos, para que las unidades de un bloque sean realmente homogéneas. Controla una sola fuente de variabilidad externa. El efecto del tratamiento debe ser el mismo en cada bloque. Luego de haber estudiado dos diseños, podemos volver a preguntarnos: ¿qué es diseñar un estudio científico? 63 El diseño es el proceso de establecer un marco para que se puedan comparar tratamientos, grupos o condiciones. Ya hemos discutido anteriormente los tipos de estudios más comunes: experimentos y estudios observacionales. En un estudio observacional se obtiene información bajo condiciones “no perturbadas”, es decir, condiciones naturales, y se comparan las diferentes condiciones o grupos. Por el contrario, en un experimento, el investigador controla las condiciones y decide qué tratamiento recibe cada unidad. Este control permite que en un experimento se pueda atribuir al efecto observado (por ejemplo que la condición A es más efectiva que la condición B) a que las unidades fueron tratadas con dos tratamientos diferentes. En el caso de un estudio observacional, se podría argumentar que, como el investigador no tuvo control sobre las unidades antes de asignarles la condición a la que se verían expuestas, la causa de las diferencias podría ser otra. Existen situaciones prácticas, éticas, o de la naturaleza del estudio, que hacen que se tengan que hacer estudios observacionales. Si podemos escoger, el experimento nos va a brindar conclusiones más “sólidas”. Cuando hablamos de controlar las condiciones a las que exponemos a las distintas unidades en un experimento, también debemos considerar todo el desarrollo del experimento. Es decir, debemos seguir un plan (protocolo) sistemático durante todo el experimento, y cualquier situación que pudiera presentarse debería considerarse en este plan. Algunos aspectos que deberían incluirse en este plan son: 1. Los objetivos de investigación 2. La selección de los factores (condiciones) que se van a variar (“tratamientos”) 3. La identificación de otros factores de variación que puedan estar presentes (por ej., factores de bloqueo) 4. Las características a medir en las unidades experimentales (las variables de respuesta) 5. El método de aleatorización 6. Los procedimientos para registrar los datos 7. La determinación del número de repeticiones según la precisión deseada 64 19. Documentación y comunicación de resultados Esto es lo que presentamos en la primera clase de AGRO 5005: ¿Qué es la Biometría? ¿Cómo? Es la disciplina que se encarga de obtener información a partir de datos biológicos. Mediante gráficos, medidas numéricas de resumen (ej., promedio), comparaciones, predicciones, etc. Etapas que debemos seguir para obtener información “buena” a partir de los datos: 5. 6. 7. 8. Recolectar los datos Resumir los datos Analizar los datos Comunicar los resultados En esta conferencia vamos a tratar de discutir algunas ideas que permitan lograr eficazmente la etapa 4, “comunicar los resultados”. La comunicación puede ser verbal o escrita. La comunicación verbal puede ser desde una comunicación informal hasta una presentación formal. La comunicación escrita también varía desde memorandos e informes de proyecto dentro de la misma organización (interna) hasta cartas, folletos de divulgación, artículos científicos y libros (externa). En todos los casos tenemos que tener en cuenta la audiencia (hacia quién nos estamos comunicando). Los principales problemas que se pueden encontrar al comunicar resultados estadísticos son los siguientes: Distorsiones gráficas: recordemos lo que habíamos discutido antes 5. ¿Qué es lo que se desea informar al lector del grafico? 6. Elegir cuidadosamente los títulos, ejes, colores, rayas, etc. 7. No sobrecargar de información al gráfico. 8. Practicar mucho! Muestras sesgadas: éste es posiblemente uno de los problemas centrales que nos encontramos. Las conclusiones pueden ser correctas pero se refieren a la “población” equivocada. Recordemos que si no existe la aleatorización no podemos realizar la inferencia estadística correctamente. Se requiere de una planificación adecuada del estudio. Tamaño muestral inadecuado: los resultados de un experimento pueden llevar a una conclusión equivocada porque no había suficientes observaciones como para que el error de tipo II (aceptar una hipótesis nula falsa) fuese suficientemente pequeño. Se requiere de una planificación adecuada para que la cantidad de repeticiones sea suficiente como para detectar con una probabilidad alta una diferencia que exista en la población y que sea de interés para el investigador. 65 Al informar las conclusiones debemos especificar claramente cómo se obtuvieron las observaciones, qué diseño se usó (=cómo se aleatorizó) y cuántas observaciones (=repeticiones) se realizaron. Si es posible, se debería incluir un estudio de la potencia de las pruebas para evidenciar que el tamaño muestral fue adecuado para detectar las diferencias de interés. Preparación de los datos para el análisis 1. Generar (recibir) los datos originales 2. Crear la base de datos a partir de los datos originales 3. Editar la base de datos 4. Corregir y clarificar la base de datos comparándola con los datos originales 5. Finalizar la base de datos, archivarla y crear copias (en varios medios, como USB, DVD, papel, etc.) 6. Crear archivos de datos para los análisis Es muy importante (y en algunas áreas obligatorio) llevar un registro detallado de todo el proceso para, de ser necesario, rehacer nuevamente las distintas etapas por las que los datos han pasado. Una forma común de documentar esto es mediante un registro del estudio (cuaderno de bitácora o “study log”). Éste debería incluir: a. datos recibidos, y de quién b. investigador a cargo del estudio c. estadístico y otro personal asignado d. descripción breve del estudio e. tratamientos usados f. diseño experimental usado g. mapa de campo con tratamientos y aleatorizaciones h. fuente de los datos originales i. variables dependientes medidas (“respuestas”) j. fechas de toma de datos, análisis, etc. k. irregularidades en la toma de datos, registro, etc. l. otra información relacionada Guías para el análisis e informe estadísticos Los análisis preliminares, a menudo descriptivos o gráficos, permiten familiarizarse con los datos, observar algunas relaciones, detectar problemas, etc. Los análisis primarios se hacen para responder las preguntas de investigación que se indicaron en los objetivos del estudio. Los análisis secundarios (o de apoyo) incluyen métodos alternativos de observar los datos, uso de métodos poco comunes en el área de aplicación, exploración de hipótesis sugeridas por los resultados del experimento, etc. Informe estadístico 66 a. b. c. d. e. f. g. h. Resumen Introducción Diseño experimental y procedimientos del estudio Estadísticos descriptivos Metodología estadística Resultados y conclusiones Discusión Lista de datos y salidas de computación relevantes Documentación y almacenamiento de resultados La idea fundamental es que podamos tener la documentación y los datos almacenados de forma tal que en el futuro nosotros (o algúna otra persona) pueda rehacer los análisis, obtener nuevos resultados (o confirmar los obtenidos) y alcanzar nuevas conclusiones sin mayores dificultades. En algunas áreas de investigación esto es necesario para poder evaluar la calidad de las conclusiones obtenidas, y en todos los casos es una práctica muy importante. 67 Biometría AGRO 5005 Número de horas crédito: 3 (tres). Se realizarán dos horas de conferencia semanales y un laboratorio semanal de 3 horas. Prerrequisitos, correquisitos y otros conocimientos: se espera que los estudiantes posean destrezas básicas en el uso de computadoras personales. Descripción: Conceptos básicos del razonamiento estadístico aplicado a problemas en las ciencias agrícolas, biológicas y ambientales. Recolección, descripción gráfica y resumen numérico de los datos. Conceptos de probabilidad y muestreo. Estimación y prueba de hipótesis, análisis de la varianza, correlación y regresión lineal. Los estudiantes describen y analizan conjuntos de datos reales y usan programas estadísticos de computación. Propósito del curso: Este curso permite a los estudiantes graduados y subgraduados avanzados aprender un aspecto crucial para su futura actividad de investigación: la metodología a seguir para obtener conclusiones válidas a partir de estudios experimentales. Este curso sirve como base de programas graduados en ciencias agrícolas, biología, ciencias marinas y kinesiología, y se complementa con el curso de biometría avanzada (AGRO 6600). Objetivos: Se espera que al finalizar el curso el estudiante conozca los principales métodos de análisis de datos experimentales. pueda construir gráficos y medidas que representen y resuman adecuadamente los datos disponibles. pueda analizar experimentos simples, obteniendo conclusiones válidas. conozca y aplique regresión y correlación lineal. use el programa estadístico Infostat, obteniendo conclusiones válidas a partir de las salidas de computación. Conferencias: Martes y Jueves 9:30-10:20 am, P 213 (sección 036) Laboratorios: Lunes 1:30-4:20 pm, AP203 (sección 071L) Lunes 4:30-7:20 pm, AP203 (sección 100L) Martes 1:30-4:20 pm, AP203 (sección 076L) Miércoles 1:30-4:20 pm, AP203 (sección 070L) Miércoles 4:30-7:30 pm, AP203 (sección 101L) Jueves 1:30-4:20 pm, AP203 (sección 077L) Profesores: Dr. Raúl E. Macchiavelli (conferencias) Oficina: P217A, Decanato AP200 Teléfono: 787-832-4040 ext.3020 (oficina) o 5975 (decanato) e-mail: raul.macchiavelli@upr.edu Horas de oficina: Martes y Jueves 8 a 9 am 68 Dra. Linda Wessel Beaver (conferencias; coordinadora de laboratorios) Oficina: P-110, Laboratorio P 111, Teléfono: 787-832-4040 ext. 6334 e-mail: lindawessel.beaver@upr.edu Horas de oficina: Instructores de laboratorio: Sra. Rocío Suárez (laboratorio de miércoles 4:30-7:30) Oficina: P-218A Teléfono: 787-832-4040 ext. 3851 o 2313 e-mail: maria.suarez@upr.edu Horas de oficina: martes y jueves 4:30 – 5:15 pm o por acuerdo Estrategias instruccionales: Conferencia: dos conferencias semanales de asistencia obligatoria. El material a discutir en las conferencias se encuentra en el texto del curso, y un resumen del mismo está disponible en las notas de clase (ver la página web del curso). Laboratorio: un laboratorio semanal de asistencia obligatoria. Durante el mismo se discutirán temas y analizarán datos usando computadoras. El material y los datos de cada laboratorio estarán disponibles en la página web del curso. Los estudiantes deben llevar al laboratorio calculadora con funciones estadísticas, el texto (incluyendo las tablas estadísticas a usarse) y dispositivo de memoria. (Para no interrumpir las conferencias o laboratorios, está prohibido el uso de teléfonos celulares. Favor ponerlos en modo silencioso durante las clases y los exámenes.) Recursos de aprendizaje: Los laboratorios se realizarán en el laboratorio de computadoras de Biometría, donde hay disponibles 17 computadoras personales, además de un servidor, impresora y pantalla inteligente. Los estudiantes deberán traer a los laboratorios sus calculadoras, las que deben tener funciones estadísticas disponibles. El material de conferencias y laboratorios, así como los datos a analizar estarán disponibles en la página del curso http://academic.uprm.edu/rmacchia/agro5005 Estrategias de evaluación / Herramientas de avalúo Pruebas cortas (quizes): cinco quizes durante los laboratorios. Estos quizes no se anunciarán. La nota final solamente incluirá el promedio de los 4 mejores quizes. Exámenes parciales: dos exámenes parciales, tentativamente los días 13 de octubre y 10 de noviembre en P213 (7:30 pm a 9 pm). Durante los exámenes se proveerán las tablas y fórmulas necesarias, y los estudiantes podrán usar calculadora y el libro (no se permiten notas de clase ni fotocopias). Los exámenes de años anteriores estarán disponibles en la página web del curso. Los teléfonos celulares no se permiten durante el examen: los teléfonos celulares, tabletas y otros aparatos electrónicos deberán permanecer en las 69 carteras o bultos. La posesión de un teléfono celular fuera de una cartera o bulto durante el examen se considerará como intento de plagio. Examen Final: el examen final será un trabajo integrador del material estudiado durante el curso. Durante los exámenes se proveerán las tablas y fórmulas necesarias, y los estudiantes podrán usar calculadora y el libro (no se permiten notas de clase ni fotocopias). Los exámenes de años anteriores estarán disponibles en la página web del curso. Asistencia y participación en clase y laboratorios: para evaluar la participación de estudiantes en laboratorios cada estudiante deberá presentar un informe del mismo la semana siguiente a la realización del laboratorio correspondiente. La calificación final se basará en un promedio ponderado de las notas de Asistencia y participación (10%) Quizes (20%) Exámenes parciales (22% cada uno) Examen final (26%) Sistema de calificación: La nota final se basará en la calificación final de acuerdo a la siguiente equivalencia A: 90 o más B: 80 o más pero menos de 90 C: 70 o más pero menos de 80 D: 60 o más pero menos de 70 F: menos de 60 Bosquejo del curso Conferencias Fecha Aprox. 1. Introducción. Conceptos, usos y aplicaciones. 2. Estudios observacionales y experimentales. Muestreo. Manejo de datos. 3. Descripción de datos. Métodos gráficos. 4. Descripción de datos. Medidas de tendencia central y variabilidad. 5. Elementos de probabilidad. Distribución binomial. 6. Distribución normal. 16 agosto Sección del texto Sección del texto Sección del texto (sexta ed.) (quinta ed.) (cuarta ed.) Capítulo 1 Capítulo 1 Capítulo 1 18, 23 agosto Capítulo 2 Capítulo 2 Capítulo 2 25, 30 agosto 3.1-3.3, 3.7 3.1-3.3, 3.7 3.1-3.3, 3.7 1, 6 septiembre 3.4-3.6 3.4-3.6 3.4-3.6 8, 13, 15 septiembre 20, 27 septiembre 29 septiembre 4.2-4.3, 4.6-4.8 4.1-4.3, 4.6-4.8 4.1-4.3, 4.6-4.8 4.10 4.9, 4.10 4.9, 4.10 4.11-4.12 4.12 4.12 7. Distribuciones muestrales. 70 8. Estimación y pruebas de hipótesis para medias. PRIMER EXAMEN PARCIAL 4, 6, 11, 13 5.2-5.4, 5.6-5.7 octubre 13 octubre, 7:30 pm 9. Inferencias para dos medias. 18, 25, 27 6.2, 6.4 octubre 10. Análisis de la varianza. DCA. 1, 3 noviembre 8.1-8.3, 9.3 11. Pruebas de chi-cuadrado. 10 noviembre SEGUNDO EXAMEN PARCIAL 10 noviembre, 7:30 pm 12. Regresión y correlación 15, 17, 22 lineal. noviembre 13. Introducción al diseño de 29 noviembre, 1 experimentos. DCA y DBCA. diciembre 14. Comunicación de resultados 6, 8 diciembre EXAMEN FINAL 10.5-10.6 5.1-5.4, 5.6-5.7 5.1-5.3, 5.5-5.8 Temas 1-6; Labs 1-6 6.1-6.2, 6.4 6.1-6.2, 6.5 8.1-8.4, 9.1, 9.4 13.1-13.4, 14.4, 15.1-2 10.4, 10.6 8.1, 8.7 Temas 7-9; Labs 7-10 11.1-11.3, 11.7 11.1-11.3, 11.7 9.1-2, 9.5, 10.1-2 14.1-14.2, 15.115.2 14.1,14.2, 15.3 15.1-15.3 20.1-20.5 Laboratorio LAB 1 LAB 2 LAB 3 LAB 4 LAB 5 Fecha (Lu, Ma, Mi, Ju) 22, 23, 24, 25 agosto 29, 30, 31 agosto, 1 sept. 12, 6, 7, 8 septiembre 19, 13, 14, 15 septiembre 26, 27, 21, 20 septiembre Tema Introducción. Infostat. Manejo de datos. Gráficos I Resumen gráfico de la información II Estadísticos descriptivos. Probabilidad y distribución binomial. LAB 6 3, 4 octubre, 28, 29 sept. Distribución normal. LAB 7 LAB 8 LAB 9 12, 11, 5, 6 octubre 17, 18, 19, 13 octubre 24, 25, 26, 27 octubre Distribución muestral. Estimación y prueba de hipótesis. Pruebas t para una media y para dos medias independientes. LAB 10 LAB 11 LAB 12 LAB 13 LAB 14 31 oct., 1, 2, 3 noviembre 9, 10, 11, 5 noviembre 16, 17, 18, 12 noviembre 28, 29, 30 noviembre, 1 dic. 5, 6, 7, 8 diciembre Pruebas para datos pareados. Análisis de la varianza. Pruebas de chi cuadrado. Regresión y correlación lineal. Diseño en bloques completos aleatorizados Bibliografía: Ott, R.L. y M. Longnecker (2010). An Introduction to Statistical Methods and Data Analysis. 6ta. ed. Pacific Grove (CA): Duxbury (también la cuarta, la quinta y la séptima edición son recomendadas) Macchiavelli, R. y Wessel Beaver, Linda (2016). Notas de Clase de Biometría (disponible en la página web del curso). InfoStat (2015). InfoStat versión 2015. Grupo InfoStat, Facultad de Ciencias Agropecuarias, Universidad Nacional de Córdoba, Argentina (descargar gratuitamente de http://www.infostat.com.ar ) 71