Introducción a la Estadística. Lic. Ricardo Barca. Índice. Introducción a la Probabilidad. ........................................................................................... 1 Índice. ............................................................................................................................. 1 1. Conceptos básicos. .................................................................................................... 2 2. Conceptos Estadísticos Fundamentales. .................................................................... 3 3. Funciones de Distribución de Probabilidades. .......................................................... 18 Funciones Estadísticas del EXCEL: .......................................................................... 22 4. Funciones de Distribución de Probabilidades. .......................................................... 24 La Distribución T de Student. .................................................................................... 24 Distribución de Promedios Muestrales ...................................................................... 25 Distribución muestral de la suma y de la resta: ......................................................... 27 Funciones Estadísticas del EXCEL: .......................................................................... 28 5. Test de Hipótesis. ..................................................................................................... 29 Funciones Estadísticas del EXCEL: .......................................................................... 35 6. La Distribución Binomial ........................................................................................... 36 Funciones Estadísticas del EXCEL: .......................................................................... 38 7. Gráficos de Control................................................................................................... 39 8. Relación entre dos Variables. ................................................................................... 43 Funciones Estadísticas del EXCEL: .......................................................................... 48 1 1. Conceptos básicos. Cada vez que realizamos un cálculo matemático para resolver un problema, lo que estamos haciendo es aplicar un modelo matemático a un fenómeno de la realidad. Este fenómeno puede ser la caída libre de una piedra desde cierta altura, y en este caso utilizamos un modelo que es la Ley de Gravedad. Si el fenómeno es el vuelo de un avión supersónico, aplicaremos los modelos que estudiamos en física (Leyes de Newton) para calcular velocidad, aceleración, etc. En muchos problemas simples de aritmética aplicamos un modelo que es la Regla de Tres Simple. Pero ¿Qué es un modelo?. Cuando necesitamos resolver un problema, este forma parte de una realidad física, biológica, económica o de algún otro tipo que estamos estudiando. Para resolver el problema, necesitamos modelar esa realidad, es decir, construir un modelo matemático que, aunque simplifica algunos detalles, explica como funciona el fenómeno que estamos estudiando. Por ejemplo, las leyes de la gravedad de Newton permiten estudiar la caída de un cuerpo en el vacío. Cuando aplicamos este modelo a la caída real de un cuerpo, estamos dejando de lado la influencia del aire, cuyo rozamiento en el cuerpo disminuye su velocidad, pero lo hacemos a sabiendas que este rozamiento es muy pequeño y por lo tanto no va a afectar demasiado nuestros cálculos. En consecuencia, el primer paso para resolver un problema es elegir bien el modelo teórico que vamos a utilizar. En ningún caso debemos confundir modelo con realidad. Un modelo es sólo una representación de la realidad, utilizado para estudiar y analizar dicha realidad. Se pueden construir distintos modelos teóricos que representen una misma realidad, y la resolución correcta de problemas depende de nuestra habilidad para elegir el modelo que mejor se adecue a las circunstancias. Los modelos matemáticos que mencionamos, después de efectuar los cálculos, nos dan un resultado numérico preciso, por ejemplo, que la velocidad de un automóvil es de 75,5 Km/Hora. Calculamos la corriente eléctrica que circula por un cable con la Ley de Ohm y obtenemos, por ejemplo, un resultado como 5,7 Amperes. Si el modelo matemático fue aplicado correctamente al fenómeno que estudiamos, el resultado será satisfactorio y consiste en un valor preciso y determinado. Este tipo de modelos matemáticos se denominan Determinísticos. Hay fenómenos que necesitan otro tipo de modelos matemáticos, que se denominan no determinísticos, probabilísticos o estocásticos. Por ejemplo, supongamos que un agricultor necesita calcular cuanta lluvia va a caer en los próximos meses, y dispone de la presión barométrica, la temperatura, velocidad del viento y otros datos meteorológicos, para realizar el cálculo. Sin embargo, no hay una ecuación que con todos esos datos le permita calcular los milímetros de lluvia que van a caer en un mes en forma precisa. De la misma manera, ningún operador puede calcular cuanto va a subir la Bolsa, ni siquiera si va a subir o bajar, aún cuando tenga a su alcance todas las variables económicas disponibles para ese país. Estos fenómenos no admiten un modelo determinístico, sino un modelo probabilístico, que como resultado nos dice la probabilidad de que llueva una cierta cantidad, o la probabilidad de que la Bolsa suba un cierto porcentaje. El resultado no es un valor determinado, sino la probabilidad de un valor. Vamos a ver que significa el concepto de probabilidad con algunos ejemplos. Supongamos que se arroja un dado sobre una mesa y apostamos a que salga un número igual o menor que 4. Sabemos que 2 son igualmente posibles 6 números: 1, 2, 3, 4, 5 y 6. Pero los números favorables a nuestra apuesta son sólo 4: 1, 2, 3 y 4. Entonces, la probabilidad de que ganemos es: P 4 0,666... 6 Es decir que tenemos a nuestro favor una probabilidad de 0,666.. (o sea aproximadamente del 67 %). Si apostamos a un sólo número, la probabilidad de ganar sería: P 1 0,1666... 6 Entonces, la probabilidad es un número entre 0 y 1, que nos dice en que medida es posible que ocurra un suceso o sucesos. Si la probabilidad es 1 significa que el suceso ocurrirá con toda certeza. Si la probabilidad es 0,5 significa que un suceso puede ocurrir o puede no ocurrir con la misma probabilidad. Probabilidad 0 quiere decir que el suceso es imposible que ocurra. 2. Conceptos Estadísticos Fundamentales. Cuando tenemos un conjunto muy grande de datos numéricos para analizar decimos que tenemos un Universo o Población de observaciones. Cada dato numérico es un elemento de la población o universo. Una Muestra es un subconjunto pequeño de observaciones extraídas de un universo o población. La Estadística trabaja con poblaciones de datos y con muestras extraídas de las mismas. Los conceptos de población y muestra a veces resultan ambiguos en su aplicación práctica. Por ejemplo, supongamos que en una ciudad de 5000 habitantes se realiza un censo médico en el cual se mide el peso, la altura y se relevan otros datos de todos los habitantes de la ciudad. Alguien podría referirse al universo o población censada teniendo in mente el conjunto de los habitantes de la ciudad. Pero cuando hablamos en términos estadísticos, nos referimos a poblaciones o universos de datos. Por ejemplo, el conjunto de todas las mediciones de altura (De los habitantes de la ciudad) es un conjunto de datos y por lo tanto constituye un universo o población de datos desde el punto de vista estadístico. Otro universo o población de datos son los pesos medidos (De los habitantes de la ciudad). Pero la población de habitantes, es decir, las personas que habitan la ciudad no son la población a la que nos estamos refiriendo desde el punto de vista estadístico. Supongamos que en una empresa se fabrica un lote muy grande, digamos 10 toneladas de un producto, y un técnico debe controlar la calidad del mismo. El técnico toma una pequeña porción, por ejemplo, 100 gramos y dirá que tomó una muestra del producto para analizar en el laboratorio. Hasta el momento, la muestra no fue analizada y por lo tanto no tenemos ningún dato numérico. Cuando el laboratorio efectúa algún ensayo en la muestra y obtiene un resultado numérico, recién ahí tenemos un dato que puede ser analizado desde el punto de vista estadístico. Vamos a suponer hipotéticamente que el técnico continúa sacando otras muestras del producto, hasta agotar el lote y cada una es ensayada en el laboratorio, el cual nos da los resultados. Como teníamos 10 ton. de producto y las muestras son aproximadamente de 100 gr., el técnico seguramente extraerá alrededor de 100000 muestras y el laboratorio nos entregará alrededor de 3 100000 resultados. Este conjunto de datos numéricos es nuestro universo o población de datos. Si nosotros tomamos al azar 10 de esos resultados, podemos decir que tenemos una muestra de 10 elementos de ese universo o población. No debemos confundir esta muestra (Desde el punto de vista estadístico) con la muestra de material que extrajo el técnico para ser analizada en laboratorio. Ahora bien, nuestro universo o población de datos a veces no existe en la realidad, sino que es un concepto o abstracción que utilizamos para referirnos al universo o población que hipotéticamente podría existir. Veamos el ejemplo anterior. Supongamos que el técnico toma solamente 5 muestras y las envía para analizar al laboratorio. El laboratorio nos enviará sólo 5 resultados, y nosotros diremos que tenemos una muestra de datos extraída del universo o población de datos total (Aquel universo o población que tendríamos si se hubieran extraído y analizado las 100000 muestras de material). Muchas veces resulta difícil imaginarse cual es el universo del cual extrajimos los datos. Supongamos que tenemos una máquina que produce piezas de plástico en serie y un técnico toma 5 piezas sucesivas y les mide la altura con un calibre. Tenemos, entonces, 5 resultados, es decir una muestra de 5 elementos. ¿Cuál es el universo al cual pertenece esa muestra de datos?. Debemos imaginar lo siguiente: Si la máquina continúa trabajando en las mismas condiciones (Es decir, a la misma velocidad, con las mismas materias primas, a la misma temperatura, manejada por el mismo operario, etc.) y a cada pieza que produce se le mide la altura tendríamos un conjunto muy grande de resultados numéricos. Ese conjunto muy grande de resultados numéricos que no existe, pero que podría obtenerse en esas condiciones es el universo o población del cual extrajimos la muestra de 5 observaciones. Veamos otro ejemplo. Supongamos que una empresa textil desea saber cual es el sueldo promedio que gana un operario en esa industria. Entonces, encarga una encuesta a un técnico en estadística, que entrevista a 20 operarios de la industria textil y averigua sus salarios. Estos datos son una muestra de 20 observaciones del universo o población formado por los salarios de todos los operarios de la industria textil del país. Aunque el técnico no disponga de esos datos, sabemos que existen miles de operarios que ganan un salario determinado y por lo tanto podemos hablar de un universo o población cuyos elementos son los salarios de los operarios de la industria textil en el país. Además, esa población de datos es seguramente diferente de la población de salarios de los operarios de la industria textil chilena o brasileña (Usando una misma moneda de referencia). ¿Qué representa una Población de datos?: El análisis estadístico de una población o universo de datos tiene como objetivo final descubrir las características y propiedades de aquello que generó los datos. Por ejemplo, se tiene una población de escolares (Población física, población humana) y se les mide la altura. El conjunto de datos de altura constituye una población o universo estadístico. El análisis de estos datos de altura (Universo estadístico) sirve para caracterizar y estudiar a la población de estudiantes (Que no es una Población estadística). Supongamos que un instituto dedicado a estudios económicos ha realizado una encuesta de ingresos en el país. El universo de datos generados por la encuesta sirve a los fines de caracterizar a la población física, a la población real del país, desde un punto de vista económico. Si un ingeniero controla un proceso industrial y recoge una serie de mediciones que luego se dedica a analizar, no es porque esté interesado en jugar con números, sino porque a través de los datos numéricos el puede evaluar el comportamiento del proceso, que es lo que realmente le interesa. 4 Entonces, es importante destacar que detrás de un universo o población de datos se encuentra una población física (Elementos de la realidad que nos rodea) de la cual, a través de algún tipo de medición, se obtuvieron los datos numéricos. Es esa población física (Elementos de la realidad, seres humanos o materiales) la que deseamos estudiar y caracterizar por medio del análisis estadístico de los datos obtenidos. La población estadística representa, entonces, una población física o natural formada por elementos de la realidad, con respecto a una característica o propiedad de esa población física. Por ejemplo, la altura de una población de escolares, o el salario de una población de trabajadores. Es muy importante, al utilizar métodos estadísticos, no confundir la población física, formada por elementos de la realidad que estamos estudiando, con la población o universo de datos generados a partir de la primera. De aquí en adelante, cuando utilicemos los términos población o universo sin otro aditamento nos estaremos refiriendo a población o universo de datos numéricos (También llamados observaciones o mediciones o valores). Distribución de Frecuencias: Vamos a suponer que tenemos una cierta población de N = 500 datos, por ejemplo el peso de varones adultos de 40 años. Una manera de caracterizar la población es construir una distribución de frecuencias o gráfico de frecuencias. Para ello seguimos los pasos siguientes: 1) Tomamos nota del valor máximo y el valor mínimo de la serie de datos que estamos considerando. 2) Subdividimos el intervalo entre el máximo y el mínimo en algún número de intervalos (15 ó 20) mas pequeños iguales entre sí. 3) Contamos el número de datos que encontramos dentro de cada intervalo (Frecuencia). Por ejemplo, supongamos que en el intervalo i hay ni observaciones ( ni = N). 4) Para construir el gráfico, colocamos en el eje de abcisas (Horizontal) los intervalos y levantamos en cada intervalo un rectángulo de altura proporcional al número ni de datos dentro del mismo. Si hacemos el área del rectángulo levantado sobre el intervalo i-ésimo igual a la frecuencia relativa ni/N, el área total bajo el histograma será igual a la unidad: Area Total Ai ni N n N 1 i N N 5 Gráfico de Distribución de Frecuencias 0,20 Frecuencia Relativa 0,18 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0,00 60 66 72 78 84 90 96 Peso Kg. Obtenemos así una representación gráfica (Llamada también histograma) que nos muestra la distribución de frecuencias de la población. Esta distribución de frecuencias nos muestra las características de una población, por ejemplo, si hay resultados que son mas frecuentes que otros. Nos muestra si los valores están ubicados alrededor de un valor central, si están muy dispersos o poco dispersos. Podemos observar que fracción de todas las mediciones cae por ejemplo, entre 70 y 80 Kg. (Zona rayada en el gráfico): Gráfico de Distribución de Frecuencias 0,20 Frecuencia Relativa 0,18 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0,00 60 66 72 78 84 90 96 Peso Kg. Una extracción aleatoria es aquella en que cada miembro de la población tiene la misma posibilidad de ser elegido. Supongamos que realizamos una extracción aleatoria de la población antedicha y obtenemos el valor y. Entonces: 1) La probabilidad P(y<70) de que y sea menor que 70 Kg. es igual al área del histograma a la izquierda de 70 Kg. 6 2) La probabilidad P(y>70) de que y sea mayor que 70 Kg. es igual al área del histograma a la derecha de 70 Kg. 3) La probabilidad P(y>70, y<80) de que y sea mayor que 70 Kg. pero menor que 80 Kg. es igual al área del histograma entre 70 y 80 Kg. Medidas de Tendencia Central: Una característica importante de cualquier población es su posición, es decir, donde está situada con respecto al eje de abscisas (Eje horizontal). En nuestro caso, es importante saber si los datos se agrupan alrededor de 60 Kg. o de 90 Kg. o alrededor de 12 Kg. Una manera de obtener un dato numérico que nos dé idea de la posición de nuestra población es calcular el Promedio o Media de todas las observaciones: X X i N Este importante parámetro nos permite efectuar comparaciones entre distintas poblaciones. Por ejemplo, si tuviéramos una población formada por mediciones del peso de mujeres de 30 años, otra de peso de varones de 40 años y una tercera de peso de niños de 8 años, es indudable que los promedios van a ser diferentes. El promedio, entonces, nos está diciendo que las tres poblaciones son diferentes y también en que medida difieren. Ahora, si tuviéramos una población de varones con peso promedio 70 Kg. y otra población de varones con el mismo promedio ¿Se puede afirmar que ambas poblaciones son equivalentes? Medidas de Dispersión: Otra característica importante de una población es el grado de dispersión de las observaciones. No es lo mismo si en nuestra población encontramos que todos los valores están entre 75 y 90 Kg. que si están entre 60 y 105 Kg., aunque el promedio sea el mismo. Si llegara a la tierra un marciano y le dijéramos que el peso promedio de los seres humanos adultos es de 70 Kg., puede llegar a creer que existen hombres de 350 Kg., o de 5 Kg. Es necesario agregar alguna idea de la dispersión de los valores. Una manera es a través del Rango de las observaciones, es decir, el valor Máximo y el valor Mínimo de los datos de la población. Entonces, una descripción mas realista acerca de los seres humanos sería decir que pesan en promedio 70 Kg. y que el rango es de 40 a 120 Kg. (Estos valores son supuestos). Una manera mas precisa de dar idea de la dispersión de valores de una población es a través de la Varianza o su raíz cuadrada, que es la Desviación Standard. Vamos a calcular la varianza y la desviación standard de un número pequeño de datos (Una muestra) para ilustrar el cálculo. Supongamos que se midió la altura de 10 personas adultas y de sexo femenino, y se obtuvieron los valores siguientes: 7 165 cm. 163 cm. 171 cm. 156 cm. 162 cm. 159 cm. 162 cm. 168 cm. 159 cm. 167 cm. El promedio de estas observaciones es X 163,2 cm. Si a cada una de las observaciones le restamos el promedio, obtenemos los Residuos: X i Xi X 165 163 171 156 162 159 162 168 159 167 1,8 -0,2 7,8 -7,2 -1,2 -4,2 -1,2 4,8 -4,2 3,8 Los residuos también nos dan una idea de la dispersión de las observaciones individuales alrededor del promedio. Si el valor absoluto (El valor numérico sin el signo) de los residuos es grande, es porque los valores están muy dispersos. Si el valor absoluto de los residuos es pequeño, significa que las observaciones individuales están muy cerca del promedio, y por lo tanto, hay poca dispersión. Pero nosotros necesitamos un sólo número que nos provea información acerca de la dispersión de los valores. Si sumamos los residuos, como algunos son positivos y otros negativos, se cancelarían entre si, con lo cual perdemos la información acerca de la dispersión. Entonces, los elevamos al cuadrado: X i Xi X X i X 2 165 1,8 3,24 163-0,2 0,04 171 7,8 60,84 156-7,2 51,84 162-1,2 1,44 159-4,2 17,64 162-1,2 1,44 168 4,8 23,04 159-4,2 17,64 167 3,8 14,44 8 Si ahora sumamos los residuos elevados al cuadrado, tenemos un número donde se condensa toda la información de la dispersión de la población: Suma de Cuadrados X X i 2 191,60 cm2 Este número, la suma de cuadrados, es dependiente del número de datos N, y por lo tanto no nos sirve para comparar poblaciones con distinto número de observaciones. Si dividimos la suma de cuadrados por N, tenemos un número que es independiente del número de observaciones, que se denomina Varianza: Suma de Cuadrados Varianza N X X 2 i N En nuestro caso: Varianza 191,60 19,16 cm 2 10 Las fórmulas anteriores son las que se aplican al cálculo de la varianza y desviación standard de una población de datos. Mas adelante veremos que las fórmulas a aplicar en el caso de una muestra son ligeramente diferentes. La varianza es un número que nos permite comparar poblaciones. Cuando la dispersión de las observaciones es grande (Datos que se alejan mucho por encima y por debajo del promedio), el valor de los residuos (distancia entre cada dato y el promedio) será grande. Entonces aumenta la suma de cuadrados de los residuos y por lo tanto la varianza. También se utiliza la raíz cuadrada de la varianza: Desviacion Standard Varianza X X 2 i N Por lo tanto: Desviacion Standard 19,16 cm 2 4,38 cm La desviación standard o desviación típica tiene las mismas unidades que la variable con la que estamos trabajando, en nuestro caso el centímetro. Tanto la varianza como la desviación standard nos permiten comparar el grado de dispersión de distintas poblaciones. Media y Varianza de una Muestra: Hasta ahora hemos visto como se calcula la media o promedio de una población y también como se calcula la varianza y la desviación standard de una población o universo 9 de observaciones. Cuando tenemos una muestra (Subconjunto de algunos datos extraídos de una población), también podemos calcular su media, su varianza y su desviación standard. Es muy importante distinguir entre la media, varianza y desviación standard poblacional, de la media, varianza y desviación standard muestral. La media, varianza y desviación standard de una población o universo se denominan parámetros de la población y en general se designan con letras griegas: para la Media, para la Varianza y para la Desviación Standard poblacionales. En el caso de una muestra, la media, varianza y desviación standard se denominan estadísticos y se utilizan letras de nuestro alfabeto: X para la Media, s2 para la Varianza y s para la Desviación Standard muestrales. El cálculo de la varianza y la desviación standard de una muestra de n observaciones se realiza con una fórmula levemente diferente que la ya vista para la varianza y desviación standard de una población: X X Varianza 2 i n 1 Desviacion Standard Varianza X X 2 i n 1 En lugar de dividir por n, el número total de observaciones en la muestra, dividimos por n - 1. Este valor, n - 1, son los Grados de Libertad de la muestra. En general, cuando tenemos una muestra de n observaciones, se dice que la misma tiene n - 1 grados de libertad. La media, varianza y desviación standard de una muestra, en general, no van a coincidir con los mismos parámetros de la población de la cual se extrajo la muestra (Aunque usemos la misma fórmula para calcular la varianza muestral y poblacional). Si extraemos n muestras de una población, vamos a obtener n promedios muestrales distintos del promedio de la población y n varianzas muestrales distintas de la varianza de la población. Esto se debe a que una población o universo tienen un número muy grande de datos, mientras que una muestra son sólo algunos pocos datos extraídos de ese universo. Cuando sacamos una segunda, tercera, ... etc. muestras, los datos extraídos no tienen por que ser los mismos que en la primer muestra. Por lo tanto, el promedio y la varianza de las muestras van a ser distintos entre sí, y distintos de la media y la varianza de la población de la cual se extrajeron las muestras. Muestreo Aleatorio: En general, no es posible disponer de todas las observaciones de un universo o población, ya sea porque es un universo hipotético o porque el relevamiento de todos los datos resulta una tarea excesiva para nuestras posibilidades. Normalmente se dispone de una muestra de datos extraídos de un universo, y lo que se pretende es estimar (Conocer de manera aproximada) los parámetros del universo por medio de cálculos realizados sobre la muestra. En este sentido decimos que la media muestral es una estimación de la 10 media del universo, y que la varianza y desviación standard muestrales son estimaciones de la varianza y desviación standard poblacionales respectivamente. Veamos algunos ejemplos. Supongamos que un partido político necesita averiguar la cantidad de personas que están dispuestas a votar por su candidato. Entonces, encarga a una empresa la realización de una encuesta el día previo a las elecciones. El encargado de la encuesta podría pensar en consultar la intención de voto de toda la población de votantes (Mas de 18 millones en la Argentina). Esto, obviamente, es una tarea excesiva que por distintas razones no se puede realizar. Entonces, el camino que resta es tomar una muestra representativa de esa población de personas y consultar la intención de voto en esa muestra. Los resultados que se obtengan son solamente una estimación del resultado que se hubiera obtenido si la consulta se hubiera efectuado sobre toda la población de votantes. Ahora bien ¿Cómo se obtiene una muestra representativa? Para tratar de entenderlo, vamos a trabajar con una población de muy pocos datos. Supongamos que nuestra población son 10 bolillas con los siguientes números: 11 2, 2, 9, 5, 2, 2, 9, 2, 2, 5 si ordenamos las bolillas de menor a mayor: 2, 2, 2, 2, 2, 2, 5, 5, 9, 9 inmediatamente comprobamos que nuestra población consta de 6 dos, 2 cincos y 2 nueves: DatoFrecuencia 26 52 92 El promedio de la población es 4. Supongamos que queremos obtener una muestra de 5 elementos de esa población. Hay varias maneras de hacerlo. Supongamos que puedo ver los números y elijo 2, 2, 2, 2 y 5 porque me gustan esos números. El promedio de estos 5 números extraídos de la población es 2,6 que difiere sustancialmente del promedio de la población. Es evidente que dicha muestra no es representativa de la población de la que fue extraída. No se mantiene la misma proporción de cada número que existe en la población. Una muestra de 5 elementos en la que hay la misma proporción de cada dígito debería tener 3 dos, 1 cinco y 1 nueve, y su promedio es 4, el mismo de la población. En una población de muchos datos, no es posible obtener una muestra eligiendo cada elemento para que figure en la misma proporción que en la población, porque para ello deberíamos disponer de todos los datos de la misma, y en ese caso no sería necesario sacar una muestra. Si a cada elemento de la población se le da la misma oportunidad de ser elegido, entonces se supone que cada número estará en la muestra en un número proporcional a la cantidad de veces que está en la población. Por ejemplo, el 2 va a estar en la muestra mas veces que el 5, porque en la población hay 6 dos y sólo 2 cincos. Si metemos las diez bolillas en una bolsa y las mezclamos suficientemente, la probabilidad que tiene una bolilla de ser extraída es la misma para cualquiera de las bolillas. En esas condiciones, si sacamos cinco bolillas sucesivas, mezclándolas previamente en cada oportunidad, es razonable pensar que vamos a extraer el 2 en mas oportunidades que el 5 ó el 9. Esta forma de obtener la muestra es lo que se conoce como Muestreo Aleatorio. El muestreo aleatorio no garantiza que la muestra va a ser exactamente representativa de la población, pero al eliminar toda influencia externa en el acto de extraer un elemento de la población, la proporción de cada elemento en la muestra estará influída sólo por la cantidad de veces que está presente en la población de la cual se extrae la muestra. Entonces, realizando el muestreo en forma aleatoria (al azar), la probabilidad de obtener una muestra representativa de la población es mayor que si en la elección de los elementos de la muestra interviene la voluntad del que efectúa la operación o algún otro factor de influencia. 12 Funciones Estadísticas del EXCEL: El EXCEL dispone de un conjunto muy completo de funciones que permiten realizar cálculos estadísticos. Estas funciones pueden utilizarse a través de 2 caminos. El primero consiste en ingresar la función en la barra de fórmulas, junto con los parámetros apropiados para el caso. El segundo camino es utilizar el asistente para funciones, el cual presenta una ventana para guiar al usuario en el ingreso de los parámetros necesarios. Vamos a ejemplificar ambos métodos con la función PROMEDIO. Supongamos que tenemos 5 números en el rango de celdas A1:A5 cuyo promedio deseamos obtener: En primer término, nos situamos en la celda en la cual queremos colocar el promedio, en este caso, la celda A7. A continuación, tipeamos en la Barra de Fórmulas el signo igual, el nombre de la función, y entre paréntesis los parámetros necesarios, en este caso el rango A1:A5. Luego, con el mouse hacemos clic en el Cuadro de Introducción o presionamos ENTRAR. El promedio de los valores numéricos que se encuentran en el rango A1:A5 aparecerá en la celda A7: 13 Si queremos utilizar el asistente para funciones, hacemos clic en el botón correspondiente al mismo y aparecerá una ventana para elegir la función que deseamos: Con el mouse hacemos clic en Estadísticas y luego doble clic en PROMEDIO. En el paso siguiente aparecerá una ventana para ingresar los parámetros de la función: 14 Ingresamos el rango donde están los valores, A1:A5 y hacemos clic en el botón Aceptar, con lo cual aparece el promedio calculado en la celda A7. Vamos a ver ahora como hacer para calcular una distribución de frecuencias a partir de un conjunto de observaciones. El Excel posee una función, que se llama FRECUENCIA, la cual genera una tabla con la distribución de frecuencias. Se trata de un función matricial, por lo que su forma de trabajar es diferente de las funciones comunes del Excel. Para ilustrar su uso, vamos a recurrir nuevamente a un ejemplo. Supongamos que tenemos un conjunto de datos en el rango A2:C11: 15 16 En una columna adicional construímos una serie de intervalos que cubran aproximadamente desde el valor mínimo hasta el valor máximo de nuestra población de datos. En nuestro caso, construímos intervalos de 5 unidades, desde 65 hasta 90 y los colocamos en el rango E2:E8. Luego seleccionamos con el Mouse un rango de celdas en la columna de la derecha, junto a los intervalos, pero con una celda más (F2:F9). A continuación, tipeamos en la barra de fórmulas el signo igual, el nombre de la función FRECUENCIA y dentro de paréntesis el rango donde están los datos de la población (A2:C11) y el rango de los intervalos (E2:E8), separados por punto y coma. Una vez hecho esto, se mantienen oprimidas simultáneamente las teclas SHIFT y CTRL, y luego se oprime ENTER. En el rango de celdas seleccionadas aparecerá la distribución de frecuencias de la población. En la barra de fórmulas, la función aparece encerrada entre 2 llaves, debido a que se trata de una función matricial. Si se desea borrar la distribución de frecuencias, se deben seleccionar todas las celdas (F2:F9) y oprimir la tecla DELETE. 17 La función Frecuencia cuenta el número de observaciones menores o iguales que 65, mayores que 65 y menores o iguales que 70, etc. La celda adicional es para registrar el número de observaciones mayores que 95, que en este caso es 0. Las funciones VAR y VARP permiten calcular la varianza de una muestra y la varianza de una población respectivamente (Recordar la diferencia entre ambas fórmulas). Las funciones DESVEST y DESVESTP calculan la desviación standard de una muestra y la desviación standard de una población. La función DESVIA2 sirve para calcular una suma de diferencias entre el promedio de un conjunto de observaciones y las observaciones individuales, elevadas al cuadrado. Esta suma de cuadrados dividida por el número de grados de libertad nos da la varianza. 3. Funciones de Distribución de Probabilidades. Hemos visto como se construye un gráfico de frecuencias con datos extraídos de una población. A medida que aumentamos la cantidad de observaciones que tomamos de la población, podemos construir nuestro gráfico con un número mayor de intervalos, aunque de menor amplitud (El rango total cubierto por la población es el mismo). Si continuamos este proceso, con intervalos cada vez mas estrechos y numerosos, los altibajos en el gráfico de la distribución de frecuencias tienden a desaparecer: 18 En el límite, el ancho del intervalo tiende a cero y la población puede representarse por una distribución de probabilidad continua. Cuando, para representar esta distribución de probabilidad continua se utiliza una función matemática, esta se denomina Función de Densidad de Probabilidad. La forma de la curva en el gráfico de la función de distribución es característica de la población de observaciones asociada con la misma, y depende de variables internas del proceso que generó los datos de la población. Existen distintas funciones de distribución teóricas, cada una de las cuales está basada en un modelo de comportamiento del proceso que generó el universo de observaciones. La aplicación de una de estas distribuciones teóricas a una población particular está justificada si las hipótesis (suposiciones) del modelo de comportamiento del proceso que generó la población se cumplen. Dicho de otro modo, si podemos afirmar que conocemos el proceso, es decir, el conjunto de fenómenos que dieron lugar a nuestra población de mediciones u observaciones, y además, estamos suficientemente seguros de que dicho proceso se ajusta a un modelo de comportamiento determinado, entonces estaremos justificados para decir que la distribución de probabilidades de nuestra población es la que corresponde al modelo. En la práctica, se sabe que ciertos procesos y fenómenos generan resultados numéricos cuya distribución de probabilidades se puede ajustar a determinados modelos teóricos. Por ejemplo, el número de partículas alfa emitidas por un material radiactivo sigue una distribución de Poisson. Existen muchas otras distribuciones teóricas, como la Binomial, la Exponencial, la de Weisbull, etc. Cada una de ellas tiene su propio campo de aplicación, que se sostiene en un determinado comportamiento de los fenómenos, y al aplicarla se está haciendo en forma implícita la suposición de que se cumplen las hipótesis del modelo subyacente. Una importante distribución teórica es la Distribución Normal o de Gauss. La ecuación matemática de la función de Gauss es la siguiente: 19 1 e 2 P x x 2 2 2 La distribución normal es una curva con forma de campana, con eje de simetría en el punto correspondiente al promedio del universo . La distancia entre el eje de simetría de la campana y el punto de inflexión de la curva es igual a , la desviación standard de la población: Gráfico de la Distribución Normal Densidad de Probabilidad 0,25 0,20 0,15 0,10 0,05 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Variable Aleatoria X El área total debajo de la curva es igual a 1. El área debajo de la curva comprendida entre - y + es aproximadamente igual a 0,68 del área total; entre -2 y +2 es aproximadamente igual a 0,95 del área total: 20 Gráfico de la Distribución Normal Densidad de Probabilidad 0,25 0,20 0,15 ±68 % área 0,10 0,05 ±295 % área 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Variable Aleatoria X Es importante ver que los únicos parámetros necesarios para dibujar el gráfico de la distribución normal son y (Media y desviación standard de la población). Con estos dos parámetros sabemos donde situar la campana de Gauss (En el punto correspondiente a la media) y cual es su ancho (Determinado por la desviación standard). Cuando nos encontramos con una población de observaciones, si podemos afirmar que la distribución correspondiente es normal, sólo hace falta estimar la media y la desviación standard para tener toda la información necesaria acerca de dicha población. Podemos escribir la fórmula de la distribución normal de la siguiente manera: P x 1 e 2 1 x 2 Si llamamos Z a la cantidad 2 x , la función queda así: 1 1 2Z 2 P z e 2 Esta es la fórmula de la Distribución Normal Standard o Tipificada. Como podemos observar, en ella hay un sólo parámetro, Z, que incluye al promedio y la desviación standard de la población. Esta función está tabulada, y para ingresar en la tabla es necesario calcular Z, para lo cual necesitamos la media y la desviación standard de la 21 población. Al calcular Z, lo que estamos haciendo, en realidad, es un cambio de variable por el cual movemos la campana de Gauss centrándola en el 0 del eje X, y modificamos el ancho para que la desviación standard sea 1 (Recordar que la desviación standard es la distancia entre el promedio y el punto de inflexión de la campana): Gráfico de la Distribución Normal 0,45 Densidad de Probabilidad 0,40 =0 = 1 0,35 0,30 0,25 0,20 = 15 = 2,5 Cambio de variable 0,15 0,10 0,05 X Z 0,00 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Variables Aleatorias X y Z De esta manera tenemos tabulada una función de Gauss que no depende de cual sea el promedio y la desviación standard de nuestra población real. El cambio de variable hace que se conserve la forma de la función y que sirva para cualquier población, siempre y cuando esa población tenga una distribución normal. Cuando queremos calcular las probabilidades para una población real, calculamos Z y entramos en la tabla de la función normal standard: Gráfico de la Distribución Normal Standard Densidad de Probabilidad 0,50 0,45 0,40 Probabilidad de que Z sea mayor o igual a 1,2 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 -4 -3 -2 -1 0 1 2 3 4 5 Variable Aleatoria Z Funciones Estadísticas del EXCEL: La función DISTR.NORM permite obtener la probabilidad de un valor igual o mayor que X de una variable aleatoria que se distribuye normalmente con media y desviación 22 standard (Área de la cola en el gráfico de la distribución normal). Se deben ingresar como parámetros el valor X, la media y la desviación standard Además requiere otro parámetro que debe tomar el valor VERDADERO, cuando se requiere la probabilidad o área de la cola de la distribución (Distribución acumulativa) o FALSO, cuando se desea la densidad de probabilidad en el punto X. En el ejemplo estamos calculando la densidad de probabilidad en el punto 20,7 de una variable aleatoria de distribución normal, con promedio 15 y desviación standard 2,5. La función DISTR.NORM.ESTAND permite calcular la probabilidad o área de la cola de una variable aleatoria Z. En este caso no se requiere el promedio y la desviación standard porque Z se distribuye normalmente con promedio 0 y desviación standard 1. Esta función es la que está tabulada generalmente en la mayoría de los textos de estadística. Otras funciones son DISTR.NORM.INV y DISTR.NORM.ESTAND.INV, que calculan las inversas de las respectivas funciones de distribución. La primera retorna el valor X de una variable aleatoria cualquiera para una probabilidad determinada. Necesita como parámetros la probabilidad para la cual se desea conocer el valor de X, el promedio y la desviación standard de la distribución. La segunda función devuelve el valor Z de una variable aleatoria de media 0 y desviación standard unitaria, para una probabilidad determinada. En este caso, sólo requiere como parámetro la probabilidad para la cual se desea calcular Z. También existe una función llamada NORMALIZACIÓN, que permite calcular el estadístico Z para una variable aleatoria que se distribuye normalmente. Esta función requiere como parámetros la media y la desviación estándar de la distribución. 23 4. Funciones de Distribución de Probabilidades. La Distribución T de Student. En la generalidad de los casos, no disponemos de la desviación standard de la población, sino de una estimación calculada a partir de una muestra extraída de la misma y por lo tanto no podemos calcular Z. En estos casos calculamos el estadístico T: T x S donde S es la desviación standard muestral, calculada con n-1 grados de libertad: S X X 2 i n 1 El estadístico T tiene una distribución que se denomina distribución T de Student, que está tabulada para 1, 2, 3, ... etc. grados de libertad de la muestra con la cual se calculó la desviación standard. La distribución T tiene en cuenta la incertidumbre en la estimación de la desviación standard de la población, porque en realidad la tabla de T contiene las distribuciones de probabilidades para distintos grados de libertad: Gráfico de la Distribución T 0,40 Densidad de Probabilidad 0,35 0,30 Distribución T para 5 Grados de Libertad 0,25 0,20 0,15 0,10 0,05 0,00 -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 Variable Aleatoria T 24 Para un número de grados de libertad pequeño, es mas ancha que la distribución normal tipificada. Cuando los grados de libertad tienden a infinito, la distribución T tiende a coincidir con la distribución normal standard. Es decir, en la medida que aumentemos el número de observaciones de la muestra, la desviación standard calculada estará mas próxima a la desviación standard de la población y entonces la distribución T correspondiente se acerca a la distribución normal standard. El uso de la distribución T presupone que la población con que estamos trabajando tiene una distribución normal. Distribución de Promedios Muestrales Para comprender que significa distribución de promedios muestrales, vamos a suponer que realizamos un experimento con bolilleros como los usados en la lotería. Colocamos un número muy grande de bolillas blancas en un bolillero blanco, en cada una de las cuales figura un dato X . Este bolillero representa la población de observaciones X , y tiene media y varianza 2 . Supongamos que a continuación hacemos los siguiente: 1) Tomamos una muestra de n 10 bolillas blancas 2) Calculamos la media X y la anotamos en una bolilla azul. 3) Colocamos la bolilla azul en un segundo bolillero de color azul. 4) Devolvemos las bolillas blancas a su bolillero y le damos vueltas. 5) Repetimos toda la operación muchas veces hasta que el bolillero azul esté lleno de bolillas. Entonces, los números del bolillero azul forman una población de promedios muestrales X . Esta es una población derivada de la anterior, y tiene la misma media o promedio que la distribución original, pero su varianza es un enésimo de la varianza de la distribución original: V(X) 2 n 25 En el caso del bolillero azul, si denominamos 2m tenemos: a la varianza y m a la media m 2m 2 10 La distribución de medias muestrales está situada en el mismo lugar (alrededor de la misma media) que la distribución original, pero es mucho mas angosta, porque su varianza es la décima parte de la varianza original. La distribución original de observaciones representada por el bolillero blanco se denomina comúnmente distribución madre o base. Es obvio que, dada una distribución cualquiera, podemos obtener una distribución de promedios de muestras de 2 observaciones, de 3 observaciones, ...etc. Al construir la población de promedios muestrales, realizábamosextracciones de 10 bolillas blancas después de dar vueltas al bolillero. Es decir, que estábamos realizando un muestreo aleatorio de la población madre, porque cada una de las bolillas blancas tenía la misma posibilidad de ser elegida para integrar la muestra. Aunque la población original no sea de distribución normal, si el muestreo es aleatorio, la población de promedios muestrales se aproximará a la normalidad, es decir, será casi de distribución normal. Este efecto se debe a un teorema de estadística matemática denominado Teorema Central del Límite. En resumen, si se cumple la hipótesis de muestreo aleatorio, tenemos: Distribución madre de X Distribución muestral de X 2 2 n n Media Varianza Desviación Standard Forma de la distribución cualquiera más cercana a la distribución normal que la distribución madre En general, en los problemas que se presentan habitualmente, existe una población de observaciones cualesquiera, de la cual tomamos una muestra aleatoria, es decir, un subconjunto de observaciones elegidas al azar, por medio de la cual intentamos conocer todo lo que sea posible acerca de la población de la cual fue extraída. El promedio de la muestra de n elementos pertenece a la distribución de promedios muestrales de la población original. Es decir, que el promedio de la muestra que obtuvimos es uno de los muchos promedios muestrales que se distribuyen alrededor de con desviación 26 standard n . Por lo tanto, si la muestra es mas grande (n mayor), estaremos en una distribución de promedios con desviación standard mas pequeña, por lo cual, el promedio de la muestra estará mas cerca del promedio del universo. Es por esto que es razonable pensar que el promedio de la muestra es una estimación del promedio del universo. Distribución muestral de la suma y de la resta: Muchas veces es importante conocer la distribución de la suma Y de dos variables aleatorias independientes yA e yB . Supongamos que: y A tiene una distribución con media A y varianza 2A y B tiene una distribución con media B y varianza 2B ¿Qué se puede decir de la media y la varianza de la distribución de Y y A y B ? De nuevo se puede ilustrar el problema considerando dos bolilleros, cada uno con su población apropiada de bolillas. Imaginemos que hacemos una extracción aleatoria del bolillero A, para obtener yA , y del bolillero B, para obtener yB , sumamos los valores, escribimos la suma Y y A y B en una bolilla roja y la introducimos en un tercer bolillero. Después de repetir esto muchas veces ¿Qué puede decirse de la distribución de las sumas que están en las bolillas rojas del tercer bolillero? Se puede demostrar que la media de la suma Y es: S A B y la varianza de la suma Y es: VAR(Y ) VAR( y A y B ) VAR( y A ) VAR( y B ) 2A 2B De la misma manera, para la resta o diferencia de dos variables Y y A y B , resulta que la media de la diferencia es: D A B y la varianza de la diferencia Y es: VAR(Y ) VAR( y A y B ) VAR( y A ) VAR( y B ) 2A 2B 27 Funciones Estadísticas del EXCEL: La función DISTR.T permite obtener la probabilidad de un valor igual o mayor que T, de una variable aleatoria que se distribuye normalmente con media , y de la cual se tiene una estimación s de la desviación standard calculada con n grados de libertad. Se deben ingresar como parámetros el valor T, el número n de grados de libertad y un parámetro adicional que indica si se desea el área de 1 cola de la distribución o el área de 2 colas. 28 La función DISTR.T.INV retorna la inversa de la distribución T, es decir, el valor de T correspondiente a una determinada probabilidad que se le pasa como parámetro. 5. Test de Hipótesis. El contraste de hipótesis o test de hipótesis es una herramienta muy importante y ampliamente utilizada para comparar mediciones y tomar decisiones basadas en una probabilidad. Vamos a explicarlo con un ejemplo. Supongamos que en una huerta se cultivan tomates en un terreno donde hay sembradas 300 plantas de tomates, utilizando un determinado tipo de fertilizante. El agricultor desea probar un nuevo fertilizante, basándose en la propaganda de una revista de horticultura. Con este fin, en la siguiente cosecha utiliza el nuevo fertilizante en una planta, en la que obtiene 12,5 Kg. de tomates. ¿Cómo saber si el rendimiento en esta planta fue mejor porque se utilizó un nuevo fertilizante? Indudablemente necesitamos comparar este valor con el rendimiento de otras plantas en las que se usó el fertilizante habitual. Los resultados de distintas plantas seguramente presentan una fluctuación al azar, es decir, no tenemos un único resultado con el fertilizante anterior sino muchos resultados que varían aleatoriamente, y es posible que algunos de esos resultados superen los 12,5 Kg. Se necesita, entonces, un criterio para decidir si el nuevo fertilizante produce una mejora en el rendimiento. Para resolver el problema, vamos a hacer algunas suposiciones. El conjunto de resultados de muchas plantas de tomate con el primer fertilizante constituye un universo conceptual de observaciones de distribución normal. Hablamos de universo conceptual o hipotético porque es el universo o población de resultados que tendríamos con un número enormemente grande de plantas, con el mismo fertilizante y en las mismas condiciones. El promedio y la desviación standard de una población hipotética, en general, no se conoce. Sin embargo, el promedio y la desviación standard calculados con el rendimiento de las 299 plantas restantes, utilizando el fertilizante habitual, constituyen una buena estimación de la media y desviación standard del universo. Vamos a suponer, entonces, que conocemos la media y desviación standard del universo y son los siguientes: 10,7 Kg. 0,8 Kg. El único resultado obtenido con el nuevo fertilizante es de 12,5 Kg., lo cual supera el promedio del universo de resultados obtenidos con el fertilizante anterior. Si bien el promedio es 10,7 Kg., en la población hay resultados mas altos, y tal vez algunos iguales o mayores que 12,5 Kg. ¿Podemos afirmar, entonces, que el nuevo fertilizante produce mejores resultados?. Para tomar la decisión, conviene razonar de la siguiente manera: Si en la población hipotética de resultados obtenidos con el primer fertilizante es común encontrar valores iguales o mayores que 12,5 Kg., entonces el resultado obtenido con el nuevo fertilizante no tiene nada de excepcional. Afirmamos, entonces, que el nuevo fertilizante es igual que el anterior (No hay diferencia), y que el resultado obtenido se debió solamente a la fluctuación al azar de los resultados que obtendríamos con cualquier fertilizante. 29 Por otro lado, si en la población hipotética de resultados obtenidos con el primer fertilizante es poco común encontrar un valor como 12,5 Kg., quiere decir que el resultado del nuevo fertilizante sí es excepcional (es significativo) y por lo tanto tenemos razones para afirmar que es mejor que el anterior. Este razonamiento se plantea bajo la forma de dos hipótesis de valor opuesto, una de las cuales es rechazada y la otra aceptada sobre la base de las probabilidades derivadas de la comparación con la distribución normal. Estas hipótesis son las siguientes: Hipótesis Nula: No hay diferencia entre los fertilizantes (Las diferencias son nulas). El valor obtenido con el nuevo fertilizante se debe sólo a la fluctuación aleatoria de los rendimientos de las plantas. Hipótesis Alternativa: El nuevo fertilizante es mejor que el anterior y por eso el rendimiento de la planta en la que se lo usó fue mas alto. Para decidir entre ambas hipótesis, se calcula el estadístico Z, y se obtiene de la distribución normal standard la probabilidad de un valor (del estadístico Z) mayor o igual al calculado. Si la probabilidad de un valor igual o mayor que el calculado es mayor que 0,05, se acepta la hipótesis nula a un nivel de significación de 0,05. En este caso, hay una probabilidad mayor que 0,05 (mayor que 5 %) de obtener por casualidad (fluctuación aleatoria) un valor de Z tan grande como el calculado. Si la probabilidad de un valor igual o mayor que el calculado es menor que 0,05, se rechaza la hipótesis nula a un nivel de significación de 0,05. Es decir, la probabilidad de obtener en forma aleatoria un valor tan grande de Z es menor que 0,05 (menor que 5 %). En este caso se dice que el resultado obtenido con el nuevo fertilizante es significativo. En nuestro ejemplo: Z x 12,5 Kg.10,7 Kg. 2,25 0,8 Kg. Entrando en la tabla de la distribución normal standard, obtenemos que la probabilidad de un Z igual o mayor que 2,25 es P = 0,0122 (1,22 %). Quiere decir entonces que es muy poco probable obtener un rendimiento de 12,5 Kg. de tomates con el fertilizante habitual. Rechazamos, entonces la Hipótesis Nula (Y aceptamos la Hipótesis Alternativa) a un nivel de significación de 0,05. Ahora bien, para estar totalmente seguro y antes de invertir dinero en comprar una cantidad importante del nuevo fertilizante, el agricultor decide hacer una nueva prueba, y en la cosecha siguiente utiliza el nuevo producto en 10 plantas de tomate, con lo cual la prueba es mas segura. Las hipótesis a contrastar son las mismas, pero el cálculo es algo diferente. Ahora tenemos 10 resultados, cuyo promedio vamos a suponer que sea 11,5 Kg. Estos 10 resultados constituyen una muestra del universo de rendimientos individuales de las plantas. Pero el promedio 11,5 Kg. es un elemento del universo de promedios muestrales (Promedios de 10 resultados) derivado del universo anterior, con el mismo promedio que este y con desviación standard: 30 10 10 como ya hemos visto. El estadístico Z es, entonces: Z x 10 11,5 Kg.10,7 Kg. 1,0 10 3,16 0,8 Kg 10 En la tabla de la distribución normal standard, la probabilidad de un Z igual o mayor que 3,16 es P = 0,0008 (0,08 %) aproximadamente. La probabilidad, entonces, de obtener un rendimiento promedio en 10 plantas de 11,5 Kg. de tomates con el fertilizante habitual es prácticamente nula. Rechazamos, entonces la Hipótesis Nula (Y aceptamos la Hipótesis Alternativa) a un nivel de significación de 0,0008. El nivel de confianza en las bondades del nuevo fertilizante, ahora, es mayor. Finalmente, vamos a ver un planteo mucho mas complicado, pero mas realista. Supongamos que el agricultor desea comparar 2 fertilizantes A y B, y para ello utiliza el A con un lote de 10 plantas de tomate, y el B con otras 10 plantas. Los rendimientos que obtiene son los siguientes: Rendimientos en Kg. Planta Fertilizante A 9,5 1 12,0 2 14,0 3 9,8 4 8,5 5 11,0 6 7,0 7 9,4 8 10,5 9 7,5 10 9,9 Media: Fertilizante B 10,7 14,5 12,0 12,6 10,5 11,9 11,4 14,0 12,7 13,0 12,3 31 En este caso no se dispone de un conjunto muy grande de plantas con las cuales se haya utilizado el fertilizante A, de tal manera que podamos estimar con precisión la media y desviación standard de la población hipotética de rendimientos. Sólo tenemos 10 plantas ensayadas con A y otras 10 ensayadas con B. El promedio de 10 resultados con el fertilizante B es mayor que con el A, siendo la diferencia de 2,4 Kg., lo cual parece indicar que el B es mejor. ¿Cómo podemos decidirlo en forma confiable? Para hacerlo, razonamos de la siguiente manera: Existen dos poblaciones hipotéticas de resultados, una correspondiente al fertilizante A y otra al fertilizante B, que tienen forma aproximadamente igual, la misma desviación standard pero posiblemente distintas medias A y B. La media será distinta si ambos fertilizantes son realmente diferentes. Si ambos son iguales en su acción sobre las plantas, las poblaciones tendrán la misma media. Los dos conjuntos de 10 resultados obtenidos con los fertilizantes A y B son muestras aleatorias extraídas de esas dos poblaciones. La varianza del universo de promedios muestrales de 10 elementos del universo A es la siguiente: V XA 2 nA Y para el universo B: V XB 2 nB Recordemos que los universos de resultados individuales con el fertilizante A y con el fertilizante B tienen la misma varianza . Podemos imaginar un universo derivado de los anteriores, formado por todas las diferencias de promedios muestrales de 10 elementos extraídos de los universos A y B. Para que se entienda esto último, vamos a explicarlo con mas detalle: Supongamos que extraemos una muestra de nA=10 resultados elegidos al azar del universo A y otra muestra de nB=10 resultados también elegidos al azar pero del universo B. Sacamos el promedio de cada muestra y hacemos la diferencia X B X A entre ambos promedios. Repetimos este proceso un número muy grande de veces. Esto da lugar a una población de diferencias de promedios de muestras extraídas aleatoriamente de los universos A y B, con media B-A. La varianza de este universo la podemos calcular así: V XB XA 2 nA 1 1 2 nB n A nB 2 Por lo tanto, la desviación standard de la población de diferencias de medias será: V XB XA 1 1 n A nB 32 La diferencia entre los promedios obtenidos con el fertilizante A y con el B de 2,4 Kg. es un elemento de este universo. La hipótesis nula es que ese valor no se debería a una diferencia real entre ambos fertilizantes, sino a las fluctuaciones aleatorias entre los elementos de esa población. La hipótesis alternativa es que sí hay diferencias reales entre ambos fertilizantes. Para decidir entre ambas, calculemos primero el estadístico Z de la diferencia de medias: Z X B X A B A 1 1 n A nB Ahora bien, como ya hemos hecho notar, en este caso no disponemos de un conjunto muy grande de datos que nos permita calcular la desviación standard . Sólo tenemos los resultados de muestras de los universos A y B, con los cuales podemos calcular las varianzas muestrales: s 2A X sB2 X A XA 2 nA 1 B XB 2 nB 1 Suponiendo que ambos universos tienen la misma varianza , podemos combinar las varianzas muestrales para obtener una estimación s2 de dicha varianza: s2 X A XA X 2 n A nB 2 B XB 2 n A 1 s 2A nB 1 sB2 n A nB 2 que tiene nA+nB--2 grados de libertad. Entonces, debemos calcular el estadístico T en lugar de Z: T X B X A B A s 1 1 n A nB 33 En el caso de la hipótesis nula, no hay diferencias reales entre los resultados de ambos fertilizantes, con lo cual: B A 0 y entonces: T X B s X A 0 1 1 n A nB X s B XA 1 1 n A nB Entrando en la tabla de la distribución T con nA+nB-2 grados de libertad podemos obtener la probabilidad de que la diferencia entre las medias muestrales se deba a la casualidad (Hipótesis Nula). Si esa probabilidad es muy pequeña, rechazamos la hipótesis nula y aceptamos que hay diferencias reales entre los fertilizantes. En nuestro caso, el cálculo de las varianzas muestrales da los siguientes resultados: s 2A 4,4 sB2 1,7 s2 10 1 4,4 10 1 1,7 3,04 s 1,74 10 10 2 Entonces, calculamos T: T 2,4 Kg. 1 1 1,74 10 10 = 3,08 En la tabla de la distribución T encontramos que para 18 grados de libertad, la probabilidad de un valor de T igual o mayor que 3,08 es de 0,003 (0,3 %). Por lo tanto, es muy poco probable que una diferencia entre los promedios de 2,4 Kg. se deba al azar de una fluctuación muy alejada del promedio. Mas bien debemos rechazar la hipótesis nula y pensar que la diferencia es significativa, es decir, que se debe a que el fertilizante B es realmente mejor que el A. 34 Funciones Estadísticas del EXCEL: La función PRUEBA.Z realiza el test de hipótesis del promedio de una muestra de observaciones cuando se conoce el promedio y desviación standard de la población. Vamos a verlo con el segundo test de hipótesis que realizamos: los datos de la muestra están en el rango A1:A10. El promedio de la población es 10,7 Kg. y la desviación típica 0,8 Kg. El resultado del test es la probabilidad de tener una promedio muestral de 11,5 Kg. o mayor, y resulta ser 0,00078 aproximadamente, como ya habíamos visto. En el campo denominado Matriz se debe ingresar el rango donde están ubicados los datos de la muestra. En el campo denominado x se debe ingresar el promedio de la población y en sigma la desviación standard de la misma. La función PRUEBA.T realiza un test de hipótesis entre los promedios de dos muestras extraídas de dos poblaciones con promedios posiblemente diferentes. Por ejemplo, en el caso de los rendimientos de 10 plantas tratadas con el fertilizante A y 10 plantas tratadas con el fertilizante B, colocamos las dos series de resultados en el rango A1:A10 y B1:B10 respectivamente. Luego seleccionamos otra celda y con la función PRUEBA.T calculamos el nivel de significación de la diferencia entre ambos promedios muestrales, que nos da 0,0031 aproximadamente, como ya vimos. 35 6. La Distribución Binomial Una persona arroja 1 dado apostando con otro a que saca un as. La probabilidad de sacar el as es igual a 1 0,1666... Es decir que la probabilidad que tiene de acertar es 17 6 % aproximadamente. Ahora, supongamos que la persona arroja 5 dados iguales a la vez. ¿Cuál es la probabilidad de que saque 0, 1, 2, 3... ases?. Cuando realizamos una experiencia individual donde el resultado debe ser sólo uno de dos posibles: acierto/fallo, cara/ceca, etc. decimos que es un ensayo de Bernouilli. Cada acto individual de arrojar un dado es independiente de los otros y la probabilidad de obtener un as es 1 . La 6 probabilidad de obtener 5 ases es: P(5 ases) 1 1 1 1 1 1 0,00013 6 6 6 6 6 7776 La probabilidad de no tener ningún as (0 ases) también podemos calcularla, porque al arrojar un sólo dado, la probabilidad de que no salga un as es P(0 as) 5 . Entonces: 6 5 5 5 5 5 3125 0,402 6 6 6 6 6 7776 36 Necesitamos calcular las probabilidades intermedias, es decir la probabilidad de obtener 1, 2, 3...ases. Es posible calcular todas estas probabilidades con una fórmula binomial. Para entenderla es necesario conocer la notación de números combinatorios: ( mn ) m! n ! m n ! donde m! 1 2 3....m n! 1 2 3....n m son el factorial de m y de n respectivamente. La expresión n representa el número de combinaciones de m elementos tomados de a n (agrupados de a n). Por ejemplo, si tenemos las 5 letras A, B, C, D y E, y queremos saber cuantas son todas las combinaciones posibles agrupándolas de a tres en cualquier orden: ABC, ADC, ...etc., hacemos el cálculo siguiente: ( ) (53 ) 5! 10 3! 5 3! Supongamos que se realizan n ensayos de Bernoulli, con probabilidad p de tener un acierto (Probabilidad q 1 p de tener un fallo). Entonces, la probabilidad de obtener y aciertos en n ensayos de Bernouilli es: ( ny ) p P( y ) y q n y n! p y q n y y ! n y! Esta probabilidad es un término del binomio siguiente: n ( p q y ) p n n y q n y y 0 donde p q 1, porque en un ensayo de Bernouilli ambos eventos acierto/fallo se excluyen mutuamente, es decir, ocurre un acierto o un fallo, pero nunca ambos simultáneamente. Los términos de la suma son las probabilidades P(y), que determinan la distribución de probabilidades de la variable aleatoria y, la cual es una variable discontinua (toma los valores 0, 1, 2, ...etc.): 37 Densidad de Probabilidad Gráfico de la Distribución Binomial 0,20 p = 0,4 n = 10 0,15 0,10 0,05 0,00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Variable aleatoria Volvamos, ahora a nuestro apostador. Supongamos que arroja 5 dados y apuesta a que va a sacar 3 o más ases. ¿Cuál es la probabilidad que tiene de ganar? Esta probabilidad es la suma de los términos del binomio para 3, 4 y 5 aciertos (ases), es decir: 5 1 P( y 3) ( y ) 6 5 y 3 y 5 6 5 y 0,035 Quiere decir que la probabilidad de ganar es aproximadamente del 3,5 %. Funciones Estadísticas del EXCEL: La función DISTR.BINOM permite calcular probabilidades binomiales o la distribución binomial acumulada. Necesita como parámetros el número de ensayos, la probabilidad de éxito en un ensayo individual y el número de éxitos para el cual se desea calcular la probabilidad. Además hay un parámetro adicional con 2 valores posibles: Verdadero o Falso. En el primer caso (Verdadero), la función calcula la probabilidad acumulada para el número de éxitos requeridos, y en el segundo caso (Falso) calcula la probabilidad de ese número de aciertos (Densidad de probabilidad). 38 En el ejemplo mostrado, para 10 ensayos de Bernoulli con una probabilidad de éxito de 0,2 en cada ensayo, colocando Falso en el campo acumulado la función nos dice que la probabilidad de tener 3 éxitos o aciertos es de 0,2013 aproximadamente. La función BINOM.CRIT es la función inversa de la anterior, es decir, dada una probabilidad retorna el número de éxitos que le corresponde. 7. Gráficos de Control. Los gráficos de control o cartas de control son una importante herramienta utilizada en control de calidad de procesos. Básicamente, una carta de control es un gráfico en el cual se representan los valores de algun tipo de medición realizada durante el funcionamiento de un proceso continuo, y que sirve para controlar dicho proceso. Vamos a tratar de entenderlo con un ejemplo: Supongamos que tenemos una máquina inyectora que produce piezas de plástico, por ejemplo de PVC. Una característica de calidad importante es el peso de la pieza de plástico, porque indica la cantidad de PVC que la máquina inyectó en la matriz. Si la cantidad de PVC es poca la pieza de plástico será deficiente; si la cantidad es excesiva, la producción se encarece, porque consume mas materia prima. Entonces, en el lugar de salida de la piezas, hay un operario que cada 30 minutos toma una, la pesa en una balanza y registra la observación. Supongamos que estos datos se registran en un gráfico de líneas en función del tiempo: 39 Gráfico de las observaciones Peso de las piezas (Gr.) 60 58 56 54 52 50 19 17 15 13 11 9 7 5 3 1 48 Nº de pieza Observamos una línea quebrada irregular, que nos muestra las fluctuaciones del peso de las piezas a lo largo del tiempo. Los valores se mueven alrededor de un valor central (El promedio de los datos), la mayor parte del tiempo cerca del mismo, pero puede ocurrir que algunos valores se alejen bastante del promedio. ¿Cómo podemos saber si esto se produce por casualidad o porque el proceso ya no está funcionando bien?. Esta es la respuesta que provee el control estadístico de procesos, y a continuación veremos como lo hace. Todo proceso de fabricación funciona bajo ciertas condiciones o variables que son establecidas por las personas que lo manejan para lograr una producción satisfactoria. Estas son variables controlables, por ejemplo, en el caso de la inyectora se fija la temperatura de fusión del plástico, la velocidad de trabajo, la presión del pistón, la materia prima que se utiliza (Proveedor del plástico), etc. Como ya hemos visto, al medir alguna propiedad o característica del producto fabricado, los valores fluctúan, varían a lo largo del tiempo. Se puede decir que existen dos tipos de causas que provocan esta variabilidad: Causas Aleatorias: Son una multitud de causas no identificadas, ya sea por falta de medios técnicos o porque no es económico hacerlo, cada una de las cuales ejerce un pequeño efecto en la variación total. Son inherentes al proceso mismo, y no pueden ser reducidas o eliminadas a menos que se modifique el proceso. Por ejemplo, pequeñas variaciones de calidad del plástico, ligeras variaciones de la corriente eléctrica que alimenta la máquina, etc. Causas Asignables: Son causas que pueden ser identificadas y que conviene descubrir y eliminar, por ejemplo, una falla de la máquina por desgaste de una pieza, un cambio muy notorio en la calidad del plástico, etc. Estas causas provocan que el proceso no funcione como se desea y por lo tanto es necesario eliminar la causa, y retornar el proceso a un funcionamiento correcto. El uso del control estadístico de procesos lleva implícitas algunas hipótesis, que describiremos a continuación: 40 1) Una vez que el proceso está en funcionamiento bajo condiciones establecidas, se supone que la variabilidad de los resultados en la medición de una característica de calidad del producto se debe sólo a un sistema de Causas Aleatorias, que es inherente a cada proceso en particular. 2) Cuando se mide alguna característica de calidad del producto que se obtiene, el sistema de causas aleatorias que actúa sobre el proceso genera una población hipotética de observaciones (mediciones) que tiene una distribución normal. 3) Cuando aparece alguna causa asignable provocando desviaciones adicionales en los resultados del proceso, se dice que el proceso está fuera de control. La función del control estadístico de procesos es comprobar en forma permanente si los resultados que van surgiendo de las mediciones están de acuerdo con las dos primeras hipótesis. Si aparecen uno o varios resultados que contradicen o se oponen a las mismas, se dice que el proceso está fuera de control. En este caso, es necesario detener el proceso, encontrar las causas por las cuales el proceso se apartó de su funcionamiento habitual y corregirlas. La puesta en marcha de un programa de control estadístico en un proceso implica una etapa inicial de ajuste del mismo, durante la cual se calculan los Límites de Control. En esta etapa se recogen unas 100-200 mediciones, con las cuales se calcula el promedio y la desviación standard: X X i N X X 2 i N Luego se calculan los límites de control de la siguiente manera: Lim. Superior X 309 . Lim. Inferior X 309 . Estos límites surgen de la hipótesis de que la distribución de las observaciones es normal. En general se utilizan límites de 2 sigmas ó de 3 sigmas alrededor del promedio. En la distribución normal, el intervalo de 3,09 sigmas alrededor del promedio corresponde a una probabilidad de 0,998. Entonces, se construye un gráfico de prueba y se traza una línea recta a lo largo del eje de ordenadas (Eje Y), a la altura del promedio (Valor central de las observaciones) y otras dos líneas rectas a la altura de los límites de control. En este gráfico se representan los puntos correspondientes a las observaciones con las que se calcularon los límites de control: 41 Gráfico de Control de Prueba Peso de las piezas (Gr.) 65 Límite Superior = 60,8 Gr. 60 Promedio = 55 Gr. 55 50 Límite Inferior = 49,2 Gr. 19 17 15 13 11 9 7 5 3 1 45 Nº de pieza Este gráfico de prueba se analiza detenidamente para verificar si está de acuerdo con la hipótesis de que la variabilidad del proceso se debe sólo a un sistema de causas aleatorias o si, por el contrario, existen causas asignables de variación. Esto se puede establecer porque cuando la fluctuación de las mediciones se debe a un sistema constante de causas aleatorias la distribución de las observaciones es normal. Es difícil decir como es el gráfico de un conjunto de puntos que siguen un patrón aleatorio, pero sí es fácil darse cuenta cuando no lo es. Si se tiene una serie creciente de 6 ó 7 observaciones, o una serie decreciente, es poco probable que se deba a causas aleatorias. Cuando hay puntos sucesivos por fuera de los límites de control es probable también que se deba a la presencia de causas asignables. Si no se descubren causas asignables entonces se adoptan los límites de control calculados como definitivos, y se construyen cartas de control con esos límites. Si sólo hay pocos puntos fuera de control ( 2 ó 3), estos se eliminan, se recalculan la media, desviación standard y límites de control con los restantes, y se construye un nuevo gráfico de prueba. Cuando las observaciones no siguen un patrón aleatorio, indicando la existencia de causas asignables, se hace necesario investigar para descubrirlas y eliminarlas, y una vez hecho esto, se deberán recoger nuevas observaciones y calcular nuevos límites de control de prueba. En la etapa siguiente, las nuevas observaciones que van surgiendo del proceso se representan en el gráfico, y se controlan verificando que estén dentro de los límites, y que no se produzcan patrones no aleatorios: 42 Gráfico de Control Peso de las piezas (Gr.) 65 Lím. Superior 60 Valor Central 55 Punto fuera de control 50 Lím. Inferior 39 37 35 33 31 29 27 25 23 21 45 Nº de pieza Como hemos visto, el 99,8 % de las observaciones deben estar dentro de los límites de 3,09 sigmas alrededor de la media. Esto significa que sólo 1 observación en 500 puede estar por causas aleatorias fuera de los límites de control. Entonces, cuando se encuentran 1 ó mas puntos fuera de los límites de control, esto indica que el sistema de causas aleatorias que provocaba la variabilidad habitual de las observaciones ha sido alterado por la aparición de una causa asignable que es necesario descubrir y eliminar. En ese caso, el supervisor del proceso debe detener la marcha del mismo e investigar con los que operan el proceso hasta saber la o las causas que desviaron al proceso de su comportamiento normal. Una vez eliminadas las causas del problema, se puede continuar con la producción. 8. Relación entre dos Variables. En muchas situaciones que se presentan a menudo en el campo de la ciencia, la ingeniería o las ciencias económicas nos encontramos con el problema de la relación entre dos variables numéricas. Por ejemplo, la relación entre la temperatura de un paciente y el número de pulsaciones por minuto o la relación entre el costo de un producto y el costo de la mano de obra para fabricarlo. Muchas veces existen ecuaciones matemáticas que nos permiten calcular una variable conociendo el valor de otra de la cual depende. En general, cuando se nos presentan dos variables numéricas X e Y, podemos encontrar distintos tipos de relación entre ellas. Puede ocurrir que entre ellas no exista ningún tipo de relación. En tal caso, la variación de una de ellas no genera una variación correlativa en la otra. Variación correlativa significa que cada vez que X aumenta, Y debe aumentar si hay correlación positiva o cada vez que X aumenta, Y debe disminuir en caso de correlación negativa. Pero si cada vez que X varía, Y puede aumentar o disminuir al azar en cualquier grado y proporción, entonces significa que no hay ninguna correlación entre ambas: 43 Variable Y Ninguna correlación 50 45 40 35 30 25 20 15 10 5 0 0 2 4 6 8 10 12 Variable X Cuando hay una relación funcional entre X e Y, es decir Y=F(X), la correlación entre ambas es perfecta. Supongamos que medimos el valor de Y para un determinado valor de X, y que dicho valor de X lo podemos fijar con exactitud (En general, esto no va a ser cierto). La ecuación de la función nos da un valor de Y para ese valor de X. El valor de Y medido y el valor de Y calculado con la ecuación, en general, no van a coincidir. Si repitiéramos la medición de Y muchas veces para el mismo valor de X, tendríamos una serie de valores que son diferentes del valor calculado. Pero si seguimos este proceso, obtendremos una población de valores de Y cuyo promedio sí va a coincidir con el valor calculado. Es decir, la relación funcional expresada por la ecuación matemática se cumple para los promedios de los X e Y medidos, porque la mediciones individuales están sujetas al error experimental o error de medición. Veámoslo con un ejemplo. Si dejamos caer una pelotita desde el borde de una mesa, la distancia que recorre desde el borde hasta tocar el suelo se puede calcular por medio de la ecuación siguiente: Y f (t ) 1 g t 2 g Aceleracion Gravitatoria 2 Hay una relación funcional no lineal entre la altura Y desde la cual cae la pelotita y el tiempo t que tarda en caer, expresada por la ecuación anterior. Si dejamos caer la pelotita midiendo con un cronómetro el tiempo que tarda en llegar al suelo y medimos también la distancia recorrida (la altura de la mesa), los valores resultantes de la medición seguramente no cumplen con esa relación. Esto lo podemos verificar reemplazando t en la ecuación por el tiempo obtenido con el cronómetro. El valor resultante Y seguramente no va a coincidir con nuestra medición de la altura de la mesa. Si repetimos esto muchas veces, las mediciones de tiempo y distancia realizadas en cada ocasión, en general, no van a cumplir la relación. Pero si promediamos todas la mediciones de tiempo y luego reemplazamos t en la ecuación por este promedio, la distancia calculada con la ecuación sí va a coincidir con el promedio de todas las mediciones de altura de la mesa. 44 Entre las dos posibilidades extremas, la de no tener ninguna relación entre las variables y la de tener una relación funcional, hay infinitas situaciones intermedias, en las cuales hay un cierto grado de correlación entre ambas: Variable Y Hay alguna correlación 50 45 40 35 30 25 20 15 10 5 0 0 2 4 6 8 10 12 Variable X En muchos problemas prácticos de la industria y de la economía se trata de conocer en forma empírica la relación entre dos variables, de tal manera que si se tiene un valor de la variable X se pueda obtener por cálculo o en forma gráfica el valor de la variable Y, sin importar si existe una verdadera relación funcional entre ambas variables. Por ejemplo, supongamos que tenemos una grupo muy grande de personas de sexo masculino, de edad entre 30 y 40 años. Se nos presenta el problema de relacionar las variables peso y estatura, de tal manera que, conociendo la estatura en metros de un individuo del grupo, podamos calcular su peso en Kg. Entre ambas variables no existe una relación funcional. Esto lo vemos fácilmente si tomamos algunos individuos cuya estatura sea la misma, por ejemplo, 1,75 mts. y medimos el peso de cada una. Resulta claro que las mediciones van a ser diferentes, una pesará 73 Kg., otra 79 Kg., etc. y estas diferencias no se deben al error de medición, sino a diferencias reales en el peso de las personas: Gráfico de peso vs. altura 130 Peso de personas de 1,75 mts. 120 Peso (Kg.) 110 100 90 80 70 60 50 40 1,60 1,70 1,80 1,90 2,00 2,10 Altura (m ts.) 45 Quiere decir que para un determinado valor de la variable estatura podemos encontrar múltiples valores de la variable peso, lo cual niega la existencia de relación funcional. No obstante, existe un importante grado de correlación entre ambas variables, porque sabemos que a medida que aumenta la estatura de las personas dentro del grupo, el peso tiende a aumentar. ¿Cómo podemos hacer, entonces, para estimar el peso de una persona conociendo su estatura? Para ello, vamos a suponer un procedimiento hipotético: Tomamos del grupo un número muy grande de personas que miden exactamente 1,65 mts., las pesamos y promediamos los resultados. Repetimos el procedimiento para grupos que miden 1,70 mts., 1,75 mts., etc. y luego representamos gráficamente los promedios de peso en función de dichas alturas: Regresión del peso sobre la altura 130 120 Peso (Kg.) 110 100 90 80 70 60 50 40 1,60 1,70 1,80 1,90 2,00 2,10 Altura (m ts.) La representación resultante se denomina Regresión del peso sobre la altura, y a la ecuación correspondiente Ecuación de Regresión. Una vez hecho esto, disponemos de una forma sencilla de estimar el peso de una persona del grupo conociendo la altura: con la misma entramos al gráfico y obtenemos el valor de Y correspondiente. Este valor Y es el promedio de los pesos de las personas del grupo que miden una altura X, y sólo nos sirve como una estimación (aproximación) del peso real de la persona cuyo peso deseamos conocer. También podemos utilizar la ecuación de regresión para calcular el peso. La forma de la representación gráfica puede ser una recta u otro tipo de curva. Cuando es una recta decimos que es una regresión lineal, y de ahora en mas nos referiremos a este tipo de regresiones. El procedimiento real para obtener la regresión utiliza un método que se conoce como Método de los Cuadrados Mínimos. Se toma una muestra aleatoria de personas del grupo que cubran todo el rango de alturas y a cada una se le mide el peso y la altura. 46 Si representamos estos puntos en un gráfico, veremos que se agrupan aproximadamente alrededor de una recta imaginaria, que representa los puntos de la regresión. Parece lógico pensar que la recta de la regresión debe pasar muy cerca de los puntos experimentales (las mediciones que realizamos). Si hacemos pasar esta recta imaginaria por el punto correspondiente a uno de los individuos la estamos alejando, probablemente, de los otros puntos. Es decir que, la recta de regresión debe pasar a una distancia óptima de los puntos experimentales, de tal manera que esté lo mas cerca posible de todos ellos. Esto es lo que se trata de hacer con el método de los cuadrados mínimos. Entonces, tenemos una serie de valores de la variable X, para cada uno de los cuales se mide la variable Y: X X1 X2 X3 X4 X5 X6 etc. Y Y1 Y2 Y3 Y4 Y5 Y6 La ecuación de la recta de regresión será de la forma: Y R a bX Si ingresáramos en esta ecuación los valores X1 , X2 , X3 , etc. obtendríamos los valores de Y de la regresión: Y1R , Y2R , Y3R , etc. Las diferencias entre estos valores calculados y los valores Y medidos se denominan residuos: Y Y Y Y Y R 1 Y1 R 2 2 R 3 3 ............... etc. Si elevamos las diferencias o residuos al cuadrado y sumamos estos cuadrados, obtenemos una cantidad denominada suma de cuadrados alrededor de la regresión: Y i R Yi a b X i Yi De todas las rectas posibles que pasan por los puntos representados en el gráfico, la recta de regresión debe ser la que haga mínima esa suma de cuadrados. Observemos que en dicha suma de cuadrados conocemos los valores Xi , Yi (Son la mediciones que realizamos) y deseamos conocer a y b, que son los coeficientes de la ecuación de regresión. Para obtenerlos se calcula el mínimo de la suma de cuadrados y de las ecuaciones resultantes se despejan las fórmulas de ambos coeficientes, que son como sigue: 47 b n X i Yi X i Yi n X 2 X 2 i a Y b X donde X X n i Y Y i n son los promedios de Xi e Yi respectivamente y n es el número de pares de observaciones Xi , Yi . Ahora bien ¿Cómo podemos conocer cual es el grado de vinculación entre ambas variables? Para ello, calculamos el Coeficiente de Correlación, que es un número real entre 0 y 1 que nos da el grado de correlación entre dos variables X e Y. Cuando este coeficiente es 0, la correlación entre ambas variables no existe; cuando es 1, hay una correlación perfecta, es decir, tenemos una relación funcional entre ambas. El coeficiente de correlación es el cociente entre la Covarianza y las desviaciones standard de X e Y: R Cov X , Y s X sY X X i i X Yi Y X Y Y 2 2 i Funciones Estadísticas del EXCEL: La función ESTIMACION.LINEAL permite calcular los coeficientes de la recta de regresión lineal de un conjunto de datos X, Y. Veamos el siguiente ejemplo: 48 Los datos X, Y están en el rango A2:B13 de la planilla. Seleccionamos el rango D2:E2 para colocar los coeficientes de la recta de regresión. Luego tipeamos el signo igual, el nombre de la función Estimacion.Lineal y dentro de los paréntesis los parámetros. Los dos primeros parámetros son los rangos B2:B13 y A2:A13 donde se encuentran los valores de Y y X respectivamente. El tercer parámetro debe tomar el valor Verdadero si se desea que calcule la ordenada al origen (Falso en caso contrario). Y el cuarto parámetro debe tomar el valor Verdadero si se desean estadísticas adicionales como el coeficiente de correlación, sumas de cuadrados, etc. (Falso en caso contrario). Una vez ingresados los parámetros, se debe mantener oprimidas simultáneamente las teclas SHIFT y CTRL, y luego oprimir ENTER para ingresar la función. En la celda D2 aparecerá la pendiente y en E2 la ordenada al origen de la recta de regresión. Otra función relacionada es TENDENCIA, la cual es una función matricial que calcula la regresión lineal para una serie de puntos X, Y, pero en lugar de devolver los coeficientes de la regresión retorna los valores de Y calculados para una serie de valores de X que se le pasan como parámetros. Las funciones INTERSECCIÓN y PENDIENTE retornan la ordenada al origen y la pendiente para una serie de puntos X, Y. La función PRONOSTICO retorna el valor Y correspondiente a un valor X que se le da como parámetro, junto con una serie de puntos X, Y. La función COEF.DE.CORREL retorna el coeficiente de correlación entre dos conjuntos de valores X, Y. La función PEARSON retorna el mismo valor que COEF.DE.CORREL. 49