UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD UNIDAD I: ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA: CONCEPTOS GENERALES Para comenzar es conveniente enunciar algunos conceptos importantes. Estadística: la palabra estadística procede del vocablo "estado" pues era función principal de los gobiernos establecer registros de población, nacimientos, defunciones, etc. Por esta razón, muchas personas entienden por estadística al conjunto de datos, tablas, gráficos, que se suelen publicar en los periódicos. En realidad, la estadística no es sólo eso, sino que comprende una serie de herramientas para la toma de decisiones, por lo que actualmente se la emplea en gran parte de los estudios científicos. La estadística se puede dividir en dos partes: • Estadística descriptiva, que trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones. Se construyen tablas y gráficos, se calculan medidas estadísticas que caracterizan la distribución de los datos, etc. • Estadística inferencial, que permite obtener conclusiones sobre una población a partir de los resultados obtenidos de una muestra. Se apoya fuertemente en el cálculo de probabilidades. Para comprender este último concepto, recordemos las siguientes definiciones: Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que se desean estudiar. Por ejemplo, si analizamos el precio de la vivienda en una ciudad, la población es el conjunto de todas las viviendas de esa ciudad. Puede ser finita o infinita. Población finita: cuando el número de elementos que la forman es finito, por ejemplo el número de alumnos de un centro de enseñanza, o grupo clase. Población infinita: cuando el número de elementos que la forman es infinito, o tan grande que pudiesen considerarse infinitos. Como por ejemplo si se realizase un estudio sobre los productos que hay en el mercado, hay tantos y de tantas calidades que esta población podría considerarse infinita. Un elemento cualquiera de la población se denomina objeto o unidad de observación (por ejemplo persona). El objeto de observación posee siempre propiedades o caracteres (por ejemplo, edad, peso, nivel de estudios, etc) que son relevantes para el objetivo del trabajo estadístico. Muestra: subconjunto que seleccionamos de la población. Así, si se estudia el precio de la vivienda de una ciudad, lo normal será no recoger información sobre todas las viviendas de la ciudad (sería una labor muy compleja), sino que se suele seleccionar un subgrupo (muestra). La muestra debe tener las siguientes propiedades: 1 UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD o o o Homogeneidad: Toda la muestra debe provenir de la misma población. Independencia: Las observaciones no deben ser condicionadas.(por ejemplo en las encuestas individuales pueden condicionarse las respuestas) Representatividad: Debe ser fiel reflejo de la población (por ejemplo por TE o por correo no es representativa) A los datos que conforman una muestra se los puede clasificar en: Cualitativos, referidos a Atributos o a Variables Categóricas No son numéricos, expresan una cualidad. Por ejemplo: Sexo, Nivel máximo de Estudio, Nivel socioeconómico, Religión. Pueden ser: Ordinales: Aquellos que sugieren una ordenación, por ejemplo la graduación militar, el nivel máximo de estudios, etc. Nominales: Aquellos que no admiten una ordenación natural, por ejemplo el color de pelo, sexo, estado civil, etc. Cuantitativos, referidos a Variables Numéricas Son numéricos. Por ejemplo: Edad, Tiempo, Peso, Cantidades. Pueden ser: Discretos. Son valores enteros, es decir, aquellos que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo número de hermanos, páginas de un libro, etc. Continuos: no son valores enteros, es decir, aquellos que por su naturaleza admiten que entre dos valores cualesquiera sea posible medir cualquier valor intermedio, por ejemplo peso, tiempo. etc. Población conceptual: Esta asociada a una variable numérica particular y es el conjunto de todos los valores que puede tomar la variable de referencia del dato considerado. Ejercicio 1 Una empresa de teléfonos decide realizar una encuesta telefónica entre los abonados de una ciudad (únicamente casas de flía.), para indagar sobre diversos aspectos del servicio. A continuación se listan los datos solicitados a los encuestados, indique en cada caso qué tipo de dato es: ♦ Cantidad de aparatos telefónicos en la casa. ♦ Modelo del aparato telefónico.(da varias opciones) ♦ Facturación del último mes. ♦ Ocupación del sostén económico de la familia. ♦ Número de integrantes del grupo familiar. ♦ Barrio en que esta ubicada la vivienda. 2 UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD ORGANIZACIÓN Y REPRESENTACIÓN DE DATOS En cualquier caso, tanto si se realizan observaciones totales (población) o parciales (muestra), la mecánica para hacer el tratamiento de los datos es la misma. Para presentar un conjunto de datos, se utilizan Tablas y Gráficos. Tablas de frecuencias Una de los primeros pasos que se realizan en cualquier estudio estadístico es la tabulación de resultados, es decir, recoger la información de la muestra o población resumida en una tabla en la que a cada valor de la variable en estudio se le asocian determinados valores que representan el número de veces que ha aparecido, su proporción con respecto a otros valores de la variable, etc. Los datos estadísticos correspondientes a una variable se ordenan en una tabla, que se denomina tabla de distribución de frecuencias o tabla de frecuencias. Se denomina n al número de unidades de observación que componen a la población o a la muestra considerada, es decir al total de observaciones realizadas, pues se hace una observación por cada unidad. La primera columna de la tabla esta formada por cada uno de los distintos valores que toma la variable. Ordenados de menor a mayor y consignados sin repetir. La segunda columna por la cantidad de veces que se registro cada uno de los datos obtenidos. Recibe el nombre de frecuencia absoluta de dicho valor y se simboliza fi. En la tercera se considera la frecuencia acumulada, que indica la frecuencia absoluta que se acumula hasta esa fila de la tabla. Se obtiene sumando, desde el valor mínimo hasta el considerado, las frecuencias absolutas. Se simboliza Fi. En la cuarta columna se asientan las frecuencias relativas, cada una de ellas indica la fracción del total de la población o muestra que corresponde a cada dato. Se simboliza fri y se calcula f mediante la fórmula: fri = i con n número total de observaciones. n La quinta y última columna contiene la frecuencia relativa acumulada que se obtiene sumando los valores de fr desde el mínimo hasta la fila correspondiente. Se simboliza Fri Datos cuantitativos Discretos Conforme a lo expresado anteriormente realice el siguiente ejercicio: Ejercicio 2 Un encargado de personal contó el número de inasistencias que tuvo cada operario del sector de producción de su empresa, durante el año próximo pasado y ordenó los resultados en forma creciente: 0, 0, 0, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 5, 6, 6, 6, 7, 9, 10, 10, 10, 10 3 UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD Identifique primero los siguientes elementos: Unidad de observación: Definición de la Variable: Tipo de variable Número de elementos de la población: Represente los datos en la siguiente Tabla de distribución de frecuencias: Valor de la fi Fi fri variable xi Totales ∑f = n = Fri ∑ fi = 1 i Los valores de xi se consignan ordenados de menor a mayor. Datos Cuantitativos Continuos La forma de organización de este tipo de datos depende del tamaño de la muestra. Si la muestra es grande se trabaja con datos agrupados y posteriormente se realiza un tratamiento similar al de datos cuantitativos discretos. Si la muestra es chica se trabaja con la serie simple de una manera particular. A continuación se ejemplifican ambos tratamientos. Tratamiento para datos agrupados Se busca clasificar a la muestra en una cierta cantidad de intervalos, llamados intervalos de clase y calcular luego la cantidad de datos que caen en cada uno de ellos. Los intervalos pueden tener igual o diferente longitud, pero en la práctica se trabaja con intervalos de longitud constante. Realice el siguiente ejercicio: Ejercicio 3 Se dispone de una serie ordenada con los datos de la duración de 40 lámparas pertenecientes a una marca particular. Se desea construir la tabla de distribución de frecuencias correspondiente. 684 697 720 773 821 831 835 848 852 852 859 860 868 870 876 893 899 905 909 911 922 924 926 926 4 938 939 943 946 954 971 972 977 984 1005 1014 1016 1041 1052 1080 1093 UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD En este caso se trabaja con una muestra. Identifique primero los siguientes elementos: Unidad de observación: Definición de la Variable: Tipo de variable: Número de elementos de la muestra: n = Como el número de datos es grande se agrupan los mismos. Para hacerlo primero se determina lo que se llama: Rango o recorrido de la variable: que es la diferencia entre el valor mayor y el valor menor de dicha variable. En este caso: Rango = R = 1093 – 684 = 409 Luego se subdivide el rango de la serie de datos en intervalos iguales, cada uno de los cuales se denomina intervalos de clases. El número de intervalos de clase (k) depende de la cantidad de datos. En este caso se toma k = 5 es decir cinco intervalos de clases. La longitud de cada intervalo de clase se obtiene mediante la siguiente fórmula: Longitud = L = R/k Entonces en este caso L = 409/5 = 81.80. Como el valor L obtenido es un número difícil de trabajar, adoptamos el valor L = 100 que es próximo y cómodo y adaptamos convenientemente los extremos de los intervalos. Para determinar la frecuencia de un intervalo de clase se cuenta el número de veces que la variable toma valores comprendidos en ese intervalo de clase. Complete la siguiente tabla de distribución de frecuencias: Intervalo Punto medio xmi 700 [650;750[ 800 [750;850[ 900 [850;950[ [950;1050[ 1000 [1050,1150[ 1100 Totales fi Fi ∑ f =n= fri Fri ∑ fi = 1 i Observemos que el primer extremo de cada intervalo pertenece al mismo y que el segundo extremo no pertenece. Se incluye una columna que contiene el punto medio de cada intervalo. La primera tarea a realizar para este tratamiento, que se ahorra en este ejercicio, es ordenar los mismos con repetición si esta ocurre. 5 UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD La cantidad de intervalos a construir depende de la cantidad de datos. En la práctica en general se construyen entre 5 y 15 intervalos. Entre 30 y 50 datos, conviene usar 7 u 8 intervalos. La cantidad va aumentando muy lentamente a medida que el tamaño de la muestra crece. Por ejemplo, para una muestra de 500 datos pueden utilizarse 10 intervalos o más. También suele utilizarse como regla usar k ≤ n , con k número de intervalos y n número de datos. Tratamiento para serie simple Si partimos de la serie simple x1 x2 ......xn , la forma de construir la tabla es ordenando los datos de menor a mayor, consignando repeticiones como si se trataran de datos distintos (por ser variable continua) si algún dato se presenta más de una vez, y asignando luego a cada dato la frecuencia relativa acumulada de la siguiente manera: Fri = i donde i es la ubicación del dato luego del ordenamiento y n la cantidad de datos. n+1 Notar que la frecuencia relativa acumulada calculada de esta manera no alcanza nunca el valor cero, ni el valor uno. Esto resulta apropiado en el caso de las variables aleatorias continuas. Los siguientes datos corresponden al punto de ebullición, en grados Celsius, de un compuesto de silicio. 166 - 141 - 136 - 153 - 170 - 162 - 155 - 146 183 - 157 - 148 - 132 - 160 - 175 - 150 Como la variable en estudio es continua, y son pocos los valores de la muestra, la Tabla de Distribución de Frecuencias es: xi 132 136 141 146 148 150 153 155 157 160 162 166 170 175 183 i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Fri 0.0625 0.125 0.1825 0.25 0.3125 0.375 0.4375 0.5 0.5625 0.625 0.6875 0.75 0.8125 0.875 0.9375 Gráficos Estadísticos Gran parte de la utilidad que tiene la Estadística Descriptiva es la de proporcionar un medio para informar basado en los datos recopilados. La eficacia con que se pueda realizar tal proceso de información dependerá de la presentación de los datos, siendo la forma gráfica uno de los más 6 UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD rápidos y eficientes, aunque también uno de los que más pueden ser manipulados o ser mal interpretados si no se tienen algunas precauciones básicas al realizar las gráficas. Existen también varios tipos de gráficas, o representaciones gráficas, utilizándose cada uno de ellos de acuerdo al tipo de información que se está usando y los objetivos que se persiguen al presentar la información. Entonces, mencionaremos algunas consideraciones que conviene tomar en cuenta al momento de realizar cualquier gráfica a fin de que la información sea transmitida de la manera más eficaz posible y sin distorsiones: 1. El eje que represente a las frecuencias de las observaciones (comúnmente el vertical o de las ordenadas) debe comenzar en cero, de otra manera podría dar impresiones erróneas al comparar la altura, longitud o posición de las columnas, barras o líneas que representan las frecuencias. 2. La longitud de los espacios que representan a cada dato o intervalo (clase) en la gráfica deben ser iguales. 3. El tipo de gráfico debe coincidir por sus características con el tipo de información o el objetivo que se persigue al representarla, de otra manera la representación gráfica se convierte en un instrumento ineficaz, que produce más confusión que otra cosa, innecesario o productor de malas interpretaciones. Hay un punto que conviene remarcar: existen software que permiten la construcción rápida y eficiente de gráficas a partir de bases de datos o hojas de cálculos, pero no importa cuán bonita, bien delineada, bien coloreada o bien presentada esté una gráfica, si no se ha tomado en cuenta el objetivo de estas herramientas y el de la Estadística, es decir, la transmisión eficiente de la información. Se dispone de una gran variedad de gráficos estadísticos, para representar distintas situaciones, entre ellos los siguientes: Diagrama de barras Los gráficos de barras facilitan la visualización de la distribución de frecuencias de los datos. Por sus características se utiliza para representar distribuciones de frecuencias de atributos y de variables cuantitativas discretas. Un diagrama de barras se construye en un sistema de coordenadas cartesianas donde, en el eje horizontal (eje x) se representa la variable y en el eje vertical (eje y) se representa la frecuencia correspondiente a cada valor que toma dicha variable. Consta de una serie de barras separadas entre sí, pues representan números enteros. La altura de estas barras representa la frecuencia, puede construirse para señalar frecuencias absolutas o relativas. Ejercicio 4 Se realiza una encuesta a un grupo de estudiantes secundarios para obtener información sobre la orientación de sus preferencias hacia el estudio. Los datos obtenidos se resumen en la siguiente tabla: 7 UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD “orientacion” Humanidades (1) Bienes y servicios (2) Gestión y economía (3) Otros (4) Totales fi 15 3 20 3 fri 0.3659 0.0732 0.4878 0.0732 ∑ fi =n=41 ∑ fi = 1 fpi 36.59% 7.32% 48.78% 7.32% ∑ fpi =100 Indique el tipo de dato y realice el diagrama de barras correspondiente. Gráfico circular o de sectores Otra forma de visualizar el comportamiento de una distribución de variable es por medio del gráfico circular o de sectores. Se utiliza para representar cualquier tipo de variable. Cada zona del círculo corresponde a una categoría diferente. Muestra la frecuencia en porcentajes de cada categoría representadas por las áreas de los sectores circulares. Para construir un gráfico de sectores hay que determinar el ángulo central correspondiente a cada sector circular. La siguiente fórmula muestra la manera de hacerlo: Ángulo central = fri . 360º donde fri es la frecuencia relativa Ejercicio 5 El siguiente gráfico de sectores surge de una encuesta de opinión realizada a 200 personas, que presenciaron un espectáculo artístico, sobre el grado de satisfacción obtenido en el mismo: no contesta 2% no satisfechos 16% muy satisfechos 44% 43% medianamente satisfechos 38% Conteste las siguientes preguntas que indican un posible análisis de este tipo de gráfico: a) ¿Cuántas personas se declararon muy satisfechas? b) ¿Cuántas personas expresaron estar medianamente satisfechas? c) ¿Qué porcentaje corresponde a las personas que obtuvieron algún grado de satisfacción? 8 UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD Histograma Es similar al gráfico de barras solo que esta formado por barras que se adosan unas a otras, se utiliza para variables cuantitativas continuas con datos agrupados en intervalos. El siguiente es el histograma correspondiente a la variable “duración de una lámpara” con los datos registrados anteriormente. frecuencia relativa 0,6 0,5 0,4 0,3 0,2 0,1 0 700 800 900 1 1000 1100 "duración de una lámpara"(hs) Observemos que en este histograma se ha considerado la frecuencia relativa, aunque puede también construirse un histograma de frecuencia absoluta se recomienda trabajar con frecuencias relativas. En el eje horizontal se colocaron los puntos medios de cada intervalo de clase. Frecuencias Relativas Acumuladas u Ojiva. Este gráfico es adecuado para representar serie simples correspondientes a variables continuas. Como en este caso las frecuencias absolutas, en general, son igual a 1, ya que los datos provienen de una variable aleatoria continua, trabajamos sólo con las frecuencias relativas acumuladas calculadas como lo hicimos anteriormente. Para el ejemplo del "Punto de ebullición en grados Celcius de un compuesto de silicio" tenemos 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 130 140 150 160 9 170 180 190 UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD MEDICIÓN DE DATOS Las características que describen un conjunto de datos reciben el nombre de propiedades de los datos, estas se resumen en medidas numéricas que contribuyen al análisis del conjunto de datos. Para cualquier conjunto de datos interesa conocer las denominadas medidas analíticas que son las siguientes: las de tendencia central o posición, las de variabilidad o dispersión y las de forma. Si los datos se obtuvieron de la población, estas medidas reciben el nombre de parámetros; si surgen de una muestra, las medidas se denominan estadísticos o estadígrafos. Medidas de tendencia central Las medidas tendencia central son valores que se calculan para una determinada distribución de datos y que se utilizan para describir los mismos. Lo que se pretende es que estas medidas sean representativas de todos los valores que toma la variable, pues permiten conocer cómo se concentran estos valores. Se consideran tres medidas de tendencia central: la media, la mediana y la moda. La media aritmética o promedio es la suma de los valores del conjunto de datos dividida por el total de observaciones. Se simboliza x . Para calcular la media a partir del total de las observaciones se utiliza la siguiente fórmula: x = 1 n ∑ xi n i=1 Teniendo en cuenta que n es el número total de observaciones, xi los valores que toma la variable en cada una de las observaciones (atención: se consignan repeticiones o frecuencias absolutas). La mediana es una medida de posición que aparece en el centro de una sucesión ordenada de valores de la variable. Es decir es el valor de la variable tal que la mitad de las observaciones son menores o iguales que ella. Se simboliza Me. Si los datos se trabajan como serie simple, se calcula de la siguiente manera: • • Si el número de datos es par, se toma el punto medio de los valores centrales, luego de haberlos ordenado. Si el número de datos es impar, se toma el valor del centro. Si los datos se trabajan agrupados en una tabla de distribución de Frecuencias, se busca el intervalo que contiene la mediana, este es aquel cuya frecuencia relativa acumulada es la primera en ser ≥ 0.5. En este caso se toma, como aproximación, el punto medio del intervalo que contiene la mediana o se utiliza una fórmula de interpolación. El modo o moda, es el valor de la variable que se presenta más frecuentemente. Se simboliza Mo.. Puede haber más de uno. Cuando los datos están agrupados en clases se puede tomar la 10 UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD marca de clase o utilizar una fórmula de interpolación para calcularlo. (No se usa para variable continua en serie simple, pues los valores reales no se repiten). Ejercicio 6 En una prueba con valor de 40 puntos, se obtuvieron los siguientes resultados: 39, 32, 25, 21,19, 19, 19, 18, 13, 11, 10, 8, 5, 4, 2. Calcule x , la mediana y la moda. Medidas de posición no centrales Cuartiles: dividen a la serie de datos ordenada en cuatro partes iguales. Es decir, los cuartiles son tres. El Primer cuartil ( q1 ) es el valor para el cual el 25% de los valores son menores o iguales. El Segundo Cuartil ( q2 ) coincide con la mediana, y el Tercer Cuartil ( q3 ) es el valor que deja por debajo el 75% de los datos. Si se trabaja con la serie simple, previamente ordenada, se utilizan las siguientes fórmulas para encontrar la ubicación de cada cuartil: n +1 para el primer cuartil. 4 n+1 q2 = 2 para el segundo cuartil (Observe que coincide con lo dicho para la mediana). 4 n+1 q3 = 3 para el tercer cuartil. 4 q1 = • • • • Si el resultado de cualquiera de las fórmulas anteriores es un número entero, simplemente se toma el valor de la serie que ocupa dicho lugar. Si el resultado no es un número entero y su primer cifra decimal es 5, entonces se toma el punto medio de los valores ubicados en la posición anterior y posterior. Por ejemplo, si el resultado es 4.5, el cuartil buscado será el punto medio de los valores que están en el cuarto y quinto lugar. Si el resultado no es un número entero y su primer cifra decimal es menor a cinco, entonces se toma el valor ubicado en la posición anterior. Por ejemplo, si el resultado es 4.3, tomamos el valor ubicado en cuarto lugar. Si el resultado no es un número entero y su primer cifra decimal es mayor a 5, entonces tomamos el valor posterior. Por ejemplo, si tenemos 4.8, el cuartil será el valor ubicado en la quinta posición de la serie ordenada. A partir del concepto de cuartiles, surge otro tipo de gráfico: Diagrama de Caja o Box Plot. Este diagrama permite resumir gran parte de la información contenida en los datos, mostrando la forma de la distribución (sesgos) y datos extraños, en caso de existir. Se construye una caja (horizontal o vertical) como en el siguiente ejemplo: Sean los siguientes datos ya ordenados: 2, 5, 6, 7, 11, 18, 28. Estos pueden posicionarse mediante la asociación X1, X2, X3, X4, X5, X6, X7. Entonces: n = 7 y: 11 UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD q1 = (7+1) =2 , la posición es 2 (entero) y el dato de posición 2 en la muestra es 4 x q1 = x 2 = 5. 2(7+1) = 4 , la posición es 4 y el dato que ocupa la posición 4 es x q = x 4 = 7. 2 4 3(7+1) = 6 , la posición es 6 y el dato que ocupa la posición 6 es x q = x 6 = 18. q3 = 3 4 q2 = El rango intercuartil (ancho de la caja) se calcula como sigue: (x q3 − x q1 ) = 18 – 5 = 13, q1 q2 0 5 q3 10 15 20 25 30 Las líneas que se extienden a partir de las aristas laterales del rectángulo se denominan bigotes. Las observaciones que están entre 1,5 y 3 veces el rango intercuartílico, a partir de la arista del rectángulo más cercana, se consideran valores atípicos. Es decir existen datos atípicos cuando el largo de uno o de los dos bigotes es mayor a 1,5 veces el rango intercuartílico. En el caso del ejemplo el rango intercuartílico es 13, el largo del bigote inferior es 5 – 2 = 3 y el largo del bigote superior es 28 – 18 = 10, como el largo de ninguno de los dos bigotes supera a 1,5.13 = 19,5, no existen datos atípicos. Aquí serian atípicos los datos ubicados a una distancia mayor a 19,5 a partir de x q1 y x q3 El diagrama de Caja para el ejemplo de Grados Celsius, construido con un software es el siguiente: 190 185 180 175 170 165 160 155 150 145 140 135 130 125 120 N= 15 Grados 12 UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD Otras medidas de posición no centrales son los Percentiles. Estos dividen a la serie de datos ordenada en 100 partes iguales, por lo que los percentiles son 99. Por ejemplo, el percentil 24 deja el 24% de los datos por debajo y el percentil 75 coincide con el tercer cuartil, ya que deja 75% de los datos por debajo y 25% por encima Medidas de dispersión Si bien el cálculo de las medidas de tendencia central para un conjunto de datos es importante para resumir la información, no debemos dejar de lado la relevancia que tiene saber el grado de dispersión o variabilidad que tiene ese conjunto de datos. Esa variabilidad generalmente se toma respecto de alguna de las medidas de tendencia central. Las medidas de dispersión en las que nos detendremos serán las siguientes: el rango o recorrido, la varianza, la desviación estándar y el coeficiente de variación. La más simple de las medidas de dispersión es el rango, que ya se utilizó para calcular los intervalos de clase. El rango o recorrido de una variable es la diferencia entre el valor máximo de la variable y el valor mínimo de la misma. Se suele representar con la letra R. Es claro que cuanto más grande es el rango, mayor es la variabilidad de los datos. Se utiliza la situación planteada en el ejercicio 7 para calcular las otras medidas de dispersión y para ilustrar la importancia de estas medidas en el estudio de una distribución. Ejercicio 7 Una empresa quiere comparar el funcionamiento de dos máquinas con las que fabrica resortes. Para evaluarlas debe determinar la precisión de cada una en la elaboración de las piezas. Se toman al azar 80 resortes elaborados por la máquina I y 80 elaborados por la máquina II. Se efectúan mediciones de las piezas fabricadas y se obtiene los siguientes datos, que reflejan los errores de ambas máquinas: Variable: Error (xi) (en décimas de mm) -3 -2 -1 0 1 2 3 4 Totales Máquina I fi Máquina I xi.fi 0 -3 . 0 = 0 12 -2 . 12 = -24 18 -1 .18 = -18 22 0 . 22 = 0 16 1 . 16 = 16 10 2 . 10 = 20 2 3.2=6 0 4.0=0 ∑ fi =n=80 ∑ xifi = 0 13 Máquina II fi Máquina II xi.fi 8 -3 . 8 = -24 12 -2 . 12 = -24 14 -1 . 14 = -14 16 0 . 16 = 0 12 1 . 12 = 12 8 2 . 8 = 16 6 3 .6 = 18 4 4 .4 = 16 ∑ fi =n=80 ∑ xifi = 0 UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD Observe que la media x de errores de ambas máquinas es cero lo que hace pensar que ambas funcionan muy bien. a) Construya los gráficos de las distribuciones. Observe en los gráficos que los errores que se cometen están dispersos de distinta manera. En la máquina I los valores se concentran más alrededor de la media y en la máquina II están más dispersos. Por supuesto que esto refleja un mejor funcionamiento de la máquina I. Es posible decir entonces que para el estudio de una distribución no es suficiente conocer las medidas de tendencia central es necesario además poder “medir” la dispersión de los valores con respecto a la media. Para obtener una medida de la dispersión se calcula la distancia al cuadrado entre cada valor de la variable y la media y luego su promedio. Se elevan las diferencias al cuadrado ya que es posible que estas distancias se contrarresten al calcular el promedio. Esta medida de la variabilidad se llama varianza. La varianza se define como la media aritmética de los cuadrados de las desviaciones de la variable con respecto a la media aritmética. La varianza se simboliza s2 y para calcularla se utiliza la siguiente fórmula: S2 = 1 n (x i − x)2 ∑ n i=1 b) Calcule la varianza de las distribuciones de las máquinas. c) Diga cuál es la distribución que presenta mayor medida de variabilidad y si esto coincide con lo observado en los gráficos de las distribuciones. La varianza presenta un inconveniente, en el ejercicio dado se refleja en el hecho de que su valor esta expresado en centésimas de mm2. Sería deseable una medida de dispersión que se expresara en la misma unidad que la media. Por este motivo se define otra medida de dispersión llamada desvío estándar. El desvío estándar es la raíz cuadrada positiva de la varianza. El desvío estándar se simboliza s y se calcula: s = s 2 con s2 igual a la varianza El desvío estándar es la medida de dispersión que se utiliza más habitualmente, pues esta expresada en la misma unidad que la media. d) Calcule el desvío en los errores de ambas máquinas. e) Obtenga una conclusión sobre el funcionamiento de las máquinas. Esta demostrado que para calcular la varianza muestral, es decir la varianza de datos de una muestra y no de toda la población que se desea estudiar, se obtiene una mejor estimación de la 14 UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD varianza poblacional si se utiliza, en la fórmula, como denominador (n – 1) en lugar de n. Por este motivo cuando trabajemos con muestras, utilizaremos la fórmula de varianza modificada: S2 = 1 n (x i − x)2 ∑ n − 1 i=1 con n tamaño de la muestra La última de las medidas de dispersión que consideraremos es el coeficiente de variación. El coeficiente de variación indica la relación entre la media y el desvío estándar. Se simboliza CV y se calcula: CV = s ( cociente entre s y x , es un número sin unidad ) x Se utiliza para analizar la homogeneidad de una muestra o de una población. Mientras menor sea el coeficiente de variación (muy próximo a cero menor a 0,3), habrá mayor homogeneidad en los datos, encontrándose éstos más concentrados en torno a la media aritmética. También se utiliza cuando se desea comparar la dispersión de dos o más distribuciones que tienen medias diferentes entre sí o bien que se expresan en distinta unidad de medida. En estos casos las desviaciones estándar resultan imposibles de comparar y se debe recurrir a esta medida de variación relativa. s Si se calcula CV = 100 % se obtiene el porcentaje de la media que representa al desvío. X Así, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su desviación típica s = 10,44 y la Tensión Arterial de los mismos (150, 170, 135, 180 y 195 mmHg) cuya media es de 166 mmHg y su desviación típica de 21,3. La pregunta sería: ¿qué distribución es más dispersa, el peso o la tensión arterial? Si comparamos las desviaciones típicas observamos que la de la tensión arterial es mucho mayor; sin embargo, no podemos comparar dos variables que tienen escalas de medidas diferentes, por lo que calculamos los coeficientes de variación: El Coeficiente de Variación del peso es: CV = 10.44 = 15 % 69.6 El Coeficiente de Variación de la Tensión Arterial es: CV = 21.30 = 12.8 % 166 A partir de éstos resultados observamos que la variable peso tiene mayor dispersión. Medidas de Forma Las medidas de forma proporcionan información sobre las características de la gráfica de la función de distribución de la variable. 15 UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD Estudiaremos el Coeficiente de Asimetría que proporciona información sobre el sesgo de la distribución. Se representa con Ca y se calcula como sigue: ⎛1 n 3⎞ ⎜ n ∑ (xi − x) ⎟ ⎠ Ca = ⎝ i=1 3 s El coeficiente Ca tiene signo e indica lo siguiente: Ca > 0 ⇒ la asimetría es positiva, la gráfica tiene sesgo a la derecha. Ca = 0 ⇒ la asimetría es cero por tanto la gráfica es simétrica no tiene sesgo. Ca < 0 ⇒ la asimetría es negativa, la gráfica tiene sesgo a la izquierda. En la práctica para calcular Ca se usa una fórmula de trabajo que es la siguiente: Ca = 3(x − Me ) s También en el ámbito de la práctica el rango de Ca es el siguiente: – 2,5 < Ca < 3 y si ocurre que – 0,5 < Ca < 0,5 se considera que la asimetría es cero. Ca > 0 Ca ≅ 0 Ca < 0 La última de las medidas de forma que veremos es el Coeficiente de Curtosis y se define como sigue: ⎛1 n 4⎞ ⎜ n ∑ (xi − x ) ⎟ ⎠ Ck = ⎝ i=1 4 s El coeficiente de Curtosis Ck mide aplanamiento de la gráfica, si es menor que 3 es aplanada, si es mayor que 3 es empuntada y si es aproximadamente 3 tiene el aplanamiento de la Distribución Normal. 16 UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD INTERPRETACIÓN DE LA INFORMACIÓN DESCRIPTIVA Cuando se realiza un estudio descriptivo, es importante analizar tablas, gráficos y medidas en forma conjunta, para ver si las características generales de la distribución de datos se “parece” a las características de algún modelo matemático. De ser así, uno puede proponer ese modelo para describir el comportamiento de la variable. Es decir a través de la observación y análisis de las tablas de distribución, los gráficos estadísticos y las medidas analíticas, obtenidos de una muestra, es posible reconocer en un paso posterior la función de distribución de probabilidad que mejor describa el comportamiento o variabilidad de la población conceptual subyacente (población conceptual de la cual se extrae la muestra). Una de las distribuciones que se presenta con más frecuencia y tiene un comportamiento deseable, para las variables implicadas en las aplicaciones de Ingeniería, es la Distribución Normal (Campana de Gauss). Generalmente suele utilizarse a esta distribución como referencia en el análisis de la información descriptiva procesada. Para el ejemplo de la variable "punto de ebullición en grados Celsius", si se calculan las medidas, se observa que: • a media y la mediana son parecidas y el coeficiente de asimetría es cercano a cero, por lo que podemos decir que la distribución es aproximadamente simétrica. Esto puede observarse también en el diagrama de caja, donde además, no se observan datos extraños. • El coeficiente de curtosis es cercano a 3, lo que indica que el "empuntamiento" es similar al de una distribución Normal, solo que un poco más bajo. • El gráfico de frecuencias acumuladas u Ojiva, es similar a una "S", lo que estaría indicando que acumula probabilidades de manera similar a una Normal. Otro ejemplo: En un estudio sobre vibraciones, ciertos componentes de un aeroplano fueron sometidos a severas vibraciones hasta que presentaron fisuras estructurales. Los siguientes datos corresponden a los tiempos de falla en minutos: 1.5 - 10.3 - 3.6 - 13.4 - 18.4 - 7.7 - 24.3 - 10.7 - 8.4 - 15.4 - 4.9- 2.8 - 7.9 - 11.9 - 12.0 - 16.2 - 6.8 14.7 Variable en estudio: " Tiempo de falla en minutos" En primer lugar se realiza la tabla de distribución de frecuencias, teniendo en cuenta que la variable es cuantitativa continua y que se trabaja con la serie simple ya que se tienen pocos datos. 17 UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD TIEMPO 1.5 2.8 3.6 4.9 6.8 7.7 7.9 8.4 10.3 10.7 11.9 12.0 13.4 14.7 15.4 16.2 18.4 24.3 i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 FREC. RELAT. ACUM. 0.053 0.105 0.158 0.211 0.263 0.316 0.368 0.421 0.474 0.526 0.579 0.632 0.684 0.737 0.789 0.842 0.895 0.947 El gráfico de la Ojiva obtenido a partir de la información de la tabla anterior es: 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 Las medidas descriptivas obtenidas con un software son: Media = 10.60 Mediana = 10.50 Desviación Estándar = 5.89 Varianza = 34.79 Asimetría = 0.5 Curtosis = 0.20 Rango = 22.8 Percentil 25 = 6.32 Percentil 75 = 14.87 El Diagrama de caja es: 18 20 25 UNIVERSIDAD BLAS PASCAL Carrera: INGENIERÍA EN TELECOMUNICACIONES Asignatura: INTRODUCCIÓN A LA PROBABILIDAD 24.3 10. 5 1.5 Tiempo Conclusión: como la media es mayor a la mediana y el coeficiente de asimetría es positivo, se puede decir que la distribución de datos es sesgada a derecha. Esto puede observarse en el diagrama de caja, donde la línea que representa la mediana está más cerca del primer cuartil que del tercero, indicando mayor concentración de datos para los valores menores. El coeficiente de curtosis es positivo (en el software resta 3 al coeficiente definido anteriormente), es decir el "empuntamiento" es mayor que la Normal. Además la Ojiva crece más rápido al principio y luego crece más lentamente. 19