Estadística General – Segundo Ciclo Carrera de Administración de Negocios Internacionales 2015 Elemento de capacidad 1 • Discrimina las variables estadísticas según su naturaleza y escala de medición. http://www.canstockphoto.es ¿Qué es la estadística? Es una ciencia que nos proporciona un conjunto de métodos y procedimientos para la recolección, clasificación, análisis e interpretación de datos numéricos y no numéricos, con respecto a una característica, materia de estudio o investigación. El punto central del análisis estadístico en los negocios es la administración de la toma de decisiones. ¿Quiénes usan la estadística? - Organismos Oficiales - Empresas -Organismos Deportivos - Centros de Investigación -Instituciones Educativas División de la estadística Estadística descriptiva Conjunto de métodos que implican la recolección, presentación y caracterización de un conjunto de datos, a fin de describir, en forma apropiada, las diversas características de estos. Estadística inferencial Conjunto de métodos o técnicas que implican la generalización o toma de decisiones en base a un información parcial obtenida mediante técnicas descriptivas. Términos estadísticos Población Es el conjunto de elementos, individuos, objetos o eventos sobre los que estamos interesados en obtener conclusiones (hacer inferencia), en base a una o más características observables. Normalmente es demasiado grande para poder abarcarlo. Ejemplo: Los alumnos de la carrera de Administración de Negocios Internacionales del I.F.B. Muestra Es un subconjunto de la población, al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones). - Debe ser representativo. - Está formado por miembros “seleccionados” de la población (individuos, unidades experimentales). Ejemplo: Los alumnos de CANI de la Sede Principal. Observación: La distinción entre una muestra y una población, de la que se extrae la muestra, es importante en el análisis estadístico. Que un conjunto de datos comprenda una muestra o una población, depende de cómo ha de ser usado. Ejemplo: Si deseamos analizar la edad promedio de los alumnos de CANI, entonces, las mediciones de las edades de todos los alumnos de CANI del I.F.B. representa una población. Si deseamos analizar la edad promedio de los alumnos del 2do. ciclo de CANI de la sede principal, la medición de los alumnos se convierte en una muestra. Variables estadísticas Variable es una característica que puede tomar diferentes valores o se puede categorizar. Cualquier elemento del cual se puede extraer algún tipo de información se conoce como unidad estadística observable. Variable cuantitativa discreta Aquella que en su medición sólo Variables cuantitativas admite números enteros. Aquellas variables que Variable cuantitativa continua admiten medición Aquella que en su medición admite parte decimal o fraccionaria. CLASIFICACIÓN DE LAS VARIABLES ESTADÍSTICAS Variable cualitativa nominal Surge cuando se definen categorías y no lleva ningún orden en las posibles modalidades. Variables cualitativas Aquellas variables cuyos valores consisten Variable cualitativa ordinal en categorías de Surge cuando el investigador clasificación clasifica los datos en función del grado que tiene una determinada característica. Variable cuantitativa discreta Variable cuantitativa continua Número de llamadas recibidas en Temperaturas registradas en un 10 minutos. observatorio cada hora. Número de empleados de una Precio del galón de gasolina. empresa exportadora. Variable cualitativa nominal Preferencia de comida. Variable cualitativa ordinal Puesto conseguido en una prueba de ascenso. Estado civil de los trabajadores de una financiera. Opinión sobre una propuesta de política de precios. APLICAMOS LO APRENDIDO 1.Clasifique las siguientes características en variables cualitativa (nominal, ordinal) o cuantitativa (continua, discreta): a.Tiempo de servicio de los colaboradores de una empresa logística. b.Lugar de nacimiento de las personas que viven en Lima. c.Orden de llegada de los corredores en una maratón. d.Número de aforos físicos realizados en un almacén de aduanas. e.Ingreso familiar mensual de las familias de Lima. 2.Determine la verdad o falsedad de cada una de las siguientes afirmaciones, si es falsa indique la afirmación correcta: a.El número de contenedores llegados en un día es una variable cualitativa discreta. b.Los colores de pintura producidos por la empresa “Vencedor” son una variable cualitativa nominal. c.Cuando una empresa de sondeo de opinión determina el porcentaje de aceptación de un candidato en una elección municipal, los datos que trabajó se obtuvieron de la población. d.En una encuesta realizada por Apoyo en Lima Metropolitana, se encontró que el 18% de las 546 personas encuestadas consideran posible la clasificación al próximo Mundial de Fútbol, entonces este porcentaje se extrajo del estudio de una muestra. Elemento de capacidad 2 Organiza datos provenientes de variables estadísticas y los representa mediante gráfica de barras, circulares y de bastones. http://www.canstockphoto.es REGISTRO Y OBSERVACIÓN DE DATOS Los registros y observaciones efectuados proporcionan una cantidad de datos que necesitan ser ordenados y registrados de tal forma que se puedan leer, analizar, comparar y obtener conclusiones. La estadística descriptiva proporciona un conjunto de técnicas cuya finalidad es reducir y representar los diferentes datos observados. La representación de datos se efectúa a través de su ordenación en tablas, proceso que recibe el nombre de tabulación. Distribución de frecuencias Una distribución de frecuencias es una representación en tablas de los datos estadísticos, en filas y columnas, clasificados según un criterio establecido. En estas tablas se observará la “frecuencia” o repetición de cada uno de los valores de la variable. TABLA DE FRECUENCIAS BODEGA “SANTA CLARA”: VENTA DE GASEOSAS Frecuencia acumulada Frecuencia acumulada porcentual hi% FA FA% 0.06 6 3 0.06 9 0.18 18 12 0.24 Coca-Cola 13 0.26 26 25 0.50 Kola Real 8 0.16 16 33 0.66 Pepsi 8 0.16 16 41 0.82 Fanta 4 0.08 8 45 0.90 Sprite 5 0.10 10 50 1.00 TOTAL 50 1.00 100 Frecuencia absoluta Frecuencia relativa fi hi Perú Cola 3 Inca Kola X Frecuencia porcentual Marca de gaseosa -Frecuencia Absoluta de un dato ( fi ): Es el número de veces que aparece repetido dicho valor en el conjunto de observaciones realizadas. -Frecuencia Absoluta Acumulada de un dato ( Fi ): Es la suma de los valores inferiores o iguales a dicho valor. -Frecuencia Relativa de un dato ( hi ): Es el cociente de la división de su frecuencia absoluta y el número de observaciones realizadas. -Frecuencia Relativa Acumulada de un dato ( Hi ): Es el cociente de la división de su frecuencia absoluta acumulada y el número de observaciones realizadas. -Porcentaje ( hi% ): Se obtiene multiplicando la frecuencia relativa por 100. Distribución de frecuencias de variable cualitativa Para datos cualitativos se siguen los pasos siguientes: (1º) Identificar diferentes categorías. (2º) Realizar un conteo. (3º) Elaborar la tabla que incluya titulo, cuerpo y fuente. Variable cualitativa ordinal CALIDAD DE ATENCIÓN AL CLIENTE MIRAMAR AGENTE DE ADUANAS Categoría Muy bueno Bueno Aceptable Malo Muy malo TOTAL Número de clientes fi 5 15 12 9 4 45 Frecuencia porcentual hi% 11 33 27 20 9 100 Fuente: Encuesta a los clientes. Febrero 2014 Gráficos Estadísticos Gráfica de barras CALIDAD DE ATENCIÓN AL CLIENTE MIRAMAR AGENTE DE ADUANAS Gráfica circular CALIDAD DE ATENCIÓN AL CLIENTE MIRAMAR AGENTE DE ADUANAS Variable cuantitativa discreta DEPORTES ALEGRÍA S.A. Tienda A B C D TOTAL Bicicletas Frecuencia vendidas porcentual fi hi% 40 70 30 60 200 20 35 15 30 100 Gráficos estadísticos de variables cuantitativas discretas a. Gráfica de barras Gráfica de barras verticales VENTA DE BICICLETAS 80 70 70 60 60 50 40 30 40 30 20 10 0 A B TIENDA C D DEPORTES ALEGRÍA S.A. VENTA DE BICLETAS POR TIENDA Gráfica de barras horizontales DEPORTES ALEGRÍA S.A. VENTA DE BICLETAS POR TIENDA Gráfica de barras proporcionales apiladas ELECRIC HOGAR S.A. VENTA DE TELEVISORES LED DE 40 PULGADAS POR TIENDA 2012: SEMESTRE I Y II (En porcentaje) b) Gráficos de líneas c) Gráfica de bastones EMPRESA DISTRIBUIDORA “JACINTO”: VENTA DE CELULARES 2013 APLICAMOS LO APRENDIDO 1.Al investigar el nivel socioeconómico en los valores Bajo(B), Medio(M), Alto(A), de 20 familias, escogidas al azar, se obtuvieron los siguientes datos: M, B, B, M, A, B, B, M, M, B, M, B, B, A, M, B, M, A, M, B Construye la tabla de distribución de frecuencias y traza su gráfica. 2.Las importaciones, en miles de dólares, de una tienda por departamentos, durante los seis últimos meses fueron: Importaciones Ene Feb Mar Abr May Jun Ropa 120 140 160 170 150 180 Perfumería 80 100 90 90 80 80 Muebles 200 260 280 290 350 390 a.Muestre en un gráfico la tendencia mensual de las ventas. ¿Qué concluye al observar el gráfico? b.Muestre en un gráfico el porcentaje de ventas de cada artículo en los 6 meses, e indique qué artículo contribuye con las mayores ventas. Elemento de capacidad 3 Organiza datos de variable cuantitativa continua y los describe en tablas y gráficos. http://www.canstockphoto.es INTERVALOS DE CLASE Si la variable en estudio toma un número grande de valores o la variable es cuantitativa continua, ¿cómo distribuimos los datos? Cuando tenemos una variable que presenta muchos valores distintos los agrupamos en intervalos. Intervalo: Conjunto infinito de números reales comprendidos entre dos números, llamados extremos. En estadística a estos intervalos se les llama intervalos de clase. La primera duda que suele surgir es: ¿cuántos intervalos debemos elegir? ¿qué amplitud (tamaño) deben tener? Distribución de frecuencias de variables cuantitativas continuas 1º Se ordenan los datos de menor a mayor. 2° Se calcula el rango (recorrido): r = dato mayor – dato menor 3º Se determina el número de intervalos, con: k = 1 + 3.33 * log (n) n = número de datos 4º Se determina el tamaño o amplitud de clase. r A K 5º Se elige el limite inferior de la primera clase (se tomará el menor valor de los datos dados). 6° El límite superior se obtendrá sumando al límite inferior el valor de la amplitud. 7º Para los demás intervalos se sumará, tanto al límite inferior como superior, el valor de la amplitud. 8º Se elabora la tabla: titulo, cuerpo y fuente. GRAFICOS ESTADÍSTICOS a) Histograma PUERTO DEL CALLAO: TIEMPO DE DESESTIBA DE OPERARIOS b. Polígono de frecuencias PUERTO DEL CALLAO: TIEMPO DE DESESTIBA DE OPERARIO c. Ojivas PUERTO DEL CALLAO: TIEMPO DE DESESTIBA DE OPERARIOS FRECUENCIA ACUMULADA APLICAMOS LO APRENDIDO 1. Los datos que a continuación se presentan corresponden a la cantidad de contenedores estibados diariamente por un operario del puerto el pasado mes.. a. Elabore la tabla de distribución de frecuencias. b. Construye el histograma y polígono de frecuencias. c. Construye la ojiva. 25 33 45 32 29 33 46 38 42 43 46 40 48 48 46 36 45 47 52 44 37 30 47 41 55 67 45 49 61 46 51 47 38 48 23 52 45 68 31 51 2. Ripgam S.A., fabricante y exportador de componentes electrónicos desea estudiar las horas de vida de cierto tipo de batería que fabrica en una de sus líneas de producción. A continuación se presenta las horas de vida registradas de una muestra aleatoria representativa de 50 baterías de una de sus líneas de producción. Reconstruye la tabla de distribución de frecuencias y construye el polígono de frecuencias. Horas de Vida [ 115 - > [ - > [ - > [ - > [ [ - > - Totales xi ] fi Fi hi 3 130 12 0.28 17 49 Hi Elemento de capacidad 4 • Interpreta resultados de las medidas de tendencia central de datos agrupados y no agrupados. http://canstockphoto.es MUNDO FELIZ S.A. En un resumen del estado de las cuentas por cobrar de la empresa importadora de juguetes “Mundo feliz S.A.” se presentó la siguiente información sobre el tiempo que tenían las facturas pendientes. Media: 40 días Mediana: 35 días Moda: 31 días La interpretación de dichos estadísticos indica que el tiempo promedio de una factura pendiente es 40 días. La mediana revela que la mitad de las facturas se quedan pendientes 35 días o más. La moda, 31 días, muestra que el tiempo que con más frecuencia permanece pendiente una factura es 31 días. De acuerdo con esta información estadística, la administración está satisfecha de que las cuentas por cobrar y el flujo de efectivo entrante estén bajo control. Medidas de tendencia central Describen la posición que ocupa la distribución de frecuencias en relación a un valor de la variable. Las más importantes son: • Media aritmética, • Mediana, • Moda. • Media aritmética.- es la suma de los valores dividido por el tamaño de la muestra. • Mediana.- es el valor que se ubica en el centro de una distribución, donde el 50% de los datos se encuentra por encima de dicho valor central y el 50% restante se ubica por debajo de dicho valor central. Los datos deben estar previamente ordenados. • Moda.- es el valor que aparece el mayor número de veces, es decir con la mayor frecuencia. Media aritmética La media aritmética ( x ).- se obtiene sumando los valores registrados y dividiéndolos entre el número de datos. Simbología: Muestra Población Tamaño n N Media aritmética x (equis barra) (mu) Cálculos: Para datos no agrupados: Para una muestra x Xi n Xi x i 1 n n : media muestral : suma de todos los datos : número de datos (muestra) Para una población N Xi i 1 N : media poblacional X i : suma de todos los datos N : número de datos (población) Para datos agrupados: Se utiliza la formula siguiente: n fi x i x i 1 n donde: : media muestral : frecuencia absoluta fi de la clase i : marca de la clase i x Xi Ventajas y desventajas de la media aritmética Ventajas: Concepto familiar para muchas personas. Es única para cada conjunto de datos. Es posible comparar medias de diferentes muestras. Desventajas Se ve afectada por los datos extremos Si la muestra es grande y los datos no están agrupados, su cálculo es tedioso Mediana (Md) Es el valor central que divide a una serie ordenada de datos, de menor a mayor, en dos grupos de igual cantidad de datos. Cálculos: Para datos no agrupados Cuando el número de observaciones (n) es un número impar O.Md = n+1 el valor resultante será la ubicación de la mediana 2 Si la serie es par, la mediana se obtiene de la semisuma de los dos valores centrales de la serie previamente ordenada. Para datos agrupados a. Hallamos el orden de la mediana: n 1 2 b. Ubicamos el intervalo de clase que contiene a la mediana (clase medial), buscando en la Fi, aquel intervalo que contenga dicho valor. n c. La mediana se hallará con 2 Fi1 Md L i la siguiente fórmula: x A fi donde: Md : mediana Li : limite inferior del intervalo de la mediana n : número total de datos. Fi- 1: frecuencia acumulada anterior a la clase medial fi : frecuencia absoluta de la clase medial A : amplitud de clase Ventajas y desventajas de la mediana Ventajas: Los valores extremos no afectan a la mediana como en el caso de la media aritmética. Es fácil de calcular, interpretar y entender. Desventajas: Como valor central, se debe ordenar primero la serie de datos. Para una serie amplia de datos no agrupados, el proceso de ordenamiento de los datos demanda tiempo y usualmente provoca equivocaciones. Moda (Mo) La moda es el valor que más se repite dentro de un conjunto de datos. Obtención: se obtiene organizando la serie de datos y seleccionando el o los datos que más se repiten. Ejemplo: 4, 5, 7, 8, 8 , 10, 12, 15 4, 7, 12,12 , 15, 16, 20, 20 , 24, 27 7, 12, 15, 18, 25, 30, 31, 38 Cálculos: Para datos no agrupados a. Hallamos el dato que más se repite, en la frecuencia absoluta fi buscando b. La moda será aquel valor “xi” que corresponda a dicha fi Para datos agrupados a. Identificamos la clase modal: intervalo de clase con mayor la frecuencia absoluta (fi) b. La moda se hallará con la siguiente fórmula: D1 Mo L xA i D D 1 2 donde: Mo: moda Li: límite inferior de la clase modal. D1: frecuencia absoluta. de la clase modal menos la frecuencia absoluta de la clase modal anterior. D2: frecuencia absoluta de la clase modal menos la frecuencia absoluta de la clase modal siguiente. A: amplitud de clase Ventajas y desventajas de la moda. Ventajas: Se puede utilizar tanto para datos cualitativos como cuantitativos. No se ve afectada por los valores externos Se puede calcular, a pesar de que existan una o más clases abiertas. Desventajas: No tiene un uso tan frecuente como la media. Muchas veces no existe moda (distribución amodal). En otros casos la distribución tiene varias modas, lo que dificulta su interpretación. APLICAMOS LO APRENDIDO 1.Una empresa de transporte logístico tiene como colaboradores a 5 mujeres y 10 hombres. A continuación se presenta la edad y el sueldo (US$) de cada uno: Edad 28 23 Mujeres 25 Sueldo 344 450 300 23 24 480 450 Hombres 20 25 24 30 22 30 30 27 28 30 600 400 500 380 410 350 380 400 400 350 a. Para las mujeres, calcule e interprete la media, la mediana y la moda de la variable edad. b. Para los hombres, calcule e interprete la media, la mediana y la moda para la variable sueldo. 2. En un estudio realizado en el Distrito de Miraflores a un grupo de familias se encontró que 10 familias no tienen auto, 12 familias tienen un auto, 40 tienen a lo más 2 autos, 46 tienen a lo más 3 autos y 4 tienen 4 autos. a. Determine el número promedio de autos por familia en el distrito de Miraflores. b. Determine el número más frecuente de autos por familia. c. Determine el número de autos que tienen como máximo el 50% de las familias. Elemento de capacidad 5 • Resuelve situaciones problemáticas relacionadas a los negocios aplicando las medidas de posición. http://canstockphoto.es SELECCIÓN DE PERSONAL La persona encargada de la selección de personal para una empresa exportadora de espárragos, desea contratar jóvenes recién egresados de administración de negocios internacionales del Instituto de Formación Bancaria Pero, para su selección tiene interés en algo más que la nota media de cada uno, necesita conocer la nota de los egresados que están por encima del 90% o del 80% de las notas del grupo de egresados. ¿Sabes tú a que se refiere esta persona? ¿Qué procesos tienes que realizar y que cálculo aplicar? Medidas de posición o cuantiles Los cuantiles son valores de la distribución que la dividen en partes iguales, es decir, en intervalos, que comprenden el mismo número de valores. Los más usados son los cuartiles, deciles, percentiles. Cuartiles • Son valores que dividen a una serie de datos, ordenados en forma creciente o decreciente en cuatro partes iguales. • Se denotan por Qi, donde i = 1, 2, 3 100% 0% 25% Q1 25% 50% 75% Q2 25% Q3 25% Primer Cuartil = Q1: Es el valor que deja el 25% de las observaciones menores o iguales a él y el 75% superiores a él. a) Para datos no agrupados: Sean x1 , x2 , x3 , . . . , xn un conjunto de observaciones de la variable x 1°) Ordenamos los datos de menor a mayor o viceversa 2°) Localizamos el punto de posición del valor correspondiente a la n 1 observación ordenada 4 i) Si n 1 es un número entero, entonces, 4 Q1 x n 1 = a la observación particular que 4 corresponde al punto de posición de n 1 4 ii) Si n 1 es un número racional , hacemos una 4 interpolación lineal entre los valores correspondientes las dos observaciones entre las cuales se encuentra la fracción. b) Para datos agrupados Hallamos el orden de encuentra Q1) Q1 n (posición 4 donde se Calculamos Q1: n 4 fanteriores a Q1 Q1 Li A f Q 1 Segundo Cuartil = Q2: Es el valor que deja el 50% de las observaciones menores a él y el 50% superiores a él. El segundo cuartil, coincide con la mediana. Tercer Cuartil = Q3: Es el valor que deja el 75% de las observaciones menores o iguales a él y el 25% superiores a él. a) Para datos no agrupados: Sean x1 , x2 , x3 , . . . , xn un conjunto de observaciones de la variable x. 1°) Ordenamos los datos de menor a mayor o viceversa 2°) Localizamos el punto de posición del valor correspondiente a la 3 observación ordenada. 4 n 1 i) Si 3 n 1 es un número entero, entonces, 4 Q3 x 3 4 ii) Si n 1 = a la observación particular que 3 corresponde al punto de posición de n 1 4 3 n 1 es un número racional , hacemos una 4 interpolación lineal entre los valores correspondientes las dos observaciones entre las cuales se encuentra la fracción. b) Para datos agrupados: Hallamos el orden de Q 3 3 n(posición donde se 4 encuentra Q 3 Calculamos Q 3 3 4n Q3 L i fanteriores fQ3 a Q3 A Deciles • Son valores que dividen a una serie de datos, ordenados en forma creciente o decreciente en diez partes iguales. • Se denotan por Di, donde i = 1, 2, 3, . . . , 9 100% 0% D1 10% D2 10% D3 10% D9 D10 10% Primer Decil = D1: Es el valor que deja el 10% de las observaciones menores o iguales a él y el 90% superiores a él. Segundo Decil = D2: Es el valor que deja el 20% de las observaciones menores o iguales a él y el 80% superiores a él. Noveno Decil = D9: Es el valor que deja el 90% de las observaciones menores o iguales a él y el 10% superiores a él. a) Para datos no agrupados: Sean x1 , x2 , x3 , . . . , xn un conjunto de observaciones de la variable x 1°) Ordenamos los datos de menor a mayor o viceversa 2°) Localizamos el punto de posición del valor correspondiente a la i. n 1 observación ordenada 10 i) Si i. n 1 es un número entero, entonces, 10 D1 x n 1 i. 10 = a la observación particular que corresponde al punto de posición de i. n 1 10 ii) Si i . n 1 es una fracción, hacemos una interpolación 10 lineal entre los valores correspondientes a las dos observaciones entre las cuales se encuentra la fracción b) Para datos agrupados: i n f anteriores a D i 10 Di L i A fD i Di = Decil buscado i = indica la posición del decil (i = 1,2,3,…,9) Orden del Di = i.n 10 posición donde se encuentra el decil buscado. Percentiles Son los valores que dividen en 100 partes iguales a un conjunto de datos a) Cálculo para datos sin agrupar: A. B. Se trabaja mejor con la frecuencia porcentual acumulada. En esta columna ubicamos el valor mayor o igual al percentil dado. El percentil será aquel valor de “xi” correspondiente al Pi encontrado. b) Cálculo para datos agrupados por intervalos: lugar A. Hallamos el lugar del percentil: B. Ubicamos el intervalo del percentil, buscando en la Fi, aquel que contenga dicho valor. C. El percentil se hallará con la siguiente fórmula: .n Fi 1 P L xA i f i donde: P : percentil Li : limite inferior del intervalo del percentil n : número total de datos. Fi-1 : frecuencia acumulada anterior a la clase del percentil fi : frecuencia absoluta de la clase del percentil A : amplitud de clase .n APLICAMOS LO APRENDIDO 1. Una empresa logística decide realizar un reajuste entre sus colaboradores. La clasificación se lleva a cabo mediante la aplicación de una evaluación que arroja las siguientes puntuaciones. Puntuaciones Colaboradores [ 0 – 20 [ [ 20 – 40 [ [ 40 – 60 [ [ 60 – 80 [ [ 80 – 100 ] Total 94 140 160 98 8 500 La planificación óptima de la empresa exige que el 65% sean administrativos; el 20% sean jefes de sección; el 10% jefes de departamentos y el 5% inspectores según sea la puntuación obtenida. Determine la puntuación máxima que deben obtener para ser administrativo, jefe de sección y jefe de departamento. 2. Las ganancias diarias de las tiendas del “centro aéreo comercial” se presentan en una tabla de frecuencias con 6 intervalos de la misma amplitud. La ganancia mínima es de US$ 6, el rango es 36, el 50% de las tiendas ganan más de US$ 25.58 diarias. Se sabe también que: f4 = 304; h3 = 0.25; F2 = 120; H2 = 0.15; H5 = 0.93; f2 = 2f1. Determine el valor de los percentiles 45 y 71. Elemento de capacidad 6 NOTAS 20 • Analiza el grado de variabilidad entre grupos de datos de situaciones problemáticas relacionadas a los negocios 10 0 1 2 3 GRUPO 4 ¿SON SUFICIENTES LAS MEDIDAS DE TENDENCIA CENTRAL PARA DESCRIBIR UN CONJUNTO DE DATOS? En nuestro esfuerzo por describir un conjunto de números hemos observado que es de utilidad ubicar el centro del conjunto de datos. Pero identificar una medida de tendencia central generalmente no es suficiente. Una descripción más completa del conjunto de datos puede obtenerse si se mide qué tan dispersos están los datos alrededor de dicho punto central. Esto es precisamente lo que hacen las medidas de dispersión. Indican cuánto se desvían las observaciones alrededor de su media. Fuente: Webster, Allen (2000). Estadística aplicada a los negocios y la economía. Tercera edición. Editorial Mc. Graw-Hill. Colombia. Medidas de dispersión •Las medidas de dispersión son valores que sirven para cuantificar la homogeneidad (uniformidad, variabilidad) de los datos. •Sirven para medir la proximidad que tienen los datos entre sí, además de ofrecer información adicional que permita juzgar la confiabilidad de la medida de tendencia central. • Para el cálculo de las medidas de dispersión se toma un punto de referencia que generalmente es la media. •Las medidas de dispersión en el nivel de la muestra son: a) Medidas de dispersión absoluta: - Varianza - Desviación estándar b) Medidas de dispersión relativa: - Coeficiente de variación. •Las medidas de dispersión en el nivel de la población son las mismas. Varianza Es la media aritmética del cuadrado de las desviaciones de las observaciones respecto a la media de una distribución estadística. Cuantifica la dispersión de los valores xi con respecto a la x • Para representar la varianza poblacional y la varianza muestral se utilizan los siguientes dos símbolos: 2 : donde es la letra griega (sigma ) al cuadrado que determinará la varianza de una población s2 : determina la varianza de la muestra analizada. Cálculos de la varianza a) Para datos no agrupados Dadas las observaciones: n S 2 donde: (x x ) i 1 xi i n 2 x1 ; x 2 ; x 3 ... x n x1 x x2 x . . . xn x 2 2 2 n x Es la desviación de una observación con respecto a la media b) Para datos agrupados de variable discreta ó equivalentemente, c. Para datos agrupados de variable continua ó equivalentemente, Desviación estándar • En la varianza, los resultados se expresan en unidades originales al cuadrado, por lo que se requiere de una medida de desviación que sea útil en unidades originales que no estén elevadas. • Esta medida es llamada desviación estándar y es la raíz cuadrada de la varianza Fórmula para datos no agrupados y agrupados S S 2 Coeficiente de variación • Es una medida relativa de variabilidad de los datos, permite comparar la variabilidad de dos o más conjuntos de datos expresados en unidades diferentes. • Este coeficiente está dado como el cociente resultante de dividir la desviación estándar entre la media: S C.V . x • El coeficiente de variación se puede expresar como un valor porcentual. APLICAMOS LO APRENDIDO 1.Una prueba de conocimientos para ingresar a laborar en la empresa ENFOCA -SAA fue calificada sobre 20 puntos, arrojando una media de 12 puntos y una desviación estándar de 2 puntos. Mientras que la prueba de aptitud aplicada por la misma empresa fue calificada sobre 100 puntos, dando una media de 70 y desviación estándar 5 puntos. a. ¿En cuál de las dos pruebas los puntajes son más homogéneos? b. Si la postulante Ariana obtuvo 14 en conocimientos y el postulante Paúl obtuvo 73 puntos en aptitud, ¿quién tiene mejor rendimiento? 2.Los datos siguientes muestran los calificativos de 20 trabajadores de la empresa M&T–SA, los cuales fueron sometidos a una prueba de conocimientos del negocio. Los 20 trabajadores fueron divididos en dos grupos, al grupo 1 se le calificó e escala de 0 a 100 puntos, mientras que al grupo 2, en escala de 0 a 20 puntos: Grupo 1: 79, 81, 86, 73, 95, 86, 88, 86, 90, 94 Grupo 2: 15, 17, 18, 16, 19, 20, 14, 16, 13, 19 a. Calcule la media y la desviación estándar en cada grupo, ¿cuál de los dos grupos es más homogéneo? b. ¿Se puede aceptar que el trabajador con 73 puntos del grupo 1 tiene mayor conocimiento del negocio que el trabajador con 13 puntos del grupo 2? Elemento de capacidad 7 • Analiza la correlación y regresión entre la variable dependiente y la variable independiente de una situación problemática relacionada a los negocios. http://www.portalfarma.com RELACIÓN ENTRE DOS UNIDADES ESTADÍSTICAS REGRESIÓN Y CORRELACIÓN Diagrama de dispersión Otra forma alternativa de observar si existe o no relación lineal entre dos variables sería hacer una gráfica de los valores XY en un sistema de coordenadas rectangulares. Este tipo de gráfica es conocida como diagrama de dispersión, gráfico de dispersión o nube de puntos. Covarianza La covarianza de n valores de una muestra mide la dispersión o concentración de los datos, se define como la media aritmética de los productos de las desviaciones conjuntas de los datos con respecto a sus correspondientes medias. Coeficiente o índice de correlación Animación: Evolución de r y diagrama de dispersión Cálculo del coeficiente de determinación Es la porción de la variación total en la variable dependiente “y “, que se explica por la variación de la variable “x “. Se calcula elevando el valor de la correlación lineal ( r ) al cuadrado. Recta de regresión de mínimos cuadrados Una vez encontrado el coeficiente de correlación, la regresión permite definir la recta que mejor se ajusta a la nube de puntos. • El modelo lineal de regresión se construye utilizando la técnica de estimación o ajuste por mínimos cuadrados: que determina los valores de los valores a y b de la recta que mejor se ajusta a los datos experimentales. y = a + bx • a (ordenada en el origen, constante) • b (pendiente de la recta) Cálculo de la ecuación de regresión lineal (de Y sobre X) Las fórmulas.... Pendiente Ordenada al origen Ecuación de regresión b n x . y x . y n a x x 2 2 y n b x n y a bx b = Es la pendiente de la recta, o el cambio promedio en Y por cada cambio en una unidad de la variable independiente X. a = Es la intersección con el eje Y. Es el valor estimado de Y cuando X = 0. APLICAMOS LO APRENDIDO 2.La compañía GALAXY SAA realizó un estudio estadístico para determinar un modelo de regresión lineal, con la finalidad de predecir el monto de las ventas mensuales del producto que distribuye en Perú, en función de la demanda. Para ello seleccionó una muestra de montos de ventas mensuales (en miles de dólares) y demandas mensuales (en cientos de unidades), de la cual se obtuvieron las siguientes estadísticas: Obtenga el modelo de regresión lineal Elemento de capacidad 8 • Resuelve situaciones problemáticas de contexto comercial que involucran el cálculo de probabilidad. LA PROBABILIDAD, MEDIDA DEL AZAR Y ALEATORIEDAD Los modelos que tratan de mostrar los comportamientos de cualquier sistema, responden a la necesidad de buscar los principios lógicos que más se aproximan a su justificación, que eliminan las incoherencias o las contradicciones y permiten acercarse mejor a la realidad, para conocerla. La matemática a través de los principios de lógica, orden y rigor trata de resolver problemas que surgen y generan contradicciones. Sin embargo, la transitividad y el orden, no necesariamente se mantienen en situaciones donde hay aleatoriedad en modelos de juegos no equitativos. Nociones de probabilidad La teoría de la probabilidad describe todos los posibles resultados de un fenómeno que es objeto de estudio, asignándoles posibilidades de ocurrencia. La probabilidad es una mediada numérica entre cero y uno, inclusive, que describe la posibilidad de que un evento ocurra. Experimento aleatorio (ε) Podemos definir el experimento aleatorio como todo proceso que consiste en la ejecución de un acto o prueba una o más veces, cuyo resultado en cada prueba depende del azar y en consecuencia no se puede predecir con certeza. Sin embargo, no se puede predecir con certeza el resultado final hasta que se realice, es decir, que depende de la suerte o azar. Espacio muestral (Ω) Conjunto de todos los resultados posibles de un experimento aleatorio. Continuo Espacio Muestral finitos Discreto infinitos Eventos Es un subconjunto del espacio muestral y generalmente se representa con una letra mayúscula, como “Evento A”. •En general, cuando se observan uno o más resultados en los experimentos, constituyen unevento. Probabilidad de un evento La probabilidad de cualquier evento A del espacio muestral es el número Ω real P(A) que satisface las siguientes condiciones: Propiedades básicas de probabilidades 1. 0 P( A) 1 2. Si Ω es el espacio muestral, P(Ω) = 1 3. Si A y B son eventos mutuamente excluyentes (no tienen resultados comunes, es decir, P A B 0 ) entonces: P A B P A P B 4. Si B es un evento vacío, P ( B ) 0 5. Si A es un evento de un espacio muestral, y AC es su complemento, entonces, P( A) 1 P ( AC ) La ley de la adición proporciona la manera de calcular la probabilidad de que ocurra el evento A o el evento B o ambos. Si A y B son eventos cualesquiera, entonces la ley de la adición se escribe: P A B P A PB P A B Cálculo de probabilidades Espacio muestral finito. Si A es cualquier evento del espacio muestral equiprobable Ω, donde Ω es un espacio muestral finito de n elementos, entonces, la probabilidad de que ocurra A está dada por: # (A) P (A) # (Ω) casos favorables de A casos posibles Cálculo de probabilidades Espacio muestral continuo. Si A es cualquier evento del espacio muestral continuo Ω, y m(A) representa la medida del evento A, entonces, la probabilidad que A ocurra viene dada por: m (A) P (A) m (Ω) Probabilidad condicional La probabilidad de que ocurra un evento a menudo es influida por el hecho de si otro evento relacionado ha ocurrido ya. La probabilidad condicional se de que un evento A ocurra “dado que” otro evento B ha ocurrido se denota por P(A/B), y se define por: P (A n B) P (A /B) , siendo P(B) 0 P (B) P (A n B) P (B /A) , siendo P(A) 0 P (A) # (A n B) P (A /B) , si # (B) 0 # (B) Eventos independientes Sean A y B dos eventos del mismo espacio muestral. Se dice que A y B son independientes cuando la ocurrencia de uno de ellos no afecta a la probabilidad de ocurrencia del otro. P A / B P A PB / A PB En donde: El conectivo “y” corresponde a la “intersección” en la teoría de conjuntos (y=∩) El espacio muestral (S) corresponde al conjunto universo en la teoría de conjuntos P(B/A)= Probabilidad condicional de B, dado A Regla de la multiplicación de probabilidades Mientras que la regla de la adición de probabilidades se utiliza para calcular la probabilidad de la unión de dos o más eventos, la ley de la multiplicación se utiliza para calcular la probabilidad de la intersección de dos o más eventos. A partir de la probabilidad condicional definimos la regla de la multiplicación, como sigue: P A B PB P( A / B) P A B P A P( B / A) Regla de la multiplicación para eventos independientes Para el caso especial en que los eventos sean independientes, la ley de multiplicación de probabilidades, se aplica como sigue, Para dos eventos: P A B PB P(B) Para tres eventos: P A B C P A P( B) P(C) APLICAMOS LO APRENDIDO 1. Una urna contiene 5 fichas similares de las cuales tres son de color rojo y dos de color azul; si se extraen al azar 3 fichas a la vez. Escriba el espacio muestral que genera este experimento aleatorio y calcule la probabilidad de que sólo una de ellas sea de color rojo. 2. Debido a la demanda de pasajes aéreos nacionales una aerolínea tiene programados cinco vuelos Lima – Arequipa, dos de ellos en la mañana y los demás en la tarde. Calcule la probabilidad de que cierto día no haya ningún vuelo por la mañana. 2. Debido a la demanda de pasajes aéreos nacionales una aerolínea tiene programados cinco vuelos Lima – Arequipa, dos de ellos en la mañana y los demás en la tarde. Calcule la probabilidad de que cierto día no haya ningún vuelo por la mañana. Elemento de capacidad 9 • Resuelve situaciones problemáticas que involucran el cálculo de la probabilidad binomial y normal. DISTRIBUCIONES DE PROBABILIDAD EN LAS FINANZAS Citibank fue uno de los primeros bancos de Estados Unidos en introducir los cajeros automáticos (ATM). Estos dispositivos ubicados en los centros bancarios Citicard (CBC), permitieron a los clientes realizar todas sus operaciones bancarias en un solo lugar con el toque de un dedo, las 24 horas del día, los siete días de la semana. Cada CBC opera como un sistema de fila de espera al que los clientes llegan en forma aleatoria a solicitar un servicio en uno de los cajeros automáticos. Si todos los cajeros están ocupados, los clientes que llegan esperan en fila. De manera periódica se realizan estudios de la capacidad del CBC para analizar los tiempos de espera de los usuarios y determinar si se requieren más cajeros automáticos. Los datos recabados por Citibank mostraron que la llegada aleatoria de los clientes sigue una distribución de probabilidad conocida como distribución de Poisson. Mediante esta distribución, Citibank puede calcular las probabilidades del número de personas que llegan a un CBC durante cualquier periodo y tomar decisiones sobre el número de cajeros automáticos que se necesitan. Variable aleatoria Una variable aleatoria es una variable estadística cuantitativa definida en un espacio muestral Ω. Es decir, describe en forma numérica los resultados de un experimento. Pueden ser discretas o continuas. La función de probabilidad depende del tipo de variable en estudio. Distribución de probabilidad discreta La distribución de probabilidad de una variable aleatoria discreta describe cómo se distribuyen las probabilidades entre los valores de esta variable aleatoria. El rango de la variable aleatoria es el conjunto finito de posibles valores que toma esta variable dentro del espacio muestral, para luego determinar la probabilidad en cada uno de estos valores del rango. Distribución de probabilidad binomial Es una distribución discreta muy importante, porque permite analizar el número de éxitos que pueden obtenerse en la ejecución de “n” experimentos en las mismas condiciones. Experimento binomial. Se denomina así al número de repeticiones sucesivas de un experimento aleatorio que consiste de dos resultados posibles mutuamente excluyentes, llamados: éxito (E) y fracaso (F). Definición: Se considera que la variable aleatoria X definida como el número de éxitos que ocurren en n ensayos de un experimento binomial, tiene distribución binomial con parámetros n y p, y se denota por X ~ B (n,p) si su función de probabilidad es: Valor esperado y varianza de la distribución binomial Distribución de probabilidad continua Distribución de probabilidad normal La distribución de probabilidad más importante para describir una variable aleatoria continua es la distribución de probabilidad normal, por sus múltiples aplicaciones estadísticas. En estas aplicaciones, la distribución normal describe qué tan probables son los resultados obtenidos de un muestreo. Donde, μ : es la media σ : desviación estándar e : exponencial σ2: es la varianza La gráfica de la función de distribución normal es una campana, cuya área total es igual a uno. Distribución normal estándar f z 1 1 e 2 z2 2 APLICAMOS LO APRENDIDO 1. En un estudio de los hogares peruanos el INEI ha determinado en cierta región, que el número de hijos por familia tiene la siguiente distribución de probabilidad: a. Calcule el valor de la constante k y grafique la distribución b. Si una familia tiene al menos un hijo, ¿cuál es la probabilidad de que tenga a lo más 3 hijos? Elemento de capacidad 10 • Aplica la prueba de hipótesis para la toma de decisiones en situaciones problemáticas relacionadas a los negocios. LA PRUEBA DE HIPÓTESIS Y LA TOMA DE DECISIONES El propósito del análisis estadístico es reducir el nivel de incertidumbre en el proceso de toma de decisiones. Los gerentes pueden tomar mejores decisiones acerca de una población mediante el examen de una muestra de ella sólo si tienen suficiente información a su disposición. La prueba de hipótesis es una herramienta analítica muy efectiva para obtener esta valiosa información, bajo una gran variedad de circunstancias. Hipótesis Enunciado acerca de una población elaborado con el propósito de poner a prueba. Un procedimiento que conduce a una decisión sobre una hipótesis en particular se conoce como prueba de hipótesis Los procedimientos de prueba de hipótesis dependen del empleo de la información contenida en la muestra aleatoria de la población de interés. Si esta información es consistente con la hipótesis, se concluye que ésta es verdadera; sin embargo si esta información es inconsistente con la hipótesis, se concluye que esta es falsa. Debe hacerse hincapié en que la verdad o falsedad de una hipótesis en particular nunca puede conocerse con certidumbre, a menos que pueda examinarse a toda la población. Usualmente esto es imposible en muchas situaciones prácticas. Por tanto, es necesario desarrollar un procedimiento de prueba de hipótesis teniendo en cuenta la probabilidad de llegar a una conclusión equivocada. Muestreo aleatorio simple Muestreo al azar simple Muestreo al azar sistemático Muestreo aleatorio estratificado Muestreo aleatorio por conglomerados Hipótesis estadísticas Hipótesis nula Hipótesis alternativa Errores tipo I y tipo II Las hipótesis nula y alternativa son afirmaciones opuestas acerca de la población, una de las dos es verdadera, pero no ambas. Lo ideal es que la prueba de hipótesis lleve a la aceptación de Ho cuando sea verdadera y a su rechazo cuando sea falsa. Sin embargo, puesto que la prueba de hipótesis se basa en una información muestral, existe la osibilidad de error (ver tabla). Conclusión / Hipótesis verdadera falsa es aceptada Decisión correcta Error tipo II es rechazada Error tipo I Decisión correcta Tipos de prueba de hipótesis Prueba unilateral de cola a la derecha Prueba unilateral de cola a la izquierda Procedimiento de la prueba de hipótesis 1. Hipótesis 2. Estadística y región crítica 3. Decisión Pruebas de hipótesis de la media poblacional con conocida Prueba unilateral de cola a la derecha Prueba unilateral de cola a la izquierda Prueba bilateral o de dos colas APLICAMOS LO APRENDIDO 2.Para determinar si conviene o no abrir una sucursal en la ciudad de Chiclayo, la gerencia de una cadena de supermercados, establece el siguiente criterio para tomar una decisión: abrirá la sucursal sólo si se comprueba que el ingreso promedio familiar mensual en dicha ciudad es de al menos US$ 500. Se sabe que una muestra aleatoria de 100 ingresos familiares de Chiclayo ha arrojado una media de US$ 480 y una desviación estándar de US$ 80. ¿Cuál será la decisión de la gerencia con un riesgo del 5% de cometer el error tipo I? gracias