I.E.S.T.P-LURIN ESTADÍSTICA Definición: La Estadística es una ciencia que proporciona un conjunto de métodos que se utilizan para recolectar, resumir, clasificar, analizar e interpretar el comportamiento de los datos con respecto a una característica de una materia de estudio o investigación. Estadística Descriptiva: es un conjunto de métodos que se utilizan para recolectar, resumir, clasificar, analizar y presentar datos. Estadística Inferencial: es un conjunto de métodos o técnica que permite la generalización o toma de decisiones en base a una información parcial obtenida mediante técnicas descriptivas. • Población(N): es la colección de todos los individuos, objetos u observaciones que poseen al menos una característica común (ejm., las edades de los estudiantes de Perú.) • Muestra(n): es una parte o un subconjunto representativo de la población. Y al proceso de obtener una muestra se llama muestreo. n⊆𝑵 Muestreo Muestra Población Inferencia Métodos para obtener muestras • Muestras Probabilísticas son aquellas en que todos los elementos de la población tienen una posibilidad (una probabilidad conocida) de ser incluida en la muestra. Naturalmente no es necesario que todos tengan la misma posibilidad, basta que tengan alguna posibilidad. •Muestreo Estratificado este se usa cuando la población no es homogénea, sino que pueden en ella identificarse clases definidas por algún atributo o característica relacionada con la variable que se estudia. Este procedimiento implica dividir la población en clases o grupos homogéneos relativos a las características que van a estudiarse, llamados estratos. Después se toma una submuestra de cada estrato. EYP2214 Estadística para Construcción Civil 7mÈtodos para obtener muestras (continuación) • Muestreo por Conglomerados se usa en poblaciones grandes y muy dispersos desde el punto de vista geográfico, y en las cuales el muestreo aleatorio simple sería poco económico debido a que daría lugar a muestras igualmente dispersas. En este tipo de muestreo, en lugar de seleccionar directamente los elementos de la población se hace una selección inicial de grupos o conglomerados, que son agrupaciones de elementos que deben ser lo más heterogéneo posible a diferencia de los estratos. Variable: es una característica común que presentan todos los elementos de la población que son objetos de estudio y pueden ser: 1 I.E.S.T.P-LURIN 1.-Cualitativas: son aquellas que expresan una cualidad o atributo de la población y pueden ser: 1.1.-Nominales: Son aquellas que no consideran un orden en su clasificación. Ejemplos. -Estado civil (casado, soltero, viudo divorciado).-Sexo (masculino, femenino). 1.2.-Ordinales: Son aquellas que si consideran un orden en su categoría de clasificación. Ejemplos -Nivel educativo (inicial, primaria, secundaria, superior). -Consumo de licor (no consumidor, consumidor leve, consumidor moderado, consumidor severo). 2.-Cuantitativas: Son aquellas que se puede contar o medir y pueden ser: 2,1.-Discretas: son aquellas que se pueden contar o enumerar y toman valores enteros. Ejemplos. -El número de habitantes por domicilio. -El número de hijos. 2.2.-Continuas: son aquellas que se pueden medir y toman valores enteros. Ejemplos. -Estatura. -Velocidad. DATO: son los diferentes valores que puede tomar la variable EJERCICIOS DE ESTADÍSTICA 1.-Se hace una encuesta para determinar las preferencias de los electores en una elección presidencial. Con este fin se entrevista a 2000 electores y entre ellos 1500 están a favor del candidato A. Responder lo siguiente: ¿Qué constituye la muestra? ¿Qué constituye la población? ¿La población es finita o infinita? ¿Cuál el estadígrafo de la población? 2.- Una empresa automotriz desea hacer un estudio de mercado para determinar los diferentes tipos de autos que circulas en la ciudad de Lima. Para ello, se instalan distintos puestos de observación en cada una de los barrios que componen esa ciudad. La observación se efectúa sobre 1000 automóviles y se analizan las siguientes características: marca, modelo, color, cantidad de puertas y velocidad alcanzada al pasar por dichos puestos. Determina si se analiza una población o una muestra y clasifica cada variable que se estudia. Anota en tu cuaderno la respuesta y la explicación de la misma. 3. Clasificar las siguientes variables en cualitativas y cuantitativas discretas ocontinuas. 2 I.E.S.T.P-LURIN 3.1 La nacionalidad de una persona. 3.2 Número de litros de agua contenidos en un depósito. 3.3 Número de libro en un estante de librería. 3.4 Suma de puntos tenidos en el lanzamiento de un par de dados. 3.5 La profesión de una persona. 3.6 El área de las distintas baldosas de un edificio. 3.7 Comida Favorita . 3.8 Número de goles marcados por tu equipo favorito en la última temporada 3.9Temperaturas registradas cada hora en un observ atorio. 3.10 El diámetro de las ruedas de l ruedo de toros. PRESENTACION DE DATOS Una vez recolectados los datos y optado por su posible clasificación es necesario presentarlos en forma tal que se facilite su comprensión y su posterior análisis. Para ello se ordenan en cuadros 3 I.E.S.T.P-LURIN numéricos llamados TABLAS (Tablas de frecuencias) y luego se presentan mediante GRÁFICAS (de barras, sectores circulares, histograma, polígono de frecuencias, ojiva, pictograma, etc.) 1) Para variables cualitativas se toma en cuente la clasificación de la variable para el conteo de datos por categoría Ejemplos. Se hizo una encuesta en Villa Alejandro a personas mayores de 14 años sobre su estado civil obteniendo el siguiente cuadro. ESTADO CIVIL SEXO MASCULINO 31 69 11 9 Soltero Casado Viudo Divorciado TOTAL TOTAL FEMENINO 54 76 20 12 Responde las siguientes preguntas: 1.- ¿Quién representa la muestra? 2.- ¿Quién representa la población? 3.- ¿Qué porcentaje representan las mujeres casadas? 4.- ¿Qué porcentaje representa las personas casadas? 5.- ¿En qué porcentaje es mayor las divorciadas que los divorciados? 2) Para variables cuantitativos discretos Ejemplo: Clasificar los siguientes datos recopilados del número de cabezas de ganado vacuno que posee cada una de las 40 familias de las comunidades campesinas de la Sierra Central del Perú, tomados al azar. 1 4 0 5 2 3 0 4 0 3 4 6 3 5 9 8 5 6 0 7 1 7 1 0 0 4 3 1 8 3 7 3 1 0 1 8 2 7 3 0 Responder las siguientes preguntas: 1.- ¿Quién representa la muestra? 2.- ¿Quién representa la población? 4 I.E.S.T.P-LURIN 3.- ¿Qué porcentaje de familias no tiene ganado? 4.- ¿Qué porcentaje de familias tiene a lo más 7 cabezas de vacuno? 5.- ¿Qué porcentaje de familias tiene como mínimo 5 cabezas de vacuno? EJERCICIO Un ingeniero agrónomo visita 25 cooperativas agrarias de naranjas en el valle de Huaral y en cada uno anoto el número de plantas atacadas por un cierto hongo, de lo cual resultaron los datos siguientes: 15, 20, 25, 15, 18, 16, 17, 18, 20, 18, 18, 18, 19, 16, 17, 19, 16, 17, 17, 17 19, 18, 19, 18,15 Responde las siguientes preguntas: 1.- ¿Qué tipo de datos son? 2.- Construya una tabla de frecuencias para estos datos 3.- ¿Cuántas cooperativas tienen a los mas 20 plantas atacadas por hongos? 4.- ¿Cuántas cooperativas tienen por lo menos 17 plantas atacadas por hongos? 5.- ¿Qué proporción de cooperativas bajo estudio tienen 18 o menos plantas atacadas por hongos? 6.- ¿Qué porcentaje de cooperativas 16 o menos plantas atacadas por hongos? Datos de variables cuantitativas continuas Clase: es cada uno de los grupos en que se divide el conjunto de datos (I). Rango: es el intervalo entre el mínimo y máximo valor de la muestra [Xmin , Xmax]. Amplitud de recorrido: es la longitud del recorrido del conjunto de datos A= Xmax - Xmin 5 I.E.S.T.P-LURIN Numero de intervalos: es la cantidad de intervalos en que se dividen los datos K=1+3.3log 𝑛 𝐴 Ancho del intervalo: es la longitud del recorrido del conjunto de datos de un intervalo w = 𝐾 Marca de clase: es la semisuma de los límites de cada intervalo xi = Xmax − Xmin 2 EJERCICIOS La inversión real (en miles de dólares) anual de un grupo de pequeñas empresas fue: 10 20 8 40 6 26 10 30 2 64 6 14 16 12 25 28 30 8 30 4 6 10 18 17 13 17 21 7 6 8 14 7 15 19 27 22 1 14 6 8 9 11 13 15 18 20 30 60 12 6 5 5 6 8 7 12 15 36 39 52 Hallar. a) La tabla de frecuencias con intervalos de amplitud constante. b) El numero de pequeñas empresas con inversiones menores de 37 mil dólares. c) El numero de pequeñas empresas que han invertido 19 mil dólares a más. d) El número de pequeñas empresas que han invertido 28 mil dólares o más, pero menos 55 mil. e) La proporción de pequeñas empresas con menos de 19 dólares. f) La proporción de pequeñas empresas que invirtieron como mínimo 46 mil dólares. g) El porcentaje de pequeñas empresas que invirtieron menos de 55 mil dólares. h) El porcentaje de pequeñas empresas que invirtieron por lo menos 1000 dólares y que llegue a 27 mil dólares. 1) Las notas obtenidas por alumnos en un examen de admisión fueron las siguientes: 60 99 89 100 65 51 70 78 77 55 52 91 97 85 81 68 72 80 56 67 65 54 60 59 93 73 84 58 54 98 67 63 71 81 91 76 82 72 59 60 55 63 76 87 99 71 61 53 61 67 Hallar: a) La tabla de frecuencias con intervalos de amplitud constante. b) La clase con menor frecuencia. c) Cuantos alumnos obtuvieron de 72 a 78 puntos. d) Que porcentaje de alumnos obtuvieron como mínimo nota 65. e) Que porcentaje de alumnos obtuvieron menor que 65 puntos. f) Que proporción de alumnos tiene nota mayor o igual que 79 puntos. GRÁFICOS ESTADÍSTICOS Un grafico es la representación de un fenómeno estadístico por medio de figuras geométricas (puntos, líneas, rectángulos, paralelepípedos, círculos, etc.) cuyas dimensiones son proporcionales a la magnitud de los datos representados. REGLAS ESPECIALES PARA EL TRAZADO DE GRÁFICOS LINEALES a) Las frecuencias se ponen por lo general en el eje vertical y el método de clasificación en el eje horizontal. b) Las dos escalas deben guardar proporción de tal manera que el grafico guarde armonía entre sus medidas. 6 I.E.S.T.P-LURIN TIPOS DE GRÁFICOS 1.-Graficos circulares: Se utiliza una circunferencia, cuyo círculo se divide en sectores tales que sus medidas angulares centrales sean proporcionales a las magnitudes de los valores de las variables que representan, Este grafico se utiliza para representar variables de tipo cualitativo o cuantitativo discreto. Ejemplo: Se hizo una encuesta en el I.E.S.T.P-LURIN sobre donde quisieran ir de viaje, obteniendo el siguiente cuadro. CIUDAD FRECUENCIA Cusco 40 Ayacucho 10 Iquitos 25 Ica 5 Representa mediante en un grafico circular el siguiente cuadro 2.- Grafico de barras: Es aquel en la cual el fenómeno que se estudia queda representado por una serie de rectángulos, barras o paralelepípedos, los cuales pueden dibujarse horizontal o verticalmente. Este grafico se utiliza para representar variables de tipo cualitativo o cuantitativo discreto. Ejemplo: representa el cuadro anterior mediante grafico de barras. 3.- Histograma: Se usa para representar gráficamente la distribución de frecuencias absolutas o relativas de datos cuantitativos o agrupados en clase, los cuales quedan representados por barras verticales y deben ir uno al lado de las otras sin que haya un espacio que las separe, la base de cada rectángulo es la amplitud de la clase de variable correspondiente. Ejemplo: La inversión real (en miles de dólares) anual de un grupo de pequeñas empresas fue: Cuadro Nº 1 10 16 13 1 12 20 12 17 14 6 8 25 21 6 5 40 28 7 8 5 6 30 6 9 6 26 8 8 11 8 10 30 14 13 7 30 4 7 15 12 2 6 15 18 15 64 10 19 20 36 6 18 27 30 39 14 17 22 60 52 Realice el histograma para el cuadro Nº 1. 4.-Poligono de frecuencias: Los polígonos de frecuencias absolutas o relativas se obtienen uniendo los puntos medios de la barras del histograma. Ejemplo: Realice un polígono de frecuencias para el cuadro Nº 1. 5.- Escalonado: Esta conformado por la base superior de los rectángulos, las bases son intervalos de clase, y las alturas las frecuencias absolutas o relativas acumuladas. Ejemplo: Realice un grafico escalonado para el cuadro Nº 1. 6.-Ojiva: Esta conformado por la unión de los extremos superiores de cada uno de las bases superiores de los rectángulos que conforman el grafico escalonado. Ejemplo: Realice una ojiva para el cuadro Nº 1. MEDIDAS DE TENDENCIA CENTRAL 1. MEDIA ARITMÉTICA: o simplemente media (o promedio) de una muestra x1, x2, x3,..., xn; se denota por 𝑥̅ y se define: a) Para datos no agrupados 𝑥̅ = 𝑥1+ 𝑥2 +𝑥3 +⋯𝑥𝑛 𝑛 = ∑𝑛 𝑖=1 𝑥𝑖 𝑛 7 I.E.S.T.P-LURIN Ejemplo 1: cuál es el promedio de un alumno si tiene las siguientes notas: 12, 15, 05, 18, 20 𝑥̅ = 12+15+5+18+20 5 = 14 Ejemplo 2: si una persona cada mes s/500, s/700; s/900, s/100, s/1500, s/2000. Cuál es su sueldo promedio 𝑥̅ = b) Para datos agrupados ∑𝑘𝑖=1 𝑥𝑖 . 𝑓𝑖 𝑥̅ = 𝑛 Ejemplo1: en una reunión se hizo una encuesta sobre las edades y se obtuvo el siguiente cuadro I 𝑓𝑖 𝑥𝑖 . 𝑓𝑖 𝑥𝑖 [ 5 – 10 > 6 [10 – 15 > 7 [15 – 20 > 12 [20 – 25 > 14 [25 – 30 > 10 [30 – 35 ] 11 total 𝑥̅ = Ejemplo1: hallar la tabla de frecuencias con un ancho de clase constante, y hallar la mediana. 60 99 89 100 65 51 70 78 77 55 52 91 97 85 81 68 72 80 56 67 65 54 60 59 93 73 84 58 54 98 67 63 71 81 91 76 82 72 59 60 55 63 76 87 99 71 61 53 61 67 8 I.E.S.T.P-LURIN 2. MEDIANA (Xm) La mediana es un valor que divide a un conjunto de observaciones ordenadas en forma ascendente o descendente en dos grupos de igual número de observaciones. Ejemplos: 1.-Hallar la mediana de los siguientes conjuntos de datos: { 10, 9, 3, 6, 14 } { 5, 10, 29, 43, 21, 17 } { 40, 45, 50, 30, 35, 55, 48 } { 4, 11, 7, 5, 13,16, 14,12,10, 9 } Para datos clasificados: Ejemplo1: hallar la tabla de frecuencias con un ancho de clase constante, y hallar la mediana. 60 99 89 100 65 51 70 78 77 55 52 91 97 85 81 68 72 80 56 67 65 54 60 59 93 73 84 58 54 98 67 63 71 81 91 76 82 72 59 60 55 63 76 87 99 71 61 53 61 67 Ejemplo2: hallar la tabla de frecuencias con un ancho de clase constante, y hallar la mediana 60 35 40 30 80 30 20 18 55 40 38 40 46 45 28 60 54 60 105 15 45 38 49 29 82 20 35 38 49 72 9 I.E.S.T.P-LURIN 3.- MODA (Mo ) La moda es un valor de la variable que tiene la más alta frecuencia, esto es, es el valor más frecuente de la distribución. Si la distribución de frecuencias tiene un solo máximo (máximo absoluto), se dice que la distribución es unimodal; en cambio sí tiene más de un máximo (máximos relativos), se dice que la distribución es multimodal. Si todas las frecuencias son iguales se dice que la distribución no tiene moda y se trata de una distribución uniforme. 3,1.- Para datos no clasificados Determinar la moda del siguiente conjunto de datos: a) 2, 2, 3, 4, 5, 5, 6, 7, 7, 7, 9, 9, 12. b) 15, 19, 20, 35, 47, 58, 63. c) 8, 9, 9, 13, 13, 13, 18, 20, 24,24,24, 33, 59, 78, 78. d) 4, 8, 8, 8, 8, 15, 15, 15, 20, 20, 21, 21, 21, 21,32, 40, 40,40, 40, 80, 80, 90. 3,2.- Para datos clasificados Li :límite inferior de la clase modal. Wi :ancho de la clase modal. Δ1 : exceso de la frecuencia modal sobre la frecuencia de la clase contigua inferior Δ2 : exceso de la frecuencia modal sobre la frecuencia de la clase contigua superior. Ejemplos: Hallar la moda de las siguientes distribuciones. a) b) I [3-10> [10-17> [17-24> [24-31> [31-38> [38-45> [45-52] TOTAL 60 35 40 30 80 fi 3 16 29 38 43 21 9 30 20 18 55 40 38 40 46 45 28 60 54 60 105 15 45 38 49 29 82 20 35 38 49 72 10 I.E.S.T.P-LURIN COMPARACIÓN ENTRE MEDIA, MEDIANA Y MODA Al comparar las medidas de tendencia central se puede dar que: 1.- 𝑥̅ = 𝑥𝑚 = 𝑥0 , en esta caso se dice que la distribución es simétrica (las tres medidas son iguales). 2.- 𝑥̅ ≠ 𝑥𝑚 ≠ 𝑥0 , en este caso diremos que la distribución es asimétrica (las tres medidas son diferentes) y puede ser: 2.1.- 𝑥̅ < 𝑥𝑚 < 𝑥0 , entonces la distribución es asimétrica y sesgada a la izquierda. 2.2.- 𝑥̅ > 𝑥𝑚 > 𝑥0 , entonces la distribución es asimétrica y sesgada a la derecha. Ejemplos: Analiza el tipo de distribución de las siguientes tablas. I [5 - 10> [10 - 15> [15 - 20> [20 - 25> [25 - 30> [30 - 35> [35 - 40> [40 - 45] Total xi fi Fi xi.fi 4 9 17 28 39 43 19 5 11 I.E.S.T.P-LURIN ESTADÍGRAFOS DE DISPERSIÓN Entre los principales estadígrafos de dispersión tenemos la varianza, desviación estándar y coeficiente de variación. 1.-Varianza: es un estadígrafo de posición que mide el grado de variabilidad de cada uno de los datos con respecto con respecto a la media y está dada por: (𝑥 𝑥̅ )2 ∑𝑛𝑖=1 𝑖− , 𝑝𝑎𝑟𝑎 𝑑𝑎𝑡𝑜𝑠 𝑛𝑜 𝑐𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑑𝑜𝑠 𝑛 𝑉(𝑥) =𝑠 2 = { (𝑥 𝑥̅ )2 .𝑓𝑖 ∑𝑛𝑖=1 𝑖− , 𝑝𝑎𝑟𝑎 𝑑𝑎𝑡𝑜𝑠 𝑐𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑑𝑜𝑠 𝑛 2.-Desviacion estándar (s): Una idea sencilla del significado de la desviación típica se obtiene cuando se comparan dos series de la misma naturaleza: la que posee una desviación típica más alta es la más dispersa. 𝒔 = √𝑉(𝑥) 3.-Coeficiente de variación (c.v): Generalmente se expresa en porcentajes. Es útil para la comparación en términos relativos del grado de concentración en torno a la media de dos distribuciones distintas. 𝑐. 𝑣 = 𝑠 𝑥̅ Ejemplo 1 Los datos obtenidos son resultados de una encuesta. 80 45 60 64 70 60 75 48 40 45 55 52 Hallar la varianza, desviación estándar y coeficiente de variación. 75 50 78 70 35 65 65 39 Ejemplo 2 Hallar la varianza, desviación estándar y coeficiente de variación de los siguientes datos. 60 35 40 30 80 30 20 18 55 40 38 40 46 45 28 60 54 60 105 15 45 38 49 29 82 20 35 38 49 72 Ejemplo 3 Hallar la varianza, desviación estándar y coeficiente de variación de los siguientes datos. 60 99 89 100 65 51 70 78 77 55 52 91 97 85 81 68 72 80 56 67 65 54 60 59 93 73 84 58 54 98 67 63 71 81 91 76 82 72 59 60 55 63 76 87 99 71 61 53 61 67 12 I.E.S.T.P-LURIN EJERCICIOS DE ESTADÍGRAFOS DE DISPERSIÓN Para cada ejercicio hallar la varianza, desviación estándar y coeficiente de variación. 1.- La siguiente tabla muestra el ingreso familiar que corresponde a 80 familias 𝑥𝑖 I 𝑓𝑖 𝐹𝑖 48 60 𝑥𝑖 . 𝑓𝑖 ℎ𝑖 (𝑥𝑖 − 𝑥̅ )2 [160,170 > [170,180 > [180,190 > 0,125 [190,200 > 0,075 [200,210] TOTAL 2.- Dada la siguiente tabla incompleta, de las frecuencias de las edades de 80 empleados: 𝑥𝑖 I [ 26, [ 𝑓𝑖 𝐹𝑖 > , [ 20 > [ , > [ , ] (𝑥𝑖 − 𝑥̅ )2 𝑥𝑖 . 𝑓𝑖 8,75 > , ℎ𝑖 % 20 44 TOTAL 3.-Se tiene la siguiente información sobre la distribución de frecuencias de 100 elementos de un material sometido a prueba de ruptura (en kg/cm2).La longitud de los intervalos de clase es constante: 𝑥𝑖 I [ , > [ , > [ , 𝑓𝑖 30 , > [ ,120 > [ , 𝑥𝑖 . 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2 600 800 > [ 𝐹𝑖 46 700 34 880 ] TOTAL 13