CAPITULO 1: NOCIONES DE ESTADÍSTICA 1.1. Definición La Estadística es una ciencia que nos proporciona conjunto de métodos, técnicas o procedimientos para: Recopilar, Organizar (clasificar, agrupar) Presentar, y Analizar, datos con el fin describirlos o de realizar generalizaciones validas. 1.2. Ramas de la estadística 1.2.1. Estadística descriptiva Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos. 1.2.2. Estadística inferencial Apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones o predicciones. En síntesis: Que trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones. Se construyen tablas y se representan en gráficos, se calculan parámetros estadísticos que caracterizan la distribución, etc. (Estadística Descriptiva). Que establece previsiones y conclusiones sobre una población a partir de los resultados obtenidos de una muestra aleatoria. Se apoya fuertemente en el cálculo de probabilidades. (Inferencia Estadística). 1.3. Población y muestra 1.3.1. Población Cualquier conjunto de objetos o individuos bajo investigación y del cual se desea estudiar sus características. o Esta debe estar delimitada geográfica y temporalmente. Población Universitaria..... Población de mujeres en edad fértil... Población de centros educativos... Población de empresas industriales... Población de centros hospitalarios.... Población electoral de 18 +años … a) Unidad estadística Es cada elemento de la población, llamado también unidad elemental o Unidad de Análisis, es de quién se obtendrá los datos (mediciones). Alumno matriculado Empresa Hogar Centro educativo Paciente Mujer en edad fértil Niño b) Dato Valor que toma una variable asociado a un elemento de la población o de la muestra: Ejemplo: José Trejo, es un jefe de hogar que vive en Lince, tiene 40 años, tiene Secundaria completa, es casado, su categoría ocupacional obrero y su nivel de ingresos es 480 nuevos soles. María Huamán, es una mujer, esposa de Juan, de 35 años, casada, es ama de casa, tiene 3ro de primaria, presentó una enfermedad, se atendió en una Posta médica, fue atendida por un médico. c) Parámetro Característica numérica descriptiva (valor) de una población estadística, Tal como la media () o la varianza () calculada a partir de los datos observados de toda la población. Ejemplo: Edad promedio de la población peruana. Tasa de desempleo de la ciudad de Lima. Promedio de hijos por mujer El % de personas son SIDA en el Perú. Gasto promedio mensual de las familias limeñas. Número de establecimientos comerciales. Número de Profesionales médicos y enfermeras. Población Pobre y con desnutrición crónica en el país. Número de peruanos en edad militar. d) Estimación del parámetro Es el valor que se calcula en base a los datos de la muestra y se usa para estimar el valor del Parámetro. Ejemplo: Una Encuesta de Hogares en la ciudad de Lima en Marzo 2008, obtuvo: El ingreso promedio mensual de S/.775 soles La tasa de desempleo de 9.1 %. Edad promedio trabajadores de 32 años. El promedio de años de estudio de 10.5 El 76% de hogares tienen teléfono fijo El Promedio de hijos por hogar 2.3 1.3.2. Muestra Una muestra es una parte de la población; por ejemplo, cuando se desea hacer un estudio relativo al rendimiento académico de los alumnos de cierta universidad, y para esto se toma sólo un grupo de estudiantes de la misma. Todos los estudiantes de ella son la población y el grupo escogido constituye la muestra. Es importante hacer notar que para hacer una investigación mediante el análisis de una muestra, ésta tiene que ser, necesariamente, representativa. La representatividad de la muestra implica que cada unidad de la población debe tener igual probabilidad de ser seleccionada. En estas condiciones, se dice que la muestra es aleatoria. La obtención de una muestra representativa es uno de los aspectos más importantes de la teoría estadística. Incluye preguntas como, ¿qué tan grande debe ser la muestra?, ¿qué tipo de datos deben ser recolectados?, ¿cómo se recogerán éstos? Estas preguntas serán contestadas más adelante. (El número de unidades elementales de una muestra se denota con la letra n). Ejemplos sobre muestra y estimador: Suponga que estamos interesados en conocer la duración de la evaluación en el Servicio de Psiquiatría de las Clínicas de Lima. El INPE esta interesado en la relación existente entre la criminalidad y los hogares destruidos. Un psicólogo mide la característica en de 50 procesados. Supóngase que el equipo de investigación, desea determinar la proporción de fumadores en la ciudad de Lima para determinar los factores de riesgo e incidencia de cáncer pulmonar. Ejercicio Aplicativo El Director de Personal de la Clínica “Santa Lucía” desea estimar la tardanza mensual promedio del personal que labora en esta clínica. Con este fin elige al azar la Tarjeta de Control de Asistencia del último mes de 10 trabajadores. En uno de las tarjetas seleccionadas se registró 140 minutos de tardanza. En esta situación identifique: La característica: Tiempo de tardanza mensual La unidad elemental (o unidad de análisis): Un trabajador de la clínica El marco poblacional: Todo el personal que labora en esa clínica La población: Registro de tiempo de tardanza mensual de todo el personal que labora en esta clínica El marco muestral: Diez trabajadores La muestra: Registro del tiempo de tardanza de cada uno de los trabajadores seleccionado Tipo de dato: Variable cuantitativa continúa Un dato registrado: 140 La unidad de medida: Minutos El estimador: El tiempo medio de tardanza de los 10 trabajadores: X El parámetro: El tiempo medio de tardanza de todos los trabajadores de la clínica (µ) Ejercicio 1 El Director de un Hospital sabe que en lo que va del año, fueron dados de alta 1000 pacientes hospitaliza-dos y desea conocer el tiempo medio de permanencia en el hospital. Para ello selecciona al azar la historia clínica de 100 pacientes. Una de las historias permitió conocer que cierto paciente había permanecido 6 días hospitalizado. En esta situación identifique los siguientes términos (no se pide la definición): Característica. Unidad elemental. Marco poblacional Población. Marco muestral. Tipo de muestreo. Un dato. Unidad de medida. Un estimador. Un parámetro 1.4. Variable Cuando hablemos de variable haremos referencia a un símbolo (X, Y, A, B,...) que puede tomar cualquier modalidad (valor) de un conjunto determinado, que llamaremos dominio de la variable o rango. En función del tipo de dominio, las variables las clasificamos del siguiente modo: a. Variables cualitativas Cuando las modalidades posibles son de tipo nominal. Por ejemplo, una variable de color b. Variables cuasicuantitativas Son las que, aunque sus modalidades son de tipo nominal, es posible establecer un orden entre ellas. Por ejemplo, si estudiamos la llegada a la meta de un corredor en una competición de 20 participantes, su clasificación C es tal que Otro ejemplo de variable cuasicuantitativas es el nivel de dolor, D, que sufre un paciente ante un tratamiento médico: c. Variables cuantitativas Son las que tienen por modalidades cantidades numéricas con las que podemos hacer operaciones aritméticas. Dentro de este tipo de variables podemos distinguir dos grupos: Discretas Cuando no admiten siempre una modalidad intermedia entre dos cualesquiera de sus modalidades. Un ejemplo es el número de caras X, obtenido en el lanzamiento repetido de una moneda. Es obvio que cada valor de la variable es un número natural Continuas Cuando admiten una modalidad intermedia entre dos cualesquiera de sus modalidades, v.g. el peso X de un niño al nacer. En este caso los valores de las variables son números reales, es decir Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece como discreta. Este es el caso en que hay limitaciones en lo que concierne a la precisión del aparato de medida de esa variable, v.g. si medimos la altura en metros de personas con una regla que ofrece dos decimales de precisión, podemos obtener En realidad lo que ocurre es que con cada una de esas mediciones expresamos que el verdadero valor de la misma se encuentra en un intervalo de radio . Por tanto cada una de las observaciones de X representa más bien un intervalo que un valor concreto. Tal como hemos citado anteriormente, las modalidades son las diferentes situaciones posibles que puede presentar la variable. A veces éstas son muy numerosas (v.g. cuando una variable es continua) y conviene reducir su número, agrupándolas en una cantidad inferior de clases. Estas clases deben ser construidas, tal como hemos citado anteriormente, de modo que sean exhaustivas e incompatibles, es decir, cada modalidad debe pertenecer a una y sólo una de las clases. En síntesis: Variable cualitativa: Aquella cuyas modalidades son de tipo nominal. Variable cuasicuantitativa: Modalidades de tipo nominal, en las que existe un orden. Variable cuantitativa discreta: Sus modalidades son valores enteros. Variable cuantitativa continua: Sus modalidades son valores reales. CASO 1: Variable cualitativa En Una entrevista a una muestra de 20 personas sobre su preferencia de bebidas gaseosas: Coca Cola (C), InKa Kola (I), Kola Real (K) se han obtenido los siguientes resultados: I,C,C,I,K,C,C,I,I,C,I,C,C,K,I,C,I,K,I,C . La tabulación de estos datos, de la variable cualitativa X, cuyos valores o modalidades son las bebidas gaseosas preferidas, se da en el cuadro 1.1 Cuadro 1.1. Distribución de personas por su sabor preferido Gaseosas Coca Cola Inka Kola Kola Real Total Frecuencias Absolutas: fi 9 8 3 20 Gráfica. Gráfica de Barras Frecuencias Relativas: hi 0.45 0.40 0.15 1.00 Frecuencias Porcentajes:Pi 45 40 15 100 10 9 9 8 8 7 6 5 Frecuencia 4 3 3 2 Coca Cola Inka Kola Kola Real ¿Preferencia de bebida gaseosa? Gráfica de Sectores Circulares 3 15.0% CocaCola 45.0% InkaKola 40.0% CASO 2: Variable cuantitativa discreta Construir la distribución de frecuencia del número de hijos por familia (variable X) en una muestra de 20 hogares, si se han observado los siguientes datos: 2,1,2,4,1,3,2,3,2,0,3,2,1,3,2,3,3,1,2,4 Cuadro 1.2: Distribución de frecuencias del número de hijos por familias Número de hijos Xi Frecuencias absolutas fi Frecuencias relativas hi Frecuencias porcentajes Pi 0 1 2 3 4 Total 1 4 7 6 2 20 0.05 0.20 0.35 0.30 0.10 1.00 5 20 35 30 10 100 Gráfica de líneas 8 7 6 5 4 3 Familias 2 1 0 0 1 2 3 4 Número de hijos CASO 3: Variable cuantitativa discreta con intervalos Construir la distribución de frecuencias con 8 intervalos de los ingresos quincenales en $(variable X) de 45 personas si los datos recopilados son: 63 89 36 49 56 64 59 35 78 43 53 70 57 62 43 68 62 26 64 72 52 51 62 60 71 61 55 59 60 67 57 67 61 67 51 81 53 64 76 44 73 56 62 63 60 Los intervalos, el conteo y las frecuencias absolutas de los 45 ingresos quincenales se dan en el cuadro: Cuadro 1.3: Distribución de los ingresos de 45 personas Intervalos Conteo Absoluta fi Frecuencias Relativa hi 1 2 4 10 16 8 3 1 45 0.022 0.044 0.089 0.222 0.356 0.178 0.067 0.022 1.000 I II IIII IIIII IIIII IIIII IIIII IIIII I IIIII III III I [26,34] [34,42] [42,50] [50,58] [58,66] [66,74] [74,82] [82,90] Total Personas Histograma 20 20 15 15 10 10 5 5 0 0 20 30 40 50 60 70 Ingresos quincenales CASO 4: Variable cuantitativa continúa 80 90 Porcentaje pi 2.2 4.4 8.9 22.2 35.6 17.8 6.7 2.2 100.0 Suponga que se han registrado 50 observaciones referentes a los pesos de 50 lingotes de acero producidos por SIDERPERU, la muestra fue obtenida de la producción semanal y las unidades están dadas en Kg. 94.3 93.0 95.5 95.3 92.4 94.4 92.8 93.2 93.6 95.5 92.9 93.6 95.7 93.8 94.8 93.9 92.7 91.6 93.6 93.7 94.2 95.7 94.7 94.3 92.7 94.5 96.2 95.4 93.7 91.9 94.7 92.7 95.0 93.0 92.9 93.7 92.7 93.3 94.6 96.4 94.1 93.7 94.2 93.7 94.0 93.9 93.6 94.6 92.3 94.4 a. Clasificar estas observaciones en una tabla de frecuencia con 5 clases de igual amplitud. b. Interpretar cada ni. Cuadro 1.4: Distribución de Frecuencia de los pesos de 50 lingotes de acero Intervalo de clase Marca de clase Conteo Frecuencia absoluta IIII 91.5 - 92.5 92.0 4 IIIII IIIII I 92.5 - 93.5 93.0 11 IIIII IIIII IIIII IIIII 93.5 - 94.5 94.0 20 IIIII IIII 94.5 - 95.5 95.0 9 IIIII I 95.5 - 96.5 96.0 6 Totales ∑ni = 50