1 TEMA 57.- USOS DE LA ESTADÍSTICA : ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL. MÉTODOS BÁSICOS Y APLICACIONES DE CADA UNA DE ELLAS. ÍNDICE.1) CONCEPTO DE ESTADÍSTICA.2) ESTADÍSTICA DESCRIPTIVA.3) INFERENCIA ESTADÍSTICA.4) ETAPAS DE UNA INVESTIGACIÓN ESTADÍSTICA.a) Formulación del problema.b) Diseño del experimento.c) Obtención de datos.d) Descripción de los resultados.e) Formulación de la respuesta.5) EL APARATO MATEMÁTICO EN LA ESTADÍSTICA INFERENCIAL.6) APLICACIONES.a) Aplicaciones generales b) Aplicaciones de la Estadística Descriptiva c) Aplicaciones de la Estadística inferencial 1) CONCEPTO DE ESTADÍSTICA.- - En primer lugar y antes de abordar el concepto de estadística desde el punto de vista científico debemos preguntarnos de donde procede este término. La palabra "Estadística' tiene el mismo origen etimológico que la palabra "Estado". Los estados, ante los problemas que se le pueden plantear en la propia administración de sus países, necesitan resolverlos mediante la formulación de ciertos programas, para lo cual han de confeccionar cuadros numéricos (datos), los cuales les permitirán aceptar, o bien rechazar los programas a plantear. Estos cuadros numéricos son las llamadas "estadísticas". - La Estadística, como ciencia, tiene como finalidad la obtención de "métodos para el tratamiento de los datos que hayan sido previamente seleccionados de cualquier fenómeno, pudiendo aceptar ciertas afirmaciones sobre ellos, o no , así como extraer conclusiones sobre dichos datos. La necesidad de estos métodos estadísticos surge al comparar dos estadísticas distintas de conjuntos distintos ó de subconjuntos diferentes de un mismo conjunto. Francisco Miguel Martínez Seoane 2 - En resumen, ante un problema dado, se tienen que recopilar una serie de datos del problema, y debemos de tener unos métodos para poder tratar estos datos, y sacar conclusiones para la resolución del problema. La recogida de estos datos es objeto de la " Estadística Descriptiva”. - La mayoría de las veces no nos es posible contar todos los elementos de un determinado conjunto para analizarlo, o resulta muy costoso, con lo que extrayendo una muestra de una determinada "población " o conjunto, mediante los métodos estadísticos se pueden obtener estimaciones satisfactorias. La regulación de estas estimaciones es el principal problema del que se ocupa la "Estadística Inferencia" o Inferencia Estadística. - Puede decirse que la Estadística es la ciencia que se preocupa de la recogida de datos, su organización y análisis, así como de las predicciones que, a partir de estos datos, pueden hacerse. - La Estadística Descriptiva se ocupa de tomar los datos de un conjunto dado, organizarlos en tablas o representaciones gráficas y del cálculo de unos números que nos informen de manera global del conjunto estudiado y la Estadística inferencial estudia cómo sacar conclusiones generales para toda la población a partir del estudio de una muestra. - Hoy en día, el hombre de la calle entiende por estadísticas tanto los datos que vienen distribuidos en tablas como los gráficos que representan a dichos cuadros numéricos. - Muchas veces no es posible contar todos los elementos de un conjunto, ó resulta muy costoso, por lo que extrayendo una muestra de una determinada población ó conjunto, mediante los métodos estadísticos conocidos se pueden hacer estimaciones satisfactorias. La regulación de estas estimaciones es el principal problema del que se ocupa la Inferencia Estadística. El cálculo de probabilidades constituye su fundamento teórico. 2) ESTADÍSTICA DESCRIPTIVA.- - La Estadística descriptiva se encarga de la recogida, ordenación y tabulación de los datos que han sido obtenidos en diferentes observaciones realizadas sobre un fenómeno en una determinada población; esta información se suele recoger en tablas y se suelen representar en gráficas. Francisco Miguel Martínez Seoane 3 - Se calcularán también los "parámetros estadísticos", que servirán para caracterizar estos datos que han sido recopilados (por ejemplo la media aritmética de un conjunto de datos) , lo cuales nos van a permitir deducir resultados de dichos datos y hacer comparaciones con otras estadísticas. - También es objeto de la Estadística descriptiva la obtención de las rectas de regresión y el coeficiente de correlación, así como el cálculo de números índices y el estudio de series cronológicas. - Aquí no extraemos datos de la muestra de una población, simplemente estudiamos unos datos obtenidos, en los que la probabilidad de un suceso coincidirá con la frecuencia relativa del mismo en la población, así como la esperanza y la varianza. 3) INFERENCIA ESTADÍSTICA.- - Ante unos datos recogidos en un momento dado sobre unos fenómenos nos movemos ya en el terreno de la Inferencia Estadística. Aquí, los datos provienen de una muestra de una determinada población a través de los datos de esa muestra. - En dicha toma de decisiones no se pretende tener seguridad absoluta en la elección, sino que de lo que se trata es de reducir lo más posible el riesgo tomado en dicha elección, así como asegurar que los costes generados por una decisión errónea sean mínimos. - Ejemplo.Supongamos que en una fábrica se pretende revisar el funcionamiento de unos 100 artículos a la hora, que dispone de un encargado de revisión del artículos producidos por la máquina. Ante la imposibilidad de seleccionar la totalidad de los artículos, seleccionamos 10 al azar y una vez revisados se pretende sacar una conclusión acerca del estado de la totalidad de los artículos de la población. Si al analizarlos resulta que están la mayoría defectuosos, no habrá problema en determinar según unas determinadas estimaciones la probabilidad de que suceda lo mismo en la población, es decir, hacer inferencia a partir de la muestra. Así, los diagramas de calidad basados en métodos estadísticos pueden ayudar a tomar este tipo de decisiones. Por ejemplo, si la calidad de los 10 artículos es próxima al estándar, pero próxima a los límites prefijados podemos parar la máquina y revisarla ó dejarle producir otra hora y proceder a otra selección, que si los 10 artículos seleccionados están demasiado cerca de los límites tomar la segunda decisión puede ser contraproducente por el coste de la selección; así vemos que hay riesgos asociados a la misma, los cuales estudia la Inferencia como ciencia utilizando como aparato matemático la teoría de la probabilidad. Francisco Miguel Martínez Seoane 4 - Además, la inferencia estadística se encarga del contraste de hipótesis estadísticas, el cual vendrá expresados en términos de probabilidad; así como también del estudio de los intervalos de confianza como método de estimación paramétrica. - También es objeto de la Inferencia estadística la estimación de parámetros que miden las relaciones funcionales entre dos o más variables estadísticas y se llama Teoría de la Regresión. 4) ETAPAS DE UNA INVESTIGACIÓN ESTADÍSTICA.- a) Formulación del problema.- Ante un problema dado, siempre es necesario definir algunos conceptos precisos (como puede ser que entendemos por artículo defectuoso), siempre con vistas a reducir los costes de selección de datos. b) Diseño del experimento.- Hay que determinar el tamaño de la muestra elegida, siempre con vistas a reducir los costes, pero también con vistas a la resolución más eficiente del problema. Además la elección de la muestra tiene que ser aleatoria. c) Obtención de datos.- Una vez planteado el problema, recogemos la muestra y obtenemos datos de ellos. Es la parte más pesada y costosa. Por ejemplo: “Revisar los 10 artículos mencionados” d) Descripción de los resultados.- De estos datos, se recogen en tablas y se ilustran gráficamente del modo más adecuado, y se obtienen posteriormente parámetros estadísticos que sirven para caracterizar estos datos, que permitirán deducir resultados. e) Formulación de la respuesta.- Una vez realizado todo esto, debemos extraer conclusiones acerca de la población a partir de la muestra y exponer una respuesta al problema planteado. 5) EL APARATO MATEMÁTICO EN LA ESTADÍSTICA INFERENCIAL.- - Como ya hemos dicho, la teoría de la probabilidad es el aparato matemático usado en la estadística inferencial. - Ahora bien, si estudiamos un determinado fenómeno aleatorio del que efectuamos un cierto número de observaciones (datos que recopilamos en una tabla), debemos preguntarnos si este experimento se ajusta a algún modelo probabilístico teórico, para poder trabajar con él. - Para que el modelo teórico se ajuste bien tiene que suceder que si A es un suceso del experimento, en una repetición un número de veces suficientemente grande, la frecuencia relativa de A debe coincidir aproximadamente con la probabilidad calculada de modo teórico de dicho suceso A. Francisco Miguel Martínez Seoane 5 - Una vez decidido el modelo teórico y obtenidos los datos y sus características descriptivas, se consideran los datos como valores observados de ciertas variables aleatorias, cuya distribución de probabilidad conocemos en todo o en parte; así con las características descriptivas mencionadas podremos hacer estimaciones de las características de la población. - Otros aspectos de las aplicaciones de la teoría de la probabilidad son la estimación de parámetros, contraste de hipótesis y la predicción, si tenemos datos estadísticos previamente e información sobre la distribución de probabilidad asociada. 6) APLICACIONES.- a) Aplicaciones generales : - Desde los principios de la civilización han existido múltiples formas de estadísticas, pues ya se utilizaban representaciones gráficas y otros símbolos en rocas, palos de madera, pieles, para contar el número de personas, animales o determinadas cosas. - Existen multitud de aplicaciones de la estadística en diversos campos, como pueden ser la elaboración de censos, encuestas e índices : Censo de Población, Encuesta de Población Activa, Índice de Precios de Consumo IPC, etc. Estos elementos influyen de manera determinante en nuestra vida diaria. - La aplicación de la Estadística al sector industrial y empresarial, como las técnicas de mejora de la calidad y la fiabilidad de los productos, destinadas a incrementar la productividad y a proporcionarnos una mayor calidad de vida. Actualmente, la estadística se ha convertido en un método eficaz para describir con exactitud los valores de los datos económicos, políticos, sociales y físicos, y sirve como herramienta para analizar dichos datos. - El desarrollo de la teoría de la probabilidad ha aumentado el alcance de las aplicaciones de la estadística. Muchos conjuntos de datos se pueden aproximar utilizando determinadas distribuciones probabilísticas; los resultados de éstas se pueden realizar inferencias estadísticas. b) Aplicaciones de la Estadística Descriptiva : - Su principal aplicación es describir los datos recopilados en tablas llamadas "distribuciones de Frecuencias", además de obtener características de la población como pueden ser el cálculo de medidas de centralización como la media aritmética, medidas de Francisco Miguel Martínez Seoane 6 dispersión como la varianza, las rectas de regresión, los coeficientes de correlación, el estudio de números índices, series cronológicas, medidas de asimetría, aplastamiento… - Ejemplo.- Supongamos que tenemos un grupo de soldados en cierta unidad militar y procedemos a medir la estatura de cada uno de ellos( aquí no se hace uso de la inferencia estadística ), la estadística descriptiva se aplicará en este ejemplo para dar respuesta a preguntas como : ¿Cuál es la altura media de los soldados? Media aritmética = Suma de las alturas / número de militares ¿Una altura tal que la mitad de ellos tengan una altura menor y la otra mitad mayor? Mediana, la cual a veces es más significativa en función del estudio que estemos realizando, pues en ocasiones las alturas extremas pueden influir demasiado en la media. ¿Concentración de las alturas alrededor de la media? Medidas de dispersión, como la varianza. ¿Hay más soldados con altura mayor a la media? Medidas de simetría. ¿Existe independencia entre las alturas de militares cuyo cumpleaños es anterior a una fecha y las de ,los que cumplen años en una fecha posterior? Coeficiente de correlación. c) Aplicaciones de la Estadística inferencial : - La aplicación básica de la Inferencia estadística es la de extraer muestras de poblaciones y así, a través de dichas muestras sacar conclusiones acerca de la población. - Ejemplo1.- Supongamos que en un país se esté extendiendo un virus entre los habitantes y ante la imposibilidad de efectuar un reconocimiento a todos los habitantes, se tome una muestra de un 5% de la población . Si resulta que la mitad de los seleccionados posee el virus nos inclinaremos a pensar que la mitad de la población poseerá el virus. Pero para poder extraer esta conclusión deberemos suponer que la selección de la muestra que hemos elegido dentro de la población sea aleatoria y que cada individuo tenga la misma oportunidad de ser seleccionado para el análisis, ya que si la muestra la realizamos dependiendo de algún factor subjetivo pudiera resultar una muestra altamente contaminada por el virus y poco representativa Francisco Miguel Martínez Seoane 7 del estado de salud de la nación en general, pues por ejemplo puede haber regiones más infectadas que otras, o profesiones con mayor riesgo etc. Además existen diversas aplicaciones como las estimaciones de parámetros, el contraste de hipótesis estadísticas , basadas en el cálculo de probabilidades... etc. - Ejemplo2.- Supongamos una fábrica de lámparas con un método de fabricación que garantiza que la duración media de la lámpara es de 1.000 horas, y aceptamos un nuevo método si la duración media asciende a 1.500 horas. Supongamos ahora que extraemos una muestra con un nuevo método y obtenemos unas duraciones con media cercana a 1.200 y todas ellas con una duración cercana a 1.200. En este caso debemos rechazar el nuevo método pues la diferencia de 1.200 a 1.500 es muy alta, sin embargo la mayoría de las veces la información que nos da la muestra no nos permite sacar conclusiones tan rápido (por ejemplo, si hiciéramos la hipótesis de que el nuevo método tuviera duración media 1.200 horas), luego debemos recurrir a métodos que nos proporciona la Inferencia estadística para poder rechazar ó aceptar hipótesis (“Contraste de hipótesis”). También se nos puede preguntar por ejemplo, si de una muestra de 300 lámparas de duración media 1.200, ¿ Entre qué valores podemos acotar la media de la población de lámparas total?, es decir estamos intentando estimar la media poblacional (“Intervalos de confianza”). - Ejemplo3.- Supongamos que tenemos una urna con 3 bolas blancas y una bola negra, notando por 0 el suceso “sacar bola blanca” y 1 el suceso “sacar bola negra”, se hacen 12 extracciones con reemplazamiento, obteniendo la siguiente muestra : {1,0,1,0,0,0,1,1,0,0,0,1}, con frecuencias observadas f(0) = 7/12 y f(1) = 5/12. Sin embargo, si hacemos infinitas extracciones obtendremos que las frecuencias relativas correspondientes se aproximarían a 3/4 y a 1/4 respectivamente; tenemos pues definida una variable aleatoria discreta ( X ) que toma los valores 0,1 con probabilidades 3/4 y 1/4, cuya media sería : E(X) = x . f = 7/12.0 + 5/12.1 = 5/12, en la muestra observada. i i Tomando diferentes muestras de tamaño 12, la media variará desde 0/12=0 a 12/12=1. La probabilidad de que dicha media μ tome el valor 3/12=1/4 ( es decir la probabilidad de que el número de bolas negras sea 3 ), será : 12 3 9 . (1/4) .(3/4) según la distribución binomial 3 P(μ=3/12)= P( X=3) = X ∈ Bi(12, ¼), de esta forma podré calcular cualquier pj = P(μ=j/12), j = 0,12. De la misma forma también podremos calcular probabilidades del tipo P( 2/12≤ μ≤9/12), que nos dará aproximadamente , al multiplicarlo por cien, el tanto por ciento de muestras de tamaño Francisco Miguel Martínez Seoane 8 12 tal que su media está comprendida entre 2/12 y 9/12, lo que nos da una idea de la distribución de la media en el muestreo. - Una de las principales aplicaciones de la inferencia estadística es la estimación mediante intervalos de confianza, para cuyo estudio debemos definir algunos conceptos: - Definición.- Sea [L1, L2] un intervalo dado y θ un parámetro. Si P ( L1≤ θ≤ L2 ) = 1 – α , se dice que [L1, L2] es un Intervalo de confianza para θ con nivel de confianza 1 – α. - Ejemplo.- Sea X ∈ N ( μ, σ ), una variable aleatoria continua normal con media μ y deviación típica σ => ∈ N ( μ, σ/ n ) => ( - μ)/ (σ/ n ) ∈ N ( 0,1). Así, sea zα/2 tal que P ( Z≥ zα/2 ) = α/2 => P ( - zα/2≤ Z ≤ zα/2 ) = 1 – α, entonces con Z = ( - μ)/ (σ/ n ) tenemos : P ( - zα/2≤ ( - μ)/ (σ/ n ) ≤ zα/2 ) = 1 – α => P ( - zα/2. σ/ n ≤ μ ≤ ( + zα/2. σ/ n ) = 1 – α => [ - zα/2. σ/ n , + zα/2. σ/ n ] es un intervalo de confianza para la media poblacional μ con nivel de confianza 1 – α. As´, estimamos μ a partir de la media muestral con σ conocida., y se llama error cometido a la expresión zα/2. σ/ n . - Otra de las principales aplicaciones de la estadística inferencial, como indicábamos anteriormente es el contraste de hipótesis, para cuyo estudio también debemos definir algunos conceptos previos : - Definición.- Supongamos que queremos contrastar si la “Hipótesis nula” : ( H0 ) sigue siendo válida frente a otra que consideraremos “Hipótesis alternativa” ( Ha ), o si por el contrario la muestra aporta pruebas significativas en su contra. Se llama Error de tipo I = “ Rechazar H0 / H0 es cierta” y error de tipo II = = “ Aceptar H0 / H0 es falsa”, se llama α = P ( Error de tipo I ) nivel de significación y a β = 1 – P( Error de tipo II ) potencia, intentaremos que el método de contraste minimice el nivel de significación y maximice la potencia. Al no ser posible minimizarlos simultáneamente dichas probabilidades, se procede de la siguiente forma : a) Fijamos el nivel de significación ( pequeño, por ejemplo α = 0.05). Francisco Miguel Martínez Seoane 9 b) Buscamos el método de contraste que, respetando el nivel de significación fijado, sea el uniformemente más potente. - Ejemplo.- Si X ∈ N ( μ, σ ), ( - μ)/ (σ/ n ) ∈ N ( 0,1) y |( - μ0)/ (σ/ n ) | ≥ z ; zα/2 tal que P ( Z≥ zα/2 ) = α/2 Definirá una “región de rechazo” para dicho contraste de hipótesis, región que conduce al rechazo de H0, para el contraste de hipótesis : H0 : μ = μ0 Ha : μ ≠ μ0 Francisco Miguel Martínez Seoane