Tema 1: Introducción: los datos La estadística se aplica en una fase concreta del proceso de investigación: en el análisis de datos. Los datos son la materia prima de la estadística. La estadística no es la ciencia de recopilar datos, es una herramienta de análisis de datos. Los datos no pueden ser recopilados, porque se crean. Un dato es la medida de una característica en un sujeto (característica = variable). Un dato es el valor que toma un indicados de una variable en un sujeto. La variable estadística es un conjunto de datos sobre la misma característica (variable) medida para un conjunto de sujetos de la misma naturaleza, que tienen esa característica (con el mismo indicador). Matriz de datos o fichero de datos es un esquema o formato para guardar datos originales, con un esquema filas−columnas. Cada fila representa un sujeto, y cada columna, una variable. Una vez llena la matriz de datos, cada columna sería una variable estadística. `N' es un término que se utiliza para referirse al tamaño de la muestra. La escala de medida de las variables estadísticas es la que más afecta al tratamiento estadístico, es decir, muchas técnicas estadísticas se diferencian según el tipo de técnicas que se apliquen. Cuantitativas = numéricas = intervalo Cualitativas = categóricas Tema 2: Estadística Descriptiva Univariable DISTRIBUCIONES DE FRECUENCIAS E.D.U.: Técnicas y procedimientos que sirven para el análisis elemental de una variable. La idea o clave de su utilización es el hecho de manejar un gran volumen de datos. Hay dos tipos: · Ver las distribuciones de frecuencias · Ver los estadísticos descriptivos de resumen Distribución de frecuencias: Ordenar y contar cuántos casos hay en cada uno de los posibles valores o categorías de la variable que se analiza. Frecuencia: Número de casos que toman ese valor o que aparece esa categoría. − Hay cuatro tipos de frecuencias: fi Frecuencia absoluta 1 Frecuencias simples: Un valor o categoría de la variable. Fa Frecuencias acumuladas. Frecuencias acumuladas hasta un valor o categoría de una variable, de manera que consisten en el número de casos que tienen valores hasta un determinado valor (no tienen sentido en las variables no ordinales). • Ascendentes. Empezando por el valor mínimo. • Descendentes. Empezando por el valor máximo. Frecuencia relativa: Número de casos que toman un valor en relación con el número total de casos analizados. • Proporciones (tantos por uno). • Porcentajes (tantos por cien). • Razones (tanto por `n') −> siendo `n' un valor a elegir. Tipos de frecuencias Absolutas fi (simple) Fa (acumulada) Relativas p = proporcional = fi / N % = porcentajes = (fi / N) x 100 Razón = (fi / N) x n {`x' de cada n} Con una variable NOMINAL se pueden hacer solamente frecuencias simples. No se pueden hacer f. Acumuladas. De f. Relativas se pueden hacer porcentajes (por utilidad). Con una variable ORDINAL se pueden hacer frecuencias simples, acumuladas y relativas. Con una variable DE INTERVALO se ha de tomar una decisión acerca de simplificar (agrupar) o no la distribución de frecuencias. Depende de varios factores: − Teóricos y metodológicos. − Los datos que tenemos (Cantidad, unidad de medida, etc.) La simplificación supone una pérdida de información. Si simplificamos, la utilidad real a efectos descriptivos tiene que compensar la pérdida de información [edad]. Pueden darse dos tipos de situaciones: Que la variable cuantitativa se trate de algún tipo de escala discreta, y además, con cierto recorrido. Pueden tratarse como si fueran ordinales y la simplificación se hará si la cantidad de valores fuera grande. [valoración 0−10] Que tengamos una variable cuantitativa continua o continuizable (tratable como tal). · ORGANIZACIÓN DE UNA DISTRIBUCIÓN DE FRECUENCIAS AGRUPADAS EN INTERVALOS. Hay que tener en cuenta: • Simplicidad. 2 • Orden lógico. • Sentido para la investigación (si existe o no una guía de interpretación de la variable). Desde el punto de vista instrumental se dan varias posibilidades: • Elegir entre intervalos abiertos {`mayores de 60' = 60 ); `menores de 14' = ( 14)} o cerrados {tienen los dos límites definidos li y ls}. • De igual amplitud o distinta amplitud. Amplitud: Número de valores contenidos en el intervalo, límites incluidos. ls − li + 1 • Trabajar sobre el recorrido empírico de la variable {para unos datos n, el que realmente toman esos datos} o el recorrido teórico {recorrido que hipotéticamente podrían tomar y que abarca todas las posibilidades de la variable}. Desde un punto de vista estadístico se recomienda utilizar intervalos cerrados e iguales. Si una variable tiene un recorrido amplio y no tiene un varemo de interpretación preestablecido y queremos construir una estructura de intervalos cerrados e iguales, el procedimiento es el siguiente: • Identificar los valores máximos y mínimos de la variable (Xmax − Xmin). • Determinar el recorido real de la variable. Rr = Xmax − Xmin + 1 ud. • Dividir el número de intervalos de tal manera que la amplitud resultante de los mismos sea exacta con arreglo a la unidad mínima en que aparece medida la variable. Ej. Rr = 50. 5 int. Amp. 10; 2 int. Amp. 25; 10 int. Amp. 5; 25 int. Amp. 2. También se puede alterar el recorrido para obtener mejores intervalos. El punto medio o marca de clase nos sirve para simplificar el intervalo. Representaciones gráficas de distribuciones de frecuencias Existen muchas formas de representar distribuciones de frecuencias, sobretodo como apoyo a la descripción y comparaciones. La clave general para construir buenas gráficas es que han de ser técnicamente correctas, útiles y no engañosas. Las más populares: CICLOGRAMAS Sirven para cualquier tipo de variable, pero es más frecuente para variables cualitativas. El inconveniente es que las frecuencias pequeñas no se aprecian bien. GRÁFICOS DE BARRAS / HISTOGRAMAS Sirven para todo tipo de variables. Normalmente, cuando es de tipo cualitativa aparecen las barras separadas, y si es cuantitativa y continua, juntas. POLÍGONOS DE FRECUENCIAS Para variables cuantitativas teóricamente continuas (o tratables como tal). Una curva de frecuencias es un polígono de frecuencias suavizado. 2.2 ESTADÍSTICOS DESCRIPTIVOS Son medidas resumidas sobre los aspectos de la distribución de una variable. 3 Existen medidas de: • Tendencia Central • Posición • Dispersión • Forma TENDENCIA CENTRAL Tratan de resumir la distribución de la variable mediante un valor representativo, de la tendencia central. Pero hay que tener cuidado, porque son medidas imperfectas, resumidas y podrían no ser útiles en ciertos casos. Son la media, mediana y la moda. Media (aritmética) Es el promedio de todos los valores de una variable. Sólo es aplicable a variables cuantitativas. Se trata de la mejor medida de tendencia central, porque todas las variables tienen una sola media, y como medida de centralidad, e la base de muchos otros procedimientos. Tiene un problema fundamental: se ve afectada por los valores extremos de una distribución, pues en el cálculo de esta participan todos los valores de la variable. Bajo ciertas condiciones puede no ser representativa de la tendencia central. Mediana Md Es el valor central de la distribución de la variable. Es el valor que divide los valores de la variable en dos partes de igual frecuencia. Sólo se puede calcular en variables cuantitativas, y supuestamente sería el indicador de tendencia central que sustituiría a la media si ésta no fuera adecuada. Tiene una ventaja: no se ve afectada por los valores extremos, pero, como valor descriptivo, tiene desventajas: • Puede no ser calculable. • Puede ser un valor real, pero también hipotético. No existe una fórmula para calcular la mediana. Hay que buscarla en la variable, para lo que se necesita tener los valores de la variable ordenados. La mediana sirve para ver la distribución de frecuencias desde otro punto de vista. [Ej. Valor #20 = 39'4; Valor #21 = 39' 7. Mediana = 39'55].− Moda Mo / Xo Es el valor más frecuente de la variable. Es una medida de tendencia central válida para cualquier tipo de variable. En las cualitativas se denomina categoría modal. La ventaja básica es que es fácil de hallar. La desventaja, que puede no ser muy útil. Puede haber más de una moda (1 moda − unimodal; 2 modas − bimodal; más de 2 modas − multimodal). Hay que tener en cuenta la diferencia de frecuencia con el resto de los valores [igual la moda sólo está una unidad por encima del resto...].− MEDIDAS DE POSICIÓN (o cuantiles, o fractiles) Son estadísticos que marcan puntos de distribución de las frecuencias de una variable. Cuantiles (Q1, Q2, Q3). Q1 = Es el valor de la distribución que deja por debajo el 25 % de los datos de la variable. Q2 = Es el valor de la distribución que deja por debajo el 50 % de los datos de la variable. 4 Q3 = Es el valor de la distribución que deja por debajo el 75 % de los datos de la variable. Todos son valores de la variable que marcan puntos de la distribución de frecuencias si la dividiéramos en cuatro partes. Deciles (D1, D2... D10) Lo mismo pero en 10 partes. Percentiles (P1, P2 ... P100) Lo mismo pero en 100 partes. Puede no existir un fractil determinado, puede ser hipotético o real... igual que con la mediana. P50 = D5 = Q2 = Md MEDIDAS DE DISPERSIÓN Explican por qué varían los datos de cierta forma. Hay dos tipos de MDD: De posición Son en general simples. Se destacan dos: • Rango o amplitud de la variable (recorrido). Es la distancia entre el valor máximo y el mínimo. Vmax − Vmin. • Desviación Semiintercuarteril (DSIC). Distancia media entre los cuartiles tercero y primero (el recorrido de la parte central de los datos). El 50 % de los datos tiene que estar a ±1 vez el DSIC de la media. Respecto a tendencia central (TC) Utilizadas para medir el grado de dispersión. Desviación Típica. Mide el grado de dispersión PROMEDIO de los valores de la variable respecto de su media aritmética. − Interpretación: Cuanto mayor sea la desviación típica, mayor es la dispersión. Pero no existe un varemo que diga cuándo es mucha y cuándo es poca. No hay límites para ello, y el mínimo es 0 (cuando todos los datos son iguales, que sería una constante). No se pueden comparar dos desviaciones típicas de dos variables con unidades de medida diferentes y aunque ésta sea la misma, también han de tener la misma media. La varianza sería la desviación típica elevada al cuadrado (s2), el promedio de todas las distancias a la media. Dispersión relativa. Coeficiente de variación: mide la cantidad que representa la desviación típica respecto a su variable (qué cantidad representa la variable respecto de su media). Es un valor relativo. No existe un varemo que diga el alcance de la desviación. A mayor coeficiente de variación mayor dispersión. MEDIDAS DE FORMA Es la forma de la distribución de frecuencias. No es tanto un aspecto de la variable, como el compendio de todos los aspectos de su distribución. 5 Aspectos: • Grado de asimetría (sesgo). • Grado de curtosis (apuntamiento). Los indicadores habituales de estas medidas son difíciles de calcular y tienen problemas de aplicación de uso con distribuciones sin problemas. Grado de asimetría La simetría de una distribución implica que las dos áreas de igual superficie en que una distribución puede dividirse por la mediana sean iguales. Media = Mediana = Moda . El 50% de los datos está entre la media ± DSIC. No debe confundirse con la idea de dispersión. Con respecto a la asimetría, medimos el grado de asimetría, y el ; los sentidos de asimetría serían: En la positiva habría mayor concentración en los valores más bajos, en la negativa la habría en los más altos. En una distribución moderadamente aritmética la distancia entre la media y la moda equivale a res veces la distancia enrte la media y la mediana. Esto sólo es válido para variables unimodales. La simetría de la variable implica que las dos áreas de igual superficie en que puede dividirse por la mediana sean de igual forma. También afecta a la asimetría lo fuerte que sea la moda. El coeficiente de asimetría coincide también con el coeficiente por momentos y el coeficiente beta 1 de Pearson. m3 momento tercero de la distribución. s3 varía entre 0 y cualquier valor, no tiene máximo. Si da 0 es cuando la distribución es perfectamente simétrica. Si el resultado es positivo la asimetría es positiva, si es negativo negativa. Grado de curtosis Curtosis es el grado de apuntamiento que presenta la distribución en los valores de máxima frecuencia. El indicador de grado de curtosis es: Cuando da 0 es mesocúrtica (normal). Da valores menores cuanto más platocúrtica sea, y mayores cuanto más leptocúrtica. Hasta ±1 se considera que la curtosis es moderada. Este indicador sólo debe utilizarse en distribuciones unimodales. 2.2 Transformación de variables: Variables tipificadas (unidades zeta) Para cualquier variable cuantitativa, conociendo sus dos estadísticos media y desviación típica, todos esos valores pueden ser transformados en una nueva escala de medida completamente estandarizada o tipificada. Esta nueva escala se basa en medir la posición relativa que ocupa cada valor dentro de su distribución, entendida como distancia a la media en unidades de desviación típica. Esta nueva unidad es lo que se llama puntuación tipificada o puntuación zeta. Para cualquier xi dado (x1, x2... xn) z=0 s=1 x z = 0 6 Las puntuaciones `z' pueden tomar valores positivos (cuando xi > x) o negativos (xi < x). Los límites tipificados son ±4 Tema 3: Modelos teóricos de distribuciones de variables Son modelos o formas de distribución de una variable, que se han generalizado, a partir del estudio de las formas más comunes que suelen tomar ciertos tipos de variables bajo determinadas condiciones. En general se consideran teóricos, porque cuando mencionamos ciertas variables, bajo ciertas condiciones, en realidad nos referimos a variables estudiadas por la Teoría Matemática de la Probabilidad. Desde ese punto de vista, una distribución teórica de frecuencias, puede entenderse como una distribución de probabilidades, que describe cómo se espera que varíen los datos de una variable bajo ciertas condiciones. La clasificación de los modelos se realiza según el tipo de variable al que hacen referencia: Binomial (Bernoulli) Discretas Poisson NORMAL T de Student Contínuas Chi2 F. Fisher Todas describen cómo se espera que se distribuyan los datos de una variable bajo ciertas condiciones. Noción de probabilidad como frecuencia. Cuando nos referimos a probabilidad, existe una definición intuitiva: lo que esperamos que suceda. Pero no tiene nada que ver con la noción matemática de probabilidad. Ésta sólo habla de este concepto para hacer referencia a experimentos aleatorios, pero repetidos. Hay dos posibles enfoques de esta noción: Probabilidad a priori. Se suele denotar como Regla de LaPlace para sucesos equiprobables: Si se supone un experimento aleatorio, la probabilidad de cada suceso (de cada resultado) es la relacioón entre casos favorables y casos posibles {C.F. / C.P.} [sexo = ½ = 0'5 = 50 %] Probabilidad empírica (o como frecuencia). Deriva de otro teorema que afirma que la probabilidad de cada suceso posible en un experimento aleatorio tiende a la frecuencia relativa de ese suceso cuando el número de experimentos realizados tiende a infinito. [sexo (nacimientos) = 49/100 = 0'49 = 49 %] Variable aleatoria: Conjunto de resultados posibles que puede tener un experimento aleatorio. 7 Distribución de probabilidades de una variable aleatoria: Listado de todas las probabilidades de cada posible resultado que se darían en `n' mediciones cuando `n' tiende a infinito. Regla aditiva de una variable: Si los sucesos posibles son mutuamente excluyentes, e independientes, la suma de las probabilidades de cada uno de los sucesos es 100 % ó 1 ó 1/1 (vamos, la probabilidad total). La distribución NORMAL Describe la distribución teórica de frecuencias para una hipotética variable continua e infinita, con las siguientes características: • La distribución normal es perfectamente simétrica, unimodal y mesocúrtica. Tiene dos puntos de inflexión a la altura de la media ±1 desviación típica. Como modelo teórico infinito es lo que denomina asintótica respecto del eje de abscisas (x). Representa una variable continua, infinita y eso. • La distribución normal ha sido definida a partir de una ecuación matemática llamada la ecuación característica, que permite calcular la ordenada `y' en cualquier punto de la distribución, que corresponde a una variable `x', que esté a una determinada distancia de la media en unidades de desviación típica. • No existe `una' curva normal, sino que hay una familia infinita de distribuciones normales, que serían todas las distribuciones concretas posibles para cada combinación de media y desviación típica. • A pesar de lo anterior, sea cual sea la media concreta y la desviación típica concreta de una variable normal cualquiera, está demostrado que hay un área constante y conocida, entre la media y una ordenada `y', que se encuentre situada a determinada distancia de la media en unidades de desviación típica. (geometría) (estadística) (matemática) Probabilidad de que se den valores Área Frecuencia entre la media y una distancia en unidades de d. t. • Aproximadamente existe un 68 % de la frecuencia absoluta entre la media y ±1 vez la desviación típica. • A una distancia de ±1'96 veces la desviación típica están el 95 % de la frecuencia absoluta. • El 99 % de la frecuencia absoluta está a ±2,58 veces la desviación típica. En términos de probabilidad: Hay un 68 % de probabilidades de que un valor esté entre los valores `media + s' y `media − s'. En geometría... el área es 0,68 / 1. − Utilidad para la estadística de la distribución NORMAL: Si de una variable sólo conocemos la media y la desviación típica, pero sabemos que sigue un modelo NORMAL, podríamos reconstruir su distribución de frecuencias, calculando las probabilidades o frecuencias por encima o por debajo de un valor. Para trabajar con la curva normal genérica hay que trabajar con escalas de medidas generales. Para ello se tipifican los valores, llamados `z'. El valor `z' expresa a qué distancia está de la media en unidades de desviación típica. Para tipificar se usa esta fórmula: Tema 4: Fundamentos de inferencia estadística 4.1. TEORÍA DEL MUESTREO Y DE LAS DISTRIBUCIONES MUESTRALES Es la parte de la estadística que se ocupa de los problemas relativos a las conclusiones que se pueden obtener de las poblaciones de las que proceden las muestras que se analizan. • Representatividad de las muestras 8 • Generalización de los resultados obtenidos en muestras (generalizaciones estadísticas). La inferencia es una forma de razonamiento lógico que va desde lo particular a lo general. Toda la estadística está pensada para realizar generalizaciones cuantitativas basadas únicamente en información muestral. Conceptos: • POBLACIÓN: Todo el conjunto completo de sujetos u objetos a los que alude una investigación. • MUESTRA: Subconjunto (representativo) de una población. • Población FINITA: La que tiene unas dimensiones contables, definidas. • Población INFINITA: La que tiene un elemento incontable de elementos. Según la estadística: P. FINITAS son aquellas de tamaño conocido, desde un punto de vista conocido. P. INFINITAS son aquellas de tamaño desconocido. Si una población es finita pero muy grande, desde un punto de vista estadístico da igual considerarla infinita. En estadística, cuando se habla de `muestra', ha de ser estrictamente representativa, desde un punto de vista estadístico, lo cual está ligado a los métodos de muestreo (probabilístico y no probabilístico). Muestra ESTADÍSTICA: La que es probabilística (muestra aleatoria simple). ESTADÍSTICOS: Los valores obtenidos en una muestra. PARÁMETROS: Esos mismos valores obtenidos en la población completa. Media Desviación Típica Varianza Proporciones Estadísticos (Nm) Parámetros (Np) s s2 pm Pp ó A veces cuando se habla de parámetros se les llama `valores verdaderos` (o únicos, o fijos) y a los estadísticos `estimadores'. Objetivos de la estadística inferencial Un parámetro es un valor único y fijo, y por lo general desconocido. El problema de la estadística radica en que los estadísticos que potencialmente podrían representar a un mismo parámetro son variables. Teniendo en cuenta que habitualmente sólo trabajamos con estadísticos ¿Qué podemos decir de su parámetro de referencia? Hay dos tipos de generalización de la muestra a la población: • Estimación de parámetros por intervalos de confianza • Pruebas de hipótesis Un@ debe de seleccionar un determinado tamaño de muestra para realizar un tipo de inferencia determinado. Toda posibilidad de inferencia estadística no se basa en el conocimiento del comportamiento que tienen los 9 estadísticos obtenidos de diferentes muestras de una misma población. Este comportamiento se resume en las distribuciones muestrales de los estadísticos. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO: Distribución muestral que forman los infinitos estadísticos obtenidos de infinitas muestras, del mismo tamaño `n', sacadas de una misma población, que tienen un único parámetro de referencia. Se ordenarían de mayor a menor todos los estadísticos y se vería cuántos se repetirían. EJEMPLO: Distribución de las infinitas medias obtenidas en las infinitas muestras de tamaño n. N1 E1 N2 E2 N2 E3 ... N" E" TEOREMA CENTRAL DEL LÍMITE Describe las regularidades que tienen las distribuciones muestrales de muchos estadísticas bajo determinadas condiciones. «Si de una población infinita y normal, con media µ y desviación típica se extraen infinitas muestras del mismo tamaño `n', la distribución muestral de sus medias muestrales será aproximadamente normal, con la media igual a la media de la población y con la desviación típica igual a la desviación típica de la población dividida entre la raíz de N». El teorema relaciona estadísticos con parámetros. µ Np "'N' " Ejemplos: En el caso de las proporciones, la media sería igual a la media de la población y la desviación típica sería la raíz de la proporción dada por la proporción inversa dividido entre el tamaño de la población. Np Pp " pm DMpm 4.2. ESTIMACIÓN DE PARÁMETROS POR INTERVALOS DE CONFIANZA ¿Qué podemos decir de un parámetro desconocido utilizando un estadístico conocido, que hipotéticamente lo representa? Se trata de un problema inferencial. Una estimación es una generalización. Una estimación conlleva cierto riesgo. Se realizan estimaciones con cierto margen de error. A priori, todo estadístico es 10 estimador de su parámetro siempre que cumpla una serie de condiciones: • Estadístico insesgado. Lo es si la media de su distribución muestral coincide con el parámetro. Una mediana podría ser estimador de la media. Pero también podría estar sesgado. • Consistente. Es aquel estimador cuyo error típico disminuye al aumentar el tamaño de la muestra. • Eficientes. Cuanto menor es su error típico. Diferencia a la muestra y a la mediana. [El error típico de la media siempre es menor que el de la mediana]. Hacer una estimación concreta se puede realizar de dos formas. Tipos: PUNTUALES Consiste en atribuir a un parámetro el valor concreto de un estadístico obtenido en una muestra de población de referencia, asumiendo que la muestra ha sido correctamente construida y teniendo en cuenta algunas características generales de su representatividad. Es la forma en la que salen los resultados de las encuestas, etc. (sobretodo en los medios de comunicación). Se atribuye a la población los resultados de la muestra. POR INTERVALOS DE CONFIANZA Consiste en atribuir a un parámetro que es desconocido, un rango (o intervalo) de valores que tengan una alta probabilidad de incluir el parámetro. La clave de esta estimación está en el conocimiento de la distribución muestral del estadístico que se utiliza como estimador, y más concretamente en considerar a priori la probabilidad de un cierto error muestral máximo. IC (Par) NC% = Estadístico ± zNC% · ET Un intervalo de confianza para un parámetro y un nivel de confianza determinado se hace en un estadístico al que se le suma y se le resta z para obtener el valor mínimo y máximo y se multiplica por el error típico. Si el parámetro es una media: Si es una proporción: El 95% del área más cercana al parámetro representa la probabilidad en que cabe esperar que ocurran el 95% de los valores más cercanos a la media. Las distribuciones muestrales de proporciones, se consideran normales cuando son grandes. Las muestras de tamaño mayor de 30, se pueden considerar suficientemente grandes para que la Teoría Central del Límite se cumpla. Si la muestra es más pequeña no sería normal sino binomial. En cuanto a las distribuciones muestrales de medias, son normales siempre que la población de origen sea normal, y también siempre que el tamaño de la muestra sea grande aunque la población no sea normal. Cuando las muestras son pequeñas hay una variación de la forma de la distribución muestral Hay una familia de distribuciones `t' con diferentes formas. Se diferencian en los grados de libertad. En todas son perfectamente simétricas, unimodales, y la mayoría de ellas tienden a ser más achatadas que la distribución normal. 11 Son perfectamente conocidas las áreas en las distribuciones `t', entre la media y cualquier valor (cualquier posición `t' o puntuaciones estudentizadas). Si una variable cualquiera sabemos que forma una distribución t de student con N−1 grados de libertad, y sabemos que es simétrica, unimodal, etc., la media coincide con la moda. Para tipificar, igual que con la `z': La forma de la distribución depende del tamaño de la muestra (N−1 grados de libertad). A medida que la muestra crece, la distribución tiende a parecerse a la normal. La tabla de las áreas en la distribución t de student da valores de cola. 4.3 CÁLCULO DE TAMAÑOS DE MUESTRAS Debemos concretar la idea de tamaño suficiente, para una muestra representativa. Tamaño suficiente para poder realizar con sus estadísticos estimaciones de parámetros desconocidos, con un determinado nivel de confianza, y con un mínimo grado de precisión previamente establecido. Factores que intervienen GRADO DE HOMOGENEIDAD DE LA POBLACIÓN Si una población es muy homogénea en una característica que es central en el estudio, se necesitará un menor tamaño de muestra. Por eso es necesario conocer o estimar el grado de homogeneidad de la población en aquélla carfacterística a la que se refiera la estimación que vamos a hacer. Para medirlo hay dos maneras: • Para una variable cuantitativa. Con la desviación típica o mejor la varianza. • Para una variable cualitativa. Con una proporción. El grado de heterogeneidad u homogeneidad influye en la muestra. Hay que aproximarse a dicho grado. NIVEL DE CONFIANZA Establece los márgenes de las estimaciones que podemos hacer con una nuestra muestra. Para un nivel de confianza más alto implica condiciones más estrictas en las estimaciones. Si lo que prevemos es utilizar los estadísticos para hacer estimaciones a un nivel de confianza más alto, necesitamos tamaños de muestra más grandes. ERROR MUESTRAL MÁXIMO El cálculo del tamaño de una muestra requiere poner como condición previa una determinada cantidad de error muestral máximo para la cantidad que queremos estimar y según el parámetro a estimar. Y podrá ser: una proporción o una cantidad absoluta [5% ó 33 minutos]. Para Población Infinita estimar: µ Pp Np = Tamaño de la población Población Finita 12 EM = Error muestral máximo* p & q = Proporciones en la población o estimación • Pero no se puede sacar sólo un dato; por lo tanto se estiman muestras para conocer todo en el peor de los casos. • Lo máximo que se acepta de error muestral es el 5% • En el peor de los casos se supone la máxima heterogeneidad: p = q = 50% (0'5) 4.4. PRUEBAS DE HIPÓTESIS También se denominan tests o pruebas de significación. Es un procedimiento para decir algo sobre un parámetro que es desconocido. Equivale al razonamiento inverso de la construcción de intervalos de confianza para estimación de parámetros. La diferencia fundamental con la construcción de intervalos de confianza es que las pruebas de hipótesis se basan en un supuesto concreto sobre el valor del parámetro, que es desconocido. El objetivo es contrastar esa suposición utilizando información muestral a fin de aceptar o rechazar la suposición. Las pruebas de hipótesis requieren razonamiento inferencial. Sí podemos calcular qué probabilidad de que sea B el parámetro. Si B es muy alto quiere decir que A no puede ser [falsacionismo...]. El asesino no puede ser el jardinero!!. Pasos para realizar una prueba de hipótesis: Para una muestra y un solo estadístico Plantear la hipótesis nula H0 Es la hipótesis sobre el valor del parámetro que se va a contrastar. Puede ser: • Simple. Afirma un único valor para el parámetro. Par = A [µ=5; Pp=0'5]. • Compuesta. Plantear la hipótesis alternativa H1 Postula lo contrario que dice la hipótesis nula, bien total o parcialmente. [H1 µ"5; Pp"0'5]. Sería compuesta, porque postula un intervalo de valores, no uno sólo. También puede optarse por una hipótesis alternativa que niegue la hipótesis nula, pero no en su totalidad. [H1 µ>5; µ<5]. Permite más combinaciones. Una hipótesis alternativa del primer tipo (") es bilateral y del segundo tipo (< ó>) unilateral. Identificar el tipo de distribución muestral del estadístico implicado y calcular o estimar su error típico. [DMPAR en muestras de tamaño N; Normal/T de Student/...; el error típico se determina con la desviación típica de la muestra]. Elegir el nivel de significación e identificar en consecuencia las regiones de aceptación y de rechazo de la hipótesis nula, y los valores críticos asociados a estas. Normalmente no se suele elegir un nivel de significación mayor del 5%. Equivale al riesgo probabilístico que estamos dispuestos a asumir como máximo en el nivel de la prueba. Sería la forma inversa de expresar nuestra confianza en el procedimiento de la prueba. 13 Dependiendo de la cantidad de nivel de significación elegido, la distribución muestral se divide en dos áreas. • Región de aceptación de la hipótesis nula. • Región de rechazo de la hipótesis nula, o región crítica. Si el estadístico que vamos a usar se encuentra en la región de aceptación, la conclusión de la prueba será que aceptamos la hipótesis nula. Si se encuentra en la de rechazo, la refutaremos. Los valores críticos son los valores estandarizados que delimitan o separan la región de rechazo y la región de aceptación. Se derivan del nivel de significación que hayamos seleccionado. Estandarizar el estadístico muestral que sirve de prueba empírica bajo la distribución muestral de la hipótesis nula y contrastarlo con los valores críticos de la prueba, con arreglo al siguiente criterio: • Si el valor del estadístico es mayor que el valor crítico, rechazaremos la hipótesis nula para el nivel de significación elegido. • Si el valor del estadístico es menor que el valor crítico aceptaremos la hipótesis nula para ese nivel de significación. * Si es necesario, hay que pasar el error muestral de porcentaje a proporción Estadística Continuas Discretas Nominales Ordinales 14 Q1 Q3 *Para estimaciones muestrales usar N − 1 Asimetría positiva Asimetría negativa 15 Xo < Md < x x < Md < Xo Pladicúrtica Poca curtosis Mesocúrtica Curtosis normal Leptocúrtica Mucha curtosis s s máx. min. Promedio 16 x (parámetro) Dispersión Desviación Típica x ERROR TÍPICO µ=µ 99 % x = 77'7 100 +1'56z µ=75 50 −1'56z Habría un 88'12% de posibilidades de encontrar un estadístico entre esos dos valores (±1'56z 0'4406 x2 = 0'8812 x 100 = 88'12) µ = 75 = 16 17 95 % +1'96z µ=75 −1'96z El 95% de las medias muestrales estaría entre los valores 72,3 y 77'7. Media = µ pm = Pp min. máx. µ=µ 95 % 1'96z 18 −1'96z N grande Normal N pequeña T de Student con N−1 grados de libertad −z Par. +z ET 99% Sospecha Parámetro = A 19 N Estadístico = B 20