ESTADISTICA INFERENCIAL Es una rama de la estadística que se encarga de definir estrategias racionales que permiten generalizar, inferir o inducir las propiedades de un conjunto de datos empíricos (muestra) al conjunto total de datos (población) a los que intenta representar. Para efectuar esta generalización (inferencia) de lo concreto a lo general es imprescindible que el conjunto de datos recogidos para obtener la muestra sea representativo de la población. Esto se consigue mediante las técnicas de muestreo. El muestreo probabilístico consiste en elegir una muestra de una población al AZAR. UNIDAD 4: Modelos matemáticos de variables psicológicas. Un modelo para una variable es una distribución de frecuencias relativas teóricas que: posibilita una mejor comprensión de la misma, facilita su análisis e interpretación, permite formular conclusiones y realizar predicciones. Estas frecuencias relativas no se fundamentan en la observación directa, sino que son postuladas. La experiencia previa justifica los valores propuestos, o es deducida a partir de ciertas condiciones teóricas. Las frecuencias relativas en el modelo se denominan probabilidades. Por esto se dice que un modelo para una variable es una distribución de probabilidades. Contar con un modelo para una variable le permite al estadístico deducir conclusiones que luego confrontará con la realidad observada. Dentro de este tenemos: El modelo de la variable de Bernoulli que es una variable que solo toma dos valores, estas variables son dicotómicas o han sido dicotomizadas, a los cuales se les designa el nombre de “éxito” y “fracaso”, y tiene un único parámetro P que indica la probabilidad del éxito. Éxito p Fracaso1-p Con ésta se vincula la variable Binomial la cual además del parámetro P que indica la probabilidad de éxito; y el parámetro n que es la cantidad de ensayos. Esta variable expresa la cantidad de éxitos en n ensayos, siempre que se esté bajo la condición de ser dicotómica donde solo puede tener dos estados posibles, la condición de estabilidad (probabilidad constante) donde la probabilidad de éxito permanece constante de observación a observación, y bajo la condición de independencia (probabilidad de asociación al éxito) donde las observaciones son independientes, es decir, el resultado de una observación no es afectado por el resultado de cualquier otra observación. Los parámetros siempre son n (repeticiones) y P (probabilidad de éxito) Media Binomial = n*p, desvió = √n*P*(1-P), varianza = n*P*(1-P) El modelo de distribución normal (es para variables discretas) se basa en la curva normal estándar o curva de Gauss. Los científicos descubrieron que la curva normal estándar más un modelo matemático representan a un fenómeno de la naturaleza. Esta curva tiene forma acampanada con un solo pico máximo en la media poblacional y es simétrica (en ese valor central coinciden la media, la mediana, y la moda). Tiene dos puntos de inflexión, donde cambia la concavidad, en el punto x= media poblacional – desviación poblacional, la curva pasa de ser cóncava hacia arriba a ser cóncava hacia abajo y en el punto x= media poblacional + desviación poblacional la curva pasa de ser cóncava hacia abajo a ser cóncava hacia arriba. Se acerca asintóticamente al eje de abscisas sin llegar a tocarlo (por mucho que se extienda nunca llega a tocar el eje, y sólo en ± ∞ la altura de la curva llegaría a ser 0). El área total bajo la curva indica la probabilidad correspondiente a la totalidad de los valores y vale 1. Bajo la curva normal están comprendido el 100% de los casos. Cuando el desvío poblacional esta fijo y varia la media poblacional toda la curva se desplaza hacia la derecha o hacia la izquierda una distancia que corresponda a la cuantía de variación. Con la media poblacional fija y el desvío poblacional variando lo que sucede es que las abscisas de los puntos de inflexión se acercan o se alejan de la media poblacional. Con el fin de poder obtener probabilidades asociadas a valores de una variable, con distribución normal se han construido tablas con las áreas ya calculadas y cuyo uso se basa en la aplicación de un teorema que llamaremos Modelo matemático normal unitario: tiene dos parámetros μ=0 y σ=1, es para variables continuas. Toda superficie de la curva es = 1 (suma de probabilidades). El modelo se funda sobre la variable Z, para cada variable de Z hay calculada una probabilidad, los valores van de ± ∞. Proceso de tipificación: (proceso de obtención de las puntuaciones típicas) Nos permite encontrar respecto de determinado valor su correspondiente valor de Z, asegurándonos por el teorema de tipificación que el correspondiente Z es un buen representante del valor de X en tanto mantiene relación de que dicho valor de X tiene respecto de su media y su desvió. El Z siempre expresa la cantidad de desvíos a la media que se encuentra el valor de X, es un buen representante, toma el desvió de la variable como una unidad de medida. Z=(x-x̄) /S. La puntuación típica indica el número de desviaciones típicas en que esa observación se separa de la media del grupo de observaciones, y si esa desviación es por encima o por debajo de la media. UNIDAD 5: El individuo y el grupo Una transformación afín es una transformación de los valores de una variable X en otros de una variable Y mediante una función de la forma: Y = a + b*X, donde a y b son constantes, con b ≠ 0; (si b = 0 entonces Y = a, y todos los valores de X se transforman en a perdiéndose la variabilidad). Permite aumentar la magnitud de determinado valor, conservando las relaciones intrínsecas que ese valor tiene respecto a su media y su desvío (la Y mantiene la información de X). La variable X es, en este contexto, la puntuación en una prueba y a sus valores los llamamos puntuaciones brutas u originales. La variable Y recibe el nombre de variable transformada por la transformación afín. Propiedades: 1. La media de Y es: y=a+b*x 2. La varianza de las puntuaciones transformadas es igual al cuadrado de b por la varianza de las puntuaciones originales: s2Y = b2*s2X 3. La desviación estándar de las puntuaciones transformadas es igual al producto del valor absoluto de b por la desviación estándar de las puntuaciones originales: sY = |b|*sX Podemos ver si el individuo es representado por el grupo mediante: El puntaje Z: Muestral Z= (x- x̄) /S Poblacional Z= (x- μ) /σ Tiene media 0 y desviación estándar 1. La puntuación Z de una observación indica el número de desviaciones estándar que se separa de la media. Nos da la posibilidad de hacer comparaciones entre variables, llevando los resultados a una escala común; como si se quieren hacer observaciones entre unidades de distintos grupos o en variables medidas de distinta forma. >>Puntuaciones definidas: ya se sabe su a y su b como en el caso de CI= 100+15*Z, y T = 50+10*Z<< Rango Percentilar: Indica la posición relativa de un sujeto según el porcentaje de las puntuaciones del grupo de pertenencia que se encuentran debajo de su puntuación. Muestra la posición del sujeto en el grupo según el porcentaje de puntuaciones que supera. Para su obtención es necesario conocer la distribución de la variable. UNIDAD 6: Muestreo. Prueba de hipótesis. Muestreo Importancia: la calidad de la información que se recoja depende de cómo se seleccionen las unidades de observación. Por eso deben invertirse el tiempo y el esfuerzo necesarios en la planificación y ejecución del diseño de la muestra. Definición y acotación de la población: consiste en mencionar las características esenciales que ubican a la población en un espacio y tiempo concretos. Para ello han de tenerse en cuenta el problema y los objetivos principales de la investigación. Marco de muestreo: es el listado que comprende las unidades de la población. Se utiliza para buscar la documentación que ayuda a la identificación de la población de estudio. Sus requisitos son: comprehensividad, actualización, sin duplicidad, sin unidades que no pertenezcan a la población que se analiza, con información suplementaria que ayude a la localización de las unidades, y fácil de utilizar. Tamaño de la muestra: está determinado por los siguientes factores: Tiempo y recursos disponibles, Modalidad de muestreo seleccionada, Tipo de análisis de datos previstos, Varianza poblacional, Error máximo admisible para la estimación de los parámetros, Nivel de confianza de la estimación. Error muestral: diferencia existente entre las estimaciones (obtenidas a partir de la muestra) y los parámetros (características poblacionales). Una estimación es más precisa cuando su error muestral es menor. Tipos de muestreo PROBABILÍSTICO: Utiliza la aleatorización como criterio esencial de selección muestral. Cada unidad tiene una probabilidad igual (o establecida a priori) de ser seleccionada para la muestra. La elección de cada unidad es independiente de las demás. Permite controlar el error muestral. NO PROBABILÍSTICO: Utiliza criterios diferentes de la aleatorización como la conveniencia o criterios subjetivos. Ello puede producir: Que algunas unidades de la población tengan mayor probabilidad que otras de ser seleccionadas para la muestra. Dificultad para calcular el error muestral. Introducción de sesgos. Prueba de hipótesis Dos formas básicas de inferencia estadística: la estimación de parámetros y la prueba de hipótesis. La estimación de parámetros es el proceso consistente en asignar a las propiedades desconocidas de una población las propiedades conocidas de una muestra extraída de esa población. Una prueba de hipótesis es un conjunto de operaciones estadísticas que permite mediante la utilización del muestreo, rechazar o no la hipótesis formulada, determina si las diferencias son significativas o no en una serie de operaciones matemáticas, posibilitando el cálculo de la probabilidad de cometer error en la decisión adoptada, en términos de probabilidad nos permite establecer si las diferencias entre el parámetro de la distribución y el estadístico encontrado son suficientemente significativas para considerar que el parámetro ya no es representativo de la distribución. Para esto contamos con pasos: 1. Elaboración de las hipótesis: nombrar hipótesis científicas (afirmaciones sobre datos de la realidad) y plantear las hipótesis estadísticas (traducción en términos estadísticos de la H.C.): Hipótesis nula e Hipótesis alternativa. La hipótesis nula (H0), es SIEMPRE una igualdad, es la hipótesis que se somete a contraste, sostiene la veracidad de los parámetros, es lo que llamamos una hipótesis exacta. La hipótesis alternativa (H1) es la negación de la nula, NUNCA es una igualdad, se plantea por mayor, menor o distinto, suele ser inexacta; son hipótesis rivales, si una es verdadera la otra es necesariamente falsa. 2. Establecimiento de supuestos: para poder llevar a cabo la prueba de hipótesis debemos tener las dos distribuciones completamente especificadas, si hay algún dato faltante de la función debemos SUPONERLO; los supuestos son afirmaciones que permiten especificar a la totalidad de distribuciones involucradas en la prueba. (Siempre: la variable se comporta normalmente y la muestra es aleatoria). 3. Elección del estadístico de contraste/prueba: La decisión entre la H0 y la H1, se hace en base a un estadístico, llamado ESTADÍSTICO DE PRUEBA, que vincula el estimador con el parámetro. Suponiendo que la hipótesis nula es verdadera el ESTADÍSTICO DE PRUEBA tiene una distribución conocida que permite calcular la probabilidad de cometer error; este debe cumplir dos condiciones: Proporcionar información empírica relevante sobre la afirmación propuesta en la H0. Que el resultado del estadístico tenga una distribución de probabilidad asociada al resultado. 4. La lógica de la decisión: para poder establecer si la diferencia entre los parámetros de la distribución y los datos encontrados en la envidia es significativa tenemos que realizar una doble partición de la distribución de probabilidad en dos áreas mutuamente excluyentes: área de rechazo y área de aceptación. El área de aceptación contiene los valores del estadístico de contraste próximos a la H0, si el estadístico de contraste toma un valor de esta área consideramos probado que nuestra H inicial es VERDADERA. En el área de rechazo se encuentran los valores de Z alejados de la veracidad de la H0, si el estadístico de contraste toma un valor de esta área consideramos que la H0 es FALSA; el tamaño de esta área lo determina el investigador mediante el nivel de significación (α). (Cuando la H es por > el AdR se ubica a la derecha y cuando es por < se ubica a la izquierda) 5. La decisión: establecer la Regla de Decisión y formular la Decisión en base a la información muestral (según la pertenencia del valor observado del estadístico de prueba a la zona de rechazo o bien de la comparación del valor p con el nivel de significación). Terminando por expresar la Conclusión en términos del problema (rechazo o conservo). Error de Tipo I: es el que se comete cuando se decide rechazar H0 cuando la misma es verdadera. La probabilidad de cometer el Error de tipo I se denomina nivel de significación de la prueba y se designa con la letra α. El error Tipo I es el más grave, por eso se trata de controlarlo., es decir intentar hacer que sea poco probable. Error de Tipo II: Es el que se comete cuando se decide no rechazar H0 cuando en realidad es falsa. La probabilidad de cometer el Error de tipo II se designa con la letra β. Grados de libertad: son el numero de datos que son libres de variar cuando se calcula la prueba. Y este numero es el tamaño de la muestra