Subido por Rocio Nalogowski

resumeen esradatistica 2°p

Anuncio
ESTADISTICA INFERENCIAL
Es una rama de la estadística que se encarga de definir estrategias racionales que permiten
generalizar, inferir o inducir las propiedades de un conjunto de datos empíricos (muestra) al
conjunto total de datos (población) a los que intenta representar.
Para efectuar esta generalización (inferencia) de lo concreto a lo general es imprescindible que el
conjunto de datos recogidos para obtener la muestra sea representativo de la población. Esto se
consigue mediante las técnicas de muestreo. El muestreo probabilístico consiste en elegir una
muestra de una población al AZAR.
UNIDAD 4: Modelos matemáticos de variables psicológicas.
Un modelo para una variable es una distribución de frecuencias relativas teóricas que: posibilita una
mejor comprensión de la misma, facilita su análisis e interpretación, permite formular conclusiones
y realizar predicciones. Estas frecuencias relativas no se fundamentan en la observación directa,
sino que son postuladas. La experiencia previa justifica los valores propuestos, o es deducida a partir
de ciertas condiciones teóricas.
Las frecuencias relativas en el modelo se denominan probabilidades. Por esto se dice que un modelo
para una variable es una distribución de probabilidades.
Contar con un modelo para una variable le permite al estadístico deducir conclusiones que luego
confrontará con la realidad observada. Dentro de este tenemos:
El modelo de la variable de Bernoulli que es una variable que solo toma dos valores, estas
variables son dicotómicas o han sido dicotomizadas, a los cuales se les designa el nombre de
“éxito” y “fracaso”, y tiene un único parámetro P que indica la probabilidad del éxito.
Éxito p
Fracaso1-p
Con ésta se vincula la variable Binomial la cual además del parámetro P que indica la
probabilidad de éxito; y el parámetro n que es la cantidad de ensayos. Esta variable expresa
la cantidad de éxitos en n ensayos, siempre que se esté bajo la condición de ser dicotómica
donde solo puede tener dos estados posibles, la condición de estabilidad (probabilidad
constante) donde la probabilidad de éxito permanece constante de observación a
observación, y bajo la condición de independencia (probabilidad de asociación al éxito)
donde las observaciones son independientes, es decir, el resultado de una observación no
es afectado por el resultado de cualquier otra observación.
Los parámetros siempre son n (repeticiones) y P (probabilidad de éxito)
Media Binomial = n*p, desvió = √n*P*(1-P), varianza = n*P*(1-P)
El modelo de distribución normal (es para variables discretas) se basa en la curva normal
estándar o curva de Gauss. Los científicos descubrieron que la curva normal estándar más
un modelo matemático representan a un fenómeno de la naturaleza. Esta curva tiene forma
acampanada con un solo pico máximo en la media poblacional y es simétrica (en ese valor
central coinciden la media, la mediana, y la moda). Tiene dos puntos de inflexión, donde
cambia la concavidad, en el punto x= media poblacional – desviación poblacional, la curva
pasa de ser cóncava hacia arriba a ser cóncava hacia abajo y en el punto x= media
poblacional + desviación poblacional la curva pasa de ser cóncava hacia abajo a ser cóncava
hacia arriba. Se acerca asintóticamente al eje de abscisas sin llegar a tocarlo (por mucho
que se extienda nunca llega a tocar el eje, y sólo en ± ∞ la altura de la curva llegaría a ser
0). El área total bajo la curva indica la probabilidad correspondiente a la totalidad de los
valores y vale 1. Bajo la curva normal están comprendido el 100% de los casos.
Cuando el desvío poblacional esta fijo y varia la media poblacional toda la curva se
desplaza hacia la derecha o hacia la izquierda una distancia que corresponda a la cuantía
de variación.
Con la media poblacional fija y el desvío poblacional variando lo que sucede es que las
abscisas de los puntos de inflexión se acercan o se alejan de la media poblacional.
Con el fin de poder obtener probabilidades asociadas a valores de una variable, con distribución
normal se han construido tablas con las áreas ya calculadas y cuyo uso se basa en la aplicación de
un teorema que llamaremos
Modelo matemático normal unitario: tiene dos parámetros μ=0 y σ=1, es para variables continuas.
Toda superficie de la curva es = 1 (suma de probabilidades). El modelo se funda sobre la variable Z,
para cada variable de Z hay calculada una probabilidad, los valores van de ± ∞.
Proceso de tipificación: (proceso de obtención de las puntuaciones típicas) Nos permite encontrar
respecto de determinado valor su correspondiente valor de Z, asegurándonos por el teorema de
tipificación que el correspondiente Z es un buen representante del valor de X en tanto mantiene
relación de que dicho valor de X tiene respecto de su media y su desvió. El Z siempre expresa la
cantidad de desvíos a la media que se encuentra el valor de X, es un buen representante, toma el
desvió de la variable como una unidad de medida. Z=(x-x̄) /S.
La puntuación típica indica el número de desviaciones típicas en que esa observación se separa de
la media del grupo de observaciones, y si esa desviación es por encima o por debajo de la media.
UNIDAD 5: El individuo y el grupo
Una transformación afín es una transformación de los valores de una variable X en otros de una
variable Y mediante una función de la forma: Y = a + b*X, donde a y b son constantes, con b ≠ 0; (si
b = 0 entonces Y = a, y todos los valores de X se transforman en a perdiéndose la variabilidad).
Permite aumentar la magnitud de determinado valor, conservando las relaciones intrínsecas que
ese valor tiene respecto a su media y su desvío (la Y mantiene la información de X).
La variable X es, en este contexto, la puntuación en una prueba y a sus valores los llamamos
puntuaciones brutas u originales.
La variable Y recibe el nombre de variable transformada por la transformación afín.
Propiedades:
1. La media de Y es: y=a+b*x
2. La varianza de las puntuaciones transformadas es igual al cuadrado de b por la varianza de
las puntuaciones originales: s2Y = b2*s2X
3. La desviación estándar de las puntuaciones transformadas es igual al producto del valor
absoluto de b por la desviación estándar de las puntuaciones originales: sY = |b|*sX
Podemos ver si el individuo es representado por el grupo mediante:
El puntaje Z: Muestral Z= (x- x̄) /S
Poblacional Z= (x- μ) /σ
Tiene media 0 y desviación estándar 1.
La puntuación Z de una observación indica el número de desviaciones estándar que se separa de la
media. Nos da la posibilidad de hacer comparaciones entre variables, llevando los resultados a una
escala común; como si se quieren hacer observaciones entre unidades de distintos grupos o en
variables medidas de distinta forma.
>>Puntuaciones definidas: ya se sabe su a y su b como en el caso de CI= 100+15*Z, y T = 50+10*Z<<
Rango Percentilar: Indica la posición relativa de un sujeto según el porcentaje de las puntuaciones
del grupo de pertenencia que se encuentran debajo de su puntuación. Muestra la posición del sujeto
en el grupo según el porcentaje de puntuaciones que supera. Para su obtención es necesario
conocer la distribución de la variable.
UNIDAD 6: Muestreo. Prueba de hipótesis.
Muestreo
Importancia: la calidad de la información que se recoja depende de cómo se seleccionen las
unidades de observación. Por eso deben invertirse el tiempo y el esfuerzo necesarios en la
planificación y ejecución del diseño de la muestra.
Definición y acotación de la población: consiste en mencionar las características esenciales que
ubican a la población en un espacio y tiempo concretos. Para ello han de tenerse en cuenta el
problema y los objetivos principales de la investigación.
Marco de muestreo: es el listado que comprende las unidades de la población. Se utiliza para buscar
la documentación que ayuda a la identificación de la población de estudio. Sus requisitos son:
comprehensividad, actualización, sin duplicidad, sin unidades que no pertenezcan a la población
que se analiza, con información suplementaria que ayude a la localización de las unidades, y fácil de
utilizar.
Tamaño de la muestra: está determinado por los siguientes factores: Tiempo y recursos disponibles,
Modalidad de muestreo seleccionada, Tipo de análisis de datos previstos, Varianza poblacional,
Error máximo admisible para la estimación de los parámetros, Nivel de confianza de la estimación.
Error muestral: diferencia existente entre las estimaciones (obtenidas a partir de la muestra) y los
parámetros (características poblacionales). Una estimación es más precisa cuando su error muestral
es menor.
Tipos de muestreo
PROBABILÍSTICO: Utiliza la aleatorización como criterio esencial de selección muestral.
 Cada unidad tiene una probabilidad igual (o establecida a priori) de ser seleccionada para la
muestra.
 La elección de cada unidad es independiente de las demás.
 Permite controlar el error muestral.
NO PROBABILÍSTICO: Utiliza criterios diferentes de la aleatorización como la conveniencia o criterios
subjetivos. Ello puede producir:
 Que algunas unidades de la población tengan mayor probabilidad que otras de ser
seleccionadas para la muestra.
 Dificultad para calcular el error muestral.
 Introducción de sesgos.
Prueba de hipótesis
Dos formas básicas de inferencia estadística: la estimación de parámetros y la prueba de hipótesis.
La estimación de parámetros es el proceso consistente en asignar a las propiedades desconocidas
de una población las propiedades conocidas de una muestra extraída de esa población.
Una prueba de hipótesis es un conjunto de operaciones estadísticas que permite mediante la
utilización del muestreo, rechazar o no la hipótesis formulada, determina si las diferencias son
significativas o no en una serie de operaciones matemáticas, posibilitando el cálculo de la
probabilidad de cometer error en la decisión adoptada, en términos de probabilidad nos permite
establecer si las diferencias entre el parámetro de la distribución y el estadístico encontrado son
suficientemente significativas para considerar que el parámetro ya no es representativo de la
distribución. Para esto contamos con pasos:
1. Elaboración de las hipótesis: nombrar hipótesis científicas (afirmaciones sobre datos de la
realidad) y plantear las hipótesis estadísticas (traducción en términos estadísticos de la
H.C.): Hipótesis nula e Hipótesis alternativa. La hipótesis nula (H0), es SIEMPRE una igualdad,
es la hipótesis que se somete a contraste, sostiene la veracidad de los parámetros, es lo que
llamamos una hipótesis exacta. La hipótesis alternativa (H1) es la negación de la nula,
NUNCA es una igualdad, se plantea por mayor, menor o distinto, suele ser inexacta; son
hipótesis rivales, si una es verdadera la otra es necesariamente falsa.
2. Establecimiento de supuestos: para poder llevar a cabo la prueba de hipótesis debemos
tener las dos distribuciones completamente especificadas, si hay algún dato faltante de la
función debemos SUPONERLO; los supuestos son afirmaciones que permiten especificar a
la totalidad de distribuciones involucradas en la prueba. (Siempre: la variable se comporta
normalmente y la muestra es aleatoria).
3. Elección del estadístico de contraste/prueba: La decisión entre la H0 y la H1, se hace en base
a un estadístico, llamado ESTADÍSTICO DE PRUEBA, que vincula el estimador con el
parámetro. Suponiendo que la hipótesis nula es verdadera el ESTADÍSTICO DE PRUEBA tiene
una distribución conocida que permite calcular la probabilidad de cometer error; este debe
cumplir dos condiciones:
 Proporcionar información empírica relevante sobre la afirmación propuesta en la
H0.
 Que el resultado del estadístico tenga una distribución de probabilidad asociada al
resultado.
4. La lógica de la decisión: para poder establecer si la diferencia entre los parámetros de la
distribución y los datos encontrados en la envidia es significativa tenemos que realizar una
doble partición de la distribución de probabilidad en dos áreas mutuamente excluyentes:
área de rechazo y área de aceptación. El área de aceptación contiene los valores del
estadístico de contraste próximos a la H0, si el estadístico de contraste toma un valor de
esta área consideramos probado que nuestra H inicial es VERDADERA. En el área de rechazo
se encuentran los valores de Z alejados de la veracidad de la H0, si el estadístico de contraste
toma un valor de esta área consideramos que la H0 es FALSA; el tamaño de esta área lo
determina el investigador mediante el nivel de significación (α). (Cuando la H es por > el AdR
se ubica a la derecha y cuando es por < se ubica a la izquierda)
5. La decisión: establecer la Regla de Decisión y formular la Decisión en base a la información
muestral (según la pertenencia del valor observado del estadístico de prueba a la zona de
rechazo o bien de la comparación del valor p con el nivel de significación). Terminando por
expresar la Conclusión en términos del problema (rechazo o conservo).
 Error de Tipo I: es el que se comete cuando se decide rechazar H0 cuando la misma es
verdadera. La probabilidad de cometer el Error de tipo I se denomina nivel de significación
de la prueba y se designa con la letra α. El error Tipo I es el más grave, por eso se trata de
controlarlo., es decir intentar hacer que sea poco probable.
 Error de Tipo II: Es el que se comete cuando se decide no rechazar H0 cuando en realidad
es falsa. La probabilidad de cometer el Error de tipo II se designa con la letra β.
Grados de libertad: son el numero de datos que son libres de variar cuando se calcula la prueba.
Y este numero es el tamaño de la muestra
Descargar