Subido por Pedro Gonzalez

68310918-PROBABILIDAD-UNIDAD-4

Anuncio
UNIDAD 1
ALUMNO:
CATEDRÁTICO:
ESPECIALIDAD:
MATERIA:
PROBABILIDAD Y ESTADISTICA
TRABAJO:
UNIDAD 1
INDICE












INTRODUCCION.
UNIDAD 4 INFERENCIA ESTADISTICA.
4.1 ESTIMACION PUNTUAL Y POR
INTERVALOS DE CONFIANZA.
4.2 ESTIMACION DE LA MEDIA, DE LA
DIFERENCIA DE MEDIAS, DE LA
PROPORCION Y DE LA DIFERENCIA DE
PROPORCIONES.
4.3 DETERMINACION DEL TAMAÑO DE LA
MUESTRA.
4.4 PRUEBA DE HIPOTESIS
4.4.1 PRUEBAS UNILATERALES Y
BILATERALES.
4.4.2 PRUEBAS PARA MEDIA Y ARA
DIFERENCIA DE MEDIAS.
4.4.3 PRUEBAS PARA PROPORCION Y
DIFERENCIA DE PROPORCIONES.
4.5 MUESTRAS PEQUEÑAS.
4.5.1 DISTRIBUCION t DE STUDENT.
4.5.2 DISTRIBUCION DE JI-CUADRADA.
CUADROS DE CONTINGENCIA,
LIMITACIONES DE LA PRUEBA


………………………………………………………………………1
………………………………………………………………………3

……………………………………………………………………..6

…………………………………………………………………….7

………………………………………………………………….11
………………………………………………………………….13




………………………………………………………………….14
………………………………………………………………….15

………………………………………………………………….20
………………………………………………………………….22
………………………………………………………………….22

………………………………………………………………..23

INTRODUCCION






La inferencia estadística o estadística inferencial
es una parte de la Estadística que comprende los
métodos y procedimientos para deducir propiedades
(hacer inferencias) de una población, a partir de una
pequeña parte de la misma (muestra).
La Teoría de muestras.
La estimación de parámetros.
El Contraste de hipótesis.
El Diseño experimental.
La Inferencia bayesiana.
Los métodos no paramétricos
1









Planteamiento del problema
Suele iniciarse con una fijación de objetivos o algunas preguntas como ¿cuál será la media de esta
población respecto a tal característica?, ¿se parecen estas dos poblaciones?
En el planteamiento se definen con precisión la población, la característica a estudiar, las variables,
etcétera. Se analizan también en este punto los medios de los que se dispone y el procedimiento.
 Elaboración de un modelo
Se establece un modelo teórico de comportamiento de la variable de estudio. En ocasiones no es
posible diseñar el modelo hasta realizar un estudio previo. Los posibles modelos son distribuciones de
probabilidad.
 Extracción de la muestra
Se usa alguna técnica de muestreo o un diseño experimental para obtener información de una
pequeña parte de la población.
 Tratamiento de los datos
En esta fase se eliminan posibles errores, se depura la muestra, se tabulan los datos y se calculan los
valores que serán necesarios en pasos posteriores, como la media muestral, la varianza muestral. Los
métodos de esta etapa están definidos por la estadística descriptiva.
 Estimación de los parámetros
Con determinadas técnicas se realiza una predicción sobre cuáles podrían ser los parámetros de la
población.
 Contraste de hipótesis
Los contrastes de hipótesis son técnicas que permiten simplificar el modelo matemático bajo análisis.
Frecuentemente el contraste de hipótesis recurre al uso de estadísticos muéstrales.
 Conclusiones
Se critica el modelo y se hace un balance. Las conclusiones obtenidas en este punto pueden servir para
tomar decisiones o hacer predicciones. El estudio puede comenzar de nuevo a partir de este
momento, en un proceso cíclico que permite conocer cada vez mejor la población y características de
estudio.
2
UNIDAD 4 INFERENCIA ESTADISTICA
 La Inferencia Estadística comprende los métodos que son usados para sacar
conclusiones de la población en base a una muestra tomada de ella. Incluye los
métodos de estimación de parámetros y las pruebas de hipótesis. En la
estimación de puntos la idea es hallar un estimado del parámetro poblacional
basado en la muestra aleatoria tomada de la población. Uno espera que el
estimado este lo mas cerca posible del parámetro. Por ejemplo la media
poblacional m. es estimada por la media muestral x .
 La Estimación de parámetros comprende a su vez la Estimación Puntual, en
donde se estudian los diversos métodos de encontrar estimadores y las
propiedades óptimas que deben tener éstos, y la Estimación por Intervalos de
Confianza, en donde se estima un parámetro usando un intervalo centrado en
un estimado del parámetro y de longitud igual a dos veces el error de
estimación. El Error de estimación depende del nivel de confianza deseado,
usualmente, 90, 95 ó 99 por ciento.
 Una Hipótesis Estadística es una afirmación que se hace acerca de un
parámetro poblacional. Por ejemplo, el tiempo de vida promedio para una
persona diagnosticada con cáncer de pulmón es 180 días. El porcentaje de
personas que favorecen a un candidato a la presidencia es 60%.
3
 La afirmación que está establecida y que se espera sea rechazada
después de aplicar una prueba estadística es llamada la hipótesis nula y
se representa por Ho.
 La afirmación que se espera sea aceptada después de aplicar una prueba
estadística es llamada la hipótesis alterna y se representa por Ha. Una
prueba estadística es una fórmula, basada en la distribución del
estimador del parámetro que aparece en la hipótesis y que va a permitir
tomar una decisión acerca de aceptar o rechazar una hipótesis nula.
 Al igual que una prueba de laboratorio para detectar cierta
enfermedad, una prueba estadística no es cien por ciento segura y
puede llevar a una conclusión errónea. Hay dos tipos de errores que
pueden ocurrir. El error tipo I, que se comete cuando se rechaza
una hipótesis nula que realmente es cierta y el error tipo II, que se
comete cuando se acepta una hipótesis nula que realmente es falsa.
Edgar Acuña Capítulo 7 Inferencia Estadística 149
 El nivel de significación, representada por a, es la probabilidad
de cometer error tipo I, y por lo general se asume que tiene un valor de
.05 ó .01.También puede ser interpretado como el área de la región que
contiene todos los valores posibles de la prueba estadística donde la
hipótesis nula es rechazada.
4
 La probabilidad de cometer error tipo II,
representado por b y al valor 1-b se le llama la
potencia de la prueba. Una buena prueba
estadística es aquella que tiene una potencia de
prueba alta.
 En este capítulo, primero se discutirá el cálculo de
intervalos de confianza y pruebas de hipótesis para
la media poblacional, para una proporción y
finalmente para la varianza de una población.
Luego se tratará los intervalos de confianza y
prueba de hipótesis para la razón de dos varianzas
poblacionales, para la diferencia de dos medias
poblacionales y por último para la diferencia de
dos proporciones.
5
4.1 ESTIMACION PUNTUAL Y POR INTERVALOS DE CONFIANZA.
 Si a partir de las observaciones de una muestra se
calcula un solo valor como estimación de un parámetro
de la población desconocido, el procedimiento se
denomina estimación p

Nos proponemos determinar dos números entre
los cuales se halla el parámetro estudiado con cierta
certeza.

El procedimiento para obtener un intervalo (de
confianza) para un parámetro, la media , por ejemplo,
requiere de la determinación de un estimador del
parámetro y de la distribución del estimador.
6
4.2 ESTIMACION DE LA MEDIA,DE LA DIFERENCIA DE MEDIAS,DE LA
PROPORCION Y DE LA DIFERENCIA DE PROPORCIONES
 Para estimar la media poblacional por medio de intervalos de
confianza, será necesario recordar que el Teorema Central del
Límite nos daba información de como se hallaban distribuidas
las medias muéstrales: "normalmente" con una media igual a la
de la población original m (que es la que ahora tratamos de
conocer) y desviación típica
 Supongamos que hemos analizado la muestra ya nombrada de
media Km., y que sabemos que la desv. típica de la población es
de s=0,4 km., y que nos planteamos estimar la media de todo el
instituto, con un nivel de confianza del 95% .El proceso para
realizar la estimación es el siguiente:
 Sabemos por el T.C.L. que las medias muéstrales se distribuyen
según
 La siguiente figura nos ilustrará:
 Hallamos el valor k de forma que p(-k<Z<k)=0,95 , o lo que es lo
mismo p(Z<k)=0,975. Consultando nuestra tabla de la
distribución normal, encontraremos que k=1.96 .
7
 DIFERENCIA DE MEDIAS
 Suponga que se tienen dos poblaciones distintas, la primera con media

1 y desviación estándar 1, y la segunda con media 2 y desviación estándar 2. Más
aún, se elige una muestra aleatoria de tamaño n1 de la primera población y una
muestra independiente aleatoria de tamaño n2 de la segunda población; se calcula
la media muestral para cada muestra y la diferencia entre dichas medias. La
colección de todas esas diferencias se llama distribución muestral de las
diferencias entre medias o la distribución muestral del estadístico
La distribución es aproximadamente normal para n130 y n230. Si las poblaciones
son normales, entonces la distribución muestral de medias es normal sin importar
los tamaños de las muestras.
8
 Existen ocasiones en las cuales no estamos interesados en la
media de la muestra, sino que queremos investigar la proporción
de artículos defectuosos o la proporción de alumnos reprobados
en la muestra. La distribución muestral de proporciones es la
adecuada para dar respuesta a estas situaciones. Esta
distribución se genera de igual manera que la distribución
muestral de medias, a excepción de que al extraer las muestras de
la población se calcula el estadístico proporción (p=x/n en donde
"x" es el número de éxitos u observaciones de interés y "n" el
tamaño de la muestra) en lugar del estadísitico media.
 Una población binomial está estrechamente relacionada con la
distribución muestral de proporciones; una población binomial
es una colección de éxitos y fracasos, mientras que una
distribución muestral de proporciones contiene las posibilidades
o proporciones de todos los números posibles de éxitos en un
experimento binomial, y como consecuencia de esta relación, las
afirmaciones probabilísticas referentes a la proporción muestral
pueden evaluarse usando la aproximación normal a la binomial,
siempre que np5 y
n(1-p) 5. Cualquier evento se puede convertir en una proporción
si se divide el número obtenido entre el número de intentos.
9
 Distribución Muestral de Diferencia de Proporciones
 Muchas aplicaciones involucran poblaciones de datos cualitativos que deben
compararse utilizando proporciones o porcentajes. A continuación se citan
algunos ejemplos:
 Educación.- ¿Es mayor la proporción de los estudiantes que aprueban
matemáticas que las de los que aprueban inglés?
 Medicina.- ¿Es menor el porcentaje de los usuarios del medicamento A que
presentan una reacción adversa que el de los usuarios del fármaco B que
también presentan una reacción de ese tipo?
 Administración.- ¿Hay diferencia entre los porcentajes de hombres y mujeres
en posiciones gerenciales.
 Ingeniería.- ¿Existe diferencia entre la proporción de artículos defectuosos que
genera la máquina A a los que genera la máquina B?
 Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con
dos proporciones muéstrales, la distribución muestral de diferencia de
proporciones es aproximadamente normal para tamaños de muestra grande
(n1p15, n1q15,n2p25 y n2q25). Entonces p1 y p2 tienen distribuciones muéstrales
aproximadamente normales, así que su diferencia p1-p2 también tiene una
distribución muestral aproximadamente normal.
 Cuando se estudió a la distribución muestral de proporciones se comprobó que
y que , por lo que no es difícil deducir que y que .
 La fórmula que se utilizará para el calculo de probabilidad del estadístico de
diferencia de proporciones es:
10
4.3 DETERMINACION DEL TAMAÑO DE LA MUESTRA
 Estimar un parámetro determinado con el nivel de confianza deseado.
 Detectar una determinada diferencia, si realmente existe, entre los




grupos de estudio con un mínimo de garantía.
Reducir costes o aumentar la rapidez del estudio.
Por ejemplo, en un estudio de investigación epidemiológico la
determina-ción de un tamaño adecuado de la muestra tendría como
objetivo su factibilidad. Así:
Si el número de sujetos es insuficiente habría que modificar los
criterios de selección, solicitar la colaboración de otros centros o
ampliar el perio-do de reclutamiento. Los estudios con tamaños
muéstrales insuficientes, no son capaces de detectar diferencias entre
grupos, llegando a la conclu-sión errónea de que no existe tal
diferencia.
Si el número de sujetos es excesivo, el estudio se encarece desde el
punto de vista económico y humano. Además es poco ético al someter a
más in-dividuos a una intervención que puede ser menos eficaz o
incluso perjudicial. El tamaño de una muestra es el número de
individuos que contiene.
11




 Cálculo del tamaño de la muestra
Una fórmula muy extendida que orienta sobre el cálculo del tamaño de la
muestra para datos globales es la siguiente:
n=((k^2)*N*p*q)/((e^2*(N-1))+((k^2)*p*q))
N: es el tamaño de la población o universo (número total de posibles
encuestados).
k: es una constante que depende del nivel de confianza que asignemos. El nivel
de confianza indica la probabilidad de que los resultados de nuestra
investigación sean ciertos: un 95,5 % de confianza es lo mismo que decir que
nos podemos equivocar con una probabilidad del 4,5%.
 Los valores k más utilizados y sus niveles de confianza son: k 1,15 1,28 1,44 1,65
1,96 2 2,58 Nivel de confianza 75% 80% 85% 90% 95% 95,5% 99% (Por tanto si
pretendemos obtener un nivel de confianza del 95% necesitamos poner en la
fórmula k=1,96) e: es el error muestral deseado. El error muestral es la
diferencia que puede haber entre el resultado que obtenemos preguntando a
una muestra de la población y el que obtendríamos si preguntáramos al total de
ella.
 Altos niveles de confianza y bajo margen de error no significan que la encuesta
sea de mayor confianza o esté más libre de error necesariamente; antes es
preciso minimizar la principal fuente de error que tiene lugar en la recogida de
datos.
12
4.4 PRUEBA DE HIPOTESIS
 Las secciones anteriores han mostrado cómo puede
estimarse un parámetro a partir de los datos contenidos en
una muestra. Puede encontrarse ya sea un sólo número
(estimador puntual) o un intervalo de valores posibles
(intervalo de confianza). Sin embargo, muchos problemas
de ingeniería, ciencia, y administración, requieren que se
tome una decisión entre aceptar o rechazar una
proposición sobre algún parámetro. Esta proposición recibe
el nombre de hipótesis. Este es uno de los aspectos más
útiles de la inferencia estadística, puesto que muchos
tipos de problemas de toma de decisiones, pruebas o
experimentos en el mundo de la ingeniería, pueden
formularse como problemas de prueba de hipótesis.
 Una hipótesis estadistica es una proposición o supuesto
sobre los parámetros de una o más poblaciones.
13
4.4.1 PRUEBAS UNILATERALES Y BILATERALES
 a) Prueba bilateral o de dos extremos: la hipótesis planteada se formula con
la igualdad
 Ejemplo
 H0 : µ = 200
 H1 : µ ≠ 200
 b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula
con ≥ o ≤
 H0 : µ ≥ 200 H0 : µ ≤ 200
 H1 : µ < 200 H1 : µ > 200

 En las pruebas de hipótesis para la media (μ), cuando se conoce la desviación
estándar (σ) poblacional, o cuando el valor de la muestra es grande (30 o más),
el valor estadístico de prueba es z y se determina a partir de:
 El valor estadístico z, para muestra grande y desviación estándar poblacional
desconocida se determina por la ecuación:
 En la prueba para una media poblacional con muestra pequeña y desviación
estándar poblacional desconocida se utiliza el valor estadístico t.
14
4.4.2 PRUEBAS PARA MEDIA Y PARA DIFERENCIA DE MEDIAS























Pruebas de hipótesis para la media con muestra grande
Para realizar una prueba de hipótesis se sigue un procedimiento que
quedará mas claro con un ejemplo:
El dueño de un café desea saber si la edad promedio de las personas
que entran a su negocio es de 20 años, si eso es verdad se piensa
realizar una remodelación de dicho café para hacerlo mas juvenil. Para
hacer lo anterior se realiza un muestreo aleatorio de 40 personas,
dando un promedio de la muestra de 22 años y una desviación estándar
de 3.74 años.
Paso 1. Determinar la hipótesis Nula “Ho” y Alternativa “Ha”.
Ho: La edad promedio de los clientes es de 20 años.
Ha: _______________________________________
(El estudiante debe describir la Ha)
Nótese que la hipótesis nula considera IGUAL a 20 años por lo tanto
es una prueba de hipótesis de dos colas.
Paso 2. Determinar el nivel de significancia.
Este nivel representa la probabilidad de rechazar una hipótesis nula
verdadera, matemáticamente se puede considerar cualquier valor entre
cero y uno; pero para estudios de pruebas de hipótesis normalmente
está entre 0.05 y 0.1. Este nivel está determinado por el analista y
debe basarse en las características del estudio y el riesgo que se
considere aceptable de cometer el error tipo I.
Nivel de significancia del estudio para el ejemplo: α = 0.1
15
 Gráficamente el nivel de significancia se distribuye en la









curva de
distribución normal tal como se muestra en la figura,
nótese que en el
caso de pruebas de hipótesis de medias, ésta se ubica en la
parte media
de la distribución de probabilidad:
Paso 3. Calcular los intervalos que implican ese nivel
de significancia.
Para dicho nivel de significancia los valores de Z son:
Z = +/- 1.6448 Quedando de la siguiente manera:
Ho: μ = 20 años
Ho: μ = 20 años
Z = - 1.6448 Z = 1.6448
16
 Paso 4. Calcular el “estadístico” de la prueba.
 El estadístico Z se calcula de la siguiente manera:
 s = Se calcula la siguiente desviación estándar
 = Se calcula el valor de Z tipificado
 μ Promedio considerado por la hipótesis nula.
 x Media de la muestra tomada.
 s Desviación estándar de la muestra.
 n Número de elementos muestreados.
x
 s Desviación estándar tipificada.
 z Valor de Z tipificado
 3.74
17
 Paso 5. Determinar si el estadístico cae dentro de la









región que hace la
Hipótesis nula verdadera.
Como podrá notarse, el estadístico esta fuera de la región
que hace
verdadera la hipótesis nula.
Paso 6. Aceptar o rechazar la hipótesis nula.
En este caso como el estadístico de la prueba cae fuera de la
región que
hace verdadera la hipótesis nula, se rechaza y se toma como
verdadera
la hipótesis alternativa:
Ho: La edad promedio de los clientes es de 20 años.
(FALSO)
Ha: La edad promedio de los clientes No es de 20 años
(VERDAD)
18
 Prueba para diferencia de proporciones

















En algunos diseños de investigación, el plan muestral requiere
seleccionar dos muestras independientes, calcular las proporciones
muestrales y usar la diferencia de las dos proporciones para estimar o
probar una diferencia entre las mismas.
Las aplicaciones son similares a la diferencia de medias, por ejemplo si
dos empresas consultoras ofrecen datos de proporciones de personas
que van a votar por el PRI y al hacer dos estudios diferentes salen
resultados ligeramente diferentes ¿pero qué tanta diferencia se requiere
para que sea estadísticamente significativo? De eso se tratan las
pruebas estadísticas de diferencias de proporciones.
El estadístico Z para estos casos se calcula de la siguiente manera:
1 ˆp = proporción de la muestra 1.
2 ˆp = proporción de la muestra 2.
1 p = proporción de la población 1.
2 p = proporción de la población 2.
1 n = tamaño de la muestra 1.
2 n = tamaño de la muestra 2.
19
4.4.3 PRUEBAS PARA PROPORCION Y DIFERENCIA DE PROPORCIONES










Las pruebas de hipótesis a partir de proporciones se realizan casi en la misma forma utilizada cuando
nos referimos a las medias, cuando se cumplen las suposiciones necesarias para cada caso. Pueden
utilizarse pruebas unilaterales o bilaterales dependiendo de la situación particular. La proporción de
una población Las hipótesis se enuncian de manera similar al caso de la media.
Ho: p = p0
H1: p ¹ p0
En caso de que la muestra sea grande n>30, el estadígrafo de prueba es:
se distribuye normal estándar. Regla de decisión: se determina de acuerdo a la hipótesis alternativa (si
es bilateral o unilateral ), lo cual puedes fácilmente hacerlo auxiliándote de la tabla 4.4.1. En el caso de
muestras pequeñas se utiliza la distribución Binomial. No lo abordaremos por ser complicado y poco
frecuente su uso. Diferencia entre las proporciones de dos poblaciones La situación más frecuente es
suponer que existen diferencias entre las proporciones de dos poblaciones, para ello suelen
enunciarse las hipótesis de forma similar al caso de las medias:
Ho: p1 = p2 Þ p1 - p2 = 0
H1: p1 ¹ p2
Puede la hipótesis alternativa enunciarse unilateralmente. El estadígrafo de prueba para el caso de
muestras independientes:
Siendo a1 y a2, el número de sujetos con la característica objeto de estudio en las muestras 1 y 2
respectivamente, es decir, en vez de calcular la varianza para cada muestra, se calcula una p conjunta
para ambas muestras bajo el supuesto que no hay diferencias entre ambas proporciones y así se
obtiene la varianza conjunta. Recuerda que q = 1-p. Está de más que te diga que este estadígrafo se
distribuye normal estándar. La regla de decisión se determina de manera similar a los casos ya vistos
anteriormente. El objetivo de la prueba es comparar estas dos proporciones, como estimadores
H1: p1 ¹ p2 Recuerda que la H1 también puede plantearse de forma unilateral.
20
 Diferencia entre las proporciones de dos poblaciones
 La situación más frecuente es suponer que existen diferencias entre las









proporciones de dos poblaciones, para ello suelen enunciarse las
hipótesis de forma similar al caso de las medias:
Ho: p1 = p2 Þ p1 - p2 = 0 H1: p1 ¹ p2
Puede la hipótesis alternativa enunciarse unilateralmente.
El estadígrafo de prueba para el caso de muestras independientes:
donde Siendo a1 y a2, el número de sujetos con la característica objeto
de estudio en las muestras 1 y 2 respectivamente, es decir, en vez de
calcular la varianza para cada muestra, se calcula una p conjunta para
ambas muestras bajo el supuesto que no hay diferencias entre ambas
proporciones y así se obtiene la varianza conjunta. Recuerda que q = 1p.
Está de más que te diga que este estadígrafo se distribuye normal
estándar.
La regla de decisión se determina de manera similar a los casos ya vistos
anteriormente.
El objetivo de la prueba es comparar estas dos proporciones, como
estimadores
H1: p1 ¹ p2
Recuerda que la H1 también puede plantearse de forma unilateral.
21
4.5 MUESTRAS PEQUEÑAS
 4.5.1 DISTRIBUCION t DE STUDENT
 En probabilidad y estadística, la distribución t (de Student) es una
distribución de probabilidad que surge del problema de estimar la media de
una población normalmente distribuida cuando el tamaño de la muestra es







pequeño.
Aparece de manera natural al realizar la prueba t de Student para la
determinación de las diferencias entre dos medias muéstrales y para la
construcción del intervalo de confianza para la diferencia entre las medias de
dos poblaciones cuando se desconoce la desviación típica de una población y
ésta debe ser estimada a partir de los datos de una muestra.
 Caracterización
La distribución t de Student es la distribución de probabilidad del cociente
donde
Z tiene una distribución normal de media nula y varianza 1
V tiene una distribución chi-cuadrado con ν grados de libertad
Z y V son independientes
Si μ es una constante no nula, el cociente es una variable aleatoria que sigue la
distribución t de Student no central con parámetro de no-centralidad μ.
22
4.5.2 DISTRIBUCION JI- CUADRADA.CUADROS DE
CONTINGENCIA, LIMITACIONES DE LA PRUEBA.









Estadística, la distribución χ² (de Pearson) es una distribución de probabilidad continua con un
parámetro k que representa los grados de libertad de la variable aleatoria
donde Zi son variables aleatorias normales independientes de media cero y varianza uno. El que la
variable aleatoria X tenga esta distribución se representa habitualmente así: .
Es conveniente tener en cuenta que la letra griega χ se transcribe al latín como chi y se pronuncia en
castellano como ji.
 Tabla de contingencia
En estadística las tablas de contingencia se emplean para registrar y analizar la relación entre dos o
más variables, habitualmente de naturaleza cualitativa (nominales u ordinales).
Supóngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y la segunda recoge si
el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de
100 individuos. Se puede emplear una tabla de contingencia para expresar la relación entre estas dos
variables, del siguiente modo:
Diestro Zurdo TOTAL Hombre 43 9 52 Mujer 44 4 48 TOTAL 87 13 100 Las cifras en la columna de
la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la cifra situada en la
esquina inferior derecha es el gran total.
La tabla nos permite ver de un vistazo que la proporción de hombres diestros es aproximadamente
igual a la proporción de mujeres diestras. Sin embargo, ambas proporciones no son idénticas y la
significación estadística de la diferencia entre ellas puede ser evaluada con la prueba χ² de Pearson,
supuesto que las cifras de la tabla son una muestra aleatoria de una población. Si la proporción de
individuos en cada columna varía entre las diversas filas y viceversa, se dice que existe asociación entre
las dos variables. Si no existe asociación se dice que ambas variables son independientes.
El grado de asociación entre dos variables se puede evaluar empleando distintos coeficientes: el más
simple es el coeficiente phi que se define por
φ = √(χ2 / N) donde χ2 se deriva del test de Pearson, y N es el total de observaciones -el gran total-. Φ
puede oscilar entre 0 (que indica que no existe asociación entre las variables) e infinito. A diferencia
de otras medidas de asociación, el coeficiente Φ de Cramer no está acotado.
23
Descargar