7-4 Estimación a de la media poblacional: rr desconocida Tamaño muestral utilizando la regla práctica del intervalo. Usted acaba de ser contratado por la división de marketing de General Motors para estimar la media de la cantidad de dinero que se gasta actualmente en la compra de automóviles nuevos en Estados Unidos. Primero use la regla práctica del intervalo para hacer un estimado burdo de la desviación estándar de las cantidades gastadas. Es razonable suponer que el rango típico de cantidades va desde $12,000 hasta alrededor de $70,000. Luego use esa desviación estándar estimada para determinar el tamaño muestra' que corresponde a un nivel de confianza del 95% y a un margen de error de $100. ¿Es práctico el tamaño muestral? Si no es así, ¿qué se debe cambiar para obtener un tamaño muestral práctico? Tamaño muestral utilizando datos muestrales. Usted quiere estimar la media del pulso de adultos varones. Remítase al conjunto de datos 1 en el apéndice B y calcule el pulso máximo y mínimo para varones, luego utilice estos valores con la regla práctica del intervalo para estimar o-. ¿Cuántos adultos varones debe usted seleccionar al azar y examinar si quiere tener un nivel de confianza del 95% de que la media muestral del pulso está dentro de 2 latidos (por minuto) de la media poblacional bt. real? Si en vez de usar la regla práctica del intervalo se emplea la desviación estándar de los pulsos de varones del conjunto de datos 1 como un estimado de o-, ¿es muy diferente el tamaño muestral requerido? ¿Qué tamaño muestral parece estar más cerca del tamaño muestral correcto? 7-3 MÁS ALLÁ DE LO BÁSICO Intervalo de confianza con factor de corrección por población finita. El error estándar de la media es u/V71, siempre y cuando el tamaño de la población sea infinito. Si el tamaño de la población es finito y se denota como N, entonces el factor de corrección V (N — n)/ (N — 1) debe usarse siempre y cuando n > 0.05N. Este factor de corrección multiplica el margen de error E dado en la fórmula 7-4, de manera que el margen de error es como se indica abajo. Calcule el intervalo de confianza del 95% para la media de 250 puntuaciones de CI, si una muestra de 35 de esas puntuaciones produce una media de 110. Suponga que o- = 15. E= za/2 -N—n 71 N— 1 Tamaño muestral con factor de corrección por población finita. En la fórmula 7-4 para el margen de error E, suponemos que la población es infinita, que estamos realizando un muestreo con reemplazo, o que la población es muy grande. Si tenemos una población relativamente pequeña y hacemos el muestreo sin reemplazo, debemos modificar E para incluir un factor de corrección por población finita, para que el margen de error sea como el que se indica en el ejercicio 39, donde N es el tamaño de la población. En esta expresión del margen de error se despeja n para obtener N0.2(zai2)2 ti (N — i)E2 0.2(za/2)2 Repita el ejercicio 33, suponiendo que los estudiantes de estadística se seleccionan al azar y sin reemplazo, de una población de N = 200 estudiantes de estadística. Estimación de la media 7-4 poblacional: o- desconocida Concepto clave En esta sección se presentan métodos para construir un estimado del intervalo de confianza de una media poblacional cuando no se conoce la desviación estándar. (En la sección 7-3 se presentaron métodos para estimar /..z, cuando se conoce u). Cuando se desconoce u, se utiliza la distribución 1 de Student (en vez de la distribución normal), suponiendo que ciertos requisitos (los cuales se señalan abajo) se satisfacen. Como generalmente se desconoce u en circunstancias reales, los métodos de esta sección son muy realistas y prácticos, y se utilizan con frecuencia. 349 350 Capítulo 7 Estimaciones y tamaños de muestra Requisitos La muestra es aleatoria simple. La muestra proviene de una población distribuida normalmente o n > 30. Como en la sección 7-3, el requisito de una población distribuida normalmente no es estricto. Por lo regular, podemos considerar que la población está distribuida normalmente después de usar los datos muestrales para confirmar que no existen valores extremos y que el histograma tiene una forma que no es muy lejana a la de una distribución normal. Además, al igual que en la sección 7-3, el requisito de que el tamaño muestral sea n > 30 suele usarse como directriz, pero el tamaño muestral mínimo realmente depende de cuánto se aleja la distribución de la población de la distribución normal. [Si se sabe que una población se distribuye normalmente, la distribución de medias muestrales x es exactamente una distribución normal con media p. y desviación estándar o-IV77; si la población no está distribuida normalmente, muestras grandes (n > 30) producen medias muestrales con una distribución que es aproximadamente normal, con media p. y desviación estándar a-/V72]. Al igual que en la sección 7-3, la media muestral x— es el mejor estimado puntual (o estimado de un solo valor) de la media poblacional p. La media muestral x es el mejor estimado puntual de la media poblacional He aquí el aspecto clave de esta sección: si o- no se conoce, pero los requisitos anteriores se satisfacen, utilizamos la distribución t de Student (en vez de la distribución normal), que desarrolló William Gosset (1876-1937). Gosset fue un empleado de la cervecería Guinness Brewery que necesitaba una distribución que pudiera utilizarse con muestras pequeñas. La cervecería irlandesa donde trabajaba no permitía la publicación de resultados de investigaciones, entonces Gosset publicó bajo el seudónimo de Student. (En aras de la investigación y para servir a sus lectores, el autor visitó la cervecería Guinness Brewery y probó una muestra del producto. ¡Qué comprometido!) Puesto que no conocemos el valor de u, lo estimamos con el valor de la desviación estándar muestral s, pero esto introduce otra fuente de falta de confiabilidad, en especial con las muestras pequeñas. Para mantener un intervalo de confianza en algún nivel deseado, como el 95%, compensamos esta falta de confiabilidad adicional haciendo más ancho el intervalo de confianza: utilizamos valores críticos ta/2 (de una distribución t de Student), los cuales son más grandes que los valores críticos de zap de la distribución normal. Distribución t de Student Si una población tiene una distribución normal, entonces la distribución de x t= "\/1 para todas las muestras de tamaño n. La distribues una distribución t de Student ción t de Student, conocida a menudo como distribución t, se utiliza para calcular valores críticos denotados por ta/2• Pronto analizaremos algunas de las propiedades importantes de la distribución t, pero antes presentamos los componentes necesarios para la construcción de intervalos Estimación a de la media poblacional: o- desconocida 7-4 351 de confianza. Comencemos con el valor crítico denotado por t a,2. Un valor de ta/2 se puede encontrar en la tabla A-3 localizando el número apropiado de grados de libertad en la columna izquierda y avanzando por el renglón correspondiente hasta encontrar el número que aparece directamente abajo del área adecuada en la parte superior. 41 Definición El número de grados de libertad para un conjunto de datos muestrales recolectados es el número de valores muestrales que pueden variar después de haber impuesto ciertas restricciones a todos los valores de los datos. Por ejemplo, si 10 estudiantes tienen puntuaciones de examen con una media de 80, podemos asignar con libertad valores a las primeras 9 puntuaciones, pero la décima puntuación se calcula. La suma de las 10 puntuaciones debe ser 800, entonces la décima puntuación debe ser igual a 800 menos la suma de las primeras 9 puntuaciones. Puesto que esas primeras 9 puntuaciones pueden seleccionarse con libertad para adoptar cualquier valor, decimos que existen 9 grados de libertad disponibles. Para las aplicaciones de esta sección, el número de grados de libertad es simplemente el tamaño muestral menos 1. grados de libertad = n — 1 Extractos de una circular del Departamento del Transporte Los siguientes extractos de una circular del departamento de transporte de Estados Unidos atañen algunos de los requisitos de exactitud para el equipo EJEMPLO Cálculo de un valor crítico Una muestra de tamaño n = 23 es una muestra aleatoria simple seleccionada de una población distribuida normalmente. Calcule el valor crítico ta/2 correspondiente a un nivel de confianza del 95%. SOLUCIÓN Puesto que n = 23, el número de grados de libertad está dado por n — 1 = 22. Utilizando la tabla A-3, localizamos el renglón 22 con respecto a la columna de la extrema izquierda. Al igual que en la sección 7-2, un nivel de confianza del 95% corresponde a a = 0.05, de manera que encontramos los valores listados en la columna para una área de 0.05 en dos colas. El valor correspondiente al renglón para 22 grados de libertad y la columna para una área de 0.05 en dos colas es 2.074; entonces t a/2 = 2.074. Ahora que sabemos cómo encontrar valores críticos denotados por ta/2, podemos describir el margen de error E de este intervalo de confianza. de navegación empleado en aviones. Observe el uso del intervalo de confianza. "El total de las contribuciones de error del equipo a bordo, combinado con los errores técnicos de vuelo correspondientes incluidos en la lista, no debe exceder lo siguiente, con un nivel de confianza del 95% (2-sigma), durante un periodo igual al ciclo de actualización". "El sistema de vías y rutas aéreas de Margen de error E para la estimación de lu (con u desconocida) Fórmula 7-6 E= Estados Unidos tiene anchuras de protección de ruta que se ta/2 utilizan en un sistema VOR Pi donde tap tiene n — 1 grados de libertad. La tabla A-3 lista valores de ta12. con una exactitud de ±4.5 grados con base en una probabilidad del 95%". ir Intervalo de confianza para la estimación de l (con u desconocida) — E < ,u < + E donde s E = ta/2 _ Vn ji 352 Capítulo 7 Estimaciones y tamaños de muestra El siguiente procedimiento utiliza el margen de error anterior en la construcción de estimados del intervalo de confianza de Procedimiento para construir un intervalo de confianza para (con fr desconocida) Verifique que los requisitos se satisfacen. (Tenemos una muestra aleatoria simple y la población parece estar distribuida normalmente o n > 30). Utilizando n — 1 grados de libertad, remítase a la tabla A-3 y encuentre el valor crítico tan que corresponde al nivel de confianza deseado. (Para el nivel de confianza, remítase al "área en dos colas"). Evalúe el margen de error E = tan • s /N/71• Utilizando el valor del margen de error E calculado y el valor de la media muestral x, calcule los valores de .7x. — E y .X + E. Sustituya estos valores en el formato general para el intervalo de confianza: — E < < + E o x±E o (x— — E, x— + E) 5. Redondee los límites del intervalo de confianza resultantes. Si utiliza el conjunto original de datos, redondee a un decimal más del que se usa para el conjunto original de datos. Si utiliza un resumen de estadísticos (n, z, s), redondee los límites del intervalo de confianza al mismo número de lugares decimales utilizados para la media muesiral. Gráfica de tallo y hojas de las edades 34 7 7 8 41 2 3 4 4 5 5 5689 53 3 4 4 5 6 7 6 EJEMPLO Construcción de un intervalo de confianza En el diagrama de tallo y hojas que aparece al margen, se incluyen las edades de solicitantes que no lograron un ascenso (según datos de "Debating the Use of Statistical Evidence in Allegations of Age Discrimination", de Barry y Boland, American Statistician, vol. 58, núm. 2). Existe el tema más importante de si ciertos solicitantes fueron víctimas de discriminación por edad, pero por ahora nos enfocaremos en el simple aspecto de utilizar esos valores como una muestra con el propósito de estimar la media de una población más grande. Suponga que la muestra es aleatoria simple y utilice los datos muestrales con un nivel de confianza del 95% para calcular lo siguiente: a. El margen de error E li. El intervalo de confianza para p. SOLUCIÓN REQUISITO 3 Primero debemos verificar que los dos requisitos para esta sección se satisfacen. Estamos suponiendo que la muestra es aleatoria simple. Ahora revisamos el requisito de que "la población se distribuya normalmente o n > 30". Puesto que n = 23, debemos verificar que la distribución sea aproximadamente normal. La forma de la gráfica de tallo y hojas sugiere una distribución normal. Además, una gráfica cuantilar normal confirma que los datos 7-4 Estimación a de la media poblacional: o- desconocida 353 muestrales provienen de una población con una distribución aproximadamente normal. Por consiguiente. los requisitos se satisfacen y procedemos con los métodos de esta sección. 1,/ El nivel de confianza de 0.95 implica que a = 0.05, de manera que t an = 2.074 (utilice la tabla A-3 con gl = n— 1 = 22, como se mostró en el ejemplo anterior). Después de encontrar que los estadísticos muestrales son n= 23, = 47.0 y s= 7.2, el margen de error E se calcula utilizando la fórmula 7-6 como sigue. Se utilizan decimales adicionales para minimizar los errores de redondeo en el intervalo de confianza calculado en e] inciso b). E = t„12 S = 2.074 7.2 = 3.1 1370404 V23 Con = 47.0 y E = 3.11370404, construimos el intervalo de confianza de la siguiente manera: x — E < ,u < x + E 47.0 — 3.11370404 < ,u < 47.0 + 3.11370404 (redondeado a un decimal más que los 43.9 < < 50.1 datos originales) INTERPRETACIÓN Este resultado también podría expresarse en la forma de 47.0 ± 3.1 o (43.9, 50.1). Con base en los resultados muestrales dados, tenemos una confianza del 95% de que los límites de 43.9 años y 50.1 años ... realmente contienen el valor de la media poblacional Ahora listamos las propiedades importantes de la distribución t que utilizamos en esta sección. Propiedades importantes de la distribución t de Student La distribución t de Student es diferente para distintos tamaños de muestra. (Véase la figura 7-5 para los casos n= 3 y n= 12). La distribución t de Student tiene la misma forma de campana simétrica que la distribución normal estándar, pero refleja una mayor variabilidad (con distribuciones más amplias) de lo que se espera con muestras pequeñas. Distribución normal estándar Distribución t de Student con n • 12 Distribución t de Student con n • 3 o Figura 7-5 Distribuciones 1 de Student para n = 3 y n = 12 La distribución t de Student tiene la misma forma y simetría general de la distribución normal estándar, pero refleja una mayor variabilidad de lo que se espera con muestras pequeñas. Estimaciones y tamaños de muestra Capítulo 7 354 La distribución t de Student tiene una media de t = O (así como la distribución normal estándar tiene una media de z = O). La desviación estándar de la distribución t de Student varía con el tamaño muestral, pero es mayor que 1 (a diferencia de la distribución normal estándar, que tiene u = 1). 5. Conforme el tamaño muestral n se hace más grande, la distribución t de Student se acerca más a la distribución normal estándar. Elección de la distribución apropiada En ocasiones es difícil decidir entre utilizar la distribución normal estándar z o la distribución t.de Student. El diagrama de flujo de la figura 7-6 y la tabla 7-1 resumen los aspectos clave a considerarse cuando se construyen intervalos de la media poblacional. En la figura 7-6 o en la tabla 7- 1 . confianza para estimar 30) obtenida de una distribunote que si tenemos una muestra pequeña (n ción que difiere drásticamente de una distribución normal, no podemos usar los métodos descritos en este capítulo. Una alternativa es utilizar métodos no paramétricos (véase el capítulo 13); otra alternativa es usar el método de bootstrap por computadora. En ambos enfoques no se hacen supuestos acerca de la población original. El método bootstrap se describe en el proyecto tecnológico al final del capítulo. <-- Sí Sí ¿La población está distribuida normalmente? Sí Utilice la distribución normal. „, ¿Se conoce a? No ¿La población está distribuida normalmente? o o No LEs n> 309 ¿Es n > 30? Utilice métodos no paramétricos o de bootstrap. Figura 7-6 Elección entre z y t o Utilice la distribución t. Utilice métodos no paramétricos o de bootstrap. 7-4 Tabla 7 - 1 Estimación a de la media poblacional: u desconocida 355 Elección entre z y t Método Condiciones Utilice la distribución normal (z). (7' conocida y población distribuida normalmente o n- conocida Utilice la distribución t. y a > 30 o- desconocida y población distribuida normalmente o o <I desconocida y n > 30 Utilice un método no paramétrico o de bootstrap. Notas: La población no está distribuida normalmente y n -.5. 30 1. Criterios para decidir si la población está distribuida normalmente: La población no necesita ser exactamente normal, pero debe tener una apariencia un tanto simétrica, con una moda y sin valores extremos. 2. Tamaño muestral n > 30: Éste es un lineamiento que se usa regularmente, pero tamaños muestrales de 15 a 30 son adecuados si la población parece tener una distribución normal y no existen valores extremos. Para algunas distribuciones poblacionales que estén extremadamente alejadas de la normal, puede requerirse que el tamaño muestral sea mayor de 50 o aun de 100. Estimación de azúcar en las naranjas En Florida, los miembros de la industria de los cítricos usan profusamente métodos estadísticos. Una aplicación específica tiene que ver con la forma en que se paga a los agricultores por las naranjas que se usan para elaborar jugo de naranja. El siguiente ejemplo se enfoca en elegir la aproximación correcta utilizando los métodos de esta sección y de la sección 7-3. Cuando llega un camión cargado con naranjas, primero se pesa la carga en la planta receptora. luego se elige al azar r- EJEMPLO Selección de distribuciones Suponiendo que usted planea una muestra de una docena de construir un intervalo de confianza para la media poblacional 11, utilice los datos para determinar si el margen de error E debe calcularse utilizando un valor crítico de ze12 (de la distribución normal), un valor crítico de t ap (de la distribución t) o ninguno de estos (de manera que los métodos de la sección 7-3 y de esta sección no son viables). naranjas. La muestra se pesa, = 150, x = 100, s = 15, y la población tiene una distribución sesgada. n = 8, x = 100, s = 15, y la población tiene una distribución normal. n = 8, .7v = 100, s = 15, y la población tiene una distribución muy sesgada. n = 150, x = 100, cr = 15, y la distribución está sesgada. (Esta situación n casi nunca ocurre). se exprime y se mide la cantidad de azúcar que contiene el jugo. Con base en los resultados de la muestra, se estima la cantidad total de azúcar contenida en toda la carga del camión. El pago por la carga de naranjas se basa en la estimación de la cantidad de azúcar, ya que las naranjas más dulces e. n = 8, •X = 100, cr = 15, y la distribución está extremadamente sesgada. (Esta situación casi nunca ocurre). son más valiosas que las me- SOLUCIÓN Remítase a la figura 7-6 o a la tabla 7-1 para determinar lo siguiente: dades de jugo sean iguales. Puesto que la desviación estándar poblacional u no se conoce y la muestra es grande (n > 30), el margen de error se calcula usando to, en la fórmula 7-6. Puesto que la desviación estándar poblacional u no se conoce y la población está distribuida normalmente, el margen de error se calcula usando 1„/, en la fórmula 7-6. continúa nos dulces, aunque las canti- 356 Capítulo 7 Estimaciones y tamaños de muestra ed.. e. Estimados para mejorar el censo En el censo del decenio no se cuenta a todas las personas y es posible que algunas de ellas se cuenten más de una vez. Existen métodos estadísticos para mejorar los conteos de población con ajustes en cada condado de cada estado. Algunos argumentan que la Constitución especifica que el censo debe ser una "enumeración real" que no permite ajustes. Una norma de la Suprema Corte prohíbe el uso de conteos de población ajustados por las repercusiones que esto tendría en la asignación de escaños en el Congreso, pero una disposición reciente establecida por una Corte Federal de apelación ordenó que se permitieran los conteos ajustados, incluso si no pueden utilizarse para ese propósito. Según la Associated Press, "el Census Bureau ha dejado abierta la posibilidad de utilizar datos ajustados para financiamientos federales en el futuro", de manera que el uso de métodos estadísticos poderosos, con el tiempo, produciría una mejor asignación de fondos federales y estatales. 2700 — Puesto que la muestra es pequeña y la población no tiene una distribución normal, el margen de error E no debe calcularse usando un valor crítico de zo2 o ta 2. No se aplican los métodos de la sección 7-3 ni de esta sección. Puesto que la desviación estándar poblacional u se conoce y la muestra es grande (n > 30), el margen de error se calcula usando z a/2 en la fórmula 7-4. Puesto que la población no está distribuida normalmente y la muestra es pequeña (n 5- 30), el margen de error E no debe calcularse usando un valor crítico de za/2 o ta/2. No se aplican los métodos de la sección 7-3 ni de esta sección. EJEMPLO Intervalo de confianza para pesos al nacer En un estudio de los efectos sobre los bebés del consumo de cocaína durante el embarazo, se obtuvieron los siguientes datos de pesos al nacer: n = 190,x = 2700 g, s = 645 g (según datos de "Cognitive Outcomes of Preschool Children with Prenatal Cocaine Exposure", de Singer et al., Journal of the American Medical Association, vol. 291, núm. 20). El diseño del estudio justifica el supuesto de que la muestra puede tratarse como una muestra aleatoria simple. Utilice los datos muestrales para construir un estimado del intervalo de confianza del 95% de p, el peso medio al nacer de todos los bebés hijos de madres que consumieron cocaína durante el embarazo. SOLUCIÓN REQUISITO 3 Primero debemos verificar que los requisitos se cumplan. Se trata de una muestra aleatoria simple. Puesto que n = 190, se satisface el requisito de que "la población se distribuye normalmente o n> 30". Por lo tanto, los requisitos se cumplen. (Éste es el paso 1 del procedimiento de cinco pasos que se describió antes, y ahora podemos continuar con los pasos restantes). 3 Paso 2: El valor crítico es ta/2 = 1.972. En la tabla A-3 encontramos que el valor crítico corresponde a n — 1 = 189 grados de libertad (columna izquierda de la tabla A-3) y una área en dos colas de 0.05. (Puesto que la tabla A-3 no incluye gl = 189, utilizamos el valor crítico más cercano de 1.972. Si utilizamos un programa de cómputo encontraremos que un valor crítico más exacto es 1.973, de manera que la aproximación que se hace aquí es bastante buena). Paso 3: Calcule el margen de error E: El margen de error E = 2.97355 se calcula utilizando la fórmula 7-6 como se indica a continuación, con decimales adicionales para minimizar el error de redondeo en el intervalo de confianza calculado en el paso 4. s• E = ta/2 ,— = 1.972 V n Paso 4: 645 = 92.276226 V190 Calcule el intervalo de confianza: Ahora podemos calcular el inter- valo de confianza utilizando x— = 2700 g y E = 92.276226, como se indica a continuación: x — E < 92.276226 < 2607.7238 < <x+E < 2700 + 92.276226 < 2792.2762 Estimación a de la media poblacional: u desconocida 7-4 357 Paso 5: Redondee los límites del intervalo de confianza. Como la media inuestral se redondea a un número entero, redondee los límites del intervalo de confianza para obtener este resultado: 2608 <1..t. < 2792. Con base en los datos muestrales, tenemos una confianza del 95% de que los límites de 2608 g y 2792 g realmente contienen el valor del peso medio al nacer. Ahora podemos comparar este resultado con un intervalo de confianza construido para los pesos al nacer de niños cuyas madres no con... sumieron cocaína. (Véase el ejercicio 17). INTERPRETACIÓN Cálculo del estimado puntual y de E a partir de un intervalo de confianza Más adelante en esta sección describiremos cómo pueden utilizarse las calculadoras y los programas de cómputo para calcular un intervalo de confianza. Un uso común requiere que usted ingrese un nivel de confianza y estadísticos muestrales, y la pantalla indica los límites del intervalo de confianza. La media muestrall es el valor intermedio de estos límites; el margen de error E es la mitad de la diferencia entre estos límites (ya que el límite superior es x— + E y el límite inferior es .7 — E. y la distancia que los separa es 2E). Estimado puntual dem.: x= (límite de confianza superior) + (límite de confianza inferior) 2 Margen de error: E= (límite de confianza superior) — (límite de confianza inferior) 2 EJEMPLO Edades de polizones Al analizar las edades de todos los polizones del Queen Mary (según datos de Cunard Line), se obtiene la pantalla de Minitab que se muestra abajo. Utilice el intervalo de confianza dado para calcular el estimado puntual 7v y el margen de error E. Trate los valores como datos muestrales seleccionados al azar de una población grande. Minitab 95.0% CI (24.065, 27 . 218) SOLUCIÓN En los siguientes cálculos, los resultados se redondean a un decimal, que es un espacio decimal adicional más del redondeo utilizado para la lista original de edades. X= (límite de confianza superior) + (límite de confianza inferior) 2 27.218 + 24.065 2 E= — = 25.6 años (límite de confianza superior) — (límite de confianza inferior) 2 27.218 — 24.065 2 = 1.6 años Estimación del tamaño de multitudes Existen métodos complejos para analizar el tamaño de una multitud. Se pueden emplear fotografías aéreas y medidas de densidad demográfica con una exactitud bastante razonable. Sin embargo, los reportes de estimaciones del tamaño de multitudes a menudo son simples conjeturas. Después de que los Medias Rojas de Boston ganaron la Serie Mundial por primera vez en 86 años, las autoridades de la ciudad de Boston estimaron que a la fiesta de celebración acudieron 3.2 millones de fanáticos. La policía de Boston dio un estimado de alrededor de un millón, pero aceptó que este cálculo se basaba en conjeturas de los comandantes de la policía. Un análisis fotográfico produjo un estimado de alrededor de 150,000. El profesor Farouk El-Baz de la Universidad de Boston utilizó imágenes del U.S. Geological Survey para llegar a un estimado de casi 400,000. El físico Bill Donnelly del MIT dijo que "es un problema serio que la gente sólo indique un número cualquiera. Esto significa que otros tantos asuntos no se están investigando de manera cuidadosa". 358 Capítulo 7 Estimaciones y tamaños de muestra Figura 7-7 Mujer Hombre Índices de masa corporal (IMC) de hombres y mujeres 3 4 5 6 7 8 IMC (indice de masa corporal) Uso de los intervalos de confianza para describir, explorar o comparar datos En algunos casos, podríamos utilizar un intervalo de confianza para lograr el objetivo final de estimar el valor de un parámetro poblacional. En otros casos, un intervalo de confianza podría ser una de varias herramientas para describir, explorar o comparar conjuntos de datos. En la figura 7-7 se presentan gráficas de intervalos de confianza para los índices de masa corporal (IMC) de una muestra de mujeres y hombres (véase el conjunto de datos 1 del apéndice B). Puesto que los intervalos de confianza se traslapan, no parece haber una diferencia significativa entre la media del índice IMC de mujeres y hombres. Uso de la tecnología Los siguientes procedimientos se aplican a intervalos de confianza para estimar una media ji e incluyen los intervalos de confianza descritos en la sección 7-3, así como los intervalos de confianza presentados en esta sección. Antes de utilizar programas de cómputo o una calculadora para generar un intervalo de confianza, asegúrese de revisar que los requisitos se satisfagan. Consulte los requisitos listados casi al principio de esta sección y de la sección 7-3. Primero debe calcular el STATDISK tamaño muestral Ir, la media muestral y la desviación estándar muestra' s. (Vea el procedimiento del STATDISK descrito en la sección 3-3). Seleccione Analysis de la barra del menú principal, luego Confidence Intervals y después Population Mean. Proceda a ingresar los elementos en el cuadro de diálogo; luego, haga clic en el botón Evaluate. El intervalo de confianza aparecerá en la pantalla. Minitab Release 14 ahora le =1311 permite utilizar ya sea el resumen de estadísticos n, .7r y s o una lista de los valores muestrales originales. Seleccione Stat y Basic Statistics. Si no se conoce u, seleccione 1sample t e ingrese el resumen de estadísticos o ingrese Cl en el recuadro ubicado en la parte superior derecha. (Si se conoce u, seleccione 1-sample Z e ingrese el resumen de estadísticos o ingrese Cl en el recuadro ubicado en la parte superior derecha. También ingrese el valor de u en el cuadro "Standard Deviation" o "Sigma"). Utilice el botón Options para ingresar el nivel de confianza. EXCEL Utilice el programa complementario Data Desk XL que es un complemento de este libro. Haga clic en DDXL y seleccione Confidence Intervals. Dentro de las opciones para tipo de función, seleccione 1 Var t Interval si se desconoce u. (Si se conoce u, seleccione 1 Var z Interval). Haga clic en el icono con forma de lápiz e ingrese el rango de datos, como A 1 :Al2 si usted tiene 12 valores listados en la columna A. Haga clic en OK. En el cuadro de diálogo, seleccione el nivel de confianza. (Si está utilizando 1 Var z lnterval, también ingrese el valor de u). Haga clic en Compute Interval y el intervalo de confianza aparecerá en la pantalla. No se recomienda el uso de la herramienta de Excel para calcular intervalos de confían- za, ya que supone que se conoce u, y usted debe calcular primero el tamaño muestra! n y la desviación estándar muestra' s (que puede calcularse usando fx, Statistical, STDEV). En vez de generar el intervalo de confianza completo con límites específicos, esta herramienta calcula sólo el margen de error E. Luego usted debe restar este resultado a ,Tt. y sumarlo a ,Tc para poder identificar los límites reales del intervalo de confianza. Para utilizar esta herramienta cuando se conoce o-. haga clic en fx, seleccione la categoría de funciones Statistical y luego seleccione el elemento de CONFIDENCE. En el cuadro de diálogo, ingrese el valor de a (llamado nivel de significando), la desviación estándar y el tamaño muestral. El resultado será el valor del margen de error E. TI-83/84 PLUS La calculadora TI83/84 Plus sirve para generar intervalos de confianza para valores muestrales originales guardados en una lista, o bien, usted puede utilizar un resumen de los estadísticos n, x y s. Ingrese los datos en la lista L I o tenga disponible el resumen de los estadísticos, luego presione la tecla STAT. Ahora seleccione TEST y elija Tlnterval si no se conoce u (elija Zinterval si se conoce u). Después de efectuar los ingresos requeridos, la pantalla de la calculadora incluirá el intervalo de confianza en el formato ( - E. .7r + E). 7-4 Estimación a de la media poblacional: u desconocida Advertencia: Como en las secciones 7-2 y 7-3. los intervalos de confianza pueden usarse de manera informal para comparar diferentes conjuntos de datos, pero el traslape de intervalos de confianza no debe usarse para obtener conclusiones formales ni finales acerca de la igualdad de medias. En capítulos posteriores se incluyen procedimientos para decidir si dos poblaciones tienen medias iguales; esos métodos no tendrán las dificultades asociadas con las comparaciones que se basan en el traslape de intervalos de confianza. No utilice el traslape de intervalos de confianza como base para obtener conclusiones formales acerca de la igualdad de medias. 7-4 DESTREZAS Y CONCEPTOS BÁSICOS Conocimientos estadísticos y pensamiento crítico ¿Qué está mal? Una nota en USA Today señaló que "los consumidores gastarán un promedio estimado de $483 en mercancía" por el reinicio de las clases. Se reportó que el valor se basa en una encuesta de 8453 consumidores, y el margen de error es "± 1 punto porcentual". ¿Qué está incorrecto en esta información? Intervalo de confianza. El Newport Chronicle publicó un reporte que afirmaba que, con base en una muestra de hogares, la factura fiscal media es de $4626, con un margen de error de $591. Exprese el intervalo de confianza en el formato de x — E < p. <7 + E. Interpretación de un intervalo de confianza. Utilizando los niveles de presión sanguínea sistólica de 40 hombres que se listan en el conjunto de datos 1 del apéndice B, obtenemos el siguiente intervalo de confianza del 99%: 114.4 < ,u < 123.4. Redacte una aseveración que interprete correctamente ese intervalo de confianza. Verificación de requisitos. Suponga que deseamos construir un estimado de un intervalo de confianza para las cantidades de precipitación que caen los lunes en Boston, y que planeamos utilizar las cantidades que aparecen en el conjunto de datos 10 del apéndice B. Al examinar esas cantidades vemos que, de los 52 lunes, 33 tienen cantidades de 0. Con base en esa observación, ¿parece que las cantidades de precipitación que caen los lunes se distribuyen normalmente? Suponiendo que la muestra se puede considerar aleatoria simple, ¿podemos utilizar los métodos de esta sección para construir un estimado de un intervalo de confianza para la media poblacional? ¿Por qué? Uso de la distribución correcta. En los ejercicios 5 a 12, realice una de las siguientes acciones, según sea apropiado: a) calcule el valor crítico z a/2, b) calcule el valor crítico ta/2, c) determine que no se aplica ni la distribución normal ni la distribución t. 95%; n = 12; se desconoce u; la población parece estar distribuida normalmente. 99%; n = 15; se desconoce u; la población parece estar distribuida normalmente. 99%; n = 4; se conoce u; la población parece estar muy sesgada. 95%; n = 50; se conoce u; la población parece estar muy sesgada. 90%; n = 200; se desconoce a; la población parece estar distribuida normalmente. 98%; n = 16; u = 5.0: la población parece estar muy sesgada. 98%; n = 18; u = 21.5; la población parece estar distribuida normalmente. 90%; n = 33; se desconoce u; la población parece estar distribuida normalmente. 359 360 Capítulo 7 Estimaciones y tamaños de muestra Cálculo de intervalos de confianza. En los ejercicios 13 y 14, utilice el nivel de confianza y los datos muestrales indicados para calcular a) el margen de error y b) el intervalo de confianza para la media poblacional in. Suponga que la población tiene una distribución normal. Peso perdido por una dieta de Weight Watchers: 95% de confianza; n = 40, .7-v = 3.0 kg, s = 4.9 kg. Periodo de vida de una computadora de escritorio: 99% de confianza; n = 21, = 6.8 años, s = 2.4 años. Interpretación de la pantalla de la calculadora. En los ejercicios 15 y 16 utilice los datos y la imagen de la pantalla de la calculadora T1-83/84 Plus correspondiente para expresar + E. Además, escriba un enunel intervalo de confianza en el fOrmato de — E < ciado que interprete el intervalo de confianza. 15. Puntuaciones de CI de estudiantes de estadística: 95% de confianza; n = 25, x = 118.0, s = I0.7. Minitab Mean N 25 118.000 StDev SE Mean 10.700 2.140 95% CI (113.583, 122.417) 11-83/84 Plus TInter„Ja1 x=4.5 Sx=1.9 n=27 Periodo de vida de teléfonos celulares: 99% de confianza; n = 27. = 4.6 años, s = 1.9 años. (Véase la pantalla de la calculadora TI-83/84 Plus que aparece al margen). Construcción de intervalos de confianza. En los ejercicios 17 a 26, construya el intervalo de confianza. Pesos al nacer. Una muestra aleatoria de los pesos al nacer de 186 bebés tiene una media de 3103 g y una desviación estándar de 696 g (según datos de "Cognitive Outcomes of Preschool Children with Prenatal Cocaine Exposure", de Singer et al., Journal of the American Medical Association, vol. 291. núm. 20). Estos bebés son hijos de madres que no consumieron cocaína durante el embarazo. Construya un estimado del intervalo de confianza del 95% del peso medio al nacer de todos estos bebés. Compare el resultado con el intervalo de confianza obtenido en el ejemplo de esta sección sobre los pesos al nacer de hijos de madres que consumieron cocaína durante el embarazo. Al parecer, ¿el consumo de cocaína afecta el peso que tiene un bebé al nacer? Temperatura media corporal. El conjunto de datos 2 del apéndice B incluye 106 temperaturas corporales, para las cuales .7r. = 98.20°F y s = 0.62°F. Utilizando los estadísticos de la muestra, construya un estimado del intervalo de confianza del 99% para la temperatura media corporal de todos los seres humanos saludables. ¿Los límites del intervalo de confianza incluyen los 98.6°F? ¿Qué sugiere la muestra acerca del uso de 98.6°F como la temperatura corporal media? Temperaturas pronosticadas y reales. El conjunto de datos 8 del apéndice B incluye una lista de temperaturas máximas reales y la lista correspondiente del pronóstico de temperaturas máximas para tres días. Si la diferencia para cada día se obtiene restando la temperatura máxima pronosticada para tres días de la temperatura máxima real, el resultado es una lista de 35 valores con una media de —1.3° y una desviación estándar de 4.7°. Construya un estimado del intervalo de confianza del 99% para la inedia de la diferencia entre todas las temperaturas máximas reales y las temperaturas máximas pronosticadas para tres días. ¿El intervalo de confianza incluye 0°? Si un meteorólogo afirma que el pronóstico de temperaturas máximas para tres días tiende a ser muy alto puesto que la diferencia media de la muestra es —1.3° ¿parece ser válida esa afirmación? ¿Por qué? 20. Ritmos cardiacos al trabajar con la pala. Ya que las muertes por problemas cardiacos parecen incrementarse después de las fuertes nevadas, se diseñó un experimento para comparar las demandas cardiacas al retirar nieve con una pala con las de aquellos que utilizan un aparato eléctrico para retirarla. Diez sujetos retiraron la nieve del terreno 7-4 Estimación a de la media poblacional: u desconocida usando ambos métodos y se registraron sus frecuencias cardiacas máximas (en latidos por minuto) durante ambas actividades. Se obtuvieron los siguientes resultados (según datos de "Cardiac Demands of Heavy Snow Shoveling", de Franklin et al., Journal of me American Medical Association, vol. 273, núm. 11): Frecuencias cardiacas máximas al retirar la nieve con pala: n = 10, = 175, s = 15 Frecuencias cardiacas máximas al usar un aparato eléctrico para retirar la nieve: n = 10,..—z 124,s = 18 Calcule el estimado del intervalo de confianza del 95% de la media poblacional para aquellas personas que retiran la nieve con la ayuda de una pala. Calcule el estimado del intervalo de confianza del 95% de la media poblacional de aquellas personas que usan el aparato eléctrico para retirar la nieve. Si usted fuera un médico preocupado por las muertes debidas a problemas cardiacos provocados por el paleo manual de nieve, ¿qué valor individual del intervalo de confianza del inciso a) sería de mayor interés? Compare los intervalos de confianza de los incisos a) y b) e interprete lo que encontró. Control del plomo en el aire. A continuación se listan las cantidades de plomo medidas (en microgramos por metro cúbico o p,g/m3) en el aire. La Environmental Protection Agency estableció un estándar de calidad del aire para el plomo de 1.5 bt.g/m3. Las medidas que se presentan abajo se registraron en el edificio 5 del World Trade Center en diferentes días, inmediatamente después de la destrucción causada por los ataques terroristas del 11 de septiembre de 2001. Después del colapso de los dos edificios del World Trade Center hubo una gran preocupación por la calidad del aire. Utilice los valores dados para construir un estimado del intervalo de confianza del 95% para la cantidad media de plomo en el aire. ¿Hay algo en este conjunto de datos que sugiera que el intervalo de confianza tal vez no sea muy bueno? Explique. 5.40 I.10 0.42 0.73 0.48 1.10 Construcción de un intervalo de confianza. La gráfica de tallo y hojas que se presenta abajo incluye las edades de solicitantes que lograron un ascenso (según datos de "Debating the Use of Statistical Evidence in Allegations of Age Discrimination", de Barry y Boland, American Statistician, vol. 58, núm. 2). Suponga que la muestra es aleatoria simple y construya un estimado del intervalo de confianza del 95% para la edad media de todas estas personas exitosas. Compare el resultado con el intervalo de confianza para las edades de los individuos que no lograron el ascenso (véase el ejemplo en esta sección). 3 367889 4 2233444555566778899 5 1124 Calificación de crédito. Cuando los consumidores solicitan crédito, su crédito se califica con puntuaciones FICO (Fair, Isaac, and Company). A continuación se presentan calificaciones de crédito de una muestra de solicitantes de préstamos para adquirir un automóvil. Utilice los datos muestrales con el fin de construir un intervalo de confianza del 99% para la media de la calificación FICO de todos los solicitantes de crédito. Si un banco requiere una calificación de crédito de al menos 620 puntos para un préstamo destinado a adquirir un automóvil, al parecer, ¿casi todos los solicitantes tendrán calificaciones de crédito adecuadas? 661 595 548 730 791 678 672 491 492 583 762 624 769 729 734 706 El mamífero más pequeño del mundo. El mamífero más pequeño del inundo es el murciélago abejorro, también conocido como murciélago nariz de cochino (o Craseonycteris thonglongyai). Estos murciélagos apenas alcanzan el tamaño de un abejorro grande. A continuación se presentan los pesos (en gramos) de una muestra de esos 361 362 Capítulo 7 Estimaciones y tamaños de muestra murciélagos. Construya un estimado del intervalo de confianza del 95% de su peso medio. ¿Difieren mucho los límites del intervalo de confianza de los límites de 1.56 y 1.87 que se obtienen al suponer que se sabe que a es 0.30 g? 1.7 1.6 1.5 2.0 2.3 1.6 1.6 1.8 1.5 1 .7 2.2 1.4 1.6 1.6 1.6 Estimación de contaminación de automóviles. En una muestra de siete automóviles, se prueban las emisiones de óxido de nitrógeno de cada uno (en gramos por milla) y se obtienen los siguientes resultados: 0.06, 0.11, 0.16, 0.15, 0.14, 0.08, 0.15 (según datos de la Environmental Protection Agency). Suponiendo que esta muestra es representativa de los automóviles en uso, construya un estimado del intervalo de confianza del 98% para la cantidad media de emisiones de óxido de nitrógeno para todos los automóviles. Si la Environmental Protection Agency exige que las emisiones de óxido de nitrógeno sean menores que 0.165 g/mi, ¿podemos concluir con seguridad que se cubre este requisito? Anchura de cráneos. Las anchuras máximas de muestras de cráneos egipcios masculinos del año 40(X) a.C. y del año 150 d.C. son (según datos de Ancient Races of the Thebaid, de Thomson y Randall-Maciver): 4000 a.C.: 150 d.C.: 131 136 119 130 138 126 125 126 129 139 126 141 131 137 132 138 126 133 128 131 128 134 131 129 Los cambios en el tamaño de la cabeza con el paso del tiempo sugieren un mestizaje con individuos de otras regiones. Utilice intervalos de confianza para determinar si el tamaño de la cabeza parece haber cambiado del año 40(X) a.C. al 150 d.C. Explique su resultado. Conjuntos de datos del apéndice datos del apéndice B. B. En los ejercicios 27 y 28, utilice los conjuntos de 27. Pulso. Una doctora quiere desarrollar criterios para determinar si el pulso de un paciente es anormal y desea determinar si hay diferencias significativas entre hombres y mujeres. Utilice los pulsos muestrales del conjunto de datos 1 del apéndice B. Construya un estimado del intervalo de confianza del 95% del pulso medio de los hombres. Construya un estimado del intervalo de confianza del 95% del pulso medio de las mujeres. c. Compare los resultados anteriores. ¿Podemos concluir que las medias poblacionales para hombres y para mujeres son diferentes? ¿Por qué? 28. Comparación de Coca-Cola regular y dietética. Remítase al conjunto de datos 12 del apéndice B y utilice los datos muestrales. Construya un estimado del intervalo de confianza del 95% para el peso medio de la bebida de cola en latas de Pepsi regular. Construya un estimado del intervalo de confianza del 95% para el peso medio de la bebida de cola en latas de Pepsi dietética. c. Compare los resultados de los incisos a) y b) e interprételos. ¿Parece haber alguna diferencia? Si es así. identifique una razón de esta diferencia. 7-4 MÁS ALLÁ DE LO BÁSICO 29. Efecto de un valor extremo. Pruebe el efecto de un valor extremo como sigue: utilice los datos muestrales del ejercicio 22 para calcular un estimado del intervalo de confianza del 95% de la media poblacional, después de cambiar el primer valor de 54 años por el de 540 años. Este valor no es realista, pero un error de este tipo puede ocurrir fácilmente durante un proceso de captura de datos. ¿Se altera mucho el intervalo de confianza cuando se cambia el valor de 54 años por el de 540 años? ¿Los límites del intervalo de confianza son sensibles a los valores extremos? ¿Cómo debe usted manejar los valores extremos cuando se encuentran en conjuntos de datos muestrales que se usarán para la construcción de intervalos de confianza? 7-5 Estimación de la varianza poblacional Método alternativo. La figura 7-6 y la tabla 7-1 resumen la decisión tomada al elegir entre las distribuciones normal y t. Un método alternativo que se incluye en algunos libros de texto (pero que casi nunca se incluye en revistas científicas) se basa en el siguiente criterio: sustituya la desviación estándar muestral s por o- siempre que n > 30, y luego proceda como si se conociera o-. Suponga que para una muestra aleatoria simple, n 35, .7r = 50.0 y s = 10.0, luego construya estimados del intervalo de confianza del 95% de j.t, utilizando el método de esta sección y el método alternativo. Compare los resultados. Factor de corrección por población finita. Si se selecciona una muestra aleatoria simple de tamaño n sin reemplazo de una población finita de tamaño N, y el tamaño muestral es mayor que el 5% del tamaño de la población (II > 0.05N), se pueden obtener mejores resultados utilizando el factor de corrección por población finita, el cual implica multiplicar el margen de error E por V(N — n)/(N — 1). Para la muestra de 100 pesos de dulces M&M del conjunto de datos 13 en el apéndice B, obtenemos = 0.8565 g y s = 0.0518 g. Primero construya un estimado del intervalo de confianza del 95% de /2, suponiendo que la población es grande, y luego construya un estimado del intervalo de confianza del 95% del peso medio de dulces M&M que se encuentran en la bolsa llena de donde se tomó la muestra. La bolsa llena tiene 465 dulces M&M. Compare los resultados. Uso de la distribución incorrecta. Suponga que se selecciona una muestra aleatoria simple pequeña de una población distribuida normalmente, para la que o- es desconocida. La construcción de un intervalo de confianza debe utilizar la distribución t, pero ¿cómo se afecta el intervalo de confianza si se usa la distribución normal incorrectamente, en vez de la distribución t? Intervalo de confianza para muestra de tamaño n = 1. Cuando una nave espacial dirigida por la NASA llega a Marte, los astronautas encuentran a un solo adulto marciano que mide 12.0 pies de estatura. Es razonable suponer que las estaturas de todos los marcianos se distribuyen normalmente. Los métodos de este capítulo requieren información acerca de la variación de una variable. Si sólo está disponible un valor muestral, ¿puede éste darnos alguna información acerca de la variación de la variable? Al utilizar los métodos de esta sección, ¿qué pasa cuando usted trata de usar la estatura individual en la construcción de un intervalo de confianza del 95%? c. Con base en el artículo "An Efective Confidence Interval for the Mean with Samples of Size One and Two", de Wall, Boen y Tweedie (American Statistician, vol. 55, núm. 2), se calcula un intervalo de confianza del 95% para (utilizando métodos que no se analizan en este libro) con una muestra de tamaño n = 1 seleccionada al azar de una población distribuida normalmente. y se expresa como x 9.68Ixi. Utilice este resultado para construir un intervalo de confianza del 95% empleando el valor muestral individual de 12.0 ft, y expréselo en la forma de — E < ,u. < x + E. Con base en el resultado ¿es posible que algún otro marciano seleccionado al azar mida 50 ft de estatura? Estimación de la varianza 7-5 poblacional Concepto clave En esta sección presentamos métodos para 1. calcular un intervalo de confianza de una desviación estándar o una varianza poblacional y 2. determinar el tamaño muestral requerido para estimar una desviación estándar o una varianza poblacional. En esta sección se presenta la distribución chi cuadrada, la cual se utiliza para calcular un estimado de un intervalo de confianza de u o de o-2. 363