FUNDAMENTOS DEL ANÁLISIS ESTADÍSTICO DE DATOS CON LA AYUDA DEL SPSS1 (Statistical Package for the Social Sciences) UNIVERSIDAD DE ANTIOQUIA ESCUELA DE NUTRICIÓN Y DIETÉTICA MEDELLÍN, 2002 1 Diseñado por Alejandro Estrada Restrepo 1 INTRODUCCIÓN La estadística generalmente es considerada como la rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y así mismo que ayuda a resolver problemas como el diseño de experimentos y la toma de decisiones. Pero en realidad, lo que se busca, no es simplemente cubrir un tema, sino hacer que a nuestros conocimientos se arraiguen las definiciones básicas de lo que es la estadística y que no simplemente quede allí, en la teoría, sino que aprendamos a aprovecharlo en nuestra vida cotidiana. Para tal fin tendremos entre otros el apoyo del SPSS. Este es un software que se utiliza para cálculos estadísticos, aunque incluye un sin número de utilidades. Actualmente, la estadística ha adquirido, de manera progresiva, una mayor relevancia en todos los sectores universitarios y, en general, en la sociedad. Es por ello, por lo que se pretende adquirir los conocimientos necesarios para comprender diversas técnicas estadísticas y el uso de este paquete estadístico. 2 1. GENERALIDADES SPSS 102 SPSS es un potente sistema de análisis estadístico y gestión de datos. Ofrece un rápido entorno de modelización visual que abarca desde lo más simple hasta lo más complejo para crear modelos de manera interactiva y realizar cambios utilizando técnicas analíticas probadas y acreditadas. La interfaz del entorno de ventanas proporciona una relación con el sistema rápida y cómoda, pero internamente funciona mediante comandos. Para ejecutar SPSS se accederá al botón Inicio y desde allí a Programas / SPSS for Windows / SPSS 10.0 para Windows. Aparece la presentación del programa con el Editor de datos al fondo: A continuación nos preguntará cómo queremos comenzar: ejecutando el tutorial, introduciendo datos nuevos, abriendo datos de disco, etc. Una vez hecho esto, nos dejará con el Editor de datos. Se pueden abrir varias sesiones de SPSS independientes para poder trabajar con diferentes ficheros de datos. Existen dos formas de obtener datos en SPSS. La primera es la introducción directa de los datos en las casillas que nos muestra el Editor de datos. Las columnas nos indican las variables que tenemos, y las filas los casos de las variables. Al introducir un dato en una casilla, se activa la variable de la columna donde nos encontremos y se define automáticamente según el tipo de dato que hayamos introducido. Si queremos definir las variables nosotros mismos, debemos seleccionar la Vista de variables donde podremos especificar su nombre, tipo, tamaño y otros atributos. 2 Diseñado por Alejandro Estrada Restrepo 3 La segunda forma de obtener datos es extrayéndolos de un archivo de disco. Éste puede ser de formato SPSS (*.sav); de formato Excel, Lotus, texto, etc.; o de formato de base de datos como Access, dBase, FoxPro, etc. Si los datos son nuevos o los hemos modificado es conveniente almacenarlos en disco a través del menú Archivo. Una vez tenemos los datos en el Editor de datos, debemos elegir un procedimiento en el menú Analizar para poder obtener resultados. El sistema nos permite realizar informes, estadísticos descriptivos, tablas, correlaciones, análisis de regresión, etc. Asimismo si deseamos un gráfico descriptivo de los datos, elegiremos uno de los existentes en el menú Gráficos. Éste puede ser normal o interactivo, en cuyo caso podremos modificar posteriormente las variables usadas y los parámetros del mismo. Ahora se nos solicita la selección de las variables que queremos usar en el procedimiento de análisis o en el gráfico. El cuadro de selección de variables es similar en todos los procedimientos: nos muestra una lista de todas las variables y una o varias casillas de destino donde debemos introducirlas para que el sistema pueda calcular los estadísticos o valores que precise para la presentación de resultados. El último paso es el examen de resultados en una nueva ventana llamada Visor. Esta ventana nos muestra dos paneles. El de la izquierda es el conjunto de los titulares de los elementos gráficos situados en el panel de la derecha. Su apariencia y funcionamiento es similar al del explorador de Windows. El de la derecha muestra los elementos gráficos, que pueden ser textos, tablas o gráficos. Los resultados o elementos gráficos que vayamos generando no se sustituyen, sino que se van acumulando en el visor donde les podremos dar formato para su posterior impresión, así como para su almacenamiento en disco. En el caso de los gráficos interactivos podremos modificarlos directamente, sin necesidad de volver a generarlos de nuevo. En terminos generales en una sesión tipica con SPSS se puede trabajar con tres tipos de ventanas y tener la posibilidad de guardar los contenidas de cada una. El editor de datos, la cual es la primera ventana que usted encuentra, usada para definir y entrar sus datos y para ejecutar los procedimientos estadísticos. Los resultados de los procedimientos estadísticos aparecen en la ventana de resultados. La ventana de sintaxis puede ser usada para tener un registro de las operaciones que usted ejecuta con sus datos, esta ventana se abre automáticamente cuando usted da clic en el botón pegar. Así, por ejemplo cuando usted selecciona ciertos casos para el análisis o transforma sus datos o calcula una correlación, dando clic en el botón pegar, esta almacenara un registro de lo que fue ejecutado (en lenguaje de comandos). Mas allá de servir como un registro para sus operaciones, es posible correr comandos desde la ventana sintaxis. Se puede guardar cualquiera de las ventanas. Una vez que tenga la ventana deseada activa, de clic en Save del menú File. SPSS automáticamente adiciona la extensión al nombre del archivo (.SAV para archivos del editor de datos; .SPO para archivos de resultados y .SPS para archivos de sintaxis) Por otro lado, la interfaz de SPSS incorpora una o varias barras de herramientas según la ventana en la que nos encontremos. Estas barras contienen las funciones más usadas en el trabajo usual para facilitar el acceso a ellas. 4 Si detenemos el puntero del ratón unos segundos sobre una de las herramientas (o botones) nos presentará un pequeño cuadro con una breve descripción de la utilidad del mismo: Las barras, además, son personalizables, pudiendo añadir o eliminar los botones que queramos así como moverlos; incluso permite cambiar de sitio la barra o borrarla completamente. A continuación se realiza una breve descripción de la barra de herramientas de la ventana de datos del SPSS. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Figura 2 1. El primer icono es: Abrir archivo, muestra la ventana Open File. Según el tipo de ventana que esté activa, se puede utilizar este icono para abrir un archivo de datos, de resultados, de sintaxis o uno de gráficas. 2. Guardar archivo: Guarda el archivo de la ventana que está activa. Puede guardar el documento completo o las líneas de texto seleccionadas. 3. Imprimir archivo: Muestra la ventana de Imprimir para el tipo de documento que esté en la ventana activa. En el caso de archivos de resultados, sintaxis y datos, puede imprimir el documento completo o un área seleccionada. 4. Recuperar ventana. Muestra una lista de las últimas ventanas abiertas (aunque no se hayan abierto en la misma sesión). 5. Deshacer escritura: Como el nombre lo dice deshace los datos incorporados y todo lo que respete a lo anterior. 6. Recorrer gráficas. Este icono se utiliza para activar la ventana de gráficos. 7. Ir a caso. Este icono se utiliza para desplazarse a un caso en el Editor de datos. 8. Información de variables. Muestra una ventana que contiene la lista de variables y la información de la variable seleccionada. Este icono también se utiliza para posicionar el cursor en dicha variable. 9. Busca: Busca lo deseado en la variable que usted halla seleccionado. 10. Insertar caso. En el Editor de datos, al pinchar en este icono se inserta un caso por encima del caso que contenga la celda activa. Tiene el mismo efecto que la selección de Insertar caso del menú Datos. 11. Insertar variable. En el Editor de datos, al pinchar en este icono se inserta una variable a la izquierda de la variable que contenga la celda activa. Tiene el mismo efecto que la selección de Insertar variable del menú Datos. 15. Etiquetas de valores. Conmuta entre los valores actuales y las etiquetas de valores en el Editor de datos. Tiene el mismo efecto que la selección de Etiquetas de valores del menú Útil 16. Usar conjuntos. Aquí se puede seleccionar los conjuntos de variables que van a aparecer en las ventanas que se utilizan para realizar los análisis estadísticos o transformaciones. Los conjuntos de variables que aparecen aquí son los que se crean seleccionando la opción Definir conjuntos del menú Util. Tiene el mismo efecto que la selección de Usar conjuntos del menú Útil. Obtención de datos La matriz que nos presenta el Editor de datos contiene todos las observaciones de las variables que necesitamos para poder realizar el análisis estadístico. Cada columna representa una variable única y cada fila un caso individual de cada variable. Para introducir datos basta con pinchar sobre una casilla y teclear el dato. Si donde tecleamos el dato la variable no está definida, SPSS asigna automáticamente un 5 nombre de variable a la columna y la define con sus parámetros por defecto. Para la definición de variables se debe pulsar la pestaña Vista de variables accederemos a una matriz similar a la de datos, pero en este caso contiene las variables definidas. Cada fila representa una variable y cada columna un parámetro o especificación de esa variable. Éstos se asignan por defecto, pero podemos modificarlos a nuestra conveniencia. La lista de parámetros es: Nombre: Debemos introducir el nombre de la variable, de 8 caracteres como máximo, que pueden ser letras, números o el símbolo de subrayado ( _ ). El primer carácter únicamente puede ser una letra, y no se hacen distinciones entre mayúsculas y minúsculas. Tipo: A través del botón que aparece al lado del tipo se accede a un panel donde seleccionar el tipo de variable: numérica, coma, fecha, moneda, cadena, etc., su anchura y los decimales (que también se pueden seleccionar mediante las columnas siguientes). Además, dentro del tipo cadena debemos distinguir entre la corta Anchura : Número de caracteres o dígitos de la variable. Decimales: Número de decimales si la variable es de tipo contable (numérico, moneda, etc.). Etiqueta: Dada la imposibilidad de dar un nombre de variable mayor de 8 caracteres, se usan etiquetas para describir la variable de una forma más clara. Aunque internamente se trabaje con los nombres de las variables, en la presentación de resultados podremos utilizar las etiquetas. Valores: Permite asignar etiquetas a determinados valores de las variables. Por ejemplo, una variable numérica puede contener valores de los datos que sean: 0 si es mujer y 1 si es hombre, entonces asignamos a los valores 0 y 1 las etiquetas de valor mujer y hombre respectivamente. De esta forma cuando trabajemos con ellos, nos aparecerá mujer y hombre en lugar de 0 y 1. 6 Perdidos: Nos permite definir los valores que se tratarán como perdidos. Hemos de distinguir entre los valores declarados por el sistema (ausencia de dato) y los valores declarados como perdidos por nosotros mismos. Columnas ¾ Es la anchura de la columna en la Vista de datos. Alineación : Posición del dato en la casilla en la Vista de datos. Medida: Permite especificar el nivel de medida como escala (datos numéricos de una escala de intervalo o de razón), ordinal (representan categorías ordenadas) o nominal (representan categorías sin orden alguno). Esta especificación sólo se usa en procedimientos gráficos. En general, es importante saber distinguir entre variable categórica y variable de escala. Una variable categórica es aquella que tiene un número limitado de valores o categorías distintas. Todas las variables de cadena y las variables numéricas con etiquetas de valor definidas, o las variables numéricas definidas como nominales u ordinales, se tratan como categóricas. El resto se tratarán como de escala. Introducción de datos Cuando hayamos acabado de definir las variables pasaremos a la ventana de datos, haciendo clic sobre la pestaña inferior Vista de datos. El aspecto de esta ventana es el de una matriz de datos, es decir, una matriz de doble entrada donde las filas representan casos o individuos y las columnas variables. En nuestra ventana de datos figurarán las columnas correspondientes a las variables definidas. Los datos pueden introducirse en la ventana de datos, bien caso a caso (por filas) o bien variable a variable (por columnas). Si se introducen casos, será necesario pulsar el tabulador tras escribir cada dato; si se introducen variables, pulsaremos la tecla de retorno <Enter> después de cada dato. Al término del proceso de introducción de 7 datos, la ventana de datos mostrará un aspecto similar al que se muestra en la pantalla siguiente. Si nuestra sesión de trabajo finalizara aquí, deberíamos salvar la definición de variables y los datos introducidos para continuar en otro momento. Incluso aunque vayamos a seguir trabajando, puede ser conveniente salvar lo hecho hasta ahora en un fichero, de tal modo que podamos recuperarlo cuando sea preciso. Para realizar esta operación, basta elegir en la barra de menú la opción Archivo y posteriormente Guardar o bien Guardar como... En ambos casos se nos pedirá un nombre de fichero. Aunque no es imprescindible, conviene mantener para estos archivos la extensión .SAV que por defecto nos propone el programa. En una nueva sesión de trabajo, para recuperar el fichero de datos y variables será necesario partir de la barra de menú y seguir la secuencia de opciones Archivo, Abrir y Datos... Con ello accederíamos a una ventana de diálogo, análoga a las que suelen mostrarse en los programas diseñados para Windows, donde podremos seleccionar la unidad, la carpeta y el fichero que nos interesa abrir, que será aquel en el que quedaron almacenados los datos y la correspondiente definición de variables. 8 para efectos prácticos y sin desconocer la utilidad que prestan los demás menús del SPSS, se procederá a explicar el menú Analizar, puesto que este resulta ser la columna vertebral del análisis de datos mediante esta herramienta. En este menú encontramos entonces: Dentro del menú Analizar encontramos todos los procedimientos de análisis estadístico (exceptuando los gráficos) de SPSS. Informes Cubos OLAP ® (Procedimiento analítico interactivo). Crea una tabla con varias capas que contienen totales, medias y otros estadísticos univariados para variables de resumen continuas según una o más variables categóricas de agrupación. En la tabla se creará una nueva capa para cada categoría de cada variable de agrupación. Resúmenes de casos ® Calcula estadísticos de subgrupo para las variables dentro de las categorías de una o más variables de agrupación. Se cruzan todos los niveles de las variables de agrupación. Permite elegir el orden en el que se mostrarán los estadísticos. También se muestran estadísticos de resumen para cada variable a través de todas las categorías. Los valores de los datos en cada categoría pueden mostrarse en una lista o suprimirse. Con grandes conjuntos de datos se pueden listar sólo los primeros n casos. Informe de estadísticos en filas ® Genera informes en los cuales se presentan distintos estadísticos de resumen en filas. También se encuentran disponibles listados de los casos, con o sin estadísticos de resumen. Estadísticos descriptivos Frecuencias ® Proporciona estadísticos y representaciones gráficas útiles para describir o inspeccionar muchos tipos de variables. Los valores pueden organizarse en orden ascendente o descendente, y se pueden ordenar las categorías por sus frecuencias. Se puede suprimir el informe de frecuencias cuando una variable posee muchos valores diferentes, y permite etiquetar los gráficos con las frecuencias o con los porcentajes. Descriptivos ® Muestra estadísticos de resumen para varias variables en una única tabla y calcula valores tipificados (puntuaciones z). Las variables se pueden ordenar por el tamaño de sus medias (en orden ascendente o descendente), alfabéticamente o por el orden en el que se seleccionen (por defecto). Se pueden guardar las puntuaciones z, añadiéndose al Editor de datos, para su posterior utilización. Cuando las variables se registran en unidades de medida diferentes (que no tengan nada que ver), una transformación de puntuación z pondrá las variables en una escala común para una comparación visual más fácil. Explorar ® Genera estadísticos de resumen y representaciones gráficas, bien para todos los casos o bien de forma separada para grupos de casos. Este procedimiento se puede usar para inspeccionar los datos, identificar valores atípicos o extremos, descubrir discontinuidades, obtener descripciones, comprobar supuestos y caracterizar diferencias entre subpoblaciones (grupos de casos), etc. La exploración de los datos puede ayudar a determinar si son adecuadas las técnicas de análisis que se están empleando. 9 Tablas de contingencia ® Crea tablas de clasificación doble y múltiple, y además proporciona una serie de pruebas y medidas de asociación para las tablas de doble clasificación. La estructura de la tabla y el hecho de que las categorías estén ordenadas o no determinan las pruebas o medidas que se utilizan. Los estadísticos de tablas de contingencia y las medidas de asociación sólo se calculan para las tablas de doble clasificación. Si especifica una fila, una columna y un factor de capa (variable de control), se creará un panel de medidas y estadísticos asociados para cada valor del factor de capa (o una combinación de valores para dos o más variables de control). Tablas personalizadas Tablas básicas ® Genera tablas que muestran estadísticos de clasificación cruzada y de subgrupo. Las variables de resumen seleccionadas se resumen en las casillas definidas por las variables de subgrupo. Para todas las variables resumidas se emplean los mismos estadísticos (la media por defecto). Si no existen variables de resumen, se muestran los recuentos. Los nombres de las variables de resumen se muestran a lo largo de la parte izquierda de la tabla. Se pueden definir casillas para mostrar subgrupos de casos empleando las combinaciones: Hacia abajo de la página (como filas distintas). A través de la página (como columnas distintas). La combinación de Hacia abajo y A través genera una presentación en forma de tabla de contingencia. Repartidas en Tablas distintas. Las variables de esta lista subdividen la tabla en capas o en grupos de capas, de manera que sólo puede verse una capa de la tabla cada vez.. Una vez en el Visor, para ver las otras capas se deben pivotar. Anidar significa que se muestran las categorías de una variable bajo cada una de las categorías de la variable anterior. La apilación muestra las categorías de cada variable como un bloque; se puede entender como la extracción de tablas diferentes y su unión en la misma presentación. Tablas generales ® Genera tablas con estadísticos de clasificación cruzada y de subgrupo. Se pueden generar tablas que muestren diferentes estadísticos para distintas variables, variables de respuestas múltiples, anidación y apilación mixta o totales complejos. En la mayoría de las circunstancias es necesario seleccionar una variable de fila. También se puede seleccionar una o más variables para definir columnas o capas. Por ejemplo, para generar una tabla de contingencia simple debemos seleccionar una variable para definir las filas y otra para definir las columnas. Si tiene una variable de capa, también es necesario tener una variable de fila y una de columna.. Cada variable seleccionada se debe especificar si es de agrupación para definir casillas o si es una variable de resumen. También se pueden especificar diferentes estadísticos para cada variable. Si seleccionamos más de una variable para una dimensión dada, deberemos especificar si deben estar apiladas o anidadas en la dimensión.. La mayoría de las tablas que muestran los mismos estadísticos de resumen para cada variable se pueden obtener más fácilmente utilizando el procedimiento Tablas básicas o de respuestas múltiples. Se pueden mostrar los estadísticos (Las etiquetas de los estadísticos aparecen) en la parte superior (columnas), en el lateral (filas) o en capas separadas. Para cada variable seleccionada, se puede especificar si es de agrupación o de resumen. Los estadísticos asociados a una variable que define casillas son los recuentos y porcentajes. La primera variable de resumen que se especifique definirá la dimensión de resumen. Las palabras Dimensión resumen aparecerán sobre la lista de variables para esa dimensión, por lo que no se podrán resumir variables en otra dimensión.. Los estadísticos seleccionados en la edición de estadísticos se aplican sólo a la variable seleccionada. La primera vez que se editen los estadísticos de una variable, se definirá la dimensión de los estadísticos. Insertar total inserta una variable 10 de total después de la variable seleccionada. No se puede obtener un total de otro total o de una variable que tiene un total anidado debajo de ella. Respuestas múltiples muestra una lista de los conjuntos de respuestas múltiples definidos y permite definir otros. Tablas de respuestas múltiples ® Crea tablas de frecuencia y de contingencia básicas en las que una o más variables es un conjunto de respuestas múltiples (si no, sería conveniente utilizar Tablas básicas).. Si no seleccionamos la opción Anidar para una dimensión, se producirán tablas separadas para cada variable pero conectadas físicamente (concatenadas). Las restantes opciones son similares a las descritas anteriormente. Tablas de frecuencias ® Genera tablas especiales que contienen varias variables con los mismos valores. Por defecto, las variables forman columnas y las categorías filas (todas las variables de Frecuencias para deben tener las mismas categorías). Cada casilla muestra el número de casos en esa categoría. Permite variables de subgrupo. Mediante Subgrupos se puede dividir la tabla en columnas dentro de cada tabla o en tablas diferentes (capas). Al dividirla se mostrarán todas las variables para cada subgrupo. Si hay diversas variables en una de las listas de la sección Subgrupos, se puede elegir entre anidarlas o apilarlas (se crean las tablas por separado pero se unen en la presentación). Comparar medias Medias ® Calcula medias de subgrupo y estadísticos univariados relacionados para variables dependientes dentro de las categorías de una o más variables independientes. Pueden obtenerse el análisis de varianza de un factor, la eta y pruebas de linealidad. Prueba T para una muestra ® Contrasta si la media de una sola variable difiere de una constante especificada. Prueba T para muestras independientes ® Compara las medias de dos grupos de casos. Los sujetos deben asignarse aleatoriamente a dos grupos, de forma que cualquier diferencia en la respuesta sea debida al tratamiento (o falta de tratamiento) y no a otros factores. Cuando esto no es posible (por ejemplo comparando una variable entre hombres y mujeres ya que el sexo de una persona no se asigna aleatoriamente), debemos asegurarnos de que las diferencias en otros factores no enmascaren o resalten una diferencia significativa entre las medias (por ejemplo los estudios respecto al sexo). Prueba T para muestras relacionadas ® Compara las medias de dos variables de un solo grupo. Calcula las diferencias entre los valores de las dos variables de cada caso y contrasta si la media difiere de 0. ANOVA de un factor ® Genera un análisis de varianza de un factor para una variable dependiente cuantitativa respecto a una única variable de factor (la variable independiente). El análisis de varianza se utiliza para contrastar la hipótesis de que varias medias son iguales. Esta técnica es una extensión de la prueba t para dos muestras. Además de determinar que existen diferencias entre las medias, es posible que se desee saber qué medias difieren. Existen dos tipos de contrastes para comparar medias: los contrastes a priori y las pruebas post hoc. Los contrastes a priori se plantean antes de ejecutar el experimento y las pruebas post hoc se realizan después de haber llevado a cabo el experimento. También se pueden contrastar las tendencias existentes a través de las categorías. 11 Modelo lineal general Univariante ® Proporciona un análisis de regresión y un análisis de varianza para una variable dependiente mediante uno o más factores o variables. Las variables de factor dividen la población en grupos. Con este procedimiento se pueden contrastar hipótesis nulas sobre los efectos de otras variables en las medias de varias agrupaciones de una única variable dependiente. Se pueden investigar las interacciones entre los factores así como los efectos de los factores individuales, algunos de los cuales pueden ser aleatorios. Además, se pueden incluir los efectos de las covariables y las interacciones de covariables con los factores. Para el análisis de regresión, las variables independientes (predictoras) se especifican como covariables. Se pueden contrastar tanto los modelos equilibrados como los no equilibrados. Se considera que un diseño está equilibrado si cada casilla del modelo contiene el mismo número de casos. Además de contrastar hipótesis se generan estimaciones de los parámetros. También se encuentran disponibles los contrastes de hipótesis de uso más habitual. Además, si una prueba F global ha mostrado cierta significación, pueden emplearse las pruebas post hoc para evaluar las diferencias entre las medias específicas. Las medias marginales estimadas ofrecen estimaciones de valores de las medias pronosticados para las casillas del modelo; los gráficos de perfil (gráficos de interacciones) de estas medias permiten observar fácilmente algunas de estas relaciones. Multivariante ® Proporciona un análisis de regresión y un análisis de varianza para variables dependientes múltiples por una o más covariables o variables de factor. Las variables de factor dividen la población en grupos. Con este procedimiento es posible contrastar hipótesis nulas sobre los efectos de las variables de factor sobre las medias de varias agrupaciones de una distribución conjunta de variables dependientes. En un modelo multivariado, las sumas de cuadrados debidas a los efectos del modelo y las sumas de cuadrados error se encuentran en forma de matriz en lugar de en la forma escalar del análisis univariado. Estas matrices se denominan matrices SCPC (sumas de cuadrados y productos cruzados). Las pruebas de comparaciones múltiples post hoc se realizan por separado para cada variable dependiente. También se hallan disponibles: una matriz SCPC residual, que es una matriz cuadrada de las sumas de cuadrados y los productos cruzados de los residuos; una matriz de covarianza residual, que es la matriz SCPC residual dividida por los grados de libertad de los residuos; y la matriz de correlaciones residual, que es la forma tipificada de la matriz de covarianza residual. El resto es similar al procedimiento anterior. Medidas repetidas ® Analiza grupos de variables dependientes relacionadas que representan diferentes medidas del mismo atributo. Permite definir uno o varios factores intrasujetos (no confundir con las variables existentes), donde cada factor constituye un nivel dentro del factor precedente. Si los sujetos se comparan en más de una medida cada vez, hemos de seleccionar Medida para definirlas. El nombre de las medidas no existe como un nombre de variable en el propio archivo de datos sino que se define aquí. Correlaciones Bivariadas ® Calcula el coeficiente de correlación de Pearson, la rho de Spearman y la tau-b de Kendall con sus niveles de significación. Las correlaciones miden cómo están relacionadas las variables o los órdenes de los rangos. Antes de calcular un coeficiente de correlación, se deben inspeccionar los datos para detectar valores atípicos (que pueden producir resultados equívocos) y evidencias de una relación lineal. Las correlaciones son medidas de asociación lineal. Dos variables pueden estar perfectamente relacionadas, pero si la relación no es lineal, el coeficiente de 12 correlación no es un estadístico adecuado para medir su asociación. Parciales ® Calcula los coeficientes de correlación parcial, los cuales describen la relación lineal existente entre dos variables mientras se controlan los efectos de una o más variables adicionales. Regresión Lineal ® Estima los coeficientes de la ecuación lineal, con una o más variables independientes, que mejor prediga el valor de la variable dependiente. Logística binaria ® Es útil cuando se desea predecir la presencia o ausencia de una característica o resultado según los valores de un conjunto de variables predictoras. Es similar a un modelo de regresión lineal pero está adaptado para modelos en los que la variable dependiente es dicotómica. Los coeficientes pueden utilizarse para estimar la razón de las ventajas (odds ratio) de cada variable independiente del modelo. La regresión logística se puede aplicar a un rango más amplio de situaciones de investigación que el análisis discriminante. Se pueden estimar modelos utilizando la entrada en bloque de las variables o cualquiera de los siguientes métodos por pasos: Condicional hacia adelante. LR hacia adelante. Wald hacia adelante. Condicional hacia atrás. LR hacia atrás. Wald hacia atrás. Logística multinomial ® Resulta útil si se desea clasificar a los sujetos según los valores de un conjunto de variables predictoras. Este tipo de regresión es similar a la regresión logística, pero más general, ya que la variable dependiente no está restringida a dos categorías. Se ajusta un modelo logit multinomial para el modelo factorial completo o para un modelo especificado por el usuario. La estimación de los parámetros se realiza a través de un algoritmo iterativo de máxima verosimilitud. Escalamiento óptimo ® Cuantifica los datos categóricos mediante la asignación de valores numéricos a las categorías, obteniéndose una ecuación de regresión lineal óptima para las variables transformadas. El análisis de regresión lineal ordinario implica minimizar las diferencias de la suma de los cuadrados entre una variable de respuesta (la dependiente) y una combinación ponderada de las variables predictoras (las independientes). Las variables son normalmente cuantitativas, con los datos categóricos (nominales) recodificados como variables binarias o de contraste. Como resultado, las variables categóricas sirven para separar grupos de casos y la técnica estima conjuntos separados de parámetros para cada grupo. Los coeficientes estimados reflejan cómo los cambios en los predictores afectan a la respuesta. El pronóstico de la respuesta es posible para cualquier combinación de los valores predictores. Una aproximación alternativa incluye la regresión de la respuesta respecto a los propios valores predictores categóricos. Como consecuencia, se estima un coeficiente para cada variable. Sin embargo, para las variables categóricas, los valores categóricos son arbitrarios. La codificación de las categorías de diferentes maneras proporciona diferentes coeficientes, dificultando las comparaciones entre los análisis de las mismas variables. CATREG (regresión categórica mediante escalamiento óptimo) amplía la aproximación típica mediante un escalamiento de las variables nominales, ordinales y numéricas simultáneamente. El procedimiento cuantifica las variables categóricas de manera que las cuantificaciones reflejen las características de las categorías originales. Además, trata a las variables categóricas cuantificadas como si fueran variables numéricas. La utilización de transformaciones no lineales permite a las variables ser analizadas en 13 varios niveles para encontrar el modelo que más se ajusta. Reducción de datos Análisis factorial ® Intenta identificar variables subyacentes, o factores, que expliquen la configuración de las correlaciones dentro de un conjunto de variables observadas. Se suele utilizar en la reducción de los datos para identificar un pequeño número de factores que explique la mayoría de la varianza observada en un número mayor de variables manifiestas. También puede utilizarse para generar hipótesis relacionadas con los mecanismos causales o para inspeccionar las variables para análisis subsiguientes (por ejemplo, para identificar la colinealidad antes de realizar un análisis de regresión lineal). Este procedimiento dispone de 7 métodos de extracción factorial; 5 métodos de rotación, entre ellos el oblimin directo y el promax para rotaciones no ortogonales; y 3 métodos para calcular las puntuaciones factoriales, que pueden guardarse como variables para análisis adicionales. Análisis de correspondencias ® Describe las relaciones existentes entre dos variables nominales, recogidas en una tabla de correspondencias, sobre un espacio de pocas dimensiones, mientras que al mismo tiempo se describen las relaciones entre las categorías de cada variable. Para cada variable, las distancias sobre un gráfico entre los puntos de categorías reflejan las relaciones entre las categorías, con las categorías similares representadas próximas unas a otras. La proyección de los puntos de una variable sobre el vector desde el origen hasta un punto de categoría de la otra variable describe la relación entre ambas variables. El análisis de las tablas de contingencia a menudo incluye examinar los perfiles de fila y de columna, así como contrastar la independencia a través del estadístico de chicuadrado. Sin embargo, el número de perfiles puede ser bastante grande y la prueba de chi-cuadrado no revelará la estructura de la dependencia. El procedimiento Tablas de contingencia ofrece varias medidas y pruebas de asociación pero no puede representar gráficamente ninguna relación entre las variables. El análisis factorial es una técnica típica para describir las relaciones existentes entre variables en un espacio de pocas dimensiones. Sin embargo, requiere datos de intervalo y el número de observaciones debe ser cinco veces el número de variables. Por su parte, el análisis de correspondencias asume que las variables son nominales y permite describir las relaciones entre las categorías de cada variable, así como la relación entre las variables. Además, el análisis de correspondencias se puede utilizar para analizar cualquier tabla de medidas de correspondencia que sean positivas. Escalamiento óptimo ® La combinación del nivel de medida y el número de conjunto seleccionado determina este procedimiento mediante mínimos cuadrados alternantes que realiza. Nivel de medida. Permite especificar el nivel correspondiente a las variables utilizadas en el análisis: Todas las variables son nominales múltiples. Todas las variables tienen cuantificaciones de categorías que pueden diferir para cada dimensión. Alguna variable no es nominal múltiple. Una o más variables se escalan a un nivel diferente del nominal múltiple. Otros niveles de escala posibles son: nominal simple, ordinal y numérica discreta. Número de conjuntos de variables. Permite especificar cuántos grupos de variables se van a comparar con otros grupos de variables: Un conjunto. Los datos contienen un grupo de variables. Múltiples conjuntos. Los datos contienen más de un grupo de variables. Si se selecciona esta opción, se elegirá Correlación canónica no-lineal (OVERALS). Análisis seleccionado. Las opciones para Nivel de medida y Número de conjuntos de 14 variables deciden el análisis según las combinaciones. Análisis de homogeneidad (HOMALS). Seleccionando Todas las variables son nominales múltiples y Un conjunto: Análisis de componentes principales categóricos (CATPCA). Seleccionando Alguna variable no es nominal múltiple y Un conjunto. Análisis de correlación canónica no lineal (OVERALS). Seleccionando Múltiples conjuntos. Pruebas no paramétricas Chi-cuadrado ® Tabula una variable en categorías y calcula un estadístico de chicuadrado. Esta prueba de bondad de ajuste compara las frecuencias observadas y esperadas en cada categoría para contrastar si todas las categorías contienen la misma proporción de valores o si cada categoría contiene una proporción de valores especificada por el usuario. Binomial ® Compara las frecuencias observadas de las dos categorías de una variable dicotómica con las frecuencias esperadas en una distribución binomial con un parámetro de probabilidad especificado. Por defecto, el parámetro de probabilidad para ambos grupos es 0,5. Para cambiar las probabilidades, puede introducirse una proporción de prueba para el primer grupo. La probabilidad del segundo grupo será 1 menos la probabilidad especificada para el primer grupo. Rachas ® Contrasta si es aleatorio el orden de aparición de dos valores de una variable. Una racha es una secuencia de observaciones similares. Una muestra con un número excesivamente grande o pequeño de rachas sugiere que la muestra no es aleatoria. K-S de 1 muestra ® La prueba de Kolmogorov-Smirnov para una muestra compara la función de distribución acumulada observada de una variable con una distribución teórica determinada, que puede ser la normal, la uniforme, la de Poisson o la exponencial. La Z de Kolmogorov-Smirnov se calcula a partir de la diferencia mayor (en valor absoluto) entre las funciones de distribución acumuladas teórica y observada. Esta prueba de bondad de ajuste contrasta si las observaciones podrían razonablemente proceder de la distribución especificada. 2 muestras independientes ® Compara dos grupos de casos existentes en una variable. K muestras independientes ® Compara dos o más grupos de casos respecto a una variable. 2 muestras relacionadas ® Compara las distribuciones de dos variables. K muestras relacionadas ® Compara las distribuciones de dos o más variables. Series temporales Suavizado exponencial ® Suaviza componentes irregulares de datos de series temporales, para ello hace uso de una variedad de modelos que incorporan diferentes supuestos acerca de la tendencia y la estacionalidad. Seleccionando un modelo estacional y definiendo la periodicidad mediante Definir fechas, se puede seleccionar una variable que represente los factores estacionales. Los modelos difieren en los componentes estacionales y de tendencia. Se dispone de los modelos Simple, Holt, Winters y Personalizado. 15 Supervivencia Tablas de mortalidad ® Existen muchas situaciones en las se desea examinar la distribución de un periodo entre dos eventos, como la duración del empleo (tiempo transcurrido entre el contrato y el abandono de la empresa). Sin embargo, este tipo de datos suele incluir algunos casos para los que no se registra el segundo evento (censurados); por ejemplo, la gente que todavía trabaja en la empresa al final del estudio. Las razones para que no se verifique el segundo evento pueden ser muy variadas: en algunos casos, el evento simplemente no tiene lugar antes de que finalice el estudio; en otros, el investigador puede haber perdido el seguimiento de su estado en algún momento anterior a que finalice el estudio; y existen además casos que no pueden continuar por razones ajenas al estudio (como el caso en que un empleado caiga enfermo y se acoja a una baja laboral). Estos casos se conocen globalmente como casos censurados y hacen que el uso de técnicas tradicionales como las pruebas t o la regresión lineal sea inapropiado para este tipo de estudio. Existe una técnica estadística útil para este tipo de datos llamada tabla de mortalidad de “seguimiento”. La idea básica de la tabla de mortalidad es subdividir el periodo de observación en intervalos de tiempo más pequeños. En cada intervalo, se utiliza toda la gente que se ha observado como mínimo durante ese periodo de tiempo para calcular la probabilidad de que un evento terminal tenga lugar dentro de ese intervalo. Las probabilidades estimadas para cada intervalo se utilizan para estimar la probabilidad global de que el evento tenga lugar en diferentes puntos temporales. Kaplan-Meier ® Es un método de estimación de modelos hasta el evento en presencia de casos censurados. Se basa en la estimación de las probabilidades condicionales en cada punto temporal cuando tiene lugar un evento y en tomar el límite del producto de esas probabilidades para estimar la tasa de supervivencia en cada punto temporal. Regresión de Cox ® Del mismo modo que los anteriores, la Regresión de Cox es un método para crear modelos para datos de tiempos de espera hasta un evento con casos censurados presentes. Sin embargo, la regresión de Cox permite incluir en los modelos variables predictoras (covariables). Por ejemplo, permite construir un modelo de la duración en el empleo como función del nivel educativo y de la categoría laboral. Gestiona los casos censurados correctamente y proporciona las estimaciones de los coeficientes para cada una de las covariables, permitiendo evaluar el impacto de múltiples covariables en el mismo modelo. Además, es posible utilizar este método para examinar el efecto de covariables continuas. Cox con covariable dep. del tiempo ® Existen ciertas situaciones en las que interesa calcular un modelo de regresión de Cox, pero no se cumple el supuesto de tasas de impacto proporcionales. Es decir, que las tasas de impacto cambian con el tiempo: los valores de una (o de varias) de las covariables son diferentes en los distintos puntos del tiempo. En esos casos, es necesario utilizar un modelo de regresión de Cox extendido, que permita especificar covariables dependientes del tiempo (T_COV_). Con el fin de analizar dicho modelo, se debe definir primero una covariable dependiente del tiempo. Para facilitar esta tarea contamos con una variable del sistema, llamada T_, que representa el tiempo. Se utiliza para definir covariables dependientes del tiempo empleando dos métodos generales: Para contrastar el supuesto de tasas de impacto proporcionales con respecto a una covariable particular, o para estimar un modelo de regresión de Cox extendido que permita impactos no proporcionales, se define la covariable dependiente del tiempo como una función de la variable de tiempo T_ y la covariable en cuestión. Algunas variables pueden tener valores distintos en periodos diferentes del tiempo, pero no están sistemáticamente relacionadas con el tiempo. En tales casos es 16 necesario definir una covariable dependiente del tiempo segmentada, lo cual puede llevarse a cabo a partir de un conjunto de medidas usando las expresiones lógicas (1:verdadero, 0:falso). Para las covariables dependientes del tiempo segmentadas, los casos en los que falte cualquiera de los valores quedarán eliminados del análisis. Por tanto, todos los casos deben tener valores para todos los puntos del tiempo medidos en la covariable, incluso para los puntos del tiempo posteriores a la eliminación del caso del conjunto bajo riesgo (ya sea por el evento o por la censura). Respuestas múltiples Definir conjuntos ® Agrupa variables elementales en conjuntos de categorías múltiples y de dicotomías múltiples, para los que se pueden obtener tablas de frecuencias y tablas de contingencia. Se pueden definir hasta 20 conjuntos de respuestas múltiples. Cada conjunto debe tener un nombre exclusivo. Las variables elementales se pueden codificar como dicotomías o categorías: Dicotomías. En Valor contado debe introducirse un entero. Cada variable que tenga al menos una aparición del valor contado se convierte en una categoría del conjunto de dicotomías múltiples. Categorías. Crear un conjunto de categorías múltiples con el mismo rango de valores que las variables que lo componen. Deben introducirse dos enteros como valores máximo y mínimo del rango para las categorías del conjunto de categorías múltiples. El procedimiento suma cada valor entero distinto en el rango inclusivo para todas las variables que lo componen. Las categorías vacías no se tabulan. A cada conjunto de respuestas múltiples se le debe asignar un nombre exclusivo de hasta 7 caracteres. El procedimiento coloca delante del nombre asignado un signo dólar ($).. El nombre del conjunto de respuestas múltiples sólo se encuentra disponible para su uso en los procedimientos de respuestas múltiples. Frecuencias ® Produce tablas de frecuencias para conjuntos de respuestas múltiples. Es necesario definir previamente uno o más conjuntos de respuestas múltiples. Para los conjuntos de dicotomías múltiples, los nombres de categorías que se muestran en los resultados proceden de etiquetas de variable definidas para variables elementales del grupo. Para los conjuntos de categorías múltiples, las etiquetas de categoría proceden de las etiquetas de valor de la primera variable del grupo. Si las categorías perdidas para la primera variable están presentes para otras variables del grupo, debe definirse una etiqueta de valor para las categorías perdidas. Los casos con Valores perdidos se excluyen en base a tabla por tabla. Un caso se considera perdido para un conjunto de dicotomías (o categorías múltiples) sólo si ninguno de sus componentes contiene el valor (o tiene valores válidos en el rango). Se pueden excluir los casos con valores perdidos en cualquier variable de la tabulación del conjunto de dicotomías, o categorías, o ambas. Tablas de contingencia ® Presenta, en forma de tabla de contingencia, conjuntos de respuestas múltiples, variables elementales o una combinación. También permite obtener porcentajes de casilla basados en casos o respuestas, modificar la gestión de los valores perdidos u obtener tablas de contingencia emparejadas. Es necesario definir previamente uno o más conjuntos de respuestas múltiples. Los nombres en los resultados se muestran de la misma forma que en el procedimiento anterior. Las etiquetas de categoría por columnas se muestran en tres líneas, con un máximo de 8 caracteres por línea. Para evitar la división de palabras, se pueden invertir los elementos de las filas y las columnas o volver a definir las etiquetas. 17 Por otro lado, el menú Gráficos permite realizar una gran cantidad de gráficos orientados al análisis de los datos. La primera opción, Galería, no realiza un gráfico en sí, sino que nos traslada directamente a un tema de la ayuda que nos presenta una galería de gráficos. La segunda opción es la de gráficos Interactivos. Con esta opción se generan gráficos que podrán ser modificados posteriormente, en cuanto a variables y elementos gráficos, de forma mucho más efectiva que los gráficos normales. Sin embargo sólo son convenientes cuando se trabaje con archivos de datos pequeños o subconjuntos de otros archivos mayores ya que los requerimientos de recursos son enormes. Las restantes opciones de este menú son una lista de todos los gráficos posibles (no interactivos). Posteriormente se podrán modificar, pero sólo a nivel de formato y de una forma más precaria. Dentro de este menú, encontramos la siguiente galería de gráficos: Barras, Líneas, Áreas, Sectores, Máximos-mínimos, Pareto, Control, Diagramas de caja, Barras de error, Dispersión, Histograma, P-P, Q-Q, Secuencia, Curvas ROC, Serie temporal: Autocorrelaciones, Serie temporal: Correlaciones cruzadas, Serie temporal: Análisis espectral. Una vez seleccionado uno de los tipos, pasamos a otra pantalla de ayuda que nos muestra los subtipos existentes. De cada subtipo nos presenta un ejemplo de lo que se puede hacer y de cómo hacerlo. Para la creación de un gráfico se nos muestra, generalmente, un cuadro de diálogo inicial de selección del gráfico deseado. Esto es debido a que la mayoría de tipos de gráfico están disponibles en varios subtipos y configuraciones. Ejemplo: Una vez elegido el gráfico en cuestión, pasamos al cuadro de diálogo usual que aparece cuando realizamos un análisis. 18 2. GENERALIDADES ESTADÍSTICA Se puede definir la estadística de varias formas, podemos comenzar por una definición de diccionario, el cual la define como "La ciencia que se ocupa de la colección, clasificación, análisis e interpretación de hechos o datos numéricos. En pocas palabras la Estadística es la ciencia de los datos Existiendo igualmente diversas definiciones que se pueden encontrar en los libros de estadística, de los cuales podemos traer a colación 2 de ellas. La primera nos dice que "es un campo del estudio relacionado con la recopilación, organización y resumen de los datos, además de la obtención de inferencias acerca de un conjunto de datos cuando solo se observa una parte de ellos" Wayne W. Daniel. Y la segunda nos la define como "un conjunto de métodos y teorías desarrolladas para recolectar, describir, analizar e interpretar fenómenos y poder tomar decisiones racionales, los cuales están sujetos a la incertidumbre, ya que la información de la cual se deriva la conclusión es incompleta" Abel Díaz Cadavid et al. En este orden de ideas, la estadística suele aplicarse a dos tipos de problemas: 1. Resumir, describir y explorar datos 2. Utilizar datos de muestra para inferir la naturaleza del conjunto de datos del que se escogió la muestra Es así como la rama de la estadística que se dedica a la organización, síntesis y descripción de conjuntos de datos es la estadística descriptiva. Hay ocasiones en que el fenómeno de interés se caracteriza por un conjunto de datos cuya obtención es o bien físicamente imposible o requeriría un gasto excesivo de dinero o de tiempo. En tales situaciones se muestrea el conjunto de datos y se utiliza la información de muestra para inferir la naturaleza del conjunto. De esta forma, la rama de la estadística que utilizamos para resolver este problema es la estadística inferencial. Es decir es la que nos permite inferir a partir de una muestra, algo acerca de una población. LA INVESTIGACIÓN ESTADÍSTICA La estadística es un conjunto de métodos usados para obtener conocimientos. Realmente es parte integrante del método general del conocimiento, establecido como método científico. Se conocen 4 etapas en el proceso de solución de un problema científico: Observación, hipótesis, predicción y verificación. La estadística trabaja especialmente con la primera y cuarta etapa. La predicción va ligada a la lógica y conocimiento del fenómeno que se esta trabajando. Toda investigación estadística deberá utilizar los siguientes pasos: • Paso 1. Formulación del Problema: El propósito de una investigación es determinar el tipo de estudio que debe realizarse. En síntesis la especificación del problema conllevará a trazar pautas y objetivos en el estudio. 19 • • • • Paso 2. Diseño de la Investigación: Es necesario conocer si la investigación es o no controlada. El control puede hacerse por experimentación directa, donde el investigador controla y manipula los resultados que afectan las variables de interés. Un buen diseño debe acoger la máxima información y el mínimo error. Paso 3. Muestreo: Es la parte de la investigación que se relaciona con la forma de obtener los datos de modo que sean aleatorios (provenientes del azar), significativos y confiables. Paso 4. Presentación y Análisis de los Datos: Una vez se tenga toda la información esta se condensa por medio de tablas, gráficas, figuras, de modo que pueda ser publicada y entendida. Paso 5. Inferencia y Toma de Decisiones: Este es el paso más importante. La inferencia estadística se ocupa de la forma de tomar conclusiones o generalizaciones sobre una población que ha sido examinada con base en una muestra extraída de ella. Los anteriores pasos dan origen a diferentes ramas de la estadística. Los métodos estadísticos estudian estas ramas con las nombres de estadística descriptiva, diseño de experimentos, muestreo probabilístico, inferencia estadística y la teoría de decisiones. CONCEPTOS BÁSICOS • • • • • • • • Bioestadística: Cuando los datos que se están analizando se obtienen de las ciencias biológicas y de la medicina, se utiliza el término bioestadística para diferenciar a esta aplicación particular de herramientas y conceptos estadísticos. Población: Se refiere al agregado o totalidad de unidades individuales acerca de las cuales se desea tener información. El mayor grupo de elementos por los cuales se tienen un cierto interés en un momento dado. Si una población de valores consta de un número fijo de estos, se dice que la población es finita. Por otra parte, si una población consta de una sucesión sin fin de valores, dicha población es infinita. Muestra: Es el subconjunto de datos seleccionados de una población. Muestreo: Es el proceso de obtención de datos de una población o de varias realizaciones de un experimento. Variable: Son aquellas características o propiedades existentes en los elementos de la muestra o la población. Parámetro: Son todas aquellas medidas que describen numéricamente la característica de una población. También se les denomina valor verdadero, ya que una característica poblacional tendrá un solo parámetro (media, varianza, etc). Sin embargo una población puede tener varias características y, por tanto, varios parámetros. Estimador o estadígrafo: La descripción numérica de una característica correspondiente a los elementos de una muestra, se denomina estadígrafo. De una población se pueden obtener M número de muestras posibles y en cada uno de ellas se puede cuantificar la característica, obteniéndose por lo general, valores diferentes para cada muestra, a pesar de ser utilizado el mismo estadígrafo o medida. Unidades Individuales: Las llamaremos unidades elementales o unidades de análisis. Son aquellos elementos o unidades sobre los cuales se concentra el estudio, quienes suministran la información que luego va a ser analizada a fin de obtener conclusiones. Son aquellas que conforman la población y/o la muestra. 20 • Unidad de muestreo: Subconjunto mínimo en el cual se puede subdividir el universo para efectuar el proceso de toma de muestra. Es cada una de las unidades que conforman el marco de muestreo. Puede ser igual a la unidad de análisis o estan integradas por dos o más unidades de análisis en cuyo recibe el nombre de conglomerado. • • • Unidad de medida: Son las unidades en las cuales se intenta medir la variable Dato: Valor que se obtiene a partir de una unidad de análisis. Medir: Es comparar con un patrón. Siendo el patrón una serie de características, cualidades que tienen los objetos o las diversas magnitudes asociadas con una escala numérica. Valor: Son los diversos atributos o diversas magnitudes de la medición que caracterizan al sujeto observado. Encuesta: Es el proceso de obtención de datos cuando no se tiene control sobre los agentes que afectan las características de la población. Experimento Aleatorio: Es la información obtenida mediante un estudio al azar. Experimento Estadístico: Es la obtención de la información acerca de una característica de interés. • • • • VARIABLES ESTADISTICAS Se llaman variables estadísticas aquellas propiedades o características de las unidades de análisis cuya variación se debe al azar. Las variables estadísticas deben tener las siguientes características o condiciones: • Exhaustividad: Comprende todas las alternativas o respuestas frente a una situación dada. • Un solo criterio: Se debe relacionar estrictamente a la formulación con la variable • Discriminante: Todas las posibles alternativas de respuesta identifican claramente el comportamiento del fenómeno que se estudia. Naturaleza de las Variables Las variables pueden dividirse en variables cuantitativas y cualitativas. Los datos cuantitativos son aquellos que representan la cantidad de algo, medida en una escala numérica, por ejemplo, número de hijos, edad, peso, talla. Los datos cualitativos o categóricos son aquellos que solo pueden clasificarse, estos no tienen una interpretación cuantitativa, características tales como el color de los ojos, color del cabello, tipo de sangre, comportamiento psicológico, no pueden medirse numéricamente, sino tratadas descriptiva o cualitativamente. Estas características o propiedades reciben el nombre de atributos. Los atributos deben combinarse en forma de frecuencias de tal modo que puedan ser analizados estadísticamente. En muchas ocasiones los atributos pueden reemplazarse por valores numéricos. Por ejemplo, en una máquina, condiciones óptimas de funcionamiento, condiciones leves de funcionamiento y falta de funcionamiento, pueden codificarse con los números 1, 2 y 3, donde dichos números representan el rango de funcionamiento y no magnitudes físicas. Si lo que se desea es hacer comparaciones entre características, es necesario llevar las frecuencias a porcentajes. 21 Ejemplo: Los siguientes datos representan los requisitos del tipo de sangre de 200 científicos. TIPO Frecuencia Porcentaje O 90 A B 80 20 Pasando a porcentajes tenemos: 45% 40% 10% AB 10 TOTAL 200 5% 100.0% Obsérvese que el tipo A es 4 veces más frecuente que el tipo B. NOTA: No debe presentarse la tabla de porcentajes a no ser que esté acompañada de los datos originales. Pues esto llevaría a interpretaciones inverosímiles. Clasificación de las Variables Según Naturaleza Las variables cuantitativas se dividen en DISCRETAS y CONTINUAS. Así, si la observación de las características de interés exige la acción de medir, esta característica es una variable continua, y el resultado de la medición será un número real. Ejemplo de variables continuas: estatura, peso, cantidad de liquido en un beaker, temperatura, tiempo. De otra forma si la observación de la característica de interés exige la acción de contar, esta característica es una variable discreta, y el resultado del conteo es un número entero. Ejemplo de variables discretas: número de hijos por familia, número de accidentes por hora, número de pacientes que ingresan por día a un hospital, número de años. Los datos pueden clasificarse en Univariados, Bivariados ó Multivariados. Los univariados son aquellos que se refieren a una sola variable. En algunos estudios es deseable observar dos propiedades o características diferentes en una misma unidad de análisis, tales como el peso y la estatura en personas adultas, cada observación consta de un par de números y se dice que son datos bivariados. Simultáneamente, la observación de tres o más propiedades en cada unidad de análisis con el fin de estudiarlas conjuntamente, origina datos multivariados. Escalas de Medición Las variables estadísticas pertenecen a una de las cuatro escalas siguientes de medida: Nominal, ordinal, de intervalo ó de razón. • • Escala Nominal: Es aquella en la cual los números no representan magnitudes, sino categorías. Igualmente podríamos decir, que son datos cualitativos con categorías que no pueden ordenarse de forma significativa. Si consideramos el sexo, este tiene dos categorías ó atributos: hombre ó mujer, si rotulamos 1 para hombre y 2 para mujer, entonces estamos aplicando la escala nominal. Escala Ordinal: Es aquella que tiene el orden de los números, no así sus magnitudes. Igualmente se puede decir, son datos cualitativos, los cuales tienen un claro ordenamiento de los grupos del más alto al más bajo. Por ejemplo, la preferencia de 4 candidatos puede ordenarse de 1 a 4, en donde: 1 representaría 22 • • el más preferido y 4 el menos favorecido; grados de desnutrición, tipos de quemaduras. Escala de Intervalos: Los valores numéricos asociados con esta escala son cuantitativos y por lo tanto permiten el uso de las operaciones aritméticas fundamentales. En esta escala se tiene en cuenta tanto la diferencia entre sus medidas como en su ordenación. Exige un punto de referencia fijo (cero arbitrario) y una unidad de distancia para medir las diferencias. Debe entenderse que el cero arbitrario en ningún momento indica ausencia del atributo. Ejemplo: temperatura en grados centígrados, cociente de inteligencia, índice apgar. Escala de Razón: Se aplica cuando son importantes el orden, la distancia y la razón entre dos medidas. Se utiliza un cero real (absoluto), siendo esta la única diferencia con la escala anterior, este cero indica ausencia del atributo. Así la característica operativa de este nivel es la de que las razones establecidas con los valores de una variable guardan una correspondencia con las razones existentes entre las cantidades de la variable medida. Debe existir la unidad de medida como centímetros, metros, años, días de estancia. DISTRIBUCIÓN DE FRECUENCIAS • Representación de Datos Los datos numéricos provenientes de un experimento o encuesta, aparecen inicialmente en el orden en que fueron obtenidos. En un principio, disponemos de un extenso listado de datos que en si mismo ofrecen muy escasa información acerca de las características de interés que queremos conocer a través de ellos. Ya sea que los datos representen una muestra o toda la población, es necesario organizarlos, resumirlos y presentarlos en una forma apropiada para su análisis e interpretación. Existen básicamente dos formas de presentar ó describir datos: mediante gráficos y mediante tablas. La estadística descriptiva se ocupa de todo aquello relacionado con el procesamiento de los datos originales para poner de manifiesto sus características esenciales, el propósito de llegar a conclusiones es una etapa posterior. • Representación Tabular de un Conjunto de Datos La materia prima de toda investigación estadística es el conjunto de datos u observaciones que constituyen una muestra o población completa. Este conjunto o serie de datos debe organizarse en alguna forma comprensible, de modo que pueda hacerse uso de ellos. La representación más usual es la tabular, o sea la tabla de frecuencias. Una tabla de frecuencias es un cuadro con título y leyenda explicativa en el cual aparecen los datos en forma organizada y bien discriminada, incluyendo totales, frecuencias, porcentajes. Ejemplo: Se desea tener información sobre la presión sistólica por individuo en una región de Colombia, se tomo una muestra de 40 personas obteniéndose los siguientes resultados. 23 98, 120, 200, 122, 176, 123, 135, 102, 119, 110, 135, 124, 135, 128, 98, 135, 128, 122, 130, 136, 123, 124, 120, 135, 127, 120, 98, 111, 136, 128, 128, 185, 188, 120, 130, 135, 135, 138, 135, 102. No obstante que la muestra es relativamente pequeña, este conjunto de datos así presentado, no ofrece una información clara al investigador. La siguiente tabla muestra estos mismos datos en forma ordenada, y se llama tabla de frecuencias , porque en ella aparecen las frecuencias con las cuales las personas presentaron una determinada presión sistólica. PRESIÓN SISTOLICA POR INDIVIDUOS EN UNA REGIÓN DE COLOMBIA Presión sistólica por individuo Frecuencia Absoluta (ni) 98 102 110 111 119 120 122 123 124 127 128 130 135 136 138 176 185 188 200 3 2 1 1 1 4 2 2 2 1 4 2 8 2 1 1 1 1 1 Frecuencia Absoluta Acumulada (Ni) 3 5 6 7 8 12 14 16 18 19 23 25 33 35 36 37 38 39 40 Frecuencia Relativa (fi) 0.075 0.05 0.025 0.025 0.025 0.10 0.05 0.05 0.05 0.025 0.10 0.05 0.20 0.05 0.025 0.025 0.025 0.025 0.025 Frecuencia Relativa Acumulada (Fi) Fi * 100 7.5 12.5 15.0 17.5 20.0 30.0 35.0 40.0 45.0 47.5 57.5 62.5 82.5 87.5 90.0 92.5 95.0 97.5 100.0 Explicación a la tabla anterior: Cada dato se presenta por Xi, así: , X19=200 X1=98 La frecuencia absoluta ni es el número de veces que se repite cada dato, así n2=2, indica que el dato 102 se repite 2 veces, con ni, i=1...19. La suma de frecuencias absolutas ni es igual al total de datos, esto es, ∑ n = 40 = n, en general si se tienen K i =1 K datos diferentes ∑ n = n. i =1 i 24 i La frecuencia absoluta acumulada, Ni, es la suma de las i frecuencias absolutas 3 i anteriores, esto es, Ni = ∑n ∑ n j , por ejemplo, N3= j =1 j =n1+n2+n3=3+2+1=6 j =1 La frecuencia relativa fi representa la proporción de veces que ocurre el dato i-esimo con respecto al total, esto es, fi = ni/n*100 (usualmente se da en porcentajes). Por ejemplo f5 = n5/40*100 = 1/40*100=2.5%. Lo anterior significa que X5=119 representa un 2.5% de datos de la muestra. La frecuencia relativa acumulada Fi es la suma de las i frecuencias relativas anteriores, i esto es, Fi = ∑F . j =1 j Por ejemplo F4 = F3 + F4 = 17.5, lo cual significa que los cuatro i datos menores constituyen el 17.5% de la muestra. Nótese que ∑F = j =1 j 1 (si k multiplicamos por 100% la cuarta columna, ∑ F = 100 j =1 • j Representación Gráfica de un Conjunto de Datos Los gráficos tienen por finalidad dar una información general de un conjunto de datos. Se busca con ellos que el lector se forme una idea rápida y global del comportamiento de la característica en estudio, ya sea en la muestra como en la población. Un gráfico no intenta mostrar información detallada, sino hechos sobresalientes de un conjunto de datos. Entre los gráficos estadísticos más comúnes, mencionaremos los gráficos de barras simples y compuestos, los gráficos de sectores (tortas), los histogramas, los polígonos de frecuencias, los polígonos de frecuencias acumuladas u ojivas, los gráficos de líneas, los gráficos de barras dirigidos (pirámides), y los gráficos de dispersión. Gráfico de Barras Se usa para descripciones de conjunto de datos cualitativos, los cuales indican la frecuencia o frecuencia relativa correspondiente a cada categoría, siendo la altura de la barra proporcional a la frecuencia o frecuencia relativa de la categoría. Estas pueden ser simples o compuestas. Las simples son aquellas que muestran el comportamiento de una sola variable, mientras que las compuestas son aquellas que muestran el comportamiento de 2 o más variables. 25 Distribución Distribución porcentual porcentual por por grupos grupos de de edad edad en en el el municipio municipio del del Retiro Retiro -- Antioquia, Antioquia, 1998 1998 Porcentaje 60 51,9 50 40 30 19,1 20 12,6 8,8 7,5 10 0 0-4 '5 - 14 15 - 44 45 - 69 60 y Más Grupos de Edad Distribución Distribución de de lesiones lesiones en en las las manos manos según según sexo sexo en en un un estudio estudio sobre sobre salud salud ocupacional ocupacional Porcentaje 100 78,1 80 60 60 40 40 21,8 20 0 FEMENINO MASCULINO Sexo 26 No Sí LUGAR DE OCURRENCIA DE LA DEFUNCION POR SEXO. MEDELLIN, 19871987-1996 70 P orc e ntaje 60 50 40 30 S E XO 20 M u je r 10 H o m b re 0 H o s p ital o clín ic a O tro lu g a r Casa S in info rm a ció n L u g ar d e la d efun c ión Gráfico de Sectores (Torta) Se utilizan igualmente para variables de naturaleza cualitativa, y consiste en dividir un círculo completo (pastel) en tajadas, donde cada tajada corresponde a una categoría. El ángulo central de cada rebanada es proporcional a la frecuencia relativa de esa categoría. Permitiendo comparar parte con parte y partes con el total. Localización Localización geográfica geográfica de de las las personas personas del del Municipio Municipio del del Retiro. Retiro. Antioquia, Antioquia, 1998 1998 Rural 59,4% Urbana 40,6% 27 Gráfico de Barras Horizontal Dirigido Es aquel que utiliza barras horizontales en lugar de verticales, esta dirigido porque el lado izquierdo del eje se usa para dibujar un conjunto de datos y el derecho para dibujar el otro. DISTRIBUCION DISTRIBUCION PORCENTUAL PORCENTUAL DE DE LAS LAS LESIONES LESIONES OCULARES POR GRUPOS DE EDAD SEGUN OCULARES POR GRUPOS DE EDAD SEGUN SEXO. SEXO. GRUPOS DE EDAD HOMBRES HOMBRES MUJERES MUJERES 3 0 >50 22 20 >50 82 91 30 - 50 55 45 30 - 50 15 9 <30 22 35 <30 100 80 60 40 20 0 20 40 60 80 100 NO NOGRAVES GRAVES GRAVES GRAVES Pirámide de Población Este gráfico es muy similar al de barras horizontal dirigido, solo que en este, en el lado derecho estarán las mujeres en grupos de edad quinquenales y en el lado izquierdo los hombres con igual composición de edad. Piramide Piramide poblacional poblacional por por edad edad yy sexo. sexo. Medellín, Medellín, 1996 1996 2,8 1,78 2,45 2,82 3,68 4,51 6,06 7,46 3,7 70 y Más 2,06 65 a 69 2,9 60 a 64 3,15 55 a 59 3,97 50 a 54 4,65 45 a 49 6,28 40 a 44 8,01 35 a 39 9,67 30 a 34 10,42 25 a 29 9,69 20 a 24 8,82 15 a 19 9,17 10 a 14 9,1 5a9 8,42 0a4 12 10 8 6 4 9,38 9,95 8,97 8,71 10,62 10,79 10 2 0 Mujeres 2 4 6 Hombres Cronología Cronología de de la la atención atención de de salud salud en en Medellín Medellín 1986 1986 -- 1996 1996 28 8 10 12 14 Histograma de Frecuencias Es un conjunto de rectángulos contiguos cuya base son los intervalos de clase sobre el eje horizontal y alturas iguales a las frecuencias absolutas o relativas asociadas a cada clase y sobre el eje vertical. El histograma es en esencia una gráfica de barras en las que las categorías son clases. El histograma no nos dice como están distribuidos los datos dentro de los intervalos, además las apariencias de simetría deben ser aceptadas con cuidado. Este se aplica para variables de naturaleza cuantitativa y esta dada en intervalos de clase. Peso (en onzas) de los tumores malignos extirpados del abdomen de de las personas encuestadas. El Retiro, Antioquia. 1998 Polígono de Frecuencias Se aplica cuando la variable objeto de estudio es cuantitativa y esta dada en intervalos de clase. Se construye graficando las respectivas marcas de clase de cada intervalo. El polígono de frecuencias presenta una imagen más real de los datos por cuanto los valores individuales en cada intervalo son gradualmente más frecuentes a medida que se acercan al punto medio o marca de clase. Es usual "dibujarse" este sobre el histograma de frecuencias. 29 Peso (en onzas) de los tumores malignos extirpados del abdomen de de las personas encuestadas. El Retiro, Antioquia. 1998 Polígono de Frecuencias Acumuladas (Ojiva) Acá como su nombre lo indica lo que se grafica son las frecuencias acumuladas. Cuando los datos son continuos, la gráfica tiene una forma típica y más o menos definida llamada comúnmente Curva u Ojiva. Cuando los datos son discretos, la gráfica tiene una forma escalonada y los saltos ocurren en los puntos donde la característica asume sus respectivos valores. Distribución acumulada del peso (en onzas) de los tumores malignos malignos extirpados del abdomen de las personas encuestadas. El Retiro, Antioquia. 1998 30 Gráfica de Líneas Se utiliza para variables de naturaleza cuantitativa, y cuando estas son analizadas en función del tiempo y se pretende mostrar las variaciones de esta en el tiempo. Nacimientos Nacimientos vivos. vivos. Medellín 1986 Medellín 1986 - 1996 1996 37 Miles 36 35 34 33 32 31 30 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 Años Nacimientos vivos Cronología Cronología de de lala atención atención en en salud salud en en Medellín Medellín 1986 1986 -- 1996 1996 Gráfico de dispersión o Nube de puntos Utilizado para relacionar dos variables de naturaleza cuantitativa. Su uso es adecuado cuando se trata de establecer si existe asociación entre dos variables tendiente a establecer un modelo de regresión que explique la relación funcional de una variable que se llamara dependiente en función de otra que será la independiente. INGRESO EN FUNCIÓN DE LOS AÑOS DE ANTIGÜEDAD. ODONTÓLOGOS DE LA CIUDAD DE MEDELLÍN. 1999 1000 Ingresos en diez miles 800 600 400 200 0 -10 0 10 Años de antiguedad 31 20 30 40 MEDIDAS DESCRIPTIVAS DE UNA MUESTRA • Medidas de Tendencia Central Son medidas que proporcionan información acerca de ciertos promedios o valores centrales de nuestros datos. Las más usadas son: Media aritmética, Media geométrica, Media armónica, La mediana y La moda. Realmente estas dos últimas medidas, en el sentido estricto de la estadística son medidas de posición. a). Media aritmética: Es la suma de todos los datos dividida entre el total de ellos, esto es, si X1, X2,..., Xn son los datos, la media aritmética, denotada X , esta dado n ∑ Xi i =1 por X = n n Cuando hay datos repetidos, la media aritmética puede calcularse así: X = ∑ Xini i =1 n , donde ni es la frecuencia absoluta del dato Xi, muchos la llaman media aritmética ponderada. La media aritmética también es llamada Promedio Aritmético Simple, Valor Medio o simplemente Media. Ejemplo: Calcule la Media del conjunto de n = 5 determinaciones de muestra: 4, 6, 1, 2, 3; la aplicación de la fórmula X nos da: n X= ∑ Xi i =1 n = 4 + 6 +1+ 2 + 3 = 3.2 5 Ahora si hubiesen datos repetidos el desarrollo de fórmula seria como sigue: Distribución del tiempo de efecto de una droga en 20 pacientes Xi 15 20 25 30 Total ni 7 4 6 3 20 Xini 105 80 150 90 425 n X= ∑ Xini i =1 n = 105 + 80 + 150 + 90 = 21.25 Min. 20 Interpretación: En promedio el tiempo que tarda en hacer efecto la droga suministrada es de 21.25 minutos. 32 Ventajas: • Fácil comprensión • Rapidez de cálculo • Presenta estabilidad a las fluctuaciones al azar Desventajas: • Dependiendo de la naturaleza de los datos y de la muestra puede ser poco confiable • Es afectada por la presencia de valores extremos (ya sea pequeños o grandes), en tal situación debe utilizarse otro tipo de promedio. b). Media Geométrica: Se obtiene multiplicando todos los datos y luego se extrae la raíz n-esima a tal producto, esto es, X1, X2, ..., Xn son los datos y n es el tamaño de la muestra, entonces la media geométrica, que denotaremos X g, esta dada por X g= n X 1, X 2,..., Xn , esta fórmula es fácil de calcular cuando n ≤ 3, n ε N, si n ≥ 4 se debe usar la siguiente fórmula: • • • Se toma el logaritmo en Base 10 de cada uno de los datos Se suman los logaritmos de los datos dados en el paso anterior y se divide entre el total de los datos Se extrae el antilogaritmo a la expresión anterior, el resultado será la media geométrica Simbólicamente la fórmula será: n ∑ LogXi X g= Antilog i =1 n Ejemplo: Considérese los números 5, 6, 9, 10, 15, 40, hallaremos la media aritmética y la media geométrica. n X = ∑ Xi i =1 n = 5 + 6 + 9 + 10 + 15 + 40 = 14.16 6 n ∑ LogXi = 10.83 , así: X g= Antilog i =1 n Log 5 = 0.6989 Log 10 = 1 Log 6 = 0.7781 Log 15 = 1.1760 33 Log 9 = 0.9542 Log 40 = 1.6020 0.6989 + 0.7781 + 0.9542 + 1 + 1.1760 + 1.6020 X g= Antilog = 10.83 6 Cabe recordar, que se deben sumar todos los logaritmos y se divide por el número de datos, para posteriormente extraer el antilogaritmo a dicho resultado. Nota: • Si n ≤ 3 y alguno de los datos es cero X g = 0 • Si n ≥ 4 y algún dato es negativo, no se puede hallar X g (Solución imaginaria) La media geométrica es muy útil ya que esta no se encuentra influenciada por valores extremos, es esta la que debe usar cuando estos valores se detectan dentro de un conjunto de datos. Para efectos de calculo de esta medida a partir de cualquier programa estadístico y del Excel, su interpretación es idéntica a la media aritmética. c). Media armónica: Es el recíproco de la Media aritmética o en otras palabras, el recíproco de los términos de la media aritmética. Su fórmula es: X armónica = n n 1 ∑ Xi ≈ n ∑ ( Xi)−1 i =1 Se usa generalmente cuando se van a promediar relaciones que son inversamente proporcionales, como lo es el tiempo con relación a la velocidad. La magnitud de la media armónica es menor que la media aritmética y geométrica, de gran utilidad cuando la variable esta dada en forma de tasa. d). Mediana: Es el valor tal que al menos el 50% de los valores están por encima de él y el otro 50% de los valores están por debajo de este. Ocupa una posición central en la serie cuando los datos están ordenados. Si el número de datos es impar la mediana es el dato del centro. Si por el contrario el número de datos es par la mediana puede ser cualquier valor intermedio central. La mediana se denota con Me. Posición de la Mediana: n +1 2 Ejemplo: Dada una serie de datos, calcular la mediana 3, 2, 7, 4, 9, 15, 15, 14, 13, 12, 4, 5, 7, 9, 7, 11, 8, 9, 6, 5, 10 Posición de la mediana: n +1 21 + 1 = = 11 2 2 Luego de obtener la posición de la mediana, el paso a seguir es ordenar los datos en orden ascendente y, la mediana será el dato que ocupe la posición número 11: 2, 3, 4, 4, 5, 5, 6, 7, 7, 7, 8, 9, 9, 9, 10, 11, 12, 13, 14, 15, 15 34 Dato 11: Me = 8 Para el cálculo de la mediana con conjuntos pares de datos, trabajaremos con el ejemplo anterior, suprimiendo uno de los números 15, hallar la mediana. Posición de la mediana: Me = 7+8 = 7.5 2 Interpretación: n +1 20 + 1 = = 10.5 2 2 Supongamos que los datos anteriores son edades de un grupo de personas, la mediana se interpretaría entonces de la siguiente manera: El 50% de las personas tienen edades inferiores o iguales a 7.5 años, el otro 50% presentan edades superiores a esta. Características de la Mediana: • Es menos aplicada que el promedio • Se requiere para su cálculo ordenar los datos • En series de datos poco simétricas con valores atípicos, esta es la medida ideal • La mediana es realmente una medida de posición Ventajas: • No se deja influenciar por valores extremos • Fácil de calcular Desventajas: • Se aplica generalmente en datos agrupados e). Moda: Es el dato que presenta la frecuencia absoluta más alta o mayor, se denota por Mo. Realmente al igual que la mediana es más una medida de posición. Si la frecuencia de los datos es unitaria se dice que no existe moda. Si existen dos datos que tienen las frecuencias más altas, se dice que el conjunto de datos es Bimodal. Ventajas: • Es independiente de los valores extremos • Es el dato más descriptivo de la serie Desventajas: • Puede no existir • Medidas de Posición (Datos sin agrupar) Son valores que dividen la distribución ordenada en cualquier número de partes. Veremos entonces Los Cuartiles, Deciles y Percentiles. a). Cuartiles: Son aquellos que dividen la distribución ordenada en cuatro (4) partes iguales. 35 • Primer Cuartil: Es el valor en el cual o por debajo del cual se encuentra el 25% de todos los valores de la serie. Se denotará con Q1. Posición Q1 = • Segundo Cuartil: Es el valor en el cual o por debajo del cual se encuentra el 50% de los datos de la serie. Ocupa una posición central, es igual a la mediana. Se denotará con Q2. Entonces, Q2 = Me. Posición Q2 = • N +1 4 N +1 2 Tercer Cuartil: Es el valor en el cual o por debajo del cual se encuentra el 75% de todos los valores de la serie. Se denotará con Q3. Posición Q3 = 3( N + 1) 4 Ejemplo: Si hacemos una observación del tiempo transcurrido entre el contacto de un enfermo contagioso y la aparición de la enfermedad, tenemos que los resultados son: 5, 5, 6, 6, 7, 8, 8, 8, 9, 10, 10, 11, 11, 12, 12, 13, 14, 15, 16, 17, 17, 18, 18, 20 días. A partir de estos datos hallaremos el Primer (Q1), Segundo (Q2) y Tercer (Q3) Cuartil. Primer cuartil (Q1): Posición Q1 = 24 + 1 = 6.25 4 Para hallar el primer cuartil, debemos promediar los datos de los posiciones 6 y 7, así: Q1 = 8+8 =8 2 Interpretación: El 25% de las personas se contagian en un tiempo inferior o igual a los 8 días. Segundo cuartil (Q2): Posición Q2 = 24 + 1 = 12.5 2 Para hallar el segundo cuartil, debemos promediar los datos de los posiciones 12 y 13, así: Q2 = Me = 11 + 11 = 11 2 Interpretación: El 50% de las personas en contacto con los enfermos, se contagian a lo más en 11 días, el otro 50% están por encima de este valor. 36 Tercer cuartil (Q3): Posición Q3 = 3(24 + 1) = 18.75 4 Para hallar el tercer cuartil, debemos promediar los datos de los posiciones 18 y 19, así: Q3 = 15 + 16 = 15.5 2 Interpretación: El 75% de las personas en contacto con los enfermos, adquirieron la enfermedad en a lo más 15.5 días, el otro 25% se encuentran por encima de este valor. b). Deciles: Dividen la distribución ordenada en 10 partes iguales. Por ejemplo, D1= Primer decil, es el valor en el cual o por debajo del cual se encuentra el 10% de todos los valores de la serie. Posiciones de los deciles: D1 = N +1 10 D3 = 3( N + 1) 10 D2 = .......................... D9 = N +1 5 9( N + 1) 10 Donde D1 es el primer decil y D9 es el noveno decil. Siguiendo con el ejemplo anterior, hallaremos los D1 y D9. D1 : Posición = 24 + 1 = 2.5 10 Ahora, deberemos de promediar las posiciones 2 y 3, así: 5+6 = 5.5 2 Interpretación: El 10% de las personas en contacto con los enfermos, se contagiaron en un periodo inferior o igual a 5.5 días. D9: Posición = 9(24 + 1) = 22.5 10 Ahora, deberemos de promediar los posiciones 22 y 23, c). así: 18 + 18 = 18 2 Percentiles: Dividen la distribución ordenada en 100 partes iguales, así: Percentil uno (P1) Posición P1 = N +1 100 37 Posición P99 = • 99( N + 1) 100 Medidas de Dispersión (Datos sin agrupar) La variabilidad de un conjunto de datos es tan importante como la tendencia a concentrarse en un valor particular. Los valores centrales por si solos, no describen adecuadamente un conjunto de datos. Son necesarias otras medidas para poder obtener información sobre la variabilidad o dispersión de los datos, esto es, medidas que indiquen que tan esparcidos o distanciados están los datos con referencia a un valor particular. Estas medidas son: a). Rango: Diferencia existente entre el valor máximo y mínimo de la muestra. Tiene la gran desventaja de que solo toma en cuenta los valores extremos, olvidando los valores centrales de la serie de datos. Este se denotará con la letra R. Con el siguiente ejemplo se mostrará la importancia relativa del rango y como una sola medida de tendencia central y otra de posición no dan información alguna (o si la dan es equivocada), al considerarlas como únicas fuentes de análisis. Los registros diarios de temperaturas en grados centígrados en las ciudades A y B durante la misma semana fueron. X A = 18 Me = 18 Ciudad A: 16, 16, 18, 17, 22, 19, 18 X B = 18 Me = 18 Ciudad B: 16, 12, 15, 18, 21, 25, 19 Obsérvese que en ambas ciudades los promedios de temperatura y las medianas son iguales, lo cual nos puede llevar a pensar erróneamente, que existe gran similitud en la temperatura en ambas ciudades. Debe tenerse en cuenta que las medidas de tendencia central y las de posición no nos dice nada sobre la variabilidad de los datos, los cuales en el ejemplo siguiente presentan tal característica. Hallemos el rango para nuestros datos: RA= 22 - 16 = 6 RB= 25 - 12 = 13 Por lo tanto, podemos observar como el rango de temperatura en las ciudades es muy diferente, pues vemos como en la Ciudad B la temperatura es más del doble que en la Ciudad A, existiendo entonces una gran variabilidad. b). c). Rango Intercuartil: Denotado por Q, esta dado por Q = Q3 - Q1, donde Q3 es el tercer cuartil y Q1 el primer cuartil. Da una idea de la variabilidad del 50% central, pero olvida los valores extremos. Rango Semi-intercuartil ó Desviación Central: Se denota por Qd y esta dado por Qd = Q 3 − Q1 , (es la mitad del rango intercuartilico) 2 No toma en consideración todos los valores de la distribución, ya que puede haber valores inferiores a Q1 o superiores a Q3, que estén muy dispersos. 38 Ejemplo: Los siguientes datos corresponden a una muestra de 40 familias sobre el número de hijos en una región de Colombia. Número de hijos por familia 1 2 3 4 5 6 7 8 9 10 11 Frecuencia 5 5 4 7 3 4 4 2 4 0 2 Se hallaran R, Q, Qd R = 11 - 1 = 10 Interpretación: La diferencia entre el número máximo y mínimo de hijos en las familias es de 10 hijos. Q = Q3 - Q1 Q1 = N +1 40 + 1 41 = = = 10.25 4 4 4 Así se deben promediar las posiciones 10 y 11, 2+3 = 2.5 2 3( N + 1) = 30.75 4 7+7 Q3 = =7 2 Q3 = Ahora, Q3 - Q1 = 7 - 2.5 = 4.5 Interpretación: Qd = La variabilidad en el 50% central de los datos es de 4.5 hijos. Q 3 − Q1 4.5 = = 2.25 2 2 Interpretación: Más o menos la mitad de las familias tienen una desviación con respecto al 50% central de 2.25 hijos 39 d). Desviación Media: Para que una medida sea indicativa de la variabilidad debe tenerse en cuenta todos los datos. La distancia de cada dato Xi con respecto a un valor (medida de tendencia central), se llama Desviación ó error. Si tomamos como medida central la media aritmética y sumamos los resultados obtenidos al hallar la distancia de cada dato con respecto a la media aritmética la suma da cero. k Esto es, ∑ (Xi- X ) = 0, luego esto no representa una medida de dispersión. i =1 Sin embargo si consideramos la suma de la desviación de los datos con respecto a la media aritmética en valor absoluto tenemos: k Desviación Media (DM) = ∑ Xi − X i =1 n Ejemplo: Hallar la Desviación media de los siguientes números: 10, 12, 2, 9, 15, 6, 7, 8, 12, 9 La media de estos datos será X = 9 k DM = ∑ Xi − X i =1 = n ((10 − 9) + (12 − 3) + (2 − 9) + (9 − 9) + (15 − 9) + (6 − 9) + (7 − 9) + (8 − 9) + (12 − 9) + (9 − 9)) 10 = 2.6; se debe tener en cuenta que son valores absolutos e). Varianza: Considera la posición de cada observación en relación con la media de la muestra. n La varianza muestral esta dada por: f). S2 = ∑ ( Xi − X ) 2 i =1 n −1 Desviación Estándar ó típica: Es la raíz cuadrada de la varianza, esto es: n S= ∑ ( Xi − X ) 2 i =1 n −1 La desviación típica no es fácil de interpretar individualmente. Es muy significativo para comparar conjuntos de datos que tengan las mismas unidades de medida. La desviación estándar tiene la ventaja de considerar todos los datos en su cálculo. Se utiliza cuando en la serie de observaciones la medida central elegida es la media aritmética. 40 g). Coeficiente de Variación: Mide la variabilidad de un conjunto de datos. Es utilizado básicamente para comparaciones de muestras. No tiene unidades, esta dado por: • CV = S *100 (Se da en porcentaje) X Coeficientes Los coeficientes que veremos de Asimetría y Curtosis, se refieren a la forma geométrica de la curva de frecuencias. Estos coeficientes se compararán con los de la distribución normal, considerada la distribución más importante en la estadística y cuya gráfica es llamada la Campana de Gauss. • Coeficiente de Asimetría: Mide las desviaciones de nuestro conjunto de datos en sentido horizontal con respecto a la normal, esto es, nos dice si la distribución de nuestros datos es asimétrica a la derecha, a la izquierda, o en el mejor de los casos simétrica. El Coeficiente de Asimetría denotado por g1, esta dado por: n g1 = ∑ ( Xi − X ) 3 i =1 nS 3 tras desarrollar la fórmula, el resultado de g1, nos indicará: ∗ Si g1 > 0, la curva es asimétrica a la derecha ∗ Si g1 < 0, la curva es asimétrica a la izquierda ∗ Si g1 =0, la curva es simétrica o normal Otra forma alternativa de hallar el coeficiente de asimetría se debe a Pearson, quien estableció que dicho coeficiente, puede hallarse utilizando la siguiente fórmula: Cp = 3( X − Me ) S 41 Este coeficiente tiene la ventaja de utilizar la mediana, la cual es resistente a la presencia de valores extremos. De allí podemos decir que, una curva con asimetría entre -0.37 y +0.37 puede considerarse simétrica. Si dicho coeficiente es menor que 1 ó mayor que 1, la asimetría será pronunciada. Para el ejemplo que se ha venido desarrollando, sobre las horas-obrero para realizar una tarea en específico, tenemos: Cp = 3( X − Me ) 3(117.8 − 117.5) = = 0.059 S 15.01 Interpretación: Como CP se encuentra entre -0.37 y 0.37 existe simetría o normalidad en los datos • Coeficiente de Curtosis: Este al igual que el coeficiente de asimetría, se refiere a la forma geométrica de la curva de frecuencias. Mide las frecuencias en sentido vertical con respecto a la curva normal, esto es, nos dice si la curva es más "puntiaguda" ó plana que la normal (grado de apuntamiento) El coeficiente de curtosis se denota por g2 y esta dado por: n g2 = ∑ ( Xi − X ) 4 i =1 nS 4 tras desarrollar la fórmula, el resultado de g2, nos indicará: ∗ Si g2 < 3, la curva es platicurtica (Aplanada) ∗ Si g2 > 3, la curva es leptocurtica (Delgada) ∗ Si g2 = 3, la curva es mesocurtica (Normal) Una forma alternativa de hallar el coeficiente de curtosis, esta dado por: K= Q , donde 2(D 9 − D1) Q = Es el rango intercuartilico D9 = Es el noveno decil, y D1 = Es el primer decil El resultado obtenido con K, se comparará con 0.26, valor de la distribución normal. 42 0.26 - ∗ ∗ ∗ Si K < 0.26, la curva es platicurtica (Aplanada) Si K > 0.26, la curva es leptocurtica (Delgada) Si K = 0.26, la curva es mesocurtica (Normal) Para el ejemplo que se ha venido desarrollando, sobre las horas-obrero para realizar una tarea en específico, tenemos: K= Q 23 = = 0.29 2(D 9 − D1) 2(138 − 98.25) Interpretación: Como K > 0.26, esto es, 0.29 > 0.26, entonces la curva es leptocurtica (delgada). Notas a Tener Presente Sobre la Estadística Descriptiva 1. Si una variable es de naturaleza cuantitativa, la representación gráfica más apropiada para observar su comportamiento es el Histograma de Frecuencias 2. Cuando una variable es de naturaleza cuantitativa medida a nivel de razón, el indicador de tendencia central más apropiado es la Media Aritmética 3. Siempre las estadísticas de resumen deben expresarse en sus respectivas unidades de medida 4. La media aritmética debe encontrase en el rango de variación de los datos de la variable 5. Los cuartiles, deciles y percentiles, deben estar en el rango de distribución de la variable 6. La única estadística de resumen que no lleva unidad de medida es el Coeficiente de Variación 7. La Desviación Estándar o Típica siempre será un número no negativo 43 9 9 .7 % 95% µ - 3σ µ -σ µ + σ µ µ - 2σ µ + 3σ µ + 2σ En el intervalo µ ± σ se encuentra el 68.26% de los datos. En el intervalo µ ± 2σ se encuentra el 95% de los datos. En µ ± 3σ se encuentra el 99.72% Luego de realizar el abordaje por las generalidades de la estadística descriptiva, se procederá a partir de una base de datos a ejemplificar la obtención de estas medidas con la ayuda del SPSS, así como la generación de tablas y gráficos a partir de esta herramienta. Para ello se tomará una base de datos sobre factores de riesgo en personas hipertensas, investigación realizada por la Facultad de Enfermería de la Universidad de Antioquia. Antes de obtener las estadísticas descriptivas propiamente dichas, es aconsejable realizar una exploración de los datos, con el fin de poder ir detectando “basura” en los datos, datos ilógicos, atípicos o los datos faltantes dentro de las bases de datos, ademas de poder determinar si las variables cuantitativas siguen o no un comportamiento normal. Para realizar esto, se procede a explorar los datos en el menú Analizar – Estadísticas descriptivas – Explorar..., con lo cual aparece el siguiente cuadro de dialogo: 44 En el cuadro de variable dependiente se debe de colocar la variable numérica, y si es necesario en la variable factor se puede colocar una variable cualitativa categórica para poder determinar el comportamiento de la variable dependiente de acuerdo a las categorías de la variable cualitativa. Luego, se debe de dar clic en el botón estadísticas, para determinar que medidas de resumen desea; y en el botón gráficos se puede seleccionar el gráfico con test de normalidad para determinar si la variable cuantitativa sigue un comportamiento normal, en su conjunto o por cada categoría de la variable cualitativa. Una vez que pulse continuar y Aceptar, se mostraran en la ventana de resultados las estadísticas de resumen, las pruebas y los gráficos de normalidad. Si no encuentran inconsistencias en los datos se puede proceder a realizar las estadísticas descriptivas de las variables. Para ello, se debe de ir a Analizar – Estadísticas descriptivas – Frecuencias..., en el cuadro que aparece: 45 Puede seleccionar la o las variables cuantitativas a ser resumidas, una vez que las halla pasado del cuadro de la izquierda al de la derecha, pulse en el botón estadísticas y en el cuadro que emerge seleccione las estadísticas de resumen que desee obtener, por ultimo en el botón gráficos, puede seleccionar entre un gráfico de barras simples, pastel o histograma según la variable. Recuerde que si desea tener un registro de todas las operaciones que realice, para posteriormente no repetir los procesos puede Pegar los comandos en la ventana de sintaxis. Una vez hecho esto y de que halla pulsado aceptar, se abre la ventana de resultados con una salida como la siguiente: 46 Si se quisiera editar esta información, se pudiera hacer de forma muy simple, para ello pulse doble clic en el cuadro (ventana de resultados), con lo cual se activara el cuadro para poder ser pivotado (editado). Ahora, la diferencia entre esta orden (frecuencias...) y la orden descriptivas..., radica fundamentalmente en que la segunda no genera una tabla de frecuencias, además de no generar algunas medidas de resumen como la mediana. Si además de la tabla de frecuencias, se deseara crear un gráfico para representar los datos, el procedimiento es como sigue: en el menú gráficos se debe seleccionar el tipo de gráfico deseado, para efectos de ejemplificar se realizará un gráfico de sectores. Luego de seleccionar en el menú gráficos la opción Pie (sectores), aparece el siguiente cuadro de dialogo. En el debe seleccionar Resúmenes para grupos de casos y dar clic en definir. Con lo cual emerge el cuadro de dialogo siguiente: En este debe definir como desea que se consoliden los daros si en valores absolutos o en porcentajes, posteriormente se debe pasar del lateral izquierdo la variable al cajón de la derecha rotulado con Definir sectores por:, para este caso se paso la variable sexo, luego dar clic en Aceptar y el gráfico aparecerá en la ventana de resultados. 47 Si se quisiera editar (pivotar) el gráfico, se da doble clic en el (en la ventana de resultados), con lo cual se abre una ventana nueva llamada editor de gráficos. Allí se podrán cambiar los colores, los textos, las líneas, dependiendo del tipo de gráficos colocar efectos de tercera dimensión, entre otros. Para ello se cuenta con una barra de herramientas que facilita todas estas operaciones. donde, 1. 2. 3. 4. 5. 6. Trama de relleno Color Tipo de marca o viñeta Estilo de la línea Estilo de la barra Estilo del rotulo de la barra 7. Estilo de la interpolación 8. Texto 9. Rotación 3-D 10. Invertir ejes 11. Sacar porción 12. Romper líneas de valores perdidos 13. Opciones del gráfico 3. REGRESIÓN Y CORRELACIÓN La existencia de algún grado de asociación entre las variables nos dirán que están correlacionadas. Se considerara una relación funcional entre las variables X e Y, suponiendo que X toma valores asignados o controlados por el investigador e Y depende de X a traves de la relación Y = F(x). Regresión Lineal Simple: El análisis se regresión suele realizarse con la intención de predecir el comportamiento de algún fenómeno. Se parte de una variable independiente (X), para predecir una variable dependiente (Y). Dichas variables en el análisis de regresión y correlación son cuantitativas. 48 La pregunta que surge entonces es como podemos establecer este tipo de dependencia?. Dado un valor X, es posible hallar el valor correspondiente de Y, mediante una ecuación definida por Y = F(x), si la función es de la forma Y = α + βx , se trata de una regresión lineal. En la practica se cuenta como primer indicio para saber si existe alguna relación lineal entre las variables es el análisis del diagrama de dispersión o nube de puntos. Este consiste en una gráfica donde se relacionan las puntuaciones de una muestra en dos variables, o dicho de otra forma, se obtiene graficando los pares (Xi, Yi) en los ejes cartesianos. 200 Tensión Arterial Sistólica 180 160 140 120 100 40 50 60 70 80 90 100 Peso en Kgs Nótese que los valores de la presión sistólica aumentan a medida que aumenta el peso de las personas. La idea central de este tipo de gráficos es que los diferentes puntos tiendan a colocarse sobre la línea diagonal. Esta información así colocada permite pensar que las dos variables están correlacionadas linealmente. Después de observar la nube de puntos, se debe hallar la ecuación de la recta que mejor se “ajuste” a los puntos o datos, O sea, que la que mejor represente la relación existente entre las variables. Para hallar la ecuación de la recta se utiliza el método de los mínimos cuadrados. Debemos entonces asumir que la relación entre X, Y, no es una relación lineal perfecta ya que Y es aleatoria, cuyos valores reales son impredecibles. Las formas que pueden tomar este gráfico son las siguientes: 49 Y Y b<0 b>0 0 0 X X Y Si b es > 0, o sea positivo, nos indica que hay una relación entre las variables y que esta es positiva o directa; si por el contrario b es < 0, nos indica que la relación es negativa o inversa; pero si b es igual a 0, nos indica que las dos variables están incorrelacionadas, o sea que no existe asociación entre X e Y. b=0 0 X El valor de Y puede expresarse como Y = α + βx + ei , donde α y β son parámetros desconocidos y ei es el error que se comete al querer expresar el valor de Y mediante una relación lineal con X (error aleatorio). Esta ecuación es el modelo poblacional, pero para que este modelo sea adecuado desde el punto de vista estadístico es necesario que se cumpla con las siguientes asunciones: a. Y es una variable aleatoria cuyo valor depende de X, y los valores de X están controlados por el investigador b. Los errores son independientes y tienen una distribución normal. El modelo de regresión lineal simple cuenta con los siguientes parámetros: a. El parámetro α que representa el intercepto sobre el eje vertical, o sea, es el valor medio de Y cuando X vale 0. este valor no tiene interpretación práctica sino en regresiones donde X puede tomar el valor 0 o valores cercanos a 0 b. El parámetro β es la pendiente de la recta de regresión, y expresa en cuanto aumenta o disminuye Y por cada unidad de cambio en X El modelo muestral conocido como ecuación de regresión muestral o ecuación de regresión ajustada queda entonces yˆ = αˆ + βˆx Formulas para hallar α y β. βˆ = n n n n∑ XiYi − ∑ Xi ∑ Yi i =1 i =1 i =1 n n∑ X i i =1 2 n − ∑ Xi i =1 2 Estimador de la pendiente 50 n αˆ = n ∑ Yi − βˆ ∑ Xi i =1 i =1 n = yˆ = β̂x Estimador del intercepto Correlación Simple: Estudia la asociación entre variable cuantitativas con el fin de dar medida de esta asociación sin distinguir entre variables dependientes e independientes. Si solo participan dos variables la correlación será simple, si participan mas de 2 será múltiple. Para medir la correlación se utilizan varios coeficientes, utilizaremos el coeficiente de correlación de pearson r (lease ro). Este coeficiente siempre esta entre –1 y 1, esto es, -1 ≤ r ≤ 1. si r > 0 y ≤ 1, diremos que la correlación es positiva; si r es < 0 la correlación es negativa; si r = 0 las variables están incorrelacionadas. Formula para hallar r. r= n n n n∑ XiYi − ∑ Xi ∑ Yi i =1 i =1 i =1 2 2 n n n X 2 − Xi n Y 2 − Yi ∑ i ∑ i ∑ ∑ i =1 i =1 1/ 2 El coeficiente de correlación no tiene una interpretación mas directa en la regresión, pero su cuadrado r2, llamado el coeficiente de determinación indica la variación en Y debido a su relación con X. En otras palabras, en cuanto explica X la variabilidad en Y porcentualmente. Por lo tanto r2 varia entre 0 y 1 ó entre 0 y 100%. Esta medida es importante para determinar la precisión en un modelo de regresión. Para el calculo de estos estimadores por medio del spss, se debe de seguir los siguientes pasos: 1. En analizar, dar clic en Regresión y allí seleccionar Lineal 51 2. En el cuadro que aparece, colocar en dependiente, la variable dependiente (Y) y en independientes, colocar la variable independiente (X). 3. Posteriormente de clic en el botón estadísticas. En este se podrá ajustar el modelo, obtener los coeficientes de regresión estimados, sus respectivos intervalos de confianza y el coeficiente de durbin-watson, este último permite evaluar uno de los supuestos del modelo de regresión, el cual es que los errores sean incorrelacionados. 4. Una vez que se haya terminado el proceso de seleccionar las opciones adecuadas, de clic en aceptar, aparecerá en la ventana de resultados la siguiente información: 52 Model Summaryb Model 1 R R Square ,561a ,315 Std. Error of the Estimate 16,20 Durbin-W atson 2,198 a. Predictors: (Constant), Peso en Kgs b. Dependent Variable: Tensión Arterial Sistólica ANOVAb Model 1 Regression Residual Total Sum of Squares 7978,987 17329,881 25308,868 df 1 66 67 Mean Square 7978,987 262,574 F 30,388 Sig. ,000a a. Predictors: (Constant), Peso en Kgs b. Dependent Variable: Tensión Arterial Sistólica Coefficientsa Model 1 (Constant) Peso en Kgs Unstandardized Coefficients B Std. Error 76,397 11,712 ,905 ,164 Standardi zed Coefficien ts Beta t 6,523 5,512 ,561 Sig. ,000 ,000 95% Confidence Interval for B Lower Bound Upper Bound 53,014 99,781 ,577 1,233 a. Dependent Variable: Tensión Arterial Sistólica Residuals Statisticsa Predicted Value Residual Std. Predicted Value Std. Residual Minimum 121,65 -36,99 -1,686 -2,283 Maximum 165,09 44,77 2,295 2,763 Mean 140,04 1,59E-14 ,000 ,000 Std. Deviation 10,91 16,08 1,000 ,993 N 68 68 68 68 a. Dependent Variable: Tensión Arterial Sistólica Interpretación: Al observar el resumen del modelo de regresión, se tiene que la presión arterial sistólica y el peso están correlacionados, o sea existe asociación entre las dos variables. Pero al obtener el coeficiente de determinación (r2), se encuentra que el peso explica en muy poco la variabilidad existente en la presión arterial sistólica, puesto que el peso explica solo en un 31.5% la variabilidad existente en la presión arterial sistólica, el resto es explicado por otros factores (multicausalidad). 53 Para explicar la real relación de la presión y el peso, se evalua la prueba de hipótesis para β, en la cual las hipótesis constitutivas son: Ho: X e Y no están relacionadas linealmente → β1 = 0 Ha: X e Y están relacionadas linealmente → β1 ≠ 0 Esta valoración se logra a partir del análisis de varianza. Para el ejemplo en cuestión, se observa que el valor P para β1 es 0.000, lo cual indica que el peso y la presión sistólica están relacionadas linealmente. Así mismo al observar el coeficiente de durbin-watson se puede determinar si los errores son correlacionados o no, si estos son correlacionados el modelo no es adecuado. Para dicho análisis se toman valores de 2 ó cercanos a 2 para poder decidir. Así, si durbin es 2 ó cercano indica que no hay evidencias significativas para afirmar que los errores son correlacionados. Las hipótesis para este coeficiente son: Ho: Los errores son independientes (No correlacionados) Ha: Los errores son dependientes (correlacionados) Para el ejemplo en cuestión, al ser el coeficiente de durbin de 2.198, cercano a 2, no existen evidencias significativas para rechazar Ho. Por ultimo al analizar los coeficientes β, se observa como el valor P para β1 (Peso) es estadísticamente significativo, P=0.0000, lo cual indica que existen evidencias estadísticamente significas que el coeficiente β1 es diferente de 0, esto se corrobora al obtener los intervalos de confianza, los cuales no pasan por el cero. en caso que este supuesto no se cumpla, esto indica que el modelo no es el mas apropiado para expresar el comportamiento de la variable dependiente. El modelo de regresión que surge entonces para predecir el comportamiento de la presión sistólica a partir del peso es: y = 76.397 + 0.905 x , donde: β0 (76.397), indica que el valor medio de la presión es 76.397 cuando el peso es cero. Lo cual es ilógico, como se menciono en un apartado anterior de este capitulo, puesto que la variable peso no puede tomar valores de 0. β1 (0.905), indica que el valor estimado del coeficiente de regresión es 0.905, y se tiene una confianza del 95% de que ese valor se encuentra entre 0.577 y 1.233. este valor de la pendiente, indica además que por cada kilogramo que aumente el peso de la persona, la presión sistólica aumentará en un 0.905. ˆ 54 4. MANEJO DEL SPSS En todo proceso investigativo resulta necesario realizar algunas operaciones con los datos, tales como seleccionar un conjunto especifico de datos, calcular valores a partir de otras variables, recodificar o reagrupar la información, ordenar y resumir la información. Este apartado se centrará en estos aspectos con el fin de poder manejar con mayor profundidad la herramienta SPSS. El primer paso es poder abrir bases de datos realizadas en otros programas como Excel, Dbase, entre otros. Para ello, se procede a ir al Menú File – Open –Data. Posteriormente se abre el cuadro de dialogo Abrir, allí podrá seleccionar la carpeta (directorio) donde se encuentra el archivo en el cuadro combinado Buscar en:, en la opción Tipo de archivos podrá seleccionar el tipo de formato que tiene el archivo que desea abrir, por ultimo de clic en abrir. En algunas ocasiones cuando SPSS abre el archivo crea una variable nueva llamada d_r, esta variable puede ser borrara por el visor de variables. Una vez abierta la base de datos, podrá guardarla en la carpeta que usted desee, recuerde que para los nombres de las variables de spss, estas no podrán ser de mas de ocho caracteres, y deberán ser en minúsculas. Transformación de los datos: Una vez introducidos los datos, podemos hacer ciertas transformaciones de los mismos con la finalidad de crear nuevas variables o recodificar valores para variables ya definidas. Revisaremos aquí las vías para la recodificación y para la creación de nuevas variables, en cálculos realizados a partir de los mismos. 55 Para Calcular variables a partir de otras, proceda a realizar los siguientes pasos: 1. Elija Calcular del menú Transformar 2. En el cuadro que aparece, de el nombre de la nueva variable a calcular en el lateral izquierdo (Target variable), puede ser el nombre de una nueva variable o el de una ya existente, si desea puede colocarle etiqueta y definirle tipo de datos en el botón Type & Label. En el recuadro de la derecha debe de colocar las variables y las constantes necesarias para calcular la nueva variable. Para construir la expresión en el recuadro de la derecha puede pegar las funciones de la lista de funciones y rellenar los parámetros, además tenga presente que las constantes de texto o cadena deben estar entre comillas “ “, y que para nuevas variables de cadena también deberá seleccionar el tipo y la etiqueta para especificar el tipo de datos. Así para calcular por ejemplo el índice de masa corporal, en el lado izquierdo se nombraría la nueva variable como IMC, y en el panel derecho la expresión quedaría así: (peso/(talla*talla)) Recodificación de valores. Los valores de daos se pueden modificar mediante recodificación. Esto es particularmente útil para agrupar o combinar categorías. Se pueden recodificar los valores de variables existentes o crear nuevas variables basándose en los valores recodificados de variables existentes. Recodificar en la misma variable: Este proceso reasigna los valores de variables existentes o agrupa rangos de valores existentes en nuevos valores. Para recodificar los valores de una variable, 56 elija el menú Into same variables del comando Recode del menú Transform. Seleccione la(s) variable(s) que desea recodificar. Si se seleccionan múltiples variables, deberán ser del mismo tipo (numéricas o de cadena); pulse en valores antiguos o nuevos y especifique como recodificar los valores, en este cuadro de dialogo se pueden definir los valores que se van a recodificar. Todas las especificaciones de valores deben pertenecer al mismo tipo de datos que las variables seleccionadas en el cuadro de dialogo principal. Valor antiguo: El valor o valores que se van a recodificar. Se pueden recodificar valores individuales, rangos de valores y valores perdidos. Valor nuevo: El valor individual en el que se recodifica cada valor antiguo o rango de valores. Se puede introducir un valor o asignar el valor perdido por el sistema. Antiguo→Nuevo: la lista de valores que se van a utilizar para recodificar la variable o variables. Se pueden añadir, modificar y borrar especificaciones de la lista Recodificar en distintas variables: Este proceso reasigna los valores de variables existentes o agrupa rangos de valores existentes en nuevos valores para una nueva variable. Para recodificar los valores de una variable, elija el menú Into different variables del comando Recode del menú Transform. Seleccione la(s) variable(s) que desea recodificar. Si se seleccionan múltiples variables, deberán ser del mismo tipo (numéricas o de cadena); introduzca el nombre de una nueva variable de los resultados para cada nueva variable (Output variable) y pulse en Cambiar; pulse en valores antiguos o nuevos y especifique como recodificar los valores, en este cuadro de dialogo se pueden definir los valores que se van a recodificar. 57 Una forma alternativa para reagrupar los valores de una variable es mediante la opción de Categorize del menú Transform. Esta forma de recategorizar es automáticamente realizada por el SPSS, a partir del número de categorías definidos por el investigador. Para ello, del cuadro de la izquierda pase la variable para el de la derecha y en el cuadro Número de categorías (number categories) colocar el numero de categorías deseado. En términos generales este tipo de categorización se obtiene a partir de los cuartiles, deciles o mediana. Seleccionar casos. Este proporciona varios métodos para seleccionar un subgrupo de casos basados en los criterios que incluyen variables y expresiones complejas. También se puede seleccionar una muestra aleatoria de casos. Los criterios usados para definir un subgrupo pueden incluir: Valores y rangos de variables, rangos de fechas, Numero de casos (filas), expresiones aritméticas, expresiones lógicas y funciones. 58 Para seleccionar los casos vaya al Menú Datos – Seleccionar casos..., seleccione uno de los métodos de selección de casos y especifique los criterios para la selección de los mismos. Puede filtrar o eliminar casos que no reúnen los criterios de selección. Los casos filtrado permanecen en el archivo de datos pero se excluyen del análisis. SPSS crea una variable de filtro, filter_$, para indicar el estado del filtro. Los casos seleccionados tienen un valor de 1; los casos filtrados tienen un valor de 0. los casos filtrados también están indicados con una barra transversal sobre el número de la fila en el editor de datos. Para desactivar el filtrado e incluir todos los casos en el análisis seleccione todos los casos. Para seleccionar los casos por un criterio en especifico, por ejemplo para seleccionar el sexo femenino, debe seleccionar la opción If condition is satisfied (si se satisface la condición), y dar clic en el botón If. En el cuadro que aparece, del cuadro de la izquierda pasar la variable y colocar cual es el criterio, si el criterio es cadena o carácter, este debe de ir encomillado, si es numérico no; así para seleccionar a las mujeres en el cuadro de la derecha debe de aparecer algo similar a esto Sexo=”Femenino”, pero si las categorías estuviesen numéricas y femenino fuera el uno, el criterio cambiaria a Sexo=1. la mayoría de las expresiones condicionales utilizan uno o mas de los seis operadores relacionales (<, >, <=, >=, =, ≠) del teclado de la calculadora. Estas expresiones condicionales pueden incluir nombres de variables, constantes, operadores aritméticos, funciones numéricas y otros variables lógicas y operadores relacionales. Si en vez de filtrar los datos, escoge eliminarlos, los registros que no cumplan la condición se borraran, y si después de haberlos eliminado, guarda los cambios en el archivo de datos de trabajo (con el mismo nombre), entonces no podrá recuperar los casos eliminados. 59 Seleccionar casos: Muestra aleatoria. Este cuadro de dialogo le permite seleccionar una muestra aleatoria basándose en un porcentaje aproximado o en un número exacto de casos. Aproximadamente: SPSS genera una muestra aleatoria con el porcentaje aproximado de casos especificado. Este porcentaje realmente resulta aproximado, y en algunos casos solo se acerca al porcentaje especificado. Exactamente: Un número de casos especificado por el usuario. 60 5. INFERENCIA ESTADÍSTICA La inferencia estadística es el procedimiento por medio del cuál, se llega a conclusiones acerca de las características de una población mediante los resultados que se obtienen a partir de una muestra extraída de esa población. La inferencia estadística es entonces un proceso que nos permite emitir juicios probabilísticos sobre una población cuando solo disponemos de la información parcial contenida en una muestra. La inferencia estadística tiene metodologías confiables que permiten analizar si la muestra tiene las mismas características de la población. Si esto ocurre podemos estimar por medio de una medida muestral (estadístico) un parámetro infiriendo sus resultados a la población. Los procedimientos de inferencia estadística permiten inferir respecto a las poblaciones muestreadas (siempre y cuando se hayan utilizado los métodos de muestreo correctos). Sólo cuando la población objetivo (N) y la población muestreada (n) son las mismas, se pueden utilizar los procedimientos de inferencia estadística para llegar a conclusiones acerca de la población objetivo (N). La inferencia estadística se divide en dos problemas fundamentales: Estimación de parámetros y pruebas de hipótesis estadísticas. A la vez, la teoría de la estimación se subdivide en estimación puntual y estimación por intervalos de confianza. ESTIMACIÓN DE PARAMETROS El problema de especificar el valor de un parámetro es un problema de estimación puntual (hallar un número o un punto sobre la recta real). El problema de especificar la precisión de una estimación es un problema de estimación de intervalos de confianza. El problema de decidir si se acepta o se rechaza un valor dado del parámetro es un problema de pruebas de hipótesis. • ESTIMACIÓN PUNTUAL Es la escogencia de un estimador que proporcione un valor tan cerca como sea posible al valor esperado del parámetro. La situación ideal seria disponer de un estadístico tal que su valor, para todas las muestras, fuese igual al valor del parámetro. Dicho estadístico no existe. Por lo tanto, la búsqueda de estadísticos debe orientarse hacia aquellos que proporcionen valores razonablemente cercanos al valor real del parámetro. Una estimación puntual es una regla o fórmula que nos dice como calcular una estimación numérica con base en las determinaciones contenidas en una muestra. El número que resulta del cálculo es una estimación puntual. La estimación puntual es la que se utilizó en la estadística descriptiva, cuando calculamos las medidas (tendencia central, posición y variación). 61 Los parámetros que se estiman más frecuentemente: µ δ² δ P • buen buen buen buen estimado es estimador es estimador es estimador es X S² S P (media muestral) (varianza muestral) (desviación muestral) (proporción muestral) ESTIMACIÓN POR INTERVALOS DE CONFIANZA Un estimador de intervalo es una regla, casi siempre expresada como una fórmula, que nos permite calcular dos puntos a partir de los datos de la muestra. El objetivo es formar un intervalo que contenga a el parámetro con un grado de confianza elevado. Una estimación por intervalos de confianza consta de dos valores numéricos que definen un intervalo que con un grado de confianza, se considera incluye el parámetro que se está estimando (µ,δ²,P) Este coeficiente de confianza para un intervalo es la probabilidad (antes del muestreo) de que el intervalo aleatorio contenga el parámetro estimado. Es así como, si un intervalo de confianza tiene un coeficiente de confianza igual a 0.95, decimos que es un intervalo de confianza del 95%. Si el coeficiente de confianza es 0.99, decimos que el intervalo de confianza es del 99%. La confianza alta o probabilidad alta se escribe como 1 - α y se denomina coeficiente, grado o nivel de confianza del intervalo. α se denomina como grado de significación. Las probabilidades o confianzas 1 - α más utilizadas son: 0.90 = 90% 0.95 = 95% 0.99 = 99% Una confianza del 95%, por ejemplo, significa que de cada 100 intervalos construidos a partir de 100 muestras diferentes, encontramos que 95 de ellos contienen el parámetro y los otros no lo contienen. En la práctica, no se tiene más que una muestra, y el intervalo de confianza construido a partir de esa muestra contiene el valor del parámetro o no lo contiene. Como no es posible conocer cual alternativa es la correcta, se asume o se confía en que el intervalo se encuentra entre aquellos 95 que contienen el valor real del parámetro cada vez que se construyan 100 en las mismas condiciones. • Teorema Central del Límite La esencia del teorema central del límite radica en que la X tiene una distribución aproximadamente normal si el tamaño de la muestra es grande. Sea X una variable aleatoria de una población cualquiera con media µ y varianza δ2 y sea X la media de la muestra de tamaño n extraída de esa población. Entonces la variable aleatoria Z = n * ( X − µ ) / δ tiene una distribución que se aproxima a la normal estandarizada cuando n tiende a infinito. 62 Se supone que la aproximación es suficientemente buena cuando n ≥ 30. distribución normal se le llama a veces distribución Z. A la Intervalos de confianza para la media de una población (µ) a). Población normal con varianza δ2 desconocida La estimación de la media poblacional µ por intervalos de confianza consiste en el cálculo de dos límites aleatorios a y b, tales que el evento a < µ < b tenga una probabilidad alta de ocurrencia. Para hallar a y b se debe razonar de la forma siguiente: si la población es normal, la media muestral X también se distribuye como una normal. Normalmente el valor puntual X = µ (Media muestral es igual a media poblacional), pero no siempre el valor es exacto debido a errores en el muestreo o porque la población y muestra tienen algunas diferencias. Por lo tanto hayamos con un grado de confianza de que µ (media real) esté en un intervalo dado. δ n Cálculo del intervalo de confianza: X ± Zα/2 Esta fórmula cuenta con cuatro variables. Los valores de la X y n se obtienen a partir de la muestra. en algunas investigaciones es posible que se conozca el valor de δ. Nos queda por calcular el valor de Zα/2. Este valor se obtiene de la tabla de la distribución normal conociendo el valor de 1 - α. Los valores de la curva normal estandarizada (Z) para cada grado de confianza son los siguientes: 1-α Z 0.90 = 90% 1.645 0.95 = 95% 1.96 0.99 = 99% 2.58 Un intervalo dado me dice que se tiene un 100(1 - α) de confianza de que la media de la población está entre (a y b) valores de la variable. b). Muestras grandes, cualquier población y varianza δ2 desconocida para cualquier población normal o no normal sabemos por el teorema central del n * ( X − µ ) / δ tiene una distribución aproximadamente límite, que la variable Z = normal y la aproximación es mejor a medida que crece n. En estadística se considera que n es grande, para asumir normalidad, cuando n ≥ 30. Además se presenta un problema adicional, y es el de que desconocemos el valor de δ, pero se puede estimar δ mediante S cuando la muestra es grande, ya que S es un estimador consistente para δ. Es así como el cálculo del intervalo de confianza sería: 63 S X ± Zα/2 . n c). Muestras pequeñas, población normal y varianza δ2 desconocida hay ocasiones en que las restricciones de tiempo o costo pueden restringir el número de observaciones de muestra que se pueden obtener para estimar µ. En el caso de muestras pequeñas n < 30, surgen dos problemas. El primero consiste en que el teorema central del límite solo se aplica a muestras grandes, no se puede suponer que la distribución de muestreo de X es aproximadamente normal; el segundo problema radica en que la desviación estándar de la muestra S podría no ser una aproximación satisfactoria a la desviación estándar de la población δ si el tamaño de la muestra es pequeño. Para lo anteriormente planteado se pueden aplicar técnicas de estimación basadas en muestras pequeñas si podemos suponer que la población de la cual de seleccionó la muestra tiene una distribución normal aproximada. De esta forma para muestras n * ( X − µ ) / S no sigue una distribución normal sino una pequeñas el cociente T = distribución t de student. Así, la forma general de un intervalo de confianza de muestra pequeña para µ con base en la distribución t de student será como sigue: S X ± tα/2 ; donde la distribución de t se basa en (n - 1) grados de libertad. n Intervalos de confianza para la diferencia de medias (µ1-µ2) Un problema frecuente en estadística es el de comparar dos muestras independientes obtenidas de la misma población o de poblaciones diferentes. Por ejemplo dos procedimientos de producción para la misma clase de articulo. De esta forma el intervalo del (1-α)100% de confianza para la diferencia de medias µ1 - µ2 de las dos poblaciones será: ( X 1- X 2) ± Zα/2 * δ 12 / n1 + δ 22 / n2 En este punto debemos considerar varios casos dependiendo del conocimiento que tengamos de las varianzas δ 1 y δ 2 y de los tamaños muestrales n1 y n2. 2 a). 2 Varianzas desconocidas y n1 y n2 grandes El intervalo ( X 1- X 2) ± Zα/2 * δ 12 / n1 + δ 22 / n2 , es aplicable únicamente cuando se conocen δ 1 y δ 2 lo cual ocurre en muy raras ocasiones. Si las varianzas poblaciones 2 2 son desconocidas pero los tamaños muestrales son grandes (n1 ≥ 30 y n2 ≥ 30), podemos reemplazar δ 1 por S1 y δ 2 por apreciablemente la confiabilidad del intervalo. 2 2 2 S 22 en el intervalo sin afectar Si un intervalo de confianza contiene el cero, se puede concluir que las medias de las dos poblaciones son iguales. Si el intervalo es negativo, la media de la población B es superior a la dieta de la población A. Si el intervalo es positivo, la media de la población A es superior a la media de la población B. 64 b). Varianzas iguales pero desconocidas y n1 y n2 pequeñas Este es el caso más común en las situaciones practicas. Con base en lo anterior tenemos que un intervalo para muestras pequeñas debe calcularse a partir de la distribución t de student, así: ( X 1- X 2) ± t1-α/2 * Sp 1 / n1 + 1 / n2 ; donde Sp es igual a δ2. Aunque las varianzas sean diferentes, si las poblaciones son normales y n1 = n2, el intervalo anterior nos proporciona un resultado muy satisfactorio. De aquí que en el diseño de los experimentos debe tratarse, en lo posible, de tomar muestras de igual tamaño. c). Varianzas desiguales desconocidas y muestras pequeñas Cuando las muestras son pequeñas y δ 1 ≠ δ 2 , no existen intervalos exactos para estimar las diferencias de medias. En este caso se usan métodos aproximados conocidos como "problema de Behrens-Fisher"y una de las soluciones más seguidas es la sugerida por Smith y Satterthwaite, que consiste en calcular el intervalo de la siguiente forma: 2 2 S12 / n1 + S 22 / n2 ; en donde el número de grados de libertad de la ( X 1- X 2) ± t1-α/2 * variable t esta dado por: g.l. = (S (S 2 1 2 1 / n1 + S 22 / n2 ) ( 2 ) 2 ) S2 /n / n1 + 2 2 n1 − 1 n2 − 1 2 En términos generales la decisión que se tome con las pruebas de hipótesis debe ser la misma a la que se llegue con los intervalos de confianza. Así, si en la diferencia de medias el intervalo de confianza es positivo en ambos limites, quiere decir que no pasa por cero, se puede decir que hay diferencias estadísticamente significativas y dicha diferencias son a favor de la población 1, o sea que el promedio de la población 1 es significativamente mayor que el de la población 2; si por el contrario ambos limites son negativos y mayores de cero, existen diferencias estadísticamente significativas y dichas diferencias son a favor de la población 2, o sea que el promedio de la población 2 es significativamente mayor que el de la población 1. si el intervalo contiene el cero se puede decir que no existen diferencias estadísticamente significativas, esto es, los promedios son iguales. Intervalos de confianza para la diferencia de medias en muestras pareadas En algunas ocasiones, la naturaleza del experimento producen muestras que resultan dependientes y en otros casos es necesario diseñar los experimentos de tal manera que las muestras sean dependientes. Por ejemplo, la reacción de un sujeto antes y después de ser sometido a un tratamiento. Aquí una muestra seria el antes y la otra el después. Estas muestras son dependientes ya que es el mismo sujeto el que suministra cada par de datos. Para analizar la diferencia entre las medias de las dos poblaciones, cuando las muestras son dependientes, se calculan las diferencias di entre las observaciones pareadas y se asume que estas diferencias constituyen una muestra 65 de una población aproximadamente normal. Entonces, el intervalo de (1-α)100% para la diferencias de medias es: Para muestras grandes d ± Zα/2 Para muestras pequeñas Sd n d ± t1-α/2 Sd n donde t1-α/2 se basa en (n - 1) grados de libertad; y δd es la desviación de diferencias de la población Representamos con d1, d2, ..., dn las diferencias entre las observaciones por pares en una muestra aleatoria de n pares coincidentes, d = media de las n diferencias de muestra y Sd = desviación estándar de las n diferencias de muestra. Si se desconoce δd (como suele suceder), utilice Sd para aproximar δd. Ejemplos: Ejemplo 1: Supóngase que un investigador, interesado en obtener una estimación de la edad promedio en cierta población, toma una muestra de 10 individuos, indaga sobre la edad en años de cada uno y calcula la media muestra X = 22 años. Supóngase que se sabe que la variable de interés presenta una distribución aproximadamente normal con una varianza de 45. Calcular el intervalo para µ, con un grado de confianza del 95%. n= 10 media= 22 años El intervalo es: X ± Z1-α/2 * σ2= 45 Zα/2=1.96 S 6.71 = 22 ± 1.96 * = (17.84 ; 26.16) n 10 Es decir: 17.84 < µ < 26.16 Con una confianza del 95%, la edad promedio de las personas en la población se encuentra entre 17.84 y 26.16 años. Ejemplo 2: En un estudio de flujo de pacientes a través de la oficina de grupos generales, se encontró que en promedio, una muestra de 35 personas llegaban 17.2 minutos tarde a las citas. Una investigación previa había demostrado que la desviación estándar era de 8 minutos aproximadamente. Cual es el intervalo del 90% para la cantidad del tiempo promedio verdadera de llegadas tarde a las citas? n= 35 media= 17.2 minutos El intervalo es: X ± Z1-α/2 * σ= 8 minutos S = 17.2 ± 1.64 * n 66 Z1-α/2=1.64 8 = 35 (15 ; 19.4) Es decir: 15 < µ < 19.4 Podemos decir con una confianza del 90% que la cantidad promedio de tiempo verdadera de llegada tarde a las citas en la población esta entre 15 y 19.4 minutos. Intervalos de confianza para una proporción P Se considerará ahora un método para estimar la proporción binomial P de éxitos; es decir, la proporción de elementos de una población que tienen cierta característica. Se originan de una población bicategórica, dicotómica, binomial. Un candidato lógico como estimador puntual de la proporción de la población P es la proporción de la muestra P = X , donde X = número de observaciones de una muestra de tamaño n que tiene la característica de interés (es decir X es el número de éxitos); n = tamaño de muestra. Acá consideraremos muestras grandes (n ≥ 100) P *Q ; donde P es la proporción en la muestra de n observaciones con la característica de interés, Q = 1- P . El intervalo es = P ± Zα/2 Nota: Cuando n < 100, debe utilizarse la distribución Binomial Ejemplo: Se tomo una muestra de 120 interruptores eléctricos de un lote que fue despachado a un almacén de ventas al menudeo y se encontraron 10 defectuosos. Hallar un intervalo de confianza del 90% para estimar la proporción de interruptores defectuosos en la fabricación de estos aparatos. P= X = n 10 = 0.083 120 Ahora el intervalo es: Z1-α/2 = 1.64 0.083 ± 1.64 0.083 * 0.917 = 0.083 ± 1.64 (0.02518) 120 0.041 < P < 0.124 La proporción de interruptores defectuosos en los lotes fabricados se encuentra entre un 4.1% y 12.4% con un 90% de confianza. Intervalos de confianza para la diferencia de proporciones P1-P2 Aquí se tratara el caso en que se quiera estimar la diferencia entre dos poblaciones binomiales. Por ejemplo se podría estar interesado en comparar la proporción P1 de 67 artículos defectuosos producidos por la maquina 1 con la proporción P2 de artículos defectuosos producidos por la maquina 2. Para estimar la diferencia (P1 - P2), donde P1 y P2 son parámetros binomiales; es decir, las probabilidades de éxito en los experimentos binomiales independientes, consideraremos la siguiente fórmula: (P 1 - P 2) + Zα/2 p1q1 p2 q2 ; + n1 n2 donde P 1 - P 2 son las proporciones de observaciones con la característica de interés en las muestras. Si un intervalo de confianza contiene el cero, se puede concluir que las proporciones de las dos poblaciones son iguales. Si el intervalo es negativo, la proporción de la población B es superior a la proporción de la población A. Si el intervalo es positivo, la proporción de la población A es superior a la proporción de la población B. Notas importantes: • El intervalo de confianza para la media (µ) se calcula con el requisito de que la población sea normal y tenga una varianza o desviación estándar poblacional conocida. • En caso de que no se conozca la desviación poblacional desviación muestral (δx) • • Cuando se tiene dudas si la población o variable estudiada siguen una distribución normal y se tiene una n grande (n ≥ 30) podemos suponer que esta sigue una distribución aproximadamente normal y podemos calcular el intervalo de confianza de la forma: X ± Z (1 - α/2) δx. Las poblaciones no normales con n pequeña, siguen una distribución T- de Student • PRUEBAS DE HIPÓTESIS (DOCIMASIA) (δ) se podrá utilizar la Las pruebas de hipótesis, denominada también prueba de significación tiene como objeto principal evaluar suposiciones o afirmaciones acerca de los valores estadísticos de la población, denominados parámetros. La palabra docimar significa probar. Para tomar una decisión se hace ante todo plantear posibilidades acerca de la característica o características a estudiar en una población determinada. La suposición puede ser cierta o falsa. Estas suposiciones se llaman hipótesis estadísticas. Las hipótesis estadísticas Ayudan al Investigador a tomar una decisión entorno a una población, examinando una muestra de ella. Tipos de Hipótesis: 1. De Investigación: Es la conjetura o suposición que motiva a la investigación. Puede ser el resultado de la experiencia del investigador a través de varios años de observación. 68 2. Estadísticas: Establecidas de tal forma que puedan ser evaluadas a través de técnicas estadísticas apropiadas. Devienen directamente de las de investigación. Las hipótesis pueden ser formuladas con el fin de rechazarlas de acuerdo con el análisis estadístico. Esta clase de hipótesis se denomina hipótesis nula y se representa por Ho; estas son aquellas por medio de las cuales se hace una afirmación sobre un parámetro que se va a constatar con el resultado muestral. Se tiene también la hipótesis alternativa representada por Ha; esta es toda aquella hipótesis que difiere de la hipótesis nula, es decir, ofrece una alternativa, afirmando que la hipótesis nula es falsa. Es así como, la teoría que queremos apoyar (o detectar si es verdadera) por lo regular se escoge como hipótesis alternativa. Las hipótesis nula y alternativa se establecen de tal manera que sean mutuamente excluyentes y complementarias. Por lo tanto, cuando rechazamos la hipótesis nula estamos aceptando a la vez la hipótesis alternativa como verdadera y lo contrario. Generalmente, pero no siempre, la hipótesis alternativa es la misma hipótesis de investigación y en el proceso de prueba se espera negar o rechazar la hipótesis nula de modo que se concluya la hipótesis alternativa o de investigación. La decisión de aceptar o rechazar Ho depende de la información muestral. Como esta información proviene de un muestreo aleatorio no podemos tener una seguridad del ciento por ciento de que la decisión tomada es la correcta. En otras palabras, podríamos equivocarnos, por ejemplo, rechazando Ho cuando en realidad esta es la hipótesis verdadera. Hay cuatro resultados posibles según la decisión que se tome y el valor que tenga Ho, así: D E C I S I O N E S • • • • Si Si Si Si Ho Ho Ho Ho es es es es VERDADERA FALSA ACEPTAR Decisión Correcta Error Tipo II RECHAZAR Error Tipo I Decisión Correcta verdadera y la aceptamos, tomamos la decisión correcta verdadera y la rechazamos, cometemos un error llamado error de tipo I falsa y la aceptamos, cometemos un error llamado error de tipo II falsa y la rechazamos, tomamos la decisión correcta. La hipótesis estadística es un supuesto concerniente a los parámetros o a la forma de distribución de probabilidad correspondiente a una o más poblaciones dadas. En otras palabras, se resume diciendo que corresponde a un enunciado acerca del valor estadístico (parámetro) poblacional. 69 Las hipótesis se debe formular en forma correcta o lógica y debe ser enunciada antes de obtener los datos muestrales. Son ejemplos de hipótesis estadísticas: • El administrador de un hospital puede suponer que el promedio de días de estancia de los pacientes internados es de 5 días. • El promedio de calificación que tendrán los alumnos en un curso de estadística será superior a 4 • El 5% de las unidades producidas por una máquina serán defectuosas Las pruebas de hipótesis se pueden dividir en unilaterales y bilaterales. Las unilaterales son aquellas en las cuales las zonas de rechazo o zona critica esta completamente comprendida en uno de los extremos de la distribución. La prueba es unilateral a la derecha (de la curva); cuando la hipótesis alternativa de lo que se quiere probar hace mención a valores mayores, superiores, o a situaciones mejores. Si por el contrario, la hipótesis alternativa se refiere a valores menores, inferiores, corresponderá a una prueba unilateral a la izquierda. En el caso de que la prueba comprenda áreas o zonas de rechazo en ambos extremos de la distribución, se dice que la prueba es bilateral o sea que la hipótesis alternativa es diferente; por lo tanto se omiten los términos: superior, mayor, mejor, inferior, menor, etc. 1. Ha, es una hipótesis bilateral o de dos colas. Ho: θ = θo Ha: θ ≠ θo 1-α Región de Rechazo Región de Rechazo Región de Aceptación α/2 α/2 2. Ha, es una hipótesis unilateral o de una sola cola a la izquierda. Ho: θ ≥ θo Ha: θ < θo 1-α Región de Rechazo Región de Aceptación α 3. Ha, es una hipótesis unilateral o de una sola cola a la derecha. Ho: θ ≤ θo Ha: θ > θo 1-α Región de Rechazo Región de Aceptación α Nota: El Símbolo θ representa el parámetro a estimar, puede ser (µ,δ²,P) 70 Nivel de Significancia Se entiende por nivel de significancia, la máxima probabilidad de que se especifique, con el fin de hacer mínimo el primer tipo de error. Generalmente, se fija antes de escoger la muestra. El nivel de significancia se simboliza por α siendo generalmente del 1%, 5% o 10%, pero se puede usar cualquier nivel, dependiendo del tipo de investigación que se adelante. Existe la costumbre de trabajar con un nivel del 0.05 o sea del 5%, especialmente cuando el enunciado del problema no lo da. Cuando se trabaja con un nivel del 5%, el resultado es significativo; si se emplea el 1%, el resultado es altamente significativo, y si es del 10%, se considera poco significativo. El valor del nivel de significancia corresponde a un área bajo la curva de probabilidad o normal, denominada región critica o zona de rechazo. Se tendrán casos en que la región critica este situada a la derecha de la curva y se dirá que se trata de una prueba unilateral derecha. Si se sitúa a la izquierda será una prueba unilateral izquierda. En caso de tener dos regiones criticas, se hablará de una prueba bilateral. En las pruebas unilaterales se tomara el valor total de alfa (α); para las pruebas bilaterales alfa se dividirá por dos. La región no sombreada o no cubierta por el nivel de significancia, se denominara zona de aceptación o de no rechazo. Procedimiento a Seguir en las Pruebas de Hipótesis El procedimiento a seguir dentro de toda prueba de hipótesis es el siguiente: 1. 2. 3. 4. 5. 6. 7. Formular la hipótesis nula y alternativa Seleccionar el nivel de significancia Conocer o estimar la varianza Determinar la técnica y la prueba estadística Determinar los valores críticos y sus regiones de rechazo Calcular los datos muestrales, utilizando las fórmulas correspondientes Tomar la decisión estadística. 1. Establecer las hipótesis: Ho: Hipótesis nula Ha: Hipótesis alternativa Ho: θ ≥ θo Ha: θ < θo Pruebas unilaterales a la izquierda Ho: θ = θo Ha: θ ≠ θo Pruebas bilaterales 2. Elegir el riesgo: α = % Los niveles de significancia más utilizados son: α = 0.05 ó 5% α = 0.01 ó 1% α = 0.10 ó 10% 71 Ho: θ ≤ θo Ha: θ > θo Pruebas unilaterales a la derecha 3. Se establecen ciertos supuestos: a). La muestra es aleatoria b). La población es normal c). La varianza poblacional es conocida (en la mayoría de los casos como no se conoce es estimada) 4. Se formula la respectiva variante estadística a). Distribución de medias muestrales b). Distribución de proporciones muestrales c). Distribución de diferencias entre dos medias muestrales d). Distribuciones de diferencias entre dos proporciones muestrales 5. Formular los puntos críticos Al trabajar con un nivel de significancia del 5% de prueba bilateral, se tendrá: Zs = 1.96 y Zi = -1.96 6. Descripción de la región critica: (Bilateral con un α = 0.05) y asignar los valores de la variante estadística, con el fin de obtener el valor de Z Zi ≤ 1.96 Zs ≥ 1.96 7. Adoptar una decisión, se acepta o se rechaza la hipótesis nula, al nivel de significancia dado. Como referente y sin perdida de generalidad, en salud pública se acostumbra trabajar con frecuencia a un alfa del 0.05. la decisión en pruebas de hipótesis siempre se toma con relación al valor de P, si este es menor que el alfa, se Rechaza Ho, si por el contrario P es mayor que el alfa se Acepta Ho. Pruebas de Hipótesis sobre la Media de una Población (µ): • Prueba de hipótesis con muestra grande (n ≥ 30) Prueba de un extremo Ho: µ = µ Ha: µ > µ (ó Ha: µ < µ) Prueba de los dos extremos Ho: µ = µ Ha: µ ≠ µ estadístico de prueba: estadístico de prueba: Z = Y - µo δY = Y - µo S / √n Z = Y - µo δY = Y - µo S / √n Región de rechazo: Región de rechazo: Z > Zα/2 Z > Zα ( o sea Z < -Zα) Nota: µo es el símbolo para el valor numérico particular especificado para µ en la hipótesis nula. 72 • Prueba de hipótesis con muestra pequeña (n < 30) Prueba de un extremo Ho: µ = µ Ha: µ > µ (ó Ha: µ < µ) Prueba de los dos extremos Ho: µ = µ Ha: µ ≠ µ estadístico de prueba: t = Y - µo S / √n Región de rechazo: t > tα/2 Región de rechazo: t > tα ( o sea t < -tα) Nota: la distribución t se basa en (n - 1) grados de libertad. La distribución de frecuencia relativa de la población de la que se seleccionó la muestra es aproximadamente normal. Pruebas de Hipótesis sobre la Diferencia de Medias de dos Poblaciones (µ1 - µ2). Muestras independientes • Prueba de hipótesis con muestra grande (µ1 - µ2) Prueba de los dos extremos Ho: (µ1 - µ2) = Do Ha: (µ1 - µ2) ≠ Do Prueba de un extremo Ho: (µ1 - µ2) = Do Ha: (µ1 - µ2) > Do (ó Ha: (µ1 - µ2) < Do) estadístico de prueba: (Y1 - Y2) - Do δ(Y1-Y2) = S 12 S + n1 n Z = Región de rechazo: Z > Zα ( o sea Z < -Zα) (Y1 - Y2) - Do 2 2 2 Región de rechazo: Z > Zα/2 Nota: Do es el símbolo para el valor numérico en particular especificado para (µ1 - µ2) en la hipótesis nula. En muchas aplicaciones prácticas queremos hacer la hipótesis de que no hay diferencias entre las medias de la población; en tales casos, Do = 0 73 En términos generales la decisión que se tome con las pruebas de hipótesis debe ser la misma a la que se llegue con los intervalos de confianza. Así, si en la diferencia de medias el intervalo de confianza es positivo en ambos limites, quiere decir que no pasa por cero, se puede decir que hay diferencias estadísticamente significativas y dicha diferencias son a favor de la población 1, o sea que el promedio de la población 1 es significativamente mayor que el de la población 2; si por el contrario ambos limites son negativos y mayores de cero, existen diferencias estadísticamente significativas y dichas diferencias son a favor de la población 2, o sea que el promedio de la población 2 es significativamente mayor que el de la población 1. si el intervalo contiene el cero se puede decir que no existen diferencias estadísticamente significativas, esto es, los promedios son iguales. • Prueba de hipótesis con muestra pequeña (µ1 - µ2) Prueba de los dos extremos Ho: (µ1 - µ2) = Do Ha: (µ1 - µ2) ≠ Do Prueba de un extremo Ho: (µ1 - µ2) = Do Ha: (µ1 - µ2) > Do (ó Ha: (µ1 - µ2) < Do) Estadístico de prueba: (Y1 - Y2) - Do Z = Región de rechazo: t > tα ( o sea t < -tα) 2 Donde: S p = (n1 − 1)S12 + (n2 − 1)S22 ; n1 + n2 − 2 1 1 S p2 + n1 n 2 Región de rechazo: t > tα/2 y la distribución t se basa en n1 + n2 - 2 Prueba de hipótesis sobre la diferencia de medias de dos poblaciones (µ1 µ2): Pares coincidentes Prueba de un extremo Ho: (µ1 - µ2) = Do Ha: (µ1 - µ2) > Do (ó Ha: (µ1 - µ2) < Do) Prueba de los dos extremos Ho: (µ1 - µ2) = Do Ha: (µ1 - µ2) ≠ Do 74 Estadístico de prueba: d - Do ≈ d - Do Z = Sd / √n δd / √n Donde d y Sd representan la media y la desviación estándar de la muestra de diferencias. Región de rechazo: Región de rechazo: Z > Zα/2 Z > Zα ( o sea Z < -Zα) Nota: Do es nuestro símbolo para el valor numérico en particular especificado para (µ1 - µ2) en Ho. En muchas aplicaciones prácticas queremos postular la hipótesis de que no hay diferencia entre las medias de población; en tales casos, Do = 0 • Prueba con muestra pequeña (µ1 - µ2): Pares coincidentes Prueba de los dos extremos Ho: (µ1 - µ2) = Do Ha: (µ1 - µ2) ≠ Do Prueba de un extremo Ho: (µ1 - µ2) = Do Ha: (µ1 - µ2) > Do (ó Ha: (µ1 - µ2) < Do) Estadístico de prueba: d - Do ≈ d - Do t = δd / √n Sd / √n Donde d y Sd representan la media y la desviación estándar de la muestra de diferencias. Región de rechazo: Región de rechazo: t > tα/2 t > tα ( o sea t < -tα) Donde la distribución t se basa en (n-1) grados de libertad Nota: Do es nuestro símbolo para el valor numérico en particular especificado para (µ1 - µ2) en Ho. En muchas aplicaciones prácticas queremos postular la hipótesis de que no hay diferencia entre las medias de población; en tales casos, Do = 0 75 Pruebas de Hipótesis de la Proporción de una Población • Prueba de hipótesis con muestra grande acerca de una proporción de población Prueba de los dos extremos Ho: p = po Ha: p ≠ po Prueba de un extremo Ho: p = po Ha: p > po (ó Ha: p < po) estadístico de prueba: ^p - po po qo / n Z = Donde qo = 1 - po Región de rechazo: Z > Zα ( o sea Z < -Zα) Región de rechazo: Z > Zα/2 Pruebas de Hipótesis de la diferencia entre las Proporciones de dos Poblaciones • Prueba de hipótesis con muestra grande relativas a (p1 - p2): independientes Prueba de los dos extremos Ho: (p1 - p2) = Do Ha: (p1 - p2) ≠ Do Prueba de un extremo Ho: (p1 - p2) = Do Ha: (p1 - p2) > Do ó Ha: (p1 - p2) < Do estadístico de prueba: ^ - p2) ^ - Do (p1 Z = Región de rechazo: Z > Zα ( o sea Z < -Zα) δ (p^1 - p^2) Región de rechazo: Z > Zα/2 76 Muestras Cuando Do ≈ 0 δ ^ ^ (p1 - p2) ≈ pˆ1qˆ1 pˆ 2 qˆ2 + n1 n2 donde q̂1 = 1 - p̂1 y q̂2 = 1 - p̂2 cuando Do = 0 δ ^ ^ 1 1 (p1 - p2) ≈ pˆ qˆ + n1 n2 donde el número total de éxitos en la muestra combinada es (y1 + y2) y p̂ = y1 + y2 n1 + n2 los tamaños de las muestras n1 y n2 son suficientemente grandes. En términos generales la decisión que se tome con las pruebas de hipótesis debe ser la misma a la que se llegue con los intervalos de confianza. Así, si en la diferencia de proporciones el intervalo de confianza es positivo en ambos limites, quiere decir que no pasa por cero, se puede decir que hay diferencias estadísticamente significativas y dicha diferencias son a favor de la población 1, o sea que la proporción de la población 1 es significativamente mayor que la de la población 2; si por el contrario ambos limites son negativos y mayores de cero, existen diferencias estadísticamente significativas y dichas diferencias son a favor de la población 2, o sea que la proporción de la población 2 es significativamente mayor que la de la población 1. si el intervalo contiene el cero se puede decir que no existen diferencias estadísticamente significativas, esto es, las proporciones son iguales. 77 VALOR P Es la probabilidad de que el estadístico de prueba adopte un valor al menos tan extremo como el valor observado cuando Ho es verdadera. Representa el nivel de significación más bajo al cuál el valor observado del estadístico de prueba es significativo. En el caso de una prueba de una cola, cuya región crítica se ubique completamente en la cola derecha de una distribución normal estándar, el valor p es solamente el área bajo la curva a la derecha del valor de Z calculado a partir de los datos disponibles. Mientas más pequeño sea el valor de p, habrá menor probabilidad de observar tal valor extremo y el resultado será más significativo. Por lo tanto, si p = 0.03 aparece en los resultados, el valor observado del estadístico de prueba es significativo para toda α ≥ 0.03 y de esta forma será ciertamente significativo al nivel 0.05 pero no al nivel 0.01. Ejemplo 1. Se plantea la siguiente hipótesis unilateral izquierda: Ho: µ ≥ 25 Ha: µ < 25 y α = 0.05 z = Estadístico de prueba = -1.41, entonces Valor P = P (Z < -1.41) = 0.0793 Como P > α, se acepta Ho. Ejemplo 2. Se plantea la siguiente hipótesis unilateral derecha: Ho: µ = 70 Ha: µ > 70 y α = 0.05 z = Estadístico de prueba = 2.02, entonces Valor P = P (Z > 2.02) = 1 - P (Z ≤ 2.02) = 1 – 0.9783 = 0.0217 Como α = 0.05 > Valor P, se rechaza Ho. Ejemplo 3: Se plantea la siguiente hipótesis bilateral. Ho: µ = 8 Ha: µ ≠ 8 α = 0.01 y z = Estadístico de prueba = -2.83, entonces Valor P = P(Z > 2.83) = 2P(Z < -2.83) = 0.0046 Como Valor P < α, se rechaza Ho. 78 Para el calculo de pruebas de hipótesis e intervalos de confianza con la ayuda del SPSS, se cuentan con algunas restricciones, esto en el sentido que algunos de estos cálculos no se pueden realizar con esta herramienta, para ello se procederá a explicar su calculo con otro paquete como es el epidat, recordando que este paquete funciona como una calculadora estadística, en la cual se deben de llevar los valores ya calculados y no se puede trabajar con las bases de datos en su totalidad, como si sucede con el SPSS. El abordaje que se realizará estará enfocado a los procesos que se puedan obtener en la herramienta SPSS, para ello se trabaja básicamente con pruebas de hipótesis e intervalos de confianza para dos muestras independientes y dos muestras relacionadas (pareadas), además de la prueba para una muestra. 1. Prueba para muestras independientes (Independent-sample T-test): Compara las medidas de una variable para dos poblaciones (dos grupos o dos categorías de una variable categórica). Se suministran estadísticos descriptivos para cada grupo, y una prueba de levene para igualdad de varianzas, así como valores t de varianza igual y desigual y un intervalo de confianza del 95% para la diferencia entre las medias Para esta prueba, idealmente los sujetos deben asignarse aleatoriamente a los dos grupos, de forma que cualquier diferencia en la respuesta sea debida al tratamiento (o falta del tratamiento) y no a otros factores. Antes de realizar la prueba se deben cumplir algunos supuestos como son el de normalidad y el varianzas iguales, para conocer si la variable distribuye normal se debe de seguir el siguiente proceso: Vaya a Analizar – Estadísticas descriptivas – Explorar, en el cuadro que aparece coloque en Lista de dependientes la variable cuantitativa a la que le desea corroborar el supuesto de normalidad, posteriormente de clic en el botón gráficos (plots) y allí chulee Gráfico con test de normalidad (Normality plots with test), y por ultimo en el apartado de mostrar (display), puede seleccionar gráfico (plots), estadísticas (statistics) o ambos (both), preferiblemente seleccionar ambos, y dar clic en Aceptar. 79 Con ello en la ventana de resultados aparecerán algunos datos, pero para efectos del supuesto de normalidad nos interesa únicamente el test de normalidad: Tests of Normality a Edad en años cumplidos Kolmogorov-Smirnov Statistic df Sig. ,096 70 ,177 a. Lilliefors Significance Correction En el ejemplo se trata de comprobar si la edad sigue un comportamiento normal. Para llegar a esta conclusión se tienen las siguientes hipótesis: Ho: La variable (edad) sigue una distribución normal Ha: La variable (edad) no sigue una distribución normal Observen que acá la mejor decisión sería aceptar la hipótesis nula, a diferencia de las otras pruebas de hipótesis. Para tomar la decisión entonces, procedemos a confrontar el Valor de P con el valor del nivel de significancia (α), si el primero es menor que el segundo se rechaza Ho, en caso contrario se Acepta. Ara nuestro ejemplo supongamos que el nivel de 80 significancia (α) es del 5% (0.05), como P = 0.2 es mayor que α se acepta Ho, o sea que la edad sigue un comportamiento normal. Al ser la variable normal se puede realizar la prueba de diferencias de medias para poblaciones independientes, en caso que la variable no siga un comportamiento normal se debe proceder a realizar la prueba no paramétrica U de Mann Whitney. Una vez cumplido el supuesto se procede a realizar la prueba para diferencias de promedios. Para ello, seleccionamos Comparar medias (Compare means) del menú Analizar, y allí dar clic en Prueba para muestras independientes (Independent-sample T-test). En el cuadro que aparece, se debe colocar en Test variables la variable cuantitativa y en Grouping variable, la variable categórica que hace las veces de poblaciones, en otras palabras la variable a la cual le queremos determinar si para cada categoría de ella, los promedios de la variable cuantitativa son diferentes. Para el ejemplo, la variable cuantitativa será la edad y la variable categórica (o las dos poblaciones) será habito de fumar. Una vez que se pase la variable categórica aparece el nombre de la variable con dos signos de interrogación, se procede a dar clic al botón Define groups..., para determinar los grupos a trabajar, en el grupo uno se coloca el código que representa a este grupo, y en grupo 2 se coloca el código que represente a este segundo grupo, continuar y Aceptar. Nota: La variable categórica debe de estar definida en el SPSS numérica y debe de contener códigos, estos son los que se colocan en el cuadro Grouping variables. Además es de aclarar que si la variable categórica tiene mas de dos categorías, usted puede seleccionar cual de todas las categorías va a ser el grupo 1 y cual será el grupo 2, para realizar el contraste. Después de esto, en la ventana de resultados aparece la siguiente información: 81 Independent Samples Test Levene's Test for Equality of Variances F Edad en años cumplidos Equal variances assumed Equal variances not assumed ,810 Sig. ,371 t-test for Equality of Means t df Sig. (2-tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference Lower Upper ,621 68 ,537 1,06 1,70 -2,34 4,46 ,621 67,997 ,537 1,06 1,70 -2,34 4,46 En donde, lo primero que se debe de analizar es el test de Levene, este tiene las siguientes hipótesis: Ho: Las varianza son iguales ≈ Existe homocedasticidad en las varianzas Ha: Las varianza son diferentes ≈ No existe homocedasticidad en las varianzas Recordar que para la decisión se compara el Valor de P con el valor del nivel de significancia α, si el primero es menor que el segundo se rechaza Ho, en caso contrario se Acepta Ho. Acá también lo ideal es Aceptar Ho, para cumplir con el segundo supuesto que es el de Homocedasticidad de varianzas, pero en caso de no cumplirse, el SPSS nos ofrece la alternativa de analizar los datos cuando las varianzas no son iguales. En el ejemplo en cuestión observamos que el valor P para Levene (Sig.) es de 0.371, como este es mayor que el alfa (α), se acepta Ho, por lo tanto las varianzas son iguales. Ahora para determinar si existen diferencias estadísticamente significativas en los promedios de la edad según habito de fumar, se trabaja con las siguientes hipótesis: Ho: Los promedios de ambas poblaciones son iguales, en otras palabras, los promedios de la edad son iguales según habito de fumar. Ho: No Existen diferencias estadísticamente significativas que los promedios de la edad son diferentes para el habito de fumar Ha: Los promedios de ambas poblaciones son diferentes, en otras palabras, los promedios de la edad son diferentes según habito de fumar. Ha: existen diferencias estadísticamente significativas que los promedios de la edad difieren según el habito de fumar Para el ejemplo como el valor de P es mayor del nivel de significancia (α), que había sido definido del 5% (0.05), se rechaza Ho, esto es, los promedios de la edad son iguales para fumadores y no fumadores. Esta información es la misma que se obtiene al mirar los intervalos de confianza, se observa que dicho intervalo pasa por cero, 2.34 – 4.46. este Valor P observado y los intervalos de confianza, deben de ser los que corresponde a la fila de varianzas iguales del test de Levene. 82 2. Prueba para muestras relacionadas (pareadas): compara las medias de dos variables en un solo grupo. Esta prueba también es para pares relacionados o diseños de control de casos. El resultado incluye estadísticos descriptivos de las variables que se van a contrastar, la correlación entre ellas, estadísticos descriptivos de las diferencias emparejadas, la prueba t y un intervalo de confianza Acá se parte del mismo supuesto de normalidad, si este no se cumple se debe proceder a realizar la prueba no paramétrica de wilcoxon. Una vez que se corroboro el supuesto de normalidad para las variables, se selecciona el comando Comparar medias (Compare means) en el menú Analizar, y allí dar clic en PairedSample T-test. Allí se deben seleccionar las dos variables cuantitativas (antes y después) a evaluar, y pasarlas al lado derecho, para dar clic en el botón Aceptar. Después de esto, en la ventana de resultados aparece la siguiente información: Paired Samples Test Mean Pair 1 ANTES DESPUES 16,1733 Paired Differences 95% Confidence Interval of the Std. Difference Std. Error Lower Upper Deviation Mean 33,1336 8,5550 -2,1754 34,5221 t 1,891 df 14 Sig. (2-tailed) ,080 En esta prueba ya no hay test de Levene para corroborar Homocedasticidad, se evalúa por medio del Valor de P si existen diferencias estadísticamente significativas entre los promedios de antes y después, para ello entonces las hipótesis son: Ho: El promedio del primer momento es igual al promedio del segundo momento Ho: No existen diferencias estadísticamente significativas entre los promedios del antes y del después Ha: El promedio del primer momento es diferente al promedio del segundo momento 83 Ha: Existen diferencias estadísticamente significativas entre los promedios del antes y del después Para el ejemplo tratado, se desea mirar si existen diferencias en los promedios de ferritina de sujetos en dos momentos. Como P es mayor que α (0.080), se acepta Ho, esto es, los promedios de ferritina no son diferentes significativamente en los dos momentos, o dicho de otra forma, no existen evidencias estadísticamente significativas que nos lleven a decir que los promedios de ferritina en los sujetos son diferentes. Observe que esta decisión se corrobora con el hecho que los intervalos de confianza pasan por cero (-2.1754 – 34.5221). 3. Prueba para una muestra: Compara la media de una variable con un valor conocido o referente o hipotetizado. Se muestran estadísticos descriptivos de las variables que se desean contrastar junto con la prueba t. Un intervalo de confianza del 95% para la diferencia de la media de la variable que se desea contrastar y el valor de contraste hipotetizado. Se parte del mismo supuesto de normalidad. Una vez que se corroboro el supuesto de normalidad para la variable, se selecciona el comando Comparar medias (Compare means) en el menú Analizar, y allí dar clic en One-Sample T-test. Allí se debe seleccionar la variable cuantitativa a evaluar y se pasa al lado derecho, en el cuadro Test Value colocar el valor contra el cual se va a contrastar la variable, el valor hipotetizado con el cual se va a comparar (este valor lo define el investigador), por ultimo dar clic en el botón Aceptar. Después de esto, en la ventana de resultados aparece la siguiente información: 84 One-Sample Test Test Value = 65 t Edad en años cumplidos -11,510 df 69 Sig. (2-tailed) Mean Difference ,000 -9,76 95% Confidence Interval of the Difference Lower Upper -11,45 -8,07 En esta prueba ya no hay test de Levene para corroborar Homocedasticidad, se evalúa por medio del Valor de P si el promedio de la variable difiere estadísticamente del valor de referencia (valor hipotetizado), para ello entonces las hipótesis son: Ho: El promedio de la variable es igual al valor de referencia Ho: No existen diferencias estadísticamente significativas entre el promedio de la variable y el valor de referencia Ha: El promedio de la variable es diferente al valor de referencia Ha: Existen diferencias estadísticamente significativas entre el promedio de la variable y el valor de referencia Para el ejemplo tratado, se desea mirar si existe diferencia en el promedio de la edad con relación al valor de referencia establecido por el investigador como 65 años. Como P es menor que el α (0.080), se rechaza Ho, esto es, el promedio de la edad es estadísticamente diferente de 65 años, o dicho de otra forma, existen evidencias estadísticamente significativas que nos lleven a decir que el promedio de la edad es diferente de 65 años. 4. Prueba para muestras independientes con mas de dos poblaciones o grupos (Análisis de varianza de un factor): Compara las medidas de una variable para tres o mas poblaciones (tres o mas grupos o tres o mas categorías de una variable categórica). El procedimiento Anova de un factor genera un análisis de varianza para una variable dependiente cuantitativa por una variable de un solo factor (independiente). La Anova se utiliza para contrastar en la hipótesis de que varias medias son iguales. Esta técnica es una extensión de la prueba de hipótesis para muestras independientes de 2 poblaciones. Además de determinar si existen diferencias entre las medias, es posible que desee saber que medias difieren, para ello se cuenta con las pruebas post-hoc, las cuales se ejecutan una vez se ha desarrollado el experimento. Para este tipo de análisis se debe partir de los mismos supuestos que se han venido trabajado, tanto el supuesto de normalidad como el de varianzas iguales. En caso que los datos de la variable cuantitativa no sigan un comportamiento normal se debe realizar la prueba no paramétrica de Kruskal Wallis. Las hipótesis para este modelo son: 85 Ho: No existen diferencias estadísticamente significativas entre las medias de las K poblaciones o tratamientos Ha: Por lo menos una de las K medias poblacionales es diferente Para la decisión se parte de la misma regla con la cual se ha venido trabajando, esto es, si P es menor que el α se rechaza Ho. Como ejemplo se quiere determinar si existen diferencias estadísticamente significativas en el promedio de los ingresos según deporte practicado (Caminar, gimnasia, otro, sin dato), en la practica no pudiera ser muy relevante observar esta relación pero para efectos de ejemplificar el proceso resulta conveniente. Para ello, vaya a Analizar – Estadísticas descriptivas – Explorar, en el cuadro que aparece coloque en Lista de dependientes la variable cuantitativa a la que le desea corroborar el supuesto de normalidad, posteriormente de clic en el botón gráficos (plots) y allí chulee Gráfico con test de normalidad (Normality plots with test), y por ultimo en el apartado de mostrar (display), puede seleccionar gráfico (plots), estadísticas (statistics) o ambos (both), preferiblemente seleccionar ambos, y dar clic en Aceptar. Con ello en la ventana de resultados aparecerán algunos datos, pero para efectos del supuesto de normalidad nos interesa únicamente el test de normalidad. En el ejemplo se trata de comprobar si el peso sigue un comportamiento normal. Para llegar a esta conclusión se tienen las siguientes hipótesis: Ho: La variable (ingresos) sigue una distribución normal Ha: La variable (ingresos) no sigue una distribución normal Para tomar la decisión entonces, procedemos a confrontar el Valor de P con el valor del nivel de significancia (α), si el primero es menor que el segundo se rechaza Ho, en caso contrario se Acepta. Ara nuestro ejemplo supongamos que el nivel de significancia (α) es del 5% (0.05), como P = 0.2 es mayor que α se acepta Ho, o sea que los ingresos siguen un comportamiento normal. Al ser la variable normal se puede realizar la prueba de Análisis de varianza de un factor, en caso que la variable no siga un comportamiento normal se debe proceder a realizar la prueba no paramétrica de Kruskal Wallis. Una vez cumplido el supuesto se procede a realizar la prueba para análisis de varianza. Para ello, seleccionamos Comparar medias (Compare means) del menú Analizar, y allí dar clic en One-Way Anova (Anova de una vía). En el cuadro que aparece, se debe 86 colocar en Dependent list la variable cuantitativa y en Factor la variable categórica que hace las veces de poblaciones, en otras palabras la variable a la cual le queremos determinar si para cada categoría de ella, los promedios de la variable cuantitativa son diferentes. Para el ejemplo, la variable cuantitativa será el ingreso familiar y la variable categórica (o las diferentes poblaciones) será deporte que practica, por ultimo entrar a las pruebas post-hoc y escoger el método para poder determinar cual o cuales promedios son los diferentes, si llegasen a existir diferencias estadísticamente significativas entre los promedios, luego continuar y Aceptar. Después de esto, en la ventana de resultados aparece la siguiente información: ANOVA Dependent Variable Between Groups Within Groups Total Sum of Squares 52753148809,5 362264976190 415018125000 df Mean Square 26376574404,762 6835188230,009 2 53 55 F 3,859 Sig. ,027 Acá se puede tomar la decisión contrastando el Valor P con el nivel de significancia (α), así, como P es menor que el α se rechaza la hipótesis nula, esto es, existen evidencias estadísticamente significativa para determinar que los promedios del ingreso familiar es diferente según deporte practicado. Una vez que se determino la existencia de las diferencias entre las medias, las pruebas post hoc, pueden determinar las medias que difieren. Las comparaciones múltiples por parejas contrastan las diferencias entre cada pareja de medias y dan lugar a una matriz donde los asteriscos indican las medias de grupo significativamente diferentes a un nivel de α de 0.05. Para el ejemplo se selecciona la prueba post hoc de scheffe, la cual nos muestra los siguientes resultados: 87 Multiple Comparisons Dependent Variable Test (I) Deporte practicado Caminar Gimnasia Otro Mean (J) Deporte Differenc practicado e (I-J) Gimnasia 8880,95 Otro -91119,05* Caminar -8880,95 Otro -100000 Caminar 91119,05* Gimnasia 100000,0 Std. Error 33752 33752 33752 44192 33752 44192 Sig. ,966 ,033 ,966 ,087 ,033 ,087 95% Confidence Interval Lower Upper Bound Bound -76126,22 93888,13 -176126 -6111,87 -93888,13 76126,22 -211301 11300,52 6111,87 176126 -11300,52 211301 *. The mean difference is significant at the .05 level. Acá las medidas que tienen asterisco (*), son los grupos en los cuales los promedios de los ingresos presentan diferencias estadísticamente significativas. Se puede observar entonces que existen diferencias en los promedios de ingresos entre los que caminan y los que hacen otro deporte, determinándose además que dicha diferencia es a favor a las personas que practican otro deporte, pues el intervalo de confianza en ambos extremos es menor que cero (0). 5. Prueba para muestras independientes proporciones (Prueba Chi cuadrado de independencia): Es una técnica usual en la investigación del área de la salud, para determinar la existencia de asociación entre dos variables a través de la comparación de sus proporciones. Por ejemplo, un salubrista puede estar interesado en comparar la eficacia de tres antibióticos en el tratamiento de la cistitis, esto es, el interés se centraría en determinar si la ocurrencia de la curación tiene algo que ver con el tipo de antibiótico prescrito. Nótese que se exige para efectuar la prueba de independencia que las variables en cuestión sean categóricas (con nivel de medición nominal u ordinal). Las hipótesis constitutivas de la prueba Chi-cuadrado de independencia, si X e Y son las variables consideradas, se plantean a continuación: Ho: Ha: Existe independencia entre X e Y. Existe algún grado de asociación entre X e Y. 88 Sin pérdida de generalidad, se asumirá que la variable X tiene 3 categorías y que la variable Y tiene 2, con el fin de hacer más fácil y asequible la explicación de la técnica. La estructura de la tabla se expone a continuación: Tabla de contingencia múltiple Categoría X1 Variable X Categoría X2 Categoría X3 Total Variable Y Categoría Y1 Categoría Y2 O11 (E ) 11 O21 (E ) O 22 (E ) 22 O2. O 31 (E ) 31 O32 (E ) 32 O3. 21 O.1 O12 (E ) 12 Total O1. O.2 O En general, Oij representa la frecuencia observada en la intersección de la fila i con la columna j. En la tabla anterior, los valores entre paréntesis representan las frecuencias esperadas, así: E11 : E31 : Frecuencia esperada en la fila 1 con la columna 1, esto es, X1 con la categoría Y1. Frecuencia esperada en la fila 1 con la columna 2, esto es, X1 con la categoría Y2. Frecuencia esperada en la fila 2 con la columna 1, esto es, X2 con la categoría Y1. Frecuencia esperada en la fila 2 con la columna 2, esto es, X2 con la categoría Y2. Frecuencia esperada en la fila 3 con la columna 1, esto es, E32 : X3 con la categoría Y1. Frecuencia esperada en la fila 3 con la columna 2, esto es, de la categoría E12 : E21 : E22 : de la categoría de la categoría de la categoría de la categoría de la categoría X3 con la categoría Y2 En general, Eij representa la frecuencia esperada en la intersección de la fila i con la columna j. Para calcular las frecuencias esperadas basta multiplicar los totales de las filas por los totales de las columnas y luego dividir entre el gran total, esto es, Eij = Frecuencia total observada en la fila i por Frecuencia total observada en la columna j Gran total (Suma de todas las frecuencias observadas) Por ejemplo, para la tabla expuesta arriba, E32 = Frecuencia total observada en la fila 3 (O3.) × Frecuencia total observada en la columna 2(O.2) Gran total (Suma de todas las frecuencias observadas)(O) 89 Bajo la hipótesis nula, esto es, si no existe relación entre X e Y (independencia), se esperaría que los valores de las categorías de la variable X se repartirían homogéneamente en cada una de las categorías de la variable Y. Por lo tanto, si no existe relación, bajo la hipótesis nula, las frecuencias observadas en la tabla serían similares a las esperadas bajo la hipótesis nula. Se puede demostrar que el estadístico de prueba, el cual se calcula sumando las diferencias cuadráticas entre las frecuencias observadas y esperadas dividiendo en cada caso por estas últimas, sigue una distribución Chi-cuadrado con grados de libertad igual al producto entre el número de filas menos uno,(f-1), y el número de columnas menos uno, (c-1). Por lo tanto: χ2 ( f −1 )( c −1 ) = m n ∑ ∑ i =1 j =1 (Oij − Eij )2 Eij A continuación se determina el valor teórico de la Chi-cuadrado, mediante los valores de los percentiles de la distribución mencionada, a un α determinado por el investigador y con los grados de libertad calculados a partir del número de filas y columnas de la tabla múltiple. Si el valor teórico χα ,v es menor que el valor del estadístico Chi-cuadrado 2 calculado, se puede rechazar la hipótesis nula. Los programas estadísticos calculan antes que el valor teórico el valor de p el cual se compara con el nivel de significación establecido antes de hacer la recolección de la información. En caso de que el valor de p sea menor que el nivel de significación α , se rechazará la hipótesis nula de independencia. La tabla de contingencia. El caso en que ambas variables son bicategóricas Cuando las dos variables son de naturaleza cualitativa y bicategóricas, se tiene una tabla de contingencia que consta de dos filas y dos columnas. Dicha tabla suele conocerse como tabla de 2 por 2. La estructura de una tabla de contingencia se expone a continuación: Enfermedad Si No a b c d a+c b+d Tabla de contingencia Si Exposición No Total Total a+b c+d a+b+c+d Al aplicar la regla (Número de filas -1)(Número de columnas -1) para encontrar los grados de libertad, el resultado es un grado de libertad. En ésta situación deben hacerse algunas consideraciones para la elección del estadístico de prueba, fundamental para tomar la decisión3: 3 Se advierte que la expresión del cálculo del estadístico de prueba en una tabla de contingencia (las dos variables bicategóricas) se conoce como fórmula abreviada. No obstante, también se podría utilizar la fórmula general planteada para el cálculo del estadístico de prueba en la tabla de contingencia múltiple y los resultados serían consistentes. 90 Estadístico de prueba no corregido: Usual cuando las frecuencias observadas en cada celda son “grandes”. Usual cuando todas las frecuencias esperadas son mayores de cinco. n(ad − bc )2 = χ2 NO CORREGIDO (a + b )(a + c )(b + d )(c + d ) Estadístico de prueba con corrección de Yates: Esta corrección consiste en sustraer la mitad del número total de las observaciones a la cantidad ad-bc y tiene como efecto hacer más pequeño el valor del estadístico de prueba. Un valor del Chi-cuadrado más pequeño impedirá que se rechace la hipótesis nula con tanta frecuencia como ocurre con el Chi-cuadrado sin corregir. Algunos investigadores como Grizzle (1967), Lancaster(1949), Pearson (1947) y Plackett (1964) cuestionaron esta corrección argumentando que ella conduce a que la prueba sea muy conservadora ya que en la mayoría de las situaciones no se puede rechazar la hipótesis nula. Como criterio práctico se recomienda utilizar esta corrección cuando las frecuencias esperadas están entre 5 y 10. n(ad − bc − 0.5n )2 χ2 = YATES (a + b )(a + c )(b + d )(c + d ) Estadístico de prueba con corrección de Mantel-Haenszel: Es el más utilizado en la investigación epidemiológica. La corrección consiste en restarle 1 al tamaño de la muestra. Si las frecuencias de cada celda son “grandes”, el estadístico Chi-cuadrado sin corregir y con corrección de Mantel-Haenszel son similares. (n − 1)(ad − bc )2 = χ2 M − H (a + b )(a + c )(b + d )(c + d ) Cuando se obtienen una o varias frecuencias esperadas menores que cinco, debe utilizarse la Prueba Exacta de Fisher, de la cual se hablará más adelante, después de exponer algunas aplicaciones de ésta en la investigación de tipo epidemiológica. Prueba Exacta de Fisher Esta técnica es usual para el análisis de datos discretos (variables de naturaleza cualitativa con nivel de medición nominal u ordinal, bicategóricas), cuando existe al menos alguna frecuencia esperada en la tabla de contingencia que es menor de 5. Las frecuencias que se obtienen pertenecen a categorías de las variables que son mutuamente excluyentes. Con base en la información que se presenta en la tabla de contingencia, se puede determinar si los grupos difieren en la proporción correspondiente a las clasificaciones. 91 Tabla de contingencia Exposición Enfermedad + a b c d a+c b+d + Total Total a+b c+d a+b+c+d Se determina en la anterior tabla, la diferencia entre los Expuestos y No expuestos que hace referencia a la proporción de los signos + y - atribuidos a ellos. Si la hipótesis nula es verdadera, esto es, H0: OR=1, se puede demostrar que si se condiciona la selección de a+c casos y b+d controles con a+b total de expuestos, la probabilidad de observar a casos expuestos y b controles expuestos sigue una distribución hipergeométrica esto es: a + c b + d b a (a + b )! (a + c )! (c + d )! (b + d )! = p= n! a! b! c! d ! n a + b esto es, la probabilidad exacta de la frecuencia observada, se encuentra dividiendo el producto de los factoriales de los cuatro totales marginales por el factorial de n (a+b+c+d). Para efectos de ejemplificar el análisis de la chi-cuadrado a partir del SPSS, se debe de proceder de la siguiente forma: 1. Seleccione tablas de contingencia (Crosstab) del menú analizar. En el cuadro que aparece seleccione la variable independiente y colóquela en las filas (Rows) y la variable dependiente la coloca en las columnas (Columns). Este proceder se aplica de forma general, siempre la variable independiente constituirá las filas y la variable dependiente constituirá las columnas. 2. En el botón estadísticas puede seleccionar el tipo de estadísticos a obtener. Por defecto la prueba obtiene el estadístico de la chi cuadrado, y si es una tabla de 2 por 2 se puede marcar la opción riesgos (risk) para obtener el riesgo relativo ó la razón de disparidades. 3. En el botón Celdas (Cell), se puede seleccionar si se quieren porcentajes o no, y si estos son para las columnas, las filas o ambas. Además se tiene la posibilidad de obtener los valores observados y los esperados dentro de la tabla de contingencia 92 4. Una vez que se hallan dado estas opciones, se pulsa continuar y Aceptar, el SPSS mostrará el la ventana de resultados lo siguiente: Tabla de contingencia Sedentarismo * Enfermedad Coronaria Estadísticos Sedentarismo Total Si No Enfermedad Coronaria Si No 15 15 4 36 19 51 93 Total 30 40 70 Pruebas de chi-cuadrado Chi-cuadrado de Pearson Corrección por a continuidad Razón de verosimilitud Estadístico exacto de Fisher Asociación lineal por lineal N de casos válidos 1 Sig. asintótica (bilateral) .000 11.921 1 .001 14.259 1 .000 Valor 13.870b gl 13.672 1 Sig. exacta (bilateral) Sig. exacta (unilateral) .000 .000 .000 70 a. Calculado sólo para una tabla de 2x2. b. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 8.14. Estimación de riesgo Valor Razón de las ventajas para Sedentarismo (Si / No) Para la cohorte Enfermedad Coronaria = Si Para la cohorte Enfermedad Coronaria = No N de casos válidos Intervalo de confianza al 95% Inferior Superior 9.000 2.561 31.624 5.000 1.846 13.540 .556 .383 .806 70 Como primer elemento observamos la tabla de contingencia con los valores observados, y la descripción de la enfermedad coronaria según sedentarismo. En la tabla siguiente encontramos la medida de asociación (Chi-cuadrado de pearson), además nos aparece el estadístico exacto de fisher, el cual tiene su interpretación cuando se tienen valores esperados menores de 5. en la tabla de ejemplo, observemos que a pesar de existir una celda con valor menor de 5, el valor esperado para ella es superior a 5 por lo tanto, en la tabla de contingencia no hay valores esperados menores de 5, por tal motivo de puede interpretar el estadístico de pearson. Como el Valor de P es menor que α se rechaza Ho, esto es, el sedentarismo y la presencia de enfermedad coronaria esta asociadas. Si se quiere mirar la fuerza de la asociación, por tratarse de una tabla de 2 por 2, el SPSS nos ofrece el riesgo relativo para estudios de seguimiento (cohorte) y la razón de disparidades (casos y controles), en el ejemplo asumamos que este es un estudio de seguimiento, con lo cual tenemos un RR de 5 con un intervalo de confianza entre 1.846 y 13.540 como no pasa por 1 se corrobora el hecho de que esta asociación es causal. 94 MUESTREO BASICO El objetivo del muestreo es contar con el mayor número de unidades, con la mayor cantidad de información, pero con el menor costo posible; además este tiene por objeto seleccionar una parte representativa de la población con el fin de obtener estimadores de los parámetros. Para lograrlo existen varios métodos y en cada uno de ellos se puede establecer: 1. El grado de precisión en los estimadores 2. Tamaño de la muestra 3. Costo y tiempo Dentro de este proceso de selección, se considera que en teoría, no debe existir sustitución de unidades, para no falsear el esquema de selección; por tanto, a las unidades de las cuales se obtuvo información se les considera como dominio de estudio ya que aquellas no investigadas dejaran de pertenecer al grupo de nuestros intereses. Generalmente se considera no sustituir unidades que no hayan podido ser localizadas, pero en la práctica se acepta la aplicación de algunos métodos de sustitución sin que sus resultados sean objetados. Algunos de ellos se presentan a continuación: a. Se hace sustitución, cuando en un segmento se encuentra, por ejemplo, una vivienda no entrevistada; en este caso, se toma la vivienda siguiente de acuerdo al orden de visita o de selección y la información se duplica. Este proceso se basa en el supuesto de que, dentro de un mismo segmento, las familias que ocupan viviendas contiguas tienen una alta probabilidad de poseer características económicas o sociales similares. b. Determinar el número de unidades no entrevistadas, ya sea en la muestra, en el segmento, estrato, etc., luego se selecciona una muestra aleatoria dentro de las que han sido encuestadas, equivalente al número de las que no respondieron y se duplica la información. c. Tomar una muestra mayor a la establecida, mediante fórmula, conocida como tamaño optimo. El número mayor depende del conocimiento que se tenga sobre las unidades que no tendrán información (sobre muestreo). d. Tomar al azar un número igual a las unidades que no informaron, de la población que no fue seleccionada en la muestra. • CONCEPTOS BÁSICOS: • Población: grupo de elementos que tienen una característica común susceptible de ser medida, puede ser finita o infinita. Para el estudio estadístico se utilizarán poblaciones infinitas, estas se pueden enumerar por extensión y comprensión. • En la muestra se habla de las unidades muestrales que son los elementos que permiten cuantificar la unidad de observación, y en general son elementos que constituyen la muestra, ejm: familias, viviendas; y las unidades de observación (unidades de análisis) son aquellas a las que se les aplica el instrumento de medición (formularios) 95 • Marco de Muestreo: Lista, mapa , directorio detallado de todos los elementos que forman la población, en los cuales se encuentran claramente especificados las unidades correspondientes. Así, el marco es aquella parte de la población que puede ser muestreada, no es necesariamente igual a la población original. Como el marco representa a toda la población, deberá ser tan cercano a esta como sea posible. • Diseño Muestral: Es el procedimiento de selección de una muestra y el método correspondiente de estimación. Un requisito importante de un buen diseño es que proporcione una medida del error de muestreo en la estimación, además de permitir una estimación del valor de la población. Entre todos los diseños muestrales se prefiere aquel que proporcione la más alta precisión para un costo dado o el mínimo costo para un nivel dado de precisión. • Error de Muestreo: Es la diferencia que puede haber entre el valor poblacional (parámetro) y la estimación de la misma (estimación puntual o estadígrafo), obtenida por medio de una muestra aleatoria, observada en una de las tantas muestras posibles de una población dada. La totalidad de estos errores, genera la distribución de muestreo empleada para estimar el valor poblacional. En muchos casos, el error será determinado por el investigador; pero este procedimiento requiere además de la experiencia del investigador, un conocimiento previo sobre el comportamiento de la característica en la población que se estudia, de ahí que es mucho más práctico determinar el error como un porcentaje, en la mayoría de los casos no mayor del 10%. El porcentaje podría considerarse en algunos casos como un complemento del nivel de confianza, así que una confianza del 95% daría supuestamente un error del 5%, pero no siempre será el complemento, ya que este porcentaje podrá aumentarse o disminuirse dependiendo del grado de precisión con que se desea hacer la estimación. Se debe tener presente que entre más pequeño sea el error, mayor será el tamaño de la muestra y por ende más representativa; pero, entre más grande sea el error, menor será el tamaño de la muestra, y por ende menos representativa. • Error no de muestreo: Es un error que se origina generalmente por defectos en la medición. Se debe a instrumentos mal calibrados, errores sistemáticos en la obtención de datos, personal mal entrenado, mala elección del marco de muestreo, datos faltantes, procesamiento deficiente de los datos, etc. Este error también se llama sesgo, pero dicho término también tiene además otras interpretaciones. • MUESTRA La muestra, es en esencia un subgrupo de la población. Se puede entender como un subconjunto de elementos que pertenecen a ese conjunto definido en sus características al que llamamos población. Pocas veces se puede medir a toda la población, por lo que obtenemos o seleccionamos una muestra y se pretende que este subconjunto sea un reflejo fiel del conjunto de la población. Básicamente categorizamos a las muestras en dos grandes ramas: las muestras no probabilísticas y las muestras probabilísticas. En estas últimas todos los elementos de la población tienen la misma probabilidad de ser escogidos. Esto se obtiene 96 definiendo las características de la población, el tamaño de la muestra y a través de una selección aleatoria y/o mecánica de las unidades de análisis. En las muestras no probabilísticas, la selección de los elementos no depende de la probabilidad, sino de causas relacionadas con las características del investigador o del que hace la muestra. Aquí el procedimiento no es mecánico, ni en base a fórmulas de probabilidad, sino que depende del proceso de toma de decisiones de una persona o grupo de personas, y desde luego, las muestras seleccionadas por decisiones subjetivas tienden a estar sesgadas. El elegir entre una muestra probabilística y no probabilística, depende de los objetivos del estudio, del esquema de investigación y de la contribución que se piensa hace con dicho estudio. Las muestras probabilísticas tienen muchas ventajas, quizás la principal es que puede medirse el tamaño de error en nuestras predicciones. Puede decirse incluso que el principal objetivo en el diseño de una muestra probabilística es el de reducir este error al que se llama error estándar. Las muestras probabilísticas son esenciales en los diseños de investigación por encuestas donde se pretende generalizar los resultados a una población. La característica de este tipo de muestra, es que todos los elementos de la población tienen al inicio la misma probabilidad de ser elegidos, de esa manera los elementos muestrales tendrán valores muy aproximados a los valores de la población, ya que las mediciones del subconjunto, serán estimaciones muy precisas del conjunto mayor. Esta precisión depende del error de muestreo o estándar. Las muestras no probabilísticas, las cuales llamaremos también muestras dirigidas, suponen un procedimiento de selección informal y un poco arbitrario. La ventaja de este tipo de muestras es su utilidad para un determinado estudio, que requiere no tanto de una “representatividad de elementos de una población, sino de una cuidadosa y controlada elección de sujetos con ciertas características especificadas previamente en el planteamiento del problema”. Las muestras representativas deben cumplir las siguientes condiciones: 1. Tamaño determinado según recursos, objetivos de la investigación y fórmulas pertinentes 2. Nivel de confiabilidad mínimo definido por el investigador 3. Error máximo permisible definido por el investigador 4. Selección aleatoria de los elementos con una probabilidad conocida • Ventajas de la muestra De tipo práctico: más operativo, más funcional De factibilidad: las expectativas del investigador son más fáciles de alcanzar Económico: reduce los costos de la investigación • Desventajas de la muestra Según su tamaño puede no identificar los fenómenos de baja frecuencia No se puede concluir a grupos muy pequeños Existe error en las estimaciones Exigen especialista en el diseño de muestra 97 • Razones para muestrear Por lo económico Por el tiempo Porque la población es infinita Por la naturaleza misma de la variable • Que debe definirse previamente La variable más relevante del estudio Error máximo permisible Nivel de confiabilidad en las estimaciones Debe saberse previamente si la investigación apunta a estimar un promedio o una proporción Debe definirse si se trata de estimar una proporción, la probabilidad del evento más relevante Definir previamente si la población es finita o no Hay que definir previamente cual es el diseño muestral a utilizar • Fórmulas para hallar tamaño de muestra en Estudios Descriptivos Poblaciones infinitas: Cuando el universo es superior a 100.000 ∗ Si la investigación apunta a estimar un promedio el tamaño de la muestra será: n= ∗ Z 2α / 2 * σ 2 l2 Si la investigación apunta a estimar una proporción el tamaño de la muestra será: n= Z 2α / 2 * ( P * Q) ⇒ l2 Q=1-P Poblaciones finitas: Cuando el universo es ≤ a 100.000 ∗ Si se apunta a estimar un promedio será: n= Z 2α / 2 * σ 2 Z 2α / 2 * σ 2 l2 + N 98 ∗ Si se apunta a estimar una proporción será: n= Z 2α / 2 * ( P * Q) Z 2α / 2 * ( P * Q) l2 + N En los ítems anteriores tenemos que: Zα/2 σ2 P = = = Q N ε = = = Constante en términos de una normal tipificada Varianza poblacional Proporción poblacional; si se desconoce se toma P=0.5 queda el máximo tamaño de la muestra 1–P tamaño de la población Error de estimación (la tolerancia) o grado de precisión con que se recolectan los datos. Si el objetivo apunta a estimar un promedio el error se da en unidades de la variable; y se apunta a una proporción las unidades van en porcentaje En la práctica es muy frecuente que no se conozca la varianza de la característica en la población (δ2); en tales casos se debe recurrir a censos, a investigaciones similares realizadas con anterioridad o a investigaciones preliminares, denominadas encuestas piloto. Este último procedimiento es el que más se emplea para determinar el tamaño de la muestra partiendo del supuesto de que no existe información sobre la población. Muestreo aleatorio simple (M.A.S): Una muestra es aleatoria cuando los elementos que constituyen la población o universo tienen la misma posibilidad de ser seleccionadas. El método de muestreo aleatorio simple es recomendable, en especial, cuando la población no es numerosa y las unidades se concentran en un área pequeña; por otra parte, la característica no debe tener gran variabilidad, porque implicaría un tamaño muestral muy amplio lo que, a su vez, incrementaría costos y tiempo; por último, la población debe facilitar su enumeración para que permita la aplicación de ese método. Lo anterior conlleva a fijar tres inconvenientes que presenta el método de muestreo aleatorio simple. a. Se requiere un listado de unidades de la población, lo cual no es fácil (Marco) b. Si el área es amplia, es probable que haya necesidad de traslado a lugares lejanos, para investigar unas pocas unidades, dificultando su aplicación (costo y tiempo) c. No existe garantía de que todas las unidades queden representadas en la muestra, cuando la característica tiene una gran variabilidad. En resumen, en el muestreo aleatorio simple, todos los elementos tienen la misma probabilidad de ocurrir. La selección se hace previa a una enumeración de los elementos. Para que exista aleatoriedad se usan tablas de números aleatorios, 99 funciones RAND# (Random Generation) de calculadoras, o en un computador mediante una hoja de cálculo. Procedimientos con el M.A.S: a) Tomar el marco de muestreo o sea la lista detallada de todos los elementos de la población. Por ejemplo: diagnósticos, historias clínicas, listado de personas, listado de viviendas, etc. b) Enumerar correlativamente cada unidad de muestreo desde 0001 hasta n c) Mediante un método aleatorio se seleccionan los sujetos. d) Hacer las elaboraciones estadísticas pertinentes. El M.A.S puede ser con o sin reemplazo. Muestreo sistemático: El muestreo sistemático o en serie, se usa frecuentemente por ser un método simple, sencillo, directo y económico. Arroja buenos estimativos, cuando la variable esta ordenada, por años, valor, cantidad, etc. Se puede observar en las unidades seleccionadas, que la variable se distribuye en la muestra casi igual que en el muestreo aleatorio estratificado, asignación proporcional. Consiste en seleccionar una muestra, tomando las unidades a intervalos regulares. Veamos como es el proceso de selección: Supongamos que la población estudiada esta compuesta por 1500 estudiantes, además el tamaño de la muestra es de 176 estudiantes; con esta información se podrá determinar el intervalo de selección o salto de muestreo, simbolizado con la letra K. K= N ; Reemplazando se tiene: n K= 1500 = 8.52 ≈ 9 176 Determinado el salto de muestreo, se debe obtener un número aleatorio entre 0 y K, supongamos que entre 0 y 9, se obtuvo el número 4, el cual se denomina punto de arranque. Se ha hecho la primera selección dentro del intervalo. Una vez establecido el punto de arranque, mediante selección aleatoria, se inicia el proceso de selección sistemática, sumándole al punto de arranque el valor de K, dando como resultado 13, correspondiendo a la segunda unidad seleccionada; a esta se le suma nuevamente el valor del salto de muestreo (K), para obtener la tercera unidad y así sucesivamente. Muestreo estratificado: Se le denomina también muestreo aleatorio restringido. Este procedimiento implica una división de la población en grupos, denominados estratos, en tal forma que el elemento presenta una característica tan definida que solo le permitirá pertenecer a un único estrato. Por lo tanto, para que la división por grupos sea efectiva, los factores de estratificación deberán guardar estrecha relación con las características que se investigan y con el objetivo o finalidad del estudio. De esta manera se logra una mayor precisión en los resultados. 100 Cuando la población es demasiado heterogénea con respecto a las características que se desean estudiar, esto podía conducir a una gran variabilidad. Con el objeto de mejorar las estimaciones y disminuir el error que pudiera presentarse, se organizan los denominados estratos, donde los componentes (unidades) de cada estrato son homogéneos entre si, y entre estrato y estrato existe heterogeneidad. Este método es más eficiente que el muestreo aleatorio simple, pese al grado de heterogeneidad y dispersión que puede presentar la característica, con la ventaja de que al formar grupos más o menos homogéneos, las muestras resultantes son más pequeñas y representativas. Es necesario entender que un estrato es una subpoblación y, como tal, cada uno se constituye como un dominio de estudio. Mediante la selección aleatoria, en cada uno de los estratos se conformará la muestra. Dependiendo de la distribución o escogencia de los tamaños muestrales para cada estrato, podrán obtenerse mediante alguno de estos tres procedimientos: 1. Afijación igual o asignación igual: Se da cuando los elementos quedan asignados o repartidos por igual en cada estrato muestral. 2. Afijación proporcional o asignación proporcional: Los elementos se distribuyen en los espacios muestrales, en la misma proporción en que se distribuyen los elementos en la población. 3. Afijación optima: Cuando el tamaño, tanto para la muestra general como para cada uno de los estratos muestrales, dependen del grado de variabilidad de la característica en cada estrato y del costo mínimo para una precisión dada. En resumen se puede decir que la estratificación logra: a) Una mayor precisión en los estimadores, a pesar de ser menos número de unidades seleccionadas en comparación al muestreo aleatorio simple b) Garantizar la representatividad y una reducción del error de la muestra, por agrupación de aquellos elementos que se parecen más por la característica que se investiga que por pertenecer a la población c) Allegar información detallada para cada grupo o estrato específico, ya que se logra una muestra independientes de los demás estratos d) Dividir la población en grupos o estratos más o menos homogéneos en cuanto a su composición interna, pero heterogéneos si se comparan los estratos entre sí. 1. Asignación igual: Este método implica que los tamaños muestrales en cada estrato sean iguales. n1 = n2 = n3 etc. Después de determinar el tamaño de la muestra, se debe elaborar la estratificación de la población a analizar. Identificando primeramente la característica que se tendrá en cuenta para conformar los grupos o estratos. Para lograr esta estraificación se procede a dividir la muestra por la cantidad de estratos que se tenga. 2. Aplicación proporcional o asignación proporcional: Los elementos que constituyen el tamaño de la muestra se distribuyen en los estratos en forma proporcional al tamaño de las poblaciones. En otras palabras, el peso relativo dado por el número de unidades en cada estrato en relación al total de elementos de la población, debe ser igual al obtenido en la muestra. 101 En el siguiente cuadro se observa el procedimiento para hallar el tamaño de la muestra de los estratos por este método. ESTRATO POBLACION E1 E2 E3 . . . Eh TOTAL N1 N2 N3 . . . Nh N PONDERADOR W1 = N1 / W2 = N2 / W3 = N3 / . . . Wh = Nh / 1.00 N N N N TAMAÑO MUESTRA C/ESTRATO W1 * n W2 * n W3 * n . . . Wh * n n Otra forma es mediante una regla de tres simple, así: N → 100 n → X = n *100 = X, esto se multiplica por la muestra N de ese estrato, o sea, n * X, y así para cada estrato; asumiéndose n como la muestra de cada estrato. NOTA: El procedimiento de selección de los elementos muestrales se hace por M.A.S o Sistemático lineal. En general si la asignación es proporcional, el tamaño de la muestra de cada estrato esta dado por: nh = n*wh 3. En este método, el calculo de la muestra dependerá en muchos casos del costo total de la investigación (C), del costo fijo (Co), del costo unitario (Ch); este último podrá ser fijo o variable, para cada uno de los estratos, además del grado de variabilidad (S2). En conjunto, los anteriores factores determinaran con mayor precisión el tamaño optimo de la muestra; sin embargo, además de los factores anteriores, podrán considerarse como factores complementarios, el margen de error y el grado de confianza. En síntesis, el método de asignación o afijación optima se reduce a: a) A una optima distribución del tamaño de la muestra entre los diferentes estratos, de tal manera que el error de estimación sea mínimo para un costo total dado. b) Además de una optima distribución, con un costo total mínimo para un costo total preestablecido, en algunos casos, se aplica el grado de variabilidad de cada estrato, combinado con los costos unitarios (fijos y variables) y los tamaños poblacionales de cada estrato. Para el calculo del tamaño de la muestra, se usaran las siguientes fórmulas, de acuerdo a los factores que se tomen en cuenta para su obtención. Estas serán: 102 a) En el caso de que tan solo se consideren como factores para el calculo de n, el costo total de la investigación (C), el costo fijo (Co) y el costo unitario por estrato (Ch), se debe aplicar la siguiente fórmula: n= C − CO Ch en esta fórmula no se tienen en cuenta los componentes tan importantes como el grado de variabilidad (varianza) de la característica en cada estrato, tamaños de los estratos, nivel de confianza y nivel de error. b) Otra fórmula para determinar el tamaño optimo de la muestra, disponiendo de información sobre el costo total de la investigación (C), costo fijo (Co), grado de variabilidad de cada estrato (S2), costos unitarios (Ch) que pueden ser constantes o variables para cada estrato y el tamaño poblacional de cada estrato (Nh). Estos factores permiten determinar el tamaño n con mayor representatividad, ya que además de los costos, se tienen en cuenta los tamaños poblacionales de los estratos, y el grado de variabilidad para cada uno de ellos. La fórmula entonces sería: (C − CO ) ∑ N h S h n= Ch ∑ N h S h Ch Muestreo por Conglomerados El muestreo por conglomerados se utiliza cuando o bien, no existe listado de unidades finales o unidades elementales de la población; o las unidades están demasiado dispersas. Esto nos obliga a sustituir las unidades físicas o elementales, por grupos de unidades, que llamaremos conglomerados; generalmente son superficies o áreas en las que se ha dividido el espacio ocupado por la población. Supongamos que se desean realizar estudios a familias en una ciudad. Cada unidad o familia se constituye en un conglomerado, por tal razón se aplica el muestreo aleatorio monoetápico, es decir, se realiza la investigación en una sola etapa. Si anteriormente se realizó una selección de manzanas y de cada una de estas manzanas, se selecciona otra muestra correspondiente a familias, el método será bietápico. Obsérvese que hay una modificación con respecto al anterior método, ya que los elementos no forman parte de los conglomerados, sino que son una muestra o sub-muestra de cada uno de ellos. Si hacemos una selección de barrios, luego de manzanas y por último de familias, el método será trietápico. El muestreo polietápico o multietápico es una generalización y consta de más de tres etapas. 103 Los conglomerados son unidades que contienen unidades o elementos, es de anotar, que en la aplicación del muestreo por etapas la unidad cambia en cada una de ellas, por lo tanto se requiere de varios marcos o listados, ya que se tienen varias poblaciones. Para efectos de este texto, estudiaremos el muestreo por conglomerados de una y de dos etapas. 1. Una etapa: Si una población se divide en grupos y se toma una muestra, se dice que se ha realizado una muestra por conglomerados en una etapa, en la cual cada grupo sirve como unidad de muestreo. Recordemos que los estratos se dividen en grupos más o menos homogéneos en cuanto a su composición interna; en cambio, en los conglomerados, se espera que la composición interna sea lo más heterogénea posible, de tal forma que cada conglomerado represente en lo posible a la población. Es muy común que estos conglomerados hagan referencias a superficies o áreas en que se ha dividido el terreno, por ejemplo, un barrio o una manzana que pueden considerarse como conglomerados; el primero como un grupo de manzanas, el segundo como un grupo de viviendas. Este método permite reemplazar a las unidades más pequeñas (unidades de selección) de las poblaciones cuando ellas no pueden ser enumeradas, por unidades más pequeñas que las contienen, haciéndolas fácil de listar y de manejar y desde luego resulta menos costoso que los demás métodos de muestreo. Sin embargo vale la pena señalar que entre más pequeño sea el conglomerado, más exacto será el estimador. 2. Bietápico: Este método puede considerarse como un sub-muestreo y se trata de una modificación del método de muestreo por conglomerados, ya que la primera muestra esta conformada por unidades que son consideradas como conglomerados, una vez seleccionados estos, se efectúa una nueva selección o sub-muestreo dentro de cada conglomerado para la segunda etapa. De lo anterior se desprende, que lo característico de este tipo de muestreo es que el proceso de selección se hace por etapas sucesivas; en cada una de las etapas la unidad es diferente y las unidades finales (la última muestra) son las que nos permiten la realización de la encuesta, para la recolección de la información; las anteriores son unidades de selección. Nuevamente vale la pena recordar que , el muestreo aleatorio por conglomerados es aquél en el cual cada unidad de selección es una colección, conjunto o conglomerado de unidades o elementos. Se dice que es de dos etapas o bietápico, ya que se obtiene primero una muestra aleatoria de conglomerados y luego en una segunda etapa una muestra aleatoria de los elementos de cada conglomerado seleccionado. Muestreo Doble Denominado también bifásico porque se efectúa en dos fases. Es aplicado de preferencia, cuando no existe información auxiliar que permita conocer los tamaños poblacionales de los estratos, ni la identificación de las unidades; en este caso, primero se realiza una muestra aleatoria simple, generalmente grande, en forma rápida y sencilla para conocer en forma muy general algunas de las características objeto del estudio; luego se procede a una segunda muestra extraída de la anterior, la que podría considerarse como submuestra, con la cual se hacen las estimaciones. 104 6. ESTADÍSTICA NO PARAMETRICA En los apartados anteriores se han analizado modelos estadísticos que implican distribuciones continuas con ciertos supuestos básicos para la aplicación de estas técnicas. El principal uso de esos modelos es la estimación de parámetros desconocidos de la población en estudio, para poder hacer pruebas de validación o ensayos de significación y testear así las hipótesis planteadas. Estos supuestos se plantean fundamentalmente sobre el valor que toman los parámetros poblacionales o sobre comparaciones de dos de ellos. Hasta ahora se ha trabajado con magnitudes biológicas de tipo cuantitativas y continuas. A las magnitudes discretas se las ha tratado como proporciones para poder usar los modelos vistos, y cuando se usó el modelo de Gauss (normal) se tuvo que hacer una corrección por continuidad. A esta metodología de trabajo se la denomina Estadística Paramétrica, por contraposición a otra donde lo que interesa es comparar distribuciones en lugar de parámetros. Mientras los supuestos usados en la paramétrica especifican la distribución original (generalmente la gaussiana), hay otros casos en la práctica donde no se puede hacer esto, donde no se puede especificar la forma de distribución original. Se requiere entonces otra metodología de trabajo, una estadística de distribuciones libres, donde no se necesitan hacer supuestos acerca de la distribución poblacional, donde se puede comparar distribuciones entre sí o verificar supuestos a cerca de la forma de la población. Por ejemplo, verificar el supuesto de normalidad necesario para usar el modelo Student. La solución para estos casos es el empleo de la Estadística no paramétrica. Hay ciertas ventajas en su uso, tales como: - trabajar con magnitudes cualitativas, además de las cuantitativas; - estudiar casos donde no es posible precisar la naturaleza de la distribución; - ídem para los casos donde los supuestos de la forma poblacional son débiles; - aplicar el mismo modelo a casi todas las distribuciones en lugar a una sola; - es más fácil de entender para quienes no poseen base matemática adecuada. Y también tiene algunas desventajas como: - cálculos usualmente más engorrosos; - no extraen tanta información como los paramétricos si se aplican al mismo caso; - son menos eficientes si las muestras son grandes. Los modelos paramétricos tienen mayor capacidad para detectar diferencias muestrales que los no paramétricos. Es decir, son capaces de ver una diferencia significativa en casos donde los otros no pueden. Como su poder discriminador es mejor, siempre que se pueda, conviene usar modelos paramétricos antes que los no paramétricos, por su mayor sensibilidad para detectar diferencias significativas A menos que las diferencias sean tan grandes que con cualquier modelo pueden detectarse. Pero como los no paramétricos se aplican casi todos los casos, son más fáciles de entender y no tienen tanta “complicación matemática”. El independizarse de la forma de la población llevó a estos modelos a otras aplicaciones no clásicas, como en las ciencias de la conducta, marketing, ciencias sociales, etc. En algunas técnicas, como las pruebas de rango o de orden, se trabaja con puntajes, que no son verdaderamente numéricos, lo cual ocasiona deformaciones en los datos si se empleasen técnicas paramétricas y el valor de las conclusiones de la validación estadística quedaría menoscabado. Por ejemplo, se pueden asignar rangos 105 por textura, coloración, sabor, olor (magnitudes organolépticas), clasificar por infección con cierto tipo de virus, y otros casos donde no se cumpla el supuesto de homogeneidad de varianzas; acá el modelo de rangos puede ser la salida. Cuando se comparan dos muestras, los modelos paramétricos hacen hincapié en la comparación de las medias, mientras que los no paramétricos fijan su atención en comparar medianas. La prueba de rachas de una muestra Esta prueba es para aleatoriedad. En los casos anteriores vistos se trabajó bajo el supuesto de extracción de muestras aleatorias de la población. De acuerdo con el diseño del experimento se puede lograr, sin embargo, hay casos donde no es tan sencillo hacerlo. Otras veces puede que sea necesario probar la aleatoriedad. Para ello se han venido desarrollando una serie de modelos estadísticos que estudian el orden o secuencia en que las muestras individuales fueron obtenidas, para probar que la muestra es aleatoria. Este modelo se basa en la cantidad de rachas que una muestra exhibe. Por rachas se entiende a una sucesión de símbolos idénticos que pueden estar separados o no por otro tipo de símbolos. Por ejemplo, sea una serie de mediciones de magnitudes dicotómicas identificadas con los símbolos de resultado positivo (+) o negativo (-) a juicio del investigador, de acuerdo con cierto criterio profesional empleado: Resultados: + + - - - + - - - - + + - + Nº de rachas: 1 2 3 4 5 6 7 La primera racha empieza con una serie de 2 símbolos positivos, la segunda racha con 3 negativos, la tercera con un positivo, y así sucesivamente hasta la séptima racha con un positivo. El número de rachas es r = 7. El número total de rachas indica si una muestra es o no aleatoria. Si se da un número pequeño de rachas puede deberse a una falta de independencia o a una tendencia temporal. Mientras que si por el contrario hay un número muy grande de rachas, las fluctuaciones cíclicas sistemáticas, en un período corto de tiempo, pueden causar influencia en los valores asignados por el investigador. Por ejemplo, si se lanza al aire una moneda 30 veces y se obtienen 30 rachas es razonable dudar de esa moneda, son demasiadas. Lo mismo ocurriría si se obtienen únicamente dos rachas, como primero todas caras y luego sellos. El número de rachas no depende de la frecuencia de los sucesos. En efecto, dos situaciones bien diferentes pueden tener las mismas frecuencias. Como las del ejemplo anterior de las monedas donde se tiene una frecuencia relativa de ½, en ambos casos. Sin embargo, en el primer caso sale una cara, luego un sello, y así sucesivamente una y una, mientras que en el segundo primero se dan 15 caras seguidas y luego los 15 sellos finales. Generalmente se conoce la distribución muestral en muestreos repetidos, lo que permite obtener la probabilidad asociada para poder probar hipótesis. El procedimiento para aplicar este modelo es como sigue: Paso 1. Se calcula el número n1 de elementos de una clase identificadas por un símbolo y n2 la cantidad de elementos de la otra. Paso 2. Se ordenan los n = n1 + n2 sucesos en el orden en que ocurrieron. Paso 3. Se cuenta el número r de rachas. Paso 4. Se postula una hipótesis nula de trabajo que permita calcular la probabilidad asociada. Paso 5. Se determina la probabilidad que ocurran r rachas, usando Ho, y se compara con el nivel de significación á adoptado para aceptar o rechazar la Ho. 106 Para ilustrar mejor estas ideas, se presentan dos problemas resueltos, uno para muestras pequeñas y el otro para las grandes. Caso 1 - Muestras pequeñas: en un Laboratorio de investigación se prueba un antiflamatorio nuevo. Los resultados son aceptables si al segundo día de aplicado al paciente se observa una reducción del 90% en la inflamación; se le asigna (+) a ese caso. Se quiere testear la hipótesis que la sucesión de signos positivos y negativos se produce al azar. La sucesión de los 24 casos analizados fue: Sucesión: + - + + + + - + + + - - - - + - - + + + - - - Rachas: 1 2 3 4 5 6 7 8 9 10 Se usa un test dos colas porque no se predice la dirección de la desviación que supone. El tamaño de cada muestra es 12. Usando ambas tablas del apéndice se determina la zona de rechazo de la hipótesis nula cuando r es menor o igual a 7 o cuando r es mayor o igual a 19; con esto se define: Zona de aceptación: 7 < r < 19 y como r = 10 cae dentro de esta zona y no se rechaza (Ho). Se concluye que se deben suponer aleatorias a las muestras tomadas. Caso 2 - Muestras Grandes: en un hospital se forma todas las mañanas temprano, una cola de pacientes esperando su turno para la extracción de sangre. La bioquímica a cargo decide verificar si la colocación de hombres y mujeres es al azar. Anota el sexo de cada uno de los primeros 50 pacientes que entraron al laboratorio. Los resultados fueron: Sucesos : HH M H M HHH MM H MM H M HH MMM HH MM HH Rachas : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Sucesos : MM H M H M H MM H M HH M HH M H M H M H MM Rachas : 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 Total de rachas: r = 34. El total de hombres y mujeres fue: 25 = n1 = n2 µ r = 1 + [ ( 2 n1 n2 ) . n ] = 1 + [ 2 (25) 25] / 50 = 26 ( 2 n1 n2 ) ( 2 n1 n2 – n ) 2 (25) 25 {[2 (25) 25] – 50} (ór)2 = .......... = ......-.... = 12,245 y ór = 3,5 n2 ( n – 1 ) (50)2 (50 – 1) Z = ( r - µ r ) / ór = (r - 26 ) . 3.5 = ( 34 - 26 ) . 3.5 = 2,29* (0,01 < PN(Z2,29)= 0,011 < 0,05) Se rechaza la hipótesis de que los sexos guardan un orden aleatorio al formar la fila. Se encontró evidencia significativa para rechazarla. Si se calcula la probabilidad gaussiana para Z = 2,29 resulta p = 0,011; esto es, más cerca del rechazo al 99% que al 95% de nivel de confianza. La prueba de aleatoriedad algunas veces es necesaria para comprobar los supuestos específicos de otros modelos estadísticos. Debería realizarse primero para decidir si el modelo es aplicable porque se verifica su supuesto de aleatoriedad, como en el caso Gauss, Student, Fisher, etc. Para evitar en la prueba de aleatoriedad, lo aconsejable es usar sorteos al azar para la selección de muestras. 107 La prueba de rangos de Wilcoxon En la prueba del Signo se utiliza la información acerca de la dirección de las diferencias encontradas en la pareja de muestras. Pero no se considera la magnitud relativa de tales diferencias. En cambio, en el modelo de Wilcoxon se toma en cuenta ambas cosas y por eso es más poderoso que el del Signo. Acá se le da un peso a cada signo, relativo a la magnitud de la diferencia encontrada. Se la denomina también: Prueba de rangos señalados y pares encontrados. El investigador debe hacer dos cosas básicas al examinar una pareja de datos: 1) determinar en la pareja cual es el "mayor" de ambos; 2) ordenar por rango las diferencias halladas. Entonces puede usar este test para validar la hipótesis nula de que no hay diferencias entre los pares debido al tratamiento aplicado. En casos donde la valoración se hace en forma subjetiva, usando puntajes, también se puede aplicar el modelo de Wilcoxon (Psicología, Sociología, etc.). En la Bioquímica se la puede emplear cuando se valora el tamaño de una reacción ante una droga, vacuna, coloración, etc., con algo similar a un puntaje. En Farmacia ocurre otro tanto cuando se valoran con puntos la eficacia de medicamentos, o con escalas las encuestas de opinión en técnicas de mercadeo, propaganda, etc. Esta prueba también puede usarse en una muestra única donde deseen hacer inferencias acerca de la mediana: aquí al valor supuesto en la hipótesis nula se le resta a cada observación realizada y se tienen las diferencias buscadas para hacer el test. El supuesto básico para poder usarlo es: las magnitudes con las que se trabaja provienen de una distribución simétrica. No importa si cada muestra proviene de una población distinta, lo importante es que ambas deben provenir de poblaciones con distribuciones simétricas. El método puede ser resumido en: Paso 1. Se determina las diferencias Di entre los pares de observaciones realizadas. Paso 2. Sin tomar en cuenta el signo, se ordenan en forma creciente. Las ligas se descartan pues en este modelo no se toman en cuenta los empates únicamente se consideran los rangos de las diferencias encontradas. Paso 3. Se coloca el signo a cada uno de los rangos Ri hallados. Se suman entre sí los rangos de las diferencias positivas calculando su total T+, y el de las negativas obteniendo TPaso 4. Se elige la menor de ambas sumas y se la define como el estadígrafo T. Paso 5. Se compara el valor T obteniendo con el valor crítico Tá para tomar decisiones. La hipótesis nula es que los tratamientos aplicados son equivalentes. Esto es, la suma de los rangos positivos y negativos son aproximadamente iguales. Habrá diferencias de ambos signos pero con valoraciones que se equiparan. En cambio, si las sumas de rangos son muy diferentes, se puede deducir que el efecto del factor analizado no es despreciable ni producto del azar. En este modelo puede haber dos tipos de situaciones. La primera ocurre cuando no se aprecia diferencia entre la pareja analizada ( Di = 0 ) y se deja de lado en los cálculos, al igual que en el caso del modelo anterior. La segunda ocurre cuando se produce un empate en el valor de las diferencias ( Di = Dj = …= Dk ). O sea, la diferencia de rangos no es nula sino que tiene el mismo módulo que otra diferencia. Es posible hallar 108 1, 2, 3, …, k empates. En este caso, la solución es promediar el valor de los rangos empatados hallados Ei y asignárselo a cada uno de los empates. Esto es, a cada empate se le da un valor Ei = ( R1 + R2 +… + Rk ) / k.. Los siguientes ejemplos ilustran el uso de este modelo: Caso 1) Muestras pequeñas: una determinación clínica se realizó en 8 pacientes que concurrieron al laboratorio usando el método A; se repitió la medición pero usando otra marca de espectrofotómetro (método B). Los resultados obtenidos fueron los del cuadro siguiente. Averiguar si es lo mismo usar uno u otro espectro. La menor de las sumas de rangos señalados es T = 4. Como no hay diferencias nulas encontradas, resulta N = n = 8, de la Tabla de wilcoxon se obtiene el valor Tá = 4. Como este estadígrafo no es menor que el valor crítico, se rechaza la hipótesis nula de igualdad entre ambos espectros con un nivel significación de 0,05 para un ensayo de dos colas. Este mismo problema se puede resolver con el modelo del signo. Para ello, se calcula un valor de x = 2 y de la tabla respectiva se obtiene una posibilidad asociada Bx = 2p = 2 (0,145) = 0,029 para una prueba de dos colas. Acá no se puede rechazar la hipótesis nula (Ho) x = 2 para un valor de á = 0,05. A primera vista se tienen entonces dos resultados diferentes usando estos dos modelos. Es importante destacar que no son contradictorios entre sí. El modelo del Signo tiene menor sensibilidad y no puede detectar diferencia alguna entre ambos métodos clínicos. No puede discriminar la pequeña diferencia que implica cambiar el espectrofotómetro en la técnica realizada. En cambio, el modelo de Wilcoxon, más sensible, ya detecta diferencias entre ambos. Si bien en el límite, pero suficiente para tener una prueba científica. Esto no es extraño pues este modelo, además de emplear la información del signo, agrega más información con los rangos. Es una especie de moderación o prorrateo de los signos: no todos pesan igual a la hora de contarlos. 109 Modelo U de Mann-Whitney Este modelo U sirve para testear si dos muestras independientes han sido tomadas de la misma población. Se tiene, por lo menos, una magnitud ordinal de la misma. Este es el modelo no-paramétrico más poderoso para comparar dos muestras cuando no son apareadas. Es para el caso donde se tiene dudas acerca de la verificación de los supuestos que piden el modelo Student, o cuando las medidas son ordinales. La hipótesis de trabajo (Ho), siempre es que ambas muestras provienen de la misma población. El procedimiento a seguir para usar este método es como sigue: Paso 1. Se ordenan todos los datos, de menor a mayor, de ambas muestras y en un solo conjunto, cuidando de identificar a cada uno con su muestra respectiva. Paso 2. Se determina la muestra de referencia. Conviene que sea la de menor tamaño, caso contrario la muestra de control, placebo o blanco. Paso 3. Comenzando con el menor valor, se cuenta el número de muestras que preceden al primero de la muestra control (Ul); luego se busca el segundo de la muestra control y se cuenta el número de muestras precedente del otro grupo (U2); después se ubica al tercer valor y se procede en forma análoga para determinar (U3), y así sucesivamente hasta recorrer toda la muestra de control o referencia. En caso de empate, se le asigna medio punto a cada uno. Paso 4. Se obtiene el estadígrafo U = U1 + U2 + U3 + …. Paso 5. Se procede a comparar este valor contra el valor crítico de tablas. Hay dos tipos de tablas para el modelo U. Para muestras pequeñas (ninguna de las muestras es mayor que 9), y arroja el valor de la probabilidad del estadígrafo U calculado en el Paso 4. Para tamaño mediano de las muestras (entre 9 y 20 cada una), y da un valor crítico Uá que se debe comparar con el obtenido experimentalmente. Para n > 20 se usa la aproximación con la función de Gauss. 110 BIBLIOGRAFÍA SIDNEY Siegel. Estadística no paramétrica aplicada a las ciencias de la conducta. Ed. Trillas, México, 344 p.1992. LONDOÑO F. Juan Luis. Yuluka. U de A.1995. Metodología de la Investigación Epidemiológica. Editorial BETH DawsOn- Saunders, Trapp Robert G. Bioestadística Médica. Editorial el Manual Moderno, S.A de C.V. 1993.México, D.F. 380 p. NORMAN, R. Geoffrey, Streitner David. División Iberoamericana.1996. Bioestadística. Mosby Doyma Libros S.A. WAYNE W. Daniel. Bioestadística: Base para el análisis de las Ciencias de la Salud. 1990. Mendenhall, William. Probabilidad y estadística para ingeniería y ciencias. Prentice may, 1997. cuarta edición. Martínez Bencardino. Ciro. Estadística y muestreo. Bogotá, Eco ediciones, 1999. Díaz cadavid. Abel. Gutiérrez Arias, Armando. libres, 1995. 111 Estadística general. Medellín, Alas