Tema 1. Requisitos previos para el estudio del análisis multivariable 1.1. Introducción 1.2. Variables, medidas y escalas 1.3. Análisis exploratorio de los datos 1.4. La distribución Normal 1.5 Inferencia estadística: población y muestra, distribuciones muestrales, estimación puntual, intervalos de confianza, Test de Hipótesis 1.6 Estadística bivariable o bidimensional 1.7 Clasificaciones de las variables 1.8 Tipos de datos en el Análisis Multivariable. 1.9 Matrices 1.10 Otros conceptos básicos del Análisis Multivariable 1.11 Las técnicas multivariantes y su clasificación 1.12 Etapas de un análisis multivariante 1.1 Introducción Las técnicas multivariantes ofrecen al investigador una herramienta analítica muy potente, pero es imprescindible asegurarse antes de usar cualquier técnica de que se cumplen los requisitos tanto teóricos como estadísticos relativos a la técnica multivariante elegida. Además también es importante examinar cuidadosamente los datos disponibles, antes de aplicar cualquier tipo de análisis multivariante. El conocimiento en profundidad de cada una de las variables de interés (análisis univariante), así como de las relaciones existentes entre cada par de variables (análisis bivariante) es un paso previo necesario antes de la aplicación de cualquier análisis multivariante. Por ello es imprescindible recordar las nociones básicas de la estadística. Antes de ver una clasificación de las técnicas multivariantes, teniendo en cuenta que dicha clasificación se basa en las escala de medida de las variables que intervienen en el análisis repasaremos rápidamente las diferentes escalas de medida, que se supone son conocidas de cursos anteriores. 1.2. VARIABLES, MEDIDAS Y ESCALAS. Las variables son características no uniformes de las unidades de información. Unidades son las entidades de las que se obtienen las observaciones. Antes de que se pueda tratar a una variable estadísticamente, debe ser observada, es decir clasificada, medida o cuantificada. Medición es el proceso por el que se asignan números a las observaciones de una variable. Medida : observación cuantificada o categorizada. Una misma variable puede ser medida de diversas maneras. El investigador ha de procurar que sus medidas sean válidas y fiables. Una medida es válida cuando mide lo que pretende medir 1 Una medida es fiable si al repetir la medición en circunstancias similares se obtiene el mismo resultado. Para representar a las variables se suelen emplear las últimas letras del alfabeto: X, Y, Z ... El símbolo X representa una variable medible, pero si escribimos X i estamos representando el valor que toma la variable X en una observación concreta (la observación i ). Las variables se pueden clasificar en: dependientes e independientes Variable dependiente: es la variable que se quiere explicar Variable independiente: es la variable que explica la variable dependiente ESCALAS DE MEDIDA de las variables La escala nominal consiste en agrupar las observaciones de la variable en varias categorías cualitativas: (hombre-mujer, agrupar por nacionalidad, etc.) Las categorías pueden ser nombres o números, pero los números no indican orden ni diferencias en magnitud. La escala ordinal, consiste en agrupar las observaciones de la variable en categorías que se pueden ordenar. (Clase social, nivel de estudios, etc.) La escala de intervalo, existe una unidad de medida, pero el cero se fija en función del instrumento de medida, no significa ausencia de la característica estudiada. Por ejemplo la temperatura (o C, o F, etc.) La escalas de razón cociente o proporción, son escalas de intervalo pero con un cero absoluto. Peso, edad, distancia, etc. También se suelen clasificar las variables en: Cualitativas o categóricas: indican a qué grupo o categoría pertenece un individuo (grupo sanguíneo, estado civil, etc.) Cuantitativas : la variable toma valores numéricos con los que tiene sentido hacer operaciones aritméticas. En cuanto a la Estadística univariable, hay que recordar las diferentes representaciones gráficas de las variables (gráficos de sectores, histogramas, de árbol, de cajas), medidas de tendencia central (media, moda, mediana), medidas de dispersión (rango o recorrido, varianza, desviación típica). 1.3. Análisis exploratorio de los datos Se suele empezar examinado cada variable de forma independiente y luego se pasa a estudiar las relaciones entre variables. Se realizan uno o más gráficos y después se añaden resúmenes y aspectos numéricos de los datos. 2 Las tablas de frecuencias son útiles cuando el número de datos es elevado (N). Xi ni Ni fi Fi X i es el valor de la variable, o si los datos están agrupados el punto medio del intervalo (marca de clase). n i frecuencia de X i en N (número total de observaciones disponibles) Ni frecuencia acumulada N i = n i j<i f i frecuencia relativa .......................... f i = n i /N F i frecuencia relativa acumulada La distribución de una variable describe los valores que toma una variable y la frecuencia de los mismos. La forma, el centro y la dispersión sirven para conocer la distribución de las variables. Para conocer la forma de las distribuciones se usan las: Representaciones gráficas Con la representación gráfica se puede ver si la distribución es simétrica o asimétrica y descubrir las observaciones extremas (atípicas). Para variables cualitativas, se emplean los diagramas de barras y los diagramas de sectores. Ejemplo: tipos de familias en Suecia, según datos Eurostat 1991.Tipos de familia Tipos de familia Recuento en miles Parejas sin hijos Parejas con hijos H solos con hijos M solas con hijos Total 1400 1200 1000 800 600 400 200 0 1168 Porcentaje 1.168 830 27 158 2.183 P. sin hijos H. solos con h Grados 53,50 38,02 1,24 7,24 100 193 137 4 25 360 P. con hijos M.solas con h. 830 7% 1% 27 P. sin hijos 158 54%con h M.solas con h. P. con hijos H. solos 38% 3 Histogramas. Las variables cuantitativas a veces toman muchos valores diferentes, por lo que se suelen agrupar los valores próximos. Los Histogramas son representaciones gráficas por áreas. Sobre el eje de abcisas se marcan los extremos de los intervalos de clase y se levantan rectángulos de base los intervalos y de altura tal que el área del rectángulo sea igual o proporcional a la frecuencia correspondiente. Marca de clase es el punto medio de cada intervalo Polígono de frecuencias: se obtiene uniendo los puntos medios de los lados superiores de los rectángulos levantados en el histograma de frecuencias. Gráfico de tallos y hojas. Se separa cada observación en un tallo que contenga todos los dígitos menos el de las unidades y en una hoja el dígito de las unidades. a) se sitúan los tallos en vertical y en orden creciente de arriba abajo. Se traza una vertical a la derecha de los tallos b) Repasa todos los datos y sitúa cada hoja a la derecha de su tallo c) Sitúa otra vez las hojas colocándolas esta vez en orden creciente desde cada tallo. Ejemplo: El número de operaciones realizadas por los cirujanos de un hospital durante el último año han sido: 27, 50, 33, 25, 86, 25, 85, 20, 31, 37, 44, 36, 59, 34 y 28. 2 3 4 5 6 7 8 7 5 5 0 8 3 1 7 6 4 4 0 9 6 5 2 05578 3 13467 4 4 5 09 6 7 8 56 Medidas de tendencia CENTRAL: MEDIA, MODA Y MEDIANA. La Media de la variable x que toma los valores : x1, x2, x3, ..., xn, es: (x1+ x2,+x3, +..., xn) / N= (1/N) ∑ xi Si hay N observaciones y cada valor x i se presenta con frecuencia de ni la media es 1/N ∑ xi ni El inconveniente de la media es que le afectan los valores extremos. La MODA es el valor (o el intervalo) más frecuente en la distribución. La MEDIANA es el valor que queda en el centro de los datos tras ordenarlos de menor a mayor. Cuartiles, deciles y percentiles El primer cuartil se define como el valor que deja por debajo la cuarta parte de la distribución. El segundo cuartil coincide con la mediana El tercer cuartil es el valor que tiene por encima el 25% de la distribución El primer decil es el valor de la variable tal que el 10% de las observaciones son menores que él. (Hay 9 deciles) El primer centil : 1% del las observaciones son menores que él. (Hay 99 centiles) 4 GRAFICOS DE CAJA a b c a y e = valores mínimo y máximo de la distribución; c= mediana de la distribución ; d e b= primer cuartil de la distribución d= tercer cuartil de la distribución Calculo de la MEDIANA y la MODA cuando los datos están agrupados en intervalos: N/2 - Ni-1 Me = Li + ------------------ ai ni h i+1 Mo = Li + ------------------ ai h i-1 + h i+1 Me = mediana Mo = moda Li = extremo inferior del intervalo que contiene a la mediana (moda) N = número de casos Ni-1=Frecuencia absoluta acumulada anterior al intervalo que contiene a la mediana ni = Frecuencia absoluta del intervalo que contiene a la mediana ai = amplitud del intervalo que contiene a la mediana (moda) hi = ni / ai (altura del intervalo modal) hi-1 altura del intervalo anterior al modal hi+1 altura del intervalo posterior al modal Medidas de dispersión: Rango: diferencia entre el valor mayor y el menor de la distribución Varianza: media de los cuadrados de las desviaciones de los datos respecto de la media ni (xi - )2 -------------------N ni (xi )2 o ---------------N -- 2 El denominador es (N-1) cuando trabajamos con muestras, en ese caso sólo sirve la primera fórmula Desviación típica: raíz cuadrada de la varianza Coeficiente de variación: sirve para comparar dispersiones de diversas variables. Es el cociente entre la desviación típica y la media Medidas de asimetría.: La asimetría de la distribución se puede ver en el histograma, para cuantificarla se usan : Primer coeficiente de asimetría de Pearson: Se divide la diferencia entre la media y la moda entre la desviación típica. Segundo coeficiente de asimetría de Pearson: se divide el triple de la diferencia entre la media y la mediana entre la desviación típica. Si dan positivo, la asimetría se da a la derecha. Si es nulo no hay asimetría Si es negativo hay asimetría a la izquierda. Pueden tener distinto signo 5 Tercer Coeficiente de asimetría : g1 = (1/N) ni (xi - x)3 /(D.típica) 3 Si g 1 > 0 asimetría a la derecha ; si g 1 = 0 distribución simétrica; si g 1 < 0 asimetría a la izquierda Apuntamiento o curtosis C= (1/N) n i ( xi - x )4 / (D.típica) 4 C > 3 distribución más apuntada que la curva normal (leptocúrica) C = 3 distribución igual de apuntada que la curva normal (mesocúrtica) C < 3 distribución menos apuntada que la curva normal (platicúrtica) Ejercicios 1.1) Los números siguientes representan los minutos que una persona tuvo que esperar hasta que llegara el autobús cuando iba a su trabajo: 10, 2, 17, 6, 8, 3, 10, 2, 9, 5, 9, 13, 1 y 10. Calcular la media, la moda, la mediana y el primer y tercer cuartil. Representar el diagrama de cajas e interpretarle. Calcular también el recorrido, la varianza, la desviación típica y el coeficiente de variación. 1.2) Calcular la media, moda, mediana, Q1 y Q3, varianza, desviación típica, coeficiente de variación y los coeficientes de asimetría y curtosis de la distribución del tiempo que 80 estudiantes dedicaron a actividades de tiempo libre durante una semana. Realizar también el histograma , el diagrama de cajas y el diagrama de sectores Horas 10-14 15-19 20-24 25-29 30-34 35-39 frecuencia 8 28 27 12 4 1 1.4 La distribución NORMAL Las variables continuas cuyos valores dependen de un gran número de factores independientes y cuyas influencias se compensan entre sí haciendo que prevalezca el tipo medio, suelen seguir la distribución Normal. La distribución Normal es idónea para explicar : comportamientos sociales (aceptación de normas, gusto por la costumbres, etc.) actitudes económicas(consumo, impacto de un producto etc.) aptitudes psicológicas(cociente intelectual, etc.) medidas antropométricas (estatura, peso, etc.) medidas morfológicas (tamaño de los frutos de un árbol, etc.) errores cometidos en las mediciones 6 La distribución Normal Estándar N(0,1). Cuando una distribución normal tiene su media igual a 0 y su desviación típica igual a 1, se la conoce como distribución Normal Estándar. La variable que sigue esta distribución se llama tipificada y se la representa con Z. La áreas bajo la curva normal tipificada se calculan usando las tablas de la curva normal. Las tablas dan el área bajo la curva desde -∞ a K. El valor del área se encuentra en el cruce de la columna que contiene las unidades y décimas de K con la fila de las centésimas. Propiedades de la distribución Normal Su campo de existencia es la recta real R. Es simétrica respecto de su media μ . Tiene un máximo que coincide con su media, moda y mediana En μ+σ y μ-σ tiene los puntos de inflexión. El área bajo la curva es 1 y entre los puntos: μ+ σ y μ- σ es 0,6826 μ+2σ y μ-2σ es 0,9544 μ+3σ y μ-3σ es 0,9972 Tipificación Si la variable estudiada X, sigue una distribución N (μ,σ), para trabajar con las tablas de la Curva normal tipificada, es necesario tipificar la variable X, para ello definimos la variable Z Z= X-μ --------σ Uso de las tablas N(0,1) P(X≤1,75) = 0,9599, cruce fila de 1,7 y columna de 0,05 P(1≤X≤1,85)= P(X≤1,85)-P(X≤1)=0,9678-0,8413=0,1265 Si la variable no está tipificada, por ejemplo N(5,3), se la tipifica antes de buscar en las tablas. P(X≤8)= P((X - 5) / 3≤ (8 - 5 ) / 3)=P(Z ≤ 1) = 0,8413 1.5 INFERENCIA ESTADÍSTICA Población: conjunto de todos los individuos objeto de estudio. (Pueden no ser personas) Muestra: parte de la población en la que se miden las características estudiadas Muestreo: proceso seguido para extraer una muestra Razones para trabajar con muestras: imposibilidad física o económica de acceder a la población, destrucción del objeto estudiado. TIPOS DE MUESTREO Muestreo ALEATORIO SIMPLE: cada individuo de la población tiene la misma posibilidad de formar parte de la muestra y además la selección de un individuo no influye en las siguientes selecciones. Puede ser con reemplazamiento o sin reemplazamiento 7 Tablas de Números aleatorios: son tablas confeccionadas con números elegidos aleatoriamente que aparecen en muchos libros de estadística. Ahora muchos programas de ordenador traen rutinas que generan números aleatorios. Muestreo sistemático: Se ordenan en una lista todos los individuos de la población. N= tamaño población. n= tamaño muestra N/n=k= coeficiente de elevación. Se elige al azar el número a menor que k Los elementos elegidos serán: a+k, a+2k, a+3k.... a+nk Muestreo aleatorio estratificado: Se divide la población en grupos llamados estratos. Los mejores resultados se dan cuando los elementos de dentro de cada estrato son lo mas similares posibles, después se toma una muestra aleatoria simple dentro de cada estrato Afijación proporcional: el número de elementos elegidos en cada estrato es proporcional al tamaño del estrato Afijación fija: el número de elementos elegidos en cada estrato es el mismo Cuando no están identificados todos los individuos: Muestreo por CONGLOMERADOS Se pretende que cada conglomerado represente a la población (heterogeneidad dentro del conglomerado). Se toma una muestra aleatoria simple de los conglomerados y los elementos de los conglomerados elegidos formarían la muestra. Los conglomerados pueden ser las áreas geográficas en las que se divide la población analizada (países, comunidades autónomas, municipios, distritos, etc.) también pueden ser organizaciones o instituciones (colegios, hospitales, etc.) Muestreo polietápico por Conglomerados. Cuando a partir de una muestra de conglomerados se extrae una nueva muestra dentro de cada conglomerado. Muestreos no aleatorios: Opinático (por criterios subjetivos en función de la investigación) Por cuotas, cuando se facilita al encuestador el perfil de las personas a entrevistar: x% hombres, y % mujeres. Por itinerarios: cuando se facilita al encuestador el itinerario a seguir para encontrar a las personas a entrevistar. INFERENCIA ESTADÍSTICA Las medidas de centralización, dispersión etc., de las poblaciones se llaman PARÁMETROS y se suelen representar con letras griegas. 8 Las mismas medidas calculadas sobre las muestras se llaman ESTADÍSTICOS y se representas con letras latinas. A partir del conocimiento de los ESTADISTICOS se intenta llegar a conocer el valor de los PARÁMETROS. A los valores obtenidos en este proceso se les llama ESTIMADORES PUNTUALES. ( El estimador puntual de la media xi)/n _ El estimador puntual de la varianza ( ( x i - x) 2 ) / (n-1) El estimador puntual de la proporción es la proporción muestral. Teorema central del límite: si se extraen muestras (infinitas) de una población aproximadamente normal, y cuando las muestras son suficientemente grandes aunque la población no se distribuya normalmente, la distribución de cualquiera de los estadísticos de las muestras extraídas (media, mediana, proporción, coeficiente de correlación etc) siguen una distribución normal. La ley de los grandes números dice que "cuando un experimento aleatorio se realiza un número grande de veces la frecuencia relativa de un suceso se aproxima a la probabilidad del mismo". LAS DISTRIBUCIONES MUESTRALES Los estimadores puntuales dependen de la muestra elegida, por lo que es arriesgado trabajar con ellos. En una población de N elementos, el número de muestras de tamaño n es Nn o N según que la muestra se elija con reemplazamiento o sin reemplazamiento n Si estudiamos la media: Con los elementos de cada muestra obtenemos un valor para la media. El conjunto de todas esas medias muestrales recibe el nombre de distribución muestral de la media. Propiedades: 1. La media de las medias muestrales coincide con la media de la Población. 2. La desviación típica de las medias muestrales es la desviación típica de la población dividida entre n La distribución de las medias muestrales de tamaño n (no demasiado pequeño)se ajusta a N( μ, σ /n ) Distribución para las proporciones En el estudio de la proporción de una población que posee un cierto atributo (tener trabajo, ser mujer, etc.), si p es la proporción en una muestra de tener ese atributo (probabilidad de éxito) 1p = q será la proporción de no tenerlo (probabilidad de fracaso) La proporción en la población se estima a partir de la proporción en las muestras. Las proporciones muestrales de muestras de tamaño n, se ajustan a una distribución N (p,pq/ n ) 9 ESTIMACIÓN POR INTERVALOS: Intervalos de confianza Los estimadores puntuales sólo dan una idea aproximada del verdadero valor del parámetro a estimar, pero nunca se sabe cómo de buena es la aproximación obtenida. Recordar que cada muestra da lugar a un estimador puntual. Recordemos que la distribución de las medias muestrales sigue una N ( μ, σ /n ) Sabemos que el mejor estimador de μ (media de la población) es la media de la muestra , que como ya dijimos sigue una distribución N( μ , σ/n ) Y al tipificarla (x - μ )/ (σ /n) = z = N ( 0,1) Llamaremos 1 – α al nivel de confianza con el que deseamos trabajar. Representaremos por zα/2 el valor de la abscisa de la distribución N(O,1) que deja a su izquierda un área igual a α /2 Se cumple que _ P( – zα/2 (X - μ) /(σ /n) + zα/2 ) = 1 – α Multiplicando por (σ /n) llegaremos a _ P( – zα/2(σ /n) (X - μ) + zα/2 (σ /n) = 1 – α Sumando ( μ ) se obtiene _ P( μ – zα/2 (σ /n) X μ + zα/2 (σ /n) ) = 1 – α Pero lo desconocido es μ (media de la población) y lo que obtengo de la muestra es , vamos a transformar el intervalo de probabilidad (centrado en X) en un intervalo de confianza (centrado en μ);Restando μ queda: P( – zα/2 σ/n Restando - μ + zα/2 σ/n) = 1 – α queda P(– - zα/2 σ/n - μ - + zα/2 σ/n) = 1 – α Multiplicando por (-1), cambiará el sentido de la desigualdad P( + zα/2 σ/n ≥ μ ≥ - zα/2 σ/n) = 1 – α O sea: P( - zα/2 σ/n μ + zα/2 σ/n) = 1 – α Así tengo a la media de la población dentro de un intervalo construido a partir de la media obtenida de la muestra. Es el intervalo de confianza para la media poblacional A 1 – α se le llama nivel de confianza y a α nivel de significación Normalmente σ es desconocida por lo que se suele usar s 10 A s/n se le llama error típico o error estándar de la media Error admitido (E) y tamaño de la muestra (n) El radio del intervalo de confianza es zα/2 σ/n y esta cantidad es el máximo error admitido E=zα/2 σ/n De aquí se puede obtener el tamaño de la muestra para errores prefijados n = zα/2 σ/E ⇒ n = ( zα/2 σ/E )2 De forma similar se pueden definir intervalos de confianza para otros parámetros estadísticos. El intervalo de confianza para la proporción es ( p - zα/2 pq/n , p zα/2 +pq/n ); el error es E = zα/2 pq/n E2 = ( zα/2 )2 pq/n ⇒ n = ( zα/2 )2 (pq/E2 ) Problemas de intervalos de confianza: 1) Se elige una muestra de 36 estudiantes y la media de sus pesos resulta ser 61´25 y su desviación típica s=10´41. Calcular el intervalo de confianza para la media de la población al 95%. Solución : (57´85 , 64´65) 2) Se selecciona aleatoriamente una muestra de 500 estudiantes de la ESO y se les pregunta si han usado INTERNET alguna vez, contestando afirmativamente 225. ¿Cuál es el intervalo de confianza de la proporción de alumnos que han usado alguna vez Internet con un nivel de confianza del 95%? . Solución (0´407 , 0´493 ) 11 Test de Hipótesis Ya hemos visto que la media muestral suele ser diferente de la media poblacional, frecuentemente esas diferencias son pequeñas y se deben al azar, pero puede que esas diferencias ocurran por otros motivos. Los test de hipótesis son los instrumentos estadísticos que permiten decidir si esas diferencias se deben al azar o son de tal magnitud que precisan una explicación. Los test de hipótesis son una continuación de los intervalos de confianza. Test de hipótesis sobre la media poblacional Supongamos que por estudios previos se tiene la idea de que la media poblacional es μ. Sobre esa población se elige una muestra y se obtiene una media . Comparando μ y surge la pregunta. ¿Esta muestra procede de una población con media μ? La respuesta será NO cuando μ no pertenezca al intervalo de confianza de , para un nivel de significación prefijado y la respuesta será SI en caso contrario (cuando μ SI pertenezca al intervalo de confianza de ) Respuesta No, o sea hay cambios significativos si μ ∉ (X - zα/2 σ/n , X + zα/2 σ/n) o sea si el error ∣μ - x∣ > zα/2 σ/n Llamaremos hipótesis estadística a una afirmación respecto a alguna característica de la población. Contrastar una hipótesis es comparar las predicciones que se deducen de ella con la realidad que observamos. Si hay coincidencia, dentro del margen de error admisible aceptaremos la hipótesis y en caso contrario la rechazamos. Ejemplos de Hipótesis estadísticas: 1. El tabaco favorece la aparición del cáncer de pulmón. Esta hipótesis establece que si se considera la población de fumadores y la de no fumadores, la incidencia del cáncer de pulmón será mayor en la primera que en la segunda. No indica que todos los fumadores desarrollen C. de P, ni que un no fumador nunca vaya a tener C. de P. Simplemente compara las proporciones de C. de P en las dos poblaciones y establece que una proporción supera a la otra. 2. Disminuir los impuestos disminuye el fraude fiscal. Esta Hipótesis establece cómo cambia un parámetro en dos poblaciones definidas por dos instantes de tiempo diferentes. La primera población son los contribuyentes actuales y la segunda los contribuyentes futuros en la situación hipotética con una bajada de impuestos. La variable a estudiar es la cantidad defraudada antes y después del cambio fiscal. 3. Las mujeres son mas sensibles que los hombres. Consideramos la población de hombres y mujeres. Definimos la variable sensibilidad y establecemos un procedimiento para medirla (test, etc) la media de esta variable se espera que sea mas alta en la población de mujeres. En los ejemplos se aprecia que para realizar un test de hipótesis hacen falta como pasos previos: 1. Especificar la población o poblaciones de interés 2. Definir la variable objeto de estudio y cómo medirla 3. Relacionar la hipótesis con los parámetros de la o las poblaciones Las hipótesis estadísticas mas habituales se pueden clasificar en dos grupos, según que: a) Especifiquen un valor concreto o un intervalo para un parámetro de la variable estudiada. b) Establezcan la igualdad de algún parámetro en las distribuciones de una variable en dos o mas poblaciones. 12 Hipótesis Nula (H0) e Hipótesis Alternativa (H1) Llamamos hipótesis nula a la Hipótesis que se quiere contrastar y que puede ser rechazada como consecuencia de los resultados proporcionados por los datos de la muestra. Si rechazamos la hipótesis nula (H0) estamos implícitamente aceptando la hipótesis alternativa (H1) Cuando se decide aceptar o rechazar una hipótesis nula se pueden cometer dos tipos de errores: rechazarla siendo cierta (error de tipo I) aceptarla siendo falsa (error tipo II). Se llama nivel de significación (α) de un contraste de hipótesis a la probabilidad de cometer un error del tipo I. El nivel de significación lo fija el investigador antes de realizar el contraste. En ciencias sociales α suele ser 0,05 o 0,01 Para realizar un contraste de Hipótesis se suele definir una medida de discrepancia entre los datos muestrales y la hipótesis nula. Esta discrepancia dependerá de la diferencia entre el valor del parámetro especificado por H0 y el valor del estimador calculado en la muestra y para que esta diferencia no dependa de las unidades de medida se le suele dividir por su valor promedio, que es el error típico de la estimación del parámetro. Fases en la realización de un contraste de hipótesis. 1. Definir la hipótesis nula (H0) a contrastar y la hipótesis alternativa (H1) 2. Definir una medida de la discrepancia entre los datos muestrales y la Hipótesis nula 3. Calcular qué discrepancias son esperables si (H0) es cierta (error relativo de la estimación) 4. Fijar el mínimo p-valor admisible para no rechazar (H0) , a este valor se le llama nivel de significación. Al fijar esta cantidad queda definida una región de rechazo o región critica, que es el conjunto de valores de la discrepancia para los que se rechaza (H0) . El nivel de significación es la probabilidad de rechazar la Hipótesis nula, siendo cierta. Normalmente se fija en 0,05 o 0,01 5. Tomar la muestra y juzgar la discrepancia observada mediante el p-valor. Si este es menor que el nivel de significación se debe rechazar (H0) . En caso contrario se acepta H0 Problemas de Test de hipótesis 1) Una empresa está interesada en conocer el tiempo medio que sus trabajadores permanecen en ella, antes de irse a otra empresa. Pare ello toma una muestra de 64 trabajadores y en ella el tiempo medio es 5 años y la desviación típica 4 años. Considerando un nivel de significación de 0,05. ¿Sirven estos datos para afirmar que el tiempo medio de empleo en esa empresa está por debajo de 6 años?. Se supone que la distribución es normal. Paso 1. H0 : μ > 6 H1 : μ < 6 Paso 2. La prueba es de una sola dirección (unilateral), para un nivel de significación de =,05 le corresponderá un valor crítico Z α = -1,645, que separa las regiones de aceptación y rechazo. 13 Pasos 3 y 4. La distribución de referencia es normal por lo que tipificando: _ _ Z = (x - μ ) / σ , siendo x = 5, μ = 6 Z= (5-6)/0,5 = -2 y σ x =(4 / √64)=0,5 Paso 5. Como La abcisa -1,645 define la zona de rechazo y -2 está en esa zona de rechazo habrá que rechazar la hipótesis nula y aceptar la hipótesis alternativa: "el tiempo medio de permanencia en la empresa es inferior a los 6 años. Esta decisión también se puede tomar en términos de probabilidad. Puesto que la probabilidad de encontrar un z inferior a -2 o inferior es: P(z < -2) = 0,0228 y como 0,0228 < 0,05, esto es la probabilidad calculada es menor que el nivel de significación, habrá que rechazar la hipótesis nula. 2) EL tiempo medio empleado en realizar un ejercicio propuesto por una profesora de la facultad a una muestra de 100 estudiantes es de 1570 segundos, con una desviación típica de 120 segundos. Si μ fuera la media de todos los ejercicios propuestos por esa profesora. Contrasta de hipótesis de que μ = 1600 contra la hipótesis alternativa μ ≠ 1600 con un nivel de significación de 0,05 Paso 1. H0 : μ = 1600, H1 : μ ≠ 1600 Paso 2. La prueba es bilateral al nivel de significación 0,05 le corresponde un valor crítico de 1´96, que separa las zonas de rechazo y aceptación Pasos 3 y 4. La distribución de las medias muestrales es N(μ , σ / √n) En este caso N( 1600, 120/10) = N(1600, 12) _ La variable tipificada z = ( x - 1600)/12 sigue una N(0,1) EL intervalo de confianza será (1600 - 1´96 * 12 , 1600 + 1´96 * 12 ) = ( 1576´48 , 1623`52) Paso 5. Para tomar la decisión veamos si la media de la muestra pertenece al intervalo de confianza y como 1570 cae fuera del intervalo de confianza debemos rechazar la hipótesis nula y aceptar la Hipótesis alternativa de que la media es diferente a 1600. 1.6 Estadística bidimensional o bivariable La ESTADÍSTICA BIDIMENSIONAL estudia las relaciones entre dos variables. A veces cada observación está formada por los datos de mas de una variable. Además de estudiar cada variable por separado podemos estudiar las relaciones entre ellas. Nos centraremos en el caso mas sencillo: el estudio de parejas de variables. TABLAS DE DOBLE ENTRADA Tabla de distribución conjunta de frecuencias absolutas X c1 d1 n11 d2 n12 d3 n13 Y .... dm-1 n1 m-1 dm n1 m 14 c2 ... ... ck-1 ck n21 ... ... nk-1 1 nk 1 n22 ... ... n k-1 2 nk 2 n23 ... ... nk-1 3 nk 3 ... ... ... ... n2 m-1 ... ... nk-1 m-1 nk m-1 n2 m ... ... nk-1 m nkm N Supongamos que tenemos N observaciones correspondientes a dos variables cualitativas SITPROF (situación profesional) y EDC (nivel educativo). Cada variable clasifica a los N elementos de la población en varias clases o categorías. Si la situación profesional clasifica en k clases y el nivel educativo lo hace en m clases, al estudiarlas conjuntamente quedarán definidas k x m categorías. El valor n i j representa el número de datos que pertenecen a la clase i-esíma de la primera variable y a la categoría j-esima de la segunda variable. A n i j se le denomina frecuencia absoluta conjunta de la clase i j. La distribución de las frecuencias absolutas conjuntas se representan con una tabla de doble entrada. La primera fila contiene las clases de la segunda variable, a las que denominamos d 1 , d 2 ... d m-1 , d m En la primera columna aparecen las clases de la primera variable a las que denominamos: c1, c 2 ... c k-1 , c k En cada celda de la tabla aparece la frecuencia conjunta n i j donde i indica la categoría de la primera variable y j la de la segunda El cociente X c1 c2 ... ... ck-1 ck ni j / N es la frecuencia relativa conjunta y se representa por f d1 f11 f21 ... ... d2 f12 f22 ... ... d3 f13 f23 ... ... fk-1 1 fk 1 fk-1 2 fk 2 fk-1 3 fk 3 Y .... ... ... ... ... Dm-1 f1 m-1 f2 m-1 ... ... dm f1 m f2 m ... ... fk-1 m-1 fk m-1 fk-1 m fk m ij N Distribuciones marginales Además de la distribución conjunta, cada una de las dos variables cualitativas tiene su propia distribución. Se calculan a partir de la tabla de la distribución conjunta sumando por filas y columnas y colocando estos valores en las casillas libres de la última fila o columna de la tabla Las distribuciones de cada una de las dos variables que se ponen en los márgenes de la tabla, reciben el nombre de distribuciones marginales. La distribución marginal de la primera variable se representa por f i. , el punto indica que hemos sumado los valores de la segunda variable manteniendo fijo el valor i de la primera Con f .j se representa la marginal de la segunda variable y ahora el punto indica que hemos sumado los valores de primera variable manteniendo fijo el valor j de la primera. 15 m k fi . = f i j f.j = fij j=1 i=1 Ejemplo de distribución de frecuencias absolutas Sitprof 1 2 3 4 1 2 2 1 0 5 2 2 9 0 1 12 3 17 31 0 1 49 EDC 4 1 1 0 1 3 5 0 1 0 0 1 6 1 4 0 0 5 23 48 1 3 75 EDC= educación (1=analfabetos, 2 sin=estudios, 3= con estudios primarios; 4 con bachillerto, 5 Estudios Univ. Grado medio, 6= estudios Univ grado superior) sitprof= situación profesional (1=patrono o profesional con empleados, 2=empresario o profesional sin empleados, 3=persona a sueldo con carácter fijo, 4= empleado eventual a sueldo) Ejemplo de distribución de frecuencias relativas fi j = ni j / N Sitprof 1 2 3 4 1 0,027 0,013 0,013 0 0,067 2 0,027 0,12 0 0,013 0,160 3 0,227 0,413 0 0,013 0,653 EDC 4 0,013 0,013 0 0,013 0,040 5 0 0,013 0 0 0,013 6 0,013 0,053 0 0 0,067 0,307 0,64 0,013 0,040 1 Distribuciones condicionadas Si estamos interesados en conocer la distribución de una variable (sitprof, situación profesional) dentro de las personas de un determinado nivel educativo, por ejemplo "sin estudios" Cuando EDC=2. Estamos buscando la situación profesional dentro del grupo de los que no tienen estudios, a esa distribución se la llama distribución condicionada de la variable sitprof por el valor "sin estudios" de la variable EDC Frecuencias de la situación profesional condicionadas por sin estudios (2) en EDC Sitprof 1 2 3 4 ∑ Sin estudios (2) 2 9 0 1 12 f i /2 2/12= 0,167 9/12=0,75 0/12=0 1/12=0,08 1 16 Frecuencias de EDC (Educación) condicionadas por la situación profesional (1) patrono o profesional con empleados EDC 1 2 3 4 5 6 1(patrono) 2 2 17 1 0 1 23 ∑ f 1 /j 2/23=0,087 2/23=0,087 17/23=0,739 1/23= 0,043 0/23=0 1/23=0,043 1 La distribución conjunta es la que contiene toda la información sobre las dos variables, pero las distribuciones condicionadas resultan útiles para estudiar la relación entre las dos variables. Un caso interesante es cuando las distribuciones de una variable condicionadas por los diferentes valores de la otra son iguales y además coinciden con la distribución marginal. Este hecho indica que las variables no están relacionadas, son independientes. Supongamos queremos ver si hay relación entre los resultados de un test de inteligencia y el rendimiento en un trabajo después de haber realizado un curso de capacitación. La tabla siguiente da las frecuencias observadas de las variables CI (coeficiente de inteligencia) y RT (rendimiento en el trabajo) RT Mal CI Bajo Medio Alto Total 67 (46,4) 42 10 119 Regular 64 (63,6) 76 23 163 Bien Total 25 (46) 56 37 118 156 174 70 400 Si se supone que las variables no están relacionadas se pueden calcular las frecuencias esperadas. Con la siguiente regla: La frecuencia esperada de una celda cualquiera se calcula multiplicando el total de su fila por el total de su columna y dividiendo el resultado entre el total de toda la tabla. Así salen los números entre paréntesis Contraste de la independencia de dos variables mediante el test 2 de Pearson (chi-cuadrado) El estadístico 2 se calcula con la fórmula n 2 = ∑ i =1 (Obs i - Esp i ) 2 ------------Esp i Con este valor calculado de 2 y teniendo en cuenta los grados de libertad de la tabla que si es de dimensión f x c serán : ( f-1) x (c -1) 17 Y habiendo prefijado previamente el nivel de significación (que equivale a la probabilidad de equivocarnos al rechazar la hipótesis nula que afirma que las variables son independientes) Iríamos a la tabla de la 2 y si el valor que da la tabla donde se cruzan el nivel de significación y los grados de libertad es menor que el valor calculado de 2 entonces se rechaza la hipótesis nula que afirma que las variables son independientes. Cuando trabajamos con el SPSS y antes de realizar el test fijaremos el nivel de significación que estimamos necesario para que los resultados sean aceptables, por ejemplo :O,05 ó 0,01. Si el nivel prefijado es 0,05 y la significación que obtiene el SPSS es menor que 0,05 habrá que rechazar la Hipótesis nula (la que afirma que las variables son independientes) Significación < 0,05 rechazamos H0 y concluimos que las variables son dependientes entre sí Significación > 0,05 aceptamos H0 y concluimos que las variables son independientes entre sí. Con 2 podemos conocer si dos variables están asociadas estadísticamente o no. Pero si el resultado es afirmativo, no se conoce la fuerza de la asociación. Para saber si la asociación es fuerte o débil se emplean otros estadísticos que veremos en la hoja de explicación sobre SPSS. Problemas de 2 1. Un sociólogo noruego quiere saber si la composición étnica de una ciudad ha cambiado en los últimos diez años. Los datos de la población de hace 10 años afirman que el 53% eran noruegos, el 32% suecos, el 8% irlandeses, el 5% alemanes y el 2% italianos (no incluimos nacionalidades con porcentaje menor al 2). Para comprobar si ha habido cambios con una significación de 0,05 el sociólogo obtiene una muestra aleatoria de 750 habitantes de la ciudad, y encuentra 399 noruegos, 193 suecos, 63 irlandeses, 82 alemanes y 13 italianos. ¿Cuál es la hipótesis nula? ¿cuál es la conclusión? 2. Estamos interesados en conocer si hay relación entre el nivel educativo de los padres y el número de hijos que tienen. Se realiza una encuesta y se obtienen los siguientes resultados: Nivel educativo / número de Dos o menos hijos Mas de dos hijos hijos Educación universitaria 53 22 Sólo bachillerato 37 38 3. Se pregunta a los estudiantes de tres carreras si para una tarde del sábado prefieren a) ir al cine, b) salir con amigos c) leer un libro. Los resultados se dan en la siguiente tabla. Queremos saber si hay diferencias los gustos de los estudiantes de las tres carreras con un nivel de significación de 0´05. Carreras / actividad Ir al cine Salir con amigos Leer un libro A 26 55 19 B 24 118 58 C 20 112 68 4. Para evitar arbitrariedades se ha decidido que cada examen de una asignatura sea corregido por 4 profesores diferentes y ninguno de ellos hace anotaciones en los exámenes. Los resultados obtenidos son: Profesores / notas Aprobados Suspensos A 68 57 B 90 60 18 C 70 30 D 120 30 AL nivel de significación del 0`05 podemos concluir que existe una diferencia significativa en el sistema de calificación de estos profesores? 5. Queremos saber si las notas obtenidas por alumnos y alumnas son significativamente diferentes al nivel 5%. Los datos son: Notas / Sexo Aprobado Suspenso Alumnos 30 10 alumnas 40 20 6. En una facultad se ha preguntado a los estudiantes de los distintos cursos las horas que dedican al estudio cada día cuando no es época de exámenes y los resultados se muestran en la siguiente tabla: Tiempo/curso Menos de 1 hora Entre 1 hora y 3 horas Más de 3 horas 1º 18 22 60 2º 20 35 70 3º 32 90 80 4º 77 83 60 5º 96 50 14 Se pide contrastar la hipótesis de independencia del curso y el tiempo dedicado al estudio al nivel 0´05. 19 Nubes de puntos Un DIAGRAMA DE DISPERSIÓN sirve para mostrar las relaciones entre dos variables cuantitativas medidas para los mismos individuos. Cada individuo viene representado mediante un punto del plano, cuyas coordenadas son los valores que toma el individuo para cada una de las variables. En el eje X se suele representar la v. Independiente y en el eje Y la dependiente. El aspecto general del DIAGRAMA DE DISPERSIÓN debe revelar la dirección, la forma y la fuerza de la relación. ASOCIACIÓN POSITIVA Y ASOCIACIÓN NEGATIVA Dos variables están asociadas positivamente (relación directa) cuando valores superiores (inferiores) al promedio de una de ellas tienden a acompañar a valores superiores (inferiores) de la otra. Dos variables están asociadas negativamente (relación inversa) cuando valores superiores (inferiores) al promedio de una de ellas tienden a acompañar a valores inferiores (superiores) de la otra. Relación lineal La COVARIANZA es un parámetro estadístico conjunto de las dos variables estudiadas, se representa por s xy _ s xy ∑(x i – ) (y i – y) = ------------------------ = n ∑ xiyi ---------- n _ y _____ el denominador será n-1 cuando se trabaja con muestras en estadística inferencial , en ese caso sólo es válida la primera fórmula sxy > 0 relación directa sxy < 0 relación inversa Valores grandes de sxy advierten que la relación entre las variables puede ser fuerte. La covarianza depende de las unidades de medida, para evitar este problema se usa el coeficiente de correlación lineal r = sxy / (sx sy) r > 0 correlación directa; r < 0 correlación inversa r varía entre –1 y +1; |r| =1 correlación perfecta SI r es cercano a –1 la correlación es fuerte e inversa Si r es cercano a +1 la correlación es fuerte y directa Si r es cercano a 0 la correlación es débil. COEFICIENTE DE DETERMINACIÓN 20 Cuando r es cercano a +1 o a –1 la correlación lineal es fuerte. Los cambios en la variable Y se explican en gran medida por los cambios de la variable X. Se pueden estimar valores de Y a partir de la X. Una medida de la fiabilidad de esta estimación es el coeficiente de determinación r2 . El valor de r2 indica la proporción de la variación de la variable Y que puede ser explicada por la variación de la variable X. Si se multiplica r2 por 100 se obtiene el porcentaje de cambio de la variable Y explicado por la variable X. Regresión lineal La recta de regresión mínimo cuadrática es la que mejor se ajusta a la nube de puntos. La recta de regresión de Y sobre X es: _ Sxy y – y = -------------- (x - ) S2x La recta de regresión de X sobre Y es: Sxy _ x – = -------------- (y - y) S2y La fiabilidad de las estimaciones hechas a partir de la recta de regresión dependen fundamentalmente de: a) el valor del coeficiente de correlación r. Una correlación alta asegura estimaciones fiables. b) el número de datos considerados. La fiabilidad aumenta al aumentar el nº de datos. Una recta obtenida con pocos datos genera grandes riesgos, aunque r sea alto. c) la proximidad del valor xo para el que quiere hacerse la estimación a la media. RESIDUOS: Un residuo es la diferencia entre un valor observado de la variable dependiente Y, y el valor predicho por la recta de regresión. Residuo= y obsevada – y predicha. Asociación no implica causalidad Que exista una fuerte asociación entre dos variables no es suficiente para sacar conclusiones sobre las relaciones causa-efecto Ejemplo: existe fuerte correlación entre el número de bomberos que actúan en un incendio y la importancia del daño ocasionado por el mismo. EJERCICIOS. El número de horas de estudio de una asignatura y la calificación obtenida en el examen correspondiente fue para siete personas, la siguiente: Horas Calificación 5 3 8 6 10 5 12 6 15 9 17 7 18 9 21 a) Dibuja la nube de puntos y traza, aproximadamente, la recta de regresión asociada. b) Indica como parece ser la correlación. Solución:La correlación parece ser directa y fuerte Calcula el coeficiente de correlación y las rectas de regresión asociadas a los datos del problema anterior. Representa las dos rectas de regresión sobre la nube de puntos. Solución: Coeficiente de correlación= r= 0´88 Rectas de regresión: y = 0´39 x + 1´7 ; x = 1´97 y - 0´52 La tabla siguiente muestra para los años que se indican, la natalidad por cada 1000 habitantes de una ciudad española. Años Natalidad 1986 21 1987 21 1988 20 1989 18 1990 16 1991 15 Calcula: a) el coeficiente de correlación e interpreta su valor b) La natalidad esperada para los años 2000 y 2005. c) Comenta los resultados obtenidos Solución a) Coficiente de correlación = -0`97 b)natalidad esperada para el 2000 = 3`09 natalidad esperada para el 2005 = -3´61 EL modelo no es adecuado, cuando nos alejamos del año 2000 se llega al resultado absurdo de una natalidad negativa 22 1.7 Clasificaciones de las variables. Ya hemos estudiado las escalas de medida de las variables, ahora veamos algunas clasificaciones de las variables según diversos criterios: a) las variables y su papel en la investigación o en las hipótesis. Variables independientes (vv.ii) - Variables dependientes (vv.dd) Las variables independientes son las características en las que difieren los objetos de estudio (sexo, edad, etc.) (en estudios de encuesta y en estudios observacionales) mientras que en estudios experimentales son las diferentes condiciones a las que exponemos a los objetos de estudio. También se les llama variables explicativas o predictoras. Las variables dependientes son aquellas cuyo comportamiento es explicado o pronosticado por una o mas variables independientes. También se las llama variables criterio o respuesta. En las investigaciones no experimentales no siempre está claro si una variable es dependiente o independiente, siendo el contexto de la investigación la que hace decidir aunque a veces una variable puede desempeñar diferentes roles en distintas situaciones. En algunas aplicaciones del análisis multivariable, todas las variables tienen el mismo estatus y se habla de relaciones de interdependencia entre variables. En estos casos no hay variables dependientes e independientes. b) Clasificación de las variables por los valores que pueden tomar. La clasificación de las escalas de medida no siempre deja las cosas claras, por eso frecuentemente en el análisis de datos se divide a las variables en dos grandes grupos: Variables no métricas o cualitativas (escalas nominal y ordinal) Variables métricas o cuantitativas ( escalas de intervalo o de razón) O también: 1. Variable continua es una variable cuantitativa que por su naturaleza puede adoptar cualquier valor numérico (dentro de un intervalo). Para todo par de valores siempre se puede encontrar un valor intermedio, la precisión la da el instrumento de medida. (peso, estatura..) 2. Variable discreta : variable cualitativa o cuantitativa que sólo puede adoptar un número finito de valores distintos. En las cuantitativas entre dos valores continuos no hay uno intermedio. (número de hijos) 3. Variable dicotómica o binaria : Es aquella que sólo puede tomar dos valores. Por ejemplo Sexo, tener o no una enfermedad. Si a sus valores se les pone 0 y 1 se le llama binaria 4. Variable ficticia (dummy). Las variables cualitativas (nominales y ordinales) a veces se convierten en numéricas usando variables ficticias. En ellas el 1 indica presencia de una categoría y el 0 ausencia de la misma. Para convertir una variable cualitativa en dummy hacen falta tantas variables como niveles de la variable cualitativa menos uno. Para sexo sería suficiente con una (varón=0, mujer=1) Para Estudios (Eso, Bachillerato y FP) harían falta dos: V1: eso=1, Bach y FP=0, V2: Bach=1, eso y Fp =0, FP queda definida por ser 0 en las otras dos. En relación al análisis de datos se clasifican las variables en función de ciertas clasificaciones de escala y de origen: 23 Puntuaciones directas o brutas, son las obtenidas directamente y se suelen representar con letras mayúsculas (X,Y, ...) y tienen Medias (, , ...) y desviaciones típicas (s x , s y ...) Puntuaciones centradas en la media o diferenciales, se suelen representar con letras minúsculas y son un cambio de origen al restar la media de las puntuaciones originales (x = X ; T = T-..) estas variables tienen media cero y su desviación típica coincide con la de las puntuaciones originales. Es un cambio de origen pero no de escala Puntuaciones típicas o estandarizadas, normalmente representadas por la letra z con el subíndice correspondiente a la variable ( z x , z y ...). Se obtiene restando a los valores originales la media y dividiendo por la desviación típica ( z x = ( X - ) / s x Las puntuaciones típicas están libres de escala y siempre tiene media 0 y desviación típica 1. La combinación lineal de variables La mayor parte de las técnicas multivariables combinan las variables de alguna forma "útil". Normalmente esta combinación es una combinación lineal, a veces llamada variante, aunque también hay combinaciones no lineales, no las estudiaremos este curso. Una combinación lineal es una suma ponderada de las variables, para un conjunto p de variables observadas tendremos V = w1 X1 + w2 X2 + ... w p X k V es la nueva variante o combinación lineal, y X j y w j representan las variables originales y sus pesos, respectivamente (j = 1,2, p). Esa misma ecuación se puede representar como el producto de dos vectores v = w' x En cuanto al número de variables que interesa incluir en un análisis multivariante como regla general se debe observar la parsimonia científica, es decir obtener la mejor solución con el menor número posible de variables. 1.8 Tipos de datos en el Análisis Multivariable. A) Matrices de datos Los datos son un conjunto de valores que representan las puntuaciones de n unidades de análisis sobre p variables. En las variables cuantitativas, los valores son puntuaciones numéricas, en las cualitativas, códigos numéricos que representan niveles diferentes de la variable categórica (soltero, casado, viudo, etc.) Estos valores de colocan en una matriz X i j , i=1...n , j=1... p X 11 X 12 .. X 1 j ... X 1 p X= X 21 X 22 .. X 2 j ... X 2 p .......................... X i1 X i2 .. X i j ... X i p ....... ........ X n1 X n2 .. X n j ... X n p 24 Estos datos son los que se introducen en el ordenador y serán procesados por el programa SPSS u otro similar 1.9 Matrices (se verán otros tipos de datos después de estudiar las matrices) Se suele definir una matriz como un conjunto de números ordenados en filas y columnas. 1 2 3 -4 0 -1 5 0.3 3 2 1,2 2 1 3 5 -4 0 La dimensión de una matriz es n x m, donde n es el número de filas de la matriz y m el número de columnas. Las matrices anteriores tienen como dimensiones 2x4 y 3x3, respectivamente. Cuando n = m (el número de filas coincide con el de columnas), se dice que la matriz es cuadrada. La segunda matriz del ejemplo es cuadrada. Las matrices de dimensión 1 x n se llaman vectores fila. Ejemplo: (1 2 -5 4) es una matriz de dimensión 1x4 o un vector fila Las matrices de dimensión m x 1 se llaman vectores columna. Ejemplo 3 2 es una matriz de dimensión 3 x1 o un vector columna 7 Transponer una matriz es una operación que consiste en obtener una nueva matriz en la que hemos cambiado filas por columnas en la matriz dada. Ejemplo de una matriz y su transpuesta: 2 3 1 7 -2 4 2 3 1 7 -2 4 Si la dimensión de una matriz es m x n la de su transpuesta será n x m. La transpuesta de la transpuesta de una matriz es la matriz de partida. En las ciencias sociales las matrices se usan en muy diversas situaciones. Ya hemos mencionado que uno de los usos más frecuentes de las matrices para representar las puntuaciones obtenidas por n sujetos en m variables, a esta matriz se la suele llamar matriz de los datos. Variables 1 2 3 ... m En la notación literal de S 1 x11 x12 x13 x1m las matrices el primer u 2 x21 x22 x23 x2m subíndice indica la fila j 3 x31 x32 x33 x3m y el segundo la columna e . t . o . s n xn1 xn2 xn3 xnm 25 Matrices especiales: Además de las matrices cuadradas, fila y columna que ya hemos mencionado son importantes las Matrices simétricas, aquellas que son iguales a su transpuesta (no cambian al cambiar filas por columnas) 1 3 2 3 0 6 2 6 3 Matrices diagonales, aquellas cuyos únicos elementos distintos de cero son los de la diagonal principal (la que va de arriba izquierda a abajo derecha) o los de la diagonal secundaria (la que va de arriba derecha a abajo izquierda). Si todos los elementos de la diagonal principal son unos, en lugar de matriz diagonal se la llama matriz unidad. Matriz triangular es una matriz que tiene nulos todos los elementos que están situados encima (o debajo) de la diagonal principal. Suma de matrices. Sumar dos matrices es obtener una nueva matriz en la que cada elemento es la suma de los elementos correspondientes de las matrices que estamos sumando. Para que dos matrices se puedan sumar es preciso que ambas tengan la misma dimensión. (aij) + (bij) = (aij + bij) =(cij) 2 0 -8 1 3 0 -3 + 1 4 2 4 -2 = 5 1 -4 1 1 0 Producto de matrices. Multiplicar dos matrices es obtener una tercera en la que cada elemento se obtiene según la formula que exponemos a continuación. (aij) * (bij) = (cij) ci j = ai1 x b1j + ai2 x b2j + a i3 x b3 j +...+ a i m x b m j Para que dos matrices sean multiplicables es necesario que el número de columnas de la primera coincida con el número de filas de la segunda. Ejemplo: 8 2 1 3 -6 4 5 2 9 1 65 32 82 29 1 7 4 3 = 36 -26 2 8 8 3 2 6 Las dimensiones de las matrices anteriores son 2x3 3x4 2x4 El elemento c11 cuyo valor es 65 se obtiene como resultado de multiplicar los elementos correspondientes de la primera fila con los de la primera columna: 8x5 + 1x1 + 3x8 =65 De la misma forma se calculan todos los otros elementos de la matriz producto. Matriz de Varianzas y Covarianzas. Si se tienen n variables, se llama matriz de varianzas y covarianzas de estas n variables a una matriz cuadrada definida de forma que en la diagonal principal figuran las varianzas de las n variables (el término colocado en la fila i , columna i es el valor de la varianza de la variable i) Y el 26 número situado en la fila i columna j es la covarianza de la variable i con la j. Evidentemente esta matriz siempre es simétrica, ya que la covarianza de la variable i con la j es la misma que la covarianza de la variable j con la i. Recordemos las definiciones de varianza y covarianza. La varianza de la variable x i, n (x i - )2 i =1 s i = ------------n -1 La covarianza entre las variables x 1 y n (x i1 - 1) (x i2 - 2) i =1 s12 = s21 = -----------------------------------n -1 x2 Ejemplo de cálculo de matriz de varianzas y covarianzas. Supongamos que la variable x1 ha tomado los valores 1, 3 y 2 mientras que la variable x2 ha tomado los valores 1, 4 y 7. La media de la variable x1 es (1+3+2)/3 =2 y la de la variable x2 es 4. Formemos la matriz D de las desviaciones respecto de la media 1 1 2 4 3 4 - 2 4 2 7 2 4 = -1 1 0 -3 0 3 = xd La transpuesta de x d será -1 1 0 -3 0 3 El producto x dT x varianzas-covarianzas d = x dT (dividiendo todos sus términos por n -1) dará la matriz buscada de AUTOVALORES Y AUTOVECTORES DE UNA MATRIZ Dada la matriz cuadrada A, de dimensión n x n, el número es un autovalor y el vector X, de dimensión nx1 es un autovector de ella si se verifica la siguiente ecuación: A X = X esto es A n x n X nx1 = X nx1 A X = X => A X - X = 0 => ( A - I) X = 0 donde 0 es una matriz de dimensión nxn con todos sus elementos nulos e I es la matriz unidad (con unos en la diagonal y ceros en los demás lugares) 27 Para calcular los autovalores se resuelve la ecuación A - I = 0 donde la incógnita es f( ) = A - I recibe el nombre de función característica de la matriz A. Cada autovalor tiene asociado un autovector. Para calcular los autovectores se sustituye el valor del autovalor en ( A - I) X = 0 y se resuelve respecto de X. Ejemplo: calcular los autovalores y autovectores de la matriz 3 1 A= 2 2 A-I =0 3 1 1 0 - 2 2 3 - 1 = 0 => 0 1 =0 2 2- (3 - )(2 - ) - 2 = 6 - 3 - 2 + 2 - 2 = 0 2 - 5 + 4 = 0, Los autovalores son 1 y 4 Para encontrar el autovector asociado con el autovalor 1 sustituyo por 1 en: ( A - I) X = 0 3 1 1 0 x1 2 2 0 1 x2 2x1 + x2 = 0 2x1 + x2 = 0 Sistema compatible indeterminado - 2 1 x1 2 1 x2 = 0 = 0 2x1 = - x2 para x2 = k , x1 = (-1/2)k, el autovector será ( -1/2 k, k ), en columna. Hacer la comprobación de que se cumple la ecuación A X= 1 X Hallar el autovector para el autovalor 4. Da el autovector (k , k ) Propiedades de los autovalores y de los Autovectores 1. La suma de los autovalores es igual a la suma de los elementos de la diagonal principal de la matriz (traza de la matriz) 2. El producto de los autovalores de una matriz coincide con el valor del determinante de la matriz 3. Para cualquier matriz no singular, el número de autovalores (contando las duplicaciones) coincide con el rango de la matriz. Ejercicios. Calcular autovalores y autovectores de 28 2 1 da autovalores 5 y 1, 3 4 para el 1 el autovector es (k, -k)' para el 5 el autovector es (k, 3k)' o (1/3 k , k)' Formatos de datos mas empleados en los análisis multivariantes (además de la matriz de datos) a) Matriz de suma de cuadrados y productos cruzados. La denotaremos por S. Es previa a la matriz de varianzas - covarianzas, que a su vez precede a la matriz de correlaciones. Los elementos de la diagonal principal de la matriz de cuadrados y productos cruzados, son la suma de las desviaciones de la media elevadas al cuadrado, o sea _ _ n Suma de cuadrados ( X j ) = Σ (X i j - X j ) 2 donde X j es la media de las i= 1 puntuaciones en la variable j - esima. Los elementos externos a la diagonal principal son los productos cruzados de las variables centradas o diferenciadas, esto es: n _ _ Suma de productos cruzados ( X j , X k ) = Σ (X i j - X j ) (X i k - X k ) donde j,k = 1,2...p, j k i= 1 Hay que observar que la matriz será cuadrada y simétrica y además su dimensión coincide con el número de variables. b) Matriz de varianzas-covarianzas, la denotaremos con C, es también una matriz cuadrada y simétrica, que tiene como elementos en la diagonal principal las varianzas de cada una de las variables y como elementos externos a la diagonal, las covarianzas entre las variables. Recordemos que las varianzas se definen como las sumas de cuadrados promediadas n _ Sx2 = 1/ (n-1) = Σ (X i j - X j ) 2 i=1 y las covarianzas como las sumas de productos cruzados también promediados Cov ( X j , X k ) = s i j = 1/(n-1) Σ (X i j - X j ) (X i k - X k ) donde j,k = 1,2...p, j k, Las covarianzas y las varianzas retienen la información de la escala de las variables. Si se conoce la matriz S, se puede calcular la matriz C, porque C= 1/(n-1) S Recordando que si la V es una combinación lineal V = w1 X1 + w2 X2 + ... w p X p Se puede expresar como V= w ´ X Podemos escribir la varianza de la combinación lineal V, con la expresión Var (V) = w´ C w, donde C es la matriz de varianzas-covarianzas de las variables ( X1, X2 ... X p ) C) Matriz de correlaciones R 29 Al igual que S y C, la matriz de correlaciones es cuadrada y simétrica y tiene unos en la diagonal principal y los elementos externos a la diagonal son las correlaciones entre las variables indicadas por la fila y columna correspondiente. Realmente una correlación no es mas que una covarianza entre puntuaciones típicas, que como ya se sabe tienen varianza unidad (los unos de la diagonal principal) y además la media es cero. D) Matrices de proximidad (similaridad o disimilaridad) Algunas técnicas multivariante parten de datos o de medidas de asociación que reflejan el grado de similaridad o disimilaridad entre los sujetos y/o las variables. Normalmente la similaridad se puede entender como la proximidad entre dos puntos en un espacio de n dimensiones (que no se puede representar físicamente, si n es mayor que 3). De igual forma, a medida que los sujetos son mas diferentes (disimilares) los puntos que los representan estarán más alejados. Las matrices de proximidad (similaridad o disimilaridad) pueden estar formadas por diferentes índices, según el nivel métrico de las variables y el procedimiento de recogida de datos. Una de las medidas de similaridad más usada es la correlación producto - momento de Pearson u otros índices que reflejan el grado de asociación. Un tipo especial de medida de disimilaridad, del que se parte y/o al que se llega en algunas técnicas multivariantes es la distancia, que da lugar a las denominadas matrices de distancia entre objetos o unidades (de orden n*n) con elementos d i j que representa la distancia entre un objeto i representado en la fila de la matriz y un objeto j indicado en la columna. Presentaremos algunas de las distancias mas utilizadas en AM. La distancia euclidea p dij = Σ (X a=1 ia - X ja )2 La distancia de Manhatan r (r) dij = Σ ╽X - X ia ja ╽r La distancia de Mahalanobis (X i - X j )´ C -1 (X i - X j ) donde X i y X j representan los vectores de las puntuaciones de los objetos i y j en las p variables y C -1 es la matriz inversa de la matriz de varianzas - covarianzas de p dimensiones 1.10 Otros conceptos básicos del AM LOS RESIDUOS Frecuentemente un objetivo del análisis multivariante es intentar reproducir la variación del conjunto de variables observadas o de la variable dependiente a partir de la (s) combinación (es) lineal (es) obtenidas. 30 La diferencia entre los valores reproducidos y los valores observados se llama residuo y su conjunto es una medida de la mayor o menor eficacia del modelo. Cuanto menores sean los residuos mejor ajuste proporcionará el modelo. En la mayor parte de los análisis la suma de los residuos de toda la muestra es cero, ya que los valores obtenidos mediante el modelo a veces serán superiores a los valores reales y otras veces serán menores, por lo que el promedio es cero. Por ello se suele trabajar con los valores de los residuos al cuadrado (residuos al cuadrado). Cuando los valores reales son cercanos a los valores pronosticados, la predicción es buena y los errores al cuadrado son pequeños. Veremos que en algunas técnicas multivariantes la distribución de los residuos tiene un papel importante para evaluar si se cumplen algunos de los requisitos requeridos para usar la técnica. EXPLORACION INICIAL DE LOS DATOS Es razonable que antes de aplicar una compleja técnica multivariante, el investigador conozca la distribución de cada variable independientemente. El estudio inicial de los datos puede tener varios objetivos: detección de observaciones aisladas (outliers), tratamiento de los casos perdidos (missing data) así como la comprobación de los supestos que han de cumplir los datos para poder aplicar la técnica multivariable en cuestión. a) Detección de casos aislados y observaciones influyentes Los casos aislados son observaciones con valores extremos en una variable o en una combinación de variables y se le reconoce porque son muy diferentes de las restantes observaciones. No todos los casos aislados son necesariamente problemáticos en el análisis estadístico, pero a veces pueden ser observaciones influyentes que distorsionan los resultados. El investigador tiene que detectar la presencia de estos casos cuidadosamente. Puede haber cuatro razones para la presencia de casos aislados: 1. Introducción incorrecta de los datos en el archivo por errores de grabación o codificación. Estos casos se detectan mediante un análisis de frecuencias porque se encuentran fuera del rango de los valores admisibles para las variables. A veces se pueden corregir y en caso contrario se les debe eliminar o tratarlos como casos perdidos. 2. Cuando el caso no pertenece a la población objeto de estudio de la que se ha obtenido la muestra. En esta situación hay que eliminar el caso. 3. El caso pertenece a la población, pero tiene un valor extraordinario en relación a los restantes casos. Es posible que exista una explicación para ello y el investigador ha de decidir si retiene el dato o lo excluye del análisis. 4. Cuando los valores caen dentro del rango esperado para cada variable pero resultan únicos en su combinación con otras variables, en este caso el investigador tratará de encontrar una explicación. A estos casos se les llama casos aislados multivariantes. El problema es que pueden dar lugar a resultados no generalizables por estar muy influidos con la presencia de estos datos. Los casos aislados de tipo univariante se caracterizan por tener puntuaciones típicas muy extremas: fuera del rango (-3 , +3). Pero en muestras grandes no es raro que se presenten unos cuantos casos con estas puntuaciones. 31 Con el SPSS se pueden tipificar las variables y estudiar si las puntuaciones típicas caen fuera del rango (-3 , +3). Para ello se elige: Analizar -> Estadísticos descriptivos -> descriptivos Se llevan al rectángulo de la derecha las variables que queremos tipificar y se señala el cuadradito que está abajo a la izquierda donde pone Guardar valores tipificados. Por cada variable señalada tendremos una nueva variable en nuestro fichero de datos con el mismo nombre pero con una z delante: la variable p401 tipificada se llama zp401 y como la etiqueta de la p401 es simpatía norteafricana, el SPSS pone la etiqueta a la variable tipificada como: puntúa simpatía norteafricana. Para ver los valores de la variable tipificada mas alejados de 3 desviaciones típicas se puede ir al fichero de datos y explorar visualmente la columna de sus datos o usar Analizar -> frecuencias con estas variables. La opción Explorar del SPSS proporciona gráficos especialmente útiles como los de caja con el que veremos las distribución intercuartílica o el de tallo y hoja. Para detectar los casos aislados multivariantes se suele emplear la Distancia de Mahalanobis Que es una medida de cuánto difieren los valores de un caso en las variables independientes respecto al promedio para todos los casos. Una distancia de Mahalanobis grande identificará a un caso que tenga valores extremos en una o más de las variables independientes. DATOS PERDIDOS Uno de los problemas mas frecuentes del análisis multivariante es la presencia de datos ausentes. En el caso de la investigación mediante cuestionario son consecuencia de la no respuesta de los encuestados a ciertas preguntas de la encuesta. Su gravedad depende del numero de casos perdidos y de la razón de su existencia. Se puede dejar una pregunta sin respuesta por despiste o porque el/la encuestado/a tiene razones para no contestar. El contar con el resto de las respuestas de una encuesta incompleta puede afectar a la posible generalización de los resultados. Habría que hacerse algunas preguntas. Como: ¿difieren estos sujetos de los que contestan a todas las preguntas? ¿Tienen estas diferencias impacto sobre los resultados de la investigación?. La mayoría de los autores consideran que hay dos razones para la presencia de datos ausentes: - los procesos sistemáticos externos a los sujetos, como son problemas de recogida de datos o errores de transcripción o grabación. - La acción del sujeto que responde de dejar de hacerlo a ciertas preguntas. Los del primer tipo se suelen poder corregir, pero los segundos presentan mayor dificultad y se deberían estudiar cuidadosamente. Si los datos ausentes siguen una distribución aleatoria en la matriz de datos, normalmente no son un grave problema, pero si el patrón no es aleatorio pueden afectar notablemente a los resultados. Los procedimientos para estudiar la aleatoriedad de la distribución de los datos ausentes se suelen clasificar en tres tipos: 32 1. Se divide al conjunto de todos los datos en dos grupos los que tienen datos completos y los que no los tienen, y se estudian las diferencias existentes en las variables de interés. Si estas diferencias son significativas no hay distribución aleatoria de los datos. Para esta comparación se puede usar el contraste t de Student para variables cuantitativas o contrastes de independencia basados en la 2 de Pearson (chi-cuadrado) para variables categóricas. 2. Otro procedimiento usa correlaciones para parejas de variables dicotomizadas entre la presencia o no de datos perdidos. Se crea una variable ficticia (dummy) en la que 1 significa que hay valor definido y 0 significa que hay un valor ausente. Las correlaciones resultantes indican la correlación que existe entre los valores ausentes en las dos variables y se puede estudiar la significación de estas correlaciones. 3. Por último se puede realizar un examen global de la aleatoriedad sobre la matriz de datos por inspección visual. Tratamiento de los casos perdidos. Técnicas de "imputación". Hay dos opciones o procedimientos para tratar los datos perdidos. 1. Eliminar los casos con datos incompletos 2. Usar algún procedimiento para asignar un valor (imputación) al dato perdido La opción más simple es eliminar los casos incompletos y trabajar sólo con los casos con datos completos. Es la opción que asumen por defecto los programas de ordenador. Cuando el patrón de reparto de los datos perdidos es completamente aleatorio y los datos perdidos se reparten por toda las variables, esta opción puede tener como consecuencia una reducción importante del tamaño de la muestra con lo que no sería posible realizar análisis multivariantes. Por otra parte si el patrón de reparto de los datos perdidos no es aleatorio, eliminar los casos con datos perdidos puede introducir sesgos notables en los resultados. Imputación de datos ausentes en el archivo de datos Suele ser mas recomendable realizar la imputación de los datos sobre el fichero de datos disponible y emplear los datos imputados en los cálculos posteriores. Casi todos los programas de ordenador proporcionan alguna opción en este sentido. El SPSS, dentro del menú TRANSFORMAR DATOS permite imputar datos ausentes según varias opciones 1. Media de la serie. Se sustituye el valor perdido por la media calculada con todos los datos válidos de la variable. 2. Media de puntos adyacentes. Se sustituye el valor perdido por la media de los valores adyacentes válidos. (desde el anterior caso perdido al posterior ) 3. Mediana de los puntos adyacentes. Como el caso dos pero mediana en vez de media. 4. Interpolación lineal. Se interpola linealmente entre el valor previo al perdido y el posterior. 5. Tendencia lineal en el punto. Se sustituyen los valores perdidos de la serie por la tendencia lineal en ese punto haciendo una regresión lineal de los datos de la variable sobre una variable Indice definida de 1 a n. 33 Cálculo de matrices de varianzas-covarianzas o correlaciones con valores perdidos Los programas de ordenador duelen ofrecer tres opciones y el usuario puede decidir cual le parece mas conveniente así como comprobar las diferencias en los resultados al emplear las diferentes posibilidades. 1. Excluir casos según lista (listwise), se usan sólo los casos con todos los datos 2. Excluir casos según pareja (pairwise),se usan para cada par de variables los casos completos en las dos variables para las que se calcula la covarianza o la correlación. 3. Reemplazar por la media, se utilizan todos los casos del fichero pero se sustituyen los valores ausentes por la media de a variable correspondiente. El spss emplea la primera opción por defecto. La opción segunda es útil en muchas ocasiones, pero cada covarianza o correlación estará calculada a partir de un conjunto de diferentes casos. EL usar esta opción puede ocasionar problemas al calcular las matrices inversas y los autovalores. A veces se puede llegar a autovalores negativos que provocan matrices no definidas positivas, y éste es un supuesto básico en algunas técnicas multivariantes. La opción tercera es recomendable cuando hay pocos datos ausentes, pero si hay muchos el sustituirlos por la media reducirá la variabilidad real de las variables lo que normalmente tiene como consecuencia una reducción de las correlaciones estimadas. Tanto la opción 2 como la 3 deben emplearse con cautela y es conveniente comparar las matrices obtenidas con estas opciones con la que se obtiene con los datos completos para ver su similaridad Algunos de los supuestos que frecuentemente se exigen en los modelos multivariantes Normalidad. El supuesto fundamental del análisis multivariante es la normalidad de los datos. Casi siempre se exige que la distribución de los datos de al menos una variable métrica sea normal. Si la variación respecto de la distribución normal es suficientemente amplia, los resultados de los test estadísticos resultantes no serán válidos. La normalidad univariante es fácil de contrastar. La norma más sencilla es mediante la comprobación visual del histograma que compare los valores de los datos observados con una distribución normal. Este método tiene dificultades en muestras pequeñas. Otra forma de comprobar mediante gráficos la normalidad de una variable consiste en realizar el gráfico de la probabilidad acumulada de la variable estudiada con los valores de la distribución acumulada bajo hipótesis de N (0,1). Si la variable estudiada fuera normal, se representaría una nube de puntos muy próximos a la diagonal principal, recta con pendiente 1. Los test estadísticos de normalidad que traen los programas estadísticos como el SPSS calculan el nivel de significación para las diferencias respecto de una distribución normal. Lo mejor es usar tanto la comparación del gráfico como test estadístico. El SPSS proporciona interesantes resultados gráficos con la opción explorar, para la normalidad univariante y también dispone de test estadísticos basados en el contraste Kolmogorov-Smirnov (corrección de Lilliefors). Los gráficos más empleados son : el histograma, el diagrama de tallo y hojas el diagrama de cajas y especialmente el q-q plot, que es una linealización de la distribución normal 34 La normalidad multivariante implica que las variables individualmente sean normales y que sus combinaciones también lo sean. La normalidad multivariante es más difícil de contrastar, aunque existen varios test para cuando la técnica multivariante exige este supuesto. Hay soluciones que iremos viendo a lo largo del curso para la no normalidad de los datos, normalmente consisten en aplicar ciertas transformaciones a los datos que les hacen acercarse a la normalidad. Homocedasticidad Es un supuesto relativo básicamente a las relaciones de dependencia entre variables. Se refiere a que las variables dependientes tengan iguales niveles de varianza a lo largo del rango del predictor de las variables. Aunque las variables dependientes deben ser métricas, este concepto de igual dispersión de la varianza también se aplica a variables no métricas. Para analizar la homogeneidad de las varianzas, se suele hacer la representación gráfica de la nube de puntos de los residuos tipificados frente a las observaciones tipificadas. Si la varianza de los residuos fuera constante, la nube de puntos estaría concentrada en una banda, centrada en el cero y paralela al eje de abcisas. Cuando la dispersión no es constante , se puede hacer una transformación en la variable que permite estabilizar la varianza. Las transformaciones que se suelen emplear son: Yp p≠0 Ln Y p = 0 T(Y) = La solución a la heterocedasticidad es similar a las que se emplean para la no normalidad, es decir transformaciones de los datos. Cuando hay sólo una variable dependiente una buena prueba para evaluar el supuesto de homocedasticidad entre grupos es el test de Levene que la ofrece el SPSS dentro del análisis de la varianza. Esta prueba la calcula según diversos procedimientos y muestra el valor del estadístico, los grados de libertad y lo que realmente nos importa el valor de la significación que habitualmente se interpreta como que con valores superiores a 0,05 se cumple el supuesto de homocedasticidad. Linealidad de las relaciones Este supuesto establece que la relación entre dos o mas variables es lineal. Es un supuesto fundamental en las técnicas que se basan en el modelo lineal general que establecen combinaciones lineales entre variables. En algunas técnicas la no-linealidad se detecta a través de los gráficos de los residuos, pero la forma mas frecuente para obtener una idea rápida sobre la linealidad entre variables es examinar los diagramas de dispersión de las parejas de variables. Se recomienda la opción matricial, al definir los diagramas de dispersión. Si el fichero tiene muchos datos se recomienda hacer antes del gráfico una selección aleatoria de casos para que la visualización sea aclaratoria. Independencia de las variables. Ausencia de errores correlacionados. En muchos análisis se exige que el valor observado en una variable para un individuo no esté influenciado por los valores de esta variable en otros individuos. Esta exigencia se le suele hacer a los residuos (diferencia entre valor observado y valor predicho por el modelo). Los residuos no deben tener ningún patrón sistemático de comportarse respecto a la secuencia de observación. EL estadístico de Durbin Watson, D, mide la autocorrelación entre el residuo de una observación con la anterior. Si su valor es cercano a 2 , los residuos no tienen autocorrelación (están incorrelados), si es cercano a 4 estarán autocorrealdos negativamente, y si se aproxima a cero estarán autocorrealdos positivamente . 35 1.11 Las técnicas multivariantes y su clasificación El Análisis Multivariante es el conjunto de métodos estadísticos cuya finalidad es analizar simultáneamente conjuntos de datos multivariantes en el sentido de que hay varias variables medidas para cada individuo ú objeto estudiado. Su razón de ser radica en un mejor entendimiento del fenómeno objeto de estudio obteniendo información que los métodos estadísticos univariantes y bivariantes son incapaces de conseguir. Las técnicas multivariantes pueden dividirse en tres grandes grupos según el papel que jueguen en el análisis las variables consideradas: 1) Métodos de dependencia 2) Métodos de interdependencia 3) Métodos estructurales Los pasos que se han de dar para realizar un análisis multivariable son: 1) Establecer los objetivos del análisis 2) Diseñar el análisis 3) Evaluar las hipótesis subyacentes a la técnica a utilizar 4) Realizar el análisis 5) Interpretar los resultados obtenidos 6) Validar dichos resultados Clasificación de las TECNICAS MULTIVARIANTES Se pueden clasificar en tres grandes grupos que se visualizan en el esquema posterior 1) Métodos de dependencia. Suponen que las variables analizadas están divididas en dos grupos: las variables dependientes y las variables independientes. El objetivo de los métodos de dependencia consiste en determinar si el conjunto de variables independientes afecta al conjunto de variables dependientes y de qué forma. 2) Métodos de interdependencia. Estos métodos no distinguen entre variables dependientes e independientes y su objetivo consiste en identificar qué variables están relacionadas, cómo lo están y por qué. 3) Métodos estructurales. Suponen que las variables están divididas en dos grupos: el de las variables dependientes y el de las independientes. El objetivo de estos métodos es analizar, 36 no sólo como las variables independientes afectan a las variables dependientes, sino también cómo están relacionadas las variables de los dos grupos entre sí. Análisis de regresión Análisis de supervivencia Dependiente MANOVA Métrica Correlación Canónica Métodos de Dependencia Dependiente No métrica Técnicas Multivariantes Datos métricos Métodos de Interdependencia Análisis Discriminante Regresión Logística Análisis Conjunto A.Componentes Principales Análisis Factorial E. Mulltidimensionales Análisis de conglomerados Datos no métricos Modelos estructurales Análisis de Conglomerados Modelos Log-lineales Escalas Multidimensionales A. de correspondencias 1. Métodos de dependencia: Se pueden clasificar en dos grandes subgrupos según que la variable (s) dependiente (s) sea (n) cuantitativas o cualitativas. Si la variable dependiente es cuantitativa algunas de las técnicas que se pueden aplicar son las siguientes: 1) Análisis de Regresión: Es la técnica adecuada si en el análisis hay una variable dependiente métrica cuyo valor depende de una o varias variables independientes métricas. Por ejemplo, intentar predecir el gasto anual en cine de una persona a partir de su nivel de ingresos, nivel educativo, sexo y edad. 2) Análisis de Supervivencia: Es similar al análisis de regresión pero con la diferencia de que la variable independiente es el tiempo de supervivencia de un individuo ú objeto. Por ejemplo, intentar predecir el tiempo de permanencia en el desempleo de un individuo a partir de su nivel de estudios y de su edad. 3) Análisis de la varianza : Se utilizan en situaciones en las que la muestra total está dividida en varios grupos basados en una o varias variables independientes no métricas y las variables dependientes analizadas son métricas. Su objetivo es averiguar si hay diferencias significativas entre dichos grupos en cuanto a las variables dependientes se refiere. Por ejemplo, ¿hay diferencias en el nivel de colesterol por sexos? ¿afecta, también, el tipo de ocupación?. 37 4) Correlación Canónica: Su objetivo es relacionar simultáneamente varias variables métricas dependientes e independientes calculando combinaciones lineales de cada conjunto de variables que maximicen la correlación existente entre los dos conjuntos de variables. Por ejemplo, analizar cómo están relacionadas el tiempo dedicado al trabajo y al ocio de una persona con su nivel de ingresos, su edad y su nivel de educación Si la variable dependiente es cualitativa algunas de las técnicas que se pueden aplicar son las siguientes: 1) Análisis Discriminante: Esta técnica proporciona reglas de clasificación óptimas de nuevas observaciones de las que se desconoce su grupo de procedencia basándose en la información proporcionada los valores que en ella toman las variables independientes. Por ejemplo, determinar los ratios financieros que mejor permiten discriminar entre empresas rentables y poco rentables. 2) Modelos de regresión logística: Son modelos de regresión en los que la variable dependiente es no métrica. Se utilizan como una alternativa al análisis discriminante cuando no hay normalidad 3) Análisis Conjunto : Es una técnica que analiza el efecto de variables independientes no métricas sobre variables métricas o no métricas. La diferencia con el Análisis de la Varianza radica en dos hechos: las variables dependientes pueden ser no métricas y los valores de las variables independientes no métricas son fijadas por el analista. En otras disciplinas se conoce con el nombre de Diseño de Experimentos. Por ejemplo, una empresa quiere diseñar un nuevo producto y para ello necesita especificar la forma del envase, su precio , el contenido por envase y su composición química. Presenta diversas composiciones de estos cuatro factores. 100 clientes proporcionan un ranking de las combinaciones que se le presentan. Se quiere determinar los valores óptimos de estos 4 factores. 2) Métodos de Interdependencia: Se pueden clasificar en dos grandes grupos según que el tipo de datos que analicen sean métricos o no métricos. Si los datos son métricos se pueden utilizar, entre otras, las siguientes técnicas: 1) Análisis Factorial y Análisis de Componentes Principales: Se utiliza para analizar interrelaciones entre un número elevado de variables métricas explicando dichas interrelaciones en términos de un número menor de variables denominadas factores (si son inobservables) o componentes principales (si son observables). Así, por ejemplo, si un analista financiero quiere determinar la cual es el estado de salud financiero de una empresa a partir del conocimiento de un número de ratios financieros, construyendo varios índices numéricos que definan su situación, el problema se resolvería mediante un Análisis de Componentes Principales. Si un psicólogo quiere determinar los factores que caracterizan la inteligencia de un individuo a partir de sus respuestas a un test de inteligencia, utilizaría para resolver este problema un Análisis Factorial. 2) Escalas Multidimensionales: Su objetivo es transformar juicios de semejanza o preferencia en distancias representadas en un espacio multidimensional. Como consecuencia se construye un mapa en el que se dibujan las posiciones de los objetos comparados de forma que aquéllos percibidos como similares están cercanos unos de otros y alejados de objetos percibidos como 38 distintos. Por ejemplo, analizar, en el mercado de refrescos, las percepciones que un grupo de consumidores tiene acerca de una lista de refrescos y marcas con el fin de estudiar qué factores subjetivos utiliza un consumidor a la hora de clasificar dichos productos. 3) Análisis Cluster: Su objetivo es clasificar una muestra de entidades (individuos o variables) en un número pequeño de grupos de forma que las observaciones pertenecientes a un grupo sean muy similares entre sí y muy disimilares del resto. A diferencia del Análisis Discriminante se desconoce el número y la composición de dichos grupos. Por ejemplo, clasificar grupos de alimentos (pescados, carnes, vegetales y leche) en función de sus valores nutritivos. 1.12 Etapas de una análisis multivariante: Pueden sintetizarse en 6: 1) Objetivos del análisis Se define el problema especificando los objetivos y las técnicas multivariantes que se van a utilizar. El investigador debe establecer el problema en términos conceptuales definiendo los conceptos y las relaciones fundamentales que se van a investigar. Se debe establecer si dichas relaciones van a ser relaciones de dependencia o de interdependencia. Con todo esto se determinan las variables a observar. 2) Diseño del análisis. Se determina el tamaño muestral, las ecuaciones a estimar (si procede), las distancias a calcular (si procede) y las técnicas de estimación a emplear. Una vez determinado todo esto se proceden a observar los datos 3) Hipótesis del análisis Se evalúan las hipótesis subyacentes a la técnica multivariante. Dichas hipótesis pueden ser de normalidad, linealidad, independencia, homocedasticidad, etc. También se debe decidir qué hacer con los "datos ausentes". 4) Realización del análisis Se estima el modelo y se evalúa el ajuste a los datos. En este paso pueden aparecer observaciones atípicas (outliers) o influyentes cuya influencia sobre las estimaciones y la bondad de ajuste se debe analizar. 5) Interpretación de los resultados Dichas interpretaciones pueden llevar a reespecificaciones adicionales de las variables o del modelo con lo cual se puede volver de nuevo a los pasos 3) y 4) 6) Validación del análisis Consiste en establecer la validez de los resultados obtenidos analizando sí los resultados obtenidos con la muestra se pueden generalizar a la población de la que procede la muestra. Para ello se puede dividir la muestra en varias partes en las que el modelo se vuelve a estimar y se compararn los resultados. Otras técnicas que se pueden utilizar aquí son las técnicas de remuestreo (jacknife y bootstrap) En el ejemplo siguiente concretamos en qué consistirían dichas etapas para un Análisis de Regresión Múltiple: 1) Objetivos del análisis 39 Predecir el gasto en cine de una persona a partir de su nivel de ingresos, nivel educativo, sexo y edad lo cual nos permitiría entender mejor cuáles son las pautas de comportamiento de la población. Para ello se propone un análisis de regresión múltiple en el que la variable dependiente sería el gasto en cine y como variables independientes el resto. 2) Diseño del análisis Se decidiría cómo elegir la muestra, el tamaño de la misma y cómo medir las variables implicadas en el análisis. El gasto en cine podría medirse como el gasto anual en cine medido en euros. El nivel de ingresos podría medirse con una variable ordinal, dadas las reticencias a dar información precisa sobre este tipo de variables; el nivel educativo sería una variable ordinal; el sexo una variable binaria y la edad una variable cuantitativa medida en años. El tamaño de la muestra se tomaría en función de la potencia que se quiera dar a la regresión múltiple. Así, por ejemplo, con un tamaño muestral de 100 observaciones se podría detectar, en una regresión múltiple lineal, las relaciones con un coeficiente de correlación múltiple (R 2) de aproximadamente igual a 0.3 con una potencia de 0.8% utilizando un nivel de significación igual a 0.01. Conviene, además, que la ratio ( razón o cociente) del número de observaciones al número de parámetros a estimar sea lo suficientemente amplio para estimar los parámetros del modelo con el menor error posible 3) Hipótesis del análisis Hay que comprobar la linealidad de la relación, la normalidad y la homocedasticidad. No hay datos ausentes (missing) y se deben estudiar la posible existencia de ouliers en cada una de las variables. 4) Realización del análisis Se puede utilizar el estimador de mínimos cuadrados del que se conoce su distribución muestral bajo hipótesis de normalidad. Dicho estimador coincide con el máximo verosimil y es eficiente. Se puede también utilizar el método de regresión paso a paso para determinar las variables independientes a incluir en la regresión. Una vez estimada la ecuación de regresión se estudia la bondad de ajuste mediante el cálculo de (R2) y el análisis de los residuos. Se estudiaría la homocedasticidad, independencia, posible omisión de variables, existencia de outliers e influencia de observaciones individuales 5) Interpretación de los resultados Se interpretaría el valor de los coeficientes obtenidos así como su signo teniendo cuidado con la posible existencia de multicolinealidad 6) Validación del análisis Se divide la muestra en dos submuestras de tamaño 50 y se vuelve a estimar la ecuación de regresión en cada submuestra comparando los resultados. 40