1º INRODUCCIÓN. Por análisis de datos se entiende toda una serie de técnicas y métodos estadísticos que, aplicados de forma global y sistemática a unos datos, permiten obtener conclusiones tanto sobre ellos mismos como sobre la población o poblaciones de la que proceden. En consecuencia, un análisis de datos comprende, tanto el estudio descriptivo de los datos como el proceso inferencial subsiguiente, mediante el cual se sacan conclusiones de la población de donde aquellos proceden, midiendo en términos de probabilidades, los posibles errores que se pudieran cometer en las inferencias realizadas. 1.1 Pasos a seguir en el análisis de datos. Existen una serie de puntos o cuestiones que conviene revisar, de forma sistemática, en todo análisis de datos. En primer lugar, es necesario establecer con toda precisión que es lo que realmente queremos hacer. Son muy frecuentes las consultan en las que se solicitan todas las cosas que se pueden hacer con los datos que allí se presentan. La determinación previa del propósito que en principio se persigue lleva a definir con precisión la población sobre la que se quieren sacar las conclusiones, la variable o variables aleatorias a analizar, las cuales representan la característica o características que se quieren estudiar en la población previamente fijada, así como la distribución de probabilidad o modelo. Además, de la población que fijemos se deberá tomar la muestra y a ella se deberán referir las conclusiones que se saquen, siendo después la observación de la variable o variables aleatorias en estudio, en los individuos de la muestra, lo que dará origen a los datos. Una vez fijada la población y la variable aleatoria en estudio como referencia teórica de la característica que se quiere analizar, el segundo paso a dar es el de elegir el método o técnica estadística a utilizar como herramienta teórica con la que conseguir el análisis perseguido. Una vez dados los dos pasos antes mencionados, el tercer paso consistirá en elegir la muestra, la cual deberá ser lo más representativa posible de la población en estudio. Lo habitual para garantizar dicha representatividad será el elegirla de forma aleatoria. El cuarto paso a dar es el de analizar si son admisibles todas las suposiciones que requiere la técnica elegida en el segundo paso. Cada técnica estadística requiere unas suposiciones específicas a dicha técnica y por tanto, no sería lógico dar una lista de suposiciones a revisar, puesto que éstas dependerán de las técnicas estadísticas más utilizadas. Me refiero a la simetría, a la normalidad y a la homocedasticidad. El quinto paso es el de aplicar la técnica elegida. Este es posiblemente el paso que tradicionalmente se realiza y sobre el que existe un mayor conocimiento. El sexto y último paso será el de sacar las conclusiones sobre la población en estudio. 2º ANÁLISIS DESCRIPTIVO DE LA VARIABLE. El objetivo de la Estadística Descriptiva es el de, dados los datos, ordenarlos, simplificarlos, resumirlos, clasificarlos, etc., determinando de esta manera un conjunto de valores que, además de proporcionar una rápida impresión de sus principales características, permitan hacer comparaciones con otros subconjuntos de datos. En la Estadística Descriptiva no se hacen suposiciones extrañas a los datos, como puede ser la de un modelo probabilístico poblacional. Se deja que los datos ‘hablen por sí solos’. 1. Análisis descriptivo de variables cualitativas en escala nominal. Las variables cualitativas son aquellas que muestran cualidades o atributos sin carácter numérico. Para aplicarles métodos estadísticos se las codifica, como por ejemplo para el sexo donde el número 1 representa a los varones y el 6 a las mujeres. Dentro de las variables cualitativas podemos encontrar distintas escalas de variables. La escala nominal da poca información y sólo puede calcularse como medida estadística la moda. Se codifica de manera que sólo se divide la información en estancos, y cada elemento pertenece a un estanco de forma exhaustiva y excluyente. Además, como representación gráfica se utilizará el diagrama de barras, mientras que la representación más apropiada es la de la distribución de frecuencias. El diagrama de barras consiste en levantar, para cada valor de la variable, una barra cuya altura sea su frecuencia absoluta, en este caso. En la tabla de frecuencias aparecen cuatro columnas que comentaremos a continuación: frequency es la frecuencia absoluta para cada categoría; percent es la frecuencia relativa, incluyendo los valores perdidos; valid percent es la frecuencia relativa, eliminando de la muestra los valores perdidos; y cumulative percent es la frecuencia relativa acumulada, eliminando los valores perdidos. Para el estudio a realizar se ha seleccionado como variable “Relación con la actividad”, donde aparecen tres estancos para los individuos de la muestra: 1 ocupados, 2 parados, 3 pensionistas, 4 rentistas y 5 otros inactivos. El análisis descriptivo que se ha obtenido es el que aparece en la hoja 1 de SPSS. Los resultados del análisis indican que en nuestra muestra no aparecen ni rentistas ni otros inactivos, aunque eso es difícil de llevar a una población total. El valor de la variable al que corresponde la máxima frecuencia es el 1, valor que se corresponde con los parados. Es una moda relativa y su frecuencia es de 60. También podemos observar por la relación entre frecuencias que por cada dos ocupados que cotizan en la Seguridad Social, en la sociedad se encuentra un pensionista. Esto nos da una idea de que la población podría ser de un país desarrollado, ya que son los que presentan una población más envejecida. 2. Análisis descriptivo de variables cualitativas en escala ordinal. La escala ordinal es aquella que añade a la característica anterior la idea de orden. No se pueden realizar operaciones aritméticas porque no hay unidad de medida, y sólo se pueden obtener como estadísticos la moda, la mediana y los cuartiles (podría obtenerse cualquier cuantil, pero en este caso se ha optado por estos). Los cuartiles son valores que dividen la distribución en cuatro partes manteniendo el 25%, 50% y 75% de los valores a la izquierda. La mediana se corresponde con el segundo cuartil e indica que se encuentran a cada lado el 50% de los individuos. Se debe señalar que en el cuadro que rellenamos para obtener estos estadísticos también aparecen los Cut points for “n” equal groups que indican los valores de la variable que dividen la muestra en grupos de casos de igual tamaño. Por defecto divide la distribución en 10 grupos iguales (deciles), aunque puede modificarse el número de grupos introduciendo otro valor entre 2 y 100. También aparece la opción Percentile(s) que permite calcular algún centil específico: para ello se debe de introducir el número de algún centil que queramos calcular y pulsar Add. Estos dos últimos estadísticos no se van a utilizar, de momento, debido a su similitud con los cuartiles. Para este análisis también se utilizarán la tabla de frecuencias y el diagrama de barras. En este estudio se ha elegido como variable “Nivel de estudios completado” siendo el correspondiente análisis descriptivo el que se detalla en la hoja 2 de SPSS. La moda está claramente representada por la categoría de orden 2, que corresponde a los individuos con estudios primarios. Esta característica defina bien a la muestra porque más de un 50% de las personas poseen estudios inferiores o equivalentes a los primarios, mientras que sólo un 25% supera el nivel de estudios de Bachillerato. Gráficamente puede observarse una clara tendencia de la distribución hacia los niveles de estudio inferiores, mostrándose asimétrica a la derecha. 3. Análisis descriptivo de variables cuantitativas continuas y discretas. Las variables cuantitativas, en contraposición a las cualitativas, son mediciones que se reflejan mediante números. Estas se pueden dividir en variables discretas que son aquellas que resultan de un proceso de contar y, por tanto, solamente van a tomar valores enteros, y en variables continuas que resultan de un proceso de medir. En este caso puede contener decimales, y aparece toda la gama de números reales. En el caso de las variables discretas, en un intervalo aparecerá un número finito de ellas, mientras que en las continuas podrán aparecer infinitos valores. Para las variables que se pueden cuantificar existe una mayor variedad de medidas a aplicar, además de la moda, mediana y cuantiles ya utilizados. Como medida de tendencia central se buscará también la media, que corresponde a la suma de todos los valores de la distribución entre el número total de datos. Las variables de dispersión aplicadas serán la varianza, que es la media aritmética de las desviaciones que presenta los valores de la variable respecto a la media aritmética, la desviación típica, que es la raíz cuadrada de la varianza, y el recorrido, que es la diferencia entre el mayor valor y el menor de la distribución. Otras medidas son los índices de distribución, donde aparecen el coeficiente de asimetría y el de curtosis, utilizando respectivamente el coeficiente de asimetría de Fisher y el coeficiente de apuntamiento. En el caso de que las variables, continuas o discretas, tomen un número elevado de valores se utilizarán los histogramas de frecuencias, y dejarán de ser útiles las tablas de frecuencias. Un histograma de frecuencias realiza una agrupación de los valores en intervalos. Si se quiere representar una tabla de frecuencias para estos intervalos, se debe reconvertir previamente la variable original en intervalos eligiendo en el menú la opción Transform, luego Recode y finalmente Into Different Variables. El análisis en este caso se aplicará en este caso a dos variables continuas como son “Gasto total por hogar” e “Ingreso total por hogar”, que serán las que seguirán utilizándose en el resto del estudio estadístico. Los resultados son los que se muestran en las hojas 3 y 4. En el caso del Gasto Total por Hogar, vemos que es una gráfica leptocúrtica, cosa que también se observa en su coeficiente de curtosis que es menor que la unidad. Por otro lado, es una cursa asimétrica a derechas, que indica que el gasto por familia de nuestra muestra tiende a ser bajo, superando en ocasiones puntuales los cinco millones, lo que hace que se desplace la gráfica. La media del gasto por hogar está por debajo de los tres millones, pero con una dispersión que se sitúa entorno al millón y medio de unidades monetarias. Por último, se ve mediante los percentiles que más del 75% de las familias gastan menos de cuatro millones al año, pero que algunas alcanzan hasta los ocho. Desde el punto de vista de los Ingresos Totales por Hogar, la situación es algo distinta ya que la curva es mesocúrtica con un coeficiente cercano a dos. Se destaca como moda de ingreso en la muestra el de un millón y medio anual, aunque la media está en algo más de dos millones y medio. Esta media es menos representativa que la anterior, dado que la desviación típica es mayor con respecto a una media más pequeña. Un rasgo que comparte con la anterior es su asimetría a la derecha, algo lógico, ya que si la mayoría de las familias ingresan poco, gastarán también poco, pero si hay una minoría que recibe mayores rentas, también tendrá un nivel de gasto mayor. Para los ingresos el 75% de las familias seleccionadas ingresan menos de tres millones cuatro cientas mil pesetas (tomando ésta como unidad monetaria). 4. Análisis exploratorio. El procedimiento Explore de SPSS ofrece una serie de opciones para representar gráficamente los datos, examinar visualmente las distribuciones de valores para varios grupos de datos, y realizar pruebas de normalidad y homogeneidad de los datos. El análisis exploratorio previo es útil para: Detectar errores en los datos. Observar la distribución de los datos, y determinar cuál puede ser la razón de que se produzcan determinados comportamientos en los datos: ¿existe algún rango de datos vacío?, ¿Hay valores extremos?, ¿presentan los datos un patrón extraño?, ¿existe una variabilidad inesperada de los datos?. Preparar las pruebas de contraste de hipótesis: La distribución de los valores en las variables puede determinar el tipo de análisis posterior más apropiado para los datos. Puede incluso que se deban transformar para prepararlos para un determinado análisis. Las representaciones gráficas juegan un papel destacado en el análisis de datos, ya que la visualización de éstos permite descubrir modelos de forma más clara, analizar si existen simetrías o concentraciones de datos, así como detectar posibles valores que pudieran ser considerados como anómalos. Entre las representaciones gráficas destaca una cada vez más utilizada que se denomina diagrama de tallo y hoja. Este sirve para representar más distribuciones de frecuencias de datos cuantitativos sin agrupar. Los diagramas de tallo y hojas suelen representarse en situaciones intermedias entre los histogramas y los diagramas de barras, siendo además representaciones más informativas que los histogramas ya que conservan en ella los dígitos, lo cual permite identificar rápidamente las observaciones. Un diagrama de tallo y hojas, en esencia, no es más que un histograma en el que, para cada dato, la base o tallo es el primer dígito y la hoja el segundo, de cuya representación conjunta se obtiene la altura correspondiente a cada base. La composición en el gráfico de tallo y hojas variará en función de las unidades en que esté medida la variable, el rango, etc. En la parte inferior del gráfico se explica como debe interpretarse cada valor de tallo ( por qué factor se debe multiplicar para obtener el valor en las unidades reales) y cuantos casos hay incluidos en cada valor de hoja ( en muestras muy grandes cada valor puede representar dos o más casos de la muestra). La primera y la última fila del diagrama de tallo y hojas se utilizan para representar casos extremos (muy alejados del resto), si existen. Se pueden identificar los casos que se corresponden con los valores extremos, generando una tabla que muestre los casos con los valores más pequeños y más grandes. El gráfico o diagrama de cajas es una forma sencilla de representar una distribución de frecuencias. Este tipo de gráficos es otro modo de resumir la distribución de los valores de una variable. En vez de visualizar los valores individuales, se representan estadísticos básicos de la distribución: la mediana, el centil 25, el centil 75 y los valores extremos de la distribución. Consiste en representar una línea (y de menor a mayor) el mínimo, el primer cuartil, la mediana, el tercer cuartil y el máximo, dibujando sobre ella una caja con límites el primer y tercer cuartil, dividida en dos por un segmento que pasa por la mediana. Se consideran dos categorías de casos extremos, en función de cuanto se alejan con respecto al 50% central de la distribución. Aquellos valores alejados más de tres veces el rango intercuartil desde el extremo superior o inferior de la caja (casos más extremos, representados con un “*”) y aquellos valores que están alejados entre 1’5 y tres veces dicho rango (representados con un círculo). Los valores más pequeños y más grandes que estén dentro de los límites primer cuartil menos 1’5 y tercer cuartil más 1´5 veces el rango intercuartílico constituyen los whiskers del gráfico y aparecen representados mediante las dos líneas horizontales dibujadas a ambos extremos de la caja central. A estas líneas se las denomina bigotes. Los gráficos de caja son especialmente útiles para comparar la distribución de los valores entre diferentes grupos. Para realizar el análisis exploratorio con el archivo de SPSS seleccionado, tomamos como variables “Gastos Totales Hogar” e “Ingresos Totales Hogar”, y marcaremos los valores atípicos o extraños según la “Relación con la actividad”. Los análisis aparecen en las hojas 5 y 6 de SPSS. Los resultados para los Gastos Totales por Hogar muestran por el diagrama de tallo y hojas que el intervalo de gasto más representado es el de dos millones, aunque aparecen con importantes frecuencias absolutas los tallos de uno, dos, tres y cuatro millones. Aparecen dos resultados extremos que luego se clasifican en el diagrama de caja. El ancho del tallo es de un millón, y debido el bajo número de casos, cada hoja está representando a uno de ellos. Respecto a la simetría podría decirse que es asimétrica a derechas, aunque si no fuese por esos valores extremos se podría apreciar una mayor simetría. En el diagrama de caja se observa que los dos valores que presentan un gasto mayor, y atípico, pertenecen a un pensionista y a un ocupado. En el caso del pensionista podría suceder, por ejemplo, que sufriese alguna enfermedad que le causase unos gastos excesivos, o que percibiese importantes ingresos que le permitiesen gastar por encima de lo que en este caso sería normal. Se observa que la mediana está más próxima al límite inferior por lo que la simetría se confirma positiva, pero esa proximidad es muy pequeña. Sin embargo, podría comentarse que la caja está más próxima del bigote inferior lo que, como se decía en el análisis estadístico, indica una mayor concentración en niveles de gasto menores. Finalmente, en el cuadro de estadísticos de la hoja 5 se debería destacar una nueva medida que es la media recortada al 5%, es decir, una media aritmética que ignora el 5% de los valores máximos (donde estarían nuestros extremos) y el 5% de los valores mínimos. Esa media es algo menor que la media aritmética antes calculada, ya que está sufría una distorsión al alza debido a los valores por encima del máximo. En cuanto a Ingreso Total por Hogar, la media recortada antes mencionada en esta caso también es menor que la media simple, debido a que la simetría a derechas era producida por valores grandes. Según el diagrama de tallo y hojas, los intervalos más frecuentes respecto al Ingreso Total son los de uno y dos millones, con frecuencias absolutas entorno a treinta casos. Pero ahora aparecen más valores extremos, un total de cinco, que también producirán asimetría en la distribución. Al igual que ocurría con el gasto, el ancho del tallo es de un millón y cada hoja representa a un solo caso. Cuando recurrimos al diagrama de caja, se observa que el ancho de la caja da una idea de la variabilidad de las observaciones. Como la mediana no está en el centro deduzco que es asimétrica, y dada su proximidad al límite inferior de la caja, la asimetría es positiva. Los valores que llamábamos extremos cuando nos eran desconocidos, descubrimos que sólo son atípicos, es decir, que no están a más de tres veces el recorrido intercuartílico. Dichos valores son identificados como dos pensionistas y un ocupado, los más próximos al bigote superior, y los más alejados como un ocupado y otro pensionista. Esto nos indica que, existen en la sociedad pensiones muy altas, aunque son una minoría, que incluso superan, y con mucho, las rentas percibidas por muchos asalariados. Pero además, también hay algunos ocupados que perciben rentas elevadas. Desde luego, y como era de esperar, entre estos individuos de altos ingresos no aparece ningún parado. Otro punto de vista desde el que se va a realizar el análisis exploratorio es separando los ingresos según el nivel de estudios de sus preceptores, para comprobar si existe alguna relación entre la educación y el nivel económico. Este otro estudio aparece en la hoja 7 de SPSS. De el diagrama de tallo y hojas podría decirse que existen como tallos de mayor frecuencia los que cubren los intervalos entre 1,5 y 2 millones, y también entre 2,5 y 3 millones; mientras, en los ingresos obtenidos por mujeres, el tallo de mayor frecuencia absoluta es el de un millón. Puede decirse que existiría una cierta diferencia entre ambos segmentos, dándose además la peculiaridad en el caso de ingresos masculinos de que existen cinco valores extremos que perciben más de seis millones. Por el diagrama de caja se observa en primer lugar una mayor dispersión en las mujeres que en los hombres, ya que su caja es más amplia. La concentración en los ingresos femeninos se da junto a la base inferior, lo que nos indica una asimetría a la derecha, dado que sus ingresos son menores. Sin embargo, la caja de los ingresos de varones, es prácticamente simétrica. Se han clasificado los valores extremos por su nivel de estudios, donde tan solo aparece un universitario. Puede estipularse que, en relación a los valores extremos que se habían obtenido de jubilados, esos puntos pertenezcan a personas que no pudieron estudiar pero que por sus años de cotización estén percibiendo rentas altas. 5. Análisis descriptivo de normalidad. Muchas técnicas estadísticas requieren que la variable o variables aleatorias de estudio sigan una distribución normal. Por otro lado, como la distribución normal es simétrica, el estudio de la posible normalidad de los datos deberá venir precedido de un análisis de simetría. El análisis de normalidad trata de averiguar si los datos pueden proceder de una población normal. Si seleccionamos la opción Normality plots with test aparecerá sobre nuestra gráfica una recta con los valores correspondientes a una distribución normal teórica, y unos puntos que corresponden a las diferentes puntuaciones de los sujetos de la distribución empírica. Si los puntos están próximos a la recta, el ajuste es aceptable y al revés, cuanto más se alejen éstos de la misma. Luego aparece otro gráfico en el que se recogen las desviaciones de los sujetos respecto a la recta. Si la muestra proviene de una población normal, los puntos deben fluctuar alrededor de “0” y sin seguir un patrón determinado. En caso contrario pueden alejarse de la normalidad. Aunque estas dos representaciones gráficas pueden dar una idea aproximada del ajuste o no de los datos a una distribución normal, es siempre deseable llevar a cabo una prueba analítica a través del Test de Kolmogorov – Smirnov. Existen otras técnicas para el análisis de normalidad que pueden, además, clasificarse en dos grandes grupos: Gráfica, las cuales son fáciles e intuitivas, e inferenciales, las cuales están basadas en algún estadístico y su distribución. Gráfico de normalidad: al igual que ocurre en el gráfico de asimetría, el gráfico de normalidad permite analizar, en este caso la normalidad, de forma rápida y sencilla. Test basado en el coeficiente de curtosis: al igual que el coeficiente de asimetría g1 proporciona un valor numérico fácilmente interpretable en términos de simetría de los datos, el coeficiente de curtosis Mide si los datos (y en consecuencia la distribución de la que proceden) tienen colas menores que la normal (k>0), mayores que la normal (k<0) o aproximadamente normales (k ≈ 0). Una distribución simétrica con curtosis aproximadamente cero puede ser calificada de normal. La determinación de si la diferencia con cero de este coeficiente puede ser calificada de falta de simetría o debida al azar, debe ser de nuevo analizada mediante una distribución en el muestreo. Si tenemos suficientes datos – unos 200 – se verifica que k se distribuye aproximadamente como una normal de media cero y desviación típica √24/n, por lo que considerando la hipótesis nula Ho de normalidad de la distribución frente a la alternativa H1, de falta de normalidad del modelo, fijado un nivel de significación α, Se acepta Ho si Se rechaza Ho si Se han realizado los análisis pertinentes con las variables “Gasto Total Hogar” e “Ingreso Total Hogar”. Para el primer análisis del que hemos hablado, el cual hacía referencia a la opción Normality plots with test, los resultados aparecen en las hojas 8 y 9, gastos e ingresos respectivamente, y se comentarán a continuación. El contraste de Kolmogorov-Smirnov es alternativo al de la Chi-cuadrado, y requiere para su realización que la distribución del modelo de la variable aleatoria en observación sea continua. En este caso, tanto los ingresos como los gastos se pueden considerar como variables continuas. Está basado en la denominada función de distribución empírica o muestral, F*n(x), la cual se define, para unos valores muestrales fijos x1,...,xn, como la función de x F*n(x) = (nº de xi menores o iguales que x)/ n Como observamos en el gráfico del ajuste para el Gasto Total por Hogar, no hay prácticamente bondad de ajuste al verdadero valor de una normal, ya que la bondad del mismo es de un 20%. Pero si recurrimos al gráfico observaremos que la gran mayoría de valores de la realidad que se alejan de la normal están en los extremos. En el cuadro inferior se comprueba como estos valores se desvían del valor cero, llegando algunos a valores cercanos y superiores a la unidad. Por esto, podría decirse del comportamiento del Gasto por familia que no sigue una distribución normal. Para comprobar la normalidad respecto a los Ingresos Totales se recurre de nuevo a la bondad respecto al verdadero significado, observando que ésta es todavía menor que para el caso anterior, situándose entorno del 0’1%. Gráficamente se comprueba porque existe un mayor número de valores que se alejan de la línea teórica de la distribución normal. Si recurrimos a la gráfica de desviación de la normal, comprobamos que son muchos los valores que superan el valor cero, llegando casi al punto y medio de distancia. Con lo cual, es este caso también se concluirá que los ingresos por familia varían mucho de la normal. Para realizar el estudio de la normalidad según su asimetría y su curtosis, en primer lugar deben realizarse las correspondientes estandarizaciones de gastos e ingresos. Cuando se han convertido las distribuciones empíricas en normales con media cero y desviación típica uno, se lleva acabo el estudio de su simetría y su apuntamiento, en comparación con los datos de una normal. Las variables han sido las mismas, y los resultados de SPSS están en las hojas 10 y 11. Para el caso del gasto, los dos coeficientes son bastante elevados, siendo algo más de 0’7, por lo que podría decirse que es una curva más apuntada que la normal (la mayoría de las barras pasan por encima de la curva) y que es, además, asimétrica a la derecha dada su excesiva concentración de valores inferiores a cero, y a que aparecen algunos valores extremos. Si se presta atención a los cuartiles observamos que la mediana o cuartil segundo, es ligeramente inferior a cero, con lo que se ratifica la simetría mencionada. Pero también se comprueba porque el decil 25 está separado del 50 por aproximadamente 0’64, mientras que el 75 se presenta una diferencia superior de 0’76. Esto indica una mayor dispersión de aquellos valores que se encuentran a la derecha del cero. En cuanto a los ingresos de los individuos de la muestra, los coeficientes de simetría y curtosis son superiores a la unidad. Estos indican en primer lugar, que en esta distribución la asimetría a derechas es mayor que en el gráfico anterior, que esta curva es leptocúrtica respecto a la distribución normal y que también es más apuntada que en el caso de los gastos totales. La mediana se aleja más del valor cero, y existe una distancia menor entre el decil 25 y la mediana y ésta y el decil 75. Pero además, que la diferencia entre estas distancias es mayor por los comentarios ya hechos sobre asimetría. Frequencies Statistics RELACION CON ACTIVIDAD N Valid 93 Mis sing 0 Mode 1 RELACION CON ACTIVIDAD Frequency Valid OCUPADOS Percent Valid Percent 60 64,5 64,5 64,5 6 6,5 6,5 71,0 PENSIONISTAS 27 29,0 29,0 100,0 Total 93 100,0 100,0 PARADOS RELACION CON ACTIVIDAD 70 60 50 40 30 20 Fre q u e n cy Cumulative Percent 10 0 OCUPADOS RELA CION CON A CTIV IDA D PARADOS PENSIONISTAS Frequencies Statistics NIVEL ESTUDIOS COMPLETADO N Valid 93 Missing 0 Median 2,00 Mode 2 Percentiles 25 2,00 50 2,00 75 4,00 NIVEL ESTUDIOS COMPLETADO Valid Frequency 3 Percent 3,2 Valid Percent 3,2 Cumulative Percent 3,2 8 8,6 8,6 11,8 PRIMARIOS 40 43,0 43,0 54,8 EGB O EQUIV. 12 12,9 12,9 67,7 BUP 8 8,6 8,6 76,3 COU 2 2,2 2,2 78,5 FP1 2 2,2 2,2 80,6 FP2 6 6,5 6,5 87,1 CARRERA TECNICA 2 2,2 2,2 89,2 100,0 ANALFABETO SIN ESTUDIOS CARRERA SUPERIOR 10 10,8 10,8 Total 93 100,0 100,0 NIVEL ESTUDIOS COMPLETADO 50 40 30 10 C A U R A IO IC NIV EL ESTUDIOS COMPLETA DO R N E C P 2 1 TE S A FP AB FP LF ER A ER R R R R A A C IN N 0 U . O V C UI Q E O P B U G B E S IO R S A IO IM D R P TU ES TO E S A Fre q u e n cy 20 Frequencies Statistics GASTO TOTAL HOGAR N Valid Missing 93 0 Mean 2969072 Median 2808988 364580a Mode Std. Deviation 1496923 Variance 2,2E+12 Skewness ,703 Std. Error of Skewness ,250 Kurtos is ,779 Std. Error of Kurtosis ,495 Range 7736089 Minimum 364580 Maximum 8100669 Percentiles 25 1848040 50 2808988 75 3952794 a. Multiple modes exist. The smallest value is shown GASTO TOTAL HOGAR 14 12 10 8 4 Std. Dev = 1496923 2 0 Mean = 2969071,6 N = 93,00 0 0, 00 0 0 0, 0 80 00 0 0 0, 0 75 00 0 0 0, 0 70 00 0 0 0, 0 65 00 0 0 0, 0 60 00 0 0 0, 0 55 00 0 0 0, 0 50 00 0 0 0, 0 45 00 0 0 0, 0 40 00 0 0 0, 0 35 00 0 0 0, 0 30 00 0 0 0, 0 25 00 0 0 0, 0 20 00 0 0 0, 0 15 00 00 0 10 00, 00 50 Fre q u e n cy 6 GA STO TOTA L HOGA R Frequencies Statistics INGRESO TOTAL HOGAR N Valid Missing 93 0 Mean 2641440 Median 2432124 282504a Mode Std. Deviation 1522151 Variance 2,3E+12 Skewness 1,244 Std. Error of Skewness ,250 Kurtos is 1,838 Std. Error of Kurtosis ,495 Range 7612629 Minimum 282504 Maximum 7895133 Percentiles 25 1555795 50 2432124 75 3333132 a. Multiple modes exist. The smallest value is shown INGRESO TOTAL HOGAR 30 20 Std. Dev = 1522151 Mean = 2641439,9 0 N = 93,00 0 0, 00 0 0 0, 0 80 00 0 0 0, 0 75 00 0 0 0, 0 70 00 0 0 0, 0 65 00 0 0 0, 0 60 00 0 0 0, 0 55 00 0 0 0, 0 50 00 0 0 0, 0 45 00 0 0 0, 0 40 00 0 0 0, 0 35 00 0 0 0, 0 30 00 0 0 0, 0 25 00 0 0 0, 0 20 00 0 0 0, 0 15 00 00 0 10 00, 00 50 Fre q u e n cy 10 INGRESO TOTAL HOGA R Explore Case Processing Summary Cases Valid N GASTO TOTAL HOGAR Missing Percent 93 N 100,0% Total Percent 0 N ,0% Percent 93 100,0% Descriptives Statistic GASTO TOTAL HOGAR Mean 95% Confidence Interval for Mean 2969072 Lower Bound Upper Bound 2899959 2808988 Variance 2,2E+12 Std. Deviation 1496923 Minimum 364580 Maximum 8100669 Range 7736089 Interquartile Range 2104754 Skewness ,703 ,250 Kurtos is ,779 ,495 GASTO TOTAL HOGAR Stem-and-Leaf Plot 5,00 0 20,00 1 25,00 2 21,00 3 17,00 4 2,00 5 1,00 6 2,00 Extremes Stem width: Each leaf: . . . . . . . 3277359 Median GASTO TOTAL HOGAR Stem & 2660784 5% Trimmed Mean “DIAGRAMA DE TALLO Y HOJAS” Frequency Std. Error 155223,68 Leaf 34668 00011123344455777888 0000012222333444456678889 000011225555777788899 01334455566678889 16 2 (>=7374120) 1000000 1 case(s) “DIAGRAMA DE CAJA” 10000000 PENSIO NISTAS 8000000 O CUPADOS 6000000 4000000 2000000 0 -2000000 N= 93 GASTO TOTAL HOGAR Explore Case Processing Summary Cases Valid N INGRESO TOTAL HOGAR Mis sing Percent 93 N 100,0% Total Percent 0 N ,0% Percent 93 100,0% Descriptives Statistic INGRESO TOTAL HOGAR Mean 95% Confidence Interval for Mean 2641440 Lower Bound Upper Bound 2528569 2432124 Variance 2,3E+12 Std. Deviation 1522151 Minimum 282504 Maximum 7895133 Range 7612629 Interquartile Range 1777337 Skewness 1,244 ,250 Kurtos is 1,838 ,495 INGRESO TOTAL HOGAR Stem-and-Leaf Plot 7,00 0 29,00 1 30,00 2 12,00 3 8,00 4 2,00 5 5,00 Extremes Stem width: Each leaf: . . . . . . 2954923 Median INGRESO TOTAL HOGAR Stem & 2327957 5% Trimmed Mean “DIAGRAMA DE TALLO Y HOJAS” Frequency Std. Error 157839,73 Leaf 2445679 00122223334445555556666667899 000111123344445556667788888999 122334455567 03444489 08 (>=6015992) 1000000 1 case(s) “DIAGRAMA DE CAJA” 10000000 8000000 O CUPADOS PENSIO NISTAS PENSIO NISTAS O CUPADOS PENSIO NISTAS 6000000 4000000 2000000 0 -2000000 N= 93 INGRESO TOTAL HOGAR Explore SEXO DEL S.P. Case Processing Summary Cases Valid INGRESO TOTAL HOGAR SEXO DEL S.P. VARON MUJER Missing N Percent N Total Percent N Percent 77 100,0% 0 ,0% 77 100,0% 16 100,0% 0 ,0% 16 100,0% Descriptives INGRESO TOTAL HOGAR SEXO DEL S.P. VARON 95% Confidence Interval for Mean MUJER Statistic 2718532 Mean Lower Bound Upper Bound Std. Error 171470,75 2377018 3060045 5% Trimmed Mean 2604640 Median 2485869 Variance 2,3E+12 Std. Deviation 1504650 Minimum 282504 Maximum 7895133 Range 7612629 Interquartile Range 1690132 Skewnes s 1,348 ,274 Kurtosis 2,353 ,541 2270435 400193,45 Mean 95% Confidence Interval for Mean Lower Bound Upper Bound 1417443 3123427 5% Trimmed Mean 2171364 Median 1636087 Variance 2,6E+12 Std. Deviation 1600774 Minimum 499050 Maximum 5825106 Range 5326056 Interquartile Range 2341119 Skewnes s Kurtosis 1,090 ,564 ,210 1,091 “DIAGRAMA DE TALLO Y HOJAS INGRESO TOTAL HOGAR Stem-and-Leaf Plots INGRESO TOTAL HOGAR Stem-and-Leaf Plot for SXSP= VARON Frequency Stem & 2,00 0 3,00 0 8,00 1 14,00 1 12,00 2 15,00 2 7,00 3 4,00 3 5,00 4 2,00 4 5,00 Extremes Stem width: Each leaf: . . . . . . . . . . Leaf 24 569 22233444 55555666667899 001111233444 555666778888899 1223344 5567 34444 89 (>=6015992) 1000000 1 case(s) INGRESO TOTAL HOGAR Stem-and-Leaf Plot for SXSP= MUJER Frequency 2,00 7,00 3,00 1,00 1,00 2,00 Stem width: Each leaf: Stem & 0 1 2 3 4 5 . . . . . . Leaf 47 0012356 049 5 0 08 1000000 1 case(s) “DIAGRAMA DE CAJA” 10000000 8000000 BUP PRIMARIOS CARRERA T ECNICA EG B O EQUIV. PRIMARIOS 6000000 4000000 2000000 0 -2000000 N= 77 VARON SEXO DEL S.P. 16 MUJER Explore Case Processing Summary Cases Valid N GASTO TOTAL HOGAR Missing Percent 93 N 100,0% Total Percent 0 N ,0% Percent 93 100,0% Descriptives Statistic GASTO TOTAL HOGAR Mean 2969072 95% Confidence Interval for Mean Lower Bound Std. Error 155223,68 2660784 Upper Bound 3277359 5% Trimmed Mean 2899959 Median 2808988 Variance 2,2E+12 Std. Deviation 1496923 Minimum 364580 Maximum 8100669 Range 7736089 Interquartile Range 2104754 Skewness ,703 ,250 Kurtos is ,779 ,495 “TEST DE Kolmogorov – Smirnov” Tests of Normality Kolmogorov-Smirnov Statistic GASTO TOTAL HOGAR ,079 *. This is a lower bound of the true significance. a. Lilliefors Significance Correction df a Sig. 93 ,200* GASTO TOTAL HOGAR “ANÁLISIS DE NORMALIDAD” Normal Q-Q Plot of GASTO TOTAL HOGAR 3 2 1 E xp e cte d N o r m a l 0 -1 -2 -3 -2000000 0 2000000 4000000 6000000 8000000 10000000 Observed V alue Detrended Normal Q-Q Plot of GASTO TOTAL HOGAR 1,2 1,0 ,8 ,6 D e v fr o m N o r m a l ,4 ,2 0,0 -,2 -,4 0 2000000 Observed V alue 4000000 6000000 8000000 10000000 Explore Case Processing Summary Cases Valid N INGRESO TOTAL HOGAR Mis sing Percent 93 N 100,0% Total Percent 0 N ,0% Percent 93 100,0% Descriptives Statistic INGRESO TOTAL HOGAR Mean 2641440 95% Confidence Interval for Mean Lower Bound Std. Error 157839,73 2327957 Upper Bound 2954923 5% Trimmed Mean 2528569 Median 2432124 Variance 2,3E+12 Std. Deviation 1522151 Minimum 282504 Maximum 7895133 Range 7612629 Interquartile Range 1777337 Skewness 1,244 ,250 Kurtos is 1,838 ,495 “TEST DE Kolmogorov – Smirnov” Tests of Normality Kolmogorov-Smirnov Statistic INGRESO TOTAL HOGAR a. Lilliefors Significance Correction ,130 df a Sig. 93 ,001 INGRESO TOTAL HOGAR “ANÁLISIS DE NORMALIDAD” Normal Q-Q Plot of INGRESO TOTAL HOGAR 3 2 1 E xp e cte d N o r m a l 0 -1 -2 -3 -2000000 0 2000000 4000000 6000000 8000000 Observed V alue Detrended Normal Q-Q Plot of INGRESO TOTAL HOGAR 1,5 1,0 D e v fr o m N o r m a l ,5 0,0 -,5 0 2000000 Observed V alue 4000000 6000000 8000000 Descriptives Descriptive Statistics N Minimum Maximum Mean Statistic Statistic Statistic Statistic GASTO TOTAL HOGAR 93 Valid N (lis twise) 93 364580 8100669 2969072 Std. Deviation Statistic Skewnes s Statistic 1496923 Std. Error ,703 Frequencies Statistics Zscore: GASTO TOTAL HOGAR N Valid 93 Missing Percentiles 0 25 -,7488910 50 -,1069418 75 ,6571627 “ANÁLISIS DE NORMALIDAD” Zscore: GASTO TOTAL HOGAR 12 10 8 6 Fre q u e n cy 4 Std. Dev = 1,00 2 Mean = 0,00 N = 93,00 0 25 3, 75 2, 25 2, 75 1, 25 1, 5 ,7 5 5 ,2 -, 2 5 25 75 -, 7 , -1 , -1 Zscore: GA STO TOTAL HOGA R Kurtosis ,250 Statistic ,779 Std. Error ,495 Descriptives Descriptive Statistics N Minimum Maximum Mean Statistic Statistic Statistic Statistic INGRESO TOTAL HOGAR 93 Valid N (lis twise) 93 282504 7895133 Std. Deviation Statistic 2641440 1522151 Frequencies Statistics Zscore: INGRESO TOTAL HOGAR N Valid 93 Missing Percentiles 0 25 -,7132306 50 -,1375132 75 ,4544172 “ANÁLISIS DE NORMALIDAD” Zscore: INGRESO TOTAL HOGAR 16 14 12 10 8 Fre q u e n cy 6 4 Std. Dev = 1,00 2 Mean = 0,00 N = 93,00 0 50 3, 00 3, 50 2, 00 2, 50 1, 00 1, 0 ,5 00 0, 0 00 50 -, 5 , -1 , -1 Zscore: INGRESO TOTA L HOGA R Skewnes s Statistic 1,244 Kurtosis Std. Error ,250 Statistic 1,838 Std. Error ,495 3º INFERENCIA PARAMÉTRICA. El propósito de la inferencia estadística es el de obtener conclusiones de la población en estudio sobre la base de la muestra obtenida de ella. Las técnicas de la inferencia estadística requieren de suposiciones ajenas a los datos (simetría de la distribución del modelo, población normal, etc.). 1. Estimación por intervalos de la esperanza poblacional. Se puede conocer la familia o distribución de nuestra variable o, si no se conoce, se puede suponer. Como hemos tipificado nuestras variables de estudio, tanto Gastos Totales como Ingresos Totales, se suponen normales: Además, otro supuesto es que su esperanza y su varianza son desconocidas para, de este modo, aplicar sobre ellas la inferencia. El análisis inferencial trata de buscar valores estimados para determinados parámetros, pudiendo hacerlo de forma puntual o por intervalos. La estimación puntual no da una medida de la bondad de la estimación, y es este caso sólo nos podemos basar en las características del estimador y en el tamaño de la muestra. La estimación por intervalos es más precisa, y da un conjunto de valores (intervalo) dentro del campo de variación del parámetro. El procedimiento a seguir será: Fijar el nivel de confianza (1 – ε ). Construir un intervalo en el que P[θ є (a, b)] = 1 – ε. Como estimador de la esperanza poblacional se suele utilizar la media muestral. Se debe buscar una expresión pivotal que dependa de la muestra y del parámetro desconocido, pero su distribución de probabilidad no va a depender del parámetro. T (X; θ) siendo X una muestra aleatoria simple de tamaño n con x f (x, θ). Para el cálculo del intervalo de confianza se considerará el siguiente estadístico que se utilizará como expresión pivotal, cuya distribución de la muestra será la siguiente: Con un nivel de confianza fijo, y a partir del pivote, se calcula la probabilidad de que ese esté entre K1 y K2 (intervalo) que será igual al nivel de confianza. P[K1 ≤ T (X; θ) ≤ K2] = 1 – ε La expresión del intervalo para un nivel de confianza de (1 – α)% es la siguiente: La amplitud del intervalo va a depender de tres factores importantes: a mayor nivel de confianza exigido, el intervalo tendrá una mayor amplitud; cuanto más dispersa sea la variable, también el intervalo es mayor; y a mayor tamaño de la muestra, ocurre lo mismo. Para nuestro análisis los resultados aparecen en las hojas de SPSS 12 y 13. Se ha decido buscar dos intervalos, uno al 95% y el otro al 68%, de tal forma que se pueda ver como varía dicho intervalo. Para los gastos el intervalo de confianza al 95% tiene una amplitud de 0’4118952 (recordemos que se ha hecho con la variable tipificada), mientras que para el 68% es sólo de 0’2073616, menos de la mitad. Esto se debe a que al exigir una mayor precisión, el intervalo debe ser mayor para así asegurarse de que la media poblacional estará en el intervalo el 95% de las veces. Con los ingresos ocurre exactamente lo mismo, y los intervalos son los mismos. 2. Contraste de significación para la media muestral. Mediante la observación de la muestra se decide si el valor dado al parámetro en la hipótesis es coherente o no. Las técnicas que se estudian están encaminadas a obtener un criterio de decisión. Las hipótesis que se realizan en este caso son sobre parámetros, aunque también existen de otros tipos como comentaremos más adelante. El criterio de decisión nos dice si la hipótesis es cierta o no. El criterio de decisión divide el espacio muestral en dos espacios disjuntos: zona o región crítica y zona o región de aceptación. De forma que si la muestra, después de tomar un criterio de decisión, cae en la zona crítica se rechaza la hipótesis nula (o dada), porque la zona crítica recoge todas aquellas muestras que no son coherentes con dicha hipótesis nula. Los contrastes pueden ser de dos tipos: Paramétricos: cuando se conoce la distribución de probabilidad condicional. Se plantean hipótesis referentes a los parámetros. No paramétricos: se desconoce la distribución poblacional o no se necesita conocerla. También se llaman contrastes de distribución libre. Los contrastes son más amplios, y las hipótesis, normalmente, hacen referencia al tipo de distribución aunque también puede referirse a valores de parámetros. Los tipos de hipótesis son los siguientes: Hipótesis nula: es la hipótesis que se cree que es cierta. Es la más estable por lo que se necesitará mucha evidencia para rechazarla. (Ho). Hipótesis alternativa: es la otra hipótesis o hipótesis que quiere desplazar a la hipótesis nula. Se denota como HA o H1. Otra clasificación para las hipótesis pero sólo para contrastes paramétricos es: Hipótesis simple: cuando la hipótesis nos dice que el parámetro desconocido es igual a un único valor. Hipótesis compuesta: cuando hace referencia a más de un valor del parámetro desconocido. Las simples determinan perfectamente la distribución, mientras que con las compuestas tengo la distribución poco definida. Los diferentes tipos de errores del contrastre de hipótesis son: Error de tipo I: Se rechaza la hipótesis nula cuando es cierta; es un error muy grave. Error de tipo II: Se rechaza la hipótesis alternativa cuando es cierta; es poco grave porque supone que se ha tomado una muestra ‘rara’. Supongo que tengo una muestra aleatoria simple X1,..., Xn procedente de una población N(μ,σ) y que quiero contrastar hipótesis relativas a la media de la población, μ. En primer lugar se considera el caso de “igual” frente a “distinta”, es decir el caso en que se quiere contrastar si puede admitirse para la media poblacional un determinado valor μo o no. Ho : μ = μo H1 : μ ≠ μo En este caso la región de aceptación se corresponde con el intervalo de confianza: Aceptándose Ho cuando y sólo cuando ésta pertenezca al intervalo de confianza. Con lo que puede concluirse que el test óptimo en esta situación es cuando: Se acepta Ho si: Se rechaza Ho si: Supuestos: La distribución poblacional es normal con esperanza y varianza desconocidas. El planteamiento del contraste para nuestro caso será que: Ho: la esperanza de la distribución poblacional es μo. H1: la esperanza de la distribución poblacional es distinta de μo. Y para ello se utilizará como medida de discrepancia en el contraste de hipótesis el siguiente estadístico: Se aplicará en esta caso únicamente a una variable, que será el “Gasto Total por Hogar”, teniendo en cuenta que se ha tipificado anteriormente. Los resultados aparecen en la hoja 14 de SPSS. El contraste se ha realizado para una esperanza poblacional cero. Los resultados que aparecen en el cuadro del contraste han sido que el valor de la medida de discrepancia es cero, siendo los grados de libertas de la ‘t’ 92 (n – 1). Vuelve a mostrar el intervalo de confianza al 95% , y nos dice que la diferencia entre la media muestral y la hipótesis nula es de 3,46-16. Lo que realmente interesa para saber si se acepta o se rechaza la hipótesis, es la significación bilateral o de dos colas. Ésta indica la probabilidad que deja entre ambos lados, y se debe comprobar si el valor ‘t’ cae en región crítica o en región de aceptación. Para que se llegue a aceptar la hipótesis nula dicha significación debe ser mayor que α, y puesto que el nivel de significación obtenido es mayor que el 5% no se puede rechazar la hipótesis nula. Gráficamente nos indica que si el valor de la ‘t’ deja entre ambos lados el 100% de los valores, cuando yo deje un nivel de significación del 5%, la ‘t’ quedará dentro y será región de aceptación. 3. Contraste de significación para la diferencia de medias. En esta prueba se trata de comprobar la hipótesis nula de la no existencia de diferencias significativas entre las medias de dos muestras distintas. En el archivo sólo se tiene una muestra, pero se podrían hacer dos submuestras o subgrupos en base a un criterio determinado. El crierio seleccionado a sido “Sexo del S.P.” y la variable sobre la que se quiere hacer el contraste es “Ingreso Total por Hogar”. La prueba de Levene para la igualdad de varianzas es un contraste que el programa SPS hace previamente para ver si las varianzas pueden tomarse como iguales, o por el contrario son distintas. Se acepta la hipótesis de la varianza para los ingresos percibidos por hombres y su equivalente para mujeres son iguales dado que el nivel de significación obtenido es mayor que el 5% y, por tanto, caería en zona de aceptación. La situación que se plantea es la de dos poblaciones normales N(μ1, σ1) y N(μ2, σ2) de las que se han extraído sendas muestras aleatorias independientes de tamaño n1 y n2 respectivamente, X1,...,Xn1 e X2,...,Xn2, , representando por x1, S21 y por x 2, S22 la media y la varianza de la primera y segunda muestra respectivamente. Ho : μ1 = μ2 H1 : μ1 ≠ μ2 Supuestos: Se tiene dos variables que deben ser independientes y que deben distribuirse normalmente. Las dos varianzas son desconocidas pero deben ser iguales. Comprobado por el Test de Levene. En este caso el test óptimo es: Se acepta Ho si Se rechaza Ho si Si observamos la hoja 15 de SPSS, el valor de la ‘t’ igual a 1,072 dejaría entre ambas colas un 28,6% de los valores de la distribución, por lo que el estadístico en cuestión caerá en región de aceptación. Esto se debe a que el nivel de significación obtenido en cada cola 14,3% es superior al que exigimos para el intervalo de confianza, que es del 2,5%. Esto nos lleva a aceptar que la media de ingresos entre hombres y mujeres es igual. Explore “INTERVALO DE CONFIANZA PARA UN NIVEL DE SIGNIFICACIÓN DEL 95%” Case Processing Summary Cases Valid N Zscore: GASTO TOTAL HOGAR Mis sing Percent 93 N 100,0% Total Percent 0 N ,0% Percent 93 100,0% Descriptives Statistic Zscore: GASTO TOTAL HOGAR Mean Std. Error 2,48E-16 95% Confidence Interval for Mean Lower Bound ,1036952 -,2059476 Upper Bound ,2059476 5% Trimmed Mean -4,6E-02 Median -,1069418 Variance 1,000 Std. Deviation 1,0000000 Minimum -1,73990 Maximum 3,42810 Range 5,16799 Interquartile Range 1,4060536 Skewness ,703 ,250 Kurtos is ,779 ,495 Explore “INTERVALO DE CONFIANZA PARA UN NIVEL DE SIGNIFICACIÓN DEL 68%” Case Processing Summary Cases Valid N Zscore: GASTO TOTAL HOGAR Mis sing Percent 93 100,0% N Total Percent 0 ,0% N Percent 93 100,0% Descriptives Statistic Zscore: GASTO TOTAL HOGAR Mean 68% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation 2,48E-16 Lower Bound Upper Bound ,1036808 -4,6E-02 -,1069418 1,000 1,0000000 -1,73990 Maximum 3,42810 Interquartile Range ,1036952 -,1036808 Minimum Range Std. Error 5,16799 1,4060536 Skewness ,703 ,250 Kurtos is ,779 ,495 Explore “INTERVALO DE CONFIANZA PARA UN NIVEL DE SIGNIFICACIÓN DEL 95%” Case Processing Summary Cases Valid N Zscore: INGRESO TOTAL HOGAR Missing Percent 93 N 100,0% Total Percent 0 N ,0% Percent 93 100,0% Descriptives Statistic Zscore: INGRESO TOTAL HOGAR Mean Std. Error -1,8E-16 95% Confidence Interval for Mean Lower Bound ,1036952 -,2059476 Upper Bound ,2059476 5% Trimmed Mean -7,4E-02 Median -,1375132 Variance 1,000 Std. Deviation 1,0000000 Minimum -1,54974 Maximum 3,45149 Range 5,00123 Interquartile Range 1,1676478 Skewnes s 1,244 ,250 Kurtosis 1,838 ,495 Explore “INTERVALO DE CONFIANZA PARA UN NIVEL DE SIGNIFICACIÓN DEL 68%” Case Processing Summary Cases Valid N Zscore: INGRESO TOTAL HOGAR Missing Percent 93 100,0% N Total Percent 0 ,0% N Percent 93 100,0% Descriptives Statistic Zscore: INGRESO TOTAL HOGAR Mean 68% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation -1,8E-16 Lower Bound Upper Bound ,1036808 -7,4E-02 -,1375132 1,000 1,0000000 -1,54974 Maximum 3,45149 Interquartile Range ,1036952 -,1036808 Minimum Range Std. Error 5,00123 1,1676478 Skewnes s 1,244 ,250 Kurtosis 1,838 ,495 T-Test “CONTRASTE DE SIGNIFICACIÓN PARA LA MEDIA MUESTRAL” One-Sample Statistics N Zscore: GASTO TOTAL HOGAR Mean 93 Std. Deviation 3,47E-16 1,0000000 Std. Error Mean ,1036952 One-Sample Test Test Value = 0 t Zscore: GASTO TOTAL HOGAR df ,000 Sig. (2-tailed) 92 1,000 Mean Difference 3,468E-16 95% Confidence Interval of the Difference Lower -,2059476 Upper ,2059476 T-Test “CONTRASTE DE SIGNIFICACIÓN PARA LA MEDIA MUESTRAL” One-Sample Statistics N Zscore: GASTO TOTAL HOGAR Mean 93 Std. Deviation 3,47E-16 1,0000000 Std. Error Mean ,1036952 One-Sample Test Test Value = 0 t Zscore: GASTO TOTAL HOGAR df ,000 Sig. (2-tailed) 92 1,000 Mean Difference 3,468E-16 95% Confidence Interval of the Difference Lower -,2059476 Upper ,2059476 T-Test “CONTRASTE DE SIGNIFICACIÓN PARA LA DIFERENCIA DE MEDIAS” Group Statistics SEXO DEL S.P. VARON INGRESO TOTAL HOGAR N MUJER Mean Std. Error Mean Std. Deviation 77 2718532 1504649,76 171470,75 16 2270435 1600773,78 400193,45 Independent Samples Test Levene's Test for Equality of Variances F INGRESO TOTAL HOGAR Equal variances assumed Equal variances not assumed Sig. ,497 ,483 t-test for Equality of Means t df Sig. (2-tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference Lower Upper 1,072 91 ,286 448096,40 417869,22 -381949 1278142 1,029 20,874 ,315 448096,40 435381,46 -457661 1353854