Estadística con SPSS

Anuncio
1º INRODUCCIÓN.
Por análisis de datos se entiende toda una serie de técnicas y métodos estadísticos que,
aplicados de forma global y sistemática a unos datos, permiten obtener conclusiones tanto sobre
ellos mismos como sobre la población o poblaciones de la que proceden.
En consecuencia, un análisis de datos comprende, tanto el estudio descriptivo de los datos
como el proceso inferencial subsiguiente, mediante el cual se sacan conclusiones de la población de
donde aquellos proceden, midiendo en términos de probabilidades, los posibles errores que se
pudieran cometer en las inferencias realizadas.
1.1 Pasos a seguir en el análisis de datos.
Existen una serie de puntos o cuestiones que conviene revisar, de forma sistemática, en todo
análisis de datos.
 En primer lugar, es necesario establecer con toda precisión que es lo que realmente
queremos hacer. Son muy frecuentes las consultan en las que se solicitan todas las cosas
que se pueden hacer con los datos que allí se presentan.
La determinación previa del propósito que en principio se persigue lleva a definir con
precisión la población sobre la que se quieren sacar las conclusiones, la variable o variables
aleatorias a analizar, las cuales representan la característica o características que se quieren
estudiar en la población previamente fijada, así como la distribución de probabilidad o
modelo.
Además, de la población que fijemos se deberá tomar la muestra y a ella se deberán referir
las conclusiones que se saquen, siendo después la observación de la variable o variables
aleatorias en estudio, en los individuos de la muestra, lo que dará origen a los datos.
 Una vez fijada la población y la variable aleatoria en estudio como referencia teórica de la
característica que se quiere analizar, el segundo paso a dar es el de elegir el método o
técnica estadística a utilizar como herramienta teórica con la que conseguir el análisis
perseguido.
 Una vez dados los dos pasos antes mencionados, el tercer paso consistirá en elegir la
muestra, la cual deberá ser lo más representativa posible de la población en estudio. Lo
habitual para garantizar dicha representatividad será el elegirla de forma aleatoria.
 El cuarto paso a dar es el de analizar si son admisibles todas las suposiciones que requiere
la técnica elegida en el segundo paso.
Cada técnica estadística requiere unas suposiciones específicas a dicha técnica y por tanto,
no sería lógico dar una lista de suposiciones a revisar, puesto que éstas dependerán de las
técnicas estadísticas más utilizadas. Me refiero a la simetría, a la normalidad y a la
homocedasticidad.
 El quinto paso es el de aplicar la técnica elegida. Este es posiblemente el paso que
tradicionalmente se realiza y sobre el que existe un mayor conocimiento.
 El sexto y último paso será el de sacar las conclusiones sobre la población en estudio.
2º ANÁLISIS DESCRIPTIVO DE LA VARIABLE.
El objetivo de la Estadística Descriptiva es el de, dados los datos, ordenarlos, simplificarlos,
resumirlos, clasificarlos, etc., determinando de esta manera un conjunto de valores que, además de
proporcionar una rápida impresión de sus principales características, permitan hacer comparaciones
con otros subconjuntos de datos.
En la Estadística Descriptiva no se hacen suposiciones extrañas a los datos, como puede ser
la de un modelo probabilístico poblacional. Se deja que los datos ‘hablen por sí solos’.
1. Análisis descriptivo de variables cualitativas en escala nominal.
Las variables cualitativas son aquellas que muestran cualidades o atributos sin carácter
numérico. Para aplicarles métodos estadísticos se las codifica, como por ejemplo para el sexo donde
el número 1 representa a los varones y el 6 a las mujeres.
Dentro de las variables cualitativas podemos encontrar distintas escalas de variables. La
escala nominal da poca información y sólo puede calcularse como medida estadística la moda. Se
codifica de manera que sólo se divide la información en estancos, y cada elemento pertenece a un
estanco de forma exhaustiva y excluyente. Además, como representación gráfica se utilizará el
diagrama de barras, mientras que la representación más apropiada es la de la distribución de
frecuencias. El diagrama de barras consiste en levantar, para cada valor de la variable, una barra
cuya altura sea su frecuencia absoluta, en este caso.
En la tabla de frecuencias aparecen cuatro columnas que comentaremos a continuación:
frequency es la frecuencia absoluta para cada categoría; percent es la frecuencia relativa, incluyendo
los valores perdidos; valid percent es la frecuencia relativa, eliminando de la muestra los valores
perdidos; y cumulative percent es la frecuencia relativa acumulada, eliminando los valores perdidos.
Para el estudio a realizar se ha seleccionado como variable “Relación con la actividad”,
donde aparecen tres estancos para los individuos de la muestra: 1 ocupados, 2 parados, 3
pensionistas, 4 rentistas y 5 otros inactivos. El análisis descriptivo que se ha obtenido es el que
aparece en la hoja 1 de SPSS.
Los resultados del análisis indican que en nuestra muestra no aparecen ni rentistas ni otros
inactivos, aunque eso es difícil de llevar a una población total. El valor de la variable al que
corresponde la máxima frecuencia es el 1, valor que se corresponde con los parados. Es una moda
relativa y su frecuencia es de 60. También podemos observar por la relación entre frecuencias que
por cada dos ocupados que cotizan en la Seguridad Social, en la sociedad se encuentra un
pensionista. Esto nos da una idea de que la población podría ser de un país desarrollado, ya que son
los que presentan una población más envejecida.
2. Análisis descriptivo de variables cualitativas en escala ordinal.
La escala ordinal es aquella que añade a la característica anterior la idea de orden. No se
pueden realizar operaciones aritméticas porque no hay unidad de medida, y sólo se pueden obtener
como estadísticos la moda, la mediana y los cuartiles (podría obtenerse cualquier cuantil, pero en
este caso se ha optado por estos). Los cuartiles son valores que dividen la distribución en cuatro
partes manteniendo el 25%, 50% y 75% de los valores a la izquierda. La mediana se corresponde
con el segundo cuartil e indica que se encuentran a cada lado el 50% de los individuos. Se debe
señalar que en el cuadro que rellenamos para obtener estos estadísticos también aparecen los Cut
points for “n” equal groups que indican los valores de la variable que dividen la muestra en grupos
de casos de igual tamaño. Por defecto divide la distribución en 10 grupos iguales (deciles), aunque
puede modificarse el número de grupos introduciendo otro valor entre 2 y 100. También aparece la
opción Percentile(s) que permite calcular algún centil específico: para ello se debe de introducir el
número de algún centil que queramos calcular y pulsar Add. Estos dos últimos estadísticos no se
van a utilizar, de momento, debido a su similitud con los cuartiles. Para este análisis también se
utilizarán la tabla de frecuencias y el diagrama de barras.
En este estudio se ha elegido como variable “Nivel de estudios completado” siendo el
correspondiente análisis descriptivo el que se detalla en la hoja 2 de SPSS.
La moda está claramente representada por la categoría de orden 2, que corresponde a los
individuos con estudios primarios. Esta característica defina bien a la muestra porque más de un
50% de las personas poseen estudios inferiores o equivalentes a los primarios, mientras que sólo un
25% supera el nivel de estudios de Bachillerato. Gráficamente puede observarse una clara tendencia
de la distribución hacia los niveles de estudio inferiores, mostrándose asimétrica a la derecha.
3. Análisis descriptivo de variables cuantitativas continuas y discretas.
Las variables cuantitativas, en contraposición a las cualitativas, son mediciones que se
reflejan mediante números. Estas se pueden dividir en variables discretas que son aquellas que
resultan de un proceso de contar y, por tanto, solamente van a tomar valores enteros, y en variables
continuas que resultan de un proceso de medir. En este caso puede contener decimales, y aparece
toda la gama de números reales. En el caso de las variables discretas, en un intervalo aparecerá un
número finito de ellas, mientras que en las continuas podrán aparecer infinitos valores.
Para las variables que se pueden cuantificar existe una mayor variedad de medidas a aplicar,
además de la moda, mediana y cuantiles ya utilizados. Como medida de tendencia central se
buscará también la media, que corresponde a la suma de todos los valores de la distribución entre el
número total de datos. Las variables de dispersión aplicadas serán la varianza, que es la media
aritmética de las desviaciones que presenta los valores de la variable respecto a la media aritmética,
la desviación típica, que es la raíz cuadrada de la varianza, y el recorrido, que es la diferencia entre
el mayor valor y el menor de la distribución. Otras medidas son los índices de distribución, donde
aparecen el coeficiente de asimetría y el de curtosis, utilizando respectivamente el coeficiente de
asimetría de Fisher y el coeficiente de apuntamiento.
En el caso de que las variables, continuas o discretas, tomen un número elevado de valores
se utilizarán los histogramas de frecuencias, y dejarán de ser útiles las tablas de frecuencias. Un
histograma de frecuencias realiza una agrupación de los valores en intervalos. Si se quiere
representar una tabla de frecuencias para estos intervalos, se debe reconvertir previamente la
variable original en intervalos eligiendo en el menú la opción Transform, luego Recode y
finalmente Into Different Variables.
El análisis en este caso se aplicará en este caso a dos variables continuas como son “Gasto
total por hogar” e “Ingreso total por hogar”, que serán las que seguirán utilizándose en el resto
del estudio estadístico. Los resultados son los que se muestran en las hojas 3 y 4.
En el caso del Gasto Total por Hogar, vemos que es una gráfica leptocúrtica, cosa que
también se observa en su coeficiente de curtosis que es menor que la unidad. Por otro lado, es una
cursa asimétrica a derechas, que indica que el gasto por familia de nuestra muestra tiende a ser bajo,
superando en ocasiones puntuales los cinco millones, lo que hace que se desplace la gráfica. La
media del gasto por hogar está por debajo de los tres millones, pero con una dispersión que se sitúa
entorno al millón y medio de unidades monetarias. Por último, se ve mediante los percentiles que
más del 75% de las familias gastan menos de cuatro millones al año, pero que algunas alcanzan
hasta los ocho.
Desde el punto de vista de los Ingresos Totales por Hogar, la situación es algo distinta ya
que la curva es mesocúrtica con un coeficiente cercano a dos. Se destaca como moda de ingreso en
la muestra el de un millón y medio anual, aunque la media está en algo más de dos millones y
medio. Esta media es menos representativa que la anterior, dado que la desviación típica es mayor
con respecto a una media más pequeña. Un rasgo que comparte con la anterior es su asimetría a la
derecha, algo lógico, ya que si la mayoría de las familias ingresan poco, gastarán también poco,
pero si hay una minoría que recibe mayores rentas, también tendrá un nivel de gasto mayor. Para los
ingresos el 75% de las familias seleccionadas ingresan menos de tres millones cuatro cientas mil
pesetas (tomando ésta como unidad monetaria).
4. Análisis exploratorio.
El procedimiento Explore de SPSS ofrece una serie de opciones para representar
gráficamente los datos, examinar visualmente las distribuciones de valores para varios grupos de
datos, y realizar pruebas de normalidad y homogeneidad de los datos.
El análisis exploratorio previo es útil para:
 Detectar errores en los datos.
 Observar la distribución de los datos, y determinar cuál puede ser la razón de que se
produzcan determinados comportamientos en los datos: ¿existe algún rango de datos
vacío?, ¿Hay valores extremos?, ¿presentan los datos un patrón extraño?, ¿existe una
variabilidad inesperada de los datos?.
 Preparar las pruebas de contraste de hipótesis: La distribución de los valores en las
variables puede determinar el tipo de análisis posterior más apropiado para los datos. Puede
incluso que se deban transformar para prepararlos para un determinado análisis.
Las representaciones gráficas juegan un papel destacado en el análisis de datos, ya que la
visualización de éstos permite descubrir modelos de forma más clara, analizar si existen simetrías o
concentraciones de datos, así como detectar posibles valores que pudieran ser considerados como
anómalos. Entre las representaciones gráficas destaca una cada vez más utilizada que se denomina
diagrama de tallo y hoja. Este sirve para representar más distribuciones de frecuencias de datos
cuantitativos sin agrupar.
Los diagramas de tallo y hojas suelen representarse en situaciones intermedias entre los
histogramas y los diagramas de barras, siendo además representaciones más informativas que los
histogramas ya que conservan en ella los dígitos, lo cual permite identificar rápidamente las
observaciones.
Un diagrama de tallo y hojas, en esencia, no es más que un histograma en el que, para cada
dato, la base o tallo es el primer dígito y la hoja el segundo, de cuya representación conjunta se
obtiene la altura correspondiente a cada base.
La composición en el gráfico de tallo y hojas variará en función de las unidades en que esté
medida la variable, el rango, etc. En la parte inferior del gráfico se explica como debe interpretarse
cada valor de tallo ( por qué factor se debe multiplicar para obtener el valor en las unidades reales)
y cuantos casos hay incluidos en cada valor de hoja ( en muestras muy grandes cada valor puede
representar dos o más casos de la muestra).
La primera y la última fila del diagrama de tallo y hojas se utilizan para representar casos
extremos (muy alejados del resto), si existen. Se pueden identificar los casos que se corresponden
con los valores extremos, generando una tabla que muestre los casos con los valores más pequeños
y más grandes.
El gráfico o diagrama de cajas es una forma sencilla de representar una distribución de
frecuencias. Este tipo de gráficos es otro modo de resumir la distribución de los valores de una
variable. En vez de visualizar los valores individuales, se representan estadísticos básicos de la
distribución: la mediana, el centil 25, el centil 75 y los valores extremos de la distribución. Consiste
en representar una línea (y de menor a mayor) el mínimo, el primer cuartil, la mediana, el tercer
cuartil y el máximo, dibujando sobre ella una caja con límites el primer y tercer cuartil, dividida en
dos por un segmento que pasa por la mediana.
Se consideran dos categorías de casos extremos, en función de cuanto se alejan con respecto
al 50% central de la distribución. Aquellos valores alejados más de tres veces el rango intercuartil
desde el extremo superior o inferior de la caja (casos más extremos, representados con un “*”) y
aquellos valores que están alejados entre 1’5 y tres veces dicho rango (representados con un
círculo). Los valores más pequeños y más grandes que estén dentro de los límites primer cuartil
menos 1’5 y tercer cuartil más 1´5 veces el rango intercuartílico constituyen los whiskers del gráfico
y aparecen representados mediante las dos líneas horizontales dibujadas a ambos extremos de la
caja central. A estas líneas se las denomina bigotes.
Los gráficos de caja son especialmente útiles para comparar la distribución de los valores
entre diferentes grupos.
Para realizar el análisis exploratorio con el archivo de SPSS seleccionado, tomamos como
variables “Gastos Totales Hogar” e “Ingresos Totales Hogar”, y marcaremos los valores atípicos
o extraños según la “Relación con la actividad”. Los análisis aparecen en las hojas 5 y 6 de SPSS.
Los resultados para los Gastos Totales por Hogar muestran por el diagrama de tallo y hojas
que el intervalo de gasto más representado es el de dos millones, aunque aparecen con importantes
frecuencias absolutas los tallos de uno, dos, tres y cuatro millones. Aparecen dos resultados
extremos que luego se clasifican en el diagrama de caja. El ancho del tallo es de un millón, y debido
el bajo número de casos, cada hoja está representando a uno de ellos. Respecto a la simetría podría
decirse que es asimétrica a derechas, aunque si no fuese por esos valores extremos se podría
apreciar una mayor simetría. En el diagrama de caja se observa que los dos valores que presentan un
gasto mayor, y atípico, pertenecen a un pensionista y a un ocupado. En el caso del pensionista
podría suceder, por ejemplo, que sufriese alguna enfermedad que le causase unos gastos excesivos,
o que percibiese importantes ingresos que le permitiesen gastar por encima de lo que en este caso
sería normal. Se observa que la mediana está más próxima al límite inferior por lo que la simetría se
confirma positiva, pero esa proximidad es muy pequeña. Sin embargo, podría comentarse que la
caja está más próxima del bigote inferior lo que, como se decía en el análisis estadístico, indica una
mayor concentración en niveles de gasto menores. Finalmente, en el cuadro de estadísticos de la
hoja 5 se debería destacar una nueva medida que es la media recortada al 5%, es decir, una media
aritmética que ignora el 5% de los valores máximos (donde estarían nuestros extremos) y el 5% de
los valores mínimos. Esa media es algo menor que la media aritmética antes calculada, ya que está
sufría una distorsión al alza debido a los valores por encima del máximo.
En cuanto a Ingreso Total por Hogar, la media recortada antes mencionada en esta caso
también es menor que la media simple, debido a que la simetría a derechas era producida por
valores grandes. Según el diagrama de tallo y hojas, los intervalos más frecuentes respecto al
Ingreso Total son los de uno y dos millones, con frecuencias absolutas entorno a treinta casos. Pero
ahora aparecen más valores extremos, un total de cinco, que también producirán asimetría en la
distribución. Al igual que ocurría con el gasto, el ancho del tallo es de un millón y cada hoja
representa a un solo caso. Cuando recurrimos al diagrama de caja, se observa que el ancho de la
caja da una idea de la variabilidad de las observaciones. Como la mediana no está en el centro
deduzco que es asimétrica, y dada su proximidad al límite inferior de la caja, la asimetría es
positiva. Los valores que llamábamos extremos cuando nos eran desconocidos, descubrimos que
sólo son atípicos, es decir, que no están a más de tres veces el recorrido intercuartílico. Dichos
valores son identificados como dos pensionistas y un ocupado, los más próximos al bigote superior,
y los más alejados como un ocupado y otro pensionista. Esto nos indica que, existen en la sociedad
pensiones muy altas, aunque son una minoría, que incluso superan, y con mucho, las rentas
percibidas por muchos asalariados. Pero además, también hay algunos ocupados que perciben rentas
elevadas. Desde luego, y como era de esperar, entre estos individuos de altos ingresos no aparece
ningún parado.
Otro punto de vista desde el que se va a realizar el análisis exploratorio es separando los
ingresos según el nivel de estudios de sus preceptores, para comprobar si existe alguna relación
entre la educación y el nivel económico. Este otro estudio aparece en la hoja 7 de SPSS.
De el diagrama de tallo y hojas podría decirse que existen como tallos de mayor frecuencia
los que cubren los intervalos entre 1,5 y 2 millones, y también entre 2,5 y 3 millones; mientras, en
los ingresos obtenidos por mujeres, el tallo de mayor frecuencia absoluta es el de un millón. Puede
decirse que existiría una cierta diferencia entre ambos segmentos, dándose además la peculiaridad
en el caso de ingresos masculinos de que existen cinco valores extremos que perciben más de seis
millones. Por el diagrama de caja se observa en primer lugar una mayor dispersión en las mujeres
que en los hombres, ya que su caja es más amplia. La concentración en los ingresos femeninos se da
junto a la base inferior, lo que nos indica una asimetría a la derecha, dado que sus ingresos son
menores. Sin embargo, la caja de los ingresos de varones, es prácticamente simétrica. Se han
clasificado los valores extremos por su nivel de estudios, donde tan solo aparece un universitario.
Puede estipularse que, en relación a los valores extremos que se habían obtenido de jubilados, esos
puntos pertenezcan a personas que no pudieron estudiar pero que por sus años de cotización estén
percibiendo rentas altas.
5. Análisis descriptivo de normalidad.
Muchas técnicas estadísticas requieren que la variable o variables aleatorias de estudio
sigan una distribución normal.
Por otro lado, como la distribución normal es simétrica, el estudio de la posible normalidad
de los datos deberá venir precedido de un análisis de simetría.
El análisis de normalidad trata de averiguar si los datos pueden proceder de una población
normal. Si seleccionamos la opción Normality plots with test aparecerá sobre nuestra gráfica una
recta con los valores correspondientes a una distribución normal teórica, y unos puntos que
corresponden a las diferentes puntuaciones de los sujetos de la distribución empírica. Si los puntos
están próximos a la recta, el ajuste es aceptable y al revés, cuanto más se alejen éstos de la misma.
Luego aparece otro gráfico en el que se recogen las desviaciones de los sujetos respecto a la recta.
Si la muestra proviene de una población normal, los puntos deben fluctuar alrededor de “0” y sin
seguir un patrón determinado. En caso contrario pueden alejarse de la normalidad. Aunque estas dos
representaciones gráficas pueden dar una idea aproximada del ajuste o no de los datos a una
distribución normal, es siempre deseable llevar a cabo una prueba analítica a través del Test de
Kolmogorov – Smirnov.
Existen otras técnicas para el análisis de normalidad que pueden, además, clasificarse en
dos grandes grupos: Gráfica, las cuales son fáciles e intuitivas, e inferenciales, las cuales están
basadas en algún estadístico y su distribución.
 Gráfico de normalidad: al igual que ocurre en el gráfico de asimetría, el gráfico de
normalidad permite analizar, en este caso la normalidad, de forma rápida y sencilla.
 Test basado en el coeficiente de curtosis: al igual que el coeficiente de asimetría g1
proporciona un valor numérico fácilmente interpretable en términos de simetría de los
datos, el coeficiente de curtosis
Mide si los datos (y en consecuencia la distribución de la que proceden) tienen colas
menores que la normal (k>0), mayores que la normal (k<0) o aproximadamente normales (k ≈ 0).
Una distribución simétrica con curtosis aproximadamente cero puede ser calificada de
normal. La determinación de si la diferencia con cero de este coeficiente puede ser calificada de
falta de simetría o debida al azar, debe ser de nuevo analizada mediante una distribución en el
muestreo.
Si tenemos suficientes datos – unos 200 – se verifica que k se distribuye aproximadamente
como una normal de media cero y desviación típica √24/n, por lo que considerando la hipótesis nula
Ho de normalidad de la distribución frente a la alternativa H1, de falta de normalidad del modelo,
fijado un nivel de significación α,

Se acepta Ho si

Se rechaza Ho si
Se han realizado los análisis pertinentes con las variables “Gasto Total Hogar” e “Ingreso
Total Hogar”.
Para el primer análisis del que hemos hablado, el cual hacía referencia a la opción
Normality plots with test, los resultados aparecen en las hojas 8 y 9, gastos e ingresos
respectivamente, y se comentarán a continuación.
El contraste de Kolmogorov-Smirnov es alternativo al de la Chi-cuadrado, y requiere para
su realización que la distribución del modelo de la variable aleatoria en observación sea continua.
En este caso, tanto los ingresos como los gastos se pueden considerar como variables continuas.
Está basado en la denominada función de distribución empírica o muestral, F*n(x), la cual se define,
para unos valores muestrales fijos x1,...,xn, como la función de x
F*n(x) = (nº de xi menores o iguales que x)/ n
Como observamos en el gráfico del ajuste para el Gasto Total por Hogar, no hay
prácticamente bondad de ajuste al verdadero valor de una normal, ya que la bondad del mismo es de
un 20%. Pero si recurrimos al gráfico observaremos que la gran mayoría de valores de la realidad
que se alejan de la normal están en los extremos. En el cuadro inferior se comprueba como estos
valores se desvían del valor cero, llegando algunos a valores cercanos y superiores a la unidad. Por
esto, podría decirse del comportamiento del Gasto por familia que no sigue una distribución normal.
Para comprobar la normalidad respecto a los Ingresos Totales se recurre de nuevo a la
bondad respecto al verdadero significado, observando que ésta es todavía menor que para el caso
anterior, situándose entorno del 0’1%. Gráficamente se comprueba porque existe un mayor número
de valores que se alejan de la línea teórica de la distribución normal. Si recurrimos a la gráfica de
desviación de la normal, comprobamos que son muchos los valores que superan el valor cero,
llegando casi al punto y medio de distancia. Con lo cual, es este caso también se concluirá que los
ingresos por familia varían mucho de la normal.
Para realizar el estudio de la normalidad según su asimetría y su curtosis, en primer lugar
deben realizarse las correspondientes estandarizaciones de gastos e ingresos. Cuando se han
convertido las distribuciones empíricas en normales con media cero y desviación típica uno, se lleva
acabo el estudio de su simetría y su apuntamiento, en comparación con los datos de una normal. Las
variables han sido las mismas, y los resultados de SPSS están en las hojas 10 y 11.
Para el caso del gasto, los dos coeficientes son bastante elevados, siendo algo más de 0’7,
por lo que podría decirse que es una curva más apuntada que la normal (la mayoría de las barras
pasan por encima de la curva) y que es, además, asimétrica a la derecha dada su excesiva
concentración de valores inferiores a cero, y a que aparecen algunos valores extremos. Si se presta
atención a los cuartiles observamos que la mediana o cuartil segundo, es ligeramente inferior a cero,
con lo que se ratifica la simetría mencionada. Pero también se comprueba porque el decil 25 está
separado del 50 por aproximadamente 0’64, mientras que el 75 se presenta una diferencia superior
de 0’76. Esto indica una mayor dispersión de aquellos valores que se encuentran a la derecha del
cero.
En cuanto a los ingresos de los individuos de la muestra, los coeficientes de simetría y
curtosis son superiores a la unidad. Estos indican en primer lugar, que en esta distribución la
asimetría a derechas es mayor que en el gráfico anterior, que esta curva es leptocúrtica respecto a la
distribución normal y que también es más apuntada que en el caso de los gastos totales. La mediana
se aleja más del valor cero, y existe una distancia menor entre el decil 25 y la mediana y ésta y el
decil 75. Pero además, que la diferencia entre estas distancias es mayor por los comentarios ya
hechos sobre asimetría.
Frequencies
Statistics
RELACION CON ACTIVIDAD
N
Valid
93
Mis sing
0
Mode
1
RELACION CON ACTIVIDAD
Frequency
Valid
OCUPADOS
Percent
Valid Percent
60
64,5
64,5
64,5
6
6,5
6,5
71,0
PENSIONISTAS
27
29,0
29,0
100,0
Total
93
100,0
100,0
PARADOS
RELACION CON ACTIVIDAD
70
60
50
40
30
20
Fre q u e n cy
Cumulative
Percent
10
0
OCUPADOS
RELA CION CON A CTIV IDA D
PARADOS
PENSIONISTAS
Frequencies
Statistics
NIVEL ESTUDIOS COMPLETADO
N
Valid
93
Missing
0
Median
2,00
Mode
2
Percentiles
25
2,00
50
2,00
75
4,00
NIVEL ESTUDIOS COMPLETADO
Valid
Frequency
3
Percent
3,2
Valid Percent
3,2
Cumulative
Percent
3,2
8
8,6
8,6
11,8
PRIMARIOS
40
43,0
43,0
54,8
EGB O EQUIV.
12
12,9
12,9
67,7
BUP
8
8,6
8,6
76,3
COU
2
2,2
2,2
78,5
FP1
2
2,2
2,2
80,6
FP2
6
6,5
6,5
87,1
CARRERA TECNICA
2
2,2
2,2
89,2
100,0
ANALFABETO
SIN ESTUDIOS
CARRERA SUPERIOR
10
10,8
10,8
Total
93
100,0
100,0
NIVEL ESTUDIOS COMPLETADO
50
40
30
10
C
A
U
R
A
IO
IC
NIV EL ESTUDIOS COMPLETA DO
R
N
E
C
P
2
1
TE
S
A
FP
AB
FP
LF
ER
A
ER
R
R
R
R
A
A
C
IN
N
0
U .
O V
C UI
Q
E
O P
B U
G B
E
S
IO
R S
A IO
IM D
R
P TU
ES
TO
E
S
A
Fre q u e n cy
20
Frequencies
Statistics
GASTO TOTAL HOGAR
N
Valid
Missing
93
0
Mean
2969072
Median
2808988
364580a
Mode
Std. Deviation
1496923
Variance
2,2E+12
Skewness
,703
Std. Error of Skewness
,250
Kurtos is
,779
Std. Error of Kurtosis
,495
Range
7736089
Minimum
364580
Maximum
8100669
Percentiles
25
1848040
50
2808988
75
3952794
a. Multiple modes exist. The smallest value is shown
GASTO TOTAL HOGAR
14
12
10
8
4
Std. Dev = 1496923
2
0
Mean = 2969071,6
N = 93,00
0
0,
00
0 0 0, 0
80 00
0 0 0, 0
75 00
0 0 0, 0
70 00
0 0 0, 0
65 00
0 0 0, 0
60 00
0 0 0, 0
55 00
0 0 0, 0
50 00
0 0 0, 0
45 00
0 0 0, 0
40 00
0 0 0, 0
35 00
0 0 0, 0
30 00
0 0 0, 0
25 00
0 0 0, 0
20 00
0 0 0, 0
15 00
00 0
10 00,
00
50
Fre q u e n cy
6
GA STO TOTA L HOGA R
Frequencies
Statistics
INGRESO TOTAL HOGAR
N
Valid
Missing
93
0
Mean
2641440
Median
2432124
282504a
Mode
Std. Deviation
1522151
Variance
2,3E+12
Skewness
1,244
Std. Error of Skewness
,250
Kurtos is
1,838
Std. Error of Kurtosis
,495
Range
7612629
Minimum
282504
Maximum
7895133
Percentiles
25
1555795
50
2432124
75
3333132
a. Multiple modes exist. The smallest value is shown
INGRESO TOTAL HOGAR
30
20
Std. Dev = 1522151
Mean = 2641439,9
0
N = 93,00
0
0,
00
0 0 0, 0
80 00
0 0 0, 0
75 00
0 0 0, 0
70 00
0 0 0, 0
65 00
0 0 0, 0
60 00
0 0 0, 0
55 00
0 0 0, 0
50 00
0 0 0, 0
45 00
0 0 0, 0
40 00
0 0 0, 0
35 00
0 0 0, 0
30 00
0 0 0, 0
25 00
0 0 0, 0
20 00
0 0 0, 0
15 00
00 0
10 00,
00
50
Fre q u e n cy
10
INGRESO TOTAL HOGA R
Explore
Case Processing Summary
Cases
Valid
N
GASTO TOTAL HOGAR
Missing
Percent
93
N
100,0%
Total
Percent
0
N
,0%
Percent
93
100,0%
Descriptives
Statistic
GASTO TOTAL HOGAR
Mean
95% Confidence
Interval for Mean
2969072
Lower Bound
Upper Bound
2899959
2808988
Variance
2,2E+12
Std. Deviation
1496923
Minimum
364580
Maximum
8100669
Range
7736089
Interquartile Range
2104754
Skewness
,703
,250
Kurtos is
,779
,495
GASTO TOTAL HOGAR Stem-and-Leaf Plot
5,00
0
20,00
1
25,00
2
21,00
3
17,00
4
2,00
5
1,00
6
2,00 Extremes
Stem width:
Each leaf:
.
.
.
.
.
.
.
3277359
Median
GASTO TOTAL HOGAR
Stem &
2660784
5% Trimmed Mean
“DIAGRAMA DE TALLO Y HOJAS”
Frequency
Std. Error
155223,68
Leaf
34668
00011123344455777888
0000012222333444456678889
000011225555777788899
01334455566678889
16
2
(>=7374120)
1000000
1 case(s)
“DIAGRAMA DE CAJA”
10000000
PENSIO NISTAS
8000000
O CUPADOS
6000000
4000000
2000000
0
-2000000
N=
93
GASTO TOTAL HOGAR
Explore
Case Processing Summary
Cases
Valid
N
INGRESO TOTAL HOGAR
Mis sing
Percent
93
N
100,0%
Total
Percent
0
N
,0%
Percent
93
100,0%
Descriptives
Statistic
INGRESO TOTAL HOGAR
Mean
95% Confidence
Interval for Mean
2641440
Lower Bound
Upper Bound
2528569
2432124
Variance
2,3E+12
Std. Deviation
1522151
Minimum
282504
Maximum
7895133
Range
7612629
Interquartile Range
1777337
Skewness
1,244
,250
Kurtos is
1,838
,495
INGRESO TOTAL HOGAR Stem-and-Leaf Plot
7,00
0
29,00
1
30,00
2
12,00
3
8,00
4
2,00
5
5,00 Extremes
Stem width:
Each leaf:
.
.
.
.
.
.
2954923
Median
INGRESO TOTAL HOGAR
Stem &
2327957
5% Trimmed Mean
“DIAGRAMA DE TALLO Y HOJAS”
Frequency
Std. Error
157839,73
Leaf
2445679
00122223334445555556666667899
000111123344445556667788888999
122334455567
03444489
08
(>=6015992)
1000000
1 case(s)
“DIAGRAMA DE CAJA”
10000000
8000000
O CUPADOS
PENSIO NISTAS
PENSIO NISTAS
O
CUPADOS
PENSIO
NISTAS
6000000
4000000
2000000
0
-2000000
N=
93
INGRESO TOTAL HOGAR
Explore
SEXO DEL S.P.
Case Processing Summary
Cases
Valid
INGRESO TOTAL HOGAR
SEXO DEL S.P.
VARON
MUJER
Missing
N
Percent
N
Total
Percent
N
Percent
77
100,0%
0
,0%
77
100,0%
16
100,0%
0
,0%
16
100,0%
Descriptives
INGRESO TOTAL HOGAR
SEXO DEL S.P.
VARON
95% Confidence
Interval for Mean
MUJER
Statistic
2718532
Mean
Lower Bound
Upper Bound
Std. Error
171470,75
2377018
3060045
5% Trimmed Mean
2604640
Median
2485869
Variance
2,3E+12
Std. Deviation
1504650
Minimum
282504
Maximum
7895133
Range
7612629
Interquartile Range
1690132
Skewnes s
1,348
,274
Kurtosis
2,353
,541
2270435
400193,45
Mean
95% Confidence
Interval for Mean
Lower Bound
Upper Bound
1417443
3123427
5% Trimmed Mean
2171364
Median
1636087
Variance
2,6E+12
Std. Deviation
1600774
Minimum
499050
Maximum
5825106
Range
5326056
Interquartile Range
2341119
Skewnes s
Kurtosis
1,090
,564
,210
1,091
“DIAGRAMA DE TALLO Y HOJAS
INGRESO TOTAL HOGAR
Stem-and-Leaf Plots
INGRESO TOTAL HOGAR Stem-and-Leaf Plot for
SXSP= VARON
Frequency
Stem &
2,00
0
3,00
0
8,00
1
14,00
1
12,00
2
15,00
2
7,00
3
4,00
3
5,00
4
2,00
4
5,00 Extremes
Stem width:
Each leaf:
.
.
.
.
.
.
.
.
.
.
Leaf
24
569
22233444
55555666667899
001111233444
555666778888899
1223344
5567
34444
89
(>=6015992)
1000000
1 case(s)
INGRESO TOTAL HOGAR Stem-and-Leaf Plot for
SXSP= MUJER
Frequency
2,00
7,00
3,00
1,00
1,00
2,00
Stem width:
Each leaf:
Stem &
0
1
2
3
4
5
.
.
.
.
.
.
Leaf
47
0012356
049
5
0
08
1000000
1 case(s)
“DIAGRAMA DE CAJA”
10000000
8000000
BUP
PRIMARIOS
CARRERA T ECNICA
EG B O EQUIV.
PRIMARIOS
6000000
4000000
2000000
0
-2000000
N=
77
VARON
SEXO DEL S.P.
16
MUJER
Explore
Case Processing Summary
Cases
Valid
N
GASTO TOTAL HOGAR
Missing
Percent
93
N
100,0%
Total
Percent
0
N
,0%
Percent
93
100,0%
Descriptives
Statistic
GASTO TOTAL HOGAR
Mean
2969072
95% Confidence
Interval for Mean
Lower Bound
Std. Error
155223,68
2660784
Upper Bound
3277359
5% Trimmed Mean
2899959
Median
2808988
Variance
2,2E+12
Std. Deviation
1496923
Minimum
364580
Maximum
8100669
Range
7736089
Interquartile Range
2104754
Skewness
,703
,250
Kurtos is
,779
,495
“TEST DE Kolmogorov – Smirnov”
Tests of Normality
Kolmogorov-Smirnov
Statistic
GASTO TOTAL HOGAR
,079
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction
df
a
Sig.
93
,200*
GASTO TOTAL HOGAR
“ANÁLISIS DE NORMALIDAD”
Normal Q-Q Plot of GASTO TOTAL HOGAR
3
2
1
E xp e cte d N o r m a l
0
-1
-2
-3
-2000000
0
2000000
4000000
6000000
8000000
10000000
Observed V alue
Detrended Normal Q-Q Plot of GASTO TOTAL HOGAR
1,2
1,0
,8
,6
D e v fr o m N o r m a l
,4
,2
0,0
-,2
-,4
0
2000000
Observed V alue
4000000
6000000
8000000
10000000
Explore
Case Processing Summary
Cases
Valid
N
INGRESO TOTAL HOGAR
Mis sing
Percent
93
N
100,0%
Total
Percent
0
N
,0%
Percent
93
100,0%
Descriptives
Statistic
INGRESO TOTAL HOGAR
Mean
2641440
95% Confidence
Interval for Mean
Lower Bound
Std. Error
157839,73
2327957
Upper Bound
2954923
5% Trimmed Mean
2528569
Median
2432124
Variance
2,3E+12
Std. Deviation
1522151
Minimum
282504
Maximum
7895133
Range
7612629
Interquartile Range
1777337
Skewness
1,244
,250
Kurtos is
1,838
,495
“TEST DE Kolmogorov – Smirnov”
Tests of Normality
Kolmogorov-Smirnov
Statistic
INGRESO TOTAL HOGAR
a. Lilliefors Significance Correction
,130
df
a
Sig.
93
,001
INGRESO TOTAL HOGAR
“ANÁLISIS DE NORMALIDAD”
Normal Q-Q Plot of INGRESO TOTAL HOGAR
3
2
1
E xp e cte d N o r m a l
0
-1
-2
-3
-2000000
0
2000000
4000000
6000000
8000000
Observed V alue
Detrended Normal Q-Q Plot of INGRESO TOTAL HOGAR
1,5
1,0
D e v fr o m N o r m a l
,5
0,0
-,5
0
2000000
Observed V alue
4000000
6000000
8000000
Descriptives
Descriptive Statistics
N
Minimum
Maximum
Mean
Statistic
Statistic
Statistic
Statistic
GASTO TOTAL HOGAR
93
Valid N (lis twise)
93
364580
8100669
2969072
Std.
Deviation
Statistic
Skewnes s
Statistic
1496923
Std. Error
,703
Frequencies
Statistics
Zscore: GASTO TOTAL HOGAR
N
Valid
93
Missing
Percentiles
0
25
-,7488910
50
-,1069418
75
,6571627
“ANÁLISIS DE NORMALIDAD”
Zscore: GASTO TOTAL HOGAR
12
10
8
6
Fre q u e n cy
4
Std. Dev = 1,00
2
Mean = 0,00
N = 93,00
0
25
3,
75
2,
25
2,
75
1,
25
1,
5
,7
5
5
,2
-, 2
5
25
75
-, 7
,
-1
,
-1
Zscore: GA STO TOTAL HOGA R
Kurtosis
,250
Statistic
,779
Std. Error
,495
Descriptives
Descriptive Statistics
N
Minimum
Maximum
Mean
Statistic
Statistic
Statistic
Statistic
INGRESO TOTAL HOGAR
93
Valid N (lis twise)
93
282504
7895133
Std.
Deviation
Statistic
2641440
1522151
Frequencies
Statistics
Zscore: INGRESO TOTAL HOGAR
N
Valid
93
Missing
Percentiles
0
25
-,7132306
50
-,1375132
75
,4544172
“ANÁLISIS DE NORMALIDAD”
Zscore: INGRESO TOTAL HOGAR
16
14
12
10
8
Fre q u e n cy
6
4
Std. Dev = 1,00
2
Mean = 0,00
N = 93,00
0
50
3,
00
3,
50
2,
00
2,
50
1,
00
1,
0
,5
00
0,
0
00
50
-, 5
,
-1
,
-1
Zscore: INGRESO TOTA L HOGA R
Skewnes s
Statistic
1,244
Kurtosis
Std. Error
,250
Statistic
1,838
Std. Error
,495
3º INFERENCIA PARAMÉTRICA.
El propósito de la inferencia estadística es el de obtener conclusiones de la población en
estudio sobre la base de la muestra obtenida de ella. Las técnicas de la inferencia estadística
requieren de suposiciones ajenas a los datos (simetría de la distribución del modelo, población
normal, etc.).
1. Estimación por intervalos de la esperanza poblacional.
Se puede conocer la familia o distribución de nuestra variable o, si no se conoce, se puede
suponer. Como hemos tipificado nuestras variables de estudio, tanto Gastos Totales como Ingresos
Totales, se suponen normales: Además, otro supuesto es que su esperanza y su varianza son
desconocidas para, de este modo, aplicar sobre ellas la inferencia. El análisis inferencial trata de
buscar valores estimados para determinados parámetros, pudiendo hacerlo de forma puntual o por
intervalos.
La estimación puntual no da una medida de la bondad de la estimación, y es este caso sólo
nos podemos basar en las características del estimador y en el tamaño de la muestra. La estimación
por intervalos es más precisa, y da un conjunto de valores (intervalo) dentro del campo de variación
del parámetro.
El procedimiento a seguir será:
 Fijar el nivel de confianza (1 – ε ).
 Construir un intervalo en el que P[θ є (a, b)] = 1 – ε.
Como estimador de la esperanza poblacional se suele utilizar la media muestral. Se debe
buscar una expresión pivotal que dependa de la muestra y del parámetro desconocido, pero su
distribución de probabilidad no va a depender del parámetro.
T (X; θ)
siendo X una muestra aleatoria simple de tamaño n con x  f (x, θ).
Para el cálculo del intervalo de confianza se considerará el siguiente estadístico que se
utilizará como expresión pivotal, cuya distribución de la muestra será la siguiente:
Con un nivel de confianza fijo, y a partir del pivote, se calcula la probabilidad de que ese
esté entre K1 y K2 (intervalo) que será igual al nivel de confianza.
P[K1 ≤ T (X; θ) ≤ K2] = 1 – ε
La expresión del intervalo para un nivel de confianza de (1 – α)% es la siguiente:
La amplitud del intervalo va a depender de tres factores importantes: a mayor nivel de
confianza exigido, el intervalo tendrá una mayor amplitud; cuanto más dispersa sea la variable,
también el intervalo es mayor; y a mayor tamaño de la muestra, ocurre lo mismo.
Para nuestro análisis los resultados aparecen en las hojas de SPSS 12 y 13. Se ha decido
buscar dos intervalos, uno al 95% y el otro al 68%, de tal forma que se pueda ver como varía dicho
intervalo.
Para los gastos el intervalo de confianza al 95% tiene una amplitud de 0’4118952
(recordemos que se ha hecho con la variable tipificada), mientras que para el 68% es sólo de
0’2073616, menos de la mitad. Esto se debe a que al exigir una mayor precisión, el intervalo debe
ser mayor para así asegurarse de que la media poblacional estará en el intervalo el 95% de las veces.
Con los ingresos ocurre exactamente lo mismo, y los intervalos son los mismos.
2. Contraste de significación para la media muestral.
Mediante la observación de la muestra se decide si el valor dado al parámetro en la
hipótesis es coherente o no. Las técnicas que se estudian están encaminadas a obtener un criterio de
decisión. Las hipótesis que se realizan en este caso son sobre parámetros, aunque también existen
de otros tipos como comentaremos más adelante. El criterio de decisión nos dice si la hipótesis es
cierta o no.
El criterio de decisión divide el espacio muestral en dos espacios disjuntos: zona o región
crítica y zona o región de aceptación. De forma que si la muestra, después de tomar un criterio de
decisión, cae en la zona crítica se rechaza la hipótesis nula (o dada), porque la zona crítica recoge
todas aquellas muestras que no son coherentes con dicha hipótesis nula.
Los contrastes pueden ser de dos tipos:
 Paramétricos: cuando se conoce la distribución de probabilidad condicional. Se plantean
hipótesis referentes a los parámetros.
 No paramétricos: se desconoce la distribución poblacional o no se necesita conocerla.
También se llaman contrastes de distribución libre. Los contrastes son más amplios, y las
hipótesis, normalmente, hacen referencia al tipo de distribución aunque también puede
referirse a valores de parámetros.
Los tipos de hipótesis son los siguientes:
 Hipótesis nula: es la hipótesis que se cree que es cierta. Es la más estable por lo que se
necesitará mucha evidencia para rechazarla. (Ho).
 Hipótesis alternativa: es la otra hipótesis o hipótesis que quiere desplazar a la hipótesis
nula. Se denota como HA o H1.
Otra clasificación para las hipótesis pero sólo para contrastes paramétricos es:
 Hipótesis simple: cuando la hipótesis nos dice que el parámetro desconocido es igual a un
único valor.
 Hipótesis compuesta: cuando hace referencia a más de un valor del parámetro desconocido.
Las simples determinan perfectamente la distribución, mientras que con las compuestas
tengo la distribución poco definida.
Los diferentes tipos de errores del contrastre de hipótesis son:
 Error de tipo I: Se rechaza la hipótesis nula cuando es cierta; es un error muy grave.
 Error de tipo II: Se rechaza la hipótesis alternativa cuando es cierta; es poco grave porque
supone que se ha tomado una muestra ‘rara’.
Supongo que tengo una muestra aleatoria simple X1,..., Xn procedente de una población
N(μ,σ) y que quiero contrastar hipótesis relativas a la media de la población, μ.
En primer lugar se considera el caso de “igual” frente a “distinta”, es decir el caso en que se
quiere contrastar si puede admitirse para la media poblacional un determinado valor μo o no.
Ho : μ = μo
H1 : μ ≠ μo
En este caso la región de aceptación se corresponde con el intervalo de confianza:
Aceptándose Ho cuando y sólo cuando ésta pertenezca al intervalo de confianza. Con lo que puede
concluirse que el test óptimo en esta situación es cuando:

Se acepta Ho si:

Se rechaza Ho si:
Supuestos:
 La distribución poblacional es normal con esperanza y varianza desconocidas.
El planteamiento del contraste para nuestro caso será que:
 Ho: la esperanza de la distribución poblacional es μo.
 H1: la esperanza de la distribución poblacional es distinta de μo.
Y para ello se utilizará como medida de discrepancia en el contraste de hipótesis el
siguiente estadístico:
Se aplicará en esta caso únicamente a una variable, que será el “Gasto Total por Hogar”,
teniendo en cuenta que se ha tipificado anteriormente. Los resultados aparecen en la hoja 14 de
SPSS.
El contraste se ha realizado para una esperanza poblacional cero. Los resultados que
aparecen en el cuadro del contraste han sido que el valor de la medida de discrepancia es cero,
siendo los grados de libertas de la ‘t’ 92 (n – 1). Vuelve a mostrar el intervalo de confianza al 95% ,
y nos dice que la diferencia entre la media muestral y la hipótesis nula es de 3,46-16. Lo que
realmente interesa para saber si se acepta o se rechaza la hipótesis, es la significación bilateral o de
dos colas. Ésta indica la probabilidad que deja entre ambos lados, y se debe comprobar si el valor ‘t’
cae en región crítica o en región de aceptación. Para que se llegue a aceptar la hipótesis nula dicha
significación debe ser mayor que α, y puesto que el nivel de significación obtenido es mayor que el
5% no se puede rechazar la hipótesis nula. Gráficamente nos indica que si el valor de la ‘t’ deja
entre ambos lados el 100% de los valores, cuando yo deje un nivel de significación del 5%, la ‘t’
quedará dentro y será región de aceptación.
3. Contraste de significación para la diferencia de medias.
En esta prueba se trata de comprobar la hipótesis nula de la no existencia de diferencias
significativas entre las medias de dos muestras distintas. En el archivo sólo se tiene una muestra,
pero se podrían hacer dos submuestras o subgrupos en base a un criterio determinado. El crierio
seleccionado a sido “Sexo del S.P.” y la variable sobre la que se quiere hacer el contraste es
“Ingreso Total por Hogar”. La prueba de Levene para la igualdad de varianzas es un contraste que
el programa SPS hace previamente para ver si las varianzas pueden tomarse como iguales, o por el
contrario son distintas. Se acepta la hipótesis de la varianza para los ingresos percibidos por
hombres y su equivalente para mujeres son iguales dado que el nivel de significación obtenido es
mayor que el 5% y, por tanto, caería en zona de aceptación.
La situación que se plantea es la de dos poblaciones normales N(μ1, σ1) y N(μ2, σ2) de las
que se han extraído sendas muestras aleatorias independientes de tamaño n1 y n2 respectivamente,
X1,...,Xn1 e X2,...,Xn2, , representando por x1, S21 y por x 2, S22 la media y la varianza de la primera
y segunda muestra respectivamente.
Ho : μ1 = μ2
H1 : μ1 ≠ μ2
Supuestos:
 Se tiene dos variables que deben ser independientes y que deben distribuirse
normalmente.
 Las dos varianzas son desconocidas pero deben ser iguales. Comprobado por el
Test de Levene.
En este caso el test óptimo es:

Se acepta Ho si

Se rechaza Ho si
Si observamos la hoja 15 de SPSS, el valor de la ‘t’ igual a 1,072 dejaría entre ambas colas
un 28,6% de los valores de la distribución, por lo que el estadístico en cuestión caerá en región de
aceptación. Esto se debe a que el nivel de significación obtenido en cada cola 14,3% es superior al
que exigimos para el intervalo de confianza, que es del 2,5%. Esto nos lleva a aceptar que la media
de ingresos entre hombres y mujeres es igual.
Explore
“INTERVALO DE CONFIANZA PARA UN NIVEL DE SIGNIFICACIÓN DEL
95%”
Case Processing Summary
Cases
Valid
N
Zscore: GASTO
TOTAL HOGAR
Mis sing
Percent
93
N
100,0%
Total
Percent
0
N
,0%
Percent
93
100,0%
Descriptives
Statistic
Zscore: GASTO
TOTAL HOGAR
Mean
Std. Error
2,48E-16
95% Confidence
Interval for Mean
Lower Bound
,1036952
-,2059476
Upper Bound
,2059476
5% Trimmed Mean
-4,6E-02
Median
-,1069418
Variance
1,000
Std. Deviation
1,0000000
Minimum
-1,73990
Maximum
3,42810
Range
5,16799
Interquartile Range
1,4060536
Skewness
,703
,250
Kurtos is
,779
,495
Explore
“INTERVALO DE CONFIANZA PARA UN NIVEL DE SIGNIFICACIÓN
DEL 68%”
Case Processing Summary
Cases
Valid
N
Zscore: GASTO
TOTAL HOGAR
Mis sing
Percent
93
100,0%
N
Total
Percent
0
,0%
N
Percent
93
100,0%
Descriptives
Statistic
Zscore: GASTO
TOTAL HOGAR
Mean
68% Confidence
Interval for Mean
5% Trimmed Mean
Median
Variance
Std. Deviation
2,48E-16
Lower Bound
Upper Bound
,1036808
-4,6E-02
-,1069418
1,000
1,0000000
-1,73990
Maximum
3,42810
Interquartile Range
,1036952
-,1036808
Minimum
Range
Std. Error
5,16799
1,4060536
Skewness
,703
,250
Kurtos is
,779
,495
Explore
“INTERVALO DE CONFIANZA PARA UN NIVEL DE SIGNIFICACIÓN DEL 95%”
Case Processing Summary
Cases
Valid
N
Zscore: INGRESO
TOTAL HOGAR
Missing
Percent
93
N
100,0%
Total
Percent
0
N
,0%
Percent
93
100,0%
Descriptives
Statistic
Zscore: INGRESO
TOTAL HOGAR
Mean
Std. Error
-1,8E-16
95% Confidence
Interval for Mean
Lower Bound
,1036952
-,2059476
Upper Bound
,2059476
5% Trimmed Mean
-7,4E-02
Median
-,1375132
Variance
1,000
Std. Deviation
1,0000000
Minimum
-1,54974
Maximum
3,45149
Range
5,00123
Interquartile Range
1,1676478
Skewnes s
1,244
,250
Kurtosis
1,838
,495
Explore
“INTERVALO DE CONFIANZA PARA UN NIVEL DE SIGNIFICACIÓN DEL
68%”
Case Processing Summary
Cases
Valid
N
Zscore: INGRESO
TOTAL HOGAR
Missing
Percent
93
100,0%
N
Total
Percent
0
,0%
N
Percent
93
100,0%
Descriptives
Statistic
Zscore: INGRESO
TOTAL HOGAR
Mean
68% Confidence
Interval for Mean
5% Trimmed Mean
Median
Variance
Std. Deviation
-1,8E-16
Lower Bound
Upper Bound
,1036808
-7,4E-02
-,1375132
1,000
1,0000000
-1,54974
Maximum
3,45149
Interquartile Range
,1036952
-,1036808
Minimum
Range
Std. Error
5,00123
1,1676478
Skewnes s
1,244
,250
Kurtosis
1,838
,495
T-Test
“CONTRASTE DE SIGNIFICACIÓN PARA LA MEDIA MUESTRAL”
One-Sample Statistics
N
Zscore: GASTO
TOTAL HOGAR
Mean
93
Std. Deviation
3,47E-16
1,0000000
Std. Error
Mean
,1036952
One-Sample Test
Test Value = 0
t
Zscore: GASTO
TOTAL HOGAR
df
,000
Sig. (2-tailed)
92
1,000
Mean
Difference
3,468E-16
95% Confidence
Interval of the
Difference
Lower
-,2059476
Upper
,2059476
T-Test
“CONTRASTE DE SIGNIFICACIÓN PARA LA MEDIA MUESTRAL”
One-Sample Statistics
N
Zscore: GASTO
TOTAL HOGAR
Mean
93
Std. Deviation
3,47E-16
1,0000000
Std. Error
Mean
,1036952
One-Sample Test
Test Value = 0
t
Zscore: GASTO
TOTAL HOGAR
df
,000
Sig. (2-tailed)
92
1,000
Mean
Difference
3,468E-16
95% Confidence
Interval of the
Difference
Lower
-,2059476
Upper
,2059476
T-Test
“CONTRASTE DE SIGNIFICACIÓN PARA LA DIFERENCIA DE
MEDIAS”
Group Statistics
SEXO DEL S.P.
VARON
INGRESO TOTAL HOGAR
N
MUJER
Mean
Std. Error
Mean
Std. Deviation
77
2718532
1504649,76
171470,75
16
2270435
1600773,78
400193,45
Independent Samples Test
Levene's Test for
Equality of Variances
F
INGRESO TOTAL HOGAR
Equal variances
assumed
Equal variances
not assumed
Sig.
,497
,483
t-test for Equality of Means
t
df
Sig. (2-tailed)
Mean
Difference
Std. Error
Difference
95% Confidence
Interval of the
Difference
Lower
Upper
1,072
91
,286
448096,40
417869,22
-381949
1278142
1,029
20,874
,315
448096,40
435381,46
-457661
1353854
Descargar