Introducción a Stata Clase 2: Estad´ısticas Descriptivas y Gráficos

Anuncio
Introducción a Stata
Clase 2: Estadı́sticas Descriptivas y Gráficos
R. E. De Hoyos*
University of Cambridge
3 de marzo de 2005
1.
Introducción
En esta sesión del curso presentamos las distintas herramientas que se pueden
utilizar—como un primer paso—para analizar los datos. Las dos formas más
usuales de empezar un análisis estadı́stico son las tablas con estadı́sticas
descriptivas y el análisis gráfico.
2.
Tablas con Estadı́sticas Descriptivas
codebook es un comando muy útil para empezar a analizar la base de datos.
Si no se especifica una variable codebook presenta estadı́sticas descriptivas
sobre cada una de las variables en la base de datos, alternativamente se puede
obtener información sobre sólo alguna(s) variable(s) en particular escribiendo
el nombre de la(s) variable(s) despues de codebook. Un comando alternativo
*
red29@cam.ac.uk
1
que presenta estadı́sticos similares a codebook pero de forma resumida es
summarize. Aqui se presenta un ejemplo del comando summarize:
sysuse auto
summarize price mpg
Cuadro 1: summarize
Variable Obs
Mean
Std. Dev.
Min
Max
price
74 6165.25
2949.49
3291
15906
mpg
74
5.78
12
41
21.29
El cuadro 1 presenta información sobre el número de observaciones, la media, desviación estandar y el rango de las variables. Muchas veces necesitamos
crear una tabla con determinados estadı́sticos descriptivos, para hecer esto se
puede hacer uso de los comandos tabstat o table. Estos comandos tienen
mucha flexibilidad no sólo en los estadı́sticos que se pueden incluir pero también en el formato en que estos se presentan como se puede ver en el siguiente
ejemplo:
sysuse auto
tabstat price mpg trunk weight, statistics(mean n sum sk
median)
Cuadro 2: tamstat
Variable
mean
N
sum
skewness
p50
price
mpg
trunk
weight
6165.25 21.29
13.75
3019.45
74
74
74
74
456229
1576
1018
223440
1.65
.948
.029
.148
5006.5
20
14
3190
2
El comando inspect es una forma sencilla de obtener informacion sobre
la distribución de una variable. Presenta pequeñas gráficas con puntos de
frecuencias relativas y algunos estadı́sticos sobre el numero de observaciones
distintas de cero, etc. tabulate, por otro lado, realiza tablas con frecuencias
y presenta varios estadı́sticos de correlacı́on entre dos variables previamente
seleccionadas:
sysuse auto
tabulate rep78 foreign
Cuadro 3: tabulate
Repair record
1978
Car type
domestic
foreign
Total
1
2
0
2
2
8
0
8
3
27
3
30
4
9
9
18
5
2
9
11
Total
48
21
79
Comandos: codebook, summarize, inspect, tabstat, table, tabulate
2.1.
Estadı́sticos de Momentos
Toda distribución puede ser inferida por sus momentos. Los momentos más
utilizados son el primero (la media) y el segundo (la varianza). En la sección
anterior vimos cómo podemos obtenerlos. Para probar estadı́sticamente la
diferencia entre dos medias provenientes de distribuciones independientes, es
necesario utilizar información acerca del segundo momento. Esto se puede
llevar al cabo utilizando el comando ci para formar intervalos de confianza
3
de las medias y ver si se intersectan o no. La no intersección quiere decir que
no hay evidencia suficiente para rechazar la Ho: igualdad de medias.
Los momentos tercero y cuarto de la distribución también nos dan información valiosa. La skewness o tercer momento nos dice si la distribución es
simétrica con respecto a la media. Valores de este estadı́stico iguales a cero
indican una distribución simétrica mientras que valores mayores (menores)
a cero indican que la cola de la distribución esta sesgada hacia la derecha
(izquierda). La kurtosis o cuarto momento, mide la densidad que se concentra en las colas; una distribución normal (del tipo Gauss) tiene una kurtosis
igual a tres. Valores que difieren de la normal se dice que tienen colas con
algunos picos (no nos referimos a picos en sentido estricto—número infinito
de derivadas—sino solo a vecindarios en donde la distribución no es tan suave
como la normal.)
Para obtener información hacerca de los momentos de la distribución podemos
usar el comando summarize con la opción detail. Pruebas para normalidad
de una distribución—en base al tercer y cuarto momento—se pueder realizar
utilizando el comando sktest.
Comandos: ci, summarize, sktest
3.
Gráficos
La mejor manera de resumir la información contenida en los datos es haciendo
un análisis gráfico de los mimsos. Stata tiene un gran número de gráficas
siendo scatter, twoway, histogram y kdensity entre los comandos más
utlizados.
Las graficas twoway pueden presentarse de diferentes maneras, una de las
más comunes es en forma de puntos.1 El comando scatter se utiliza en el
siguiente ejemplo para observar cómo se ha comportado la expectiativa de
1
Los siguientes ejemplos se pueden aplicar a gráficas de lineas, áreas o barras.
4
vida al nacer (le) a travez del tiempo (year). La base de datos (uslifeexp2)
que usamos para realizar la gráfica 1 es una de las que provee el sistema
(integradas en Stata) y es llamada utilizando el programa sysuse. En el
segundo renglón del ejemplo especificamos que queremos una gráfica del tipo
“scatter” que relacione las variables le y year.
sysuse uslifeexp2, clear
scatter le year
40
45
life expectancy
50
55
60
65
Figura 1: Gráfica en forma de Puntos
1900
1910
1920
Year
1930
1940
O bien estos puntos se pueden unir utilizando la opción connect:
scatter le year, connect(l)
40
45
life expectancy
50
55
60
65
Figura 2: Gráfica en forma de Puntos Unidos
1900
1910
1920
Year
5
1930
1940
La mayorı́a de las opciones gráficas permite un análisis por grupos utilizando
el comando by:
scatter lexp gnppc, by(region)
Figura 3: Gráfica por Grupos
N.A.
60
50
0
10000
20000
30000
40000
70
80
S.A.
50
60
Life expectancy at birth
70
80
Eur & C.Asia
0
10000
20000
30000
40000
GNP per capita
Graphs by Region
Histogramas de frecuencias y distribuciones de densidad kernel pueden ser
graficados utilizando los comandos histogram y kdensity respectivamente.
También es posible combinar ambas funciones en un sólo gráfico como se
muestra en el siguiente ejemplo:
histogram volume, freq kdensity xaxis(1 2) ylabel(0(10)60,
grid) xlabel(12321 "mean"9735 1 s.d."14907 "+1 s.d."7149
2 s.d."17493)
Figura 4: Histograma y Kernel
10,000
Volume (thousands)/x
15,000
0
10
20
Frequency
30
40
50
60
5,000
−2 s.d. −1 s.d.
mean +1 s.d. 17,493
Volume (thousands)
6
20,000
25,000
Note como dentro de las opciones de histogram se incluye el formato freq
indicando que la altura de las barras del histograma miden el número de
observaciones en cada rango (las frecuencias). La opción kdensity le dice a
Stata que queremos una función de densidad del tipo kernel superimpuesta
al histograma. Las otras dos opciones, ylabel y xlabel son sólo los tı́tulos
de los ejes.
El intervalo que define el area de las barras de histogram puede ser ajustado
utilizando las opciones bar y width. Si se reduce el area de las barras de
un histograma hasta formar una gráfica con lineas en lugar de barras, el
resultadeo es una distribución de densidad en lugar de frecuencias. La forma
en que pasamos de un gráfico de frecuencias a uno de densidad varia según la
técnica utilizada, siendo el método kernel uno de los más comunes. La ventaja
de utilizar densidades kernel es que no se impone ninguna estructura, ya que
la linea que produce lo hace utilizando estadı́siticos no paramétricos.
Las opciones gráficas de Stata le permiten añadir marcos, tı́tulos a los ejes,
cambiar de colores las distintas varibles graficadas, elegir la escala de los ejes,
etc. (vea help twoway options.)
Comandos: graph, twoway, scatter, histogram, kernel
4.
Resumen
En esta sesión exploramos varias opciones para comenzar una inspección de
la base de datos. Lo más común es empezar un análisis produciendo tablas
con estadı́sticos descriptivos y de corralación simple entre dos variables; los
comandos summarize, tabstat y tabulate son los ideales para estas tareas.
Por otro lado, vimos cómo producir gráficos de puntos y lineas relacionando dos variables, asi mismo, aprendimos a graficar frecuencias relativas y
densidades usando histogram y kernel repectivamente.
7
Descargar