Escuela Inglesa Escuela Franco Suiza Escuela

Anuncio
06/09/2012
GEOESTADÍSTICA 2012
… O QUE HACEMOS CON LOS DATOS….
POST EGIPCIOS ROMANOS Y GRIEGOS
Escuela Inglesa
• Galton, Pearson, Tukey
• Nightingale
Escuela Franco Suiza
• Bernoulli
Escuela Francesa
• Matheron
1
06/09/2012
QUÉ ES LA ESTADÍSTICA?
|
|
Es el arte de realizar inferencias y o sacar
conclusiones a partir de datos imperfectos
Imperfectos?: son limitados, pero deben ser
escogidos de manera tal de ser representativos.
Es decir su elección está signada por el azar, es
fortuita.
UTILIDADES DE LA ESTADÍSTICA
Diseño: permite el planeamiento y desarrollo de
investigaciones
Descripción: nos permite resumir datos
numerosos y explorarlos.
Inferencia: Nos permite hacer predicciones o
generalizaciones acerca de las características de
un conjunto finito o infinito de datos posibles
basados en la representatividad de un subgrupo
de datos
2
06/09/2012
DEFINIENDO ALGO…
Población: total de sujetos o unidades de análisis
de interés en un estudio
| Muestra: subconjunto de la población en la cual
se recolectarán datos
| Parámetro: es una medida RESUMEN que se
calcula sobre la POBLACIÓN
| Estadístico o estadígrafo: es una medida
RESUMEN calculada
l l d sobre
b la
l MUESTRA
|
FLORENCE NIGTHINGALE
3
06/09/2012
4
06/09/2012
TIPOS DE DATOS
Categóricos o cualitativos: registran la presencia de
un atributo
Numéricos o cuantitativos: resultan de contar o
registrar una magnitud
Otros: rangos, porcentajes, scores etc.
Los datos cualitativos se conocen como
variables: escalares/vectoriales
continuas/discretas
Escucho
ejemplos!
EN EL CASO DE DATOS NUMÉRICOS
|
DISCRETOS es un número finito de valores
p
posibles
Ej. no se pueden tener dos hijos y medio
Continuos: pueden tomar infinitos valores aun
dentro de un rango acotado
Ej. Estatura, peso, temperatura, concentración.
Cómo clasifica a la variable edad?
Qué pasa con le valor 0 en cada caso?.
5
06/09/2012
POR QUÉ ES IMPORTANTE IDENTIFICAR EL
TIPO DE DATOS?
El tipo de datos DETERMINA el método
apropiado de análisis
| Hay métodos estadísticos que son específicos para
un cierto tipo de datos
|
|
|
|
|
Es importante conocer la “calidad de los datos” en
general en términos estadísticos se habla de
“ b
“observaciones”
i
” y estas
t son mejores
j
cuando
d
cumplen con algunas condiciones:
Aleatoriedad: cada observación o dato tiene la
misma chance (probabilidad) de ser seleccionada.
Independencia: la selección de una observación
no afecta la selección de otra. Concentraciones?.
Calidad puntual: exactitud: cercanía con el valor
verdadero
precisión: los valores aunque
pueden estar cercanos entre si pueden estar
alejados del valor verdadero o ideal
6
06/09/2012
EJEMPLOS CON Y SIN REPOSICIÓN
|
|
Tengo una caja con 6 bolitas ( todas blancas) o 5
blancas y una negra
Que probabilidad tengo de extraer una bolita en
BLANCA la primera extracción y cuanto en la
segunda con y sin reposición y en cada caso.
ESTADÍSTICA DESCRIPTIVA
(INTERPRETATIVA DE DATOS)
|
No permite hacer inferencias o proyecciones pero
SI analizar exhaustivamente los datos con los
que contamos sin importarnos la calidad de los
mismos. Los describimos.
Tablas
| Gráficos
| Estadísticos
|
7
06/09/2012
TABLAS DE FRECUENCIA
|
Indican el rango de valores observados de la variable
(dominio) y cuán frecuente ocurren
|
Frecuencias absolutas: contabilizan el número de
individuos de una determinada modalidad
|
|
|
|
|
Frecuencias relativas: ( porcentajes ) Idem pero
dividido por el total
Frecuencia acumulada: indican la cantidad de datos
acumulados hasta cierto valor de la variable.
variable Pueden
ser absolutas o relativas. Tienen sentido si la variable
es ordinal
N: número de individuos de la población
n: número de individuos de una muestra
Variables cualitativas (tablas)
Sexo
FA
FR
----------------------------------Hombre
25
0,42
Mujer
35
0,58
Total
60
1,00
8
06/09/2012
HISTOGRAMAS
Equivalentes
n
√n
100
1000
100000
1000000
10.0
31 6
31.6
316.2
1000
1+3.22× log10 (n)
7.4
10
10.7
7
17.1
20.3
HISTOGRAMAS
Cuantas clases?: atención a la línea de base
| Cuidado con las clases √n o 1 + 3.3
3 3 log10 (n)
| Proporciones representadas en áreas
| Los intervalos deben ser de la misma longitud?
| Área total bajo el histograma 100%
| Qué información obtenemos?
| 1. Forma de la distribución
| 2. Si hay agrupamientos
| 3. Si hay datos atípicos
|
9
06/09/2012
POLÍGONOS DE FRECUENCIAS
10
06/09/2012
GRAFICO DE TALLO Y HOJAS
Tasa de gripe X cada mil habitantes, año 2000 en
Bs. As.
| Tasa
Tasa
0 0
0.00
3.20
1 266
1.28
3.21
2 18
1.60
4.01
3 0122
1.67
4.22
4 0238
2 19
2.19
4
4.38
38
5
2.87
4.84
6
3.01
8.07
7
3.16
9.29
8 0
9 2
|
Que información obtenemos?
| El rango de las observaciones
| La forma de la distribución (simetría)
| Cuántos picos tiene la distribución
| Si hay valores que se apartan de la distribución
|
No hay pérdida de información
Apropiado para muestras pequeñas
11
06/09/2012
MEDIDAS RESÚMENES
Medidas de posición o localización: describen un
valor alrededor del cual se encuentran las
observaciones
| Medidas de dispersión o escala: muestran la
variabilidad de un conjunto de datos
|
|
|
1.- Media aritmética o promedio muestral
Media poblacional μ= E (X) también conocida
como “esperanza de X”
QUÉ PODEMOS DESCRIBIR DE UNA
DISTRIBUCIÓN MUESTRAL?
Tendencia Central: indican valores a los que los
datos parecen agruparse
| Dispersión: indican la mayor o menor cercanía de
los datos respecto de las mediadas de la TC
|
varianza, desviación estándar, rango intercuartílico, coeficiente de variación.
™
Posición: dividen un conjunto ordenado de datos
en grupos con individuos dentro de una misma
clase o rango
cuartiles, deciles, percentiles
™
Forma: permiten observar geometrías de distr.
asimetría , kurtosis
12
06/09/2012
En una curva simétrica las medidas de posición y de dispersión son iguales
Existe algún caso donde no exista un valor mas frecuente y se cumplan
las condiciones de simetría?
PROPIEDADES DE LA MEDIA
Se usa para datos numéricos
| Representa el centro de gravedad de los datos: es
decir la suma de las distancias a la media es 0
| Es muy sensible a la presencia de datos atípicos o
outiers
|
13
06/09/2012
QUÉ PODEMOS DESCRIBIR DE UNA
DISTRIBUCIÓN MUESTRAL?
Tendencia Central: indican valores a los que los
datos parecen agruparse
| Dispersión: indican la mayor o menor cercanía de
los datos respecto de las mediadas de la TC
|
varianza, desviación estándar, rango intercuartílico, coeficiente de variación.
™
Posición: dividen un conjunto ordenado de datos
en grupos con individuos dentro de una misma
clase o rango
cuartiles, deciles, percentiles
™
Forma: permiten observar geometrías de distr.
asimetría , kurtosis
MOMENTOS
Primer momento: media
| Segundo momento: varianza
| Momento de tercer orden: asimetría
| Momento de cuarto orden : kurtosis
|
14
06/09/2012
MEDIANA
MEDIANA
| Mediana Poblacional: representa el dato que me
deja al 50 % de población de cada lado. Es el
valor
alor (n) que di
divide
ide a la serie de datos en dos
partes iguales o equidistantes del centro o
posición de centro. Cada segmento tiene igual
NUMERO de términos. De un lados todos son
menores y del otro todos son mayores. Puede ser
un número inexistente entre el conjunto de datos.
| No se halla influida por outliers
| Mediana muestral: es el dato que ocupa la
posición central en una muestra ordenada si los
datos son impares n/2 sino n+1/2
|
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Datos 20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
1. Ordenar la muestra
2. Q 1 El cuartil inferior es n/ 4= 25 % ocupa la posición (n+1)/4
en la muestra ordenada 24 + 25/ 2= 24.5
1. Q 3 es el que representa al 75 % de la muestra y es 3
( +1)/4 15 75 (39)
(n+1)/4=15.75
2. Q 2 es la mediana o me = n + 1/2 = 10.5
si el resultado es decimal
se promedian los datos que
se encuentran a izquierda y
derecha de la posición obtenida
Distancia intecuartílica
Di = Q3 – Q1 aloja al 50 % de la muestra
1ª cota inferior=
inferior Q1- 1.5
1 5 Di = 15
2ª cota inferior = Q1- 3 Di= -19
1ª cota superior= Q3 + 1.5 Di = 71.6
2ª cota superior= Qs+ 3 Di = 82.5
15
06/09/2012
PARA QUE SIRVE UN BOX PLOT?
Ubica los datos outliers
| Muestra la asimetría de la distribución
| Ofrece una medida de posición robusta (mediana)
| Una medida de posición robusta (Di)
| Muestra la existencia de simetría o no
| Me muestra 5 números resúmen
|
EJERCICIO
16
06/09/2012
Mínimo
4.00
7.00
55.00
Q1
8.00
28.00
80.00
Mediana
14.50
30.00
85.00
Q3
32.75
43.00
90.00
Máximo
51.00
60.00
95.00
Gráfico de caja y bigote con 3 componentes
90,0
80,0
95,0
55,0
3
85,0
43,0
28,0
60,0
7,0
2
30,0
32,8
8,0
4,0
51,0
1
14,5
0
20
40
60
80
100
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
datos datos datos
variable variable variable
1
2
3
5
20
55
5
20
60
4
20
65
5
20
70
5
20
75
5
20
80
5
60
85
5
40
90
5
45
95
5
45
95
5
45
95
5
7
78
5
45
80
5
45
80
5
45
80
5
40
80
8
40
80
8
45
80
8
45
80
8
43
80
8
43
80
8
43
80
8
43
80
8
45
80
8
50
80
8
30
80
8
30
80
8
30
95
12
30
95
12
30
95
12
30
95
12
30
90
12
30
90
12
30
90
12
30
90
13
30
90
14
30
90
15
30
90
16
30
90
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
28
28
28
28
28
28
28
28
25
26
27
90
90
90
90
90
90
90
90
90
90
95
95
95
95
95
85
85
85
85
85
85
85
85
85
85
85
85
85
55
55
55
55
55
55
55
VARIANZA Y DESVIACIÓN ESTANDARD
La varianza es la media de las diferencias de los
datos con la media elevada al cuadrado σ2 S2
Elevar las diferencias al cuadrado me elimina los
valores negativos.
| La desviación estandar mide cuanto se separan
los datos respecto de la media (dispersión) se la
identifica con la letra σ = √σ2
|
MAL!
Grados de libertad!
17
06/09/2012
EJERCICIO
COEFICIENTE DE VARIACIÓN
|
CV= σ / µ × 100 Poblacional
|
CV= S/ ō × 100
¾
¾
¾
Muestral
No tiene unidades
Es una medida de variabilidad relativa ya que
mide la desviación típica
p
“que
q tamaño tiene con
respecto ala media”
Se utiliza en comparaciones
18
06/09/2012
MEDIDAS DE SIMETRÍA
Coeficiente de g de Fisher
MEDIDAS DE FORMA
19
06/09/2012
D1 aprox = 4/3 S cuando la
Distribución es simétrica
y acampanada.
Si la distribución es muy
asimétrica → S> D1
Propiedades de la desviación estándar:
S= 0 solamente cuando todos los datos son iguales, de otro modo es S > 0
Es una medida de dispersión sensible a los datos outliers
S es una medida de dispersión alrededor de la media y DEBE usarse
acompañando a la misma cuando se presentan datos.
20
06/09/2012
DISTRIBUCIÓN NORMAL
1.
2.
3.
4.
5.
6.
Tiene dominio en los reales (R) y es continua
f (x) > 0 para todo x real
es simétrica respecto a la recta x = µ
Tiene un punto máximo en ℮ ( exp. de )
Presenta dos puntos de inflexión en x - µ y x+µ
Cualquier transformación lineal de un N da otra N
21
06/09/2012
FIN DE LA PRIMERA PARTE
|
Solo contiene ejemplos en las siguientes
22
06/09/2012
23
06/09/2012
DISTRIBUCIONES DE MEDIAS ARITMÉTICAS
Si efectuamos varios muestreos en una
POBLACIÓN se obtiene la media aritmética de
cada muestreo.
| Luego genero mi nueva población con los
PROMEDIOS, que a su vez tiene su propio
promedio μ (xō) y 2 x
| El promedio de una población original es igual al
promedio de la población de promedios μ = μō
| La varianza de una población de promedios viene
dada por 1/n (con n observaciones) de la varianza
de la población original: 2 = 2/n
| Aplico √ →x =  /√n
|
PARA MUESTRAS
|
Existe una relación similar con S
Corolario: la variaza de una población de
promedios es SIEMPRE menor que la varianza
de la población ORIGINAL a la desviación típica
de la población de promedios se la conoce como
error estándar
| se puede
d aplicar
li
la
l estandarización
t d i ió para los
l
promedios: (x es subíndice y X es promedio)
|
24
06/09/2012
25
06/09/2012
26
06/09/2012
27
06/09/2012
28
06/09/2012
FUNCIÓN DE DENSIDAD
f (x) es una función que describe la distribución
de probabilidades de la variable aleatoria x
| Una función de densidad debe cumplir con
algunos requisitos: f (x) ≥ 0 para todo x
| El área bajo la curva total es 1
| La probabilidad de que un evento ocurra en un
intervalo [a,b] es el área bajo la curva de la
función de ese intervalo:
P (a< b) = P (x (a,b))= ∫ba f (x) dx
|
Si x = a = 0 entonces es entre menos infinito y a el área a tener en cuenta por la integración
Variables discretas
Variables continuas
E (x) = ∑ xi pi
E (x) = ∫ x f (x) dx
2 (x) = ∑ (xi –μ)2 pi
2 (x) = (x – μ(x))2 f (x) dx
29
Descargar