elementos de estadistica

Anuncio
ELEMENTOS DE ESTADISTICA
ELEMENTOS DE ESTADISTICA
 CONCEPTOS GENERALES
La palabra estadística procede del vocablo "estado" pues era función
principal de los gobiernos de los estados establecer registros de población ,
nacimientos , defunciones , etc. Hoy en día la mayoría de las personas
entienden por estadística al conjunto de datos, tablas, gráficos, que se suelen
publicar en los periódicos.
En la actualidad se entiende por estadística como un método para tomar
decisiones, de ahí que se emplee en multitud de estudios científicos.
La estadística se puede dividir en dos partes:

Estadística descriptiva o deductiva, que trata del recuento,
ordenación y clasificación de los datos obtenidos por las
observaciones. Se construyen tablas y se representan gráficos, se
calculan parámetros estadísticos que caracterizan la distribución, etc.

Estadística inferencial o inductiva, que establece previsiones y
conclusiones sobre una población a partir de los resultados
obtenidos de una muestra. Se apoya fuertemente en el cálculo de
probabilidades.
Se llama Población al conjunto de todos los elementos que cumplen una
determinada característica.
EJEMPLO. Alumnos matriculados en la UMAG en el año 2005
Se llama Muestra a cualquier subconjunto de la población.
EJEMPLO. Alumnos de Ingeniería matriculados en la UMAG en el año 2005
Se llama Carácter estadístico a la propiedad que permite clasificar a los
individuos, puede haber de dos tipos :
a) Cuantitativos: son aquellos que se pueden medir.
EJEMPLO Nº de hijos, altura, temperatura.
ELEMENTOS DE ESTADISTICA
b) Cualitativos: son aquellos que no se pueden medir.
EJEMPLO. Profesión, color de ojos, estado civil.
Se llama Variable estadística al conjunto de valores que puede tomar el
carácter estadístico cuantitativo (pues el cualitativo tiene "modalidades’’).
Puede ser de dos tipos:
a) Discreta: si puede tomar un número finito de valores.
EJEMPLO. Nº de hijos
b ) Continua: si puede tomar todos los valores posibles dentro de un
intervalo. Ejemplo: temperatura, altura.
EJEMPLO. Temperatura de una sustancia.
Se llama Frecuencia absoluta fi (de un determinado valor xi) al número de
veces que se repite dicho valor.
Se llama Frecuencia absoluta acumulada Fi (de un determinado valor sí) a
su frecuencia absoluta más la suma de las frecuencias absolutas de todos los
valores anteriores.
Se llama Frecuencia relativa hi es el cociente fi/N , donde N es el número
total de datos .
Se llama Frecuencia relativa acumulada Hi: es el cociente Fi/N.
Si las frecuencias relativas las multiplicamos por 100 obtenemos los
porcentajes.

TRATAMIENTO DE LA INFORMACIÓN
Se deben de seguir los siguientes pasos:
a) Toma de Datos.
b) Ordenamiento de los Datos.
c) Recuento de frecuencias
ELEMENTOS DE ESTADISTICA
d) Agrupación de los datos, en caso de que sea una variable aleatoria
continua o bien discreta pero con un número de datos muy grande se
agrupan en clases. Los puntos medios de cada clase se llaman
marcas de clase. Además se debe adoptar el criterio de que los
intervalos sean cerrados por la izquierda y abiertos por la derecha.
e) Construcción de la tabla estadística que incluirá, clases, marca de
clases, fi, Fi, hi, Hi.
EJEMPLO.
Las notas de Matemáticas (entre 0 y 10) de una clase han sido las siguientes:
5 3 4 1 2 8 9 8 7 6 6 7 9 8 7 7 1 0 1 5 9 9 8 0 8 8 8 9 5 7
Se pide ordenar la información. Hacer una tabla de frecuencias y
representaciones gráficas.
DESARROLLO
a) Tabla de Frecuencias:
xi
0
1
2
3
4
5
6
7
8
9
fi
2
3
1
1
1
3
2
5
7
5
30
Fi
2
5
6
7
8
11
13
18
25
30
hi
2/30
3/30
1/30
1/30
1/30
3/30
2/30
5/30
7/30
5/30
1
Hi
2/30
5/30
6/30
7/30
8/30
11/30
13/30
18/30
25/30
30/30
ELEMENTOS DE ESTADISTICA
b) Representaciones Gráficas:
Para hacer más clara y evidente la información que nos dan las tablas se
utilizan los gráficos, que pueden ser:
Frecuenc ias absolutas fi
Diagramas de Barras: Datos cualitativos de tipo discreto. En el eje y se
pueden representar frecuencias absolutas o relativas.
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
Notas
Histogramas: Datos cuantitativos de tipo continuo o discreto con un gran
número de datos. El histograma consiste en levantar sobre cada intervalo un
rectángulo cuya área es igual a su frecuencia absoluta fi. La altura de cada
rectángulo vendrá dada por ni que se llama función de densidad.
ELEMENTOS DE ESTADISTICA
Polígonos de Frecuencia:
frecuencias absolutas fi
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
notas
Diagrama de sectores:
0
1
2
5
3
1
2
1
1
7
5
2
3
3
4
5
6
7
8
9
9
ELEMENTOS DE ESTADISTICA
Otros gráficos pueden ser:
Cartogramas
Pirámides de población
Diagramas lineales
Pictogramas

MEDIDAS DE TENDENCIA CENTRAL

MEDIA ARITMÉTICA X
La media aritmética para N datos, está dada por:
x
x1  x 2  ...  x n

N
x
i
N
,
La media aritmética para datos agrupados, está dada por:
x
x1 f1  x 2 f2  ...  x k fk

f1  f2  ...  fk
xf
i i
N
.
En el caso de que los datos estén agrupados en clases, se tomará la marca de
clase como xi.
No siempre se puede clacular la media aritmética como por ejemplo cuando
los datos son cualitativos o los datos están agrupados en clases abiertas.
EJEMPLO.
En el caso de las notas de matemática del ejemplo anterior la media
aritmetica es 5,833. Compruébelo.

MODA
La moda es el valor de la variable que presenta mayor frecuencia absoluta.
Puede haber más de una.
Cuando los datos están agrupados en clases se puede tomar la marca de
clase o utilizar la fórmula:
ELEMENTOS DE ESTADISTICA
M0 = Linf
d1
+ 
donde: Linf = límite inferior de la clase modal,
d1  d2
 =amplitud
del intervalo , d1= diferencia entre la fi de la clase modal y la fi de la clase
anterior y d2 = diferencia entre la fi de la clase modal y la fi de la clase
posterior.
También se puede hacer gráficamente:
La moda si sirve para datos cualitativos, pero no tiene por que situarse en la
zona central del gráfico.
EJEMPLO.
En el caso de las notas de matemática del ejemplo anterior, la moda es 8.
Compruébelo.

MEDIANA
La mediana es el valor de la variable tal que el número de observaciones
menores que él es igual al número de observaciones mayores que él. Si el
número de datos es par, se debe tomar la media aritmética de los dos valores
centrales de las observaciones ordenadas.
Cuando los datos están agrupados la mediana viene dada por el primer valor
de la variable cuya Fi excede a la mitad del número de datos. Si la mitad del
número de datos coincide con Fi se tomará la semisuma ente este valor y el
siguiente.
Cuando los datos estén agrupados
proporcionalidad o la fórmula:
Md = Linf
en
clases
se
ELEMENTOS DE ESTADISTICA
puede
utilizar
N
 Fi1
+  2
.
fi
Gráficamente se hace a partir del polígono de frecuencias acumuladas.
EJEMPLO.
Calcular la mediana, en el caso de las notas de matemática del ejemplo
anterior.
DESARROLLO
Si ordenamos los datos de menor a mayor obtenemos:
001112345556677 777888888899999
La mediana es 7, por ser un numero par de datos.
También se podría observar las Fi y ver que en el 7 se excede a la mitad del
número de datos, es decir, sobrepasa el 15.

CUANTILES
Son parámetros que dividen la distribución en partes iguales, así por ejemplo
la mediana los divide en dos partes iguales, los cuartiles son tres valores que
dividen a la serie de datos en cuatro partes iguales, los quintiles son cuatro
valores que lo dividen en 5 partes, los deciles en 10 y los percentiles en
100. Se calculan de la misma manera que la mediana.
También se puede utilizar la fórmula:
Cn = Linf +  
n
N
 Fi 1
100
,
fi
donde n es el valor que deja el n porciento de los valores por debajo de él.

MEDIDAS DE DISPERSION

RANGO DE RECORRIDO
ELEMENTOS DE ESTADISTICA
Se llama Rango o recorrido a la diferencia entre el mayor valor y el menor.
EJEMPLO.
En el caso de las notas de matemática del ejemplo anterior, el rango es
9 – 0 = 9.

VARIANZA s2
Se llama varianza a la media aritmética de los cuadrados de las desviaciones
respecto a la media (desviación respecto a la media d = xi - x ).
s2 =
x1  x 2  x 2  x 2  ...  (x n  x)2
N
 x
 x
2
i
N
f1 x1  x   f2 x 2  x   ...  fk ( x k  x)2
=
f1  f2  ...  fk
2
s2 =
=
2
 f x
i
i
,
 x
2
N
.
Al igual que la media en el caso de que los datos estén agrupados en clases ,
se tomará la marca de clase como xi .
Otra forma de calcular s2 es:
 f x
i
2
s =
fx
i i
N
i
 x
N
2
 f x
=
i
2
i
 x 2  2x i x
N
  fx
i i
N
2
 x 2  2x 2 =
2
 x2 .
Se llama desviación típica s a la raíz cuadrada de la varianza. Es más útil
que la varianza ya que tiene las mismas dimensiones que la media.
ELEMENTOS DE ESTADISTICA
EJEMPLO.
En el caso de las notas desviación típica es 2,922 y la varianza 8,539.
Compruébelo.

COEFICIENTES DE VARIACION
Es el coefiente entre la desviación típica y la media aritmética.
C.V. =

.
x
Valores muy bajos indican muestras muy concentradas.

DISTRIBUCIONES BIDIMENSIONALES

VARIABLES ESTADÍSTICAS BIDIMENSIONALES
Se llaman Variables Estadísticas Bidimensionales, a las variables que cuando al
estudiar un fenómeno obtenemos dos medidas x e y, en vez de una como
hemos hecho hasta ahora.
EJEMPLO.
La longitud y el diámetro de ciertos pernos; ingresos y gastos de las familias
de los trabajadores de una empresa; edad y numeros de días que faltan al
trabajo los empleados de una fábrica.

TIPOS DE DISTRIBUCIONES BIDIMENSIONALES
a) cualitativa - cualitativa
b) cualitativa - cuantitativa (discreta o continua)
c) cuantitativa (discreta o continua) - cuantitativa (discreta o continua)

TIPOS DE TABLAS
a) Tabla de dos columnas xi , yi (pocos datos)
b) Tabla de tres columnas xi, yi, fi (muchos datos y pocos valores posibles)
c) Tablas de doble entrada (muchos datos y muchos valores posibles)
ELEMENTOS DE ESTADISTICA
y1
y2
.....
ym
fi*

x1
f11
f12
.....
f1m
f1*
x2
f21
f22
......
f2m
f2*
......
......
......
......
......
......
xn
fn1
fn2
......
fnm
fn*
f*j
f*1
f*2
......
f*m
f**=N
DIAGRAMAS DE DISPERSION
a) Si hay pocos datos (tabla de dos columnas), se representan las variables en
los ejes x e y.
b) Si hay muchos datos pero muy agrupados (tabla de tres columnas y tablas
de doble entrada), se hace igual pero con los puntos más gordos según la f i, o
se pintan muchos puntos juntos, o se pinta en tres dimensiones x, y, fi, con lo
que obtendríamos un diagrama de barras en tres dimensiones.
Si hay muchos datos y muchos valores posibles, se pueden agrupar en clases,
y se utilizan los estereogramas (3 dimensiones) en los que el volumen de
cada prisma es proporcional a la frecuencia. También se puede tomar la
marca de clase de los intervalos y tratar la variable continúa como si fuese
discreta.

CALCULO DE PARAMETROS
Si hay pocos datos o están muy agrupados (tablas de 2 ó 3 columnas):
yf
y
i i
N
s 2x
 f x

i
i
 x
2
N
s 2y
 f y

i
i
 y
N
2
.
Entonces aparece un parámetro nuevo que es la covarianza, que es la media
aritmética de las desviaciones de cada una de las variables respecto a sus
medias respectivas, esto es:
s xy 
 f x
i
i
 x y i  y 
N
=
 fx y
Si hay muchos datos (tablas de doble entrada):
i i i
N
 x  y.
x
xf
i i*
N

s 2x
f

s 2y
 f y

i*
s xy 


x i  x 2
N
*j
j
y
2
N
  f x
ij
i


x ifij
N
y
,

f ij x i  x 


 x y j  y
N
2

N
f ij y j  y
y f
j *j
N

f x

f y
2
N
ELEMENTOS DE ESTADISTICA

2
ij i
   fij xiy j
=
N
ij
2
j

 x2
y j fij
N
,
,
 y2 ,
xy .
CORRELACION O DEPENDENCIA
Es la teoría que trata de estudiar la relación o dependencia entre las dos
variables que intervienen en una distribución bidimensional, según sean los
diagramas de dispersión podemos establecer los siguientes casos:
a) Dependencia funcional o correlación nula : cuando no existe ninguna
relación entre las variables .( r = 0 )
b) Dendencia funcional o correlación funcional : cuando existe una
función tal que todos los valores de la variable la satisfacen ( a cada valor de x
le corresponde uno solo de y o a la inversa ) (r =  1)
c) Dependencia aleatoria o correlación curvilinea (ó lineal ): cuando
los puntos del diagrama se ajustan a una linea recta o a una curva , puede ser
positiva o directa , o negativa o inversa ( -1<r<0 ó 0<r<1)
ELEMENTOS DE ESTADISTICA
EJEMPLO.
A 12 alumnos de las carreras técnicas se les toman las notas de los últimos
exámenes de matemática, física y lenguaje:
Matemáticas
2
3
4
4
5
6
6
7
7
8
10
10
Física
1
3
2
4
4
4
6
4
6
7
9
10
Lenguaje
2
5
7
8
5
3
4
6
7
5
5
9
Si representamos las variables matemáticas- física en un diagrama y
matemáticas-lenguaje en otro vemos que la correlación es mucho más fuerte
en el primero que en el segundo ya que los valores están más alineados .
Compruébelo.

COEFICIENTE DE CORRELACION LINEAL
Es una forma de cuantificar de forma más precisa el tipo de correlación que
hay entre las dos variables, esto es:
r=

s xy
sxsy
.
REGRESION
Consiste en ajustar lo más posible la nube de puntos de un diagrama de
dispersión a una curva. Cuando esta es una recta obtenemos la recta de
regresión lineal, cuando es una parábola, regresión parabólica , cuando es una
exponencial obtenemos una regresión exponencial, etc.
La recta de regresión de y sobre x está dada por:
ELEMENTOS DE ESTADISTICA
yy
s xy
s 2x
(x  x) ,
el cual se hace mínima la distancia entre los valores yj obtenidos
experimentalmente y los valores teóricos de y.
A valor
s xy
s 2x
se le llama coeficiente de regresión de y sobre x (nos da la
pendiente de la recta de regresión).
La recta de regresión de x sobre y está dada por:
xx 
s xy
s 2y
(y  y) ,
en la cual se hace mínima la distancia entre los valores obtenidos
experimentalmente y los valores teóricos de x.
A valor
s xy
s 2y
se le llama coeficiente de regresión de x sobre y (su inversa
nos da la otra pendiente).

TALLER
1. Un artículo presenta los siguientes datos sobre el octanaje de varias mezclas
de gasolina:
88.5
94.7
84.3
90.1
89.0
89.8
91.6
87.7
91.1
86.7
93.4
96.1
89.6
90.4
83.4
91.0
88.2
88.5
93.3
87.4
91.1
86.7
94.2
90.8
90.1
91.8
88.4
92.6
87.5
87.8
88.3
89.2
92.3
88.9
89.8
91.5
89.9
98.8
88.3
90.4
91.2
90.6
88.6 100.3
88.3 87.6
94.2 92.7
85.3 87.9
90.1 93.0
89.3 94.4
91.1 90.4
96.5
84.3
93.2
88.6
88.7
92.7
89.3
93.3
86.7
91.0
90.9
89.9
91.8
89.7
1.1 Calcule e interprete el significado de la media aritmética y la mediana de
los datos.
1.2 Calcule la desviación media y la desviación típica de los datos.
ELEMENTOS DE ESTADISTICA
1.3 Construya una tabla de distribución de frecuencias de 7 categorías, de
modo que la primera sea (82 – 85).
1.4 Construya una histograma y haga un análisis del resultado.
1.5 Calcule e interprete el significado de la media aritmética y la mediana de
los datos agrupados. Compare los resultados con los obtenidos en 1.1.
1.6 Calcule e interprete el significado del quintil 4 de los datos agrupados.
1.7 Determine que octanaje deja sobre él al 10% de los datos.
2. La siguiente es la información entregada por el software Stadis respeto de
mediciones de la temperatura en grados Fahrenheit del fluído de descarga de
una planta para el tratamiento de aguas negras durante varios días
consecutivos:
MEDIDAS DE TENDENCIA CENTRAL (var. X)
-
Tamaño Muestral
Media Aritmética
Mediana
Moda
Cuartil Q(1)
Cuartil Q(3)
72
48.5
48.609
48.571
46.261
51.143
MEDIDAS DE DISPERSION (var. X)
- Varianza
- Desviación Típica
- Desviación Media
- Coef. Variación de Pearson
- Recorrido
- Máximo
- Mínimo
11.5
3.3391
2.833
0.07
12.0
53.5
41.5
Interprete el significado de cada uno de los resultados.
ELEMENTOS DE ESTADISTICA
3. En la siguiente tabla se muestran las medidas del espesor de recubrimiento
de un cierto alambre galvanizado obtenidas mediante un método estándar “y”
y un método magnético “x”. Se desea obtener la mejor relación lineal que
permita a “y” en función de “x”.
Y
116
132
104
139
114
129
720
174
342
338
465
x
105
120
85
121
115
127
630
155
250
310
443
Resp.
y = 1.11 x + 5.57
Descargar