CapÃtulo Ia

Anuncio
Métodos Estadísticos
Capítulo I
Dr. Gabriel Arcos Espinosa
UNIDADES
I.- Introducción
a la
estadística.
CONTENIDOS TEMATICOS
1.
2.
Introducción
Qué es la
estadística
3. El papel de la
estadística en la
ingeniería y la
ciencia
administrativa.
4. Aplicaciones de
la estadística.
5. Estadística
descriptiva.
6. Organización y
presentación de
datos
estadísticos.
7. Distribución de
frecuencias.
8. Graficas.
9. Medidas
descriptivas.
10. Medidas de
dispersión
11. Ejercicios de fin
de Capitulo.
ESTRATEGIAS DEL
PROCESO ENSEÑANZA
APRENDIZAJE E
INVESTIGACION
OBJETIVOS
PARTICULARES
•
•
•
•
Definir las áreas
de aplicación de la
Estadística en el
campo de las
empresas.
Comprenderá la
metodología de la
Estadística.
Resumir y
presentar datos
desde un punto de
vista estadístico.
Aprenderá a
discriminar,
seleccionar y
validar el modelo
estadístico más
apropiado para
cada caso.
•
•
•
•
•
Exposición del
profesor, el estudio de
casos, uso de
proyectos.
Practica empleando la
computadora.
Se fomentara el uso
de software.
Se propiciara el
trabajo en equipo.
Se hará un trabajo
practico por equipo,
mismo que se
expondrán en la
última sesión del
curso.
ESTRATEGIAS DE
EVALUACION
•
•
•
•
•
Actividades en
equipo.
Tarea.
Solución de
ejemplos con
ayuda de la
computadora.
Examen escrito.
Proyecto.
Estadística: Es la ciencia que se ocupa de recolectar,
organizar, presentar, analizar e interpretar datos
para ayudar a una toma de decisiones más eficientes.
Estadística descriptiva:
conjunto de métodos para
organizar,
resumir
y
presentar los datos de
manera informativa.
Estadística
inferencial:
Conjunto
de
métodos
utilizados para saber algo
acerca de una población,
basada en una muestra.
PAPEL DE LA ESTADÍSTICA
La estadística se ha convertido en herramienta vital
para los Ingenieros, Administradores y Economistas, ya
que les permite comprender fenómenos sujetos a
variación y predecirlo o controlarlo eficazmente.
Razones para estudiar estadística:
•La primera razón es que en todos lados encontramos información
numérica:
•La empresa General Electric reportó que en 1999 sus ganancias fueron
de $ 111 630 000 (dólares) mayor que los $ 100 469 000 que obtuvo
en 1998.
•Las egresados de Posgrado del programa de maestría en
administración de empresas de la universidad de
Notre Dame,
contaron con un sueldo promedio inicial de $ 54 000 dólares y el 91%
de ellos consiguieron trabajo en los primeros tres meses de su
graduación.
•En Estados Unidos hay 26.4 millones de jugadores de golf.
•Estados Unidos el mayor consumidor de café en promedio 1.75 tazas
diarias por persona.
•La segunda razón para estudiar estadística es que las técnicas
estadísticas se utilizan para tomas decisiones que afectan nuestra vida
diaria.
•Las compañías de seguros utilizan análisis estadístico para establecer las
tarifas de los seguros de casas, automóviles, vida y salud.
•México primer lugar en obesidad a nivel mundial.
•Se estima que este año será la época mas seca de los últimos 12 años.
•El promedio de vida de los mexicanos se duplicó entre 1930 y 2004 de
34.9 años a 73 en el caso de los hombres y de 36.9 a 77.9 años en el
caso de las mujeres.
Distribución porcentual de la población de 7 a 29 años que dejó de asistir a la escuela
según causa de abandono escolar en el año 2010.
Causa de abandono
%
• – Falta de dinero o necesidad de trabajar.
35.73
• – No quiso o no le gustó estudiar.
27.48
• – Porque terminó una carrera o porque dejó los estudios hasta el nivel
que tenía como objetivo estudiar.
12.31
• – Por matrimonio y unión.
8.50
• – Porque su familia no lo dejó o por ayudar en las tareas del hogar.
2.38
• – Otra causa.
2.09
• – Porque la escuela estaba muy lejos o no había.
1.87
• – No especificado.
9.64
Fuente: INEGI. Censo General de Población y Vivienda, 1990; tabulados de la muestra
censal del XII Censo General de Población y Vivienda, 2010.
•Tercera razón que el conocimiento de los métodos estadísticos
ayuda a entender por qué se toman ciertas decisiones y aporta
una mejor comprensión respecto a la forma en la que nos afectan las
decisiones
Para tomar estas decisiones se necesitan:
•Determinar si la información existente es adecuada o si se requiere
información adicional.
•Reunir la información adicional, si es necesaria, de tal forma que no
haya resultados erróneos.
•Resumir la información de modo útil e informativo.
•Analizar la información disponible.
•Sacar las conclusiones y realizar las inferencias necesarias, al tiempo
que se evalúa el riesgo de llegar a una conclusión incorrecta
Censo de la Republica Mexicana 112,337,000 habitantes
Distribución de frecuencia
Para que los datos sean útiles deben organizarse para
distinguir patrones y tendencias y así llegar a conclusiones
lógicas
Una forma de organizar un conjunto de datos es clasificarlos
en categorías o clases y luego contar cuántas observaciones
quedan dentro de cada categoría.
Distribución de frecuencia: Agrupamiento de datos en
categorías mutuamente excluyentes, que indican el número
de observaciones en cada categoría
¿Cómo se elabora una distribución de frecuencias?
1.-Determinar el número de clases
1 + 3.3 ∗ log(n )
2k ⟩ n
k número de clases
n número de observaciones
2.- Determine el intervalo o amplitud
i≥
H −L
k
H es el valor mayor
L es el valor menor
k es el número de clases
3.- Establezca los limites de las clases
4.-Distribución de los datos en las distintas clases.
5.-Contar el número de elementos de cada clase.
Componentes de la distribución de frecuencia
Frecuencia absoluta: número de elementos u observaciones
pertenecientes a una misma clase.
Frecuencia relativa: Se obtiene de dividir la frecuencia
absoluta entre el número de observaciones
Frecuencia acumulada: el número de observaciones que son
menores que el límite superior de la clase ( Se obtiene sumando en
sentido descendente)
Punto medio: valor central de la clase
Representación gráfica
La representación grafica contribuye a un mejor análisis de los
datos.
Facilita la comprensión de fenómenos considerados.
Pierde detalle de la información pero se obtiene otro tipo de
información.
Gráficos utilizados: histogramas, polígonos de frecuencias y
ojivas son útiles pues resaltan los patrones de los datos y
atraen la atención.
Histograma: Gráfico de barras verticales que no guardan
separación entre sí, la altura debe ser proporcional al número
de elementos de la clase
Polígono de frecuencias: La altura de cada punto la
determina el punto medio o marca de clase (abscisa) y la
frecuencia simple (ordenada) de la clase.
Ojiva: Para representar la Frecuencia Acumulada,
ordenada se eleva sobre el limite superior (tiene forma de S)
la
Medidas de Centralización
Nos dan un centro de la distribución de frecuencias, es un valor que se
puede tomar como representativo de todos los datos. Hay diferentes
modos para definir el "centro" de las observaciones en un conjunto de
datos:
Media: (Muestral y poblacional): Se calcula de la misma manera, pero la
simbología utilizada es diferente.
Media: (media aritmética o simplemente media). Es el promedio
aritmético de las observaciones, es decir, el cociente entre la suma de
todos los datos y el numero de ellos.
MEDIANA (Me): es el valor que separa por la mitad las
observaciones ordenadas de menor a mayor, de tal forma que el
50% de estas son menores que la mediana y el otro 50% son
mayores. Si el número de datos es impar la mediana será el valor
central, si es par tomaremos como mediana la media aritmética
de los dos valores centrales.
MODA (M0): es el valor de la variable que más veces se repite, es
decir, aquella cuya frecuencia absoluta es mayor. No tiene porque
ser única.
MEDIA ARITMETICA DE DATOS AGRUPADOS.
N
x=
∑fx
i
i +1
i
N
Donde:
x Es la media aritmética.
xi
Es el valor central o punto medio, de cada clase.
fi
Es la frecuencia en cada clase
f i xi
N
∑ fixi
i +1
N
Es la frecuencia en cada clase multiplicada por el punto medio de la clase
.
Es la suma de esos productos.
Es el numero total de frecuencias
MEDIANA DE DATOS AGRUPADOS:

N
(
)
f
−
 2 ∑ i
ME = Li + 
C
 f mediana 


Donde:
Li es el limite inferior de la clase que contiene la mediana.
N es el numero total de frecuencias.
f mediana
(∑ f )i
C
es la frecuencia de la clase que contiene la mediana.
es el numero acumulado de frecuencias en todas las clases que preceden a la
clase que contiene la mediana.
es la amplitud (o anchura) de la clase en que se encuentra la mediana
EJEMPLO
Clase
F
Marca de
x
clase
fi xi
45.5-52.5
8
49
392
52.5-59.5
7
56
392
59.5-66.5
9
63
567
66.5-73.5
13
70
910
73.5-80.5
6
77
462
∑ = 43
N

(
)
−
f
i
2 ∑ 
ME = Li + 
C
 f mediana 



 43
15
−

 2
ME = 59.5 + 
 (66.5 − 59.5)
 9 


ME = 64.55
MODA. Se relaciona con la frecuencia con que se presenta el dato o los
datos con mayor incidencia, con lo que se considera la posibilidad de que
exista más de una moda para un conjunto de datos
 ∆1 
Mo = Li + 
C

 ∆1 + ∆ 2 
Donde:
Li limite inferior o frontera inferior (N/2)
∆1 exceso de la frecuencia modal sobre la clase modal inferior inmediata
∆2
exceso de la frecuencia modal sobre la clase modal superior inmediata
C
intervalo de la clase modal
EJEMPLO
Clase
F
Marca de clase
45.5-52.5
8
49
392
52.5-59.5
7
56
392
59.5-66.5
9
63
567
66.5-73.5
13
70
910
73.5-80.5
6
77
462
x
fi xi
 ∆1 
C
Mo = Li + 

 ∆1 + ∆ 2 


13 − 9
Mo = 66.5 + 
(66.5 − 59.5)

 (13 − 9) + (13 − 6) 
Mo = 69.05
Dispersión
Amplitud de Variación= Valor más grande – Valor más pequeño
Desviación Media: Es el promedio aritmético de los valores
absolutos de las desviaciones con respecto a la media
DM =
∑X −X
N
X
el valor de cada observación.
X
N
Es la media aritmética de todos los valores
El total de números observados de la muestra
Indican el valor absoluto
MEDIDAS DE DISPERSIÓN
VARIANZA ( S2 ) : La media aritmética de las observaciones
cuadráticas con respecto a la media.
S2 =
2
(
)
X
−
X
∑ i
N
S 2 Es el símbolo de la Varianza
X El total de números observados
X Es la media aritmética de todos los valores
N Es el total de valores de la población
n Es el total de valores de la muestra
S2 =
2
(
)
X
−
X
∑ i
n −1
DESVIACIÓN TÍPICA (S): La varianza viene dada por las mismas
unidades que la variable pero al cuadrado, para evitar este problema
podemos usar como medida de dispersión la desviación típica que se
define como la raíz cuadrada positiva de la varianza.
S=
2
(
)
X
−
X
∑ i
N
S=
∑ (X
i
−X)
n −1
2
i
Desviación estándar para datos agrupados (S):
S=
∑ fX
(
fX )
∑
−
2
2
n −1
n
S
Es el símbolo de Desviación estándar
X
n
fi
El punto medio de la clase
Es el total de valores de muestra
Es el valor de la frecuencia
EJERCICIO
Cierta empresa de la zona conurbada quiere conocer la eficiencia y
eficacia de sus trabajadores en las líneas de producción, para lo
anterior hizo pruebas que le permitieran conocer los resultados y
estos se señalan en la siguiente tabla:
Clase o
Intervalo
f
52-61
8
62-71
19
72-81
33
82-91
14
92-101
6
Obtenga:
a) Media, mediana y moda (aproximado a dos decimales)
b) Desviación estándar y varianza.
c) Histograma, polígono de frecuencia y ojiva.
COEFICIENTE DE VARIACIÓN DE PEARSON:
Cuando se quiere comparar el grado de dispersión de dos distribuciones
que no vienen dadas en las mismas unidades o que las medias no son
iguales se utiliza el coeficiente de variación de Pearson que se define
como el cociente entre la desviación típica y el valor absoluto de la
media aritmética.
S
CV =
*100
X
CV representa el número de veces que la desviación típica contiene a
la media aritmética, expresado en porcentaje y cuanto mayor es CV
mayor es la dispersión y menor la representatividad de la media.
EJEMPLO
El analista de investigación para la empresa de corretaje de acciones Sidde Financial,
desea comparar la dispersión de las razones (o cocientes) precio-rendimiento en un grupo
de acciones comunes, con la dispersión de sus rendimientos sobre inversión. Para las
razones precio-rendimiento la media es 10.9 y la desviación estándar 1.8. el rendimiento
sobre inversión es 25% y la desviación estándar 5.2%.
a) Por que debe utilizarse el coeficiente de variación para comparar la dispersión.
Precio - rendimiento
Rendimiento - inversión
Xmedia = 10.9
Xmedia = 25%  0.25
S = 1.8
S = 5.2%  0.052
s
(100)
x
1.8
CV =
(100) = 16.51
10.9
CV =
s
(100)
x
0.052
CV =
(100) = 20.8
0.25
CV =
b) Compare la dispersión relativa de las razones precio-rendimiento, y el rendimiento
sobre inversión.
Existe menor dispersión en el precio-rendimiento cuyo valor es 16.51% en relación al
rendimiento-inversión con su valor de 20.8%
EJEMPLO
Se va comparar la dispersión en los precios anuales de las acciones que se
venden a menos de $10 (dólares) y la dispersión en los precios de aquellas que
se venden por arriba de $60. el precio medio de las acciones que se venden a
menos de $10 es 5.25 y la desviación estándar es $1.52. el precio medio de las
acciones que se negocian a mas de $60 es $92.50 y su desviación estándar es
$5.28.
a) Por que debe utilizarse el coeficiente de variación para comparar la dispersión
de los precios?
b) Calcule los coeficientes de variación. Cual es su conclusión?
a) Por que se puede comparar la dispersión relativa en términos de porcentajes.
b) Se observa que las acciones a menos de $10 tienen una dispersión
mayor relativa, en comparación con las que se venden por arriba de los
$60.
Acciones menores a 10
dólares
s
(100)
x
1.52
CV =
(100) = 28.95%
5.25
CV =
Arriba de 60 dólares
s
(100)
x
5.28
CV =
(100) = 5.70%
92.50
CV =
EJERCICIO
La tabla a continuación indica los salarios básicos por hora (en unidades
monetarias) en abril 2010 para ciertas categorías ocupacionales de
obreros sindicalizados en cierto sector de la construcción. Determine
cuál es la ocupación en la que existe la mayor variación en los salarios
básicos y cuál es la que muestra la menor variación. Para hacer estas
comparaciones deberá utilizar el coeficiente de variación.
Salarios básicos por hora, según tipo de trabajo y
lugares encuestados
Ocupación
A
B
C
D
Albañiles
6.290
7.375
5.750
7.500
Carpinteros
5.900
7.020
5.370
6.660
Electricistas
7.500
7.600
6.700
7.335
Pintores
7.170
6.735
4.750
6.110
Enyesadores 5.920
7.045
5.940
6.825
Plomeros
8.000
4.450
6.250
7.080
Ayudantes
4.020
4.780
3.180
4.700
Teorema de Chebyshev
Teorema de Chebyshev: Para un conjunto cualquiera de
observaciones (muestra o población), la proporción mínima de
los valores que se encuentran dentro de k desvariaciones desde la
media es por lo menos 1-1/k2 , donde k es una constante mayor
que 1
Regla empírica.
Regla empírica: En una distribución de frecuencias simétrica,
con forma de campana, aproximadamente 68% de las
observaciones estarán entre más una y menos una desviación
estándar desde la media; aproximadamente 95% de las
observaciones se encontaran entre más dos y menos dos
desviaciones estándar desde la media; prácticamente todas las
observaciones (99.7%) se hallaran entre más tres y menos tres
desviaciones estándar, a partir del valor medio
70 80
90
100
68%
95%
99.7%
110
120 130
Coeficiente de asimetría
De Pearson
=
3(Media-Mediana)
s
Media
Mediana
Negativamente
Asimétrica
Frecuencia
Media
Frecuencia
Frecuencia
Mediana
Positivamente
Asimétrica
Simétrica
Medidas de Posición
Los cuantiles son valores de la distribución que la dividen en
partes iguales, es decir, en intervalos, que comprenden el mismo
número de valores. Los más usados son los cuartiles, los deciles y
los percentiles.
CUARTILES: Son los tres valores que dividen al conjunto de
datos ordenados en cuatro partes iguales, son un caso particular
de los percentiles:
-El primer cuartil Q1 es el menor valor que es mayor que una
cuarta parte de los datos.
- El segundo cuartil Q2 (la mediana), es el menor valor que es
mayor que la mitad de los datos.
- El tercer cuartil Q3 es el menor valor que es mayor que tres
cuartas partes de los datos.
DECILES: son los nueve valores que dividen al conjunto de datos
ordenados en diez partes iguales, son también un caso particular
de los percentiles.
PERCENTILES: son 99 valores que dividen en cien partes iguales
el conjunto de datos ordenados. Ejemplo, el percentil de orden 15
deja por debajo al 15% de las observaciones, y por encima queda
el 85%
C
Lc = (n + 1)
100
Diferencia Intercuartilica
Donde:
Q3= Tercer cuartil
Q1= Primer cuartil
I=Q3-Q1
Para datos agrupados
 1 N − F1 
C1
Q1 = L1 +  4
f1




L1=Limite real donde se encuentra el primer cuartil.
N= Total de datos.
Donde:
F1=Frecuencia acumulada antes de la clase que
contiene el primer cuartil.
f1=Frecuencia de la clase que contiene al primer
cuartil.
C1=Tamaño real de la clase que contiene al primer
cuartil
Clase
F
Marca de clase
51.5-61.5
8
56.5
61.5-71.5
19
66.5
71.5-81.5
33
76.5
81.5-91.5
14
86.5
91.5-101.5
6
96.5
∑ = 80
 1 N − F1 
C1
Q1 = L1 +  4
f


1


 3 N − F3 
C 3
Q3 = L3 +  4
f3




I Q = Q3 − Q1
1

−
(
80
)
8


Q1 = 61.5 +  4
 (10) = 67.81
 19




3
(
80
)
−
27
4

Q3 = 71.5 + 
 (10) = 81.5
33




I Q = 81.5 − 67.81 = 13.69
Medidas descriptivas.
Las medidas descriptivas son valores numéricos calculados a partir
de la muestra y que nos resumen la información contenida en
ella.
Posición:
Divide un conjunto ordenado de datos en grupos con la
misma cantidad de individuos
•Cuantiles , percentiles, cuartiles, deciles,…
Centralización:
Indica valores con respecto a los datos parecen
agruparse
•Media , mediana, moda
Dispersión:
Indica la mayor o menor concentración de datos con
respecto a las medidas de centralización.
•Varianza, desviación típica, coeficiente de variación,
rango.
Forma:
•Asimetría
La Facultad de Ingeniería aplicó un examen de física a 300
alumnos y se obtienen los siguientes resultados, con ellos se
desea encontrar los siguientes resultados:
a).- Obtener la tabla de frecuencias.
b).-Representar el histograma de frecuencias.
c).- Representar el Polígono de frecuencias.
d).- Obtener la media, mediana y moda de los datos
agrupados.
e).- Obtener la desviación estándar para datos
agrupados.
f).- Encontrar la diferencia intercuartil.
g).- Comentar los resultados.
La tabla de resultados de presenta a continuación.
61
60
30
78
38
98
21
78
85
46
68
80
24
75
92
99
88
50
1
2
10
79
55
72
23
1
12
63
2
94
100
38
90
59
84
48
6
46
32
91
90
65
25
23
55
39
75
39
27
35
93
37
48
24
53
21
30
53
51
50
91
73
90
80
45
24
7
28
43
46
98
93
60
58
11
40
94
21
17
35
62
44
42
29
91
68
10
8
1
92
37
42
58
19
2
66
46
20
20
69
75
54
53
41
56
73
29
78
19
47
40
91
43
95
40
24
87
49
42
55
25
26
21
58
84
85
64
99
98
68
79
35
78
5
35
36
13
98
42
41
78
43
58
65
3
40
96
60
93
94
76
54
82
1
75
10
5
19
47
1
86
47
15
25
6
21
47
46
35
44
33
57
99
72
36
57
38
37
42
74
36
63
85
12
17
95
98
25
28
84
80
37
36
27
26
99
5
68
50
11
46
72
96
53
94
99
47
36
9
84
41
76
55
48
27
14
8
85
34
67
10
59
11
25
41
72
87
82
23
35
96
30
15
74
28
33
0
56
44
16
70
54
25
39
24
58
5
60
4
86
34
11
59
63
78
74
79
65
91
61
74
71
69
92
97
33
9
81
68
17
48
94
14
66
19
63
62
44
66
45
85
71
43
62
64
89
99
73
51
5
11
86
92
67
46
96
8
39
2
59
Descargar