APUNTES Y TAREAS 1° PARCIAL (1)

Anuncio
APUNTES Y TAREAS 1° PARCIAL
1.1 CONCEPTOS BÁSICOS
¿Qué es Estadística?
Teoría y aplicación de métodos para coleccionar datos, organizarlos, analizarlos y hacer
deducciones, teniendo en mente siempre el error asociado a estas deducciones.
Subdivisiones:
Descriptiva: Describe el
comportamiento.(Recolecta, organiza y
analiza)
Estadística
Inferencial: Estima conclusiones basadas
en generalizaciones (hace deducciones y
estima el error asociado)
¿Para qué sirve?
Realidad
Tomar
decisiones
Obtener datos
Hacer
deducciones
Ver
características
Mayor
comprensión
Conceptos:
Dato: Observación de interés
Discretos
(Ej. 8 cajas)
Cuantitativos
(se pueden medir)
Continuos
(Ej. 1.345 kg)
Tipos de datos
Cualitativoss
(características)
(Ej. colores,marcas)
Población: Agrupación de todos los elementos que se están estudiando
Muestra: Parte representativa de la población o sea que contiene las características
relevantes de la población EN LA MISMA PROPORCIÓN.
Población
Muestra
TAREA 1
Explica para cada enunciado si la afirmación trata sobre la muestra o la población, que
tipo de dato es y para que serviría tener la información.
a) El gerente de ventas de una empresa de refrescos informa al gerente general
que 4 de 7 consumidores prefieren refrescos sabor Cola
b) El contador de una empresa de ropa calculó que el salario promedio de las 120
obreras es de $4750.8 al mes más prestaciones.
c) En una empresa de renta de autos se sabe que las flotillas de sus competidores
están entre 25 y 40 camionetas.
d) Los diseñadores de autos decidieron los colores de la línea para el siguiente año
en base a las preferencias de los clientes y las tendencias de la moda.
Informaron a los directivos que el 25% de la producción debe ser en color rojo.
1.2 ORGANIZACIÓN DE DATOS
¿Para qué?
Valores extremos
Grupos similares
valores que repiten
proporciones
gráficas
¿Cómo?
a) Ordenar de menor a mayor o viceversa y así conocemos los valores extremos.
b) Formando grupos denominados CLASES los cuales describen una característica
de los datos y hacer así grupos similares
c) Elaborando tablas de frecuencia con los valores que se repiten de acuerdo a las
clases establecidas.
d) Elaborando tablas de frecuencia relativa calculando la proporción de cada clase
respecto a la muestra.
e) Elaborando representaciones gráficas para comprensión visual.
a) VALORES EXTREMOS
Es el método más sencillo de organización y puede ser desde manual o bien
mediante computadora.
Ejemplo: Ordena los siguientes datos de menor a mayor
2
5
3
7
4
2
5
6
7
2
En Excel® *
Captura los datos en una columna, selecciónalos, en la pestaña de inicio busca
el ícono de ordenar y filtrar y la opción de menor a mayor.
Ahora puedes conocer los valores extremos aunque se trate de muchos datos.
A la diferencia del valor mayor menos el menor se le conoce como RANGO, en
este caso es 5 (restando 7-2)
Observa que en este ícono puedes elegir otro orden o filtrar valores, por
ejemplo si quieres filtrar solo los números iguales o mayores a 4 entonces
primero deja una celda en blanco arriba de los números para dejar espacio al
filtro, luego selecciona filtrar, mayor o igual 4
También puedes conocer los valores extremos insertando función Estadística
MAX ( para máximo ) y MIN (para mínimo) y señalar los datos.
b) FORMANDO CLASES
Ya se mencionó que una CLASE es un grupo de valores que describen una característica
de los datos; los tipos de clase y algunos ejemplos son:
Cuantitativos
Discretos
Cuantitativos
Continuos
Cualitativos
MODELO DEL AUTO
1991-1995
1996-2000
2001-2005
RENDIMIENTO MÁXIMO (Km/l)
8.1-10.0
10.1-12.0
12.1-14.0
COLOR EXTERIOR
AZUL
BLANCO
NEGRO
¿Cuántas clases usar?
Se recomienda usar entre 3 y 20 clases y cuando se trata de datos cuantitativos se
puede tener un número de clases aproximado usando la siguiente fórmula: #
clases  n donde n es el tamaño de la muestra o sea el número de datos y el # de
clases se redondea de ser necesario.
Tarea 2
En los siguientes casos analiza si se trata de una muestra o población, decide cuantas
clases usar y cuales serían:
a) El gerente de recursos humanos desea clasificar a su personal de acuerdo a su
grado máximo de estudios.
b) El encargado de nuevos productos del área de Mercadotecnia desea detectar
las fragancias más vendidas en detergentes lava trastes.
c) El dueño de una microempresa desea clasificar la edad de sus 30 trabajadores
¿Cómo construir las clases para datos cuantitativos?
Se debe primero seleccionar el número de clases, después determinar el rango, a ese
rango aumentar un poco más (para que los datos no queden “apretados”) y a esto se
le conoce como rango holgado. Luego aplicar la siguiente fórmula para calcular la
amplitud o ancho de clase.
La amplitud de clase representa el tamaño de la clase y observa que el valor es
“aproximadamente igual a” esto significa que frecuentemente se tendrá que
redondear este valor a conveniencia para que las clases queden presentables.
Ejemplo
El contador de una empresa desea presentar a su jefe la información del importe de
facturas por cobrar del mes. De sus registros tiene los siguientes datos.
125 380 265 129 176 208 350 410 480 168 380 259 170 270 180
Se selecciona el # de clases  15  3.87 se puede redondear a 4
Después hay que acomodar los datos, para encontrar los extremos
125 129 168 170 176 180 208 259 265 270 350 380 380 410 480
Luego calculamos el rango
Rango = 480-125=355
El Rango holgado se puede dejar en 400
Calculando la amplitud de clase = 400/4 =100 en este caso el valor es adecuado y ya
no se necesita redondear.
Se conoce como límites de la clase a los valores extremos de cada clase y existe límite
superior y límite inferior. En este ejemplo las clases quedarían:
CLASES
Importe $
101 -200
Límite inferior
Límite superior
201-300
301-400
401-500
Hay que notar que se utilizaron clases solo en pesos sin centavos debido a que los
datos no tienen decimales, de lo contrario la manera correcta para presentarlos sería
Importe $
100.01 -200.00
200.01-300.00
300.01-400.00
400.01-500.00
Observa que el límite inferior de una clase debe continuar con el siguiente valor del
límite superior de la clase precedente para que no queden “huecos”. Por ejemplo una
manera incorrecta de hacerlo sería
Importe $
101.00 -200.00
201.00-300.00
301.00-400.00
401.00-500.00
Considera que si existiera una factura cuyo importe fuera $300.50 ó $400.85 NO
HABRÍA DONDE CLASIFICARLAS porque existen “huecos”
PRECAUCIONES AL HACER LAS CLASES
Existen varias consideraciones a tomar en cuenta al hacer las clases cuantitativas.
a) La amplitud de clase debe ser igual para todas las CLASES CERRADAS (o sea con
límites), esto se verifica restando dos límites de clases contiguas, por ejemplo
201-101=100 ó bien 401-301 =100 , etc.
b) Existen problemas para los cuales conviene usar CLASES ABIERTAS (donde la
primera y/o la última clase no tiene 1 límite) por ejemplo:
Importe $
menor a 200
201-300
301-400
401 y mayor
Importe $
101- 200
201-300
301-400
401 y mayor
c) No debe haber “huecos” entre clases.
d) Respetar el número de decimales de los datos originales, si los datos no tienen
decimales NO hay que usarlos, pero si los tienen entonces deben aparecer en
los límites.
e) Todos los datos deben tener un lugar en alguna clase.
Importe $
151 - 250
251 -350
351 - 450
451 -550
Hay dos datos que no tienen lugar
el 125 y 129
f) Dejar límites adecuados a cada problema, o sea que sean lógicos y justificables
dependiendo del contexto y del tipo de problema, para el ejemplo de las
facturas serían ilógico usar los siguientes límites aunque matemáticamente
fuera correcto ya que no habría argumento válido para tal división.
Importe $
113.76 - 213.75
213.76 - 313.75
313.76 - 413.75
413.76 - 513.75
c) ELABORANDO TABLAS DE FRECUENCIA
Una tabla de frecuencia es el conteo de forma tabular del número de datos que se
encuentran en cada clase. Para el ejemplo anterior tenemos.
Importe $ Frecuencia
101 -200
6
201-300
4
301-400
3
401-500
2
Conviene sumar el total de frecuencias y comprobar que coincide con el total de datos.
Para realizar esto en EXCEL® * se debe primero poner los límites superiores por
separado, luego señalar las celdas donde se desean las frecuencias e insertar función
estadística FRECUENCIA
Luego capturar los datos y en grupos el límite superior y simultáneamente presionar
las teclas Ctrl Shift Enter
d) ELABORANDO TABLAS DE FRECUENCIA RELATIVA
Una tabla de frecuencia relativa se elabora a partir de una de frecuencia y solo hay que
dividir la frecuencia de cada clase entre el total de datos o sea 6/15=0.40 Se puede
expresar en decimales o en porcentaje.
Importe $
Frecuencia
Frecuencia relativa
101- 200
201-300
301-400
401 - 500
6
4
3
2
0.4000
0.2667
0.2000
0.1333
O bien
Importe $
101- 200
201-300
301-400
401 - 500
Frecuencia
6
4
3
2
Frecuencia relativa
40.00%
26.67%
20.00%
13.33%
Tarea 3
El empleado de una embajada debe entregar un reporte sobre el número de visas
otorgadas a estudiantes en los últimos 2 años, tiene los siguientes datos.
155
161
203
240
179
159
180
300
388
239
390
181
158
210
279
307
375
347
160
188
274
390
322
256
Calcula el número de clases, elabora la tabla de frecuencia y de frecuencia relativa
e) HACIENDO GRÁFICAS
Existen muchos tipos de gráficas que suelen utilizarse en Estadística, las más comunes
son:



De barra o más conocido cono histograma
De línea
Circular
Para realizarlas fácilmente en EXCEL® *, se seleccionan los datos se va a la pestaña
Insertar, se selecciona el tipo de gráfico deseado y posteriormente se editan ejes,
título, etc. Del ejemplo anterior quedarían
Clic derecho y Seleccionar datos para editar ejes, señala las clases en letrero
Clic derecho , Formato a serie de datos par cambiar colores, etc. y finalmente la gráfica
de barras quedaría
número de facturas
Importe de facturas
10
5
0
101- 200
201-300
301-400
401 - 500
$
O bien como histograma en Formato a serie de datos disminuyendo el ancho del
intervalo
número de facturas
Importe de facturas
8
6
4
2
0
101- 200
201-300
301-400
$
De manera similar los otros gráficos quedarían
401 - 500
Importe de facturas
número de facturas
7
6
5
4
3
2
1
0
149.5
249.5
349.5
449.5
$
Observa que en un gráfico de líneas, el eje horizontal debe llevar lo que se conoce
como marca de clase o centro de clase que resulta de sumar los límites de una clase y
dividirlos entre 2
Distribución del Importe de
facturas ($)
13%
40%
20%
101- 200
201-300
301-400
401 - 500
27%
Aquí se deben señalar las clases y su unidad ya que no hay ejes, así podemos analizar
que el 40% de las facturas tienen un importe entre $101 a $200, etc.
Tarea 4
Con los datos de la tarea 3 construye el histograma, elabora una gráfica de pastel con
la frecuencia relativa, calcula las marcas de clase y construye una gráfica de líneas de la
frecuencia.
Excel® * tiene paquetería especializada llamada Análisis de datos, para instalarla se
debe abrir el botón Office, ir a Opciones de Excel® *, Complementos, Herramientas
para Análisis, Ir
activar
Estará en la pestaña de Datos
Se capturan los datos y el límite superior de las clases, activar Análisis de datos, ir a
Histograma.
El resultado
quedaría
Ejercicio
Una empresa exportadora de artesanías tiene un producto cuyos pesos varían de
acuerdo a la siguiente información en kg.
19.5
22.4
19.2
21.6
24.6
24
24.5
20.9
22.1
23.7
23.6
19.9
20.6
21.3
22.5
22.7
23.5
21.4
20.5
19.8
23.8
24.2
22.4
23.7
23.4
24.7
23.6
20.1
19.5
24.6
a) Decide el número de clases a usar
b) Construye una tabla de frecuencias y frecuencias relativas
c) Construye el histograma
Solución
a) Ya que se tratan de 30 datos se utilizaran
30  5.4  6 clases
b) Considerando la amplitud de clases, con rango holgado de 6 (ya que el rango es 5.5)
amplitud = 6/6=1 (con decimales ya que los datos los tienen)
lim inf
19.1
20.1
21.1
22.1
23.1
24.1
lim sup
20.0
21.0
22.0
23.0
24.0
25.0
Entonces la tabla de frecuencias y frecuencias Relativas quedaría
Clase
Frecuencia
20.0
5
21.0
4
22.0
3
23.0
5
24.0
8
25.0
5
y mayor...
0
%
acumulado
16.67%
30.00%
40.00%
56.67%
83.33%
100.00%
100.00%
c)El histograma quedaría
# cajas
Variaciones de peso
10
8
6
4
2
0
120.00%
100.00%
80.00%
60.00%
40.00%
20.00%
0.00%
Frecuencia
% acumulado
Kg
Tarea 5
El encargado de Recursos Humanos de una empresa está analizando la antigüedad de
su personal de confianza, tiene los siguientes datos en años
3.4
2.0
3.8
4.0
4.1
4.2
4.7
4.8
5.5
5.5
3.4
3.8
4.9
4.1
4.7
4.3
4.9
5.5
5.5
4.1
a) Decide el número de clases a usar
b) Construye una tabla de frecuencias y frecuencias relativas
c) Construye el histograma
1.3 MEDIDAS DE TENDENCIA CENTRAL
¿Qué son?
Son valores que se encuentran cercanos al centro del conjunto de datos ordenados,
sirven para representar al conjunto mediante un solo valor.
Medidas de
Tendencia
Central
Media
Aritmética
(Promedio)
Media
Ponderada
Mediana
Moda
MEDIA ARITMÉTICA
Más conocida como Promedio es la suma de los valores dividida entre el número de
datos, la simbología que usaremos es:
in
x
x
i 1
i
Donde i es un contador desde el primer hasta el dato n y Σ significa
n
sumatoria.
Por ejemplo si se tienen las siguientes calificaciones para un estudiante en las distintas
materias que cursa: 7, 5, 7, 8, 8, 7 la calificación promedio o media aritmética será:
i 6
x
x
i 1
6
i
757889

 7.33
6
Existen algunas ventajas y desventajas para esta medida:
Ventajas
Desventajas
Es un concepto familiar para mucha
gente y relativamente claro
El cálculo puede afectarse con valores
extremos que no son representativos del
resto de los datos
Cada conjunto de datos tiene solo
una media
En datos agrupados no se puede calcular
la media para un conjunto de datos que
tienen clases abiertas en los extremos
Cada dato es tomado en cuenta
cuando se calcula la media
Se pueden comparar media de varios
conjuntos de datos
En EXCEL® *
Insertar función Estadística, seleccionar PROMEDIO (AVERAGE) y seleccionar las celdas
que contienen los datos
MEDIA PONDERADA
Es el resultado de multiplicar cada uno de los datos (x) por un valor particular (p),
posteriormente sumar los productos y dividirlos entre el total de la ponderación. La
simbología sería
i n
xp 
 (x p )
i 1
i n
i
i
p
i 1
i
Para el mismo ejemplo de las calificaciones del alumno si se desea dar importancia a
cada materia de acuerdo al número de créditos se tendría por ejemplo.
Calificación
7
5
7
8
8
9
# de Créditos
10
5
10
15
5
10
Ventajas
Desventajas
Permite calcular un promedio que
toma en cuenta la importancia de
cada valor sobre todo el total
No es muy conocida para la mayoría de
la gente
in
xp 
(x p )
i 1
in
i
i
p
i 1

(7 *10)  (5 * 5)  (7 *10)  (8 *15)  (8 * 5)  (9 *10) 415

 7.54
10  5  10  15  5  10
55
i
MEDIANA
Es el centro de los datos ordenados, cuando se trata de número de datos impar solo se
ordena y se ubica el valor central, pero si se trata de número de datos par entonces se
saca el promedio de los dos datos centrales.
Para el ejemplo anterior primero se deben acomodar los datos de menor a mayor y
luego ver que dato está al centro.
5
7
7
8
8
9
Como se trata de un número de datos par (n=6) existen dos números que están al
centro el 7 y 8 de estos se debe sacar un promedio (7+8)/2=7.5 y este es valor de la
mediana
Si solo se tuvieran 5 calificaciones sería impar y entonces la mediana es 7
5
7
7
8
8
A continuación se muestran sus principales ventaja y desventajas:
Ventajas
Desventajas
Los valores extremos no afectan tan Se deben organizar los datos antes de
fuertemente la mediana como lo hacen calcularla
con la media
Es fácil de entender y puede calcularse a No es familiar para la mayoría de la gente
partir de cualquier grupo de datos, aún
para datos con clases abiertas
Se puede encontrar una mediana aún
cuando los datos sean descripciones no
números.
En EXCEL® *
Insertar función Estadística MEDIANA (MEDIAN) y se seleccionan los datos, observa el
resultado
MODA
Se define como el número que más se repite dentro de un conjunto de datos, aunque
en caso de empate puede haber 2 modas (bimodal) ó más (multimodal)
Para el ejemplo de las calificaciones existe un empate entre el 7 y 8 ya que ambos se
repiten dos veces, entonces hay dos modas, sin embargo EXCEL® * tiene la desventaja
de solo mostrar la primera que encuentra
Ventajas
Desventajas
Se puede usar tanto para datos cualitativos A menudo no existe la moda en un
como para cuantitativos
conjunto de datos.
No la afectan valores extremos
Cuando existen dos o tres modas en el
mismo grupo de datos no es fácil hacer
interpretaciones
Se puede usar con clases abiertas
Tarea 6
Con los datos de la tarea 5 calcula la media, moda y mediana
1.4 MEDIDAS DE DISPERSIÓN
¿Qué son?
Las medidas de dispersión nos muestran como su nombre lo indica el grado en que los
datos numéricos tienden a esparcirse alrededor de un valor promedio.
¿Para que sirven?
Dan una idea de la confiabilidad de los datos
Se pueden representar de la siguiente forma
Los más importantes son:
Medidas de
dispersión
Rango
Varianza
Desviación
estándar
RANGO
Como ya se mencionó es la diferencia entre el número mayor y el número menor en
un conjunto de datos
En el ejemplo de las calificaciones el rango se puede calcular restando la calificación
mayor menos la menor o sea 9-5=4
DESVIACIÓN ESTÁNDAR DE LA MUESTRA
Es la raíz cuadrada de las desviaciones de cada dato respecto a la media divididas entre
n-1
in
s
 ( x  x)
i 1
2
i
n 1
Para calcular esto en el ejemplo de las calificaciones hay que recordar que la media fue
7.33 entonces restamos cada dato y lo elevamos al cuadrado, luego se suma, se divide
y finalmente se saca raíz cuadrada
(5  7.33) 2  (7  7.33) 2  (7  7.33) 2  (8  7.33) 2  (8  7.33)2  (9  7.33) 2
s
6 1
s
9.333
 1.366
5
En EXCEL® *, Insertar función, Estadística DESVEST y se seleccionan los datos
VARIANZA DE LA MUESTRA
Es el cuadrado de la desviación estándar de la muestra
in
s2 
s2 
 ( x  x)
i 1
2
i
n 1
9.333
 1.866
6 1
seleccionan los datos
en EXCEL® *, Insertar función, Estadística VAR y se
Ejercicio (continuación)
Una empresa exportadora de artesanías tiene un producto cuyos pesos varían de
acuerdo a la siguiente información en kg.
19.5
22.4
19.2
21.6
24.6
24
24.5
20.9
22.1
23.7
23.6
19.9
20.6
21.3
22.5
22.7
23.5
21.4
20.5
19.8
23.8
24.2
22.4
23.7
23.4
Calcula las medidas e tendencia central y de dispersión
Columna1
Media
Error típico
Mediana
Moda
Desviación estándar
Varianza de la muestra
Curtosis
Coeficiente de asimetría
Rango
22.2766667
0.32634103
22.45
19.5
1.78744343
3.19495402
-1.31381695
-0.2969928
5.5
24.7
23.6
20.1
19.5
24.6
Mínimo
Máximo
Suma
Cuenta
19.2
24.7
668.3
30
Ejercicio
El encargado de Recursos Humanos de una empresa está analizando la antigüedad de
su personal de confianza, tiene los siguientes datos en años
3.4
2.0
3.8
4.0
4.1
4.2
4.7
4.8
5.5
5.5
3.4
3.8
4.9
4.1
4.7
4.3
4.9
5.5
5.5
4.1
Calcula las medidas de tendencia central y de dispersión.
Media
Error típico
Mediana
Moda
Desviación estándar
Varianza de la
muestra
Curtosis
Coeficiente de
asimetría
Rango
Mínimo
Máximo
Suma
Cuenta
4.36
0.19606658
4.25
5.5
0.87683642
0.76884211
1.34142216
0.77756798
3.5
2
5.5
87.2
20
Tarea 7
Con los datos de la tarea 5 calcula las medidas de dispersión: rango, desviación
estándar y varianza.
Descargar