ESTADÍSTICA

Anuncio
ESTADÍSTICA
Rama de las matemáticas aplicadas, que estudia los hechos económicos, sociales y físicos a base
de datos numéricos; entre las estadísticas más antiguas cuentan los censos de población, el
cálculo de ganados y cosechas, etc.
La estadística es una ciencia, pues aplica el Método Científico al ocuparse de la toma,
organización, recopilación y análisis de datos, tanto para la deducción de conclusiones, para la
toma de decisiones razonables de acuerdo a tales análisis.
Población: Se le llama población o universo, al conjunto total de individuos u objetos que se
desean investigar.
Muestra: Es un grupo de una población. Se utiliza cuando la población es muy numerosa, infinita o
muy difícil de examinar.
Estadística Descriptiva: Es la parte de la estadística que trata solamente de describir y analizar
un grupo dado sin sacar conclusiones o inferencias de un grupo mayor, a partir de ella. La
estadística descriptiva incluye las técnicas que se relacionan con el resumen y la descripción de
datos numéricos. Estos datos pueden ser gráficos o pueden incluir análisis computacional.
Estadística Inferencial: Cuando una muestra es representativa de una población se pueden
deducir importantes conclusiones acerca de esta, a partir de su análisis. La inferencia estadística
comprende aquellas técnicas por medio de las cuales se toma decisiones sobre una población
estadística basadas solo en la muestra observada. Debido a que dichas decisiones se toman en
condiciones de incertidumbre, entonces estas serán confiables con cierto grado de probabilidad.
Considerando que las características medidas de una muestra se denominan estadísticas de la
muestra, las características medidas de una población estadística, o universo se llaman
parámetros de la población.
ANALISIS ESTADISTICO
Distribución de Frecuencias: Las distribuciones de frecuencias, son series estadísticas
ordenadas por intervalos de clases, y por lo tanto, corresponden a la clasificación de grupo de
datos, de acuerdo a una característica cuantitativa.
Esta distribuciones se elaboran cuando se tiene una masa de datos, para reducirla a grupos
homogéneos y poco numerosos, con fines de descripción, análisis y obtención de indicadores.
Serie simple o arreglo: Es un simple listado de la información obtenida de una fuente de datos.
Ejemplo: Sueldos mensuales, en pesos, pagados a 20 trabajadores de una empresa, ordenados en
forma ascendente:
210.000 – 250.000 – 250.000 – 280.000 – 280.000 – 300.000 – 300.000 – 350.000 – 350.000 –
400.000 – 400.000 – 450.000 – 450.000 – 500.000 – 550.000 – 550.000 – 600.000 – 600.000 –
700.000 – 750.000
Como el sueldo es mínimo es $210.000 y el máximo $750.000, el Rango de los salarios es:
750.000 – 210.000 igual a $540.000.
Como esta tabla no permite tener un idea de la distribución de los sueldos, hay que clasificarlos en
un cuadro de frecuencias.
Tabla de frecuencias sin clase (datos no agrupados):
Los datos de la tabla anterior se pueden resumir, al registrarse el número de trabajadores, de
acuerdo a su sueldo.
Sueldo ($)
Número de Obreros
(Frecuencias)
1
2
2
2
2
2
2
1
2
2
1
1
210.000
250.000
280.000
300.000
350.000
400.000
450.000
500.000
550.000
600.000
700.000
750.000
Tabla de frecuencias con clase (con datos agrupados):
Para ello debemos considerar cada intervalo con límites cerrado y abierto, o sea [210.000,300.000[
La tabla siguiente la vamos a elaborar con frecuencias absolutas, estas frecuencias son las que
se obtienen directamente del conteo, pero, también incorporaremos las frecuencias relativas que
corresponden a los porcentajes de cada frecuencia absoluta, en este caso, se determina con
respecto al total de trabajadores (20).
También incorporaremos a la tabla la frecuencia absoluta acumulada que corresponde a la
frecuencia absoluta del intervalo más la suma de las frecuencias absolutas de todos los valores
anteriores y la frecuencia relativa acumulada que corresponde al porcentaje de la frecuencia
relativa del intervalo más la suma de las frecuencias relativas de todos los valores anteriores.
La marca de clase corresponde al valor medio de cada intervalo.
Sueldo ($)
Marca de
Clase
recuencia
Absoluta
Frecuencia
Relativa %
200.000 – 300.000
300.000 – 400.000
400.000 – 500.000
500.000 – 600.000
600.000 – 700.000
700.000 – 800.000
250.000
350.000
450.000
550.000
650.000
750.000
5
4
4
3
2
2
25
20
20
15
10
10
Frecuencia
Absoluta
Acumulada
5
9
13
16
18
20
Frecuencia
Relativa
Acumulada %
25
45
65
80
90
100
Representaciones Gráficas
Para hacer más clara y evidente la información que nos dan las tablas se utilizan los gráficos.
Existen múltiples tipos de gráficos, pero aquí trataremos solamente de los usados más
frecuentemente, que son: gráfico de barras, gráfico de sectores o circular (pastel), histograma,
polígono de frecuencias, la ojiva y el pictograma.
Gráfico de Barras: Se usa fundamentalmente para representar distribuciones de frecuencias de
una variable cualitativa o cuantitativa discreta y, ocasionalmente, en la representación de series
cronológicas o históricas. Uno de los ejes sirve para inscribir las frecuencias, ya sean absolutas o
relativas (%), y el otro para la escala de clasificación utilizada.
Ejemplo:
Gráfico circular: Se usa, fundamentalmente, para representar distribuciones de frecuencias
relativas (%) de una variable cualitativa o cuantitativa discreta. En este gráfico se hace
corresponder la medida del ángulo de cada sector con la frecuencia correspondiente a la clase en
cuestión. Si los 360º del círculo representan el 100 % de los datos clasificados, a cada 1% le
corresponderán 3,6º. Luego, para obtener el tamaño del ángulo para un sector dado bastaría con
multiplicar el por ciento correspondiente por 3,6º (por simple regla de tres).
Ejemplo:
Histograma: Este gráfico se usa para representar una distribución de frecuencias de una variable
cuantitativa continua. Habitualmente se representa la frecuencia observada en el eje Y, y en el eje
X la variable
Ejemplo:
Polígono de frecuencias: Se utiliza, al igual que el histograma, para representar distribuciones de
frecuencias de variables cuantitativas continuas, pero como no se utilizan barras en su confección
sino segmentos de recta, de ahí el nombre de polígono. Habitualmente se usa cuando se quiere
mostrar en el mismo gráfico más de una distribución.
Ejemplo:
Ojiva: Su objetivo, al igual que el histograma y el polígono de frecuencias es representar
distribuciones de frecuencias de variables cuantitativas continuas, pero sólo para frecuencias
acumuladas
Ejemplo:
Pictograma: Se utiliza un dibujo relacionado con el tema, para representar cierta cantidad de
frecuencias. Este tipo de gráfica atrae la atención por los dibujos, pero la desventaja es que se lee
en forma aproximada.
Medidas de Tendencia Central
La utilidad de las medidas de tendencia central se puede ver claramente cuando es necesario
determinar, por ejemplo, en qué lugar se ubica la persona promedio o típica de un grupo, para
comparar o interpretar cualquier puntaje en relación con el puntaje central o típico, para comparar
el puntaje obtenido por una misma persona en dos diferentes ocasiones, para comparar los
resultados medios obtenidos por dos o más grupos y otros casos.
Las medidas de tendencia central más comunes son:
La media aritmética: comúnmente conocida como media o promedio. Se representa por medio de
una letra M en otros casos por X .
La mediana: la cual es el puntaje que es ubica en el centro de una distribución. Se representa
como Md.
La moda: que es el puntaje que se presenta con mayor frecuencia en una distribución. Se
representa Mo.
Cómo calcular la mediana, la media y la moda.
Para determinar la mediana, se ordenan los valores de mayor a menor o lo contrario. Se divide el
total de casos entre dos, una vez el valor resultante corresponde al número del caso que
representa la mediana de la distribución. En muchas ocasiones, los casos son tan numerosos que
no se pueden ordenar uno tras otro sino que se agrupan por frecuencia de ocurrencia en cada
valor o por intervalos de clase cuando el rango de posibles valores de la variable es muy amplio.
En estos casos el proceso es un poco más complejo y requiere de la utilización de la siguiente
fórmula
N
 Fi 1
M  Li  c  2
fi
Li  límite inferior de la clase mediana
amplitud del intervalo
c
N  número total de datos
Fi 1  frecuencia absoluta acumulada de la clase anterior a la mediana
f i  frecuencia absoluta de la clase mediana
Para calcular la media aritmética de un conjunto de datos, se suma cada uno de los valores
y se divide entre el total de casos.
Sea X una variable estadística que toma los valores x1 , x2 , x3 , ...,xn , con frecuencias absolutas
f1 , f 2 , f 3 , ..., f n , respectivamente, la media viene dada por:
n
x f  x 2 f 2  ...  x n f n
x 1 1

f 1  f 2  ...  f n
x
i
 fi
i 1
n
f
i
i 1
Si la variable es continua, o aún siendo discreta si están los datos agrupados en clases, se toman
como valores x1 , x2 , x3 , ...,xn , las marcas de clase.
La moda se identifica al observar el valor que se presenta con más frecuencia en la distribución.
Ahora bien, en el caso de datos agrupados en intervalos, es fácil determinar la clase modal (clase
con mayor frecuencia), pero el valor dentro del intervalo que se presume tenga mayor frecuencia
se obtiene a partir de la siguiente expresión:
M o  Li  c 
D1
D1  D2
Li  límite inferior de la clase modal.
c  amplitud de los intervalos.
D1  diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta de la clase
anterior.
D2  diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta de la clase
siguiente.
Cuantiles
La mediana divide a la distribución en dos partes iguales, los cuantiles son parámetros que dividen
los datos de la distribución en partes iguales. Los más usados son:
Cuartiles:
Se llaman cuartiles a tres valores que dividen a la serie de datos en cuatro partes iguales.
Q1 , Q2 y Q3 ( cuartil primero, cuartil segundo y cuartil tercero )
Quintiles:
Se llaman quintiles a cuatro valores que dividen a la serie en cinco partes iguales.
K1 , K 2 , K 3 y K 4 ( quintil primero,... )
Deciles:
Nueve valores iguales que dividen la distribución en 10 partes iguales.
D1 , D2 , ... y D9 ( decil primero,...)
Percentiles:
Noventa y nueve valores que dividen la serie en 100 partes iguales.
P1 , P2 , ... y P99 ( percentil primero,... )
El cálculo es análogo al de la mediana.
EJERCICIOS
1. Hallar la mediana de los valores 5, 8, 13, 8, 6, 8, 10, 12, 8.
a) 5
b) 6
c) 8
d) 8, 6
e) Ninguna de
las anteriores
2. Para un trabajo determinado, una empresa contrata 80 operarios, 60 de ellos ganarán $ 50.000
semanales y los 20 restantes $ 70.000 a la semana. ¿Cuál es el sueldo medio de los operarios en
una semana?
a) $ 50.000
b) $ 55.000
c) $ 60.000
d) $ 62.857
e) $ 70.000
3. ¿Cuál es el valor de la media en la tabla de notas siguiente, correspondiente a 10 alumnos?
Notas
1-3
3–5
5–7
a) 10/7
b) 10/3
Frecuencias
1
3
6
c) 50/3
d) 5
e) Ninguna de
las anteriores
4. En la serie de números 2, 4, 4, 5, 5, 5, 17, el valor de la moda es(son):
a) 2 y 17
b) 4
c) 5
d) 4 y 5
e) 6
5. Queremos construir un gráfico circular con la cantidad de veces que ha salido cada vocal en la
página de un libro. ¿Cuántos grados le corresponden a la letra “a” en el gráfico?
Vocales
a
e
i
o
u
a) 10°
b) 12°
6. En un curso hay
c) 60°
Frecuencia
10
13
4
2
1
d) 120°
e) 150°
n  30
n  10
alumnos y en otro curso
alumnos, entonces el promedio de
n
n
alumnos es:
a)
2n  20
n
2
b)
2n  20
n
c) 20
d) 10
e) 1
10
n
7. En una tabla de frecuencias el intervalo 20 – 40, tiene frecuencia 18, la marca de clase es:
a) 18
b) 20
c) 30
d) 40
e) 60
8. La media de seis elementos es 10. Sabiendo que cinco de ellos son 8, 12, 13, 5 y 9; hallar el
elemento que falta.
a) 9,5
b) 13
c) 37
d) 47
e) 60/47
9. Un alumno obtiene en tres pruebas parciales las siguientes notas: 7, 5 y 3. En el examen final
consigue un 6. Si esta nota final tiene doble valor que las parciales, ¿cuál será su nota media?
a) 4,2
b) 5,2
c) 5,4
d) 5,6
e) 6,7
10. Si la única moda de los siguientes datos: 5, 5, 7, x, 7, 7, 8, 8, 9, x; es 5, entonces el valor de x
es:
a) 5
b) 5,6
c) 7
d) 8
e) 9
ALTERNATIVAS
1. Hallar la mediana de los valores 5, 8, 13, 8, 6, 8, 10, 12, 8.
Alternativa A: Incorrecta. Se elige el valor menor que no tiene ninguna relación con la mediana.
Alternativa B. Incorrecta. Para determinar la mediana se deben ordenar los datos en forma
ascendente o descendente. Al no hacerlo se llega a esta alternativa.
Alternativa C. CORRECTA. Al ordenar los datos de menor a mayor o viceversa, el valor que
ocupa el lugar central es el 8, por lo tanto es la mediana.
Alternativa D: Incorrecta. No corresponde sumar todos los valores dados y dividirlos por el total de
ellos. Esa operación corresponde a la media aritmética.
Alternativa E:. Incorrecta. Diversos procedimientos erróneos llevan a optar por esta alternativa.
2. Para un trabajo determinado, una empresa contrata 80 operarios, 60 de ellos ganarán $
50.000 semanales y los 20 restantes $ 70.000 a la semana. ¿Cuál es el sueldo medio de los
operarios en una semana?
Alternativa A: Incorrecta. Como la mayoría de los operarios ganarán $ 50.000 semanales, se
considera esta valor como el sueldo medio de todos los operarios de la empresa.
Alternativa B. CORRECTA. Se efectúan los productos 60 por 50.000 y 20 por 70.000, para
determinar el total de dinero que reciben los 80 operarios. Luego se divide ese total por 80, dando
como sueldo medio $ 55.000.
Alternativa C. Incorrecta. El error se produce al sacar el promedio entre los dos sueldos pagados,
es decir entre $ 50.000 y $ 70.000, sin considerar el número de operarios.
Alternativa D: Incorrecta. Se determina el total de dinero a ganar por los operarios, pero luego se
comete el error de dividir esta cantidad por 7, al ser una ganancia semanal.
Alternativa E: Incorrecta. Se opta por el sueldo mayor sin ninguna justificación matemática.
3. ¿Cuál es el valor de la media en la tabla de notas siguiente, correspondiente a 10
alumnos?
Notas
1-3
3–5
5–7
Frecuencias
1
3
6
Alternativa A: Incorrecta. Se obtiene la frecuencia total, que es 10, y se divide por 7, considerando
que los datos dados son notas.
Alternativa B. Incorrecta. No corresponde a la media aritmética el cuociente entre la frecuencia
total y los tres intervalos formados.
Alternativa C. Incorrecta. Se determina correctamente la frecuencia total, pero luego se divide por
la cantidad de intervalos de la tabla que son 3.
Alternativa D: CORRECTA. Se determina la marca de clase de cada intervalo y luego se efectúa
el producto de ésta por la respectiva frecuencia, sumando los valores obtenidos. Finalmente se
2 1  4  3  6  6
divide por el total de casos que son 10, o sea
5
10
Alternativa E: Incorrecta. Diversos procedimientos erróneos llevan a optar por esta alternativa.
4. En la serie de números 2, 4, 4, 5, 5, 5, 17, el valor de la moda es(son):
Alternativa A: Incorrecta. La moda corresponde al valor con mayor frecuencia, en este caso, 2 y
17 son los que tienen menor frecuencia.
Alternativa B. Incorrecta. El 4 tiene frecuencia 2 y como existe otro valor con más frecuencia, no
puede ser moda.
Alternativa C. CORRECTA. La moda es el valor con mayor frecuencia, o sea, el que más veces se
repite.
Alternativa D: Incorrecta. Para que los valores 4 y 5 sean moda, deben tener la mayor e igual
frecuencia de todos los datos dados.
Alternativa E: Incorrecta. Este valor corresponde a la media aritmética y no a la moda.
5. Queremos construir un gráfico circular con la cantidad de veces que ha salido cada vocal
en la página de un libro. ¿Cuántos grados le corresponden a la letra “a” en el gráfico?
Vocales
a
e
i
o
u
Frecuencia
10
13
4
2
1
Alternativa A: Incorrecta. Este valor corresponde a la frecuencia y no a los grados en el gráfico
circular.
Alternativa B. Incorrecta. Error en la operación al simplificar, lleva a obtener 12° para la letra “a”
en el gráfico a construir.
Alternativa C. Incorrecta. Se consideran 180° y no 360° que es lo correcto.
Alternativa D: CORRECTA. El total de veces que han salido las vocales son 30 y corresponden a
10  360
los 360° del gráfico circular. Luego la frecuencia 10 de “a” equivale a
 120
30
Alternativa E: Incorrecta. Error de planteamiento lleva a optar por esta alternativa.
6. En un curso hay
n  30
n  10
alumnos y en otro curso
alumnos, entonces el promedio de
n
n
alumnos es:
Alternativa A: Incorrecta. Error en la operatoria algebraica lleva a obtener esta alternativa.
Alternativa B. Incorrecta. Se determina la suma de ambos cursos, pero luego falta determinar el
promedio.
Alternativa C. Incorrecta. Se simplifican las n de las expresiones dadas, no pudiendo hacerse, lo
que lleva al error de optar por esta alternativa.
Alternativa D: Incorrecta. Se simplifican las n de las expresiones dadas, no pudiendo hacerse, y
luego se determina el promedio con las cantidades obtenidas, lo que lleva al error de optar por esta
alternativa.
Alternativa E: CORRECTA. Se suman las expresiones algebraicas que representan a los alumnos
2n  20
2n  20 2n 20
10
de cada curso y luego se determina su promedio, o sea,
:2


 1
n
2n
2n 2n
n
7. En una tabla de frecuencias el intervalo 20 – 40, tiene frecuencia 18, la marca de clase es:
Alternativa A: Incorrecta. Corresponde al total de casos en el intervalo 20-40 y no a la marca de
clase que es el valor medio del intervalo.
Alternativa B. Incorrecta. El valor menor del intervalo no corresponde a la marca de clase, ya que
este es el valor medio de él.
Alternativa C. CORRECTA. La marca de clase corresponde al valor medio del intervalo, o sea,
20  40 60

 30
2
2
Alternativa D: Incorrecta. El valor mayor del intervalo no corresponde a la marca de clase, ya que
este es el valor medio de él.
Alternativa E: Incorrecta. Se suman los valores extremos del intervalo, pero ese valor no
corresponde a la marca de clase.
8. La media de seis elementos es 10. Sabiendo que cinco de ellos son 8, 12, 13, 5 y 9; hallar
el elemento que falta.
Alternativa A: Incorrecta. El error se produce al sumar los valores dados con la media y dividirla
por los 6 datos del enunciado.
Alternativa B. CORRECTA. Para determinar el elemento que falta se debe plantear que
8  12  13  5  9  x
 10 , de donde 47 + x = 60 y x = 13.
6
Alternativa C. Incorrecta. Se suman los elementos dados y se le resta la media, este error lleva a
obtener 37.
Alternativa D: Incorrecta. Sólo corresponde a la suma de los datos dados.
Alternativa E: Incorrecta. Error de operatoria algebraica lleva a que 47 + x = 60 se resuelva como
47x = 60.
9. Un alumno obtiene en tres pruebas parciales las siguientes notas: 7, 5 y 3. En el examen
final consigue un 6. Si esta nota final tiene doble valor que las parciales, ¿cuál será su nota
media?
Alternativa A: Incorrecta. No se considera en la suma el valor doble de la nota final, se resuelve
7 53 6
 4,2
5
Alternativa B. Incorrecta. No se considera en la suma el valor doble de la nota final, se resuelve
7 53 6
 5,2
4
Alternativa C. CORRECTA. Se suman las notas parciales y la del examen final que es doble,
obteniéndose 27, la que al dividirla por 5, resulta 5,4 como nota media.
Alternativa D: Incorrecta. Se saca primero el promedio entre las notas parciales y luego el
5  6  6 17
promedio, considerando el examen, o sea,

 5,6
3
3
Alternativa E: Incorrecta. Se consideran todas las notas como corresponde, pero luego se divide
por 4 y no por 5 que es lo correcto.
10. Si la única moda de los siguientes datos: 5, 5, 7, x, 7, 7, 8, 8, 9, x; es 5, entonces el valor
de x es:
Alternativa A: CORRECTA. Si 5 es la única moda, necesariamente el valor de x debe ser 5, para
que sea el valor con mayor frecuencia de los dados.
Alternativa B. Incorrecta. Corresponde a la media de los datos dados.
Alternativa C. Incorrecta. Se opta por el 7 que es el que tiene más frecuencia de los datos dados.
Alternativa D: Incorrecta. Se opta por el 8, pensando que al agregarle dos valores 8 más, pasa a
ser la moda.
Alternativa E: Incorrecta. Se opta por el de menor frecuencia, demostrando no conocerse el
significado de moda estadística.
Documentos relacionados
Descargar