Módulo de estadística - Recinto de Arecibo

Anuncio
UNIVERSIDAD INTERAMERICANA DE PUERTO RICO
RECINTO DE ARECIBO
CENTRO DE SERVICIOS DE APOYO AL ESTUDIANTE
Glosario
• Media: es la puntuación promedio de un grupo de datos.
• Mediana: la mediana viene a ser la puntuación que divide por la
misma mitad al grupo o la distribución.
• Moda: la moda es la puntuación que más se repite en un grupo o en
una distribución de puntuaciones.
• Gráficas:
– Polígonos de frecuencia
– Gráficas Circulares
– Histogramas
Media o Promedio
La media es comúnmente llamada promedio aritmético:
Para averiguar la media de un grupo de números:
• Suma la totalidad de los números dados.
• Divide por la cantidad de números que fueron sumados
_
X: x
n
_
X = símbolo de la media
 = letra griega, significa: la suma de
x = el número de puntuaciones
n = el número total de datos
Ejemplo
Las siguientes son tres muestras de la matrícula en 6 colegios universitarios de
tres estados de EEUU
•
•
Pennsylvania:
4.9 6.3 7.7 8.9 10.3 11.7
•
•
Texas:
4.9 6.4
•
•
Carolina del Norte:
7.6 7.9 8.3 8.3
•
La media es 8.3 en cada caso.
6.4
8.5
11.6
8.7
12.0
9.0
Mediana
La mediana estadística es el número central de un grupo de números
ordenados por tamaño (ascendente o descendente). Si la cantidad de
términos es par, la mediana es el promedio de los dos números
centrales:
Para averiguar la mediana de un grupo de números:
•
Ordena los números según su tamaño
•
Si la cantidad de términos es impar, la mediana es el valor
central.
•
Si la cantidad de términos es par, suma los dos términos del
medio y divide por 2.
Cuando el número de observaciones es impar, la mediana corresponde a un valor de la distribución. Cuando el número de
observaciones es par, la mediana no es necesariamente un valor de la distribución. Los empates se cuentan como puntuaciones
diferentes.
Ejemplo
• En la distribución (2, 7,9,12,15),
mediana = 9
• En la distribución (2,7,9,12,15,20),
la mediana = (9+12)/2 = 10.5
• En la distribución (2,7,9,9,15,20),
la mediana = (9+9)/2 = 9
• Ejemplos:
• 1.En un cuestionario que utiliza la escala Likert, las respuestas a
una pregunta fueron “nunca, nunca, de vez en cuando, a menudo,
muy frecuentemente”.
– mediana = de vez en cuando
• 2.En un cuestionario que utiliza la escala Likert, las respuestas a
una pregunta fueron “nunca, nunca, de vez en cuando, a menudo”.
– mediana = se encuentra entre "nunca" y "de vez en cuando“
• Una de las características de la mediana es que no se afecta por los
valores extremos de la distribución.
Ejemplo:
En la distribución (2, 7, 9, 12, 15), la mediana = 9
En la distribución (2, 7, 9, 12, 245), la mediana = 9
B. La mediana en frecuencias agrupadas (variable categórica con escala ordinal)
Cuando las observaciones han sido tabuladas en una tabla de distribución de
frecuencias, la mediana corresponde a la categoría en la que se encuentra la frecuencia
acumulativa del 50% de las observaciones.
Ejemplo:
En la siguiente tabla de frecuencias se
observa que la mediana corresponde a
la categoría "algo gordo" a pesar de
que dicha categoría no es la categoría
que aparece en el medio de la lista. Esto
se debe a que el 50% de la distribución
acumulada se encuentra en la categoría
"algo gordo"
Categorías
frecuencias
frec. relativa
frec.
acumulada
Muy gordo
35
6.6
6.6
Gordo
80
15.0
21.6
Algo gordo
183
34.3
55.9
Peso adecuado
124
23.2
79.1
Algo flaco
69
12.9
92
Flaco
37
6.9
98.9
Muy flaco
6
1.1
100
Total
534
100
Moda
La moda estadística es el valor que más se repite en un grupo de números. La
moda es la medida de tendencia central más fácil de determinar. Corresponde a
la categoría o valor de la variable con la frecuencia mayor (la que aparece más a
menudo). La moda se utiliza principalmente con variables nominales y es la
única medida de tendencia central que se puede usar con variables nominales.
Para averiguar la moda en un grupo de números:
Ordena los números según su tamaño.
Determina la cantidad de veces de cada valor numérico.
El valor numérico que más se repite es la moda.
*Puede encontrarse más de una moda cuando dos o más números se repiten la
misma cantidad de veces y además éste es el máximo número de veces del
conjunto.
Ejemplo: La moda de 2, 4, 5, 5, 5, 7, 8, 8, 8, 9, 12 es 5 y 8
No hay moda si ningún número se repite más de una vez.
Moda
Ejemplos:
En la distribución (2, 3, 4, 4, 5, 8, 12) la MODA es 4
La distribución (2, 3, 3, 4, 5, 5, 12) es BIMODAL y las modas son
3 y 5.
En la distribución (2, 3, 6, 7, 8, 10, 12)
NO HAY MODA
Ejemplo:
Tres dados son arrojados 12 veces. La suma de los números luego de
cada tiro fue apuntado en la siguiente tabla.
Encuentra la moda, mediana, media y el rango de los datos dados.
Veces que se arrojaron los dados
Suma total de los dados
1
2
3
4
5
6
7
8
9
10
11
12
12
11
4
3
12
17
8
12
7
5
13
4
Respuesta:
Paso 1: Ordenar los elementos.
3, 4, 4, 5, 7, 8, 11, 12 ,12, 12, 13, 17
Paso 4:Encuentra la moda.
Números
Frecuencia
3
1
4
2
5
1
7
1
8
1
11
1
12
3
Paso 3: Encuentra la mediana.
13
1
El ejemplo demuestra una cantidad de datos par; por
lo tanto, la mediana será el promedio del sexto y
séptimo elemento.
17
1
Paso 2: Encuentra la media.
mediana = (8+11)/2 = 9.5
Rango
El rango estadístico es la diferencia entre el valor mínimo y
el valor máximo en un grupo de números.
Para averiguar el rango de un grupo de números:
Ordena los números según su tamaño
Resta el valor mínimo del valor máximo.
Distribución de frecuencias: Muestra el número de veces que ocurre cada observación.
En este ejemplo, se muestran los resultados de una encuesta hecha a niños sobre cuál
es su mascota favorita.
Perro
Gato
Gato
Pájaro
Gato
Gato
Hámster
Gato
Hámster
Gato
Gato
Gato
Gato
Gato
Hámster
Pájaro
Gato
Perro
Gato
Gato
Gato
Gato
Gato
Perro
Gato
Próximamente se reescriben los datos, anotando las frecuencias absolutas, relativas y
acumuladas de cada dato separado.
Mascota
Frec. Absoluta
Frec. Relativa
Frec. Acumulada
Perro
3
0.12
12%
Gato
17
0.68
68%
Pájaro
2
0.08
8%
Hámster
3
0.12
12%
Los datos se pueden representar de varias maneras. Las más comunes son mediante
gráficas circulares, polígonos de frecuencia e histogramas.
Gráficas circulares son, como el nombre implica, gráficas circulares. Se usan para
representar distribuciones con porcientos. De acuerdo al porciento, de la cantidad total
de datos que contiene una categoría, se le asigna una porción del círculo.
Los datos del ejemplo anterior se reflejarían así en una gráfica circular.
Polígonos de frecuencia se conocen más comunmente como gráficas lineales. Estas se
usan para expresar la frecuencia de cada dato, uniendolos en una gráfica de modo que
formen una línea.
Los datos del ejemplo anterior se reflejarían así en un polígono de frecuencia.
Por último, los histogramas tienden a ser los más conocidos. Claro, se les conoce
normalmente como gráficas de barra. Como polígonos de frecuencia, se usan para
representar datos de acuerdo a sus frecuencias. En vez de una línea, se usan un
conjunto de barras.
Los datos del ejemplo anterior se mostrarían así en un histograma.
Intervalos, Varianza y Desviación Estándar
Hasta ahora hemos estado aprendiendo acerca de datos arreglándolos de tal manera
que cada dato distinto forma una categoría. Arreglar datos de esta manera resulta
bastante trabajoso cuando los datos con los cuales se están trabajando varían mucho.
Por eso, se acostumbra a dividir los datos en intervalos. Al hacer esto, ocupa menos de
nuestro tiempo y espacio trabajar con grandes cantidades de datos.
No se pueden dividir los datos en cualquier intervalo que queramos. Se deben de seguir
varias normas. De hecho, para construir intervalos de manera adecuada, es necesario
hacer lo siguiente.
Primero se halla el rango, algo que ya ha sido discutido. Al obtenerlo, se intenta dividir el
rango entre algún número arbitrario dependiendo de cuántos intervalos sean deseados.
Este resultado será la cantidad de datos en cada intervalo. Por lo general, queremos
entre siete y diez intervalos. Cada intervalo contendrá una cantidad de datos igual al
número arbitrario que escogimos.
Veamos un ejemplo.
Supongamos que un grupo de estudiantes tomó una prueba en una clase de ciencia y
obtuvieron las próximas puntuaciones. Queremos organizar los datos por intervalo.
71 38 40 39 40 67 64 63 43 49 45 47 46 61 61 61 56 58 56 58
59 56 55 54 55 54 53 50 50 52 51 52 51 51 49 50 50 45 47 46
Primero hallamos el rango.
Rango = 71 – 38 = 33
Ahora escogemos un valor arbitrario. Quiero diez intervalos, así que vamos a usar el 10.
Dividimos el rango entre este número.
Ancho = 33/10 = 3.3
Redondeamos el valor a 3. Esto significa que tendremos diez intervalos de tres datos
cada uno.
Ahora, para construir los intervalos, utilizamos múltiplos del ancho hallado. Estos serán
los límites inferiores de cada intervalo. En este caso, serían 36, 39, 42, y así
sucesivamente hasta tener los que necesitemos. Los límites superiores son la suma de
los inferiores y uno menos que el ancho. En este caso, tendríamos 38, 41, 44, y así
sucesivamente.
Ahora que tenemos nuestros intervalos, los anotamos en una tabla. También
anotaremos las frecuencias de cada intervalo. Esto se hace contando la frecuencia de
cada dato en el intervalo y sumándolas todas. Veamos.
Intervalo
Conteo
Frecuencia
Porciento
69-71
I
1
2.5
66-68
I
1
2.5
63-65
II
2
5.0
60-62
III
3
7.5
57-59
III
3
7.5
54-56
IIIII I
6
15.0
51-53
IIIII I
6
15.0
48-50
IIIII
5
12.5
45-47
III
3
7.5
42-44
IIII
4
10.0
39-41
IIIII
5
12.5
36-38
I
1
2.5
N=40
100
Estos datos se pueden representar en gráficas tal como si fueran datos no en intervalos.
En el eje x (abajo) van los intervalos. Cada intervalo separado es una categoría. En el
eje y (al lado), va la frecuencia.
Al igual que con los otros datos, también se pueden hallar la moda, la mediana y la
media de datos organizados en intervalos. Simplemente se utilizan los datos originales
ordenados.
Ahora, ya que tenemos los datos organizados en la tabla divididos en intervalos,
podemos hallar la varianza y la desviación estándar. Es bastante sencillo hallar los dos
valores después que se tenga en mente la fórmula. La varianza S se halla mediante la
siguiente fórmula.
La desviación estándar es la raíz cuadrada de la varianza.
En la fórmula, Xi es el punto medio de cada intervalo. X sobrerayado es la media de los
datos. Finalmente, N es la cantidad total de datos. En palabras, se halla la diferencia del
punto medio de cada intervalo y la media. Después, se elevan todas al cuadrado y se
suman. Finalmente, se divide esa suma entre la cantidad total de datos. Este resultado
es la varianza, mientras la raíz cuadrada del mismo es la desviación estándar.
Descargar