ESTADÍSTICA DESCRIPTIVA PARTE I Uso de funciones en

Anuncio
PRÁCTICA No. 1
ESTADÍSTICA DESCRIPTIVA
PARTE I
Objetivos:
Al finalizar esta práctica, el alumno
¾ podrá utilizar de manera más eficiente diversas funciones de Excel que le
faciliten el cálculo de los principales parámetros numéricos descriptivos de
una muestra.
¾ tendrá la capacidad de utilizar diversas funciones de Excel que ayudan al
cálculo de parámetros numéricos de conjuntos de datos que se encuentren
agrupados en una tabla de distribución de frecuencias.
¾ conocerá el manejo de la opción de Estadística Descriptiva, proporcionada
por la herramienta “Análisis de Datos” de Excel.
Antecedentes:
¾ Medidas de tendencia central: Media, mediana y moda.
¾ Medidas de dispersión: Varianza y desviación estándar.
¾ Parámetros de forma: Coeficiente de sesgo
¾ Tabla de distribución de frecuencias (TDF)
Desarrollo:
Actividad 1
Una de las herramientas más útiles en Excel son las funciones, las cuales
son rutinas que llevan a cabo ciertas tareas específicas, muy útiles para el análisis
de datos en la Estadística.
Para empezar a familiarizarse con las funciones en Microsoft Excel lleve a
cabo los siguientes pasos:
Uso de funciones en Microsoft® Excel.
[--Insertar una función vía menú--]
1. Seleccionar el menú <Insertar> y a continuación elegir la opción <Función>.
[--Insertar una función vía barra de herramientas--]
situado en la barra de
1. Dar clic en el icono de <pegar función>
herramientas estándar. Si la barra de herramientas no está habilitarla,
puede habilitarla dando clic en la opción <Barra de herramientas-Estándar>,
del menú <Ver>.
2. Aparecerá el cuadro de diálogo con las funciones disponibles.
Autor: M. en I. Isabel Patricia Aguilar Juárez
1
Ahora que conoce cómo insertar funciones en Excel, podrá obtener parámetros
numéricos como media, mediana, moda, desviación estándar, entre otras. Para
ello realice la actividad que se describe a continuación.
Obtención de Parámetros Numéricos de un conjunto de datos usando
funciones en Microsoft® Excel.
Actividad 2
¾ Cree una nueva hoja electrónica de Excel mediante el menú
[Archivo]>>[Nuevo...] o bien presione las teclas Control+U. Si ya se
encuentra en una hoja nueva no es necesario realizar este paso.
¾ Coloque el conjunto de datos a analizar en una columna o renglón
(dependiendo del formato que desee utilizar).
¾ A partir de un conjunto de datos, realice el siguiente procedimiento para
obtener sus parámetros numéricos.
1. Seleccione una celda vacía en la hoja de Excel(en ésta aparecerán el o
los resultados que devuelve la función).
2. Abra el cuadro de diálogo <Pegar función> y seleccione la función que
se va a evaluar de acuerdo a las tablas que se muestran a continuación
y dé clic en <Aceptar> para continuar.
Medidas de tendencia central: media, mediana y moda de un conjunto de datos sin
agrupar.
[--Función a insertar vía cuadro de diálogo--]
PARÁMETRO
MEDIA
MEDIANA
FUNCIÓN A INSERTAR
PROMEDIO(Rango de celdas que contienen los datos)
MEDIANA(Rango de celdas que contienen los datos)
MODA
MODA(Rango de celdas que contienen los datos)
[--Función a insertar vía barra de fórmulas--]
Ejemplo:
PARÁMETRO
MEDIA
FUNCIÓN A INSERTAR
=PROMEDIO(celdas que contienen el conjunto de datos)
Autor: M. en I. Isabel Patricia Aguilar Juárez
2
MEDIANA
MODA
=MEDIANA(celdas que contienen el conjunto de datos)
=MODA(celdas que contienen el conjunto de datos)
Medidas de dispersión: desviación estándar y varianza de un conjunto de datos sin
agrupar.
[--Función a insertar vía cuadro de diálogo--]
PARÁMETRO
DESVIACIÓN ESTÁNDAR
VARIANZA
FUNCIÓN A INSERTAR
DESVEST(Rango de celdas que contienen los datos)
VAR(Rango de celdas que contienen los datos)
[--Función a insertar vía barra de fórmulas--]
PARÁMETRO
DESVIACIÓN ESTÁNDAR
VARIANZA
FUNCIÓN A INSERTAR
=DESVEST(celdas que contienen el conjunto de datos)
=VAR(celdas que contienen el conjunto de datos)
Otros parámetros importantes para distribuciones de frecuencias
[--Función a insertar vía cuadro de diálogo--]
PARÁMETRO
VALOR MÍNIMO
VALOR MÁXIMO
TOTAL DE DATOS
FUNCIÓN A INSERTAR
MIN(Rango de celdas que contienen los datos)
MAX(Rango de celdas que contienen los datos)
CONTAR(Rango de celdas que contienen los datos)
[--Función a insertar vía barra de fórmulas--]
PARÁMETRO
VALOR MÍNIMO
VALOR MÁXIMO
TOTAL DE DATOS
FUNCIÓN A INSERTAR
=MIN(celdas que contienen el conjunto de datos)
=MAX(celdas que contienen el conjunto de datos)
=CONTAR(celdas que contienen el conjunto de datos)
Cálculo de Parámetros Numéricos a partir de una tabla de distribución
de frecuencias con Microsoft® Excel.
Autor: M. en I. Isabel Patricia Aguilar Juárez
3
Como se sabe, a partir de una tabla de distribución de frecuencias se
pueden obtener parámetros numéricos, tales como las medidas de tendencia
central y las medidas de dispersión de un conjunto de datos agrupados. Para
Excel dispone de funciones que simplifican el cálculo con el uso correcto de las
funciones y la barra de fórmulas.
La siguiente actividad es realizar el cálculo de parámetros numéricos de un
conjunto de datos agrupados en una tabla de distribución de frecuencias (TDF),
pera ello deberá de tener presentes los conceptos investigados en el cuestionario
previo.
Actividad 3
Usando las herramientas de Microsoft® Excel siga el procedimiento para
obtener los parámetros de una TDF(Tabla de Distribución de Frecuencias):
1. Parta de una TDF
2. Calcule la Media de acuerdo a lo siguiente: En una celda vacía inserte la
función SUMAPRODUCTO() y especifique las columnas “Marca de
clase” y “Frecuencia” como parámetros a evaluar. A continuación divida
el resultado entre la suma de las frecuencias; es decir, n.
3. Calcule la mediana usando la fórmula de la mediana (Interpolación en la
Ojiva).
En la TDF, la columna de frecuencias acumuladas relativas
significa la proporción de los datos en una muestra, acumulados
hasta el límite superior de cada clase, por ello, buscamos la clase
en que se alcanza o se rebasa por primera vez el 50% de los
datos(en la columna de frecuencias acumuladas relativas) y se
realiza una interpolación lineal, usando los límites de la clase
mediana, las frecuencias acumuladas de dicha clase y de la
anterior a ésta.
La fórmula para la mediana es la siguiente:
(l − l i )(n / 2 − Fi )
~
x = i +1
+ li
Fi +1 − Fi
donde:
li+1 = Límite superior de clase cuya frecuencia acumulada
relativa es por primera vez mayor al 50% de los datos(clase
mediana).
li = Límite inferior de la clase mediana.
n = Tamaño de la muestra
Fi+1 = Frecuencia acumulada hasta li+1.
Fi = Frecuencia acumulada hasta li.
Autor: M. en I. Isabel Patricia Aguilar Juárez
4
4. Calcule la mediana mediante el uso de la función tendencia().
La función TENDENCIA() es muy útil para el cálculo de la mediana, ya que
a partir de un conjunto de datos x y y, la fórmula realiza una interpolación lineal en
cierto valor del conjunto y.
La expresión a realizar para el cálculo de la mediana es la siguiente:
MEDIANA=TENDENCIA(conocidos_x, conocidos_y, yi)
Donde:
Conocidos_x = valores de límites inferior y superior de la clase mediana(li+1 y li).
Conocidos_y = valores de Fi+1 y Fi del paso anterior.
yi = n/2 (La mitad del tamaño de la muestra)
5. Calcule la moda, entendiéndola como la marca de clase con mayor
frecuencia, para ello seleccione una celda en blanco y busque aquella
clase que cumpla con ello, haga referencia a ella.
6. Calcule la moda de acuerdo con la definición. Realice el siguiente
procedimiento:
a. Identifique la clase que contenga la mayor frecuencia y llame al límite
inferior L1 y al límite superior U1.
b. Llame ∆1 a la diferencia de la mayor frecuencia y la correspondiente
frecuencia de la marca de clase anterior.
c. Llame ∆2 a la diferencia de la mayor frecuencia y la correspondiente
frecuencia de la marca de clase posterior.
d. Aplique en una celda vacía la fórmula:
Xˆ =
∆ 1U 1 + ∆ 2 L1
∆1 + ∆ 2
7. Calcule la varianza.
El cálculo de la varianza en una TDF es un poco más laborioso que cuando
se calcula con todos los datos. Para ello nos auxiliamos de una nueva columna
que creamos a un lado de la TDF, a ésta le llamaremos “cuadrados” o cualquier
otro que le sirva para identificarla.
La nueva columna (“cuadrados”) contendrá en cada celda la siguiente
sintaxis:
(Celda con marca de clase – Celda con valor de la media)^2
(Nota: El símbolo “^” indica potencia, y el ^2 indica “2 elevado al cuadrado”).
Autor: M. en I. Isabel Patricia Aguilar Juárez
5
A continuación, a una celda vacía aplicamos la función SUMAPRODUCTO()
con parámetros: columna de frecuencias y la columna “cuadrados”, recién creada.
El resultado lo dividimos entre el tamaño de la muestra (suma de las frecuencias)
menos 1; esto es:
[VARIANZA] = SUMAPRODUCTO(Parámetros)/(n-1)
8. Calcule la desviación estándar usando la función RAIZ().
La desviación estándar se define como la raíz cuadrada de la varianza, de
tal modo que ésta se puede calcular usando la función RAIZ().
En una celda vacía aplique la siguiente fórmula:
[DESV. EST. ] =RAIZ(número)
En número colocamos el valor de la varianza.
9. Calcule el coeficiente de sesgo.
Para el cálculo del coeficiente se sesgo seguimos el mismo procedimiento que
con la varianza, creamos una nueva columna con el nombre “cubos” y a cada
celda de ésta aplicamos la sintaxis siguiente:
(Celda con marca de clase – Celda con valor de la media)^3
donde “^3” indica “elevado al cubo” .
A continuación aplicamos la función SUMAPRODUCTO() con parámetros:
columna de frecuencias y la columna “cubos”, recién creada. El resultado lo
dividimos entre la celda que contiene la suma de las frecuencias(tamaño de la
muestra); esto es:
[Tercer momento respecto a la media] = SUMAPRODUCTO(Parámetros)/n
Finalmente,
Sesgo = Tercer momento respecto a la media / (s^3)
donde s^3 es la desviación estándar elevada al cubo.
Uso de la herramienta “Análisis de datos” de Microsoft Excel1.
Además de las funciones, Excel puede generar un informe estadístico de un
conjunto de datos correspondientes a una variable, utilizando la herramienta de
análisis: Análisis de datos, opción Estadística Descriptiva. El informe resultante
Para acceder a la herramienta debe estar instalado el complemento de Microsoft® Excel
Herramientas de análisis.
1
Autor: M. en I. Isabel Patricia Aguilar Juárez
6
proporciona información acerca de los Parámetros numéricos de dicho conjunto,
tales como:
1. Medidas de tendencia central: Media, mediana y moda.
2. Medidas de dispersión: Desviación estándar, Varianza de la muestra,
Rango.
3. Parámetros de forma: Curtosis, coeficiente de asimetría (sesgo).
4. Otros: Error típico (de la media), Valor mínimo y máximo (de la muestra), el
número total de datos y la suma de éstos; así como el nivel de confianza
para la media.
Actividad 4
Para generar un informe, seleccione del menú Herramientas la opción
Análisis de datos..., aparecerá una ventana con una lista de funciones de
análisis, seleccione Estadística descriptiva y de clic en Aceptar. Aparecerá
entonces un cuadro de diálogo en el cual se deben definir los siguientes
parámetros:
1. Rango de entrada: Es la referencia a las celdas que contienen todos los
datos de la muestra que además deberá tener un tamaño mayor o igual a
dos, organizados en filas o columnas.
2. Agrupado por: Especifica si el rango de entrada se encuentra organizado
por fila o por columna.
3. Rótulos en la primera fila o en la primera columna: Si dentro del rango de
entrada se encuentra el título de la variable, se deberá activar la casilla, si
no deberá estar desactivada.
4. Opciones de salida: Se deberá seleccionar una opción de las siguientes:
a. Rango de salida: Especifica la referencia a la celda superior
izquierda del informe conformado por dos columnas, una de rótulos y
otra de resultados.
b. En una hoja nueva: Especifica que el informe debe darse en una
hoja nueva dentro del mismo libro. Si se desea darle un nombre al
informe deberá escribirse en el cuadro.
Autor: M. en I. Isabel Patricia Aguilar Juárez
7
c. En un libro nuevo: Especifica si el informe debe darse en un nuevo
libro de Excel.
5. Por último active la casilla Resumen de estadísticas, con esto le indicamos
al programa que genere un informe con todos los parámetros numéricos
antes mencionados.
6. Si se desea además obtener en el resumen: el nivel de confianza, el valor
mayor y el valor menor de los datos, deberán activarse las casillas
correspondientes, indicando en cada caso los valores deseados. En el caso
del k-ésimo mayor y el k-ésimo menor, se deberá escribir un valor de 1 en
el cuadro de texto para indicar que se quiere el valor más chico y/o el más
grande de todo el conjunto de datos.
Una vez especificadas los parámetros, dé clic en Aceptar.
Dependiendo de dónde indicamos la salida de los datos, obtendremos una tabla
formada por dos columnas, el título aparecerá en la primera fila y las
correspondientes a partir de la tercera fila como lo indica la siguiente figura.
Título
Resumen de
estadísticas
Actividad 5
Finalmente analice los datos obtenidos en esta práctica y concluya acerca de los
métodos aprendidos.
Autor: M. en I. Isabel Patricia Aguilar Juárez
8
CUESTIONARIO PREVIO
ESTADÍSTICA DESCRIPTIVA (PARTE 1)
1. ¿Qué son las medidas de tendencia central?. Explique por qué son
importantes.
2. Indique la forma de calcular la media aritmética cuando se dispone de todos
los datos de la muestra y la forma de hacerlo cuando los datos se
encuentran agrupados en una tabla de distribución de frecuencias.
3. Escriba la definición de la moda. Explique la forma de determinar la moda a
partir de todos los datos que conforman una muestra. Indique dos métodos
diferentes para calcular la moda a partir de los datos dados por una
distribución de frecuencias.
4. Defina la mediana de una muestra. Desarrolle una expresión para el cálculo
de la mediana de un conjunto de datos agrupados en una Tabla de
Distribución de Frecuencias a partir de una interpolación en la ojiva.
Muéstrelo gráficamente.
5. ¿Qué son y cómo se calculan la varianza y la desviación estándar?.
6. ¿Qué es y cómo se calcula el coeficiente de sesgo de una muestra?.
BIBLIOGRAFÍA:
MURRAY, SPIEGEL // ESTADÍSTICA
McGraw-Hill // 1ª Edición // México 1970
pp. 45-98
APUNTES DE ESTADÍSTICA DESCRIPTIVA
M. en I. Isabel Patricia Aguilar Juárez
Facultad de Ingeniería
Autor: M. en I. Isabel Patricia Aguilar Juárez
9
Ejercicio extra-clase
Los datos mostrados a continuación representan el costo de electricidad durante el
mes de julio de 2001 de una muestra aleatoria de 50 departamentos en una
ciudad.
Datos de la Utilidad Bruta del precio ($)
96 102 157 111 141 128 95 143 108
171 153 185 148 149 144 163 187 119
202 197 90 213 206 168 150 166 183
178 127 116 130 175 109 154 139 151
147 82 172 165 123 167 130 149 114
135
191
137
129
158
a) A partir de todo el conjunto de datos calcule: media, mediana, moda,
varianza, desviación estándar y coeficiente de sesgo.
b) A partir de la tabla de distribución de frecuencias mostrada a continuación,
obtenga: media, mediana, moda, varianza, desviación estándar y
coeficiente de sesgo.
a
81
100
119
138
157
176
195
b
100
119
138
157
176
195
214
xi
90.50
109.50
128.50
147.50
166.50
185.50
204.50
f
4
7
8
13
9
5
4
50
f*
0.08
0.14
0.16
0.26
0.18
0.10
0.08
1.00
F
4
11
19
32
41
46
50
F*
0.080
0.220
0.380
0.640
0.820
0.920
1.000
c) Compare los resultados obtenidos en los incisos a y b. ¿Qué concluye?.
d) Del conjunto de datos, use la herramienta “Análisis de datos...” para obtener
un informa estadístico de la muestra, compare los resultados obtenidos de
este inciso con los obtenidos en el inciso a).
Autor: M. en I. Isabel Patricia Aguilar Juárez
10
Descargar