descargable (nueva ventana)

Anuncio
¡Cordial saludo, estimados
aprendices!
Bienvenidos al material de
formación “Interpretación y
análisis de datos: estadística
descriptiva”
Conceptos básicos de estadística
La estadística es una rama de la matemática en la cual se toman y analizan valores numéricos con
el propósito de obtener conclusiones fundamentadas en el cálculo de probabilidades. Esta se
presenta de modo simple analizando datos que se organizan gráficamente y que permiten tener
acceso a resultados con características favorables o negativas.
Actualmente, los estudios estadísticos se utilizan en el contexto empresarial como base para
medir la producción, la satisfacción de los clientes o la situación económica en la que se encuentra
una compañía, con el propósito de tomar decisiones más acertadas para su mejoramiento. Por
lo anterior, como parte del proceso de consultoría, se hace necesario comprender los diferentes
conceptos asociados a la rama de la estadística, ya que la correcta interpretación de los resultados
obtenidos en la recolección de información permitirá ofrecer una mejor asesoría a los empresarios
durante el proceso de gestión y toma de decisiones.
Jorge, ya tenemos la información que necesitábamos
recolectar en las diferentes áreas de gestión en Colchones
El Buen Descanso, ahora es necesario realizar el análisis de
datos correspondiente, tabular la información y representarla
gráficamente para presentarla al grupo directivo de la
empresa.
Sí, todo esto lo haremos mediante el uso de la estadística. Debemos
comenzar por evaluar la calidad de los datos recolectados,
describirlos y describir la población de estudio, analizar la
posibilidad de sesgo y estimar las medidas de frecuencia.
Implementando todos nuestros conocimientos en
estadística de manera adecuada podremos organizar
e interpretar los datos recolectados, con el propósito
de obtener conclusiones válidas sobre los fenómenos
o hechos abordados para poder ofrecer información
confiable que pueda ser usada por los directivos de la
empresa en la toma de decisiones y la gestión.
Así es, además, soy un apasionado de los estudios estadísticos y
de seguro disfrutaré mucho llevar a cabo el análisis de los datos.
La estadística es una ciencia exacta muy importante que nos
brinda datos de carácter cuantitativo y que nos permite conocer
cualquier tipo de fenómeno presente en una sociedad. También
sirve para complementar cualquier tipo
de investigación
científica. En pocas palabras, su utilidad es extraordinaria.
Servicio Nacional de Aprendizaje - SENA 2014
Tienes razón, la estadística es una ciencia que sirve para
muchas cosas. Aunque te debo confesar que aún necesito
reforzar algunos conceptos básicos para poder empezar
con el análisis de los datos. Acompáñame a la biblioteca a
investigar un poco.
¡De acuerdo, vamos!
Estadística
Es la ciencia de los datos utilizada como
herramienta matemática para organizar,
analizar y describir la información que se
ha recopilado mediante una serie de datos
numéricos. Ayuda en la toma de decisiones
o a exponer escenarios de algún evento.
Cualquier conjunto de datos contiene
información sobre un grupo de individuos
y la información se organiza en forma de
variables. Los individuos son los objetos
descritos por un conjunto de datos,
pueden ser personas, pero también
pueden ser animales o cosas.
Una variable es cualquier característica
de un individuo, y puede tomar distintos
valores para distintos individuos.
10%
40%
Estadística descriptiva
30%
Detalla, modela y sintetiza datos originados
por la muestra que se toma de una
determinada población para su respectivo
estudio. Este estudio simplifica los datos
de forma numérica o gráfica.
20%
Servicio Nacional de Aprendizaje - SENA 2014
Población
Muestreo
Estadística inductiva
Se conoce también como inferencia estadística. Este
tipo de estudio obtiene resultados a partir del análisis
de una muestra de población, para lograr inferir el
comportamiento o característica de la misma.
Muestra
Población y muestra
Una población se define como el conjunto de objetos, personas, animales o situaciones que posee una o
varias particularidades o propiedades en común. Estos conjuntos usualmente se estudian para obtener
conclusiones respecto a los mismos.
Una muestra es un conjunto seleccionado de la población analizada que sirve para representarla en un
determinado estudio. Las conclusiones que se obtengan de la muestra seleccionada podrán utilizarse para
referirse a la población de donde fue tomada.
Muestra
Muestra
Servicio Nacional de Aprendizaje - SENA 2014
Característica
cuantitativa
Son datos representados numéricamente, su
finalidad es catalogar los atributos, contarlos y
elaborar patrones estadísticos con el propósito de
exponer lo que se ha encontrado.
Característica
cualitativa
Su objetivo es detallar las cualidades de un suceso,
en el cual se insiste en manifestar tantas cualidades
como sea posible. Su visión es subjetiva.
Variable continua
Se define como variable continua aquella que se
agrupa de manera parcial por categorías, ya que
por su naturaleza, esta pueden tener un valor
cualquiera durante una escala numérica continua.
Variable discreta
La variable discreta es aquella que se congrega
naturalmente por categorías, ya que la variable sólo
puede tomar valores determinados.
Servicio Nacional de Aprendizaje - SENA 2014
Datos agrupados
Datos no agrupados
Cuando se cuentan con más de 20 elementos
o datos en relación con una muestra, se hace
necesario ordenar y organizar dichos datos en
clases o categorías para poder determinar las
características de la muestra. Esto es lo que se
conoce como datos agrupados.
Cuando se cuentan con menos de 20 elementos
u observaciones con relación a una muestra,
no es necesario agrupar los datos en clases o
categorías. Su tratamiento puede hacerse de
manera no agrupada.
Conceptos básicos de estadística
Según Vergara y Quesada (s.f.), el objetivo principal de la estadística descriptiva consiste en
sintetizar conjuntos de datos mediante tablas y gráficos resumen, también conocidos como tablas
de frecuencia, con el propósito de identificar el comportamiento característico de un fenómeno y
facilitar su análisis exhaustivo.
En este apartado, se mostrará de manera sencilla el procedimiento para elaborar las tablas de
frecuencia que servirán para el tratamiento de la información recolectada en la organización cliente.
Elaboración de tablas de frecuencias (datos agrupados)
Se dice que son datos agrupados cuando se cuenta con más de 20 observaciones y por lo tanto
se debe aplicar una tabla de frecuencias; en caso de tener menos de 20 observaciones, no se aplica
tabla de frecuencias. De aquí en adelante, se observarán los métodos de trabajo de cálculo para
datos agrupados y no agrupados.
Observemos los siguientes datos obtenidos a través de un
estudio realizado a 50 establecimientos comerciales sobre el
volumen de ventas (millones de $) en el mes con el siguiente
resultado. A cada valor le daremos el nombre de Xi.
Tabla de frecuencias (datos agrupados)
Servicio Nacional de Aprendizaje - SENA 2014
Procedimiento para la elaboración de tablas de
frecuencias (datos agrupados)
Para elaborar la tabla de frecuencias de un conjunto de datos agrupados, se debe seguir el
procedimiento que se describe a continuación:
Determinar el valor de la amplitud
(C)= Rango/m (N˚ de intervalos).
Por lo tanto 29/7= 4,14
aproximando =5
Determinar el número
de intervalos
(m)= 1+3.3logn,
por lo tanto: 1+3.3 log 50 = 6,60
aproximando =7
Usar el valor máximo o el valor
mínimo, sumarle o restarle
de manera equiparada al
valor mínimo y máximo
Servicio Nacional de Aprendizaje - SENA 2014
Cuadro de elaboración de una tabla de frecuencias
Para construir la tabla de frecuencias, se debe utilizar el siguiente cuadro:
Desarrollando la tabla de frecuencias
Servicio Nacional de Aprendizaje - SENA 2014
Tabulando la tabla de frecuencias
Representación grafica
Según Martínez (2008), en su libro Estadística y muestreo, la representación gráfica de datos cumple
la siguiente función:
Se utiliza para visualizar mejor la información y como complemento de
la tabulación, pero no la sustituye. Se puede decir que la gráfica, además de
visualizar, ayuda a la lectura numérica, siendo por consiguiente más concreta
y generalmente más clara; su representatividad depende del cuidado y de la
técnica empleada cuando han sido trazadas, ya que una mala elaboración
deforma totalmente la información, así como su mala lectura o interpretación
las convierte en un instrumento peligroso.
Las gráficas pueden ser de diferente tipo
según el hecho o fenómeno que se pretenda
representar. Estas pueden clasificarse en dos
grandes grupos: aquellas que sirven como
complemento al desarrollo de la teoría
estadística (diagramas de frecuencias y de
dispersión, ojivas e histogramas), y aquellas
utilizadas comúnmente en publicaciones de
diverso tipo (gráficas de barra, circulares,
pictogramas, etc.).
Tipos de gráficas
Las gráficas pueden presentar algunas
dificultades o limitaciones como el hecho
de que no representan datos exactos
sino aproximaciones.
Servicio Nacional de Aprendizaje - SENA 2014
Tipos de gráficas
Como elaborar histogramas y ojivas
Para elaborar estos gráficos, se deben tomar los valores del límite inferior y superior, y graficarlos
posteriormente en el eje X (para histograma y ojiva).
Luego, se deben colocar los valores de fi en el eje Y. Para hacer la ojiva, se toman los valores de
Ni y se colocan en el eje Y.
Servicio Nacional de Aprendizaje - SENA 2014
Como elaborar histogramas y ojivas
Como elaborar el diagrama de pastel
Para elaborar este tipo de diagrama, se deben tomar las frecuencias relativas (fi/n) y multiplicarlas
por 360º, en este caso, se obtendrán los ángulos que corresponden a cada segmento del pastel.
Cuando se habla de tendencia central se hace referencia al punto medio de una distribución.
Las medidas de tendencia central son llamadas medidas de posición y hacen referencia a
valores que se ubican al centro de un conjunto de datos organizados. En el campo de la
estadística, se conocen tres medidas de tendencia central principales: la media, la moda
y la mediana.
Servicio Nacional de Aprendizaje - SENA 2014
Media o media aritmética
Martínez (2008) define la media aritmética
como:
Es la medida o promedio más conocida, la más
utilizada y comprendida por todos, por su gran
estabilidad es la preferida en el muestreo, sus
fórmulas admiten el tratamiento algebraico.
Su desventaja principal es ser muy sensible a
cambios en sus valores y variaciones, también
cuando algunos de sus valores son demasiado
extremos o pequeños (p. 93).
La media aritmética, también conocida
popularmente como promedio, resulta de
la suma de todos y cada uno de los valores
dividida entre el total de valores.
Cuando se calcula la media de la población, se
divide por la cantidad de datos de la población
N, y cuando se calcula la media muestra, por n.
Media o media aritmética
Primero, se debe calcular el punto medio
de cada clase (marca de clase xi), luego,
se procede a multiplicar cada punto
medio por la frecuencia absoluta de cada
intervalo. La ecuación es la siguiente:
Servicio Nacional de Aprendizaje - SENA 2014
Moda (datos agrupados)
Se refiere al valor que se presenta con mayor
frecuencia en un conjunto de datos.
En caso de que los datos se encuentren agrupados en
una distribución de frecuencias, lo que se debe hacer
es seleccionar el intervalo de clase que tiene mayor
frecuencia, este es conocido como clase modal.
La fórmula es:
Aplicando la fórmula,
se obtiene…
Se presentan las siguientes
situaciones, observemos los
siguientes datos:
Servicio Nacional de Aprendizaje - SENA 2014
Media o media
aritmética
Primero, se debe calcular el punto medio
de cada clase (marca de clase xi), luego,
se procede a multiplicar cada punto
medio por la frecuencia absoluta de cada
intervalo. La ecuación es la siguiente:
Procedimiento para calcular la mediana
(datos agrupados)
Servicio Nacional de Aprendizaje - SENA 2014
Procedimiento para calcular la mediana
(datos no agrupados)
Media Geométrica (Mg)
Es la raíz n-ésima del producto de todos los
números, es utilizada para datos de progresión
geométrica y para promediar razones, interés
compuesto y números índices.
Cálculo de la media geométrica
(datos agrupados)
Servicio Nacional de Aprendizaje - SENA 2014
Media armónica (datos no agrupados)
La media armónica de una serie de números es el recíproco, o inverso, de la media aritmética de los
recíprocos de dichos números, entendiéndose como recíproco al número que multiplicado por este
nos da la unidad.
Sean los números x1. x2.x3…xn la media armónica H se obtiene con alguna de las siguientes ecuaciones:
Cálculo de la media
armónica (datos agrupados)
La media armónica se calcula con cualquiera de las
siguientes ecuaciones:
Servicio Nacional de Aprendizaje - SENA 2014
Medidas de dispersión
“Parámetros estadísticos que indican como se alejan los datos respecto de la
media aritmética. Sirven como indicador de la variabilidad de los datos. Las
medidas de dispersión más utilizadas son el rango, la desviación estándar y
la varianza.” (EcuRed, s.f.).
Servicio Nacional de Aprendizaje - SENA 2014
Varianza
Es una medida de dispersión definida
como el promedio de las distancias al
cuadrado que van de las observaciones
de la media.
Cálculo de la varianza (datos no
agrupados)
La siguiente ecuación para calcular la
varianza, aplica a conjuntos de datos de
una misma variable:
Cálculo de la varianza (datos agrupados)
Para calcular la varianza de una tabla de frecuencias, se requiere utilizar la siguiente ecuación:
Servicio Nacional de Aprendizaje - SENA 2014
Según Martínez (2008), la desviación estándar o desviación típica es la raíz cuadrada de
la varianza, es decir la raíz cuadrada de la media de los cuadrados de las puntuaciones de
desviación.
La varianza presenta el inconveniente de que el resultado corresponde a la unidad en que esta
medida la variable, pero elevada al cuadrado como lo exige la formula, siendo necesario contar
con una medida de dispersión, cuyo resultado sea dado en la misma unidad en que esta dada
la variable.Y se logra si se extrae la raíz cuadrada de la varianza. Este método se conoce como
desviación típica o estándar y se simboliza como σ o S . La desviación estandar es la medida de
dispersión más utilizada.
La desviación estándar se representa por σ.
Para datos no agrupados se tienen
las siguientes formulas:
Para datos agrupados se tiene la
siguiente formula:
Servicio Nacional de Aprendizaje - SENA 2014
Desviación estándar
Tomando como base los ejercicios
anteriores:
Para datos no agrupados, se tendría:
Para datos no agrupados, se tendría:
Servicio Nacional de Aprendizaje - SENA 2014
Distribución normal
La desviación estándar tiene una interpretación precisa, por ejemplo, en la
distribución normal, puede visualizarse con el siguiente grafico:
El total del área bajo la curva es igual a 1, o sea el 100%. El área corresponde a la
proporción de observaciones en la distribución, es decir:
Servicio Nacional de Aprendizaje - SENA 2014
Distribución normal
La media de una distribución normal (φ ) divide en dos partes iguales la curva, correspondiéndole a
cada lado el 50%. Si nos alejamos del centro a la derecha, una desviación estándar se incluirá en esta
área (aproximadamente del 34.13% de las observaciones). Como es simétrica, si se toma una vez la
desviación típica, a lado y lado del promedio, el total será 68.26%.
Dentro del dominio de la variable, se dice que la media aritmética debe comprender tres veces la
desviación estándar; por lo tanto, se concluye que en una distribución normal, la desviación típica debe
aproximarse a la tercera parte de la media aritmética.
La distribución normal o de gauss es la distribución teórica de la variable continua mas utilizada.
Además se trata de una distribución simétrica, unimodal y asintótica, al eje horizontal o abscisa, que
permite analizar numerosas variables resultantes de investigaciones de carácter socio-económico que
presentan un comportamiento aproximado a la distribución normal.
Se podrán comparar las desviaciones típicas o las varianzas de dos o mas distribuciones si se quiere
determinar cual de ellas tiene una menor o mayor variabilidad absoluta, siempre y cuando que las
variables estén dadas en las mismas unidades de medida
Coeficiente de variación
Es una medida relativa de dispersión que expresa a la
desviación estándar como un porcentaje de la media.
En la población
En la muestra
Es aplicado para comparar la variación de dos o más grupos.
Servicio Nacional de Aprendizaje - SENA 2014
Cibergrafía/Webgrafía
AlvareZ, S. (2000). Estadística aplicada: teoría y problemas. Madrid: Editorial CLAGSA.
EcuRed. (s.f.). Medidas de dispersión. Consultado el 19 de agosto de 2014, en http://www.ecured.
cu/index.php/Medidas_de_dispersi%C3%B3n
Martínez, C. (2005). Estadística y muestreo. Bogotá: Ediciones Ecoe.
Naiman, A., Rosenfeld, R. & Zirkel, G.(1987). Introducción a la Estadística. Mexico D.F.: McGraw-Hill.
Quesada,V. & López, I. (1989). Curso y Ejercicios de Estadística. Méxco D.F.: Alhambra.
Ruíz, M., Morcillo M.C., García, J. & Castillo, C.(2000). Curso de probabilidad y estadística.
Málaga : Universidad de Málaga.
Sarabia, A. & Mate Jiménez, C. (1993). Problemas de Probabilidad y Estadística: elementos
teóricos, cuestiones, aplicaciones con Statgraphics. Madrid: CLAGSA, D.L.
Walpole, R., Myers, R. & Myers, S. (1998). Probabilidad y Estadística para Ingenieros. México
D.F.: Prentice Hall Hispanoamericana.
Glosario
• Cartograma: es una herramienta utilizada para representar un objeto de estudio
por medio de distintos colores o rayas diversas de un mapa según el motivo deseado, el
objetivo del cartograma es ilustrar de forma impactante una distribución temática sobre
un territorio, adquiriendo un tamaño proporcional al valor de la variable representada.
• Desviación estándar: la desviación estándar o desviación típica es la raíz
cuadrada de la varianza, es decir, la raíz cuadrada de la media de los cuadrados de las
puntuaciones de desviación.
•Estadística: es la ciencia de los datos, utilizada como herramienta matemática
para organizar, analizar y describir la información que se ha recopilado por una serie
de datos numéricos.
Servicio Nacional de Aprendizaje - SENA 2014
•
Histograma de frecuencia: es un esquema de barras verticales donde se construyen
barras rectangulares en los límites de cada clase; el histograma de frecuencia tiene el fin de
resumir e ilustrar la variación que se presenta en un conjunto de datos. Sirve para investigar la
solución de problemas o para mejorar un proceso.
•
Media aritmética: también conocida popularmente como promedio, resulta de la suma
de todos y cada uno de los valores dividida entre el total de valores.
• Mediana: este es el valor que divide al conjunto ordenado de datos, en dos subconjuntos
con la misma cantidad de elementos. La mitad de los datos son menores que la mediana y la
otra mitad son mayores.
• Medidas de tendencia central: cuando se habla de tendencia central se hace referencia
al punto medio de una distribución. Las medidas de tendencia central son llamadas medidas
de posición.
• Moda: se refiere al valor que más se frecuenta en un conjunto de datos.
• Pictograma: es un diagrama que utiliza gráficos, símbolos e imágenes para mostrar datos
con el fin de una rápida y especifica comprensión.
•Población: conjunto de objetos, personas, animales o situaciones que posee una o varias
particularidades o propiedades en común.
•
SPSS: Statistical Product and Service Solutions. Es un programa estadístico
informático con la capacidad de trabajar con grandes bases de datos.
•
Variable continua: es aquella que se agrupa de manera parcial por categorías,
ya que por su naturaleza puede tener un valor cualquiera durante una escala numérica
continua.
•
Variable discreta: es aquella que se congrega naturalmente por categorías, ya
que la variable sólo puede tomar valores determinados o enteros.
•
Variable: corresponde a una característica que puede ser medible en varios
individuos, y que puede adoptar diferentes valores.
• Varianza: es una medida de dispersión definida como el promedio de las distancias
al cuadrado que van de las observaciones la media.
Servicio Nacional de Aprendizaje - SENA 2014
Créditos
Líder línea de producción
Alba Lucía Ramírez
Asesoría pedagógica
Ingrid Flórez
Asesoría pedagógica
Ingrid Flórez
Guionización
Ingrid Flórez
Equipo técnico-pedagógico
Carolina Díaz
Carolina Calderón
Jorge Ardila
Carlos Ríos
Diseño gráfico
Aejandro Valencia
Desarrollo multimedia
Urlieson
Servicio Nacional de Aprendizaje - SENA 2014
Descargar