¡Cordial saludo, estimados aprendices! Bienvenidos al material de formación “Interpretación y análisis de datos: estadística descriptiva” Conceptos básicos de estadística La estadística es una rama de la matemática en la cual se toman y analizan valores numéricos con el propósito de obtener conclusiones fundamentadas en el cálculo de probabilidades. Esta se presenta de modo simple analizando datos que se organizan gráficamente y que permiten tener acceso a resultados con características favorables o negativas. Actualmente, los estudios estadísticos se utilizan en el contexto empresarial como base para medir la producción, la satisfacción de los clientes o la situación económica en la que se encuentra una compañía, con el propósito de tomar decisiones más acertadas para su mejoramiento. Por lo anterior, como parte del proceso de consultoría, se hace necesario comprender los diferentes conceptos asociados a la rama de la estadística, ya que la correcta interpretación de los resultados obtenidos en la recolección de información permitirá ofrecer una mejor asesoría a los empresarios durante el proceso de gestión y toma de decisiones. Jorge, ya tenemos la información que necesitábamos recolectar en las diferentes áreas de gestión en Colchones El Buen Descanso, ahora es necesario realizar el análisis de datos correspondiente, tabular la información y representarla gráficamente para presentarla al grupo directivo de la empresa. Sí, todo esto lo haremos mediante el uso de la estadística. Debemos comenzar por evaluar la calidad de los datos recolectados, describirlos y describir la población de estudio, analizar la posibilidad de sesgo y estimar las medidas de frecuencia. Implementando todos nuestros conocimientos en estadística de manera adecuada podremos organizar e interpretar los datos recolectados, con el propósito de obtener conclusiones válidas sobre los fenómenos o hechos abordados para poder ofrecer información confiable que pueda ser usada por los directivos de la empresa en la toma de decisiones y la gestión. Así es, además, soy un apasionado de los estudios estadísticos y de seguro disfrutaré mucho llevar a cabo el análisis de los datos. La estadística es una ciencia exacta muy importante que nos brinda datos de carácter cuantitativo y que nos permite conocer cualquier tipo de fenómeno presente en una sociedad. También sirve para complementar cualquier tipo de investigación científica. En pocas palabras, su utilidad es extraordinaria. Servicio Nacional de Aprendizaje - SENA 2014 Tienes razón, la estadística es una ciencia que sirve para muchas cosas. Aunque te debo confesar que aún necesito reforzar algunos conceptos básicos para poder empezar con el análisis de los datos. Acompáñame a la biblioteca a investigar un poco. ¡De acuerdo, vamos! Estadística Es la ciencia de los datos utilizada como herramienta matemática para organizar, analizar y describir la información que se ha recopilado mediante una serie de datos numéricos. Ayuda en la toma de decisiones o a exponer escenarios de algún evento. Cualquier conjunto de datos contiene información sobre un grupo de individuos y la información se organiza en forma de variables. Los individuos son los objetos descritos por un conjunto de datos, pueden ser personas, pero también pueden ser animales o cosas. Una variable es cualquier característica de un individuo, y puede tomar distintos valores para distintos individuos. 10% 40% Estadística descriptiva 30% Detalla, modela y sintetiza datos originados por la muestra que se toma de una determinada población para su respectivo estudio. Este estudio simplifica los datos de forma numérica o gráfica. 20% Servicio Nacional de Aprendizaje - SENA 2014 Población Muestreo Estadística inductiva Se conoce también como inferencia estadística. Este tipo de estudio obtiene resultados a partir del análisis de una muestra de población, para lograr inferir el comportamiento o característica de la misma. Muestra Población y muestra Una población se define como el conjunto de objetos, personas, animales o situaciones que posee una o varias particularidades o propiedades en común. Estos conjuntos usualmente se estudian para obtener conclusiones respecto a los mismos. Una muestra es un conjunto seleccionado de la población analizada que sirve para representarla en un determinado estudio. Las conclusiones que se obtengan de la muestra seleccionada podrán utilizarse para referirse a la población de donde fue tomada. Muestra Muestra Servicio Nacional de Aprendizaje - SENA 2014 Característica cuantitativa Son datos representados numéricamente, su finalidad es catalogar los atributos, contarlos y elaborar patrones estadísticos con el propósito de exponer lo que se ha encontrado. Característica cualitativa Su objetivo es detallar las cualidades de un suceso, en el cual se insiste en manifestar tantas cualidades como sea posible. Su visión es subjetiva. Variable continua Se define como variable continua aquella que se agrupa de manera parcial por categorías, ya que por su naturaleza, esta pueden tener un valor cualquiera durante una escala numérica continua. Variable discreta La variable discreta es aquella que se congrega naturalmente por categorías, ya que la variable sólo puede tomar valores determinados. Servicio Nacional de Aprendizaje - SENA 2014 Datos agrupados Datos no agrupados Cuando se cuentan con más de 20 elementos o datos en relación con una muestra, se hace necesario ordenar y organizar dichos datos en clases o categorías para poder determinar las características de la muestra. Esto es lo que se conoce como datos agrupados. Cuando se cuentan con menos de 20 elementos u observaciones con relación a una muestra, no es necesario agrupar los datos en clases o categorías. Su tratamiento puede hacerse de manera no agrupada. Conceptos básicos de estadística Según Vergara y Quesada (s.f.), el objetivo principal de la estadística descriptiva consiste en sintetizar conjuntos de datos mediante tablas y gráficos resumen, también conocidos como tablas de frecuencia, con el propósito de identificar el comportamiento característico de un fenómeno y facilitar su análisis exhaustivo. En este apartado, se mostrará de manera sencilla el procedimiento para elaborar las tablas de frecuencia que servirán para el tratamiento de la información recolectada en la organización cliente. Elaboración de tablas de frecuencias (datos agrupados) Se dice que son datos agrupados cuando se cuenta con más de 20 observaciones y por lo tanto se debe aplicar una tabla de frecuencias; en caso de tener menos de 20 observaciones, no se aplica tabla de frecuencias. De aquí en adelante, se observarán los métodos de trabajo de cálculo para datos agrupados y no agrupados. Observemos los siguientes datos obtenidos a través de un estudio realizado a 50 establecimientos comerciales sobre el volumen de ventas (millones de $) en el mes con el siguiente resultado. A cada valor le daremos el nombre de Xi. Tabla de frecuencias (datos agrupados) Servicio Nacional de Aprendizaje - SENA 2014 Procedimiento para la elaboración de tablas de frecuencias (datos agrupados) Para elaborar la tabla de frecuencias de un conjunto de datos agrupados, se debe seguir el procedimiento que se describe a continuación: Determinar el valor de la amplitud (C)= Rango/m (N˚ de intervalos). Por lo tanto 29/7= 4,14 aproximando =5 Determinar el número de intervalos (m)= 1+3.3logn, por lo tanto: 1+3.3 log 50 = 6,60 aproximando =7 Usar el valor máximo o el valor mínimo, sumarle o restarle de manera equiparada al valor mínimo y máximo Servicio Nacional de Aprendizaje - SENA 2014 Cuadro de elaboración de una tabla de frecuencias Para construir la tabla de frecuencias, se debe utilizar el siguiente cuadro: Desarrollando la tabla de frecuencias Servicio Nacional de Aprendizaje - SENA 2014 Tabulando la tabla de frecuencias Representación grafica Según Martínez (2008), en su libro Estadística y muestreo, la representación gráfica de datos cumple la siguiente función: Se utiliza para visualizar mejor la información y como complemento de la tabulación, pero no la sustituye. Se puede decir que la gráfica, además de visualizar, ayuda a la lectura numérica, siendo por consiguiente más concreta y generalmente más clara; su representatividad depende del cuidado y de la técnica empleada cuando han sido trazadas, ya que una mala elaboración deforma totalmente la información, así como su mala lectura o interpretación las convierte en un instrumento peligroso. Las gráficas pueden ser de diferente tipo según el hecho o fenómeno que se pretenda representar. Estas pueden clasificarse en dos grandes grupos: aquellas que sirven como complemento al desarrollo de la teoría estadística (diagramas de frecuencias y de dispersión, ojivas e histogramas), y aquellas utilizadas comúnmente en publicaciones de diverso tipo (gráficas de barra, circulares, pictogramas, etc.). Tipos de gráficas Las gráficas pueden presentar algunas dificultades o limitaciones como el hecho de que no representan datos exactos sino aproximaciones. Servicio Nacional de Aprendizaje - SENA 2014 Tipos de gráficas Como elaborar histogramas y ojivas Para elaborar estos gráficos, se deben tomar los valores del límite inferior y superior, y graficarlos posteriormente en el eje X (para histograma y ojiva). Luego, se deben colocar los valores de fi en el eje Y. Para hacer la ojiva, se toman los valores de Ni y se colocan en el eje Y. Servicio Nacional de Aprendizaje - SENA 2014 Como elaborar histogramas y ojivas Como elaborar el diagrama de pastel Para elaborar este tipo de diagrama, se deben tomar las frecuencias relativas (fi/n) y multiplicarlas por 360º, en este caso, se obtendrán los ángulos que corresponden a cada segmento del pastel. Cuando se habla de tendencia central se hace referencia al punto medio de una distribución. Las medidas de tendencia central son llamadas medidas de posición y hacen referencia a valores que se ubican al centro de un conjunto de datos organizados. En el campo de la estadística, se conocen tres medidas de tendencia central principales: la media, la moda y la mediana. Servicio Nacional de Aprendizaje - SENA 2014 Media o media aritmética Martínez (2008) define la media aritmética como: Es la medida o promedio más conocida, la más utilizada y comprendida por todos, por su gran estabilidad es la preferida en el muestreo, sus fórmulas admiten el tratamiento algebraico. Su desventaja principal es ser muy sensible a cambios en sus valores y variaciones, también cuando algunos de sus valores son demasiado extremos o pequeños (p. 93). La media aritmética, también conocida popularmente como promedio, resulta de la suma de todos y cada uno de los valores dividida entre el total de valores. Cuando se calcula la media de la población, se divide por la cantidad de datos de la población N, y cuando se calcula la media muestra, por n. Media o media aritmética Primero, se debe calcular el punto medio de cada clase (marca de clase xi), luego, se procede a multiplicar cada punto medio por la frecuencia absoluta de cada intervalo. La ecuación es la siguiente: Servicio Nacional de Aprendizaje - SENA 2014 Moda (datos agrupados) Se refiere al valor que se presenta con mayor frecuencia en un conjunto de datos. En caso de que los datos se encuentren agrupados en una distribución de frecuencias, lo que se debe hacer es seleccionar el intervalo de clase que tiene mayor frecuencia, este es conocido como clase modal. La fórmula es: Aplicando la fórmula, se obtiene… Se presentan las siguientes situaciones, observemos los siguientes datos: Servicio Nacional de Aprendizaje - SENA 2014 Media o media aritmética Primero, se debe calcular el punto medio de cada clase (marca de clase xi), luego, se procede a multiplicar cada punto medio por la frecuencia absoluta de cada intervalo. La ecuación es la siguiente: Procedimiento para calcular la mediana (datos agrupados) Servicio Nacional de Aprendizaje - SENA 2014 Procedimiento para calcular la mediana (datos no agrupados) Media Geométrica (Mg) Es la raíz n-ésima del producto de todos los números, es utilizada para datos de progresión geométrica y para promediar razones, interés compuesto y números índices. Cálculo de la media geométrica (datos agrupados) Servicio Nacional de Aprendizaje - SENA 2014 Media armónica (datos no agrupados) La media armónica de una serie de números es el recíproco, o inverso, de la media aritmética de los recíprocos de dichos números, entendiéndose como recíproco al número que multiplicado por este nos da la unidad. Sean los números x1. x2.x3…xn la media armónica H se obtiene con alguna de las siguientes ecuaciones: Cálculo de la media armónica (datos agrupados) La media armónica se calcula con cualquiera de las siguientes ecuaciones: Servicio Nacional de Aprendizaje - SENA 2014 Medidas de dispersión “Parámetros estadísticos que indican como se alejan los datos respecto de la media aritmética. Sirven como indicador de la variabilidad de los datos. Las medidas de dispersión más utilizadas son el rango, la desviación estándar y la varianza.” (EcuRed, s.f.). Servicio Nacional de Aprendizaje - SENA 2014 Varianza Es una medida de dispersión definida como el promedio de las distancias al cuadrado que van de las observaciones de la media. Cálculo de la varianza (datos no agrupados) La siguiente ecuación para calcular la varianza, aplica a conjuntos de datos de una misma variable: Cálculo de la varianza (datos agrupados) Para calcular la varianza de una tabla de frecuencias, se requiere utilizar la siguiente ecuación: Servicio Nacional de Aprendizaje - SENA 2014 Según Martínez (2008), la desviación estándar o desviación típica es la raíz cuadrada de la varianza, es decir la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación. La varianza presenta el inconveniente de que el resultado corresponde a la unidad en que esta medida la variable, pero elevada al cuadrado como lo exige la formula, siendo necesario contar con una medida de dispersión, cuyo resultado sea dado en la misma unidad en que esta dada la variable.Y se logra si se extrae la raíz cuadrada de la varianza. Este método se conoce como desviación típica o estándar y se simboliza como σ o S . La desviación estandar es la medida de dispersión más utilizada. La desviación estándar se representa por σ. Para datos no agrupados se tienen las siguientes formulas: Para datos agrupados se tiene la siguiente formula: Servicio Nacional de Aprendizaje - SENA 2014 Desviación estándar Tomando como base los ejercicios anteriores: Para datos no agrupados, se tendría: Para datos no agrupados, se tendría: Servicio Nacional de Aprendizaje - SENA 2014 Distribución normal La desviación estándar tiene una interpretación precisa, por ejemplo, en la distribución normal, puede visualizarse con el siguiente grafico: El total del área bajo la curva es igual a 1, o sea el 100%. El área corresponde a la proporción de observaciones en la distribución, es decir: Servicio Nacional de Aprendizaje - SENA 2014 Distribución normal La media de una distribución normal (φ ) divide en dos partes iguales la curva, correspondiéndole a cada lado el 50%. Si nos alejamos del centro a la derecha, una desviación estándar se incluirá en esta área (aproximadamente del 34.13% de las observaciones). Como es simétrica, si se toma una vez la desviación típica, a lado y lado del promedio, el total será 68.26%. Dentro del dominio de la variable, se dice que la media aritmética debe comprender tres veces la desviación estándar; por lo tanto, se concluye que en una distribución normal, la desviación típica debe aproximarse a la tercera parte de la media aritmética. La distribución normal o de gauss es la distribución teórica de la variable continua mas utilizada. Además se trata de una distribución simétrica, unimodal y asintótica, al eje horizontal o abscisa, que permite analizar numerosas variables resultantes de investigaciones de carácter socio-económico que presentan un comportamiento aproximado a la distribución normal. Se podrán comparar las desviaciones típicas o las varianzas de dos o mas distribuciones si se quiere determinar cual de ellas tiene una menor o mayor variabilidad absoluta, siempre y cuando que las variables estén dadas en las mismas unidades de medida Coeficiente de variación Es una medida relativa de dispersión que expresa a la desviación estándar como un porcentaje de la media. En la población En la muestra Es aplicado para comparar la variación de dos o más grupos. Servicio Nacional de Aprendizaje - SENA 2014 Cibergrafía/Webgrafía AlvareZ, S. (2000). Estadística aplicada: teoría y problemas. Madrid: Editorial CLAGSA. EcuRed. (s.f.). Medidas de dispersión. Consultado el 19 de agosto de 2014, en http://www.ecured. cu/index.php/Medidas_de_dispersi%C3%B3n Martínez, C. (2005). Estadística y muestreo. Bogotá: Ediciones Ecoe. Naiman, A., Rosenfeld, R. & Zirkel, G.(1987). Introducción a la Estadística. Mexico D.F.: McGraw-Hill. Quesada,V. & López, I. (1989). Curso y Ejercicios de Estadística. Méxco D.F.: Alhambra. Ruíz, M., Morcillo M.C., García, J. & Castillo, C.(2000). Curso de probabilidad y estadística. Málaga : Universidad de Málaga. Sarabia, A. & Mate Jiménez, C. (1993). Problemas de Probabilidad y Estadística: elementos teóricos, cuestiones, aplicaciones con Statgraphics. Madrid: CLAGSA, D.L. Walpole, R., Myers, R. & Myers, S. (1998). Probabilidad y Estadística para Ingenieros. México D.F.: Prentice Hall Hispanoamericana. Glosario • Cartograma: es una herramienta utilizada para representar un objeto de estudio por medio de distintos colores o rayas diversas de un mapa según el motivo deseado, el objetivo del cartograma es ilustrar de forma impactante una distribución temática sobre un territorio, adquiriendo un tamaño proporcional al valor de la variable representada. • Desviación estándar: la desviación estándar o desviación típica es la raíz cuadrada de la varianza, es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación. •Estadística: es la ciencia de los datos, utilizada como herramienta matemática para organizar, analizar y describir la información que se ha recopilado por una serie de datos numéricos. Servicio Nacional de Aprendizaje - SENA 2014 • Histograma de frecuencia: es un esquema de barras verticales donde se construyen barras rectangulares en los límites de cada clase; el histograma de frecuencia tiene el fin de resumir e ilustrar la variación que se presenta en un conjunto de datos. Sirve para investigar la solución de problemas o para mejorar un proceso. • Media aritmética: también conocida popularmente como promedio, resulta de la suma de todos y cada uno de los valores dividida entre el total de valores. • Mediana: este es el valor que divide al conjunto ordenado de datos, en dos subconjuntos con la misma cantidad de elementos. La mitad de los datos son menores que la mediana y la otra mitad son mayores. • Medidas de tendencia central: cuando se habla de tendencia central se hace referencia al punto medio de una distribución. Las medidas de tendencia central son llamadas medidas de posición. • Moda: se refiere al valor que más se frecuenta en un conjunto de datos. • Pictograma: es un diagrama que utiliza gráficos, símbolos e imágenes para mostrar datos con el fin de una rápida y especifica comprensión. •Población: conjunto de objetos, personas, animales o situaciones que posee una o varias particularidades o propiedades en común. • SPSS: Statistical Product and Service Solutions. Es un programa estadístico informático con la capacidad de trabajar con grandes bases de datos. • Variable continua: es aquella que se agrupa de manera parcial por categorías, ya que por su naturaleza puede tener un valor cualquiera durante una escala numérica continua. • Variable discreta: es aquella que se congrega naturalmente por categorías, ya que la variable sólo puede tomar valores determinados o enteros. • Variable: corresponde a una característica que puede ser medible en varios individuos, y que puede adoptar diferentes valores. • Varianza: es una medida de dispersión definida como el promedio de las distancias al cuadrado que van de las observaciones la media. Servicio Nacional de Aprendizaje - SENA 2014 Créditos Líder línea de producción Alba Lucía Ramírez Asesoría pedagógica Ingrid Flórez Asesoría pedagógica Ingrid Flórez Guionización Ingrid Flórez Equipo técnico-pedagógico Carolina Díaz Carolina Calderón Jorge Ardila Carlos Ríos Diseño gráfico Aejandro Valencia Desarrollo multimedia Urlieson Servicio Nacional de Aprendizaje - SENA 2014