Taller 2 1 Preguntas Universidad Metropolitana en Bayamón Escuela de Estudios Profesionales STAT 555 Jennifer Vélez Claudio S00153158 Prof. Sylvia Y Cosme Montalvo 25 de junio de 2015 Taller 2 2 Preguntas: 1. ¿Cuáles son las propiedades de un conjunto de datos numéricos? Explique a qué se refiere la propiedad de posición o tendencia central. Demuestre la propiedad con un ejemplo gráfico. Los conjuntos de datos numéricos analizan, procesan y estudian las funciones decisorias en las estadísticas, fenómenos conjuntos para revelar las leyes de su desarrollo. Para ese estudio se sirve de índices generalizadores (valores, medios, relaciones, porcentajes, etc.). Se llama medidas de posición, tendencia central o centralización a unos valores numéricos en torno a los cuales se agrupan, en mayor o menor medida, los valores de una variable estadística. Estas medidas se conocen también como promedios. Ejemplo de tendencia central (Imagen recuperada de: http://www.hiru.com/matematicas/medidas-de-tendencia-central) 2. Compare la moda, media y mediana y detalle las ventajas y desventajas de la utilización de cada una de estas medidas de tendencia central. Prepare una tabla que incluya las fórmulas de cada medida, ventajas y desventajas para datos no agrupados y datos agrupados. La media aritmética es la suma de todos los datos dividida entre el número total de datos. Se calculan dependiendo de cómo vengan ordenados los datos. La moda de un conjunto de datos es el dato que más veces se repite, es decir, aquel que tiene mayor frecuencia absoluta. Se denota por Mo. En caso de existir dos valores de la variable que tengan la mayor frecuencia absoluta, habría dos modas. Si no se repite ningún valor, no existe moda. La mediana es el valor que ocupa el lugar central entre todos los valores del conjunto de datos, cuando estos están ordenados en forma creciente o decreciente. La mediana se representa por Me. Taller 2 3 Medida Fórmula Mo Moda Media Ventajas Es estable a los valores extremos. Es recomendable para el tratamiento de variables cualitativas. Desventajas Pueda que no se presente. Puede existir más de una moda. En distribuciones muy asimétricas suele ser un dato muy poco representativo. Carece de rigor matemático. Me Ventajas Es la medida de tendencia central más usada. El promedio es estable en el muestreo. Es sensible a cualquier cambio en los datos (puede ser usado como un detector de variaciones en los datos). Se emplea a menudo en cálculos estadísticos posteriores. Presenta rigor matemático. En la gráfica de frecuencia representa el centro de gravedad. Desventajas Es sensible a los valores extremos. No es recomendable emplearla en distribuciones muy asimétricas. Si se emplean variables discretas o cuasi-cualitativas, la media Taller 2 4 aritmética puede no pertenecer al conjunto de valores de la variable. Mediana Ventajas Es fácil de comprender. No se ve afectada por los valores extremos. Desventajas Parece posible obtener dos respuestas ligeramente diferentes pero justificables. No es tan fácil como la media para calcular de forma automática. 3. Detalle la diferencia entre medidas de tendencia central y medidas de tendencia no central. ¿Qué significa la propiedad de variación? Demuestre a través de un gráfico dicha propiedad. Las tres medidas de tendencia central más importantes son la moda, la mediana y la media. Se les llama medidas de tendencia central porque son números o categorías que describen lo que es típico o promedio en la distribución. Las medidas de posición no centrales permiten conocer otros puntos característicos de la distribución que no son los valores centrales. Entre otros indicadores, se suelen utilizar una serie de valores que dividen la muestra en tramos iguales: cuartiles, deciles, percentiles. La propiedad de variación expresa la desviación estándar como porcentaje de la media aritmética, mostrando una mejor interpretación porcentual del grado de variabilidad que la desviación típica o estándar. (Grafica recuperada de : http://pendientedemigracion.ucm.es /info/genetica/Estadistica/estadistica_basica.htm) Taller 2 5 4. Desarrolle una tabla con la definición, diferencias, ventajas y desventajas en la utilización de las siguientes medidas de variación: Medida y definición Ventajas y desventajas a. Rango señala la amplitud de la variación de un fenómeno entre su límite menor y uno claramente mayor. El rango estadístico, por lo tanto, es el intervalo que contiene dichos datos y que puede calcularse a partir de restar el valor mínimo al valor máximo considerado. Ventajas Es fácil de calcular, y tiene una interpretación intuitiva Desventajas No toma en cuenta los valores intermedios de la distribución Es muy general, tan sólo nos da una idea de cuán amplia es la variación entre puntajes extremos b. Rango intercuartil es la diferencia entre el Q1 y el Q3. Nos indica la dispersión en el 50% central de la distribución. Es más sensible a la concentración de los datos que el recorrido ordinario recorrido ordinario. Su cálculo es indistinto para datos originales como para datos agrupados. Ventajas Fácil de calcular No sufre la influencia de los valores extremos Desventajas Solo mide la dispersión en el centro de la distribución Solo mide la distancia entre el Q1 y Q3 y no la forma en que los datos están distribuidos. a. Varianza se basa en las diferencias entre la media aritmética y cada una de las puntuaciones. Es el promedio de los cuadrados de las distancias de las observaciones a partir de la media (su valor nunca será observaciones a partir de la media (su valor nunca será negativo). La fórmula del cálculo dependerá si la distribución es de datos originales o agrupados así como de si se trabaja con datos originales o agrupados, así como de si se trabaja con poblaciones (se usa en el denominador N) o con una muestra (se usa “n-1”). Ventajas Considera todos los valores de la distribución Desventajas Al expresarse en el cuadrado de las unidades de los datos, es de difícil interpretación Taller 2 6 c. Desviación Estándar Es la medida más frecuentemente usada de variabilidad,y se calcula como la raíz cuadrada de la varianza. Expresa la cantidad de variabilidad promedio en una distribución. Nos permite determinar cómo se distribuyen los valoresen relación con la media en relación con la media. Su fórmula es indistinta para distribuciones de datos originales o agrupados. Ventajas Se expresa en las unidades originales de la variable. Desventajas Es sensible a las unidades de medida. d. Coeficiente de Variación Hace referencia a la variabilidad relativa, relaciona la media con el desvío Nos indica el porcentaje de variación que existe con respecto al valor promedio de la distribución. Su fórmula es igual para datos originales que para datos agrupados. Ventajas Variabilidad entre conjuntos de datos (diferentes o iguales unidades de medida. Desventajas Arrastra las limitaciones que tiene la media como medida de tendencia central. 5. ¿Cómo ayuda la regla empírica a explicar las formas en que un conjunto de datos numéricos se conglomeran y se distribuyen? La regla empírica es el resultado de la experiencia práctica de investigadores en muchas disciplinas, que han observado muy diferentes tipos de conjuntos de datos de la vida real. Si un conjunto de datos tiene una distribución aproximadamente simétrica se pueden utilizar las siguientes reglas prácticas para describir el conjunto de datos: • Aproximadamente el 68 % de las observaciones quedan a una desviación estándar de su media. • Aproximadamente el 95 % de las observaciones quedan a dos desviaciones estándar de su media. • Casi todas las observaciones quedan a tres desviaciones estándar de su media. 6. Defina y explique la propiedad de la forma de una distribución de datos numéricos. Presente dicha propiedad a través de los gráficos generalmente utilizados. Las variables cuantitativas son organizadas de una manera más precisa por su contenido numérico, los tipos de continuas son: Taller 2 o Discretas o Contínuas Cuando el número de datos es grande, es conveniente organizar los datos numéricos en un arreglo ordenado o diagrama de tallo y hojas para ayudar a comprender la información. 7. ¿Por qué son útiles las técnicas de análisis exploratorio de datos resumen de cinco números y diagrama de caja y bigotes? A menudo se usa un diagrama de Caja y Bigote (Box and Whisker Plot) para tener una idea de la forma de los datos. Este diagrama es un resumen de cinco números o medidas: el número menor, el primer cuartil, la mediana, el tercer cuartil y el número mayor. 8. ¿Cuáles son algunos aspectos éticos que están presentes cuando se hace la distinción entre el uso apropiado e inapropiado de medidas descriptivas de resumen que se publican en periódicos y revistas? Se deben evidenciar los resultados tanto buenos como malos. Se deben comunicar los resultados de manera imparcial, objetiva y neutral. El comportamiento falto de ética se presenta al seleccionar de forma deliberada una medida resumida inapropiada (ej. La medida de un conjunto de matos muy asimétrico). Es ético dejar de reportar de manera selectiva descubrimientos pertinentes, cuando éstos no respaldan una posición en particular. 7 Escuela de Estudios Profesionales Programa Ahora Universidad Metropolitana Anejo C Punto más confuso Nombre Jennifer Vélez Claudio Fecha 25 de junio de 2015___________ Curso STAT 555 Facilitador Prof. Sylvia Y Cosme Montalvo PT Taller 2 Sección Jueves 6:00 p.m. a 10:00 p.m. Instrucciones: Luego de las actividades del taller, conteste y entregue lo siguiente. Recuerda guardar como evidencia en el portafolio del curso una vez sea revisado por el facilitador. 1. ¿Cuál fue el punto que entendiste mejor? En el proceso del taller 2, los conceptos que más entendí por conceptos de prácticas fue el cómo sacar la media en un conjunto de datos agrupados. 2. ¿Sobre cuál concepto o destreza todavía tiene dudas? Sacar la mediana manualmente la mediana ya sea la media par o impar. 3. ¿Cómo se podría aclarar? ¿Qué ayuda necesita? Estos términos se podrán aclarar mientas vayan transcurriendo los talleres y lo siga practicando de manera manual. Taller 2