taller 2 - jennifer vélez claudio

Anuncio
Taller 2
1
Preguntas
Universidad Metropolitana en Bayamón
Escuela de Estudios Profesionales
STAT 555
Jennifer Vélez Claudio
S00153158
Prof. Sylvia Y Cosme Montalvo
25 de junio de 2015
Taller 2
2
Preguntas:
1. ¿Cuáles son las propiedades de un conjunto de datos numéricos? Explique a
qué se refiere la propiedad de posición o tendencia central. Demuestre la
propiedad con un ejemplo gráfico.
Los conjuntos de datos numéricos analizan, procesan y estudian las
funciones decisorias en las estadísticas, fenómenos conjuntos para revelar las
leyes de su desarrollo. Para ese estudio se sirve de índices generalizadores
(valores, medios, relaciones, porcentajes, etc.). Se llama medidas de posición,
tendencia central o centralización a unos valores numéricos en torno a los
cuales se agrupan, en mayor o menor medida, los valores de una variable
estadística. Estas medidas se conocen también como promedios.
Ejemplo de tendencia central
(Imagen recuperada de: http://www.hiru.com/matematicas/medidas-de-tendencia-central)
2. Compare la moda, media y mediana y detalle las ventajas y desventajas de la
utilización de cada una de estas medidas de tendencia central. Prepare una
tabla que incluya las fórmulas de cada medida, ventajas y desventajas para
datos no agrupados y datos agrupados.
La media aritmética es la suma de todos los datos dividida entre el
número total de datos. Se calculan dependiendo de cómo vengan ordenados los
datos. La moda de un conjunto de datos es el dato que más veces se repite, es
decir, aquel que tiene mayor frecuencia absoluta. Se denota por Mo. En caso de
existir dos valores de la variable que tengan la mayor frecuencia absoluta, habría
dos modas. Si no se repite ningún valor, no existe moda. La mediana es el valor
que ocupa el lugar central entre todos los valores del conjunto de datos, cuando
estos están ordenados en forma creciente o decreciente. La mediana se
representa por Me.
Taller 2
3
Medida
Fórmula
Mo
Moda
Media
Ventajas
 Es estable a los valores extremos.
 Es recomendable para el
tratamiento de variables
cualitativas.
Desventajas
 Pueda que no se presente.
 Puede existir más de una moda.
 En distribuciones muy asimétricas
suele ser un dato muy poco
representativo.
 Carece de rigor matemático.
Me
Ventajas
 Es la medida de tendencia central
más usada.
 El promedio es estable en el
muestreo.
 Es sensible a cualquier cambio en
los datos (puede ser usado como
un detector de variaciones en los
datos).
 Se emplea a menudo en cálculos
estadísticos posteriores.
 Presenta rigor matemático.
 En la gráfica de frecuencia
representa el centro de gravedad.
Desventajas
 Es sensible a los valores extremos.
 No es recomendable emplearla en
distribuciones muy asimétricas.
 Si se emplean variables discretas
o cuasi-cualitativas, la media
Taller 2
4
aritmética puede no pertenecer al
conjunto de valores de la variable.
Mediana
Ventajas
 Es fácil de comprender.
 No se ve afectada por los valores
extremos.
Desventajas
 Parece posible obtener dos
respuestas ligeramente diferentes
pero justificables.
 No es tan fácil como la media para
calcular de forma automática.
3. Detalle la diferencia entre medidas de tendencia central y medidas de tendencia
no central. ¿Qué significa la propiedad de variación? Demuestre a través de un
gráfico dicha propiedad.
Las tres medidas de tendencia central más importantes son la moda, la
mediana y la media. Se les llama medidas de tendencia central porque son
números o categorías que describen lo que es típico o promedio en la
distribución. Las medidas de posición no centrales permiten conocer otros
puntos característicos de la distribución que no son los valores centrales. Entre
otros indicadores, se suelen utilizar una serie de valores que dividen la muestra
en tramos iguales: cuartiles, deciles, percentiles.
La propiedad de variación expresa la desviación estándar como
porcentaje de la media aritmética, mostrando una mejor interpretación
porcentual del grado de variabilidad que la desviación típica o estándar.
(Grafica recuperada de : http://pendientedemigracion.ucm.es
/info/genetica/Estadistica/estadistica_basica.htm)
Taller 2
5
4. Desarrolle una tabla con la definición, diferencias, ventajas y desventajas en la
utilización de las siguientes medidas de variación:
Medida y definición
Ventajas y desventajas
a. Rango señala la amplitud de la
variación de un fenómeno entre su
límite menor y uno claramente
mayor. El rango estadístico, por lo
tanto, es el intervalo que contiene
dichos datos y que puede
calcularse a partir de restar el valor
mínimo al valor máximo
considerado.
Ventajas
 Es fácil de calcular, y tiene una
interpretación intuitiva
Desventajas
 No toma en cuenta los valores
intermedios de la distribución
 Es muy general, tan sólo nos da una
idea de cuán amplia es la variación
entre puntajes extremos
b. Rango intercuartil es la diferencia
entre el Q1 y el Q3. Nos indica la
dispersión en el 50% central de la
distribución. Es más sensible a la
concentración de los datos que el
recorrido ordinario recorrido
ordinario. Su cálculo es indistinto
para datos originales como para
datos agrupados.
Ventajas
 Fácil de calcular
 No sufre la influencia de los valores
extremos
Desventajas
 Solo mide la dispersión en el centro
de la distribución
 Solo mide la distancia entre el Q1 y
Q3 y no la forma en que los datos
están distribuidos.
a. Varianza se basa en las
diferencias entre la media
aritmética y cada una de las
puntuaciones. Es el promedio de
los cuadrados de las distancias de
las observaciones a partir de la
media (su valor nunca será
observaciones a partir de la media
(su valor nunca será
negativo). La fórmula del cálculo
dependerá si la distribución es de
datos originales o agrupados así
como de si se trabaja con datos
originales o agrupados, así como
de si se trabaja con poblaciones
(se usa en el denominador N) o
con una muestra (se usa “n-1”).
Ventajas
 Considera todos los valores de la
distribución
Desventajas
 Al expresarse en el cuadrado de las
unidades de los datos, es de difícil
interpretación
Taller 2
6
c. Desviación Estándar Es la medida
más frecuentemente usada de
variabilidad,y se calcula como la
raíz cuadrada de la varianza.
Expresa la cantidad de variabilidad
promedio en una distribución. Nos
permite determinar cómo se
distribuyen los valoresen relación
con la media en relación con la
media. Su fórmula es indistinta
para distribuciones de datos
originales o agrupados.
Ventajas
 Se expresa en las unidades
originales de la variable.
Desventajas
 Es sensible a las unidades de
medida.
d. Coeficiente de Variación Hace
referencia a la variabilidad relativa,
relaciona la media con el desvío
Nos indica el porcentaje de
variación que existe con respecto
al valor promedio de la distribución.
Su fórmula es igual para datos
originales que para datos
agrupados.
Ventajas
 Variabilidad entre conjuntos de
datos (diferentes o iguales unidades
de medida.
Desventajas
 Arrastra las limitaciones que tiene la
media como medida de tendencia
central.
5. ¿Cómo ayuda la regla empírica a explicar las formas en que un conjunto de
datos numéricos se conglomeran y se distribuyen?
La regla empírica es el resultado de la experiencia práctica de investigadores en
muchas disciplinas, que han observado muy diferentes tipos de conjuntos de
datos de la vida real.
Si un conjunto de datos tiene una distribución aproximadamente simétrica se
pueden utilizar las siguientes reglas prácticas para describir el conjunto de datos:
• Aproximadamente el 68 % de las observaciones quedan a una desviación
estándar de su media.
• Aproximadamente el 95 % de las observaciones quedan a dos desviaciones
estándar de su media.
• Casi todas las observaciones quedan a tres desviaciones estándar de su
media.
6. Defina y explique la propiedad de la forma de una distribución de datos
numéricos. Presente dicha propiedad a través de los gráficos generalmente
utilizados.
Las variables cuantitativas son organizadas de una manera más precisa por su
contenido numérico, los tipos de continuas son:
Taller 2
o Discretas
o Contínuas
Cuando el número de datos es grande, es conveniente organizar los datos
numéricos en un arreglo ordenado o diagrama de tallo y hojas para ayudar a
comprender la información.
7. ¿Por qué son útiles las técnicas de análisis exploratorio de datos resumen de
cinco números y diagrama de caja y bigotes?
A menudo se usa un diagrama de Caja y Bigote (Box and Whisker Plot)
para tener una idea de la forma de los datos. Este diagrama es un resumen de
cinco números o medidas: el número menor, el primer cuartil, la mediana, el
tercer cuartil y el número mayor.
8. ¿Cuáles son algunos aspectos éticos que están presentes cuando se hace la
distinción entre el uso apropiado e inapropiado de medidas descriptivas de
resumen que se publican en periódicos y revistas?
Se deben evidenciar los resultados tanto buenos como malos. Se deben
comunicar los resultados de manera imparcial, objetiva y neutral. El
comportamiento falto de ética se presenta al seleccionar de forma deliberada
una medida resumida inapropiada (ej. La medida de un conjunto de matos muy
asimétrico). Es ético dejar de reportar de manera selectiva descubrimientos
pertinentes, cuando éstos no respaldan una posición en particular.
7
Escuela de Estudios Profesionales
Programa Ahora
Universidad Metropolitana
Anejo C
Punto más confuso
Nombre Jennifer Vélez Claudio
Fecha 25 de junio de 2015___________
Curso STAT 555
Facilitador Prof. Sylvia Y Cosme Montalvo
PT Taller 2
Sección Jueves 6:00 p.m. a 10:00 p.m.
Instrucciones: Luego de las actividades del taller, conteste y entregue lo siguiente.
Recuerda guardar como evidencia en el portafolio del curso una vez sea revisado por el
facilitador.
1. ¿Cuál fue el punto que entendiste mejor?
En el proceso del taller 2, los conceptos que más entendí por conceptos de
prácticas fue el cómo sacar la media en un conjunto de datos agrupados.
2. ¿Sobre cuál concepto o destreza todavía tiene dudas?
Sacar la mediana manualmente la mediana ya sea la media par o impar.
3. ¿Cómo se podría aclarar? ¿Qué ayuda necesita?
Estos términos se podrán aclarar mientas vayan transcurriendo los talleres y lo
siga practicando de manera manual.
Taller 2
Descargar