Problemas II.

Anuncio
Ingeniero Técnico en Informática de Sistemas: Estadı́stica
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL
2 Y 5 DE NOVIEMBRE DE 2010
Ejercicio 1. Una empresa de hosting da servicio en sus máquinas a tres portales web diferentes. El
primero con contenidos de información y noticias, el segundo de compras y el tercero de actividades de
ocio. El fichero “Webs.Rdata”contiene datos respecto a los accesos al servidor de esta compañı́a.
Portal Web al que ha accedido la petición.
Navegador Web que a través del que se ha efectuado la petición.
Cantidad de información en Mb, descargada.
Tiempo en segundos, que ha durado la conexión.
Analizar las siguientes cuestiones y darles respuesta de forma justificada y elegante.
1. Para este problema particular, determinar cuál es la Población, la Muestra y la Unidad Estadı́stica.
Observar la naturaleza de los datos obtenidos y determinar para cada variable si los datos recogidos
son de carácter Cuantitativo o Cualitativo.
2. Obtener ayuda de la función attach() y comprobar qué ocurre al aplicarla al dataframe.
3. Obtener las tablas de frecuencias absolutas de las variables cualitativas. ¿Tiene sentido obtener
las tablas de frecuencias conjuntas para las variables Portal y Navegador?
4. Obtener las frecuencias marginales en la tabla de frecuencias conjuntas. ¿Tiene sentido obtener
tablas de frecuencias marginales relativas?
5. Calcular los porcentajes de accesos que se realizan con cada tipo de navegador para cada portal
web diferente. Qué información es esta.
a) Distribución de frecuencias relativas.
b) Distribución de frecuencias relativas expresada en porcentaje.
c) Distribución de frecuencias relativas marginales.
d ) Distribución de frecuencias condicionadas.
6. Calcular la distribución de frecuencias de acceso para cada portal web condicionada al navegador
“IE”.
7. Crear resúmenes gráficos de la pareja de variables Portal y Navegador.
8. Realizar estadı́sticas descriptivas, medidas de forma, dispersión y simetrı́a de las variables numéricas. Alguna de las variables puede considerarse controlable o independiente.
a) Ninguna de las variables numéricas son controlables.
b) Claramente la variable Tiempo es controlada, por el proveedor de internet.
c) La variable Información es controlada por el cliente que solicita una información determinada.
d ) Ambas variables son controlables.
9. Obtener resúmenes gráficos de las variables Información y Tiempo. Obtener resúmenes gráficos
para cada una de estas variables para los accesos a cada portal web distinto y para los accesos
mediante navegadores diferentes.
10. Aplicar la función tapply() para obtener el tiempo medio de acceso por Portal y por Navegador.
11. Evaluar gráficamente la posible relación entre las variables Tiempo y Portal. Se aprecia algún tipo
de relación.
a) Claramente una relación no lineal.
b) Es una relación lineal directa.
c) Es una relación lineal inversa.
d ) No hay ningún tipo de relación.
12. Calcular la varianza de la variable Tiempo, utilizar la función var() y calcularla mediante la
2
expresión T iempo2 − T iempo . Qué diferencias se observan. Calcular las varianzas de la variable tiempo para los tres portales diferentes. ¿Se pueden comparar estas variazas? Obtener los
coeficientes de variación.
1
Licesio J. Rodrı́guez-Aragón
Prácticas y Problemas II
Ingeniero Técnico en Informática de Sistemas: Estadı́stica
13. Determinar la covarianza entre las variables Información y Tiempo. Utilizar la expresión
Inf ormacion · T iempo−Inf ormacion·T iempo. Comparar el valor obtenido con el de la función
cov().
14. Obtener el coeficiente de correlación de Pearson para la pareja de variables Información y Tiempo.
Obtener los coeficientes para los datos de cada navegador distinto. ¿Existen diferencias entre los
grados de correlación de las variables para cada navegador diferente?
15. Calcular la recta de regresión del modelo Tiempo~Informacion. ¿Qué significado tienen cada uno
de los valores de los parámetros obtenidos por el modelo de regresión?
16. Diferenciar entre el Coeficiente de Correlación, r, y el Coeficiente de Determinación, R2 . Calcular
ambos y comprobar si coinciden con el resultado de la funcion cor() y cual de los R-squared
facilitados por R.
17. Calcular la recta de regresión del modelo Informacion~Tiempo. Son iguales o distintos los parámetros obtenidos. Expresar ambos modelos y comparar las diferencias. Representar ambas rectas de
regresión sobre los datos y comprobar que difieren.
18. Cual de las siguientes afirmaciones son correctas:
a) Ambos modelos Tiempo~Informacion y Informacion~Tiempo son correctos y útiles.
b) Claramente el modelo Tiempo~Informacion es el correcto, ya que la Informacion es la variable
controlable y está bajo nuestro control.
c) Claramente el modelo Tiempo~Informacion es el correcto, ya que el Tiempo es una variable
dependiente, de multitud de factores, y en condiciones normales la descarga de un mismo
fichero da tiempos de descarga diferentes en momentos distintos.
d ) Claramente el modelo Tiempo~Informacion es el correcto, es obvio que a más cantidad de
Información, más Tiempo se tardará en descargarse.
19. Obtener la estimación del Tiempo de descarga para 0.5, 1, 1.5 y 2 Mb de información.
20. Calcular los residuos, diferencia entre los valores predichos y los valores observados. Utilizar la
instrucción residuals. Obtener resúmenes descriptivos de estos valores.
21. Representar gráficamente la relación entre el Tiempo y la cantidad de Información para cada
Navegador distinto. Utilizar un código de colores para representar cada tipo de puntos. Calcular
las rectas de regresión para cada subconjunto de datos y representarlas gráficamente.
22. Comparar las pendientes de las rectas de regresión calculadas en el apartado anterior. ¿Qué conclusiones nos permiten obtener?
23. Repetir los dos apartados anteriores para cada Portal diferente.
2
Licesio J. Rodrı́guez-Aragón
Prácticas y Problemas II
Descargar