El ejemplo: Una encuesta de opinión Objetivos •Lo más importante a la hora de planificar una encuesta es fijar los objetivos que queremos lograr. •Se tiene un cuestionario ya diseñado y se desean analizar los gustos, costumbres y algunas características de los alumnos. •Se verán los pasos a seguir en este caso. No existen normas fijas sobre cómo analizar una encuesta, depende de lo que se desee estudiar. Información •Lo primero es obtener un resumen de la información que proporcionan los datos. •Para ello, se construirá la tabla de frecuencias y los gráficos adecuados a las variables. •Es importante que, desde el principio, se tenga en cuenta que hay medidas, métodos, etc. que sólo tienen sentido para variables cuantitativas y no para atributos. Frecuencias •Se comienza con un documento en el que están los datos organizados en una tabla y sin recontar. •Con Excel se pueden calcular las frecuencias absolutas mediante dos funciones diferentes. •Las frecuencias relativas y acumuladas se deben calcular a través de fórmulas. Función CONTAR.SI •Es la función que se utiliza para calcular frecuencias de atributos. •Recibe como argumentos: •Un rango de datos (el que deseemos recontar). •El valor del que se desea conocer la frecuencia. •Devuelve la frecuencia absoluta del valor indicado. Función FRECUENCIA •Esta función sólo es válida para variables numéricas y es la recomendada para agrupar en intervalos. •Recibe como argumentos: •Rango con los datos. •Los valores de los extremos finales de los intervalos. •Devuelve una matriz que tiene un elemento más que extremos se hayan indicado. Representaciones •Una vez calculadas las frecuencias, se pasa a representar los datos. •Un gráfico adecuado puede proporcionar mucha información sobre los datos y como se “distribuyen”. •Son especialmente representativos en el caso de que se trate con atributos pues serán la principal referencia. Gráficos •Excel tiene bastantes posibilidades a la hora de hacer gráficas. •Posee un asistente que ayuda a construir los gráficos. •Se verán los pasos que se deben seguir con dicho asistente. •El asistente aparecerá al pulsar el botón Gráficos (paso 1) Primero se elige el tipo de gráfico adecuado: barras, columnas, circular, XY (dispersión)... Gráficos (paso 2) Se eligen los datos de origen: si los datos están en filas o en columnas y dónde están Gráficos (paso 2-cont) Se eligen las series que se quieren representar y dónde se encuentran los rótulos. Gráficos (paso 3) Se elige el aspecto de ejes, leyenda, rótulos, títulos... Gráficos (paso 4) Para terminar se decide la ubicación del gráfico: A posteriori se pueden hacer cambios sobre él utilizando la barra de herramientas gráfico: Medidas •Se busca una medida que represente de manera “adecuada” al conjunto de datos. Existen varias y la elección dependerá del tipo de datos. •No tiene sentido el cálculo de media, mediana, etc para atributos, para los que fundamentalmente se calculará la moda. Medidas de posición •Excel permite el cálculo de las medidas de posición más importantes. •Se encuentran en el apartado estadística de la lista de funciones. •Dicha lista aparece pulsando el botón •Se calcularán a partir de ahora medias, varianzas, percentiles, moda, mediana... Funciones PROMEDIO, MEDIANA y MODA •Las funciones PROMEDIO, MEDIANA y MODA se usarán para calcular la media, mediana y moda. •Reciben un rango de celdas, donde están los datos y NO permiten trabajar con frecuencias. •La mediana da el valor central si el número de valores es impar; la media de los valores centrales si es par. Elimina los valores extremos. •La moda devuelve #N/A si no hay valores repetidos o son atributos. Si hay dos igual de frecuentes, devuelve el primero que aparece. Comparaciones •No existe un criterio fijo para decidir cuál de las tres medidas anteriores es la más adecuada en general, ya que depende fuertemente de las características de los datos. •Es útil representar estas tres medidas en el gráfico de los datos, lo que permite ver cuál de las tres es más representativa. Funciones PERCENTIL y CUARTIL •Las funciones PERCENTIL y CUARTIL son las que se utilizarán para el cálculo de percentiles y cuartiles de los datos. •Reciben como argumentos el rango en el que están los datos; y k, el valor del percentil, que debe estar entre 0 y 1 (para el percentil 30, indicaremos 0,3) o un valor entre 1 y 4, respectivamente. •En caso de que el percentil se encuentre entre dos observaciones, Excel determina su valor por interpolación. Dispersión •Se necesitamos ahora una medida del error que se cometería al representar el conjunto de datos a través de una medida de tendencia central. •El rango y rango intercuartílico miden la diferencia entre los valores extremos del conjunto de datos y entre el primer y tercer cuartil, respectivamente. •La desviación típica es una medida indicativa del error al representar los datos mediante la media. Cálculo de los rangos •Excel no tiene una función para calcular el rango, aunque es fácil calcularlo haciendo uso de las funciones MAX y MIN. •Ambas reciben como argumentos un rango de datos y devuelven respectivamente el mayor y el menor valor. El rango puede calcularse como la diferencia entre ambas. •El rango intercuartílico se calcula como diferencia entre los cuartiles tercero y primero. Funciones VARP y DESVESTP •La función VARP es la que permite calcular la varianza de todo un conjunto de datos y DESVESTP la desviación típica. •Reciben como argumento el conjunto de datos del se quiere conocer su varianza o desviación típica. •¡OJO!: La funciones VAR y DESVEST calculan la varianza y desviación típica de una muestra de los datos, no de todos. Cálculo del coeficiente de variación •Para el coeficiente de variación, Excel tampoco tiene una función específica. •Se puede calcular haciendo uso de la definición, como cociente entre la desviación típica y la media. Otras funciones •Excel permite el cálculo de otras medidas. Veamos algunas. •El coeficiente de asimetría se puede calcular mediante la función COEFICIENTE.ASIMETRIA. •El coeficiente de curtosis se puede calcular mediante la función CURTOSIS. Cálculos para dos variables •Excel tiene numerosas funciones que pueden ser utilizadas para el análisis descriptivo de dos variables. •Es una herramienta importante para el cálculo de rectas de regresión, covarianzas, coeficiente de correlación... •Como en el caso de una variable, se empieza por resumir la información mediante tablas de frecuencias y gráficos. Tablas de frecuencias (I) Para calcular en Excel las tablas de frecuencia de dos variables o tablas de doble entrada se elige “Informe de tablas y gráficos dinámicos” del menú datos. Tablas de frecuencias (II) Aparece entonces un cuadro de diálogo como éste, en el que se elige lo marcado: Tablas de frecuencias (III) Se elige la ubicación de los datos. Y aparece un cuadro de diálogo en el que se puede elegir las opciones de la tabla. Tablas de frecuencias (IV) Al pulsar el botón diseño aparece A la derecha están las dos variables y deben ubicarse donde se desea que aparezcan sus valores. Tablas de frecuencias (V) Se arrastra una variable a la zona DATOS y se pincha dos veces para elegir la función “Contar de Var1;Contar de Var2” Tablas de frecuencias (VI) Al pulsar en opciones aparece: Tablas de frecuencias (VII) Se debe obtener una tabla como ésta: También se obtienen las distribuciones marginales. El cálculo de las frecuencias condicionadas es sencillo a partir de la tabla. Gráficos •Para el caso de dos variables el diagrama de dispersión (XY en Excel) aporta mucha información. •Así la forma orienta sobre el grado de dependencia, si existe relación inversa o directa, si se aproxima a una recta, etc. Estas conclusiones se confirmarán con las correspondientes medidas. Funciones COVAR y COEF.DE.CORREL •Las funciones COVAR y COEF.DE.CORREL son las que permiten el cálculo de la covarianza y el coeficiente de correlación de dos variables. •Reciben como argumentos dos rangos de datos que deben tener el mismo número de observaciones. Aproximaciones •Una vez que se han calculado la covarianza y el coeficiente de correlación lineal, se decide si tiene sentido el cálculo de la recta de regresión para las dos variables. •Estos procesos no son válidos si se trabaja con atributos, para los que se utilizan otros métodos, que no se verán en este curso. Rectas de regresión (I) •El cálculo de rectas de regresión en Excel se realiza con la función ESTIMACION.LINEAL •La recta de regresión entre Y y X tiene la siguiente expresión: Y = mX + b Rectas de regresión (II) Aparece este cuadro de diálogo. Rectas de regresión (III) •En conocido_y se introducen los valores de la variable independiente (obligatorio) •En conocido_x se introducen los valores de la variable dependiente. •En constante se indica verdadero (o nada) si se quiere que se calcule b o falso si se tiene la certeza de que la constante es 0. •En estadística se indica verdadero si se quieren calcular estadísticos adicionales, o falso en caso contrario Rectas de regresión (IV) •Los estadísticos adicionales se muestran en la forma: m es la pendiente de la b es el punto de intersección con el eje Y. recta de regresión. Se puede calcular también Se puede calcular también con la función con la función INTERSECCION.eje PENDIENTE se(m) valor del error típico de la pendiente se(b) valor del error típico de la intersección Rectas de regresión (V) R2 coeficiente de determinación de la recta. Se puede calcular también con COEFICIENTE.R2 se(y) error típico de la estimación. Se puede calcular también con ERROR.TIPICO.XY F es el estadístico F o valor F observado. Se puede calcular también con DIST.F se(reg) es la suma de los cuadrados de la regresión. df son los grados de libertad para la prueba F se(resid) es la suma de los cuadrados de los residuos. Predicciones •A partir de la recta de regresión se pueden realizar predicciones. •Estas predicciones serán tanto más fiables cuanto más se ajuste la recta a los datos. •La estimación lineal no es el único recurso, se pueden hacer también estimaciones logarítmicas, exponenciales...si se consideran más adecuadas a los datos.