Ranking de Encuestadoras Uno de los objetivos de Tresquintos es analizar encuestas de opinión pública. Una forma de analizar encuestas es tender inferencias cada vez que una encuestadora publica una encuesta nueva. Otra forma de analizar encuestas es tender inferencias en base a múltiples encuestas, de una serie de encuestadoras distintas. Los que conocen el terreno de la opinión pública en Chile sabrán que la segunda forma no es nada de fácil. Las encuestas difieren en varios aspectos. Tienen diferencias significativas en sus ‘fechas de trabajo de campo’, ‘diseños metodológicos’ y ‘tamaños de muestra’. Durante la campaña presidencial de 2009 hubo un par de sitios que intentaron tender inferencias en base a múltiples encuestas, al ponderar varias de ellas en un indicador único que intentaba representar el valor real de la intención de voto para cada candidato. El sitio TodoPolítica solo consideró las 4 encuestas más recientes. Promedió el valor de la última encuesta con las 3 anteriores en una regresión local para generar su indicador único. El sitio Vota 2009 de La Tercera tuvo una aproximación similar. Ponderó todas las encuestas con una media aritmética para dar con su propio indicador único. En ambos casos, encuestadoras y encuestas fueron comparadas par a par. En el caso de TodoPolítica, las encuestas presenciales que entrevistaron a más de 1,000 personas con un margen de error de 3,0% fueron consideradas igual de relevantes que las encuestas telefónicas que entrevistaron a 600 personas con un margen de error de 4,5%. En el caso de Vota2009, las encuestas que se realizaron durante fines de 2008 (más de un año antes de la elección!) fueron consideradas igual de relevantes que las encuestas que fueron realizadas a fines de 2009 (menos de un mes antes de la elección!). Comparar encuestadoras y sus encuestas involucra un proceso metodológico complejo. Justamente porque todas las encuestas difieren, las respectivas proporciones de intención de voto que reportan tienden a ser distintos. Por ejemplo, podemos anticipar proporciones diferentes dependiendo si las encuestas son presenciales o telefónicas, o si los entrevistados son seleccionados por cuota o de forma aleatoria. Incluso si todas las encuestadoras tuvieran las mismas características particulares, es probable que observáramos diferencias en sus respectivas encuestas. Para crear un indicador único sin sesgo, es importante partir de la base que todas las encuestadoras tienen características particulares distintas y todas sus encuestas introducen error en sus predicciones. El primer paso, entonces, es asignarles mayor peso en el indicador único a las encuestadoras que tienen encuestas que introducen menos error en sus predicciones. Es decir, crear un Ranking de Encuestadoras. Para determinar que encuestadora tiene menos error, observé las encuestas que sondearon intención de voto para la primera vuelta de la elección presidencial de 2009. En total, consideré 12 encuestadoras: CEP CERC Direct Media El Mercurio-Opina Giro País (Subjetiva) Imaginacción IPSOS La Segunda (UDD) La Tercera MORI TNS-Time UDP Para rankear a encuestadoras, se debe partir desde un punto mínimo de homogeneidad entre las encuestadoras. Es decir, se debe seleccionar datos que en esencia estén midiendo lo mismo. Por ejemplo, no todas las encuestas reportan el porcentaje de encuestados que se declara registrado para votar. La encuestadora CERC excluye nulos, blancos y abstenciones. Es decir, la intención de voto por candidato suma 100%. Otras encuestadoras, en cambio, sí reportan nulos, blancos, abstenciones, por lo cual los votos válidos suman menos de 100%. Para homogeneizar las encuestadoras, normalicé los datos de todas las encuestas a 100%. Si suponemos que todas las encuestadoras diseñan sus encuestas metodológicamente bien, deberíamos esperar que aquellas con un menor margen de error (o un mayor número de encuestados) tengan una mejor capacidad predictiva. Sin embargo, el siguiente cuadro muestra que no hay una asociación entre margen de error y capacidad predictiva. Algunas encuestadoras con un bajo margen de error fallaron más que encuestadoras con un alto margen de error. Por ejemplo, la encuestadora con el margen de error más bajo (Ipsos, con 2,5%) tuvo la octava (de doce) mejor predicción de intención de voto para Piñera. Eso es suficiente evidencia para sostener que el margen de error no es la única fuente de error en las encuestas. Si el margen de error fuera la única fuente de error de las encuestas, todas las encuestas tendrían una predicción correcta, dentro de su margen de error. En esencia, esto significa que las encuestadoras introducen un error natural a partir de su particulares procesos metodológicos. Para medir el error de cualquier encuesta, propongo aislar sus fuentes de error en una parte provista por la encuestadora y una parte no provista por la encuestadora: ERROR REAL = Error Reportado + Error-No-Forzado Ahora bien, en vez de mirar el error de cada encuesta en las predicciones de cada candidato, decidí fijar un parámetro de estimación. Esto se justifica porque es común que una encuesta reporte una predicción correcta para un candidato, pero falle significativamente en su predicción para otros candidatos. Por ejemplo, MORI hizo la segunda mejor predicción de votación para Piñera, pero tuvo mayor error que el resto de las encuestadoras en la predicción de votación para los otros candidatos. En este caso el parámetro de estimación más importante es el que mide la diferencia en votación entre los dos candidatos con más preferencias. Esto tiene sentido porque a menudo sabemos quién es el favorito, pero no sabemos por cuánto. En elecciones competitivas esta distancia es crucial. Si ambos candidatos giran en torno al 50% de las preferencias, lo importante es conocer la distancia entre ambos. Por ejemplo, en 2009, todas las encuestas reportaron a Piñera como favorito, pero todas con distancias superiores diferentes por sobre Frei. Error Reportado El primer paso es estimar el Error Reportado. Esta es la diferencia entre la predicción del parámetro de cada encuesta y el parámetro real. Es la forma más básica de medir el error de una encuesta. El siguiente cuadro muestra el error reportado para el parámetro de estimación. La columna ‘Parámetro Estimado’ es la predicción del parámetro (la diferencia entre Piñera y Frei). La columna ‘Error Parámetro’ es la diferencia entre parámetro estimado y el parámetro real. La columna ‘Error Reportado’ es el valor absoluto de ‘Error Parámetro’. El índice de mayor interés es ‘Error Reportado’, que muestra la distancia absoluta del parámetro estimado de cada encuesta y el parámetro real (en este caso 14,5%). El promedio de error reportado de todas las encuestas fue de 3,7%. Esto significa que en general las encuestas hicieron buenas predicciones, haciendo una estimación relativamente cercana al resultado de la elección. De todas las encuestas La Segunda/UDD tuvo el error reportado más bajo (0,05%) con una predicción de 14%, mientras que ICSO-UDP tuvo el error reportado más alto (7,9%) con una predicción de 6,6%. Error-No-Forzado El segundo paso es estimar el Error-No-Forzado. Esta es la diferencia entre el error reportado y el margen de error. Es lo que el margen de error no explica en el error reportado de la encuesta. El siguiente cuadro muestra el error-no-forzado para el parámetro de estimación. La columna ‘Error Reportado’ es el valor absoluto de ‘Error Parámetro’. La columna ‘Margen de Error’ muestra el margen de error que reporta la encuesta. La columna ‘Error-No-Forzado’ es la diferencia entre el error reportado y el margen de error. El índice de mayor interés aquí es ‘Error-No-Forzado’, que muestra el error que tiene una encuesta, que no puede ser explicado por su margen de error. Un índice negativo significa que la encuesta tuvo una predicción dentro de su margen de error. Un índice positivo significa que la encuesta tuvo una predicción fuera de su margen de error. De las 12 encuestas, 5 estuvieron dentro de sus márgenes de error. De las 7 encuestas restantes, Imaginacción tuvo el error-no-forzado más bajo (0,7%), y ICSO-UDP tuvo el error-no-forzado más alto (5,2%). Error-No-Forzado Relativo El tercer paso es estimar el Error-No-Forzado Relativo. Esta es la diferencia entre el error-no-forzado de cada encuesta y el promedio de error-no-forzado de todas las encuestas. Esto permite estimar la capacidad predictiva de cada encuesta en base a la capacidad predictiva promedio de todas las encuestas. El siguiente cuadro muestra el error-no-forzado relativo. Las columnas ‘Margen de Error’ y ‘Error-No-Forzado’ son lo mismo que arriba. La columna ‘Error-No-Forzado Relativo’ es la diferencia entre ‘Error-No-Forzado’ y el promedio de ‘Error-No-Forzado’. El índice de mayor interés es ‘Error-No-Forzado Relativo’, que muestra el error que tiene una encuesta, en comparación con todas las encuestas. Un índice negativo significa que la encuesta tuvo un error-no-forzado menor que el promedio de todas las encuestas. Un índice positivo significa que la encuesta tuvo error-no-forzado mayor que el promedio de todas las encuestas. Por ejemplo, La Tercera tuvo un error-no- forzado de 1,4% menos que el resto de las encuestas. Asimismo, Giro País/Subjetiva tuvo un error-no-forzado de 0,03% más que el resto de las encuestas. Personalmente, tengo algunas aprensiones metodológicas con las características particulares de algunas de las encuestadoras que figuran en la parte superior del ranking. Principalmente con los tamaños de las muestras y los métodos de recopilación de datos. Sin embargo, el ranking esta construido en base a la capacidad predictiva de las encuestas, y no a sus características metodológicas. Para efectos de un ranking, las encuestas que tienden a introducir un error-no-forzado relativo menor simplemente deben tender a figurar en la parte alta de la tabla. Un argumento en contra de este punto es que no todas las encuestas son predictivas. Dado que algunas encuestas se hacen con meses de anticipación a la elección (e.g., ICSO-UDP), las encuestadoras pueden argumentar que su encuesta es solo una foto del momento. La respuesta es simple. Cuando una encuestadora decide preguntar sobre “la elección del próximo domingo”, esta haciendo una predicción. Además, si cada año electoral la encuestadora hace la misma pregunta con la misma distancia de tiempo a la elección, podremos fácilmente anticipar su error real si no cambia su metodología.