Indicador Único Tras publicar el Ranking de Encuestadoras por

Anuncio
Indicador Único
Tras publicar el Ranking de Encuestadoras por primera vez me llegaron varios
comentarios vía e-mail de los lectores. Una de las preguntas más recurrentes fue
respecto a la utilidad del ranking. En este artículo ofrezco una respuesta. Explico que
su principal uso es para crear un indicador único de intención de voto. Para construir
ese indicador voy a combinar el error-no-forzado relativo de cada encuestadora con
las características particulares de sus respectivas encuestas.
En términos prácticos, la lógica es la siguiente. Todas las encuestadoras tratan de
predecir el resultado de una elección por medio de encuestas. Una forma de
interpretar estos resultados es individual y directamente. Sin embargo, porque existen
varias encuestas podemos usarlas todas para extraer la información relevante que nos
entrega cada una. Para hacer esto, se agregan los datos de todas las encuestas en un
indicador único (en este caso de intención de voto).
Ahora bien, dado las características particulares de cada encuesta (tamaño de
muestra, diseño metodológico y fecha de trabajo de campo), es metodológicamente
incorrecto ponderar sus datos mediante una regresión local o una media aritmética. Al
agregar las encuestas, sin considerar sus características particulares, se introduce
error. Por eso, propongo ponderar sus diferencias de acuerdo al error que suelen
introducir, de forma que:
PESO DE CADA ENCUESTA = Tamaño de la Muestra + Diseño Metodológico + Fecha de
Trabajo de Campo
En esencia, esta fórmula sostiene que existen tres fuentes de error en cualquier
encuesta. La primera fuente de error es el tamaño de la muestra. Esto es funcional al
margen de error. Por ejemplo, solo por diseño metodológico una encuesta que
entrevista a 800 personas va fallar en sus predicciones por 3,4%, mientras que una
encuesta que entrevista a 1,500 personas va fallar en sus predicciones por 2,5%. Esto
se calcula con la siguiente fórmula (con nivel de confianza de 95%):
98 * n ^ (-0,5)
La segunda fuente de error es el diseño metodológico particular de
cada encuestadora. Este es el error que no explica el margen de error, o lo que yo
denomino el error-no-forzado. Por ejemplo, si una encuesta con margen de error de
3% estima que la diferencia entre el candidato favorito y el segundo lugar es de 11%,
y en la elección la diferencia es de 14,5%, esa encuesta tiene un error-no forzado de
0,5% ([14,5-11]-3). Esto se calcula a partir del Ranking de Encuestadoras.
La tercera fuente de error es la fecha del trabajo de campo de cada encuesta. Mientras
más lejos sea de la elección, aumenta la probabilidad que sus predicciones estén más
lejos de la realidad. Por ejemplo, si la misma encuesta de arriba fue hecha en Octubre
para una elección en Diciembre, puede ser que los 2 meses entremedio la encuesta y la
elección expliquen el 0,5% de su error-no-forzado. Esto se calcula dándole una
esperanza de vida a cada encuesta:
0,8 ^ Número de meses desde que la encuesta fue publicada
Indicador Único
A medida que una encuesta se publica, se agrega a la base de datos. De aquí existen
dos pasos para dar con el indicador único definitivo. En el primer paso se usa
estadística frecuentista para dibujar una línea de lo esperaríamos que representaría la
intención de voto para cada candidato si las encuestas no estuvieran sesgadas (o bien
si ponderamos los indicadores que entrega cada encuestadora considerando que
algunas encuestas son mejores que otras). De ese modo, se recalcula el indicador
original que se entrega en cada encuesta como la intención de voto en un nuevo valor
sin sesgo.
En el segundo paso se usa estadística bayesiana para dibujar una línea de lo que
esperaríamos representaría la intención de voto para cada candidato tomando en
cuenta que con nueva información podemos corregir la información ya conocíamos.
En esencia, este paso limpia nuestro conocimiento previo, entregando un pronóstico
que contiene menos probabilidad de error. Además se entrega un intervalo de error
alrededor de ese pronóstico, lo que permite estimar la probabilidad que el pronóstico
definitivo se aleje de la realidad. El indicador final se divide en un pronóstico
(intención de voto “hoy”), y una simulación (intención de voto el “día de la elección”).
Descargar