Banco Mundial Cuadernos de políticas de empleo Diciembre de 2002 ■ Nº 1 Evaluación de los efectos Técnicas para evaluar los programas activos del mercado de trabajo * Antecedentes A lo largo de los últimos 40 años, los programas “activos” del mercado laboral (PAML) han surgido como un importante instrumento de política de empleo. Su objetivo es principalmente económico – aumentar la probabilidad de que los desempleados encuentren trabajo, o que los casos de subocupacion incrementen su productividad e ingresos. Los PAML consisten en programas de asistencia en la búsqueda de empleo, formación y reciclaje, y creación de empleo (obras públicas, desarrollo microempresarial y subsidios salariales). Con la reforma económica, la liberalización cada vez mayor de los mercados y la creciente preocupación por los problemas del desempleo, los PAML se han convertido en una opción cada vez más atractiva para los responsables de formular las políticas. Sin embargo, el gasto destinado a estos programas no ha aumentado de forma sustancial a lo largo de los años noventa, manteniéndose con bastante regularidad en torno al 0,7% del PIB. Esto refleja, en cierta medida, la ambivalencia de los responsables de las políticas sobre la eficacia de los PAML. Una pregunta frecuente que se formulan es ¿Son eficaces estos programas? Varios países de la OCDE han tratado de contestar a este interrogante a través de evaluaciones rigurosas que comparan los resultados de los individuos que participan en el programa (grupo de tratamiento) con los de un grupo similar de individuos que no han formado parte del programa (grupo de control). En cambio, en la mayoría de los países en desarrollo no se ha realizado un análisis de este tipo. Parte del problema reside en la falta de hábitos de evaluación en muchos de ellos, a menudo debida a una escasa capacidad evaluadora. Los responsables de las políticas puede que no estén familiarizados con la importancia de realizar evaluaciones y con las técnicas utilizadas para ello. Existen muchos tipos diferentes de evaluaciones: Evaluación de los procedimientos: se centran en la manera de funcionar de un programa y en las actividades puestas en marcha para llevarlo a cabo; ■ Supervisión del desempeño: proporciona información sobre la medida en que se están cumpliendo los objetivos específicos del programa (por ejemplo, número de empleados formados); ■ Evaluación del impacto: se centran en la cuestión de la causalidad para saber si un programa tiene los efectos previstos (por ejemplo, incremento porcentual de empleo y salarios atribuible al programa) e identificar cuáles son las características del programa que produjeron el efecto resultante. Esta nota se centra en las evaluaciones del impacto de los PAML. En ella se analizarán los objetivos y la importancia de las evaluaciones rigurosas, destacará las técnicas de evaluación del impacto utilizadas habitualmente, y señalará quiénes deben llevar a cabo las evaluaciones. ■ Utilidad de las evaluaciones del impacto El propósito de las evaluaciones de los PAML es examinar la eficacia de los programas ante sus objetivos establecidos. Sobre esta base, la evaluación puede entonces utilizarse para: *Está nota ha sido preparado por Amit Dar y redactado por Tim Whitehead. Con los Cuadernos de políticas de empleo, el Banco Mundial quiere ofrecer información amplia y actualizada sobre todo lo referente a las políticas de empleo. La serie comprende dos tipos de publicaciones: notas breves, como la presente, con resúmenes concisos de prácticas recomendadas sobre diversos temas, y estudios de mayor extensión que presentan los resultados de nuevas investigaciones o evaluaciones de publicaciones y experiencias recientes. Ambas versiones de los Cuadernos se pueden obtener en el sitio Web de los mercados de trabajo, www.worldbank.org/labormarkets, o solicitándolas al Servicio de Asesoría sobre Protección Social, por teléfono (202-458-5267) o por correo electrónico (socialprotection@worldbank.org). Evaluación de los efectos ■ ■ ■ ■ to se averiguó que se conseguía una tasa mayor de reinserción laboral en puestos de trabajo no subvencionados si las obras públicas eran gestionadas por empresas privadas. Esto indujo a las autoridades a cambiar el diseño del programa – se efectuaron modificaciones en la legislación para favorecer la gestión privada de los proyectos de obras públicas – lo que se tradujo, con el tiempo, en una mejor eficacia del programa en función de los costes. Aunque este efecto concreto no puede generalizarse a todos los países, demuestra la importancia de realizar dichas evaluaciones. Mejorar la focalización del programa. Las evaluaciones pueden permitir a los responsables de las políticas tomar decisiones informadas sobre los grupos de beneficiarios a los que más favorecen los programas y de esta manera conseguir que éstos estén bien focalizados y tengan un óptimo desempeño. Por ejemplo, en la República Checa y en Turquía, se diseñó un tipo de evaluación para poner a prueba la eficacia de la formación profesional para los desempleados. Las pruebas extraídas de la evaluación indicaban que la formación profesional era más eficaz entre las mujeres que entre los hombres. – especialmente en relación con los ingresos obtenidos. Esto hizo que el programa se focalizara más concretamente hacia las mujeres. Merece la pena mencionar que son las consideraciones políticas y de otra índole las que pueden tener la última palabra en la decisión sobre la focalización de los PAML. En cambio, la responsabilidad del evaluador es la de llevar a cabo evaluaciones rigurosas y presentar conclusiones precisas a los responsables de las políticas. Identificar programas ineficaces. Algunos programas son ineficaces y deberían ser eliminados o modificados: las evaluaciones rigurosas ayudan a los responsables de las políticas a identificarlos y permitir que los recursos puedan ser desviados a programas que resulten más eficaces en función de los costos. La evaluación de la Ley de Asociación para la Capacitación Laboral (JTPA) (Recuadro 2) es un ejemplo de la utilidad de las evaluaciones cuantitativas para ajustar las asignaciones presupuestales. Ayudar a diseñar nuevos programas Reajustar el diseño del programa Mejorar la focalización del programa Identificar programas ineficaces Ayudar a diseñar nuevos programas. Lo ideal sería que los responsables de formular las políticas valoraran la eficacia de los programas mediante una evaluación inicial y la ejecución de proyectos piloto. Los evaluadores pueden practicar un ensayo con un grupo que participe en un programa y otro grupo similar que no intervenga en el mismo. La comparación del desempeño de ambos grupos a lo largo del tiempo revelaría la eficacia del programa (Recuadro 1). Basándose en estas evaluaciones, los responsables de las políticas pueden diseñar y focalizar los programas con más eficacia. Naturalmente, la eficacia del programa puede (y de hecho así se hace) ser evaluada de forma regular a lo largo de toda la duración del programa con objeto de: Reajustar el diseño del programa. En muchos países, los gobiernos efectúan rigurosas evaluaciones de los PAML para saber cuáles son los elementos que funcionan mejor y por tanto aplicar el diseño de programa más eficaz. Por ejemplo en Polonia, a mediados de los años noventa se consideraban las obras públicas como una intervención costosa ya que eran pocos los participantes del programa que terminaban teniendo un empleo con salario permanente. Mediante una evaluación del impac- RECUADRO 1: EVALUACIÓN DE PROGRAMAS PILOTO En Estados Unidos, los ensayos han demostrado ser sumamente eficaces para probar nuevos programas. Muchas políticas y programas fueron primero puestas a prueba en unos pocos sitios antes de ser promovidos por los responsables de las políticas para su ejecución a nivel nacional. Las pruebas obtenidas en estos ensayos piloto (normalmente basadas en evaluaciones del diseño experimental) se utilizan con frecuencia para convencer a los legisladores de que aprueben la ejecución nacional de los nuevos programas. Un ejemplo de la utilidad de los ensayos piloto experimentales a la hora de desarrollar un nuevo programa se encuentra en los Experimentos de Empleo Autónomo del Departamento de Trabajo de Estados Unidos. Uno de los experimentos se puso en marcha en una serie de localidades piloto en dos estados. Los individuos desempleados fueron asignados a un grupo de tratamiento (al que se prestaron servicios de nuevo empleo autónomo) o a un grupo de control (al que no se prestaron dichos servicios). Los resultados de la evaluación cuantitativa fueron tan convincentes que el Congreso aprobó la legislación que autorizaba la puesta en marcha de un programa de empleo autónomo a nivel nacional. Técnicas de la evaluación del impacto Las evaluaciones del impacto tratan de determinar si los PAML reportan beneficios a sus participantes y en qué medida lo hacen. Las medidas de los resultados pueden variar según la elección del evaluador. Entre las más comunes se encuentran las tasas de ingresos y empleo, pero también se han utilizado las evaluaciones para medir otros resultados 2 Evaluación de los efectos RECUADRO 2: ELIMINACIÓN DE PROGRAMAS INEFICACES RECUADRO 3: IMPORTANCIA DE LOS GRUPOS DE CONTROL. UN EJEMPLO HIPOTÉTICO En 1986, el Departamento de Trabajo de Estados Unidos puso en marcha el Estudio Nacional sobre la JTPA, una evaluación experimental plurianual sobre la eficacia de los programas financiados a través de la Ley de Asociación para la Capacitación Laboral. El estudio utilizó un experimento aleatorio para estimar el impacto del programa en los ingresos, el empleo y el bienestar adquiridos por los individuos beneficiarios del programa. Este estudio dio como fruto una de las bases de datos más ricas para la evaluación del impacto de los programas de formación. En la ciudad de Abcan, 1.000 trabajadores de la minería fueron despedidos como consecuencia del cierre de la Empresa Minera ABC. Mediante una selección aleatoria, 500 de ellos recibieron una indemnización por despido, mientras que los otros 500 fueron incorporados a un programa intensivo de reciclaje en técnicas informáticas. Los 1.000 individuos fueron supervisados durante un tiempo. Tres meses después de haber completado el programa de formación, se observó que 400 individuos formados tenían trabajo. Esta tasa de empleo del 80 por ciento fue aclamada por muchos como el impacto del programa de formación. Una evaluación rigurosa de este experimento indicó que el programa obtenía resultados muy diferentes para los adultos y para los jóvenes. En el caso de los adultos, el programa conseguía aumentar los ingresos en un 7-11% y obtener alrededor de $1.50 de beneficios por cada dólar invertido. En el caso de los jóvenes, en cambio, el programa no tuvo éxito: no se produjo ningún impacto estadísticamente significativo en los ingresos, y los costos para la sociedad superaban los beneficios. Estos resultados señalaban claramente que los servicios de formación prestados a los jóvenes no eran eficaces. Sin embargo, los evaluadores de Abcan advirtieron del error de utilizar únicamente esta cifra para juzgar el éxito del programa. Preferían comparar este porcentaje de empleo con el del grupo de “control” – aquéllos que no se sometieron al programa de formación. Se constató que 375 personas de las 500 integrantes del grupo de control también tenían empleo tres meses después de que el grupo de “tratamiento” finalizara su formación. – una tasa de empleo del 75 por ciento. Por lo tanto, los evaluadores de Abcan consideraron que el verdadero impacto del programa de formación fue del cinco por ciento y no del 80 por ciento. A raíz de la publicación de los resultados en 1994, el Congreso recortó el presupuesto destinado al apartado de juventud de la JTPA en más de $500 millones (80%); el presupuesto del capítulo para adultos fue incrementado en un 11%. Al ajustar el presupuesto de los distintos capítulos, el Congreso desvió los fondos de un programa carente de eficacia a uno eficaz. Aunque este ejemplo utiliza muchas generalizaciones – sin sesgo de selección o aleatoriedad, los que obtuvieron indemnización no se matricularon en ningún otro programa de formación o de empleo de otro tipo, etc. – sirve para ilustrar la importancia de utilizar una grupo de control cuando se evalúa el impacto de programas laborales. relacionados con el empleo.1 Si bien se dispone habitualmente de información sobre los participantes de un programa, la dificultad para un buen evaluador radica en cómo conseguir que la parte opuesta esté adecuadamente representada – es decir, cómo crear un grupo de control apropiado. En muchos países, la técnica de evaluación más utilizada es la de no usar un grupo de control. En su lugar, dichas técnicas recurren a la estadística recopilada por los gestores de los programas (por ejemplo, el número de graduados, la tasa de empleo entre los graduados…) o en la valoración que hacen los beneficiarios sobre los programas. Estas evaluaciones son de escasa utilidad. Sin un grupo de control es difícil atribuir el éxito o fracaso de los participantes a la intervención en cuestión, ya que sus efectos están contaminados por otros factores, como son las aptitudes específicas de cada trabajador. Además, no pueden controlar el éxito que hubieran tenido los participantes de no existir la intervención (Recuadro 3). En algunos casos, estas evaluaciones proporcionan información sobre la pérdida de utilidad y sobre los efectos sustitución y desplazamiento,2 lo cual puede resultar útil para focalizar los programas hacia determinadas áreas o grupos. De todas maneras, resulta difícil juzgar la solidez de los resultados, ya que depende del método de elección de la muestra y del modo de entrevistar a los encuestados. Es, por tanto, más adecuado llevar a cabo las evaluaciones del impacto mediante técnicas que utilizan un grupo de control. Técnicas que utilizan un grupo de control Estas técnicas son de dos tipos: experimentales y cuasiexperimentales. Las evaluaciones experimentales requieren la selección de los grupos de tratamiento y de control antes de poner en marcha la intervención. En los estudios cuasiexperimentales, los grupos de tratamiento y de control se eligen una vez finalizada la intervención. Para calcular la eficacia del programa, se utilizan técnicas estadísticas que 1 En muchos países de la OCDE, donde se ofrecen estos programas como sustitutos (o incluso complementos) de los subsidios de asistencia social, los resultados también se miden en términos de ahorro en dichos subsidios y de la probabilidad de acogerse a la asistencia social. Algunas evaluaciones también tratan de medir los resultados socales, por ejemplo los cambios en el comportamiento criminal, consumo de drogas y embarazos de adolescentes. 2 El Anexo 1 contiene un glosario de las expresiones más comunes utilizadas en la literatura sobre la evaluación del impacto. 3 Evaluación de los efectos zados tras la finalización del programa. Muchos países en desarrollo no cuentan con la infraestructura de recogida de datos necesaria para realizar un seguimiento a los individuos durante un periodo tan largo de tiempo. corrigen las diferencias existentes entre las características de ambos grupos. Técnicas de evaluación experimental. La técnica se basa en el siguiente principio: si se asignan aleatoriamente muestras de gran tamaño a los grupos de tratamiento y de control, las características observables e inobservables de ambos grupos no deben diferir en término medio, y por tanto, toda diferencia que se presente en los resultados puede ser atribuida a la participación en el programa. El principal atractivo, en este caso, reside en la sencillez de la interpretación de resultados – el impacto del programa es igual a la diferencia que existe en la media de la variable de interés entre la muestra de participantes en el programa y el grupo de control. (Por ejemplo, si la media de la tasa de empleo de los participantes en un programa de formación es del 60%, y la de los no participantes es del 50%, entonces el impacto del programa es del 10%.) La selección aleatoria de los participantes supondrá probablemente la ausencia (o reducción significativa) del sesgo de selección entre los participantes. Sin embargo, a menudo resulta difícil diseñar y llevar a la práctica una evaluación experimental debido a los siguientes problemas: ■ ■ ■ ■ Las técnicas econométricas pueden controlar algunos de estos problemas, pero también añadirían un sesgo a los resultados. Técnicas cuasi-experimentales. En estas técnicas se seleccionan los grupos de tratamiento y de control después de la intervención. Para poder obtener estimaciones sin sesgo alguno del impacto de un programa, el grupo de comparación debe ser similar al grupo de tratamiento en cuanto a las características que afectan al resultado de interés. Aunque algunas de dichas características (como la edad, sexo y nivel de educación) son observables, otras (como las aptitudes innatas y la motivación) no lo son. Para aislar el efecto del programa, se utilizan técnicas econométricas que corrigen las diferencias existentes entre las características de ambos grupos. Las evaluaciones cuasi-experimentales son de tres tipos diferentes: Asignación no realizada aleatoriamente. Esto puede ser debido sencillamente a la práctica del nepotismo o a la exclusión de los grupos de alto riesgo para que los gestores de los programas presenten mejores resultados; Cuestiones éticas sobre la no inclusión de algunas personas en la intervención. En cierto modo tiene que ver con el anterior problema. Los gestores de los programas pueden resistirse a poner en práctica los programas arguyendo que se niegan los servicios al grupo de control; Cambio de comportamiento tras tener conocimiento de la asignación. Esto puede suceder porque los individuos de un experimento saben que forman parte de un grupo de tratamiento y entonces actúan de forma diferente; Necesidad de gran cantidad de datos. Además de resultar muy costoso, con frecuencia puede carecer de sentido práctico puesto que en muchos países – especialmente aquéllos en desarrollo – normalmente se diseñan las evaluaciones rigurosas una vez el programa está en marcha. Además, puede haber un importante lapso de tiempo entre la participación en un programa y los estudios de seguimiento reali- (i) Ajuste de regresión para las variables observables. Cuando las características observables (como edad, educación, etc.) del grupo de participantes y de los grupos de control o comparación difieren, pueden utilizarse las técnicas de regresión para calcular las estimaciones del impacto de un programa. Este método es apropiado cuando la diferencia entre la muestra de participantes y de comparación puede explicarse absolutamente por las características observables. (ii) Ajuste de regresión para las variables tanto observables como no observables (corrección de la selección). Las técnicas de simple regresión no pueden, por razones obvias, corregir las diferencias inobservables que existan entre el grupo de participantes y el de control. Cuando la selección para la inclusión en los programas no sea aleatoria – es decir, cuando las participación se deba tanto a características observables como no observables – las estimaciones del impacto extraídas mediante la técnica mencionada en el punto (i) estarán probablemente sesgadas. El problema es que las diferencias inobservables entre los dos grupos podrían haber hecho que los no participantes hubieran respondido de manera diferente al programa si hubieran participado. Las técnicas econométricas han sido 4 Evaluación de los efectos RECUADRO 4: ESTIMACIONES DEL IMPACTO DE LA PARTICIPACIÓN EN PROGRAMAS DE RECICLAJE EN HUNGRÍA En respuesta al creciente nivel de desempleo existente a raíz de la transición a una economía de mercado, el gobierno húngaro instauró una amplia serie de programas laborales en 1990. Uno de estos programas estaba relacionado con el reciclaje. Se utilizaron técnicas cuasi-experimentales para analizar el impacto de la formación recibida por estudiantes graduados en 1992 por instituciones de formación. Utilizando distintas metodologías, las estimaciones calculadas fueron significativamente diferentes. Probabilidad de empleo (%) Ganancia en los ingresos ($/mes) 19.2* 14.9 Pares alineados 1.2 20.5 Corrección de variables observables 6.3* 4.9 32.0* na Metodología de estimación Escasa diferencie en las medias Técnicas cuasi-experimentales Corrección de var. observ. e inobserv. (* – Estadísticamente significativo) Al probar diversas especificaciones, los evaluadores llegaron a la conclusión de que las altas estimaciones obtenidas utilizando la técnica de corrección de variables inobservables eran extremadamente sensibles a la especificación empírica utilizada. Consideraron que dichas estimaciones no eran fiables y que el verdadero impacto que tuvo el programa en el empleo se encontraba entre el 1,2% y el 6,3%, cifras generadas por el alineamiento de pares y las técnicas de corrección de variables observables respectivamente. Virtudes relativas de las diferentes técnicas Según lo explicado anteriormente, está claro que la falta de un grupo de control tiene como resultado unas pruebas poco fiables de los impactos del programa. Dichas técnicas no aportan una estimación explícita de lo que hubiera sucedido caso de no existir el programa y, por tanto, proporcionan una escasa indicación de los efectos del programa. Aunque estas técnicas pueden dar algunas indicaciones sobre los resultados brutos de los programas (por ejemplo el número de desempleados beneficiados), los responsables de formular las políticas no deben basarse en ellas para establecer comparaciones entre programas o tomar decisiones relacionadas con la asignación de recursos. Las técnicas experimentales pueden ser las más apropiadas en términos de rigor y pertinencia y en la actualidad se aplican con más regularidad en muchos países de la OCDE. Sin embargo, pueden resultar inviables en muchos países debido a su elevado costo, a la necesidad de gran cantidad de datos y a la limitación práctica de tener que diseñar las evaluaciones antes de que se pongan en marcha los programas. Entre las evaluaciones cuasi-experimentales, las técnicas de selección controlada, cuyo fin es controlar las características inobservables, pueden ser las menos adecuadas. Los análisis han demostrado que dichas técnicas son muy desarrolladas para tratar de controlar estas diferencias (ver detalles en Benus y Orr, O’ Leary et al.). (iii) Técnicas de alineamiento. Los grupos de tratamiento y de control tienden a tener diferente grado de éxito en encontrar empleo, incluso sin la presencia de PAML, debido a las diferencias de sus características observables. Para controlar estas diferencias no esenciales, se crean grupos de control sintéticos. Estos grupos son un subgrupo del propio grupo de control y están compuestos por individuos cuyas características observables están más alineadas con las del grupo de control (existen diversas técnicas de alineamiento – ver más detalles en Baker). Los principales atractivos de las técnicas cuasi-experimentales son, por un lado, que utilizan fuentes de datos ya existentes y por tanto su costo es relativamente bajo, y por otro, que estas evaluaciones pueden realizarse en cualquier momento una vez comenzado el programa. Sin embargo, existen desventajas. La complejidad estadística es una de las fundamentales: el ajuste para las diferencias de los atributos observables (por ejemplo sexo, educación…) es relativamente sencillo pero susceptible de errores de especificación; el ajuste para las características inobservables (por ejemplo motivación, aptitudes innatas...) requiere procedimientos que pueden producir resultados diferentes según la especificación (Recuadro 4). 5 Evaluación de los efectos sensibles a la especificación empírica elegida, lo cual hace que las estimaciones no sean fiables. Las técnicas de ajuste de regresión son relativamente sencillas de llevar a cabo. Aunque no controlan las características inobservables, pueden aplicarse en casos en los que los grupos de tratamiento y de control son básicamente similares en sus características observables. Las técnicas de alineamiento pretenden emular las evaluaciones experimentales eliminando las observaciones del grupo de control que no guardan un estrecho “alineamiento” con el grupo de tratamiento; en cambio, estas técnicas no pueden controlar las características no observadas. Aun así, las técnicas con ajuste de regresión y alineamiento son posiblemente preferibles a las técnicas experimentales en muchos países en desarrollo debido a su costo relativamente bajo y su mayor viabilidad. ■ ■ Las evaluaciones de la eficacia y en función de los costos y de los beneficios también pueden ayudar a determinar si los PAML reducen el gasto público. Por ejemplo, un programa podría conseguir que la gente dejara de acogerse a las prestaciones de desempleo (un ahorro para el gobierno) y se incorporara al empleo productivo. Al mismo tiempo, los costos del programa podrían ser superiores a los ahorros y, por lo tanto, sobre la balanza, supondría realmente un gasto público. Una evaluación adecuada de los costos y beneficios debe estimar el costo neto para el gobierno. La importancia de los costos Para que una evaluación sirva para informar las decisiones que se toman en materia de política, no estará completa hasta que se consideren los costos, tanto del PAML como de sus alternativas. El análisis de la eficacia en función de los costes es el método estándar para incorporar los costos y beneficios en todas las categorías de resultados y a lo largo de todo el tiempo. Un programa puede ser eficaz en cuanto a los beneficios que reporta a los participantes (por ejemplo ingresos más elevados y empleo) pero no merecer la pena si dichos beneficios son menores que los costos que conlleva. Por desgracia, los costos parecen ser el aspecto menos analizado de los programas activos del mercado laboral. Existen dos tipos de costos asociados a los programas – costos particulares y costos sociales. Los costos particulares son aquéllos en los que incurre el individuo. Entre ellos se encuentran los ingresos que no ha percibido mientras participaba en el programa, más todas las cuotas y gastos extraordinarios que ha tenido que desembolsar el individuo durante el programa. Los costes sociales, por otra parte, son el gasto que hace la sociedad en general en el programa. Así pues, un cálculo de los costos para la sociedad incluiría los costes particulares, así como, por ejemplo el alquiler de edificios, costos de equipamiento y salarios de los profesores. En la mayoría de los estudios realizados por los responsables de las políticas, los costos sociales se utilizan para evaluar la eficacia en función de los costos. Los principales pasos para la estimación de los costos son: ■ donde se va a llevar a cabo un proyecto de formación son cedidas por el gobierno, debería imputarse un costo de alquiler de dichas instalaciones.) Estimar los costos de contabilidad. Se trata de la cantidad real desembolsada en concepto de bienes y servicios (por ejemplo, salarios y prestaciones para el personal administrativo, costos de equipamiento y edificios). Incluir los costos particulares. (Entre ellos se incluyen los ingresos no percibidos y cualquier otro gasto en el que incurra el individuo durante su formación.) Necesidad de datos Las limitaciones relativas a información disponible pueden jugar un papel importante en el tipo de evaluación a realizar. Todas las evaluaciones de los PAML requieren datos sobre los ingresos y el empleo (medidas de los resultados). Para los análisis de regresión, las técnicas cuasiexperimentales necesitan contar con datos sobre las características socioeconómicas (por ejemplo, edad, educación, sexo, región…), así como detalles sobre el programa (por ejemplo, duración y tipo de formación de los programas formativos) y sobre las características del mercado laboral local (por ejemplo las tasas regionales de desempleo). Estos datos también resultarían útiles en el caso de las evaluaciones experimentales si los evaluadores pretenden llevar a cabo algún tipo de análisis de los subgrupos. Normalmente los datos sobre los participantes se extraen por medio de estudios especiales de referencia y de seguimiento – que siguen la trayectoria de los participantes a lo largo del tiempo desde su incorporación al programa. En el caso de las evaluaciones experimentales, también se sigue la trayectoria temporal de los no participantes. Las evaluaciones cuasi-experimentales pueden basarse en otras fuentes para recoger información sobre los grupos de control – por ejemplo, los estudios de hogares o de la fuerza de Identificar los costos, ya vayan a ser cargados al programa o no. (Por ejemplo, incluso si las instalaciones 6 Evaluación de los efectos competentes. En muchos países de la OCDE, estas destrezas han sido desarrolladas a lo largo de las últimas tres o cuatro décadas y los evaluadores cuantitativos más competentes se encuentran con toda probabilidad en el sector privado. Otro factor a considerar es la objetividad de las evaluaciones. Dado que los funcionarios del gobierno se encuentran con frecuencia implicados en el diseño y ejecución de los PAML, los investigadores del gobierno pueden no gozar de total objetividad en las evaluaciones. Las presiones políticas para que emitan un informe de resultados positivos pueden cuestionar su objetividad. Para reducir este tipo de presiones, los gobiernos a veces establecen unidades independientes para llevar a cabo las evaluaciones. Aunque esta estrategia puede tener sus ventajas, no elimina por completo el problema, especialmente en lo que respecta a la percepción pública. La percepción pública es quizás el problema más difícil de resolver. Los responsables de las políticas deben ser conscientes de que la opinión pública y la legislatura pueden no aceptar los resultados de las evaluaciones que son realizadas por una agencia del gobierno. Esto es así especialmente si la unidad de evaluación pertenece al ministerio que es responsable del diseño y ejecución del programa. En muchos países de la OCDE, los gobiernos se han percatado de que es mucho menos costoso económicamente instar al sector privado a que desarrolle la capacidad necesaria para llevara a cabo las evaluaciones de programas específicos del gobierno. Una segunda razón para utilizar evaluadores independientes es que los resultados de las evaluaciones van a ser objetivos y van a recibir mejor aceptación por parte de la opinión pública. Independientemente de quién realice la evaluación, es fundamental que los países en desarrollo hagan especial hincapié en: trabajo – aunque habitualmente dichas fuentes no aportan el mismo tipo de información que un estudio centrado en programas concretos. Algunos datos son fundamentales para el éxito de las evaluaciones (ver detalles en O’ Leary): (a) selección de la muestra: los participantes y miembros del grupo de control tienen similares condiciones en el mercado de trabajo y parecida elegibilidad para participar en el programa. Dado que la elegibilidad para participar en programas está normalmente condicionada por la inscripción en un servicio de empleo (especialmente en el caso de las economías desarrolladas y en transición), el registro de desempleados que buscan trabajo puede ser tomado como marco de muestreo. (b) tamaño de la muestra: las muestras deben ser lo suficientemente grandes para permitir realizar estimaciones precisas. Las muestras de mayor tamaño permitirán detectar las repercusiones del programa en los subgrupos, un dato que puede resultar de interés para los responsables de las políticas. (c) selección de la ubicación: hay que tener en cuenta las consideraciones prácticas para elegir la región que va a ser estudiada. Esto puede conllevar importantes costos, especialmente cuando se trata de áreas remotas y de difícil acceso. (d) seguimiento: para garantizar que el impacto del programa es calibrado adecuadamente, puede ser necesario realizar estudios de seguimiento durante uno o dos años una vez finalizado el programa, tanto del grupo de tratamiento como del de control. Los datos sobre los costos pueden obtenerse de las instituciones que se encargan de gestionar y poner en práctica programas del mercado laboral. ¿Quiénes deben llevar a cabo las evaluaciones? ■ Una de las cuestiones a las que se enfrentan los responsables de las políticas se refiere a si las evaluaciones han de llevarlas a cabo agencias del gobierno o bien instituciones independientes. La respuesta a este interrogante es fundamental ya que determinará el desarrollo de la capacidad evaluadora de un país. Los responsables de las políticas deben tener en cuenta una serie de factores (véase Benus y Orr). Deben ser conscientes de que las evaluaciones cuantitativas requieren profesionales altamente cualificados. Se necesita un alto grado de conocimientos técnicos para desarrollar la capacidad de realizar evaluaciones cuantitativas ■ ■ ■ ■ 7 proporcionar formación específica sobre estrategias y métodos de evaluación; desarrollar unos estándares de calidad para los procesos de evaluación; reforzar los sistemas de seguimiento de los datos sobre las aportaciones y resultados de los programas; garantizar que los objetivos son claros, los indicadores están consensuados y las bases de referencia son conocidas; reforzar la habilidad del gobierno para difundir los resultados. Evaluación de los efectos Conclusiones Pérdida de utilidad: los resultados de un programa son idénticos a los que se habrían producido en ausencia de dicho programa. Por ejemplo: un subsidio salarial coloca a un trabajador en una empresa que de todas formas habría contratado al trabajador de no existir el subsidio. Efecto desplazamiento: Suele referirse al desplazamiento en el mercado de bienes. Una empresa que emplea a trabajadores subvencionados aumenta su nivel de producción, pero desplaza/reduce la producción de empresas que no cuentan con este tipo de trabajadores. Sesgo de aleatoriedad: hace referencia al sesgo introducido en experimentos aleatorios. En esencia, viene a decir que el comportamiento de los individuos en un experimento será diferente por causa del propio experimento, y no por el objetivo del mismo. Los participantes en un experimento saben que forman parte de un grupo de tratamiento y pueden comportarse de manera diferente, y lo mismo podría decirse de los individuos integrados en el grupo de control. Sesgo de selección: los resultados del programa están influidos por factores no observables y no controlados en una evaluación (por ejemplo las aptitudes individuales). Dichos factores pueden surgir también como un efecto no pretendido del proceso de selección en programas donde los individuos “con más probabilidades de éxito” son los elegidos para participar. Efecto sustitución: un trabajador contratado para un puesto de trabajo subvencionado sustituye a un trabajador no subvencionado que de otro modo habría sido contratado. El efecto neto sobre el nivel de empleo es, por consiguiente, nulo. Grupos de tratamiento y de control: los beneficiarios de un programa integran el grupo de “tratamiento”. En una evaluación científica, los resultados de este grupo son comparados con los de las personas integrantes del grupo de “control” que no participaron en el programa. La efectividad de los PAML se mejora sustancialmente si las evaluaciones del impacto son rigurosas y los resultados se incorporan al diseño del programa. Aunque la realización de evaluaciones rigurosas pueden requerir mucho tiempo y, en ocasiones, ser un ejercicio costoso, los beneficios y compensaciones en el largo plazo son sustanciales. Bibliografía anotada Baker, J. (2000). Evaluating the Impact of Development Projects on Poverty: A Handbook for Practitioners. Publicación del Banco Mundial. Su finalidad es proporcionar a los responsables de las políticas y gestores de proyectos las herramientas necesarias para evaluar los impactos de los proyectos. Ofrece estudios exhaustivos de casos de una amplia gama de evaluaciones. Benus, J. y L. Orr (2000). Study of Alternative Quantitative Evaluation Methodologies. Working Paper. ABT Associates, Washington D.C. Ofrece una perspectiva general de la importancia de llevar a cabo evaluaciones, técnicas de evaluación y quién debe realizar las evaluaciones. Dar, A. y Z. Tzannatos (1999). Active Labor Market Programs: A Review of the Evidence from Evaluations. Documento de trabajo sobre protección social Nº 9901. Contiene una breve perspectiva general de los PAML y de las técnicas de evaluación y presenta pruebas de distintos países sobre los impactos de varios PAML. Grubb, W. y P. Ryan (2000). The Roles of Evaluation for Vocational Education and Training. OIT, Ginebra. Se centra en la formación profesional pero aporta una perspectiva general de las técnicas y metodologías de evaluación. O’ Leary, C., A. Nesporova y A. Samorodov (2001). Manual on Evaluation of Labor Market Policies in Transition Economies. Oficina Internacional del Trabajo. Analiza varios programas del mercado laboral en países de transición, la metodología de evaluación y cómo hacer uso de los resultados de las evaluaciones. Schmid, G., J. O’ Reilly y K. Schomann (1996). International Handbook of Labor Market Policy and Evaluation. Edward Elgar Books. Resume las diferentes estrategias metodológicas adoptadas en la investigación sobre evaluaciones, presenta conclusiones sobre evaluaciones en varios países y analiza los marcos institucionales y sistemas de evaluación y seguimiento. Anexo 1: Algunas expresiones comunes en la literatura sobre evaluación del impacto Agregación: se trata del incremento neto en el número de puestos de trabajo generados. Es el número total de puestos de trabajo subvencionados, menos la pérdida de utilidad y los efectos sustitución y desplazamiento. 8