Evaluación del Sistema de Selección Universitaria: Facultad de Economía Universidad de Chile Christopher Neilson1 y Nicolás Grau2 Resumen En este trabajo se analizan los datos de ramos cursados en la Facultad de Economía y Administración de la Universidad de Chile, para intentar evaluar la eficiencia del sistema de selección universitaria actual al predecir el rendimiento de los alumnos. Se llevan acabo análisis mediante matrices de transición y regresiones OLS. Se encuentra que el sistema actual ignora variables relevantes para predecir el rendimiento académico, como la posición relativa de las notas del colegio. La cual incluso se muestra más robusta que los puntajes de las distintas pruebas de selección. En segundo lugar se encuentra evidencia de que no existe catching up al ser el rendimiento de primer año un muy buen predictor del rendimiento posterior en la escuela medido por notas y reprobaciones. Introducción El objeto de este trabajo es evaluar sí, dado las restricciones de información, la selección de los postulantes se hace de manera eficiente. En otras palabras, se pretende estudiar la capacidad de los procesos de selección de utilizar de mejor manera la información existente. Se asume que lo que pretende un mecanismo de selección es predecir el desempeño de los alumnos medido por rendimiento académico, para luego admitir a los postulantes de mejor desempeño predicho. Por tales motivos, la evaluación de los procesos de selección requiere identificar el grupo de las variables que estando disponibles, tienen capacidad predictiva. La hipótesis de nuestro trabajo es que las variables consideradas para el proceso de selección de estudiantes en la Facultad de Ciencias Económicas de la Universidad de Chile (FACEA), no permiten una elección eficiente de los postulantes. En particular, nuestra hipótesis cosiste en que el mecanismo obvia una variable observable al momento de la postulación, ésta es la posición relativa de los alumnos en su colegio. La cual es un buen predictor del rendimiento posterior. Las variables más ponderadas actualmente (PAA o PSU) tiene poco poder predictivo dentro de la muestra seleccionada por diversas razones y esto lleva a sobre valorar la preparación de ésta e ignora otras proxies de habilidad y motivación, las cuales si son observables. Para estos efectos hemos utilizado dos tipos de metodología estadística. Con el fin de graficar, de manera simple, las correlaciones entre las variables de selección y el desempeño posterior de los alumnos, se ha usado elementos de estadística descriptiva, tales como: gráficos y matrices de transición. La primera metodología se ha complementado con un análisis econométrico multivariado, el que ha permitido verificar de manera más exacta las correlaciones presentes en nuestras hipótesis. 1 2 christopher.neilson@gmail.com ngrau@facea.uchile.cl Se encuentra que el promedio de notas del colegio, puntaje de la prueba específica de matemática, calidad del colegio3\, sexo, región y la posición relativa de los alumnos en sus colegios, todas predicen en algún grado el rendimiento de los alumnos en la universidad. El análisis multivariado permite afirmar que, por el hecho de ser parte del decil 10 de notas en el colegio, los alumnos obtienen mejores notas y menores tasas de reprobación en la universidad. A su vez, el análisis empírico establece que, por un lado, la prueba de aptitud académica no explica de manera satisfactoria el desempeño académico de los estudiantes y, por otro lado, se verifica la alta persistencia del ranking de notas de primer año, a lo largo de la carrera. La evidencia sugiere que el sistema de selección actual es un mal predictor del rendimiento en el margen y no existe evidencia robusta de ``catching up'' por parte de los alumnos con bajo rendimiento durante le primer año. Descripción de datos y metodología empleada Para la elaboración de este estudio hemos utilizado dos fuentes de información, ambas de carácter individual: los puntajes de las pruebas de admisión, lo que incluye ciertas características del colegio y del alumno; y la base de datos de los alumnos de la Facultad de Ciencias Económicas y Administrativas de la Universidad de Chile, la cual contiene las notas de los alumnos y algunas características personales. La base de datos de los alumnos de la facultad, que va desde 1990 a 2004, contiene un total de 3668 observaciones. Por otro lado, el trabajo utiliza los resultados de las pruebas de admisión de los años 1992, 1994-2002. La base de datos final se construyó a partir de la unión de ambas fuentes de información. Por las características de los datos y la ausencia de la información de tres años, esta base de datos quedó compuesta por 2222 observaciones. La primera metodología empleada consiste en el uso de gráficos y matrices de transición para verificar la existencia de correlaciones entre ciertas variables explicativas y las variables dependientes. A pesar del carácter ilustrativo de tal análisis estadístico, los resultados que éste entrega no permiten verificar la hipótesis de la causalidad. Para los efectos de determinar la existencia de correlaciones entre el buen rendimiento académico y características observables, hemos utilizado mínimos cuadrados ordinarios. Esta metodología, a pesar de su simplicidad, y por los menos en este caso, logra dilucidar el efecto puro de las variables explicativas sobre la variable dependiente. 3 Este medido como el promedio de los puntajes de PAA del colegio. La función de producción del desempeño universitario se asume de la siguiente manera: Y X Donde Y es la variable que da cuenta del desempeño (promedio de notas), X el conjunto de variables explicativas, y la perturbación. El conjunto de variables de control junto con su descripción se presentan el la tabla A.1 en el anexo. Resultados Como se observa en la figura 1, existe una distribución de promedio de notas de plan común distinta, para los alumnos según su nivel de notas relativo en el colegio. Se ve que la distribución de los ``mateos'' del colegio domina estocásticamente a la distribución del resto. La distribución más favorable de los buenos alumnos del colegio, se ejemplifica en la mayor mediana de ésta, en relación a la distribución de notas de los alumnos del 90\% más malo de su colegio. Figura 1 Este resultado también se confirma para la reprobación de ramos. En otras palabras, los alumnos que tenían las mejores notas en sus colegios, tendían a reprobar menos ramos y tener mejores notas en promedio. La matriz de transición muestra como cambia el ranking de los alumnos en el tiempo y medido en distintas variables. En la Tabla 2, se muestra el ranking de los alumnos en la prueba de aptitud de matemáticas y su ranking al finalizar la malla común de ingeniería comercial (6 semestres). Si la PAA fuera un buen predictor, uno esperaría una fuerte correlación entre ambos rankings. Es decir, los mejores puntajes tenderían a tener las mejores notas como también los alumnos promedio, deberían seguir siendo alumnos promedio en general. La Tabla 2 muestra que esta hipótesis no se confirma y aunque existe cierta relación, la correlación es bastante baja4. Tabla 2. Ranking Notas Malla Comun ranking_nota_MC 2 3 4 5 6 7 8 9 1 5.76 9.15 7.8 7.46 9.49 12.54 12.2 13.22 9.49 12.88 100% 2 7.34 7.34 10.09 11.47 9.63 11.47 9.63 13.3 7.8 11.93 100% 3 7.88 11.2 6.64 9.96 7.47 12.03 10.79 9.96 15.35 8.71 100% 4 10.82 10.82 9.51 10.82 10.16 9.18 10.82 10.49 8.52 8.85 100% 5 9.15 10.98 14.02 12.8 13.41 8.54 6.71 8.54 7.93 7.93 100% 6 7.72 10.42 10.42 7.34 9.65 11.97 10.04 7.72 15.83 8.88 100% 7 10.27 10.71 7.59 12.05 12.05 9.38 8.04 9.38 11.16 9.38 100% 8 10.84 9.64 14.46 9.64 12.05 7.83 14.46 10.24 4.82 6.02 100% 9 14.21 10.38 12.02 9.84 6.56 8.2 12.02 8.74 8.2 9.84 100% 10 14.97 10.18 12.57 8.98 8.38 10.18 7.78 8.38 9.58 8.98 100% 212 224 224 220 218 230 230 226 226 212 2,222 Ranking PAA Matematicas 1 Total A continuación se presentan los resultados del análisis multivariado. Se controla por una serie de variables lo que permite aislar la relación entre distintas variables. Análisis Multivariado El objeto de esta sección es, a través del uso de MCO, determinar el poder explicativo del conjunto de variables que podrían ser utilizadas por los mecanismo de selección del proceso de ingreso a la educación superior. El primer modelo usa como variables explicativas las características del individuo, su colegio y sus resultados de prueba de aptitud. Además de el promedio de notas, se agrega el ranking relativo del alumno en su respectivo colegio. Se evalúa el ranking por quintil y con una variable dummy que identifica el decil más alto. 4 De hecho, el análisis multivariado da cuenta de un efecto no significativo en muchas especificaciones. 10 Total En las Tablas A.2 – A.4, se muestran los resultados de tres regresiones por MCO, del promedio de notas de plan común respecto de un set de variables explicativas. Los resultados de las regresiones permiten sostener las siguientes conclusiones: (1) la prueba de selección de mayor poder explicativo es la de matemáticas específicas, aquello se justifica en la pérdida de significancia de la paam, cuando se incluye pcem. (2) Haber sido del 10\% de mejor desempeño en el colegio, controlando por la calidad de este, implica un mejor promedio de notas en la malla común. Este resultado es robusto a distintas especificaciones5. (3) El poder explicativo de la calidad del colegio desaparece al contemplar en la estimación la prueba de matemáticas específica. (4) Aun controlando por el nivel de notas relativo (dest1), las notas absolutas en el colegio aun son significativas al explicar robustamente las notas de Plan Común. (5) Que los últimos anos de ingreso tengan signo positivo se puede deber a una disminución en la exigencia en FACEA. (6) Incluso controlando por un número importante de variables el hecho de ser mujer mejora el promedio de notas en la universidad. (7) El poder explicativo del promedio de introducción a la economía da cuenta de la persistencia de las notas de primer año. Conclusiones La evidencia indica que el sistema de selección de estudiantes no está diseñado eficientemente en el caso de la Facultad de Ciencias Económicas y Administrativas, ya que no ocupa toda la información relevante que está disponible al momento de la postulación. En particular, el sistema actual no considera las notas del colegio en términos relativos lo que podría evitar la inflación en las notas de los colegios. Además el actual sistema de selección posee muy poco poder para predecir el rendimiento de los alumnos en el margen. Sin embargo, existe una fuerte correlación entre el rendimiento de primer año, ya sea, de los ramos matemáticos o de economía con el rendimiento de plan común. En otras palabras solo se puede observar el verdadero potencial de los alumnos una vez dentro de la escuela durante el primer año. Una recomendación que surge de los resultados es bonificar a los alumnos del mejor 10% de su colegio en el margen. Dado que es sistema no es capaz de identificar correctamente entre un postulante que pondera 680 o 690, los resultados de esta investigación sugieren escoger el alumno de 680 que era el mejor de su colegio en vez de el postulante de 690 quien no lo era. Futuras políticas de la escuela que busquen mejorar la calidad del alumnado deben generar mecanismos alternativos para identificar los alumnos talentoso y motivados. Un ejemplo de esto puede ser aumentar los cupos de ingreso, tomando en cuenta la posición relativa, y eliminando los peores alumnos después de observar su esfuerzo y talento en el primer semestre. 5 En el trabajo Grau y Neilson (2005)b se presentan los resultados para regresiones para la cantidad de reprobaciones además de usar distintas definiciones de notas. El resultado de los mejores alumnos es siempre significativo aun controlando por el tipo y calidad del colegio. Otra alternativa podría ser generar mecanismos que permitan observar el esfuerzo y talento antes de que ingresen a la facultad. Este tipo de medida podría eventualmente ser focalizado a el conjunto de alumnos que no poseen recursos para ir a preuniversitarios, pero tienen otras características que predicen un buen rendimiento posterior, tales como la motivación y esfuerzo. Cabe señalar que estos resultados son específicos a la muestra usada en el análisis, lo cual limita la conclusiones a los alumnos que efectivamente entran a la universidad y a los que están en el margen de aquello. También será relevante verificar que este comportamiento se mantiene al usar las nuevas pruebas de admisión. Anexo Tabla A.1 Variables Explicativas Nombre dest1 Description Variable dicotómica, que toma el valor 1 si el alumno pertenece al 10% de mejor rendimiento en su colegio, y 0 en caso contrario nem Notas en la enseñanza media paam Puntaje en la prueba de aptitud de matemáticas paav Puntaje en la prueba de aptitud de verbal sex calidad Sexo del alumno Variable dicotómica, que toma el valor 1 si el alumno proviene de la región metropolitana, y 0 en caso contrario Año de ingreso a la universidad, toma el valor de 1 si el alumno entro el ano x y cero si no Calidad del colegio: promedio simple, del promedio del colegio de las pruebas de verbal y matemáticas nota_1 Promedio de notas del primer semestre. pcem Puntaje en la prueba de Matemáticas específica rm ing_x Variable Dependiente nota_MC Promedio de notas de plan común Tabla A.2 nota_MC rm Coef. Error Est. t P>t [95% Conf. Interval] -0.0144 0.0253 -0.6 0.57 -0.0641 0.0353 paam 0.0006 0.0003 2.2 0.03 0.0001 0.0012 paav 0.0003 0.0002 1.9 0.06 0.0000 0.0006 calidad 0.0001 0.0002 0.4 0.71 -0.0003 0.0004 nem 0.0013 0.0002 5.4 0.00 0.0008 0.0017 -0.0515 0.0206 -2.5 0.01 -0.0919 -0.0111 ing1994 0.0433 0.0514 0.8 0.40 -0.0576 0.1442 ing1995 0.0654 0.0473 1.4 0.17 -0.0274 0.1583 ing1996 -0.0162 0.0425 -0.4 0.70 -0.0996 0.0671 ing1997 0.0346 0.0444 0.8 0.44 -0.0525 0.1217 ing1998 0.0647 0.0458 1.4 0.16 -0.0251 0.1546 ing1999 0.0217 0.0442 0.5 0.62 -0.0650 0.1085 ing2000 -0.0078 0.0488 -0.2 0.87 -0.1036 0.0879 ing2001 0.1246 0.0482 2.6 0.01 0.0302 0.2191 ing2002 0.3597 0.0557 6.5 0.00 0.2504 0.4690 _cons 3.1599 0.3630 8.7 0.00 2.4479 3.8719 dest1 sex pcem Number of obs F( 15, 1577) Prob > F R-squared Root MSE 1593 12.68 0 0.1395 0.35637 Tabla A.3 nota_MC Coef. rm Error Est. t P>t [95% Conf. Interval] -0.0074 0.0243 -0.3 0.762 -0.0551 0.0404 paam 0.0008 0.0003 2.7 0.007 0.0002 0.0013 paav 0.0003 0.0002 1.62 0.106 -0.0001 0.0006 dest1 0.1965 0.0266 7.39 0.000 0.1443 0.2486 calidad 0.0006 0.0002 3.32 0.001 0.0003 0.0010 nem 0.0007 0.0002 3.25 0.001 0.0003 0.0011 sex -0.0490 0.0195 -2.51 0.012 -0.0873 -0.0107 ing1994 0.0442 0.0500 0.88 0.378 -0.0540 0.1423 ing1995 0.0577 0.0462 1.25 0.212 -0.0330 0.1484 ing1996 -0.0030 0.0421 -0.07 0.944 -0.0855 0.0796 ing1997 0.0546 0.0438 1.25 0.212 -0.0312 0.1404 ing1998 0.0929 0.0448 2.07 0.038 0.0050 0.1808 ing1999 0.0267 0.0441 0.61 0.544 -0.0597 0.1131 ing2000 0.0034 0.0483 0.07 0.944 -0.0914 0.0982 ing2001 0.1428 0.0478 2.99 0.003 0.0491 0.2366 ing2002 0.3754 0.0543 6.91 0.000 0.2689 0.4819 _cons 3.0134 0.3390 8.89 0.000 2.3486 3.6783 Numero de obs F( 16, 1576) Prob > F R-squared Root MSE 1593 17.74 0 0.1746 0.34915 Tabla A.4 nota_MC Coef. Error Est. t P>t [95% Conf. Interval] rm 0.0458 0.0349 1.31 0.190 -0.0227 0.1142 paam 0.0009 0.0005 1.58 0.114 -0.0002 0.0019 paav 0.0006 0.0003 2.37 0.018 0.0001 0.0012 dest1 0.2075 0.0414 5.01 0.000 0.1262 0.2887 calidad 0.0005 0.0003 1.82 0.069 0.0000 0.0010 nem 0.0013 0.0004 2.82 0.005 0.0004 0.0021 -0.0638 0.0306 -2.08 0.038 -0.1238 -0.0037 0.0010 0.0005 2.00 0.046 0.0000 0.0020 ing1999 -0.0689 0.0386 -1.79 0.075 -0.1446 0.0068 ing2000 -0.0985 0.0402 -2.45 0.015 -0.1774 -0.0195 ing2001 0.0328 0.0418 0.78 0.434 -0.0494 0.1149 ing2002 0.2619 0.0560 4.68 0.000 0.1520 0.3717 _cons 1.7777 0.9465 1.88 0.061 -0.0805 3.6359 sex pcem ing1994 ing1995 ing1996 ing1997 ing1998 Number of obs F( 12, 738) Prob > F R-squared Root MSE 751 16.69 0 0.2317 0.35457 Bibliografía Fischer R. and A.Reppeto, “Método de Selección y Resultados Académicos: Escuela de Ingeniería de la Universidad de Chile”, Estudios Públicos N° 92, 2003.