Introducción a compiladores Universidad Autónoma de Aguascalientes Prof. Eduardo Serna-Pérez Correo-e: eduardo.serna@gmail.com Introducción a compiladores • • • • • • • Definición de compilador Historia de los compiladores Tipos de traductores Fases de un compilador Agrupamiento de fases Compiladores cruzados Herramientas automáticas Definición de compilador • Los compiladores son programas de computadora que traducen de un lenguaje a otro. Un compilador toma como su entrada un programa escrito en lenguaje fuente y produce un programa equivalente escrito en lenguaje objeto. Lenguaje Fuente Traductor Mensajes de error Lenguaje Destino Definición de compilador • Generalmente al lenguaje fuente se le asocia como lenguaje de alto nivel, mientras al lenguaje objeto se el conoce como código objeto (código de maquina) escrito específicamente para una maquina objeto. A lo largo del proceso de traducción el compilador debe informar la presencia de errores en el lenguaje fuente. • Diseñar y desarrollar un compilador, no es tarea fácil, y quizás pocos profesionales de la computación se vean involucrados en esta tarea. • No obstante, los compiladores se utilizan en casi todas las formas de la computación y cualquiera involucrado en esta área debería conocer la organización y el funcionamiento básico de un compilador. Historia de los Compiladores • A finales de la década de 1940, comenzaron a construirse las primeras computadoras digitales y fue necesario implementar un lenguaje capas de realizar los cálculos, es aquí donde aparece el lenguaje de maquina que representaba secuencias de códigos numéricos: C7 06 0000 0002 (instrucción que mueve el número dos a la ubicación 0000) • Desafortunadamente este lenguaje era tedioso de seguir y complicado de mantener, por lo que esta forma de codificación fue reemplazada por el lenguaje ensamblador, en el cual las instrucciones y las localidades de memoria son formas simbólicas. Un ensamblador traduce de los códigos simbólicos a lenguaje de maquina. Aún con esta mejora, el lenguaje ensamblador sigue siendo demasiado difícil de mantener: MOV X, 2 (instrucción en ensamblador equivalente a la anterior) Historia de los Compiladores • En este punto se presenta la necesidad de lenguajes que permitan escribir los programas de forma concisa, similar a una notación matemática, y que se pudieran traducir a código ejecutable para una máquina dada: X=2 • En 1950, G. M. Hooper acuña el termino compilador y aparecen los primeros trabajos sobre compiladores relacionados con la traducción de formulas aritméticas a código de máquina. • John Backus lideró un grupo de trabajo en IBM para realizar de un traductor de código máquina a fórmulas matemáticas. Resultando con gran éxito: la especificación de un lenguaje de alto nivel (FORTRAN, FORmule TRANslation) Trabajaron 18 personas durante mas de un año en el proyecto. • Fúe un compilador hecho ad-hoc (a puro corazón), pues no existía una teoría formal, sino que se iban resolviendo las construcciones una a una, para cada situación particular. Historia de los Compiladores • Noam Chomsky comienza sus estudios sobre la estructura del lenguaje natural. Sus estudios lo condujeron a la clasificación de los lenguajes de acuerdo a una jerarquía de sus gramáticas, además sus estudios sobre los algoritmos de reconocimiento derivaron en una automatización del proceso de traducción mas eficiente. • 1960, se diseña el lenguaje LISP. En un principio, el código LISP se traducía manualmente a código máquina. Se escribió en LISP un programa capaz de interpretar programas LISP, que se tradujo manualmente a código de máquina, construyendo de este modo un intérprete ejecutable de LISP. • Knuth desarrolla la mayoría de las técnicas de análisis sintáctico. • 1970, se presentan los mayores avances en el área de lenguajes de programación. • Aparecen los primeros programas que automatizan los procesos de análisis léxico y sintáctico. Surgiendo la llamada Torre de Babel debido a la proliferación de la teoría para la construcción de compiladores. Historia de los Compiladores • Niklaus Wirth, diseña Pascal, pensado para la enseñanza. • Wirth propone el concepto de representación intermedia de código, separando el proceso de traducción en dos fases: el front-end encargada de analizar el programa fuente (operaciones dependientes sólo del lenguaje fuente) y el back-end encargada de generar el código para la máquina objeto. • 1980, comienzan a proliferar las técnicas de mejoramiento de código (optimización), se consolida y prolifera el concepto de asignación y liberación de memoria dinámica. La programación orientada a objetos es extensamente utilizada y madura. • 1990, los lenguajes de programación y compiladores son muy similares a lo que tenemos actualmente, surgen los ambientes de desarrollo, los lenguajes interpretados comienza a ganar terreno en aplicaciones de Internet y el código intermedio se vuelve a poner de moda. Tipos de Traductores • Compilador Programa que convierte un archivo de lenguaje de programación a su correspondiente en lenguaje objeto. Siendo en realidad es un tipo especifico de traductor. • Ensamblador Programa que convierte de lenguaje mnemonico a lenguaje máquina, generando un archivo con el código objeto equivalente al código fuente completo, junto con información necesaria para el montaje. • Formadores de Texto toman como entrada una cadena de caracteres que incluye el texto a componer y órdenes (TAG´s) para indicar capítulos, secciones, párrafos, enumeraciones, figuras, formulas, tablas, etc. (Latex, Html). • Interpretes Ejecutan las instrucciones del programa según se vallan presentando. Necesitan menos memoria, pero son más lentos que los compiladores (LISP, Prolog). Históricamente, se pusieron de moda en los primeros años porque los recursos de memoria eran escasos. Permiten añadir código dinámicamente durante la ejecución. Tipos de Traductores • Lenguajes de programación interpretados Están diseñados para ser ejecutados por medio de interprete a partir de un código pre-compilado. • Por ejemplo Java es compilado para posteriormente ser ejecutado por un traductor del lenguaje objeto denominado Java Virtual Machine. • Mientas que los lenguajes de la plataforma .NET compilan en una forma intermedia (CIL), que posteriormente puede ser recompilado a código de maquina nativo o interpretado por una maquina virtual. • Lenguajes como Python y Java emplean representaciones intermedias de código para ser ejecutadas, mientras que lenguajes como Ruby emplean un árbol de sintaxis abstracta como representación intermedia. Tipos de Traductores Ventajas del compilador • Se compila una vez, se ejecuta n-veces • En bucles, la compilación genera código equivalente al bucle pero un interprete se traduce tantas veces una línea como veces se repite el bucle • El compilador tiene una visión global del programa, por lo que la información de mensajes de errores es más detallada. Ventajas del intérprete • Un interprete necesita menos memoria que un compilador • Permite una mayor interactividad con el código en tiempo de desarrollo. Tipos de Traductores Ventajas del compilador - intérprete • Proporcionan algo de flexibilidad extra • Son independientes de la plataforma en la que se ejecuten • Permiten un mecanismo de reflexión • Tipos de datos altamente dinámicos • Gestión de memoria dinámico • Fácilmente depurables y reducidos en tamaño Fases de un Compilador • Un compilador se compone internamente de varias etapas, o fases, que realizan operaciones lógicas. • Es útil pensar en estas fases como piezas separadas dentro del compilador, y pueden en realidad escribirse como operaciones codificadas separadamente aunque en la práctica a menudo se integran. • A continuación describiremos brevemente cada un de ellas: – Análisis Léxico – Análisis Sintáctico – Análisis Semántico – Generación y Optimización de código intermedio – Generación de código objeto Fases de Compilación Código fuente Fase de análisis Análisis Léxico Componentes léxicos / Tokens Análisis Sintáctico Tabla de símbolos Árbol sintáctico Análisis Semántico Árbol sintáctico con anotaciones Generación / Optimización de código intermedio Gestor de errores Código intermedio Generación / Optimización de código objeto Fase de síntesis Código objeto Fases de Compilación • Analizador léxico: lee la secuencia de caracteres de izquierda a derecha del programa fuente y agrupa las secuencias de caracteres en unidades con significado propio (componentes léxicos o “tokens” en ingles). • Las palabras clave, identificadores, operadores, constantes numéricas, signos de puntuación como separadores de sentencias, llaves, paréntesis, etc. , son diversas clasificaciones de componentes léxicos. • La estructura léxica la modelaremos mediante expresiones regulares. • Por ejemplo la siguiente instrucción en código C: Genera los siguientes componentes léxicos: a [ indice ] = 4 + 2 ; a[indice] = 4 + 2; identificador corchete de apertura Identificador corchete de cierre operador de asignación numero operador suma numero punto y coma Fases de Compilación • Análisis sintáctico: determina si la secuencia de componentes léxicos sigue la sintaxis del lenguaje y obtiene la estructura jerárquica del programa en forma de árbol, donde los nodos son las construcciones de alto nivel del lenguaje. • Se determinan las relaciones estructurales entre los componentes léxicos, esto es semejante a realizar el análisis gramatical sobre una frase en lenguaje natural. La estructura sintáctica la definiremos mediante las gramáticas independientes del contexto. • Como ejemplo consideremos la línea de código C anterior. Representa un elemento estructural denominado expresión, la cual es una expresión de asignación compuesta de una expresión de subíndice a la izquierda y una expresión aritmética a la derecha (árbol de análisis gramatical). Fases de Compilación expresión expresión asignación expresión expresión = expresión subíndice expresión identificador a [ expresión identificador indice expresión aditiva ] expresión numero 4 + expresión numero 2 Fases de Compilación • Los nodos internos del árbol de análisis gramatical están etiquetados con los nombres de las estructuras que representan y las hojas del árbol representan la secuencia de tokens. • Los árboles de análisis gramatical son útiles para visualizar la sintaxis de un programa pero no es eficaz en la representación de esa estructura. Los analizadores sintácticos tienden a generar un árbol sintáctico (una simplificación de la información contenida en un árbol de análisis gramatical). • Para nuestro ejemplo observamos que en el árbol sintáctico se han eliminado nodos, esto debido a que sabiendo la naturaleza de la expresión, ya no es necesario contar con ciertos tokens. = [] identificador a + identificador indice numero 4 numero 2 Fases de Compilación • Análisis semántico: realiza las comprobaciones necesarias sobre el árbol sintáctico para determinar el correcto significado del programa. • Las tareas básicas a realizar son: La verificación e inferencia de tipos en asignaciones y expresiones, la declaración del tipo de variables y funciones antes de su uso, el correcto uso de operadores, el ámbito de las variables y la correcta llamada a funciones. • Nos limitaremos al análisis semántico estático (en tiempo de compilación), donde es necesario hacer uso de la Tabla de símbolos, como estructura de datos para almacenar información sobre los identificadores que van surgiendo a lo largo del programa. El análisis semántico suele agregar atributos (como tipos de datos) a la estructura del árbol semántico. Fases de Compilación • El analizador semántico registrara el árbol sintáctico con los tipos de datos de las sub-expresiones y verificara que la asignación tiene sentido para los tipos, en caso contrario mandara un mensaje de error en correspondencia de tipos. De esta forma se obtiene un árbol sintáctico con anotaciones. • Siguiendo con el ejemplo de la expresión en C, el analizador semántico extrae la información de que a es una arreglo de valores enteros y que indice es una variable entera. = [] Tipo : entero a puntero a enteros Tipo: entero indice Tipo : entero + Tipo : entero 4 constante Tipo : entero 2 constante Tipo : entero Fases de Compilación • Generación y optimización de código intermedio: la optimización consiste en la calibración del árbol sintáctico donde ya no aparecen construcciones de alto nivel. Generando un código mejorado, ya no estructurado, más fácil de traducir directamente a código ensamblador o máquina, compuesto de un código de tres direcciones (cada instrucción tiene un operador, y la dirección de dos operándoos y un lugar donde guardar el resultado), también conocida como código intermedio. • La etapa de optimización sólo dependen del lenguaje fuente (y no de la máquina), se busca principalmente: eliminar sub-expresiones comunes, identificar código muerto, sustituir operaciones aritméticas, cálculo previo de constantes, variables de inducción, propagación de copias o código inalcanzable. Suele ser una fase lenta y compleja. Fases de Compilación • Siguiendo con el ejemplo de la expresión de asignación, el generador/optimizador, colapsara la expresión aditiva generando una constante 6. • En ocasiones estas adecuaciones pueden realizarse en el árbol directamente, pero generalmente resulta mas fácil hacerlo de manera lineal en una estructura de código de tres direcciones (cuadruplos). código optimizado código intermedio a[indice] = 6 t1 = indice * elem_size(a) t2 = &a + t1 *t3 = 6 Fases de Compilación • Generación de código objeto: toma como entrada la representación intermedia y genera el código objeto. La optimización depende de la máquina, es necesario conocer el conjunto de instrucciones, la representación de los datos (número de bytes), modos de direccionamiento, número y propósito de registros, jerarquía de memoria, encauzamientos, etc. • Suelen implementarse a mano, y son complejos porque la generación de un buen código objeto requiere la consideración de muchos casos particulares. • También se está investigando la creación de generadores de código automáticos. La idea es automáticamente hacer corresponder una representación intermedia a plantillas de instrucciones objeto. Permitiendo generar fácilmente el código objeto para una nueva máquina objeto, cambiando el conjunto de plantillas. Por ejemplo GNU GCC posee plantillas para mas de 10 arquitecturas más habituales de ordenadores. Fases de Compilación • Finalmente para nuestro ejemplo debemos decidir ahora cuantos enteros se almacenarán para generar el código del arreglo, para este ejemplo emplearemos modos de direccionamiento propios de C, generando el código objeto en un lenguaje ensamblador hipotético. MOV R0, t1 ;; valor de index -> MOV R1, &a ;; dirección de a -> R1 ADD R1, R0 ;; sumar R0 a R1 MOV *R1, 6 ;; constante 6 -> dirección en R1 Fases de Compilación • Tabla de Símbolos: es una estructura tipo diccionario con operaciones de inserción, borrado y búsqueda, que almacena información sobre los símbolos que van apareciendo a lo largo del programa como son: – los identificadores (variables y funciones) – Etiquetas – tipos definidos por el usuario (arreglos, registros, etc.) • Además almacena el tipo de dato, método de paso de parámetros, tipo de retorno y de argumentos de una función, el ámbito de referencia de identificadores y la dirección de memoria. Interacciona tanto con el analizador léxico, sintáctico y semántico que introducen información conforme se procesa la entrada. La fase de generación de código y optimización también la usan. Fases de Compilación • Tabla de Símbolos: es una estructura tipo diccionario con operaciones de inserción, borrado y búsqueda, que almacena información sobre los símbolos que van apareciendo a lo largo del programa como son: – los identificadores (variables y funciones) – Etiquetas – tipos definidos por el usuario (arreglos, registros, etc.) • Además almacena el tipo de dato, método de paso de parámetros, tipo de retorno y de argumentos de una función, el ámbito de referencia de identificadores y la dirección de memoria. Interacciona tanto con el analizador léxico, sintáctico y semántico que introducen información conforme se procesa la entrada. La fase de generación de código y optimización también la usan. Fases de Compilación • Gestor de errores: detecta e informa de errores que se produzcan durante la fase de análisis. Debe generar mensajes significativos y reanudar la traducción. • Encuentra errores: – En tiempo de compilación: errores léxicos (ortográficos), sintácticos (construcciones incorrectas) y semánticos (p.ej. errores de tipo) – En tiempo de ejecución: direccionamiento de vectores fuera de rango, divisiones por cero, etc. – De especificación/diseño: compilan correctamente pero no realizan lo que el programador desea. • Se trataran sólo errores estáticos (en tiempo de compilación). Respecto a los errores en tiempo de ejecución, es necesario que el traductor genere código para la comprobación de errores específicos, su adecuado tratamiento y los mecanismos de tratamiento de excepciones para que el programa se continúe ejecutando. Fases de Compilación • La mayoría de los compiladores son dirigidos por la sintaxis, es decir, el proceso de traducción es dirigido por el analizador sintáctico. El análisis sintáctico genera la estructura del programa fuente a través de tokens. El análisis semántico proporcionan el significado del programa basándose de la estructura del árbol de análisis sintáctico. • Las fases de análisis léxico y análisis sintáctico se pueden automatizar de manera relativamente fácil, las verdaderas dificultades en la construcción de compiladores son el análisis semántico, la generación y la optimización de código. • El número de pasadas, es decir, el número de veces que hay que analizar el código fuente, esta en función del grado de optimización. Típicamente se realiza una pasada para realizar el análisis léxico y sintáctico, otra pasada para el análisis semántico y optimización del lenguaje intermedio y una tercera pasada para generación de código y optimizaciones dependientes de la máquina. Estructuras de datos Empleadas • Componentes léxicos: estructura tipo registro con dos campos, componente léxico representado por una enumeración y el lexema con una cadena de caracteres. • Árbol sintáctico: es una representación de árbol de la estructura sintáctica abstracta del código fuente escrito en cierto lenguaje de programación. Cada nodo del árbol denota una construcción que ocurre en el código fuente. • Tabla de Símbolos: contiene información sobre los identificadores, funciones, variables, ámbito de referencia de identificadores, constantes numéricas y literales, tipos de datos, o incluso la dirección de memoria (tabla Hash). • Código intermedio: se implementa como una lista de registros, donde cada registro tiene cuatro campos (operador, la dirección de los operándoos y del resultado). Es eficiente para mover código para el proceso de optimización posterior. Agrupamiento de fases • En el modelo de análisis y síntesis las operaciones del compilador que analizan el programa fuente y calculan sus propiedades se clasifican como análisis del compilador, mientras que las operaciones involucradas con la traducción a código objeto se conoce como síntesis del compilador. Etapa de análisis: Análisis léxico Análisis sintáctico Análisis semántica Etapa de síntesis: Optimización y generación de código intermedio Generación de código objeto • La intención de separa las etapas de análisis y síntesis, es principalmente para realizar mantenimientos y actualizaciones eficientes. Compilador Cruzado • Es un compilador que genera código ejecutable para una plataforma distinta a aquella en la que se ejecuta • Es muy común construir un compilador en una plataforma Linux, empleando un lenguaje ANSI C++ para una sintaxis tipo Basic que genere código objeto para Windows ANSI C++ Basic ANSI C++ Linux Linux Windows Windows Windows Basic Compilador Cruzado • Existe también la variante que implica un compilador para maquina abstracta, que facilita la transportabilidad de compiladores de un lenguaje fuente a varias maquina objeto. La construcción de este tipo de compiladores se realiza en dos etapas: – front-end o etapa inicial: Las operaciones dependen sólo del lenguaje fuente. Incluye: análisis léxico, sintáctico y semántico, la creación de la Tabla de Símbolos, generación de código intermedio y algunas optimizaciones. Además, del manejo de errores de cada fase. – back-end o etapa final: Las operaciones dependen sólo de la máquina objeto. Incluye: generación de código objeto y optimizaciones dependientes de la máquina. Depende de los modos de direccionamiento, conjunto de instrucciones de la máquina, número de registros, arquitectura de la máquina, sistema operativo, etc. Compilador Cruzado Principal ventaja de este método: • Si se cambia de lenguaje fuente, entonces se reescribe el front-end. Si se cambia la máquina objeto, entonces se reescribe el back-end. Si aparece una nueva arquitectura, basta con desarrollar un traductor del lenguaje intermedio a esa nueva máquina. Código fuente Front-End Código intermedio Back-End Código objeto Compilador Cruzado Herramientas Automáticas • Son programas de ayuda en el proceso de escritura de compiladores: sistemas generadores de traductores. También se les conoce como compiler writing tools, compiler generators, compiler-compilers. A continuación mencionaremos los mas conocidos. • Generadores de analizadores léxicos: a partir de una especificación basada en expresiones regulares. Lex / Flex. • Generadores de analizadores sintácticos: a partir de una entrada que es la gramática independiente del contexto que representa la estructura sintáctica del lenguaje. Yacc / Bison. • Generadores de código: con rutinas para la generación del árbol de análisis sintáctico y para su recorrido. En cada nodo se especifican las acciones para su traducción a código objeto correspondiente. Bibliografía • Aho, A.V., Sethi, R., Ullman, J.D. (1990), Compiladores: principios, técnicas y herramientas, capitulo 1, páginas: 1- 25, 743-747. • Louden, K.C. (1997), Construcción de Compiladores: Principios y práctica, capitulo 1, páginas: 1- 27.