INSTITUTO POLITÉCNICO NACIONAL UNIDAD PROFESIONAL INTERDISCIPLINARIA DE INGENIERIA Y CIENCIAS SOCIALES Y ADMINISTRATIVAS Sección de Estudios de Posgrado e investigación CONSTRUCCIÓN DE UNA MÁQUINA PARALELA PARA CENTROS DE INVESTIGACIÓN. TESIS QUE PARA OBTENER EL GRADO DE MAESTRO EN CIENCIAS EN INFORMÁTICA PRESENTA JESÚS ANTONIO ALVAREZ CEDILLO MÉXICO D.F. 2006 1 2 INSTITUTO POLITECNICO NACIONAL COORDINACION GENERAL DE POSGRADO E INVESTIGACION CARTA CESION DE DERECHOS En la Ciudad de México, D.F. el día 23 del mes de Marzo del año 2006, el que suscribe Jesús Antonio Álvarez Cedillo alumno del Programa de Maestría en Ciencias en Informática con número de registro A010396, adscrito a la Sección de Estudios de Posgrado e Investigación de la UPIICSA-IPN, manifiesta que es autor intelectual del presente trabajo de Tesis bajo la dirección de Dr. Miguel Lindig Bos y cede los derechos del trabajo intitulado CONSTRUCCIÓN DE UNA MÁQUINA PARALELA PARA CENTROS DE INVESTIGACIÓN, al Instituto Politécnico Nacional para su difusión, con fines académicos y de investigación. Los usuarios de la información no deben reproducir el contenido textual, gráficas o datos del trabajo sin el permiso expreso del autor y/o director del trabajo. Este puede ser obtenido escribiendo a la siguiente dirección jaalvarez@ipn.mx. Si el permiso se otorga, el usuario deberá dar el agradecimiento correspondiente y citar la fuente del mismo. 3 A Dios: Por su infinita gracia, por haberme dado una vida hermosa y plena, una familia maravillosa y por dejarme encontrar una esposa inteligente y comprensiva y por darme sólo el poco de entendimiento y sabiduría que me han permitido llegar a este punto. 4 A Mi Esposa: Como una pequeña muestra de agradecimiento por todo lo que me ha dado y enseñado. 5 A mis Hermanos: Por el gran apoyo que siempre me han brindado, por su gran nobleza y por la fuerza que cada uno me ha inspirado para seguir adelante en momentos difíciles 6 A mis Padres: Como reconocimiento a su apoyo incondicional y comprensión y como muestra de un esfuerzo conjunto para alcanzar una meta más. Los Amo. 7 A mis profesores y compañeros: Especialmente a mi director de tesis Dr. Miguel Lindig Bos por sus consejos, apoyo y por creer en mí, así como por su orientación magnífica para terminar este trabajo, y al M. En C. Eduardo René Rodríguez Ávila por su atinadas correcciones 8 “CONSTRUCCIÓN DE UNA MÁQUINA PARALELA PARA CENTROS DE INVESTIGACIÓN “ RESUMEN. Debido a la situación económica actual de nuestro país y ante la imposibilidad de que los centros de investigación cuenten con los recursos adecuados y herramientas para desarrollar proyectos no teóricos, se hace prioritario aplicar nuevas técnicas y desarrollar nuevas herramientas que debido a su bajo costo, puedan ser implementadas y no necesiten de largos procesos para su adquisición. Es en este marco de referencia donde se ubica la creación de una computadora diseñada especialmente para la investigación, que explote él cómputo distribuido y el procesamiento paralelo y que pueda ser operada bajo una instrucción mínima por investigadores de cualquier parte y de cualquier rama de la ciencia, que busquen explotar el procesamiento paralelo con un desempeño alto o considerable. Es necesario considerar que en México el tema del súper cómputo no ha sido explotado adecuadamente, ya que por lo general un equipo con estas características sólo lo tienen las grandes empresas comerciales por su alto costo, por la misma razón, es casi imposible que un centro de investigación pueda adquirir este recurso cuando el equipo cuesta millones de dólares. Un investigador que cuente con este tipo de herramientas podrá auxiliar sus investigaciones aplicando el procesamiento recursivo y paralelo, para realizar pruebas prácticas de los modelos que genere, podrá realizar simulaciones y proponer ambientes de prueba. Por otro lado, contar con una máquina paralela que soporte los estándares de programación de facto de la industria, permitirá a los centros de investigación, crear programas de aplicación real inclusive para otras plataformas que soporten el estándar sobre súper computadoras comerciales de marca. Estos programas contribuirán al desarrollo de nuevos investigadores que a su vez aportarán con sus descubrimientos al desarrollo tecnológico y económico del país. Es necesario destacar que el software libre en el mundo ha comenzado a ganar terreno a partir de la creación del sistema operativo Linux , hecho que ha permitido a millones de programadores y científicos del mundo poder generar nuevas aplicaciones gracias a un ambiente común y de acceso total sobre los códigos de programación. 9 “CONSTRUCTION OF A PARALELL MACHINE FOR RESEARCH CENTERS” ABSTRACT. Due to the current economic situation of our country and the imposibility for research centers to get adecuate resources and tools to develop non-theoretical projects, it becomes a priority to apply new techniques and to develop new tools that they may be readily implemented, due to their low cost and short adquisition times. It is under this frame of reference where the design of a high-performance computer becomes desirable, specifically oriented toward research problems, based on distributed and parallel processing concepts and requiring a minimum of instruction in its use for researchers of any specialty that wish to exploit recursive processing with high levels of performance. It is necessary to recall that in Mexico the subject of supercomputing has not been explored in depth since, in general, this type of equipment is only available to very large corporations due to its high cost of many thousands of dollars. For the same reason, is almost impossible to be aquired by a public or government research center. A researcher that counts with this tools is able to improve his work by applying recursive and parallel processing, to apply tests to the models that its generates, to run detailed simulations and to develop test environments. On the other hand, the availability of a parallel machine that runs de facto industrystandard software would allow research centers to develop new application software compatible with other platforms, including commercially availlable high-performance machines. These application programs would aid in the education of new researchers which, in turn, due to the results of their work would contribute to the technological and economic growth of the country. It is necessary to highlight that the importance of free software has been steadyly growing since the introduction of the Linux operating system. This fact has permitted that millions of programmers and scientists in the whole world can generate and share new applications, thanks to a common environment and total access to source code. 10 GLOSARIO DE TÉRMINOS ACCESO DEDICADO. Servicio que proporciona conectividad, en la misma localidad, entre los inmuebles del cliente y un punto de presencia de un Operador, de forma tal que el cliente pueda utilizar los servicios proporcionados por dicho Operador. ADDRESS. (Vea Dirección). ALGORITMO: Conjunto finito de pasos estructurados en el tiempo, acorde a un conjunto finito de reglas que proveen la solución a un problema o indica la falta de ésta. ANCHO DE BANDA. Medida de capacidad de comunicación o velocidad de transmisión de datos de un circuito o canal analógico. Cuando se trata de transmisiones analógicas, el ancho de banda es la diferencia entre las frecuencias superior e inferior en un rango dado. Se mide en ciclos por segundo o hertzios (Hz). En las transmisiones digitales, el ancho de banda se mide en bits por segundo (bps) y cuanto más grande sea este número, más rápida será la transmisión. La velocidad es importante para los dispositivos de entrada/salida ya que un bus con un ancho de banda escaso puede limitar sus capacidades. ARP. Address Resolution Protocol. Protocolo que se utiliza para averiguar la dirección del enlace correspondiente a la dirección IP. ARPANET. Advanced Research Projects Agency Network [Red de la Agencia de Proyectos Avanzados de Investigación]. Red desarrollada en 1969 por parte del Departamento de Defensa de los Estados Unidos en la experimentación de una amplia red que funcionara a pesar de que parte de la red quedara fuera de servicio. Desapareció en 1990 propiciando la aparición de la tecnología de conmutación de paquetes y del protocolo TCP/IP. Dio origen a Internet. ASCII. American Standard Code for Information Interchange [Codificación Americana Normalizada para el intercambio de Información]. Norma mundial para la codificación usada en las computadoras a fin de representar los caracteres requeridos para la comunicación entre máquinas. Hay 128 códigos normalizados ASCII, cada uno de los cuales se puede representar con un número binario de 7 dígitos. Este código le asigna 8 bits a cada carácter. ASÍNCRONO. Tipo de comunicación que envía datos usando control del flujo sin necesidad de sincronizar entre una terminal origen y un terminal destino. AUTENTICACIÓN. Proceso de validación de la conexión del usuario que determina el permiso de acceso a los recursos del servidor. 11 BAJA LATENCIA. Un periodo de tiempo muy corto, el cual está destinado a la transmisión y recepción de los datos desde que son emitidos por el puerto transmisor y hasta que alcanzan al puerto receptor. BANDA AMPLIA. Ruta/circuito de comunicaciones de capacidad media. Suele indicar una velocidad de 64 kbps a 1.544 Mbps. BANDA ANCHA. Ruta/circuito de comunicaciones de gran capacidad. Normalmente implica una velocidad superior a 1.544 Mbps. BANDA BASE. Método de transmisión de datos en una red que utiliza el ancho de banda completo para una transmisión individual. Ejemplo: Ethernet, realiza una única transmisión en cada momento. BANDWIDTH. (Ver Ancho de Banda). BIND. Berkeley Internet Name Domain. [ Nombre de dominio internet Berkeley]. Una de las primeras implementaciones del sistema de nombres de dominio de Internet. BIOS. Basic Input Output System. [ Sistema Básico de Entrada/Salida ]. Programa que se encuentra en la mayoría de los ordenadores y que controla el proceso de arranque de la máquina y otras funciones básicas como el funcionamiento del teclado o las unidades de disco. Los ordenadores antiguos almacenaban el BIOS en un chip que no se podía borrar, mientras que en los más modernos, el programa se puede actualizar, ya que se guarda en un chip que se puede borrar y reprogramar. BIT. Binary digit. [Dígito binario]. Unidad elemental de la información. Puede ser 0 ó 1. Físicamente, el bit se puede representar como un transistor en una célula de memoria, un punto magnetizado en la superficie de un disco o como un pulso enviado a través de un circuito. Cuando se combinan formando varios bytes, también llamados palabras, pueden representar grandes cantidades de información. En la mayoría de los sistemas, ocho bits consecutivos forman un byte, que es equivalente a un carácter alfanumérico. Las transmisiones se suelen medir en bits por segundo (bps), lo que indica el número de bits que pasan por un determinado punto en un segundo. BOOTP. Boot Protocol. Protocolo usado para arrancar estaciones de la red de forma remota. BROWSER. [ Navegador ]. Programa que permite visitar sitios en Internet. BYTE. Conjunto de 8 bits (por estandar de úso). Es la mínima cantidad requerida para representar cada símbolo alfanumérico. 12 CLUSTER. [Lit. racimo]. Es un grupo de sectores de un disco (normalmente de dos a ocho) que se trata como una entidad por el sistema operativo o la controladora de disco. Este término se refiere a veces a un grupo de terminales informáticos conectados a un sistema. DAEMON (Demonio). Programa que se ejecuta de modo independiente al navegador. Los Demonios pueden realizar varias tareas administrativas como las de construir índices, resúmenes y retroenlaces. En Unix se utiliza el término por el de servidor debido a que los servidores operan de modo independiente. DATAGRAMA. Paquete individual de datos que es enviado a un equipo receptor sin ninguna información que lo relacione con ningún otro posible paquete. DHCP. Dynamic Host Configuration Protocol. [ Protocolo de configuración de equipo dinámico]. Método que asigna automáticamente direcciones IP a clientes de una red. DIRECCIÓN IP. Dirección de 32 bits del protocolo Internet asignada a un ordenador conectado a Internet. La dirección IP tiene un componente del propio ordenador y un componente de la red. Este número tiene el formato de cuatro grupos de hasta tres dígitos binarios, cada uno con valores de cero a doscientos cincuenta y cinco, separados por un punto. DNS. Domain Name System. [Sistema de Nombres de Dominio]. Base de datos distribuida que gestiona la conversión de direcciones de Internet expresadas en lenguaje natural a una dirección numérica IP. ETHERNET. Tipo de red local que usa la configuración en BUS, que no puede sobrepasar los 2000 metros de longitud. FAST ETHERNET. Versión de Ethernet que permite transferencias de datos entre 10 y 100 Mbps u usa protocolo CSMA/CD. FTP. File Transfer Protocol. [Protocolo de transferencia de archivos]. Es el método común de enviar archivos entre computadoras en Internet. GUI. Graphical User Interface. [ Interfaz gráfica de usuario ]. Se trata de una interfaz que utiliza símbolos gráficos, llamados íconos, y menús para gestionar los recursos de un ordenador. Se puede trabajar por medio de un ratón o un teclado y está diseñada para resultar más fácil de usar y más intuitivo que una interfaz basada en caracteres (texto), como el MS-DOS, que requiere que se introduzcan órdenes escritas a través del teclado. Actualmente, los dos sistemas operativos más 13 utilizados que operan mediante una interfaz gráfica de usuario son Windows , X11 y MacOS. Unix es un sistema basado en caracteres que también permite la incorporación de una interfaz gráfica de usuario, entre otros. HOST. [Anfitrión]. Es una computadora en una red. Antes se denominaba con el término "nodo" que se utiliza en el lenguaje de definición de documentos. Muchas veces se usa como sinónimo de servidor. HTTP. Hipertext Transfer Protocol. [ Protocolo de transferencia de hipertexto ]. Es un conjunto de estándares que permite a los usuarios de la Web intercambiar información. Es el método que se utiliza para transferir documentos desde el sistema donde se almacenan las páginas hasta los usuarios individuales. IP . (Ver DIRECCIÓN IP ). ISO. International Standard Organization. [ Organización Internacional de Estándares ]. Fundada en 1947 reúne asociaciones de unos 90 países y su objetivo es establecer los estándares internacionales, incluidos para la comunicación de datos LINUX. Es un sistema operativo multitarea y multiusuario de 32 bits para PC desarrollado inicialmente por Linus Toorvald, modificado y mejorado por programadores de todo el mundo. Su distribución es gratuita. NFS. Protocolo desarrollado por Sun Microsystems para permitir que una computadora pueda acceder a los archivos de otro equipo como si éstos fueran propios. NODO. Su definición original es la de punto donde convergen de dos líneas. En informática, el término se refiere muchas veces a una máquina conectada a Internet, aunque lo normal es que se hable de un punto de confluencia en una red. NFTS. NT File System. Sistema de archivos propio de Windows NT, que permite nombres largos, reduce la fragmentación de archivos, proporciona tolerancia a fallos e incrementa el sistema de seguridad. OSI. Open Systems Interconnection. [ Interconexion de Sistemas Abiertos ]. Modelo de referencia de interconexión de sistemas abiertos propuesto por la organización de normalización ISO. Divide las tareas de la red en siete niveles. PING. Packet Internet Grouper. [ Buscador de Paquetes Internet ]. Programa utilizado para comprobar si un servidor está disponible. Envía paquetes de control para comprobar si el servidor esta activo y los 14 devuelve. PLATAFORMA. Conjunto de tecnologías que obedecen a un estándar sobre las cuales los procesos corren en forma natural independientemente de su arquitectura PROTOCOLO. Conjunto de reglas y normas que determinan cómo se realiza un intercambio de datos, asegurando que los datos recibidos son idénticos a los datos enviados. PUERTO. Dispositivo físico o lógico que forma parte de la infraestructura de una red y que funge como interfase entre el equipo de datos del Usuario y la red . RARP. Reverse Address Resolution Protocol. [ Protocolo de Resolución de Dirección inversa ]. Protocolo de bajo nivel para la asignación de direcciones IP a maquinas simples desde un servidor en una red física. RED. Sistema de elementos interrelacionados que se conectan mediante un vínculo dedicado o conmutado para proporcionar una comunicación local o remota (de voz, vídeo, datos, etc.) y facilitar el intercambio de información entre usuarios con intereses comunes. SERVIDOR. En una red, es un ordenador que proporciona servicios a otros equipos (estaciones) . TCP/IP. Transfer Control Protocol/Internet Protocol. [ Protocolo de control de transmisiones / Protocolo Internet ]. Es el protocolo estándar de comunicaciones en red y transporte del modelo OSI, utilizado para conectar sistemas informáticos a través de Internet ( Vea también DIRECCIÓN IP ). TELNET. TELe NETwork. [ Tele Red ]. Programa de red que ofrece una forma de conectarse y trabajar desde otro equipo. Utiliza una conexión a un servidor por medio de la cual el ordenador cliente del usuario emula una terminal virtual. UNIX. Sistema operativo multitarea y multiusuario de gran importancia en el desarrollo y evolución de Internet. WAN. Wide Area Network. [ Red de Área Amplia ]. Red de ordenadores conectados entre sí, dispersos geográficamente, localizados a gran distancia. 15 ÍNDICE INTRODUCCIÓN.....................................................................................................................................1 1.1 Antecedentes Teóricos Básicos ...........................................................................................................6 1.2 Posix (Portable Operating System Interface) ....................................................................................8 1.3 El Sistema Operativo Linux................................................................................................................9 1.4 El Paradigma Cliente Servidor.........................................................................................................11 1.5 Direcciones IP ...................................................................................................................................12 1.6 Taxonomía de arquitecturas.............................................................................................................15 1.6.1 Clasificación de Flynn ...................................................................................................................... 15 1.6.2 Sistema único flujo de instrucciones sobre un único flujo de datos................................................ 15 1.6.3 Sistemas SIMD (Single Instruction stream, Multiple Data stream) ............................................... 16 1.6.4 SIMD con CPU particionada ........................................................................................................... 16 1.6.5 SIMD con múltiples ALU................................................................................................................ 17 1.6.6 Sistemas MISD (Multiple Instruction stream, Single Data stream). .............................................. 18 1.6.7 Sistemas con un flujo de múltiples instrucciones que operan sobre múltiples datos MIMD (Multiple Instruction stream, Multiple Data stream) .............................................................................. 18 1.7 Categorías de Computadoras Paralelas ...........................................................................................19 1.7.1 Multiprocesadores ............................................................................................................................ 19 1.7.2 UMA (Uniform Memory Access) ..................................................................................................... 20 1.7.3 Sistema de Multiprocesador NUMA (Non Uniform Memory Access) ........................................... 21 1.7.4 Sistema COMA (Cache Only Memory Access) ............................................................................... 21 1.7.5 Multicomputadoras .......................................................................................................................... 22 2.1. La conjetura de Minsky ...................................................................................................................25 2.2. Ley De Amdahl.................................................................................................................................26 2.3. Granularidad....................................................................................................................................29 2.3.1 Paralelismo de grano fino................................................................................................................. 30 2.3.2 El paralelismo de grano medio......................................................................................................... 30 2.3.3 Paralelismo de grano grueso y muy grueso ..................................................................................... 30 2.3.4 Paralelismo independiente .............................................................................................................. 30 2.4. Redes específicas ..............................................................................................................................34 2.4.1 Red Crossbar .................................................................................................................................... 34 2.4.2 Memorias Multipuerto ..................................................................................................................... 35 2.5 Estrategias de software de los MIMD. .............................................................................................37 2.5.1 Técnicas de compilación................................................................................................................... 37 16 2.5.2 Arquitecturas paralelas de granularidad fina................................................................................. 42 2.5.3 Estrategia Doacross scheduling........................................................................................................ 43 2.5.4 Estrategia Doall loop scheduling...................................................................................................... 44 2.5.5 Estrategia de balance de carga......................................................................................................... 44 2.5.6 MPI (Messaging passing interface) Intercambio de paso deMensajes .......................................... 45 2.5.7 PVM(Paralell Virtual Machine) Maquina Virtual Paralela........................................................... 49 2.6 El estudio del rendimiento. ...............................................................................................................53 2.6.1 Factores que influyen en el rendimiento.......................................................................................... 53 2.6.2 Tiempo de respuesta (Turnaround Time) ....................................................................................... 54 2.7 Algoritmos paralelos. ........................................................................................................................56 2.7.1 Método De Diferencias Finitas......................................................................................................... 56 2.7.2 Método de expansión de Taylor ....................................................................................................... 57 2.7.3 Aproximación De Diferencia Para Derivadas Parciales. ................................................................ 60 3.1 Pensamiento y la filosofía de construcción......................................................................................61 3.2 Aspectos generales de la programación en paralelo........................................................................63 3.2.1 Tipo de Hardware ........................................................................................................................... 63 3.2.2 Tipo de red de Comunicación .......................................................................................................... 67 3.2.3 El sistema operativo. ........................................................................................................................ 68 3.3 Elección de componentes para la construcción de la maquina paralela........................................70 3.3.1 Tipo de carga del sistema operativo para la máquina paralela. ..................................................... 71 3.3.2. Aplicaciones y Programas. .............................................................................................................. 72 3.3.2.1 Servicios requeridos ...........................................................................................................................................72 3.3.2.1.1 El servidor RPL. .........................................................................................................................................72 3.3.2.1.2 El servidor DHCP (dynamic host configuration protocol). ........................................................................73 3.3.2.1.3 El servidor TFTP (trivial ftp). ....................................................................................................................74 3.3.2.1.4 El servidor NFS ..........................................................................................................................................74 3.3.2.1.5 El servidor RSH..........................................................................................................................................75 3.4 Proceso de construcción ...................................................................................................................75 3.4.1 Construcción física ........................................................................................................................... 75 3.4.2 Construcción Lógica......................................................................................................................... 80 3.4.3 Instalación del nodo principal.......................................................................................................... 82 3.4.4 Diseño e implementación de la máquina paralela ........................................................................... 86 3.4.4.1 Intercambio de mensajes ...................................................................................................................................89 3.4.4.2 Sincronización....................................................................................................................................................89 3.4.5 Experimentos y optimización. ...................................................................................................... 96 3.4.5.1 Performance de Red .........................................................................................................................................96 3.4.5.2 Transmisión de información (throughput) de MPICH .....................................................................................99 3.4.5.3 Benchmark Time ..............................................................................................................................................101 17 DESCRIPCIÓN LISTA DE FIGURAS Y TABLAS Página _________________________________________________________________ Figura 2.- Sistema SIMD. Fuente: Organización de computadoras Andrew S. Tanenbaum ............16 Figura 3.- Sistemas MISD Fuente: Organización de computadoras Andrew S. Tanenbaum ............18 Figura 4.- Sistema MIMD Fuente: Organización de computadoras Andrew S. Tanenbaum. ...........19 Figura 5.- Sistemas UMA Fuente: Organización de computadoras Andrew S. Tanenbaum ............20 Figura 6.- Cluster Jerárquico Fuente: Organización de computadoras Andrew S. Tanenbaum.......21 Figura 7.- Sistema Coma. Fuente: Organización de computadoras Andrew S. Tanenbaum .............22 Figura 8.- Ejemplo de incremento de velocidad obtenido con la ley de Amdahl usando varios procesadores ............................................................................................................................................28 Figura 9.- Gráfico generado con Upshot donde expresa el nivel de computación, de comunicación y en espera para 8 procesadores................................................................................................................29 Figura 10.- La interconexión de red usando memoria de puertas múltiples . .....................................32 Figura 11.- Sistema de memoria compartida con un elemento de proceso con memoria local ..........32 Figura 12.- Esquema de un módulo de procesamiento.........................................................................33 Figura 13.- Interconexión a través de un bus común. ..........................................................................34 Figura 14.- Red Crossbar .......................................................................................................................34 Figura 15.- Comunicación entre procesadores usando una memoria de 4 puertos ............................35 Figura 16.- Red multietapa....................................................................................................................35 Figura 17.- Red Multietapa estrictamente no bloqueante.....................................................................36 Figura 18.- Red Multietapa estrictamente no bloqueante reconfigurable. ..........................................37 Figura 19.- Grafo de dependencia. Los arcos están rotulados con (Tk,Ck) ........................................40 Figura 20.- Arquitectura de Multiprocesador de memoria compartida. ..............................................43 Figura 21.- Comunicaciones en PVM. ..................................................................................................51 Figura 22.- Ejemplo del Proceso de Carga Remota ..............................................................................72 Figura 23.- Esquema de Hardware de un beowulf. ..............................................................................76 Figura 24.- Diagrama a bloques de un cluster tipo beowulf.................................................................76 Figura 25.- El nodo Integral. .................................................................................................................78 Figura 26.- Esquema principal de la máquina paralela propuesta......................................................79 Figura 27.- El modelo en hardware propuesto final de la máquina paralela......................................80 Figura 28.- Diagrama de flujo de la carga de los nodos integrales en el sistema operativo (parte 1) ..................................................................................................................................................................84 Figura 29.- Diagrama de flujo de la carga de los nodos integrales en el sistema operativo (parte 2). ..................................................................................................................................................................85 Figura 30.- Se muestra hasta el momento de como se establece la comunicación de los procesos en 18 la máquina paralela simulando un broadcast. ......................................................................................94 Figura 31.- Throughput para tamaño de sockets por default sobre TCP , donde (F)ast, (E)thernet, (B)onding, M(PICH), (G)igabit. ...........................................................................................................98 Figura 32.- Gráfico de saturación..........................................................................................................99 Figura 33.- Gráfico de firma ethernet..................................................................................................100 Figura 34.- Se muestra el tiempo de ejecución de los comandos de lectura rm -f, du -sk, ls -R, grep -r y find -name...........................................................................................................................................102 19 LISTA DE TABLAS DESCRIPCIÓN Página __________________________________________________________________ Tabla 1. Procesos y granularidad de la sincronización .......................................................................................................29 Tabla 2. - Muestra la relación entre la granularidad del algoritmo.......................................................................................31 Tabla 3. - Cadena para el ciclo representado. ........................................................................................................................40 Tabla 4. Segundo ciclo. ..........................................................................................................................................................41 Tabla 5. Tercer Ciclo..............................................................................................................................................................41 Tabla 7 .Relación entre factores de rendimiento y atributos del sistema ................................................................................56 Tabla I. Argumentos de funciones MPI. .................................................................................................................................. VI Tabla II. Correspondencia entre tipos de datos en MPI, Fortran y C. ..................................................................................VII 20 INTRODUCCIÓN Las súpercomputadoras son máquinas de gran tamaño físico que tienen la capacidad de realizar millones de operaciones por segundo, pero al igual que cualquier computadora, está limitada a hacer lo que se le ordene. Las órdenes que les damos a las computadoras son los programas. Los programas tradicionalmente le ordenan a la computadora que realice una secuencia de operaciones en un orden determinado, y no puede realizar una operación hasta haber terminado la anterior. Ejecutar un programa escrito con un enfoque tradicional en una súper computadora es un desperdicio, ya que un sólo programa no puede aprovechar la existencia de múltiples procesadores. Esto se debe a que la mayoría de los programas se desarrollan pensando que serán ejecutados en una computadora personal con un sólo procesador, tradicionalmente la secuencialidad de los programas y la estructura básica de los lenguajes de programación. Para aprovechar las capacidades multiprocesador de las supercomputadoras, es necesario dividir las tareas en bloques que puedan ser ejecutados simultáneamente. Esto es conocido como programación de multihilos(multithreads). Los hilos van a realizar distintas tareas necesarias en un programa. Por ejemplo una parte del programa (hilo) puede dedicarse a producir algún objeto y otra parte del programa puede dedicarse a consumir esos objetos. Para hacer que los programas funcionen de esta manera, se utilizan distintas técnicas que le indican a las máquinas cuales son las partes del programa que pueden ejecutarse simultáneamente. Para que exista la comunicación entre procesos por medio de paso de mensajes, existe un estándar llamado MPI (Message Passing Interface). Existen diferentes implementaciones de MPI, como por ejemplo MPICH, que es una implementación abierta de MPI. MPI permite la paralelización de programas tanto para máquinas con múltiples procesadores como para clusters. Las aplicaciones desarrolladas utilizando MPI pueden ser transportadas de una máquina paralela a un cluster sin que MPI cause algún tipo de conflicto. El súper cómputo tiene múltiples aplicaciones de carácter puramente científico, otras en la industria del entretenimiento, en el gobierno, y también dentro de las empresas. La computadora más poderosa del mundo es la BlueGene de IBM1 actualmente es utilizada para realizar análisis molecular, modelado económico, investigaciones en química y genética. Esta máquina se encuentra en Estados unidos y puede alcanzar un desempeño de hasta 183.5 TFLOPS. Una de las industrias que ha acercado más al súpercómputo al público en general, es la industria de los efectos especiales. Como un ejemplo, Pixar studios que utiliza computadoras Silicon Graphics y Sun para la realización de sus excelentes animaciones. A últimas fechas, Pixar también ha estado utilizando clusters Linux para el desarrollo de sus animaciones. Sin embargo la capacidad que da el súper cómputo es aplicado también a áreas como la medicina, la física, la química y muchísimas especialidades más. Con el fin de dar respuesta al propósito institucional antes mencionado y apoyar a la investigación en el IPN por medio de la oferta de una infraestructura de cómputo de alto rendimiento, surgió Marc1 (Máquina de esfuerzo final hecha en cluster), de este proyecto se genera esta tesis de titulación de la 1 Fuente: www.top500.org, lista de junio del 2005. 1 maestría en Informática de UPIICSA bajo el nombre de "Construcción de una máquina paralela para centros de investigación " y es respaldada por el CIDETEC bajo el proyecto "Construcción de una computadora paralela del TIPO cc-numa", proyecto que en la actualidad esta trabajando sin problemas y dando servicio a investigadores del instituto. Ahí se desarrollo un prototipo de una máquina paralela del tipo “cluster” con las siguientes características: - 8 nodos de cómputo interconectados por enlaces de 1000 Mb/s - 2 procesadores Pentium III operando a 1.2 GHz en cada nodo - 256 MB de RAM y disco duro de 80 GB por nodo - Sistema operativo LINUX (Mandrake 10.1 rc2) - Servicios de servidor http, ftp y telnet, accesibles por Internet Adicionalmente, se revisa y en su caso se desarrollan los programas necesarios para su funcionamiento y administración así como se adapta a los lenguajes de programación de “facto” para el área. Así entonces, esta tesis de grado busca el siguiente objetivo: a) Diseñar y construir una máquina de procesamiento paralelo utilizando material de cómputo en desuso, o viejo, en buenas condiciones. Para facilitar el logro de este objetivo general, se establecen metas parciales, desagregadas en tres objetivos específicos. 1.- Diseñar y construir un prototipo de una máquina paralela tipo cluster. 2.- Establecer y afinar la máquina paralela para su óptimo rendimiento. 3.- Adaptar el prototipo para que responda a los estándares de programación y que busque ser compatible a otros sistemas. El presente documento es la memoria de los trabajos desarrollados en cumplimiento de los objetivos señalados; en esta INTRODUCCIÓN, se da la información general del proyecto. En el capítulo ANTECEDENTES GENERALES, se delimita el marco de referencia en el que se desarrolla este trabajo partiendo de la situación actual, así como el entorno que tienen que presentar los investigadores y las alternativas que toman. En el capítulo PRINCIPIOS DE PROCESAMIENTO PARALELO, se delimita el marco teórico en el cual se basa el presente trabajo y bajo el cual se establecen las reglas para el diseño y la construcción, así como hago referencia a los procesos, características y entorno en los cuales son válidas esas condiciones teóricas y son clasificadas desde lo más general a lo más particular. En el capítulo CONSTRUCCIÓN DE LA MÁQUINA PARALELA, que es el que 2 contiene la descripción detallada del trabajo técnico y de desarrollo tecnológico, se contemplan cuatro partes: • Filosofía de Construcción, incluye que es lo que se quiere llegar a hacer y por que debe de construirse. • Aspectos de Hardware, que comprende todo lo relacionado al diseño de los elementos que permitirán la construcción y el alto desempeño. • Aspectos del Software, comprenden la elección correcta del sistema operativo, los programas y servicios que deberá de tener la máquina para responder con alto desempeño. • Procesos de ensamble, incluyen los comentarios propios del diseño, así como el desarrollo, ensamble, problemas y pruebas realizadas a la máquina paralela Al final se integran las CONCLUSIONES Y RECOMENDACIONES. Adicionalmente, incluye también un GLOSARIO DE TÉRMINOS y la BIBLIOGRAFÍA utilizada en el trabajo junto con un apartado de ANEXOS que incluye algunos datos técnicos referentes a los tipos de conexión y aspectos básicos de las pruebas y de programación. 3 CAPÍTULO 1. ANTECEDENTES GENERALES En México, la educación en general y la investigación se encuentran definidas en sus características por la dinámica de la estructura socioeconómica de nuestro país en la que se insertan tales actividades. De esta forma se asigna a la investigación los recursos económicos sobre la base de un presupuesto fijo. Los subejercicios en el gasto público y los recortes a los presupuestos federales dañan a organismos como el Instituto Politécnico Nacional, que carecen del margen de maniobra que tienen las universidades autónomas y que dependen de las políticas del gobierno federal. Por otro lado, la interrelación que existe entre educación e investigación es esencial para la comprensión de la práctica de la investigación. La evolución de los distintos paradigmas que alumbran el camino de la investigación en las diferentes ramas de la ciencia constituye, desde luego, otro referente vital en la comprensión de los logros y obstáculos que cada ciencia particular enfrenta en su desarrollo, así como atender a las características del individuo cuyas capacidades se construyen histórica y genéticamente. Estas características actúan a su vez en la práctica de la investigación impulsándola o frenando su desarrollo. Es decir, para una comprensión cabal de la práctica de investigación es necesario engarzar dialécticamente los procesos macro y micro que la determinan. La comprensión cabal de la actividad de investigación que requiere desde luego incorporar el planteamiento general arriba señalado y extraer en cada situación histórica la interrelación con otros ámbitos como el político, el cultural y el económico. El discernimiento de las interrelaciones complejas que históricamente se van construyendo entre los diferentes ámbitos y factores mencionados constituye un ejercicio de difícil ejecución, necesario sin embargo para entender la dinámica de la actividad de investigación en nuestro país. El acercamiento a este conocimiento integral permitirá entender las particularidades de la investigación en el ámbito urbano y regional. A partir de esta conceptualización se desarrollan las siguientes reflexiones, cuyo objetivo terminal es la comprensión de los problemas y exigencias que se presentan en el proceso de investigación de la problemática arquitectónica, urbana y regional. En México la preocupación central de obtener el desarrollo económico y la industrialización que en general ha caracterizado las diferentes estrategias de desarrollo implementadas desde la instauración del grupo hegemónico, surgido de la revolución, en el poder, no ha traído, como ocurrió en los orígenes de la industrialización, un desarrollo acelerado de la ciencia. Este aspecto es determinado por las condiciones estructurales de dependencia y subdesarrollo en que se mueve nuestro país, situación aún prevaleciente pese a los reiterados discursos que nos tratan de ubicar como un país desarrollado. Tal situación estructural se ha traducido en el ámbito científico y técnico en un proceso permanente de transferencia, generalmente mecánica, de los adelantos técnicos y científicos logrados en otros países y que la industrialización de nuestro país requiere para su fortalecimiento. Las consecuencias de esta transferencia, tradicionalmente denunciadas por académicos e investigadores desde diversas disciplinas y enfoques, han sido puntualizadas actualmente a la luz de la perspectiva del desarrollo sustentable. La corriente de pensamiento del desarrollo sustentable incorpora una nueva concepción del desarrollo basada en tres planteamientos centrales: que se oriente a la satisfacción de las necesidades 4 sociales, empezando por la eliminación de la miseria; que sea autógeno e independiente, esto es, basado en las propias fuerzas de la sociedad que lo emprende, y que esté en armonía con el medio ambiente. Esta corriente ha construido sus planteamientos a partir de una crítica permanente a las consecuencias de la transferencia tecnológica derivadas de una concepción de desarrollo tradicional, basado en la maximización de las ganancias y el excedente económico. Son recurrentes los señalamientos en torno a la expoliación de nuestros recursos, el deterioro del medio ambiente, la crisis de energéticos y alimentos, la destrucción de la cultura local de las comunidades, etc. La aplicación de tecnología que bajo esta concepción tradicional de desarrollo se efectúa en nuestro país, tiene pautas que van desde la transferencia de los rezagos tecnológicos que, por ejemplo, en el campo han tenido resultados atroces para la agricultura, suelos, agua y aire, con la utilización de sustancias y métodos de fumigación ya desechados en los países que los exportan, hasta la utilización de ciertas técnicas por parte del Estado mismo en la implementación de sus planes globales. La aplicación de técnicas inadecuadas para resolver cualquier tipo de problemática en nuestro país llega incluso a la transferencia de los técnicos mismos, como puede constatarse actualmente en la elaboración de planes y programas de desarrollo. El patrón de distribución de la inversión pública federal se mantiene sin alteraciones fundamentales para años más recientes. En este caso se encuentra especificada la asignación al sector educativo que recibe en general montos mucho menores que los destinados a los dos sectores priorizados: industria y comunicaciones y transportes. Destacan ligeros incrementos en dos momentos, el primero al iniciar su administración Echeverría Álvarez, y el otro a inicios del sexenio de López Portillo. La atención a la ciencia, la educación y el arte queda por lo tanto relegada en la medida en que no impactan de inmediato el proceso de desarrollo que, a juicio de sus dirigentes, requiere el país. Esta situación se ha agravado con el recorte del presupuesto en materia social que la implementación del modelo neoliberal ha establecido como base para salir de la crisis. La escasez de recursos tanto en el ámbito científico como en la educación en general alimenta la existencia de condiciones precarias que se combinan con el escaso desarrollo alcanzado en ambos campos, configurando al parecer un círculo vicioso de precariedad. La estructura educativa en general se orienta a la formación de individuos capacitados técnicamente para incorporarse a las actividades productivas, en cualquiera de sus niveles, por lo que prevalece la debilidad o franca ausencia de espacios para la adquisición de conocimientos acerca del proceso de la investigación. Los resultados: un nulo o precario conocimiento teórico y metodológico tanto de parte de los egresados del nivel de licenciatura de las diversas disciplinas como de los propios profesores. La abundancia de trabajos que difícilmente podrían considerarse tesis, es una muestra de las deficiencias señaladas. El descuido de la investigación como función relevante de la educación, en México se explica además por las propias características de la actividad que requiere para su realización de una preparación que sólo se adquiere a través de largos procesos de formación teórica y de práctica de la investigación; además de otras cualidades más escasas aún como son la imaginación, la creatividad, la disciplina, la perseverancia. En tales condiciones la investigación que se realiza en nuestro país, por los pocos individuos comprometidos en una actividad de poca redistribución económica, presenta como rasgos endémicos: la 5 dispersión, el individualismo y la factura artesanal. Tales rasgos no se presentan desde luego de la misma manera y con la misma intensidad. La parcelación de la ciencia actúa en ello en razón de dos factores: El primero, recurrentemente señalado, es la forma cerrada de pensamiento que nos ha heredado la división de la ciencia en estancos del conocimiento. Sin dejar de reconocer el papel de este fenómeno en un momento histórico en la aceleración del desarrollo científico, podemos afirmar que actualmente sólo reproduce la fragmentación y el aislamiento en que se mueven los investigadores. Un segundo factor, derivado del primero, es la situación que guardan las ciencias sociales respecto a las naturales. Ambas se encuentran en la actualidad inmersa en un proceso de diversificación que resulta de mayor magnitud en las ciencias sociales, y que se expresa en la generación de subdivisiones menores con estructura y desarrollo diferentes. El desarrollo y características peculiares de cada disciplina científica marcan también a la investigación, de tal forma que en algunas los rasgos anotados son más acentuados que en otras. 1.1 Antecedentes Teóricos Básicos En el mercado de las empresas mundiales, existen grandes monopolios de software propietario los cuales cobran derechos de uso por una cantidad monetaria que en algunos casos es fija y se denomina licenciamiento” [ 2 ], esta práctica es muy utilizada actualmente en programas comerciales, tales como una hoja de cálculo, hasta programas de administración de recursos empresariales (ERP, por sus siglas en ingles). La ley de Copyright (Derechos de autor), concede a los productores de software el poder para elegir las reglas que se impondrán sobre su producto a todos los demás consumidores, cómo utilizarlo, con qué recursos, bajo que condiciones e inclusive bajo que fallas deberá de trabajar éste, esté o no de acuerdo. La bandera de la globalización y la alta tecnología han impuesto modas que distan de ser las más productivas y las mejores opciones que permitan explotar la tecnología de la información. Cuando los usuarios de los programas carecen de las libertades que definen al Software, este no podrá saber qué está haciendo, no pueden comprobar si hay puertas traseras, no pueden vigilar si sé está expuesto a posibles virus y gusanos, no se puede saber qué información personal está siendo manipulada. Y si este software está mal, no se podrá reparar y se tendrá que esperar a que el productor ejerza su poder para hacerlo. Las discusiones sobre derechos y reglas para el software a menudo se han concentrado solamente en los intereses de los programadores, si consideramos que pocas personas en el mundo programan comercialmente y aún menos los que son dueños de empresas de software propietario. Y si consideramos que el mundo actual necesita utilizar software, entonces los productores de software controlan el modo en que el mundo trabaja, hace negocios, se comunica y se entretiene. Afortunadamente existen varias asociaciones mundiales que permiten que un usuario decida qué hacer con el software que se utiliza, un ejemplo de esto es el GNU. Este proyecto ha desarrollado un sistema completo de software libre llamado GNU (GNU Not Unix) que es compatible con Unix (surge con relación a un documento inicial de Richard Stallman al cuál se le llama 2 Esta práctica es muy común en el mundo del software propietario. 6 Manifiesto GNU), y ha sido traducido a otros idiomas. Se escogió como nombre "GNU" porque cumplía algunos requisitos; primero, era un acrónimo recursivo de "GNU No es Unix"; segundo, ya existía esa palabra en inglés donde Gnu significa Ñu, y tercero, porque era divertido decirla (o cantarla). Otra asociacion mundial es GPL(), cuya política principal es él darle al usuario el control del uso del software, al tiempo que lo protege de otros que quisieran controlar sus decisiones y manipular sus acciones. La palabra free "libre" se refiere a libertad de elección y no a su precio, en inglés se usa la misma palabra para libre y gratuito sin embargo no son la misma cosa, de manera que es posible pagar o no, un precio por obtener software GNU pero la diferencia radica en que una vez que se obtiene el software, se podrán ejercer tres libertades específicas para usarlo: a) Se tendrá la libertad de copiar el programa y distribuirlo. b) Se tendrá la libertad de modificar el programa como se desee, por tener acceso completo al código fuente y librerías c) Se tendrá la libertad de distribuir una versión mejorada ayudando así a construir la comunidad. Este proyecto fue concebido en 1983 como una forma de devolver el espíritu cooperativo que prevalecía en la comunidad computacional en días pasados, al eliminar los obstáculos impuestos por los dueños de software propietario. En 1971, cuando Richard Stallman[ 3 ] comenzó su carrera en el MIT (Instituto de Tecnología de Massachusetts), trabajó en un grupo que usaba software libre exclusivamente. Incluso compañías informáticas frecuentemente distribuían software libre. Los programadores eran libres de cooperar unos con otros, y frecuentemente lo hacían. En los 80, casi todo el software era propietario, lo cual significa que tenía dueños que prohibían e impedían la cooperación entre usuarios y surgieron grandes monopolios. Cada usuario de computadoras necesita para que su computadora funcione de un sistema operativo; si no existe éste entonces no es posible ni siquiera comenzar a usar una computadora sin recurrir a un software propietario. Así que el primer elemento en la agenda del software libre es un sistema operativo libre. Un sistema operativo no es sólo opcionalmente el núcleo; si no que también incluye compiladores, editores de texto, software de correo y muchas otras cosas. Por todo esto, escribir un sistema operativo completo es un trabajo bastante grande. Se necesitaron muchos años. Se decidió hacer el sistema operativo compatible con UNIX porque el diseño en general ya estaba probado y era portable, y porque la compatibilidad hacía fácil para los usuarios de UNIX cambiar de UNIX a GNU. El objetivo inicial de buscar un sistema operativo libre parecido al UNIX fue alcanzado para el inicio de los 90s y se tenían los componentes principales completos, excepto uno: el núcleo. Linux surgió entonces como un núcleo libre, desarrollado por Linus Torvalds. La combinación de Linux con el ya casi completo sistema GNU permitió un sistema operativo completo, actualmente se estima que hay cientos de miles de personas que ahora usan proyectos GNU basados en Linux, incluyendo Slackware, Debian, Red Hat y otros. 3Richard Matthew Stallman: nació el 16/marzo/1953 y es la figura central del movimiento del software libre, fundador del proyecto GNU y la fundación para el software libre. Inventor del concepto copyleft y precursor de la licencia GLP de GNU (General Public License). 7 Sin embargo, el proyecto GNU no se limita a sistemas operativos ya que se aplicó también a todo el amplio espectro de software incluyendo el software de aplicación, también proporciona software para usuarios que no son expertos en computadoras, además de ofrecer juegos y otras recreaciones. ¿Hasta dónde puede llegar el software libre? No hay límites, excepto cuando las leyes como el sistema de patentes prohíben el software libre completamente. El objetivo final es el de proporcionar software libre para hacer todos los trabajos que los usuarios de computadoras quieran hacer y por lo tanto hacer el software propietario obsoleto. 1.2 Posix (Portable Operating System Interface) Posix está formado por un conjunto de interfaces estándar de sistema operativo basadas en el sistema operativo UNIX y desarrolladas bajo la supervisión de la IEEE. [4]. La necesidad de tener un estándar en común es muy importante ya que las compañías que usaban computadoras querían ser capaces de desarrollar programas que pudieran ser transportados entre diferentes sistemas de cómputo de varias manufacturas o plataformas, sin tener que volver a reprogramar. UNIX fue seleccionado como la base para un sistema de una Interfase estándar en parte porque era neutral en cuanto a la manufactura y era necesario desarrollar un sistema de común denominador. Esto hace posible que al aprender un sistema operativo UNIX [5], cualquiera que este sea, permitirá utilizar cualquier otro sistema UNIX distinto, sin muchos problemas y únicamente se deberá de aprender las particularidades. La estructura del estándar de POSIX está definida por la palabra POSIX y un decimal a continuación del nombre, a continuación se muestran los más importantes: • POSIX.1 es el estándar para una Interfase de programa de aplicación en el lenguaje C. • POSIX.2 es el shell estándar y Interfase de utilidades (es decir, la Interfase de comandos del usuario con el SO). • POSIX.3 es el estándar para la Interfase de PERL apegada a la norma IEEE 1003.1 • POSIX.4 para la administración de hilos (threads). Recientemente, las interfaces POSIX.1 y POSIX.2 fueron incluidas dentro de una Interfase aún más grande conocida como X/Open Programming Guide 4.2, también conocida como la especificación UNIX Simple (Single UNIX Specification" y "UNIX 95"). El grupo de estándares abiertos, llamado en ingles “Open Group”, un grupo para 4 El IEEE (Institute of Electrical and Electronics Engineers), es una organización profesional técnica sin ánimo de lucro que incluye a más de 377,000 socios en 150 países. A través de sus socios el IEEE se ha convertido en una autoridad en varias áreas técnicas, desde ingeniería en informática hasta ingeniería en telecomunicaciones, pasando por otras como ingeniería biomédica o ingeniería eléctrica. Fuente http://www.ieee.org/. 5 Unix fue creado en los Laboratorios Bell de AT&T a comienzos de la década de 1970, el éxito del sistema operativo Unix ha dado lugar a una gran cantidad de versiones diferentes: los que recibieron el (en ese tiempo gratis) código del sistema Unix. Actualmente Unix® es marca registrada de X/Open. 8 estándares industriales y es el propietario de la marca registrada UNIX y puede por lo tanto, registrar sistemas operativos que formen parte o complementen mejoras a la Interfase de su sistema. El IBM OS/390 es un ejemplo de un sistema operativo que incluye una Interfase UNIX registrada. 1.3 El Sistema Operativo Linux Linux es una versión de UNIX libremente distribuible e independiente, para plataformas con máquinas x86, Motorola 68k, Digital Alpha, Sparc, Mips y Motorola Power PC. En la actualidad, este sistema operativo es utilizado por miles de usuarios para desarrollo de software, redes y para plataformas de usuarios finales. Entre los muchos sistemas operativos alternos que existen, se ha convertido en una opción interesante, independientemente de que estas vengan de UNIX o de las más conocidas donde se encuentra Windows y NT. Linux es una implantación de la especificación POSIX con la cual cumplen todas las verdaderas versiones de UNIX, el núcleo de Linux no usa código de AT&T o de cualquier otra fuente propietaria, la mayoría de los programas disponibles para Linux es desarrollado por el proyecto GNU de la Free Software Foundation. Este soporta un amplio espectro de aplicaciones o paquetes de programación tales como X Window, Emacs, redes de datos bajo protocolos TCP/IP (incluyendo SLIP, PPP, ISDN), está disponible en Internet en cientos de servidores FTP y el núcleo del Linux está legalmente protegido por la licencia pública GNU (GPL). Linux incluye compiladores, ensambladores, editores de texto, paquetes de correo electrónico, lectores de Noticias, navegadores, servidores y programas para la creación y edición gráfica, además maneja los archivos de forma jerárquica, de la misma forma que el sistema operativo DOS, con la diferencia que el DOS está diseñado para procesadores x86. Linux fue creado originalmente por Linus Benedict Torvalds [6] en la Universidad de Helsinki en Finlandia, sin embargo Linux ha sido desarrollado con la ayuda de muchos programadores a través de Internet, originalmente inició la creación del núcleo como su proyecto favorito, inspirado por su interés en MINIX, un pequeño sistema UNIX. El se propuso a crear lo que en sus propias palabras seria un mejor Minix que el Minix. El 5 de octubre de 1991, Linus anunció su primera versión "oficial" de Linux, la versión 0.02. Desde entonces, muchos programadores han respondido a su llamado, y han ayudado a construir Linux como el sistema operativo completamente funcional que es hoy. La última versión estable es la versión 2.2, que soporta muchos más periféricos, desde procesadores hasta joysticks, sintonizadores de televisión y reconoce buena cantidad de tarjetas de sonido. Incluye también soporte para tipos de archivos para Macintosh HFS, UNIX UFS y en modo de lectura, HPFS de OS/2 y NTFS, de NT. Linux como producto final presenta las siguientes ventajas [7]: 6 Torvalds consideró el crear un sistema operativo para usarlo en forma alterna en su computadora. Cuando él terminó su sistema, colocó un mensaje en la Internet para alertar a otros usuarios del nuevo sistema. El creo un software libre para que otros pudieran modificarlo este se llamo Linux. 7 Fuente: Linux Kernel 2.6: the Future of Embedded Computing, Aseem R. Deshpande, Linux journal 23 mayo de 2004 9 • • • • • • • • • • • • • • • Precio bajo en distribución completa de venta (aproximadamente 100 Dólares Americanos) o gratis por medio de Internet. Estabilidad Seguridad, es mucho más segura que otros servidores comerciales. Compatibilidad, reconoce la mayoría de los otros sistemas operativos en una red. Velocidad, es mucho más veloz para realizar las tareas. Posee el apoyo de miles de programadores en el ámbito Mundial. El paquete incluye el código fuente, lo que permite modificarlo de acuerdo a las necesidades del usuario. Ideal para la programación, ya que se puede programar en Linux para distintas plataformas, como para Windows. Un sistema escalable. Se puede usar en casi cualquier computadora, desde una computadora con tarjeta madre 386. Multitareas real. Puede manejar múltiples procesadores. Incluso hasta 16 procesadores. Maneja discos duros de hasta 16 TeraBytes. Los fabricantes de Hardware le están dando su apoyo, como IBM y COMPAQ. Vendedores y desarrolladores implementan un sistema de certificación para Linux. Sin embargo cuenta también con las siguientes desventajas: • • Linux no cuenta con una empresa que lo respalde, por lo que no existe un verdadero soporte como el de otros sistemas operativos. Linux corre el riesgo de llegar a fragmentarse como fue el caso de UNIX. Linux cuenta con las siguientes características técnicas • • • • • • • • Multitarea[8]:permite que varios programas o en su caso procesos reales puedan ejecutarse al mismo tiempo. Multiusuario: permite que varios usuarios estén utilizando la misma máquina al mismo tiempo. Multiplataforma: corre en muchas CPU’s distintas tal es el caso de Intel, Mac y Alpha. Bajo la plataforma Intel trabaja en modo protegido 386 [9]. Tiene protección de la memoria entre procesos, de manera que uno de ellos no pueda colgar el sistema. Permite la carga de ejecutables por demanda: La lectura del disco es sólo de aquellas partes de un programa que están siendo usadas actualmente. Permite la política de copia en escritura que permite compartir las páginas entre ejecutables: Varios procesos pueden usar la misma zona de memoria para ejecutarse y cuando alguno intenta escribir en esa memoria, la página (4Kb de memoria) se copia a otro lugar. Este método tiene dos beneficios: aumenta la velocidad y reduce el uso de memoria. Permite la memoria virtual usando paginación, lo cual involucra el no tener intercambio de procesos 8 Gracias a la multitarea, el rendimiento de las CPUs puede aumentar entre un 20 y un 25%. La multitarea tiene la misión de que la CPU realice varios trabajos simultáneamente vía hardware y no por simulación. 9 Dentro del modo protegido, el software puede realizar un cambio de tarea para entrar en tareas en modo 8086 virtual (V86 mode). Cada una de estas tareas se comporta como si fuera un 8086 el que lo está ejecutando, lo que permite ejecutar software de 8086 (un programa de aplicación o un sistema operativo). 10 • • • • • • • completos a disco: una partición o un archivo en el sistema de archivos, o ambos, con la posibilidad de añadir más áreas de intercambio sobre la marcha. Un total de 16 zonas de intercambio de 128Mb de tamaño máximo pueden ser usadas en un momento dado con un límite teórico de 2Gb para intercambio. La memoria se administra como un recurso unificado para los Programas del usuario y para él caché de disco, de tal forma que toda la memoria libre puede ser usada para él caché y éste puede a su vez ser reducido cuando se ejecuten grandes programas. Utiliza las librerías compartidas de carga dinámica [10] y librerías estáticas. Permite realizar los volcados del estado (core dumps) para posibilitar los análisis post-mortem, permitiendo el uso de depuradores sobre los programas no sólo en ejecución sino también tras abortar éstos por cualquier motivo. Es casi totalmente compatible con POSIX, System V y BSD a nivel fuente. Utiliza un módulo de emulación de iBCS2, casi completamente compatible con SCO, SVR3 y SVR4 a nivel binario. Permite la edición del código fuente, incluyendo el núcleo completo y todos los manejadores (drivers), las herramientas de desarrollo y todos los programas de usuario; además todo ello se puede distribuir libremente. Hay algunos programas comerciales que están siendo ofrecidos para Linux actualmente sin código fuente pero todo lo que ha sido gratuito sigue siendo gratuito. 1.4 El Paradigma Cliente Servidor Desde el punto de vista de una aplicación, el TCP/IP (Ver anexo A), al igual que muchos otros protocolos de comunicación, implementa un mecanismo fiable para la transmisión de datos entre computadoras. En concreto, el protocolo TCP/IP permite que un programador pueda establecer comunicación de datos entre dos programas de aplicación, tanto si ambos se están ejecutando en la misma máquina, como en máquinas distintas unidas por algún camino físico (una red local, conexión telefónica directa entre computadoras, computadoras conectadas a Internet, etc.). Hay que tener presente que el protocolo TCP/IP especifica los detalles y mecanismos para la transmisión de datos entre dos aplicaciones que se comunican pero no dictamina cuando ni por qué deben interactuar ambas aplicaciones, ni siquiera especifica como debería estar organizada una aplicación que se va a ejecutar en un entorno distribuido. Es tarea del diseñador de la aplicación distribuida el establecer un protocolo de comunicación y sincronización adecuado. El esquema de programación más utilizado en la práctica para la implementación de aplicaciones distribuidas es el paradigma cliente - servidor. La motivación fundamental para el empleo del paradigma cliente - servidor surge cuando se presentan dos situaciones: • Se hace referencia al mismo recurso y se presentan colisiones. 10 Un archivo DLL (sigla de Dynamic Link Library) es un pequeño programa que ejecuta alguna función. Estos archivos son muy útiles pero también suelen ser una causa de errores en Windows. Los archivos DLL ejecutan acciones o rutinas de uso frecuente en Windows, y un mismo archivo DLL puede ser usado por varios programas al mismo tiempo. 11 • Cuando se agotan los recursos físicos de un sistema. Para entender dichos problema, imaginemos un programador de computadoras que inicia la ejecución de dos programas en máquinas distintas y que tiene la intención de que dichos programas se puedan comunicar entre sí. Una vez iniciado el primer programa; éste envía un mensaje. La conexión con la máquina a la cual va dirigido el mensaje se puede establecer en un intervalo de unos pocos milisegundos, por lo que el proceso recién enviado determina que su destino todavía no existe, con lo cual emite un mensaje de error y finaliza su ejecución. Mientras tanto, el programador inicia la ejecución del segundo proceso. Desafortunadamente, el segundo proceso no se puede comunicar con el primero ya que éste ha concluido su ejecución. Incluso si los dos procesos intentan establecer la comunicación continuamente éstos pueden ejecutarse tan rápidamente que la probabilidad de colisión es muy alta. Muchos administradores hacen que ciertos programas de comunicaciones se inicien automáticamente cuando el sistema arranca, de este modo se aseguran que la computadora estará preparada para aceptar ciertas solicitudes de servicio. Después de iniciar su ejecución, cada uno de estos programas se queda en espera de la siguiente petición para el servicio que se espera dar. En el paradigma cliente - servidor se divide las aplicaciones en dos categorías, dependiendo de si la aplicación se queda en espera de conexiones o las inicia. En general, una aplicación que inicia una comunicación con otra se le califica como cliente. Los usuarios finales invocan aplicaciones cliente cuando utilizan un servicio de red. Cada vez que se ejecuta una aplicación cliente, ésta contacta con el servidor, le envía una solicitud de servicio y espera la respuesta o resultados del servicio. El proceso cliente es el encargado de llevar a cabo la interacción con el usuario y de mostrar los resultados de las peticiones de servicio. En la mayoría de las ocasiones los clientes son más fáciles de diseñar que los servidores, y no suelen precisar privilegios especiales del sistema para poder funcionar. Un servidor es un programa que espera peticiones de servicio por parte de un cliente. El servidor recibe la petición del cliente, ejecuta el servicio solicitado y retorna los resultados al cliente. No existe una interacción directa entre el usuario y el servidor, de esto ya se encarga la aplicación cliente. 1.5 Direcciones IP El concepto de números o direcciones IP se puede entender mejor si se establece una analogía entre las computadoras y teléfonos. Del mismo modo que cada teléfono posee un único número a nivel mundial, cada computadora conectada directamente a la red Internet tendrá asignado un único número IP a nivel mundial. Por lo tanto, cualquier computadora del planeta puede conectar con cualquier otra computadora, siempre y cuando conozca su número IP y, además, exista un camino físico (formado en líneas telefónicas conmutadas, enlaces vía satélite, líneas de fibra óptica, etc.) que una a ambas computadoras para que puedan intercambiar información. La comunicación entre computadoras se lleva a cabo mediante el intercambio de paquetes. La semántica de los conjuntos de bytes que recibe una computadora viene dictada por la aplicación a la cual van destinados. Los paquetes de información que se difunden a través de una red de computadoras son encaminados hacia un equipo o host concreto y dentro de dicho host a un puerto concreto. 12 Se puede pensar en un puerto como un canal de comunicación. Cada computadora dispone de un total de 65536 canales o puertos, los cuales pueden estar reservados o no estar activos. Para que un puerto esté activo es necesaria una aplicación que tome el control del mismo y sea capaz de administrar los paquetes de bytes que llegan por dicho puerto. Cuando un host recibe un paquete examina su cabecera o sección de información para averiguar a que puerto va destinado, si existe una aplicación escuchando dicho puerto, entonces se le pasan los bytes del paquete para que ésta los interprete y actúe consecuentemente. El host no responderá a peticiones de conexión encaminadas hacia un puerto para el cual no existe ninguna aplicación escuchando o esperando. Es decir, de los paquetes de bytes remitidos hacia una computadora en concreto, sólo se va a atender aquellos paquetes para los cuales existe una aplicación escuchando en el puerto al cual van encaminados. Existe una serie de puertos estándares utilizados universalmente para varios servicios. Algunos de ellos son: Servicio FTP Puerto 21 Telnet 23 SMTP POP3 25 110 HTTP 80 NNTP GOPHER 119 70 Descripción Protocolo de transferencia de archivos. Permite el acceso a una cuenta en un equipo remoto. Para enviar correo electrónico. Protocolo para obtener correo electrónico. Protocolo para publicación estándar en la Internet. Grupos de noticias de Internet Antiguo Servicio de acceso a información en modo texto. Los programas de los servidores deben contener código que maneje situaciones de: • • • • • Autenticación - Verificar la identidad del cliente. Autorización - Determinar si un cliente dado posee permisos para acceder al servicio que suministra. Seguridad de datos - Garantizar que la información no es revelada, de manera no intencionada, a clientes sin autorización. Privacidad - Preservar la información de un usuario de accesos no autorizados. Protección - Garantizar que las aplicaciones de red no puedan abusar de los recursos del sistema. La distinción entre servicios estándares y no-estándares es importante únicamente cuando la comunicación se lleva más allá del entorno local. Dentro de un entorno dado, los administradores del sistema suelen definir los nombres de servicio de tal modo que el usuario final no puede distinguir entre servicios locales y servicios estándares. Los programadores que construyen aplicaciones en red que 13 serán empleadas por otros lugares repartidos a lo largo de todo el planeta deben entender en cuenta la distinción y tener cuidado para evitar la dependencia sobre servicios que están únicamente disponibles en el entorno local. Aunque TCP/IP define muchos protocolos de aplicación estándares, la mayoría de los distribuidores de computadoras suministran solamente una parte de los programas cliente con su software TCP/IP. Muchas organizaciones diseñan aplicaciones personalizadas que emplean el protocolo TCP/IP para comunicarse entre sí. Las aplicaciones personalizadas no-estándares incluyen diversos servicios como puede ser la transmisión de imágenes y de vídeo para teleconferencia, transmisión de voz, todo tipo de servicios en línea, acceso a bases de datos distribuidas, control remoto de sistemas, etc. Cuando los programadores diseñan software cliente - servidor, deben de escoger entre dos tipos de interacción: orientada a conexión o no orientada a conexión. Si el cliente y el servidor utilizan UDP (User datagram Protocol), la iteración es sin conexión; por el contrario, si emplean TCP (Transfer Control Protocol), la iteración es orientada a conexión. Desde el punto de vista del programador de aplicaciones, la distinción entre el estilo sin conexión y orientado a conexión es crítica ya que determina el nivel de funcionalidad proporciona el sistema. TCP proporciona toda la funcionalidad necesaria para establecer una comunicación entre computadoras a través de Internet. Verifica que los datos lleguen al destinatario, y automáticamente retransmite paquetes que por cualquier motivo no llegan al destinatario o le llegan con errores. Comprueba la integridad de los datos para garantizar que no se corrompan durante su transmisión. Emplea secuencias de números para asegurar que los paquetes de datos llegan al destinatario en el orden correcto, los paquetes duplicados son eliminados automáticamente por el protocolo TCP. Proporciona un control de flujo para asegurar que el emisor no transmita datos más rápido de lo que pueden ser consumidos por el receptor. Finalmente, TCP informa tanto al cliente como al servidor si la red deja de estar operativa por algún motivo. Por contraste, los clientes y servidores que emplean UDP no tienen garantías de que la información enviada a la red vaya a llegar realmente a su destinatario. Cuando un cliente envía una petición, esta puede perderse, ser duplicada, retardada o los paquetes de datos pueden llegar al destinatario fuera de orden. Del mismo modo, la respuesta del servidor puede perderse, duplicarse, retardarse o llegar desordenada. Los programas de aplicación cliente - servidor deben llevar a cabo las acciones oportunas para detectar y corregir tales situaciones de error. Sin embargo, el empleo del protocolo UDP puede ser una alternativa interesante ya que permite un transporte de información más eficaz. UDP no introduce errores, únicamente se fundamenta en la red IP para transportar paquetes. Por el contrario, IP depende del hardware de red sobre el que se asienta y los gateways intermedios. Desde el punto de vista del programador, la consecuencia de emplear UDP es que este trabaja bien si la red sobre la que se asienta funciona bien. Por ejemplo, UDP funciona bien en un entorno local porque los posibles errores raramente se producen. Los errores se suelen producir cuando la comunicación se expande a una red de área extendida(WAN). Los programadores a veces cometen el error de elegir un protocolo sin conexión (UDP), construyendo una aplicación que hace uso del mismo, pero verificando el funcionamiento de la aplicación en una red de área local. Debido a que una red de área local raramente o nunca retrasa los paquetes, los pierde o los entrega fuera de orden, la aplicación da la sensación de que funciona correctamente. Sin embargo, si se hace una prueba en una red de área extensa, puede darse el caso de que el programa falle o genere resultados incorrectos. Los principiantes, del mismo modo que los profesionales experimentados, prefieren emplear una comunicación orientada a conexión a la hora de diseñar sus aplicaciones de red. Un 14 protocolo orientado a conexión hace que la programación resulte más simple, y releva al programador de la responsabilidad de detectar y corregir errores de comunicación. Por norma general, los programas de aplicación sólo utilizaran el UDP sí el protocolo de aplicación a implementar especifica que se debe de emplear el UDP (puede ser que el protocolo de aplicación haya sido diseñado para manejar errores que se puedan producir durante la comunicación).El protocolo de aplicación relega la seguridad de comunicación al hardware y no importa la pérdida de algunos paquetes de información. La aplicación no puede tolerar la sobrecarga (overhead) o retraso (delay) requerido por los circuitos virtuales TCP. 1.6 Taxonomía de arquitecturas 1.6.1 Clasificación de Flynn Esta clasificación es clásica para definir la arquitectura de las computadoras con base en su flujo de instrucciones y datos. Flynn publicó su taxonomía por primera vez en 1966. Se define como flujo de instrucciones al conjunto de instrucciones secuénciales que son ejecutadas por un único procesador y como flujo de datos al flujo secuencial de datos requeridos por el flujo de instrucciones. Con estas consideraciones, Flynn clasifica los sistemas en cuatro categorías: 1.6.2 Sistema único flujo de instrucciones sobre un único flujo de datos SISD (Single Instruction stream, Single Data stream) Los sistemas de SISD se caracterizan por tener un único flujo de instrucciones sobre un único flujo de datos, es decir, se ejecuta una instrucción detrás de otra. Este es el concepto de arquitectura serie de Von Neumann donde, en cualquier momento, sólo se ejecuta una única instrucción. Ver figura 1. Figura 1.- Sistema SISD. Fuente: Organización de computadoras Andrew S. Tanenbaum 15 1.6.3 Sistemas SIMD (Single Instruction stream, Multiple Data stream) Figura 2.- Sistema SIMD. Fuente: Organización de computadoras Andrew S. Tanenbaum Los sistemas SIMD tienen un único flujo de instrucciones que operan sobre múltiples flujos de datos. Ejemplos de estos sistemas los tenemos en las máquinas vectoriales con hardware escalar y vectorial (ver figura 2). El procesamiento es síncrono, la ejecución de las instrucciones sigue siendo secuencial como en el caso anterior, todos los elementos realizan una misma instrucción pero sobre una gran cantidad de datos. Por este motivo existirá concurrencia de operación, es decir, esta clasificación es el origen de la máquina paralela. El funcionamiento de este tipo de sistemas es el siguiente. La Unidad de Control manda una misma instrucción a todas las unidades de proceso (ALUs). Las unidades de proceso operan sobre datos diferentes pero con la misma instrucción recibida. Existen dos alternativas distintas que aparecen después de realizarse esta clasificación: • • Arquitectura Vectorial con segmentación: Una CPU única particionada en unidades funcionales independientes trabajando sobre flujos de datos concretos. Arquitectura Matricial (matriz de procesadores): Varias ALU idénticas a las que el procesador de instrucciones asigna una única instrucción pero trabajando sobre diferentes partes del programa. 1.6.4 SIMD con CPU particionada 16 En los sistemas SIMD con CPU particionada, la CPU se diseña como un conjunto de unidades funcionales independientes que ejecutan simultáneamente varias operaciones aritmético/lógicas. La CPU contiene un único procesador que procesa un único flujo de instrucciones liberando cada instante una. Debido a que las unidades funcionales operan independientemente, es posible liberar nuevas instrucciones antes de que finalice la ejecución de las instrucciones previas. Ejemplos de este tipo de sistemas los encontramos en las computadoras CRAY monoprocesador, CYBER 205, FUJITSU, HITACHI, NEC SUPERCOMPUTERS, IBM 390 VF, IBM 9000 VF, ALLIANT FX/1 Y CONVEX C-1. 1.6.5 SIMD con múltiples ALU En los sistemas SIMD con multiples ALU, es común en su funcionamiento utilizar el modo bloqueado, donde es ejecutada o ignorada una misma instrucción para todas las ALU. Existe un único procesador que maneja el flujo de instrucciones del programa y que transfiere todas las instrucciones a las diferentes unidades aritmético/lógicas. Sus características principales son las siguientes: • Cada ALU opera sobre un segmento diferente de datos del programa. Ejemplo de funcionamiento del sistema con el siguiente bucle: DO 2000 I=1,N A(I) = B(I) + C(I) 2000 CONTINUE • El procesador asigna a cada ALU la operación de suma de B(I) con C(I) y siendo el almacenamiento del resultado en A(I) pero pasando a cada ALU un valor diferente de I. En el caso de que haya menos ALU que iteraciones del bucle, el procesador ordenará la ejecución hasta que estén procesados todos los valores de I. En el caso de que haya más ALU que iteraciones, existirá un número de estas que no estén operativas durante la ejecución de las instrucciones del bucle. Una ALU inactiva o en OFF significa que: • La ALU recibe instrucciones pero las ignora • La ALU ejecuta cálculos pero no almacena ningún resultado. 17 1.6.6 Sistemas MISD (Multiple Instruction stream, Single Data stream). Sistemas con múltiples instrucciones que operan sobre un único flujo de datos. Este tipo de sistemas no ha tenido implementación hasta hace poco tiempo. En la figura 3 se muestra este sistema. Figura 3.- Sistemas Organización de computadoras Andrew S. Tanenbaum MISD Fuente: Los sistemas MISD se contemplan de dos maneras distintas: 1. Varias instrucciones operando simultáneamente sobre un único dato. 2. Varias instrucciones operando sobre un dato que se va convirtiendo en un resultado que será la entrada para la siguiente etapa. Se trabaja de forma segmentada, todas las unidades de proceso pueden trabajar de forma concurrente. Ejemplos de estos tipos de sistemas son los arreglos sistólicos o arreglos de procesadores. También podemos encontrar aplicaciones de redes neuronales en máquinas masivamente paralelas. 1.6.7 Sistemas con un flujo de múltiples instrucciones que operan sobre múltiples datos MIMD (Multiple Instruction stream, Multiple Data stream) Los sistemas con un flujo de múltiples instrucciones que operan sobre múltiples datos, empezaron a utilizarse a principios de los 80 y consiste en sistemas con memoria compartida que permiten ejecutar varios procesos simultáneamente (sistema multiprocesador).Ver figura 4. Cuando las unidades de proceso reciben datos de una memoria no compartida estos sistemas reciben el nombre de MULTIPLE SISD (MSISD). En arquitecturas con varias unidades de control (MISD Y MIMD), existe otro nivel superior con una unidad de control que se encarga de controlar todas las unidades de control del sistema. 18 Figura 4.- Sistema MIMD Fuente: Organización de computadoras Andrew S. Tanenbaum. 1.7 Categorías de Computadoras Paralelas Clasificación moderna que hace alusión única y exclusivamente a los sistemas que tienen más de un procesador (Por ejemplo las máquinas paralelas). Existen dos tipos de sistemas teniendo en cuenta su acoplamiento. • Los sistemas fuertemente acoplados son aquellos en los que los procesadores dependen unos de otros. • Los sistemas débilmente acoplados son aquellos en los que existe poca interacción entre los diferentes procesadores que forman el sistema. Atendiendo a esta y a otras características, la clasificación moderna divide a los sistemas en dos tipos: • • Sistemas multiprocesador (fuertemente acoplados) Sistemas multicomputadora (débilmente acoplados). 1.7.1 Multiprocesadores Un multiprocesador puede verse como una computadora paralela compuesta por varios procesadores inter conectados que comparten un mismo sistema de memoria. Los sistemas multiprocesadores son arquitecturas MIMD con memoria compartida. Tienen un único espacio de direcciones para todos los procesadores y los mecanismos de comunicación se basan en el paso de mensajes desde el punto de vista del programador. Dado que los multiprocesadores comparten diferentes módulos de memoria, pudiendo acceder a un mismo módulo varios procesadores, a los multiprocesadores también se les llama sistemas de memoria compartida. Dependiendo de la forma en que los procesadores comparten la memoria, se clasifican en sistemas multiprocesador UMA, NUMA y COMA. 19 1.7.2 UMA (Uniform Memory Access) UMA se refiere como un sistema multiprocesador con acceso uniforme a la memoria. La memoria física es uniformemente compartida por todos los procesadores, esto quiere decir que todos los procesadores tienen el mismo tiempo de acceso a todas las palabras de la memoria. Cada procesador tiene su propia caché privada y también se comparten los periféricos. Ver figura 5. Figura 5.- Sistemas UMA Fuente: Organización de computadoras Andrew S. Tanenbaum Los multiprocesadores son sistemas fuertemente acoplados (tightly-coupled), dado el alto grado en que se comparten los recursos (hardware o software) y el alto nivel de interacción entre procesadores, lo que hace que un procesador dependa de lo que hace otro. El sistema de interconexión debe ser rápido y puede ser de uno de los siguientes tipos: • • • Bus común Red crossbar Red multietapa Este modelo es conveniente para aplicaciones de propósito general y de tiempo compartido por varios usuarios. Existen varias categorías de sistemas UMA de las cuales se mencionan las siguientes. • Sistema Simétrico: Cuando todos los procesadores tienen el mismo tiempo de acceso a todos los componentes del sistema (incluidos los periféricos), reciben el nombre de sistemas multiprocesador simétrico.Los procesadores tienen el mismo dominio (prioridad) sobre los periféricos y cada procesador tienen la misma capacidad para procesar. • Sistema Asimétrico: Los sistemas multiprocesador asimétrico, son sistemas con procesadores maestros y procesadores esclavos, en donde sólo los segundos pueden ejecutar aplicaciones y dónde en tiempo de acceso para diferentes procesadores no es el mismo. Los procesadores esclavos (attached) ejecutan código usuario bajo la supervisión del maestro, por lo tanto cuando una 20 aplicación es ejecutada en un procesador maestro dispondrá de una cierta prioridad. 1.7.3 Sistema de Multiprocesador NUMA (Non Uniform Memory Access) Un sistema multiprocesador NUMA es un sistema de memoria compartida donde el tiempo de acceso varía según donde se encuentre localizado el acceso. El acceso a memoria, por tanto, no es uniforme para diferentes procesadores. Existen memorias locales asociadas a cada procesador y estos pueden acceder a datos de su memoria local de una manera más rápida que a las memorias de otros procesadores, debido a que primero debe aceptarse dicho acceso por el procesador del que depende el módulo de memoria local. Todas las memorias locales conforman la memoria global compartida y físicamente distribuida y accesible por todos los procesadores. Figura 6.- Cluster Jerárquico Fuente: Organización de computadoras Andrew S. Tanenbaum Otro modelo NUMA que nace como la mezcla del modelo UMA explicado anteriormente y el modelo NUMA anterior, es el cluster jerárquico, ver figura 6, en el que se combinan las memorias locales y las globales obteniendo una cierta escalabilidad del sistema. Los procesadores aparecen distribuidos en clusters (1 sistema UMA o un 1 sistema NUMA). Estos clusters están conectados a la memoria global compartida. El sistema en su totalidad es un sistema NUMA, ya que el acceso a memoria es no uniforme por parte de los clusters. La ventaja de estos sistemas con respecto a los sistemas UMA, es que el acceso a memoria local es mucho más rápido. 1.7.4 Sistema COMA (Cache Only Memory Access) Los sistemas COMA son un caso especial de los sistemas NUMA. Este tipo de sistemas 21 no ha tenido mucha trascendencia, al igual que los sistemas SIMD. Las memorias distribuidas son memorias caches, por este motivo es un sistema muy restringido en cuanto a la capacidad de memoria global. No hay jerarquía de memoria en cada módulo procesador. Todas las caches forman un mismo espacio global de direcciones. El acceso a las caches remotas se realiza a través de los directorios distribuidos de las caches. Ver figura 7. Figura 7.- Sistema Coma. Fuente: Organización de computadoras Andrew S. Tanenbaum Dependiendo de la red de interconexión utilizada, se pueden utilizar jerarquías en los directorios para ayudar a la localización de copias de bloques de caché. 1.7.5 Multicomputadoras Los sistemas llamados multicomputadoras se pueden ver como una computadora paralela en el cual cada procesador tiene su propia memoria local. En estos sistemas la memoria se encuentra distribuida y no compartida como en los sistemas multiprocesador. Las computadoras se comunican a través de paso de mensajes, ya que éstos sólo tienen acceso directo a su memoria local y no a las memorias del resto de procesadores. El diagrama de bloques de un sistema de multi computadora que coincide con el visto para los sistemas UMA, la diferencia viene dada porque la red de interconexión no permite un acceso directo entre memorias, sino que la comunicación se realiza por paso de mensajes. La transferencia de los datos se realiza a través de la red de interconexión que conecta un subconjunto de procesadores con otro subconjunto. La transferencia de unos procesadores a otros se realiza por tanto por múltiples transferencias entre procesadores conectados dependiendo del establecimiento de dicha red. Dado que la memoria está distribuida entre los diferentes elementos de proceso, estos sistemas reciben el nombre de distribuidos. Por otra parte, estos sistemas son débilmente acoplados, ya que los módulos funcionan de forma casi independiente unos de otros. CAPÍTULO 2. PRINCIPIOS DEL PROCESAMIENTO EN PARALELO Las súpercomputadoras son herramientas para la creación y el desarrollo de simulaciones y 22 modelos de estados y procesos. Los usos y el aprovechamiento del rendimiento de estas potentes herramientas dependen fundamentalmente de la habilidad, la imaginación y esfuerzo de los investigadores. El uso de programas que explotan el diseño 3D por computadora de una gran variedad de sistemas físicos ha alcanzado el punto donde la realidad puede ahora ser simulada con un alto grado de fiabilidad. (Ver anexo 2). Los modelos físicos de sistemas reales, ya sea la atmósfera, la turbulencia, el caos, la combustión en sistemas químicos, mecánicos, los vehículos automotores y aerospaciales, las máquinas, las moléculas de proteínas, los procesos industriales o económicos, etcétera., pueden ser suficientemente detallados para utilizarse para predicciones verídicas. De esta manera la computación avanzada es más y más un instrumento para el desarrollo de la sociedad y para la competitividad industrial a todos los niveles, y no está limitada a un sector industrial específico. El impacto en la sociedad de las súpercomputadoras no está limitado a sus beneficios en la industria, el comercio y los servicios. Incluye al estudio de la propagación de enfermedades, el reconocimiento y traducción de lenguajes naturales, los cambios globales de clima o la compleja dinámica de los sistemas económicos. Es bien conocido que los principales problemas que afectan a nuestra sociedad son de naturaleza mundial y necesitan estudiarse y resolverse a esta escala. En muchos casos, la ausencia de datos completos, como los referentes a la atmósfera y la biosfera, o a la población mundial, hace que se desarrollen criterios subjetivos para realizar predicciones. Esto requiere la comprensión de sistemas muy complejos, cuyo comportamiento solamente puede ser totalmente asimilado y predecible con más precisión por medio de una modelización detallada empleando computadoras de altas capacidades. Si el siglo XIX marcó el comienzo de la era moderna con la Revolución Industrial, ahora nos encontramos inmersos en otra revolución, la denominada revolución del conocimiento, que se centra en las denominadas tecnologías de la información. La máquina de vapor de entonces es “sustituida” por la computadora. El nombre de James Watt deja paso a otros como Charles Babbage, John von Neumann (considerado el padre de las computadoras modernas), Seymour Cray (fundador de le empresa Cray y padre de las súpercomputadoras) o el controversial Bill Gates. En pocos años la computadora ha ganado rapidez, habilidad, capacidad de almacenamiento de información, interfaces más amigables para el usuario, precios más baratos, pero estos pequeños avances no son suficientes cuando se trata de realizar tareas de investigación, control y análisis, por el volumen y complejidad de la información a tratar. Subimos entonces al escalón más alto, a la informática de alto rendimiento, donde se encuentran las potentes súpercomputadoras. La evolución de las súpercomputadoras A principios de los años setenta, la aplicación predominante de la computadora era el procesamiento de datos administrativos. Los banqueros, los administradores de universidades y los ejecutivos publicitarios se sorprendían ante la velocidad sensacional con que las grandes computadoras de millones de dólares procesaban datos. Los ingenieros y científicos se mostraban agradecidos por este tremendo logro tecnológico, pero distaban de estar satisfechos. 23 Cuando los ejecutivos empresariales hablaban acerca de la capacidad ilimitada, los ingenieros y científicos sabían que deberían esperar avances futuros antes de que pudieran usar las computadoras para manejar problemas complicados. Los ingenieros automotores aún no podían construir prototipos tridimensionales de automóviles en una computadora. Los físicos no podían investigar las actividades de un átomo durante una explosión nuclear. Las comunidades de ingenieros y científicos tenían una necesidad apremiante de computadoras más potentes. En respuesta a esa necesidad, los diseñadores de computadoras empezaron a trabajar en lo que ahora se conoce como súpercomputadoras. Fundamentalmente, las súpercomputadoras manejan aplicaciones del tipo limitado al procesador. Las aplicaciones limitadas a procesador, que son útiles para los ingenieros y científicos, requieren relativamente poco en lo que se refiere a entrada o salida. En las aplicaciones limitadas al procesador; la cantidad de trabajo que el sistema de computación puede realizar está limitada principalmente por la arquitectura de la computadora. Una tarea científica involucra el manejo de un modelo matemático complejo que, a menudo, requiere para su resolución de billones de operaciones. A principios de la década de 1970, algunos de los trabajos científicos complejos de tipo limitado a procesador ocupaban durante días las grandes computadoras de las universidades más importantes. Por lo contrario, las macrocomputadoras, se orientan a aplicaciones limitadas de entradas y salidas; es decir, la cantidad de trabajo que el sistema de computación puede realizar está limitada principalmente por la velocidad de los dispositivos de entrada y salida. Las supercomputadoras también utilizan técnicas especiales para evitar el calor en los circuitos y prevenir que se quemen debido a su proximidad. El conjunto de instrucciones de las supercomputadoras contiene las instrucciones de transferencias de datos, manipulación de datos y transferencia de control del programa de las computadoras convencionales. Esto se aumenta mediante instrucciones que procesan valores y combinaciones de escalares y vectores. Una súper computadora es un sistema de computación que se reconoce por su alta velocidad de cálculo, sus sistemas de memoria grandes y rápidos y un uso amplio de procesamiento paralelo. Está equipada con unidades funcionales múltiples y cada unidad tiene su propia configuración de arquitectura paralela. Aunque la súper computadora maneja aplicaciones de propósito general que se encuentran en todas las otras computadoras, está optimizada específicamente para el tipo de cálculos numéricos que involucran vectores y matrices de números de punto flotante. Las supercomputadoras no son convenientes para procesamiento cotidiano normal de una instalación de computadora típica. La parámetro mas común es la velocidad de una supercomputadora, ésta se mide sobre la base de la cantidad de operaciones matemáticas que hace por segundo. El término técnico para esta velocidad es FLOPS. Una de las primeras tareas asignadas a la computadora de los años cuarenta, la ENIAC, no fue para un uso muy humano, ya que se utilizó en los cálculos de diseño de la primera bomba atómica (Proyecto Manhattan), en concreto, para calcular las ondas de choque de 24 las explosiones de prueba. Sin la rapidez y la capacidad de cálculo de las computadoras, algunas disciplinas se habrían quedado en sus planteamientos teóricos, tal es el caso de la física de alta energía. Hay experimentos en el CERN que hacen colisionar electrones y positrones y que producen tal cantidad de información que sin la ayuda de una súper computadora que sepa discriminar entre todos los sucesos no se habría podido comprobar experimentalmente las ideas teóricas. En la investigación espacial, la utilización de computadoras se convirtió en esencial. La nave Voyager 2, que fue lanzada el 20 de agosto de 1977 con la misión para explorar los planetas exteriores al sistema solar, iba equipada con seis computadoras diferentes, con capacidad de 540 Megas, algo portentoso para la época. Hoy en día, la existencia de las supercomputadoras que, naturalmente, trabajen en tiempo real, se ha convertido en una necesidad. Por ejemplo, son imprescindibles en las industrias del automóvil y la aeronáutica. En este caso los estudios de aerodinámica son una pieza fundamental para optimizar la forma del fuselaje o de las alas. También se emplea en simulación de vuelos para el entrenamiento de los pilotos, etc. El análisis de la estructura del avión Boeing 777 se realizó completamente por una supercomputadora y también el diseño del avión invisible F-117. Otras aplicaciones son el diseño de nuevos productos farmacéuticos, componentes electrónicos, simulación de terremotos, estudio de la evolución de la contaminación en áreas extensas, predicción meteorológica y estudios del cambio climático o simulación de órganos corporales con el objetivo de reproducir su funcionamiento con representaciones en 3D de alta precisión a partir de métodos de resonancia magnética. De esta forma, llamaremos computación paralela a las técnicas que descomponen un problema en subtareas y partes de estas tareas que pueden ser procesadas en diferentes máquinas o elementos de proceso al mismo tiempo. En la metáfora del cerebro como computadora, puede ser válido imaginar cierta similitud entre dicho órgano y la computadora. 2.1. La conjetura de Minsky En cualquier sistema paralelo existe una norma aceptada para medir el incremento de la velocidad (speedup) de una aplicación cuya aplicación cae entre dos límites: (ln2N) y (Nln2N), donde N está definido por el número de procesadores. La primera de ellas, es conocida como la conjetura de Minsky, y la otra se ha considerado un límite superior general para las curvas maximas del incremento de la velocidad. Es necesario establecer la aplicación en paralelo que deseamos medir, es necesario conocer que en su calculo aparecerán componentes seriales y paralelos de diversa complejidad. La complejidad que nos estamos refiriendo aquí es la medida algorítmica de la variación del tiempo de ejecución del programa en función del tamaño de los datos y del número de procesadores. Los componentes seriales pueden tener una complejidad, por ejemplo, de O (N2), donde N determina el tamaño del problema. Este componente serial tomará muy probablemente la misma cantidad de tiempo cuando está funcionado en un procesador o en varios de ellos. En relación a los componentes en paralelo, sin embargo, esto será una historia diferente, ya que al asumir que un procesador opera pedazos de N datos consumiendo un tiempo proporcional a O(N3), pero cuando los mismos pedazos de N datos se procesan en una red del N-procesadores, la complejidad es O (N2) , la cual es factible en su recostrcción práctica. 25 Es posible entonces encontrar una relación que muestre el grado de incremento de velocidad, la siguiente formula muestra esta relación: Speedup = O(N)+ O(N³) O(N) O(N)+ O(N²) Lo anterior determina que un programa serial se encuentra compuesto por un componente serial y una serie de componentes en paralelo formados en tantos pedazos como numero de procesadores existentes por lo que su complejidad sera mayor. La complejidad del componente en paralelo disminuye, cuando los procesos están ejecutandose en una máquina paralela, por lo que algoritmo paralelo divide el tamaño de los datos procesados entre el número de procesadores y el componente serial se puede hacer insignificante en la ecuación del incremento de velocidad. Lo anterior nos indica que si existen algoritmos eficientes para procesar grandes cantidades de datos, entonces él vale la pena construir computadoras más grandes que puedan tratar problemas grandes, porque como aumentamos el tamaño de los datos y el tamaño de la máquina, podemos esperar que el speedup aumente. 2.2. Ley De Amdahl. Esta ley es utilizada para poder evaluar el rendimiento de una computadora por medio de la evaluación de sus tareas con base en sus tiempos de computación, de espera o inactividad y la latencia de la red. En cualquier programa paralelizado existen dos tipos de código: el código paralelizado y el código secuencial. Como es sabido existen ciertas secciones de código que ya sea por dependencias, por acceso a recursos únicos o por requerimientos del problema no pueden ser paralelizadas. Estas secciones conforman el código secuencial, que debe ser ejecutado por un solo elemento procesador. Es pues lógico afirmar que la mejora de rendimiento (R) de un programa dependerá completamente de: El tiempo en el que se ejecuta el código serie. El tiempo en el que se ejecuta el código paralelizable. 26 Donde Rh representa el rendimiento mas Alto de un proceso y RL el rendimiento mas bajo. Esto genera la siguiente ecuación: Esta es la llamada ley de Amdahl y fue descrita por Gene Amdahl en 1967. Las implicaciones que trae esta ecuación son, a pesar de que no tenga en cuenta las características de cada sistema en concreto: A) El rendimiento no depende completamente del número de procesadores que posea el sistema: en la mayoría de los casos dependerá del número de procesadores máximo que se aprovecharán simultáneamente para ejecutar un programa. B) Cuanto mejor paralelizado esté un programa más susceptible será de aumentar su velocidad y por tanto explotar el rendimiento del sistema paralelo que lo ejecute. Supongamos ahora que tenemos un programa que inicialmente no hemos paralelizado, cuyos tiempos de ejecución son 12% y 88%, en serie y en paralelo respectivamente (observe la figura 8) 27 Figura 8.- Ejemplo de incremento de velocidad obtenido con la ley de Amdahl usando varios procesadores Como se puede ver en la figura anterior, la parte no paralelizable del código impide que se pueda escalar de forma lineal, llegará un momento que añadir nuevos procesadores no añadirá una ventaja real al sistema, porque todo lo que estará en ejecución será código secuencial. Por lo tanto para maximizar el aprovechamiento de los sistemas paralelos debe tenerse mucho cuidado con la forma de paralelizar las aplicaciones: cuanto más código secuencial tengan, más problemas de escalabilidad. En relación al tiempo de ejecución de una tarea dentro de una máquina paralela el tiempo de ejecución total de nuestro programa viene dado por Donde Tcomp = Tiempo de computación Tcomm = Tiempo de comunicaciones Tidle= Tiempo de espera o inactivo P=Numero de procesadores Como el procesamiento de cada tarea, en la maquina paralela, es muy rapido, generalmente en el orden de los milisegundos o microsegundos, es necesario recurrir a herramientas graficas que analizen el proceso al ejecutarse, en el caso de mpich, éste cuenta con aplicaciones como el upshot que genera los siguientes gráficos, obsérvese la figura 9. 28 Figura 9.- Gráfico generado con Upshot donde expresa el nivel de computación, de comunicación y en espera para 8 procesadores 2.3. Granularidad La granularidad de sincronización, o frecuencia, entre procesos en el sistema, es una buena manera de caracterizar multiprocesadores y ubicarlos en un contexto con otras arquitecturas. Se pueden distinguir cinco categorías de paralelismo que difieren en el grado de granularidad. Estas categorías se encuentran listadas en la Tabla 1. Tamaño del Grano Fino Medio Descripción Paralelismo inherente en el único flujo de instrucciones Procesamiento paralelo o multitarea dentro de una aplicación individual Grueso Multiprocesamiento de procesos concurrentes en un entorno multiprogramado Muy Grueso Proceso distribuido por los nodos de una red para formar un entorno de computación Independiente Varios procesos no relacionados Tabla 1. Procesos y granularidad de la sincronización Intervalo de sincronizaciones de instrucciones con base en el numero de procesos <20 20-200 200-2000 2000 – 1 000000 No aplica 29 2.3.1 Paralelismo de grano fino El paralelismo de grado fino representa un uso mucho más complejo del paralelismo que es encontrado en el uso de hilos. Aunque muchos trabajos han sido hechos en aplicaciones altamente paralelas, es un área especializada y fragmentada, con muchos enfoques diferentes. 2.3.2 El paralelismo de grano medio En el paralelismote grano medio , una aplicación puede ser efectivamente implementada como una colección de hilos con un paralelismo simple. En este caso, el paralelismo potencial de una aplicación debe ser explícitamente especificado por el programador. Generalmente se necesitará un alto grado de coordinación e interacción entre los hilos de una aplicación, llevando a un nivel medio de sincronización. 2.3.3 Paralelismo de grano grueso y muy grueso En el paralelismo de grano grueso, existe sincronización entre procesos pero a nivel muy grotesco. Esta clase de situación es fácilmente entendible como un grupo de procesos concurrentes ejecutándose en un monoprocesador multiprogramado y puede ser soportado en un multiprocesador con un pequeño o no cambio al software del usuario. En general, cualquier conjunto de procesos concurrentes que necesiten comunicarse o sincronizarse puede aprovechar el uso de las arquitecturas de los multiprocesadores. Un sistema distribuido puede ofrecer un soporte adecuado en caso de interacciones poco frecuentes entre los procesos. Sin embargo, si la interacción es algo más frecuente, la sobrecarga de comunicaciones a través de la red puede anular parte de la posible aceleración. En este caso, la organización del multiprocesador ofrece el soporte más efectivo. 2.3.4 Paralelismo independiente Entre los procesos de paralelismo independiente, no existe una sincronización explícita. Cada uno representa una separación, una aplicación independiente. El uso típico de este tipo de paralelismo es en los sistemas de tiempo compartido. Cada usuario está ejecutando una aplicación en particular, como un procesador de textos o una hoja de cálculo. El multiprocesador ofrece el mismo servicio que un procesador multiprogramado. Como hay más de un procesador disponible, el tiempo medio de respuesta a los usuarios será menor. Es posible alcanzar un aumento similar de rendimiento proporcionado a cada usuario una computadora personal o una estación de trabajo. Si van a compartirse archivos o alguna información, entonces se deben conectar los sistemas individuales en un sistema distribuido soportado por una red. Por otro lado, un único sistema multiprocesador ofrece, en muchos casos, un costo mejor que un sistema distribuido, pudiendo así mejorar los elementos físicos que lo conforman. 30 La tabla 2 muestra la relación entre la granularidad del algoritmo, el grado de acoplamiento del hardware y el modo de comunicación, y la diferencia entre procesamiento paralelo y distribuido. El procesamiento distribuido ocurre cuando los recursos de hardware cooperan pobremente en el proceso de un trabajo. Ejemplos de sistemas distribuidos son las redes de computadoras y algunas computadoras múltiples. Cuando los componentes de hardware cooperan fuertemente para procesar las tareas simultáneamente, estamos en presencia de un procesamiento paralelo. Nivel de trabajo Distribuido Nivel de tarea Nivel de proceso Nivel de instrucción Nivel de variable Nivel de bit Redes de computadoras Paso de mensajes Paralelo Multicomputadoras Memoria compartida Multiprocesadores Granularidad del algoritmo Grado de acoplamiento Modo de comunicación Tabla 2. - Muestra la relación entre la granularidad del algoritmo. Existe una diferencia importante entre multiprocesadores y computadoras múltiples. Una computadora múltiple consiste de varias computadoras, cada una de ellas conformadas por su propio procesador, memoria, dispositivos de entrada, salida y sistema operativo. Mientras que un sistema multiprocesador tiene un único sistema operativo y sus procesadores comparten la memoria y los dispositivos de entrada y salida. Existen dos grandes conjuntos de modelos de arquitecturas basadas en multiprocesadores: una está basada en una arquitectura de procesadores fuertemente acoplados y la otra en procesadores débilmente acoplados. Las diferencias entre ambas arquitecturas son las siguientes: en las estructuras fuertemente acopladas los procesadores se comunican a través de memoria central (lo que llamábamos memoria centralizada o compartida) por lo tanto la velocidad de comunicación estará acotada por el ancho de banda (bits/seg.) de la memoria. La interconexión puede realizarse a través de una red que comunique a los procesadores con la memoria o usando memoria de puertas múltiples. Ver figura 10. 31 Figura 10.- La interconexión de red usando memoria de puertas múltiples . Un factor que limita la expansión de estos sistemas está dado por la degradación de rendimiento global motivada por el aumento de colisiones al intentar acceder a la memoria cuando se aumenta el número de procesadores. Una alternativa que intenta mejorar este conflicto es proveer a cada procesador de una memoria de trabajo local mapeada en la memoria global de manera que la mayoría de los accesos a datos y código sean locales a cada procesador. Esto disminuye los conflictos causados por colisiones al acceder a la memoria global, pero aumenta el riesgo de pérdida de consistencia de datos replicados en más de una memoria local. Por otro lado están los sistemas débilmente acoplados, en los cuales los procesadores se comunican entre sí a través del uso de redes de comunicación mediante el paso de mensajes entre procesos (lo que llamábamos memoria distribuida). En este esquema cada procesador tiene su propio conjunto de puertas de entrada y de salida y su propia memoria local, formando entre los tres un módulo de procesamiento. De este modo, los procesos en distintos módulos de procesamiento pueden comunicarse entre sí mediante el intercambio de mensajes a través de un sistema de transferencia de mensajes (STM) Ver figura 11. Figura 11.- Sistema de memoria compartida con un elemento de proceso con memoria local 32 El factor determinante del grado de acoplamiento está dado por la topología del correspondiente sistema de transferencia de mensajes. En caso de colisión de dos o más procesadores al intentar acceder al bus de mensajes, el STM será el responsable de arbitrar el orden de los pedidos respondiendo a alguna disciplina de atención determinada. Esto determina que el STM deberá poseer una memoria de alta velocidad para almacenar los mensajes que le pase el procesador hasta que estos puedan ser enviados satisfactoriamente por la red. En este tipo de arquitecturas el rendimiento global de la computadora estará dado por la confiabilidad esperable del sistema de mensajes, el cual deberá proveer un vínculo de comunicación de alta velocidad y además garantizar un tiempo de espera mínimo para mensajes en caso de conflictos. El primero de los factores está íntimamente ligado al diseño propio del STM y a la tecnología electrónica utilizada, aunque algunos factores son deseables a la hora de implementar un STM real; como son el ancho de banda del canal de transferencia (bits/seg.) y la capacidad y velocidad de la memoria (buffer) de cada STM. El segundo factor está más relacionado con la distribución física de la red de intercomunicación, los casos más utilizados son los siguientes: a) Bus compartido.- Esta organización es la menos compleja y fácilmente reconfigurable. Los STM son pasivos y su función principal es la de arbitrar prioridades de acceso al recurso compartido (bus). En caso de colisiones los mecanismos de gestión determinarán el orden de atención de los mensajes colisionados. Algunos de estos mecanismos pueden ser colas tipo FIFO o encadenamiento, ver figura 12. bus de transferencia de mensajes Figura 12.- Esquema de un módulo de procesamiento. b) Desdoblamiento del bus de comunicación. Esta configuración alivia algunos de los problemas mencionados anteriormente, sin un apreciable incremento en la complejidad del sistema ni decremento en la confiabilidad del mismo. No obstante, una simple operación de transferencia, generalmente requiere el uso de los dos buses, por lo tanto no es mucho lo que se gana.Ver figura 13. 33 Figura 13.- Interconexión a través de un bus común. 2.4. Redes específicas 2.4.1 Red Crossbar La red crossbar mostrada en la figura 14 se utiliza comúnmente en sistemas de memoria compartida; genera accesos simultáneos no bloqueantes a memoria y comunicación entre unidades funcionales. El switch (S) para proveer un máximo de transferencias simultáneas en cada punto del conmutador debe ser capaz de cambiar las transmisiones en paralelo y resolver posibles conflictos entre requerimientos de las unidades funcionales. Este tipo de conexión se usa generalmente con pocos procesadores ya que el número de switches es proporcional a O(N2), siendo N el número de procesadores. M1 M2 M3 P1 S S S P2 S S S P2 S S S Figura 14.- Red Crossbar 34 2.4.2 Memorias Multipuerto La disponibilidad de memorias multipuerto hace posible la construcción de redes de interconexión en las cuales los procesadores se comunican a través de las memorias en lugar de buses. La única restricción es que los procesadores deben esperar en caso de acceder a la misma localidad de memoria, la cual es protegida a través de algún mecanismo de prioridades interno al sistema de memoria. La ventaja de este esquema es que los protocolos de comunicación entre unidades funcionales se reducen debido a que los datos pueden almacenarse temporalmente en la memoria ver figura 15. Figura 15.- Comunicación entre procesadores usando una memoria de 4 puertos Las redes multietapa son las más indicadas para la interconexión de muchos procesadores. Permiten la comunicación de una manera más general de procesador a procesador como de procesador a memoria. Ver figura 16. …… …… 1 2 N 1 2 N Etapa 1 Etapa k Etapa 2 Figura 16.- Red multietapa 35 En general se distinguen cuatro tipos de redes multietapa a. Estrictamente no bloqueantes: conecta cualquier entrada libre a cualquier salida libre (sin importar otras conexiones, ver figura 17. 4x2 1 n 1 2x4 3x3 1 1 n 1 12 inputs 12 outputs m 1 n r nxm rxr r 1 n mxn Figura 17.- Red Multietapa estrictamente no bloqueante. 36 b. No bloqueantes re configurables: pueden realizar todas las conexiones posibles reconfigurando conexiones existentes (si m >= n) .Ver figura 18. 0 1 0 1 2 3 2 3 4 5 4 5 6 7 6 7 Figura 18.- Red Multietapa estrictamente no bloqueante reconfigurable. c. No bloqueantes de amplio espectro: pueden realizar todas las conexiones posibles sin bloqueo dependiendo de las reglas de ruteo usadas (en el caso anterior sí m >= 3n/2). d. Interconexión Bloqueante. Pueden realizar algunas pero no todas las interconexiones entre entradas y salidas. 2.5 Estrategias de software de los MIMD. 2.5.1 Técnicas de compilación La técnicas de Compilación , se refieren a aquellas técnicas usadas por las implementaciones como recursos del procesador, que permiten explotar lo más posible el paralelismo en un programa de usuario. Generalmente en este tipo de estudios no se considerarán los recursos generales del sistema tales como cantidad de procesadores, disposición física de la memoria, presencia de memoria cache, etcétera, aunque debe tenerse en cuenta que estos parámetros realmente influyen fuertemente en el desempeño final del sistema. Conceptualmente, un compilador para MIMD debe analizar un programa para hallar porciones o bloques de código que puedan ejecutarse concurrentemente, para lo cual deben cumplirse al menos dos condiciones primordiales: que el sistema disponga de los recursos necesarios para la ejecución en paralelo de más de una tarea (disposición de varios procesadores, unidades de cálculo, etcétera) y que los bloques elegidos sean no dependientes entre sí. 37 Llamaremos bloque a toda secuencia de instrucciones sin saltos hacia afuera o hacia adentro del mismo, aunque en algunos casos sobrepasaremos los límites de un bloque y consideraremos el análisis al nivel de instrucciones particulares.El paralelismo real disponible en un programa está limitado por sus dependencias. Una dependencia entre dos sentencias de un programa es algún tipo de conflicto que evita que las sentencias puedan ejecutarse concurrentemente. Las dependencias pueden clasificarse en tres tipos: dependencias de recursos, de datos y de control. Una dependencia de recursos entre dos instrucciones es consecuencia de las limitaciones de hardware disponible en un sistema de computación. Este tipo de dependencia ocurre cuando dos sentencias intentan simultáneamente usar el mismo recurso, tal como dos operaciones de multiplicar compitiendo por un único multiplicador o dos operaciones de referencia a memoria intentando acceder a un mismo puerto de memoria física. Una dependencia de datos existe entre dos instrucciones cuando ambas apuntan a la misma posición de memoria o acceden a un mismo registro. Por ejemplo, una dependencia de flujo (read after write hazard) se da de la instrucción S1 a S2 en el siguiente fragmento de programa, ya que S2 necesita el valor de A producido por S1 antes de poder ejecutarse. S1 : A = B + C S2 : D = A - E Dos instrucciones escribiendo en la misma localidad de memoria crean una dependencia de salida, como se ve a continuación: S1 : X = Y + Z S2 : C = X * 22 S3 : X = A - B El proceso S1 debe ejecutarse antes que S3 puesto que S2 usa el resultado producido por S1 (una dependencia de flujo de S1 a S2). En este ejemplo se da también una dependencia entre S2 y S3, puesto que S2 lee el valor de X que es escrito por S3, en consecuencia S2 debe ejecutarse antes que S3. Las dependencias de flujo son las únicas dependencias verdaderas en las que el resultado producido por la primera instrucción es usado como valor por la segunda instrucción. Por otro lado, las no dependencias y las dependencias de salida ocurren cuando el programador o el compilador rehúsan espacio de almacenamiento. En estos casos, renombrar variables es una buena política para eliminar estas dependencias. Por ejemplo, en lugar de usar un mismo arreglo para dos operaciones independientes en diferentes partes de un programa, el programador podría definir dos arreglos separados. Esto, por supuesto, incrementa el paralelismo a costa de un mayor gasto de memoria. Una dependencia de control de la sentencia Si a Sj existe cuando la sentencia Sj debiera ser ejecutada sólo si Si produce un cierto resultado. Esta dependencia ocurre, por ejemplo, si Si es una sentencia condicional y Sj va a ser ejecutada al verificarse la condición verdadera de Si. 38 Al limitar la extracción de paralelismo a un bloque básico se limitará la aceleración máxima de un problema al proceso en paralelo de dos o cuatro bloques solamente (dadas las limitaciones de hardware). Sin embargo, si se traspasan los límites del bloque el paralelismo del programa entero resulta disponible para su explotación. Simulaciones realizadas en casos ideales muestran que programas de ingeniería o científicos tienen un alto grado de paralelismo, en cambio, la generalidad de los programas comunes tiene una tasa bastante baja. Una aproximación eficiente para extraer este paralelismo potencial de los programas es concentrarse en el paralelismo disponible en los ciclos. Puesto que el cuerpo de un ciclo puede ejecutarse varias veces, es fácil a menudo encontrar grandes porciones de paralelismo en ellos. Una gran variedad de computadoras con arquitecturas paralelas y técnicas de compilación han sido propuestas para explotar el paralelismo a diferentes granularidades. Antes de analizar las técnicas para explotar el paralelismo en un ciclo es útil analizar el máximo paralelismo existente en un ciclo independientemente de las restricciones de recursos del sistema de computadora en que se trabaja. De este modo podremos analizar el rendimiento máximo de cada técnica y compararlas entre sí sin optar por una arquitectura en particular. Por simplicidad de análisis supondremos que no existen dependencias de control dentro del ciclo que puedan ocasionar una bifurcación temprana fuera de él. Sin embargo se pueden considerar operaciones condicionales enteramente contenidas dentro del ciclo. El máximo grado de paralelismo existente en un ciclo se encontrará limitado por la dependencia de sus datos y por la dependencia de recursos de la máquina en la que se ejecute. Las dependencias del programa pueden representarse con grafos orientados, donde cada nodo es una operación y los arcos representan dependencias entre operaciones. Asociaremos dos valores al arco k que va desde la instrucción Si a Sj de un ciclo. El primer valor del tiempoTk será el tiempo que la sentencia, el segundo valor expresado por Ck, será la cantidad de iteraciones luego de la ejecución de Si, en que se ejecutará Sj. Las figuras siguientes numero 19, muestra su correspondiente grafo de dependencias. For (i=1; i<=N ; y++) { S1 S2 S3 S4 S5 : : : : : A(i) B(i) C(i) D(i) E(i) = = = = = E(i-1) + 6 A(i) * Z B(i-1) + X C(i) + Y B(i) * D(i) } 39 Figura 19.- Grafo de dependencia. Los arcos están rotulados con (Tk,Ck) . Los arcos punteados muestran dependencias que van de una iteración del ciclo a otra. Esas dependencias cruzadas en las iteraciones limitan el paralelismo máximo del ciclo, puesto que iteraciones posteriores dependen de resultados generados en iteraciones anteriores. De este modo, algunas iteraciones deben ser ejecutadas secuencialmente. Cuando una dependencia apunta hacia atrás relativa al orden en que aparecen las sentencias, un ciclo puede aparecer en el grafo de dependencia. Por ejemplo, el grafo de dependencia de la figura anterior posee dos ciclos. El primero consiste de las sentencias S1(i) - S2(i) - S5(i) - S1(i+1). Desenrollando completamente el ciclo, se puede convertir cualquier ciclo del grafo en una cadena lineal de dependencias. La tabla 3 muestra esta cadena para el ciclo presentado: Tiempo Sentencia 1 S1(1) 2 S2(1) 3 4 5 S5(1) 6 7 8 S1(2) 9 S2(2) 10 11 12 S5(2) 13 14 15 S1(3) ... Tabla 3. - Cadena para el ciclo representado. 40 Las tres sentencias en el ciclo van a ser ejecutadas N veces, donde N es el número de iteraciones del ciclo. Cada repetición del ciclo requiere Tc = Σ Tk = 7 unidades de tiempo, donde Tc es la suma de las correspondientes Tk mostradas en los arcos del grafo para este ciclo. El tiempo total para ejecutar el total de las sentencias del ciclo será entonces Tt1 = N * Tc = N * 7 unidades de tiempo. Similarmente, el segundo ciclo en el grafo es S3(i) - S4(i) - S5(i) - S1(i+1) - S2(i+1) - S3(i+2), como se ve en la tabla 4. Tiempo Sentencia 1 S3(1) 2 S4(1) 3 S5(1) 4 5 6 S1(2) 7 S2(2) 8 9 10 S3(3) 11 S4(3) 12 S5(3) 13 14 15 S1(4) 16 S2(4) 17 18 19 S3(5) Tabla 4. Segundo ciclo. Una ejecución de todas las sentencias de este ciclo requiere Tc = ΣTk = 9 unidades de tiempo. Puesto que el patrón se repite cada dos iteraciones, la versión desenrollada del ciclo se ejecutará N/2 veces. Notar que dos copias pueden ser ejecutadas simultáneamente. Una copia puede empezar en i = 1 y la otra en i = 2. Ver tabla 5. Procesador 1 S1(1) S2(1) S3(1) S4(1) S5(1) S1(3) S2(3) S3(3) S4(3) S5(3) procesador 2 S1(2) S2(2) S3(2) S4(2) S5(2) S1(4) S2(4) S3(4) S4(4) S5(4) Tabla 5. Tercer Ciclo. 41 De este modo, el tiempo total de ejecución para este ciclo es Tt2 = Tc * (N/2) = 9N/2 unidades de tiempo. La cadena de dependencia más larga producida al desenrollar los ciclos es llamada trayectoria crítica (critical path), y su tiempo de ejecución se denota como Tcrit. Puesto que puede haber varios ciclos en un recorrido, el mínimo tiempo para ejecutarlo es el tiempo requerido para ejecutar la cadena de dependencia más larga. Entonces, para el ejemplo desarrollado Tcrit = max(Tti) = max(7N,9N/2) = 7N unidades de tiempo. La máxima aceleración de este recorrido será el cociente entre el tiempo de la versión secuencial original y el tiempo de ejecución de la trayectoria crítica. Para el ejemplo dado es fácil comprobar que el tiempo de ejecución secuencial, TL, es 9 unidades de tiempo. Entonces, el tiempo total de ejecución para la versión secuencial es NTl = 9N unidades de tiempo Dando una aceleración máxima de : Smax = (NTl)/Tcrit = 9N/7N = 9/7 Aproximadamente 1,28; lo que representa un 28% de aceleración respecto de la versión secuencial.Se puede demostrar la validez de esta ecuación para un caso general de un recorrido con uno o más ciclos en su grafo de dependencia. 2.5.2 Arquitecturas paralelas de granularidad fina Las arquitecturas paralelas de granularidad fina explotan el paralelismo a nivel del juego de instrucciones realizando varias instrucciones u operaciones en un sólo ciclo. Las dependencias deben ser verificadas en tiempo de compilación o dinámicamente por el hardware para asegurar que sólo operaciones independientes son ejecutadas simultáneamente. Para asegurar un máximo de paralelismo la técnica de verificación de dependencia debe mirar más allá de los límites de un bloque para encontrar operaciones independientes dentro del cuerpo de una iteración simple e incluso entre varias iteraciones diferentes. Los esquemas para verificar las dependencias dinámicas usan hardware complejo para buscar operaciones independientes en tiempo de ejecución pero un número de factores tales como el tamaño del buffer, desarrollo incompleto de ciclos y predicción de bifurcaciones incompletas que restringen el número de bloques que pueden ser buscados dinámicamente. En consecuencia, las técnicas de compilación, anteriormente referenciadas, han sido desarrolladas para completar y perfeccionar la verificación dinámica de dependencias. 42 Mientras que las arquitecturas de granularidad fina explotan el paralelismo a nivel de instrucciones, las arquitecturas de granularidad gruesa lo explotan distribuyendo iteraciones enteras en diferentes procesadores. En el multiprocesador de memoria compartida de la figura siguiente, por ejemplo, la tarea del scheduler es distribuir distintas iteraciones en los diferentes procesadores del sistema, cada una con un índice distinto. Las estrategias de organización, entonces, tienen la tarea de determinar que iteraciones serán ejecutadas por cual procesador y en que momento. Ver figura 20. Figura 20.- Arquitectura de Multiprocesador de memoria compartida. 2.5.3 Estrategia Doacross scheduling En ciclos con dependencias de datos entre iteraciones, esta estrategia puede ser usada para distribuir iteraciones consecutivas del ciclo en procesadores separados. Para prevenir violaciones de dependencia, esquemas de sincronización explícita fuerzan a cada iteración a comenzar al menos d ciclos después que la iteración previa. La ejecución de un ciclo con esta estrategia puede ser modelada como sigue: Do I = 1, N delay d * (I - 1) ejecutar iteración con índice I. Enddo Con recursos infinitos, cada iteración se ejecuta en un procesador separado dando un tiempo de ejecución Tp = (N - 1) * d + TL. Para esta estrategia con valores grandes de N, la dependencia de datos limita la aceleración máxima a: Smax(doacross) = (N * TL) / [(N - 1) * d + TL] aprox. = TL/d Las limitaciones de recursos limitan fuertemente la aceleración máxima a menos o igual que el número de procesadores, p. El valor d es análogo al intervalo de iniciación del pipeliningschedule con la diferencia de que el parámetro d fuerza sincronización explícita entre todos los procesadores. Es fácil ver que, todos los casos, d >= TL. con lo cual, ignorando dependencias de recursos, la máxima aceleración ideal que se obtenga será similar a la obtenida por un procesador usando software pipelining. 43 Una diferencia entre doacross scheduling y software pipelining es que el primero no saca ventajas del paralelismo a nivel de instrucciones dentro de cada iteración. Sin embargo, el hecho de poseer contadores de programa individuales en cada procesador permite a doacross scheduling tolerar operaciones condicionales muy complejas que son bastante problemáticas con software pipelining. 2.5.4 Estrategia Doall loop scheduling Esta estrategia, aplicable a ciclos que no tengan dependencia cruzada entre iteraciones, sugiere la ejecución de todas las iteraciones simultáneamente. La tarea del scheduling para determinar que iteraciones deben ser ejecutadas por cuales procesadores y en que momento, pueden clasificarse en estáticas y dinámicas dependiendo del momento en que se realiza la decisión de la asignación de tareas. La asignación estática o pre scheduling, asigna iteraciones a procesadores específicos en tiempo de compilación o de carga del programa. Cada procesador determina que tareas va a ejecutar basado en su número de procesador. Por ejemplo, el ciclo en el código siguiente ejecutará las iteraciones 1, p+1, 2p+1... en el procesador 0; las iteraciones 2, p+2, 2p+2... en el procesador 1; y así sucesivamente, donde p es el número de procesador. Fork(p) do i = (minum + 1), N, step p A(i) = B(i) * C(i) enddo join(p) 2.5.5 Estrategia de balance de carga Esta estrategia distribuye las iteraciones entre los procesadores en un intento de balancear la carga computacional. Puesto que cada procesador conoce su número (minum), y que los identificadores de tarea (índice y del ciclo) son locales, cada procesador puede determinar rápidamente que tarea debe ejecutar, con lo que virtualmente no hay sobrecarga de ejecución (runtime overhead). Si un compilador pudiese predecir acertadamente todos los tiempos de ejecución, la carga computacional podría ser perfectamente balanceada para minimizar el tiempo total de ejecución. Desafortunadamente, una variedad de eventos hacen imposible calcular el tiempo exacto que durará una iteración determinada. Por ejemplo, dos iteraciones pueden producir diferentes resultados en una sentencia condicional. Si el número de sentencias a ejecutar en cada una de las ramas de la condición es diferente, entonces el tiempo de ejecución de las dos iteraciones también será distinto. Otros eventos tales como fallos de cache o de página o demoras en la comunicación entre procesadores pueden aumentar aún más esa diferencia. Todo esto hace que sea bastante difícil para el pre- scheduling mantener un balance de carga aceptable. El siguiente fragmento del programa muestra este problema para una máquina de dos procesadores: doall i = 1,N if odd(i) a(i) = b(i) else a(i) = b(i) * c(i) enddo 44 Asumiendo el mismo esquema de distribución de ejemplo anterior, el procesador 1 ejecutará todas las iteraciones donde el índice i sea impar y el procesador 2, todas aquellas con índice i par. Por lo tanto uno de los procesadores siempre ejecutará la sentencia a(i) = b(i) y el otro procesador la sentencia a(i) = b(i) * c(i). La asignación dinámica, también llamada self scheduling, es usada para llevar las decisiones desde el tiempo de compilación a de ejecución haciendo a cada procesador responsable de asignarse su propia tarea. El código siguiente muestra que cada procesador se asigna iteraciones el mismo en tiempo de ejecución accediendo a una variable compartida (next_iter) que representa el índice a la siguiente iteración a ser ejecutada por el próximo procesador libre. Para prevenir que más de un procesador acceda a esta variable, se insertan en el código sentencias de sincronización apropiadas. Next_iter = 1 fork(p) /* obtener primera iteración */ lock(next_iter) mi_iter = next_iter next_iter ++ unlock(next_iter) /* repetir mientras haya trabajo para realizar */ while (mi_iter <= N) a(mi_iter) = b(mi_iter) * c(mi_iter) /* obtener la siguiente iteración */ lock(next_iter) mi_iter = next_iter next_iter ++ unlock(next_iter) end while join(p) El tiempo necesario para acceder la variable compartida y para sacar las tareas del spool de tareas agrega un overhead a la ejecución, pero este se compensa satisfactoriamente con la mejora en el balance de cargas, ya que en este caso, el tiempo ocioso de un procesador será igual a TL. 2.5.6 MPI (Messaging passing interface) Intercambio de paso deMensajes El envío de un mensaje de un proceso a otro involucra el movimiento de información de un espacio de direccionamiento a otro. proceso 1 movimiento de datos proceso 2 send(&x,2); ------------------------------------> recv(&y,1); El envío de un mensaje involucra además: • a)El uso de los buffers. • b)Identificación de los mensajes, lo cual se hace por medio de una selección por medio de etiquetas, además necesita del uso de comodines (wildcards)para seleccionar cualquier tipo de mensaje. 45 • c)Nombramiento de procesos. • d)Sincronización . Existen dos términos básicos utilizados en el MPI, estos términos son: • Síncrono que se utiliza en aquellas rutinas que regresan cuando la transferencia del mensaje ha terminado. • Bloqueo (blocking) ,que se usa para describir funciones que no regresan hasta que termina la transferencia. Las funciones de no bloqueo (non blocking)inician la solicitud de transferencia y regresa el control sin esperar que la Transferencia concluya El paso de mensajes es una tarea ampliamente usada en ciertas clases de máquinas paralelas, especialmente aquellas que cuentan con memoria distribuida. Aunque existen muchas variaciones, el concepto básico en el proceso de comunicación mediante mensajes es bien entendido. En los últimos 10 años, se ha logrado un progreso substancial en convertir aplicaciones significativas hacia este tipo de tareas. Más recientemente diferentes sistemas han demostrado que un sistema de paso de mensajes puede ser implementado eficientemente y con un alto grado de portabilidad. Al diseñar el lenguaje estándar por facto llamado MPI, se tomaron en cuenta las características más atractivas de los sistemas existentes para el paso de mensajes, en vez de seleccionar uno sólo de ellos y adoptarlo como el estándar. Resultando así, en una fuerte influencia para en la construcción de MPI los trabajos hechos por IBM, INTEL NX/2, Express, nCUBE's Vernex, p4 y PARMACS. Otras contribuciones importantes provienen de Zipcode, Chimp, PVM, Chameleon y PICL. La meta de MPI fue la de desarrollar un estándar para escribir programas que implementen el paso de mensajes. Por lo cual el Interfase intenta establecer para esto un estándar práctico, portable, eficiente y flexible. El esfuerzo para estandarizar MPI involucra cerca de 60 personas de 40 organizaciones diferentes principalmente de U.S.A. y Europa. La mayoría de los vendedores de computadoras concurrentes estaban involucrados con MPI, así como con investigadores de diferentes universidades, laboratorios del gobierno e industrias. Se llegó a una propuesta preliminar conocida como MPI1, enfocada principalmente en comunicaciones punto a punto sin incluir rutinas para Comunicación colectiva y no presentaba tareas seguras. El estándar final par el MPI fue presentado en la conferencia de supercomputación en Noviembre de 1993, constituyéndose así el foro para el MPI. En un ambiente de comunicación con memoria distribuida en la cual las rutinas de nivel más alto y/o las abstracciones son construidas sobre rutinas de paso de mensajes de nivel bajo, los beneficios de la estandarización son muy notorios. La principal ventaja al establecer un estándar para el paso de mensajes es la portabilidad y el ser fácil de utilizar. MPI es un sistema complejo, el cual comprende 129 funciones, de las cuales la mayoría tienen muchos parámetros y variantes. 46 Con esto alcanzarón las siguientes características en el diseño de estándar: • Diseñar una Interfase de programación aplicable. • Permite una Comunicación eficiente: Evitando el copiar de memoria a memoria y permitiendo la sobreposición de computación y comunicación, además de aligerar la comunicación con el procesador. • Permite implementaciones que puedan ser utilizadas en un ambiente heterogéneo. • Permite enlaces convenientes en C y Fortran 77 para la interfase. • Asume una interfase de comunicación segura. • Define una interfase que no sea muy diferente a los sistemas actuales, tales como PVM, NX, Express, p4, etc., y provee de diversas extensiones que permitan mayor flexibilidad. • Define una interfase que pueda ser implementada en diferentes plataformas, sin cambios significativos en el software y las funciones internas de comunicación. • La semántica de la interfase debe ser independiente del lenguaje. • La Interfase debe ser diseñada para producir tareas seguras. En el modelo de programación MPI, un cómputo comprende de uno o más procesos comunicados a través de llamadas a rutinas de librería para mandar (send) y recibir (receive) mensajes a otros procesos. En la mayoría de las implementaciones de MPI, se crea un conjunto fijo de procesos al inicializar el programa, y un proceso es creado por cada tarea. Sin embargo, estos procesos pueden ejecutar diferentes programas. De ahí que, el modelo de programación MPI es algunas veces referido como MIMD (múltiple program múltiple data) para distinguirlo del modelo SIMD, en el cual cada procesador ejecuta el mismo programa. Debido a que el número de procesos en un sistema de cómputo de MPI es normalmente fijo, se puede enfatizar en el uso de los mecanismos para comunicar datos entre procesos. Los procesos pueden utilizar operaciones de Comunicación punto a punto para mandar mensajes de un proceso a otro, estas operaciones pueden ser usadas para implementar comunicaciones locales y no estructuradas. Un grupo de procesos puede llamar colectivamente operaciones de Comunicación para realizar tareas globales tales como broadcast, etc. La habilidad de MPI para probar mensajes da como resultado el soportar comunicaciones asíncronas. Probablemente una de las características más importantes del MPI es el soporte para la programación modular. Un mecanismo llamado comunicador permite al programador del MPI definir módulos que encapsulan estructuras internas de comunicación (estos módulos pueden ser combinados secuencialmente y paralelamente). 47 Aunque MPI es un sistema complejo, es posible resolver un amplio rango de problemas usando seis de sus funciones, estas funciones inician y terminan un cómputo, identifican procesos, además de mandar y recibir mensajes. • • • • • • MPI_INIT: Este proceso Inicia el entorno de MPI. MPI_FINALIZE: Termina el MPI. MPI_COMM_SIZE: Determina el número de procesos en un cómputo. MPI_COMM_RANK: Determina el identificador del proceso actual "mi proceso". MPI_SEND: Manda un mensaje. MPI_RECV: Recibe un mensaje. Todas las funciones con excepción de las dos primeras, toman un manejador "comunicador" como argumento. El comunicador identifica el grupo de procesos y el contexto en el cual la operación se debe realizar. Los comunicadores proveen un mecanismo para identificar sub conjuntos de procesos durante el desarrollo de programas modulares y para garantizar que los mensajes provistos con diferentes propósitos no sean confundidos. El valor por default es llamado MPI_COMM_WORLD, el cual identifica todos los procesos. Las funciones MPI_INIT y MPI_FINALIZE son usadas para iniciar y terminar MPI, respectivamente MPI_INIT debe ser llamada antes que cualquier otra función MPI y debe ser llamada solamente una vez por proceso. Ninguna función MPI puede ser llamada después de MPI_FINALIZE. Las funciones MPI_COMM_SIZE y MPI_COMM_RANK determinan el número de procesos en él cómputo actual y el identificador (entero) asignado al proceso actual, respectivamente. (Los procesos en un grupo de procesos son identificados con un único y continuo número (entero) empezado en 0). La necesidad por tener una comunicación asíncrona puede presentarse cuando un cómputo necesita acceder a los elementos de un dato estructurado compartido en una manera no estructurada. Una implementación aproximada es el encapsular los datos estructurados en un conjunto de tareas de datos especializados, en la cual las peticiones de lectura y escritura pueden ser ejecutadas. Este método no es eficiente en MPI debido a su modelo de programación MPMD. Una implementación alternativa con MPI, es el distribuir las estructuras de datos compartidas entre los procesos existentes, los cuales deben solicitar periódicamente las solicitudes pendientes de lectura y escritura. Para esto MPI presenta tres funciones MPI_IPROBE, MPI_PROBE, MPI_GET_COUNT. MPI_IPROBE checa la existencia de mensajes pendientes sin recibirlos, permitiéndonos escribir programas que generan cómputos locales con el procesamiento de mensajes sin previo aviso. El mensaje puede ser recibido usando MPI_RECV. MPI_PROBE es utilizado para recibir mensajes de los cuales se tiene información incompleta. 48 MPI soporta la programación modular a través de su mecanismo de comunicador (comm, el cual provee la información oculta necesaria al construir un programa modular), al permitir la especificación de componentes de un programa, los cuales encapsulan las operaciones internas de Comunicación y proveen un espacio para el nombre local de los procesos. Una operación de Comunicación MPI siempre especifica un comunicador. Este identifica el grupo de procesos que están comprometidos en el proceso de comunicación y el contexto en el cual la comunicación ocurre. El grupo de procesos permite a un sub conjunto de procesos el comunicarse entre ellos mismos usando identificadores locales de procesos y el ejecutar operaciones de comunicación colectivas sin meter a otros procesos. El contexto forma parte del paquete asociado con el mensaje. Una operación receive puede recibir un mensaje sólo si éste fue enviado en el mismo contexto. Si dos rutinas usan diferentes contextos para su Comunicación interna, no puede existir peligro alguno en confundir sus comunicaciones. Con MPI_COMM_DUP: Un programa puede crear un nuevo comunicador, conteniendo el mismo grupo de procesos pero con un nuevo contexto para asegurar que las comunicaciones generadas para diferentes propósitos no sean confundidas, Este mecanismo soporta la composición secuencial. Usando MPI_COMM_SPLIT: Un programa puede crear un nuevo comunicador, conteniendo sólo un subconjunto del grupo de procesos. Estos procesos pueden comunicarse entre ellos sin riesgo de tener conflictos con otros cómputos concurrentes. Este mecanismo soporta la composición paralela. Aplicando MPI_INTERCOMM_CREATE: Un programa puede construir intercomunicador, el cual enlaza procesos en dos grupos. Soporta la composición paralela. un La función MPI_COMM_FREE: Puede ser utilizada para liberar el comunicador creado al usar las funciones anteriores. 2.5.7 PVM(Paralell Virtual Machine) Maquina Virtual Paralela Por otro lado existe otro estándar que permite construir y aplicar una máquina virtual o máquina paralela, este estándar es llamado PVM (Parallel Virtual Machine). PVM es un conjunto de herramientas y librerías que emulan un entorno de propósito general compuesto de nodos interconectados de distintas arquitecturas. El objetivo es conseguir que ese conjunto de nodos pueda ser usado de forma colaborativa para el procesamiento paralelo. El modelo en el que se basa PVM es dividir las aplicaciones en distintas tareas. Son los procesos los que se dividen por las máquinas para aprovechar todos los recursos. Cada tarea es responsable de una parte de la carga que conlleva esa aplicación. PVM soporta tanto paralelismo en datos, como funcional o una mezcla de ambos. PVM permite que las tareas se comuniquen y sincronicen con las demás tareas de la máquina virtual, enviando y recibiendo mensajes, muchas tareas de una aplicación pueden cooperar para resolver un problema en paralelo. Cada tarea puede enviar un mensaje a cualquiera de las otras tareas, sin límite de tamaño ni de número de mensajes. 49 El sistema PVM se compone de dos partes. La primera es un demonio, llamado pvmd que residen en todas los nodos que forman parte de la máquina virtual. Cuando un usuario quiere ejecutar una aplicación PVM, primero crea una máquina virtual para arrancar PVM. Entonces se puede ejecutar la aplicación PVM en cualquiera de los nodos. Muchos usuarios pueden configurar varias máquinas virtuales aunque se mezclen unas con las otras y se pueden ejecutar varias aplicaciones PVM simultáneamente. Cada demonio es responsable de todas las aplicaciones que se ejecutan en su nodo. Así el control está totalmente distribuido excepto por un demonio maestro, que es el primero que se ejecutó a mano por el usuario, los demás nodos fueron iniciados por el maestro y son esclavos. En todo momento siempre hay un pvmd maestro. Por tanto la máquina virtual mínima es de un miembro, el maestro. La segunda parte del sistema es la librería de PVM. Contiene un repertorio de primitivas que son necesarias para la cooperación entre los procesos o threads de una aplicación. Esta librería contiene rutinas para iniciación y terminación de tareas, envío y recepción de mensajes, coordinar y sincronizar tareas, broadcast, modificar la máquina virtual. Cuando un usuario define un conjunto de nodos, PVM abstrae toda la complejidad que tenga el sistema y toda esa complejidad se ve como una gran computadora de memoria distribuida llamada máquina virtual. Esta máquina virtual es creada por el usuario cuando se comienza la operación. Es un conjunto de nodos elegidos por el usuario. En cualquier momento durante la operación puede elegir nuevos nodos para la máquina virtual. Esto puede ser de gran ayuda para mejorar la tolerancia a fallos pues se tiene unos cuantos nodos de reserva (PVM no tiene migración) por sí alguno de los nodos fallara. O si se ve que un conjunto de nodos de una determinada red están fallando se pueden habilitar nodos de otra red para solucionarlo. Para conseguir abstraer toda la complejidad de las diferentes configuraciones, soporta la heterogeneidad de un sistema a tres niveles: • -Aplicaciones: las subtareas pueden estar hechas para aprovechar la arquitectura sobre la que funcionan. Por tanto como se puede elegir en que conjunto de nodos se ejecutarán unas tareas específicas, podemos hacer nuestras aplicaciones con la arquitectura al máximo por lo que se puede optimizar y hacer que funcionen aplicaciones hechas para arquitecturas específicas con PVM. • -Máquinas: nodos con distintos formatos de datos están soportados, incluyendo arquitecturas secuenciales, vectoriales, SMP. • -Redes: la máquina virtual puede ser interconectada gracias a distintas tecnologías de red. Para PVM existe una red punto a punto, no fiable y no secuencial. Utiliza UDP e implementa toda la confiabilidad y todas las operaciones básicas de difusión como el broadcast. Las librerias de PVM, consisten en un conjunto de interfaces que está basado en la observación de las necesidades de la mayoría de las aplicaciones, que están escritas en C y Fortran. Los enlaces para C y C++ para la librería PVM están implementados como funciones, siguiendo las reglas usadas por la mayoría de los sistemas que usan C, incluyendo los sistemas operativos tipo UNIX. Los enlaces para Fortran están implementados como subrutinas más que funciones. 50 Todas las tareas están identificadas con un único identificador de tarea TID (Task IDentifier). Los mensajes son enviados y recibidos por TIDs. Son únicos en toda la máquina virtual y están determinados por el pvmd local y no se pueden elegir por el usuario. Varias funciones devuelven estos TIDs (pvm_mytid(), pvm_parent(), etc.)para permitir que las aplicaciones de los usuarios conozcan datos de las otras tareas. Existen grupos nombrados por los usuarios, que son agrupaciones lógicas de tareas. Cuando una tarea se une al grupo, a ésta se le asigna un único número dentro de ese grupo. Estos números empiezan en 0 y hasta el número de tareas que disponga el grupo. Cualquier tarea puede unirse o dejar cualquier grupo en cualquier momento sin tener que informar a ninguna otra tarea del grupo. Los grupos se pueden superponer y las tareas pueden enviar mensajes multicast a grupos de los que no son miembro. Cuando una tarea se quiere comunicar con otra ocurren una serie de cosas, los datos que la tarea ha enviado con una operación send, son transferidos a su demonio local quien decodifica el nodo de destino y transfiere los datos al demonio destino. Este demonio decodifica la tarea destino y le entrega los datos. Este protocolo necesita 3 transferencias de datos de las cuales solamente una es sobre la red. También se puede elegir una política de encaminado directo (dependiente de los recursos disponibles). En esta política tras la primera comunicación entre dos tareas los datos sobre el camino a seguir por los datos son guardados en una caché local. Las siguientes llamadas son hechas directamente gracias a esta información. De esta manera las transferencias se reducen a una transferencia sobre la red. Para comunicarse entre sí, el demonio pvmd, usa UDP ya que es un protocolo más sencillo, sólo consume un descriptor de archivo, y con un simple socket UDP se puede comunicar a todos los demás demonios. Además es muy sencillo colocar temporizadores sobre UDP para detectar fallos de nodo, pvmd o red. La comunicación entre las tareas y los pvmd es mediante TCP puesto que se necesita tener la seguridad de que los datos llegarán. En el caso de que sólo se haga una transferencia ésta es TCP por lo que hay que establecer la conexión primero por lo que realmente tampoco es tan beneficioso. En la figura 21 se puede observar como los distintos métodos de comunicación de PVM. Figura 21.- Comunicaciones en PVM. 51 Cada nodo tiene una estructura llamada host table. Esta tabla tiene una entrada (host descriptor) por cada nodo de la máquina virtual. El descriptor del nodo mantiene la información de la configuración del host, las colas de paquetes y los buffer de mensajes. Inicialmente la tabla sólo tiene la entrada del nodo maestro. Cuando un nuevo esclavo es incluido a la máquina virtual, la tabla del nodo maestro es actualizado para añadir al nuevo esclavo. Entonces esta nueva información es enviada por broadcast a todos los nodos que pertenezcan a la máquina virtual. De esta manera se actualizan todas las tablas y se mantienen consistentes. Las aplicaciones pueden ver el hardware como una colección de elementos de proceso virtuales sin atributos que pueden explotar las capacidades de máquinas específicas, buscando posicionar ciertas tareas en los nodos más apropiados para ejecutarlas. En PVM una vez que un proceso empieza en una determinada máquina seguirá en ella hasta que se muera. Esto tiene graves inconvenientes y de debe tener en cuenta que las cargas suelen variar , y que, a no ser que todos los procesos que se estén ejecutando sean muy homogéneos entre sí, se está descompensando el cluster. Por lo tanto tenemos unos nodos más cargados que otros y seguramente unos nodos terminen su ejecución antes que otros, con lo que se podrían tener nodos muy cargados mientras otros nodos están libres. Esto lleva a una pérdida de rendimiento general. Otro problema que presenta PVM, es su implementación a nivel de usuario, donde el tipo de operaciones de bajo nivel es alto sobre la capa UDP. Esto añade complejidad y aumenta la latencia a las comunicaciones producidas sobre el núcleo del sistema (kernel). Se necesita un conocimiento amplio del sistema, tanto los programadores como los administradores tienen que conocer el sistema para sacar el máximo rendimiento de él. No existe un programa que se ejecute de forma ideal en cualquier arquitectura ni configuración de cluster. Por lo tanto para paralelizar correcta y eficazmente se necesita que los programadores y administradores conozcan a fondo el sistema en la etapa de implementación, aunque será necesario conocer detalladamente el problema a resolver para buscar la técnica adecuada para su solución. El paralelismo es explícito, esto quiere decir que se programa de forma especial para poder usar las características especiales de PVM. Los programas deben ser reescrito y si a esto agregamos que, es necesario que los desarrolladores conozcan perfectamente PVM, se puede decir que migrar una aplicación a un sistema PVM es un proceso complejo y que consume gran tiempo. 52 2.6 El estudio del rendimiento. 2.6.1 Factores que influyen en el rendimiento Existen Factores que influyen en el rendimiento de un trabajo o de un proceso, estos factores son importantes vistos desde el punto de vista del tiempo de procesamiento y el número de procesos que deben ejecutarse. El rendimiento de un trabajo depende de los siguientes factores: 1) 2) 3) 4) Hardware Software Contenido del Trabajo Diseño de la aplicación El hardware condiciona de manera muy importante en rendimiento escalar y vectorial. Este rendimiento, en general, va a depender del número de procesadores escalares o vectoriales y de la potencia del conjunto de instrucciones de la máquina. Un procesador escalar cuenta con suficientes recursos de hardware para que este pueda realizar más de una instrucción simultáneamente. Un procesador vectorial es diseñado específicamente para realizar de forma eficiente operaciones en las que se ven involucrados elementos de matrices, denominados vectores. Estos procesadores resultan especialmente útiles para ser utilizados en el cálculo científico de alto rendimiento (high performance computing), donde las operaciones con vectores y con matrices son ampliamente utilizadas El software es también un factor muy importante del rendimiento de un trabajo. Este rendimiento dependerá básicamente de la capacidad de los compiladores vectorizantes y de la biblioteca de subrutinas de que se disponga. El compilador es el encargado de definir la diferencia entre el paralelismo con software y con hardware. Algunas tareas de paralelización las realizarán las librerias y se apoyarán con el compilador y otras las realizará el propio usuario utilizando sus conocimientos de programación. El contenido del trabajo también es un factor importante que influye en su rendimiento. La cantidad de operaciones en punto flotante que se realicen es importante, ya que éstas son muy costosas debido a que emplean mucho más tiempo de la ALU que las operaciones en punto fijo y se determinan por : • El tanto por ciento de código vectorizable • El tanto por ciento de código paralelo 53 Para hacer un modelo de rendimiento aceptable se tienen que revisar muchos parámetros, pero esto no es rentable. Por consiguiente nos conformamos con modelos simplificados para la medida del rendimiento de un sistema. Para obtener un alto rendimiento del sistema es necesario que haya una sintonía entre la capacidad de la máquina y el comportamiento del programa. La capacidad de procesamiento de la máquina es susceptible de mejora con las nuevas tecnologías en hardware y software, además de el auxilio de una administración eficiente de los recursos. El comportamiento del programa depende básicamente de los siguiente factores: • • • • • a)Diseño del algoritmo b)Estructuras de datos c)Eficiencia de los lenguajes d)Conocimientos del programador e)Tecnología de los compiladores Las estructuras de datos proporcionan un alto grado de paralelismo y le condicionan. Así mismo, los lenguajes y los compiladores son muy importantes ya que la eficiencia de los primeros y la inteligencia de los segundos son de gran importancia para detectar dentro del código aquellas partes que pueden ser paralelizables. Los conocimientos del programador también son muy importantes ya que junto con el diseño del algoritmo, los desarrollos pueden adaptarse mucho mejor al hardware del sistema. El rendimiento de un sistema varía según el programa. El rendimiento de un sistema, es posible medirlo, utilizando características intrínsecas de la relación entre el sistema y el programa, conociendo: • • La imposibilidad de alcanzar un rendimiento máximo. Programas y técnicas de BENCHMARKING (Pruebas de desempeño y laboratorio) ligados a la composición del programa. Los indicadores del rendimiento de una computadora son una serie de parámetros que conforma un modelo simplificado de la medida del rendimiento de un sistema y son utilizados por los arquitectos de sistemas, los programadores y los constructores de compiladores, para la optimización del código y obtención de una ejecución más eficiente. Dentro de este modelo, estos son los indicadores de rendimiento más utilizados: 2.6.2 Tiempo de respuesta (Turnaround Time) El tiempo de respuesta desde la entrada hasta la salida, lo que incluye accesos a disco, memoria y tiempos de CPU. Es la medida más simple del rendimiento. En sistemas multiprogramados no aplica la medida del rendimiento anterior, ya que la máquina comparte el tiempo, se produce solapamiento de entrada y salida del programa con tiempo de procesador en otros programas. 54 Es por eso que se emplea la siguiente medida que es el TIEMPO CPU USUARIO. Los parámetros mas empleados son los siguientes: • Tiempo de cada ciclo (τ). El tiempo empleado por cada ciclo. Es la constante de reloj del procesador. (segundos). Frecuencia de reloj (f) .Es el inverso del tiempo de ciclo. f = 1/τ. (hertz). • Total de Instrucciones (Ic).Es el número de instrucciones a ejecutardentro de un programa. • Ciclos por instrucción (CPI) .Es el número de ciclos computacionales que requiere cada instrucción. • Total de ciclos de reloj en la ejecución de un programa C = Ic * CPI • Tiempo de ejecución de programa (Tp). Es el tiempo que tarda un programa en ejecutarse. • Tp = Ic * CPI * τ = Ic * CPI/f = C/f • Ciclo de memoria (mc).Tiempo que se tarda en completar una referencia a memoria. mc = k * τ klatencia >1 Donde k=número de instrucciones. • Apartir de las definiciones anteriores, las fórmulas del Ciclo por instrucción (CPI) y del tiempo de ejecución (Tp) se pueden utilizar de la siguiente forma: CPI = p + mr * k (ciclos/instrucción) Donde el total de ciclos del procesador (p), referencias a memoria por ciclo (mr). Tp = Ic * CPI * τ = Ic * (p + mr * k) * τ (nanosegundos) En la tabla 7 se muestra la relación entre factores de rendimiento y atributos del sistema Ic X p mr Tecnología X compilador Implantación y control CPU Jerarquía memoria X X Arquitectura K X τ X X X 55 Tabla 7 .Relación entre factores de rendimiento y atributos del sistema En la tabla anterior se muestra la relación entre los factores del rendimiento (Ic, p, mr, k y τ) y algunas características del sistema (arquitectura, tecnología del compilador, implantación y control CPU y jerarquía de la memoria caché). a) Relación MIPS (millones de instrucciones por segundo). Podemos utilizar un nuevo modelo del rendimiento deducido a partir del parámetro MIPS. Es una medida de la velocidad de la computadora, que depende de la frecuencia del reloj (f), del total de instrucciones (Ic), y de los ciclos por instrucción (CPI). MIPS = Ic (Tp * 106) = (Ic * f) / (Ic * CPI * 106) = f / (CPI * 106) MIPS = f / (C/Ic * 106) = (f * Ic) / (C * 106) [ instrucciones / segundo] A partir de la definición de MIPS se puede utilizar la siguiente fórmula para el tiempo de CPU: Tiempo CPU = Tp = (Ic * 10-6)/MIPS (segundos) b) THROUGHPUT del sistema (Ws).Es la cantidad de trabajo por unidad de tiempo que realiza el sistema. Total de programas (resultados) ejecutados por el sistema en unidad de tiempo. Ws (programas / segundo) c) THROUGHPUT de CPU (Wp).Es la cantidad de trabajo de la CPU. Wp = f / (Ic * CPI) = (MIPS * CPI * 106)/(Ic * CPI) = (MIPS * 106)/Ic (programas/segundo) 2.7 Algoritmos paralelos. 2.7.1 Método De Diferencias Finitas El método de diferencias finitas es una clásica aproximación para encontrar la solución numérica de las ecuaciones que gobiernan el modelo matemático de un sistema continuo. Es valioso familiarizarse con esta aproximación porque tal conocimiento reforzará la comprensión de los procedimientos de elementos finitos. Básicamente, en una solución por diferencias finitas, las derivadas son reemplazadas por aproximaciones en diferencias finitas, convirtiendo entonces un problema de ecuaciones diferenciales en un problema algebraico fácilmente resoluble por medios comunes (especialmente matriciales). 56 2.7.2 Método de expansión de Taylor El método de expansión de Taylor es una forma alternativa de obtener aproximaciones de diferencia. Este método no sólo deduce las fórmulas de diferencia sistemáticamente, sino que también deduce los términos de error. Para una derivada de p-ésimo orden, el número mínimo de puntos de datos requeridos para deducir una aproximación de diferencia es p+1, así por ejemplo una aproximación de diferencia para la primera derivada de una función necesita por lo menos de dos puntos de datos. Para la deducción de la aproximación de diferencia para fi´=f´(xi) en términos fi= f(xi) ^ fi+1 = f(xi+1). La expansión de Taylor de fi+1 alrededor de xi es: [1] Resolviendo la ecuación anterior para la primera derivada, tenemos: f i′ = f i +1 − f i h h2 ′ ′ − ⋅ fi − ⋅ f i′′′− Κ h 2 6 [2]. Si ignoramos todos los términos con excepción del primero del miembro derecho de la ecuación 2, obtendremos la aproximación por diferencia hacia adelante. Los términos que se ignoran constituyen el error de truncado, representado por el término inicial, -(h/2).fi´´. Los demás términos desaparecen más rápidamente que el inicial cuando h disminuye. La aproximación de diferencia hacia adelante, con el error de truncado incluido, se expresa como: f i′ = f i +1 − f i h +E E ≈ − ⋅ f i′′ h 2 [3], dónde El término E indica que el error es aproximadamente proporcional al intervalo de la retícula h. El error también es proporcional a la segunda derivada .fi´´. De la misma manera podemos expandir fi-1 alrededor de xi en la forma: [4] Resolviendo nuevamente para la primera derivada, tenemos: f i′ = f i − f i −1 h f − f i −1 h2 h + ⋅ f i′′− ⋅ f i′′′− Κ f i′ = i +E E ≈ ⋅ f i′′ h 2 6 h 2 y [5] dónde 57 La aproximación anterior se denomina de diferencia hacia atrás. Tomemos ahora ambas aproximaciones y restemos 4 de 1: 1 f i +1 − f i −1 = 2 ⋅ h ⋅ f i′ + ⋅ h 3 ⋅ f i′′′+ Κ 3 [6] De la anterior expresión se ha eliminado el término fi´´. Resolviendo para fi´, obtenemos f − f i −1 1 2 f i′ = i +1 − ⋅ h ⋅ f i′′′+ Κ 2⋅h 6 [7]. Con el término de error incluido, la aproximación de diferencia central se expresa como f − f i −1 1 f i′ = i +1 +E E ≈ − ⋅ h 2 ⋅ f i′′′ 2⋅h 6 [8], dónde . Resulta interesante observar que gracias a la cancelación del término fi´´, el error de la aproximación es proporcional al cuadrado de h y no a h. Entonces, reduciendo h reducimos el error con mayor rapidez que con las otras aproximaciones. De forma similar podemos obtener aproximaciones de diferencia para derivadas superiores, pero la deducción se hace cada vez más laboriosa al aumentar tanto el número de términos como el orden de la derivada. Sería útil por lo tanto el desarrollo de algoritmos de cómputo que permitan hallar automáticamente la aproximación de diferencia para un conjunto dado de datos. No obstante, a continuación muestro las expresiones de diferencias, cuyo uso es frecuente. a) Primera derivada. Aproximaciones de diferencia hacia adelante f − fi 1 f i′ = i +1 + E ; E ≈ − ⋅ h ⋅ f i′′ h 2 − f i + 2 + 4 ⋅ f i +1 − 3 ⋅ f i 1 f i′ = + E ; E ≈ ⋅ h 2 ⋅ f i′′′ 2⋅h 3 2 ⋅ f i +3 − 9 ⋅ f i + 2 − 18 ⋅ f i +1 − 11 ⋅ f i 1 f i′ = + E ; E ≈ − ⋅ h 3 ⋅ f i IV 6⋅h 4 Aproximaciones de diferencia hacia atrás f − f i −1 1 f i′ = i + E ; E ≈ ⋅ h ⋅ f i′′ h 2 + f i − 2 − 4 ⋅ f i −1 + 3 ⋅ f i 1 f i′ = + E ; E ≈ ⋅ h 2 ⋅ f i′′′ 2⋅h 3 − 2 ⋅ f i −3 + 9 ⋅ f i −2 − 18 ⋅ f i −1 + 11 ⋅ f i 1 f i′ = + E ; E ≈ ⋅ h 3 ⋅ f i IV 6⋅h 4 Aproximaciones de diferencia centrales 58 f i +1 − f i −1 1 + E ; E ≈ − ⋅ h 2 ⋅ f i′′′ 2⋅h 6 − f i + 2 + 8 ⋅ f i +1 − 8 ⋅ f i −1 + f i −2 1 4 V f i′ = +E ; E≈ ⋅ h ⋅ fi 12 ⋅ h 30 f i′ = b) Segunda derivada. Aproximaciones de diferencias hacia adelante f − 2 ⋅ f i +1 + f i f i′′= i + 2 + E ; E ≈ h ⋅ f i′′′ h2 − f i +3 + 4 ⋅ f i + 2 − 5 ⋅ f i +1 + 2 ⋅ f i 11 f i′′= + E ; E ≈ ⋅ h 2 ⋅ f i IV 2 12 h Aproximaciones de diferencia hacia atrás f − 2 ⋅ f i −1 + f i f i′′= i + 2 + E ; E ≈ h ⋅ f i′′′ h2 − f i −3 + 4 ⋅ f i −1 − 5 ⋅ f i − 2 + 2 ⋅ f i 11 f i′′= + E ; E ≈ ⋅ h 2 ⋅ f i IV 2 12 h Aproximaciones de diferencia centrales f − 2 ⋅ f i + f i −1 1 f i′′= i +1 + E ; E ≈ h 2 ⋅ f i IV 2 12 h − f i + 2 + 16 ⋅ f i +1 − 30 ⋅ f i + 16 ⋅ f i −1 − f i −2 1 4 VI f i′′= +E ; E≈ ⋅ h ⋅ fi 2 90 12 ⋅ h c) Tercera derivada. Aproximaciones de diferencia hacia adelante f − 3 ⋅ f i + 2 + 3 ⋅ f i +1 − f i 3 f i′′′= i +3 + E ; E ≈ − h 2 ⋅ f i IV 3 2 h Aproximaciones de diferencia hacia atrás f − 3 ⋅ f i −1 + 3 ⋅ f i −2 − f i −3 3 f i′′′= i + E ; E ≈ h 2 ⋅ f i IV 3 2 h Aproximaciones de diferencia centrales f − 2 ⋅ f i +1 + 2 ⋅ f i −1 − 2 ⋅ f i −2 1 f i′′′= i + 2 + E ; E ≈ − h 2 ⋅ f iV 3 4 2⋅h 59 2.7.3 Aproximación De Diferencia Para Derivadas Parciales. Las fórmulas de aproximación de diferencia para derivadas parciales de funciones multidimensionales son esencialmente iguales a las de diferenciación de funciones unidimensionales. Consideremos una función bidimensional f(x,y). La aproximación de diferencia para la derivada parcial con respecto a x, por ejemplo, puede deducirse fijando y en un valor constante y0 y considerando f(x,y0) como una función unidimensional. Por tanto, las aproximaciones de diferencia hacia adelante, central y hacia atrás para éstas derivadas parciales se pueden escribir, respectivamente: f ( x0 + ∆x, y 0 ) − f ( x0 , y 0 ) ∂f → E ∝ ∆x ≈ ∆x ∂x f ( x0 + ∆x, y 0 ) − f ( x0 − ∆x, y 0 ) ∂f 2 fx = ≈ → E ∝ (∆x ) ∂x 2 ⋅ ∆x ( ) f x0 , y 0 − f ( x0 − ∆x, y 0 ) ∂f fx = ≈ → E ∝ ∆x ∂x ∆x [9]. fx = Las aproximaciones de diferencia central para las segundas derivadas de f ( x, y ) en (x0 , y0 ) están dadas por: f ( x0 + ∆x, y 0 ) − 2 ⋅ f ( x0 , y 0 ) + f ( x0 − ∆x, y 0 ) ∂2 f f xx = 2 ≈ ∂x (∆x )2 f ( x0 , y 0 + ∆y ) − 2 ⋅ f ( x0 , y 0 ) + f ( x0 , y 0 − ∆y ) ∂2 f f yy = 2 ≈ ∂y (∆y )2 f ( x0 + ∆x, y 0 + ∆y ) − f ( x0 − ∆x, y 0 + ∆y ) ∂2 f ≈ ∂x ⋅ ∂y ∆x ⋅ ∆y − f ( x0 + ∆x, y 0 − ∆y ) − f ( x0 − ∆x, y 0 − ∆y ) + ∆x ⋅ ∆y → E ∝ (∆x ) 2 f xy = [10]. 60 CAPÍTULO 3. DISEÑO MÁQUINA PARALELA. Y CONSTRUCCIÓN DE LA 3.1 Pensamiento y la filosofía de construcción El pensamiento inicial en la construcción de una máquina paralela se basa en la mentalidad de hacer mucho a través de trabajos pequeños.Existe un cuento que puede indicarnos el comportamiento de una máquina paralela, el famoso cuento de la sopa de piedras de Marcia Brown donde es posible realizar una sopa de piedras con la cooperación de un pueblo, la moraleja de este cuento es inmediata: Con la cooperación se alcanzan resultados notables, aun cuando se parta de contribuciones pequeñas, que a simple vista parecen o son insignificantes. La frase “Divide y vencerás”[11] nos indica que para llegar a un objetivo complicado deberemos de partir de diferentes objetivos más pequeños los cuales harán que podremos alcanzar ese objetivo o fin. La construcción de la máquina paralela deberá de seguir esta filosofía para poder realizar miles de millones de cálculos por segundo. Para lograr esto deberemos de explotar el procesamiento en paralelo con numerosos microprocesadores que trabajan en conjunto para resolver problemas de la complejidad de un objetivo en común. Es posible construir una máquina paralela de una manera muy económica, en la cual se sea posible hacer una interconexión de computadoras personales utilizando algún programa que permita resolver problemas científicos de procesamiento paralelo. La idea de la interconexión de computadoras no constituía, en sí misma, ninguna novedad. En los años cincuenta y sesenta, la fuerza área norteamericana tendió la red SAGE, una red de computadoras de válvulas de vacío (bulbos) para protegerse de un inesperado ataque nuclear soviético. A mediados de los ochenta, Digital Equipment Corporation acuñó el término "cluster" (agrupación) al integrar sus minicomputadoras de gama media VAX para formar un sistema mayor. A principios de los noventa, los científicos empezaron a plantearse la creación de agrupaciones de computadoras inducidas en parte por el bajo costo asociado a la producción en masa de sus microprocesadores. Pero, lo que reforzó el atractivo de esa idea fue la caída del precio de Ethernet, la técnica dominante en la interconexión de computadoras en redes de área local. Los avances en la programación facilitaron también el apoyo para formar diversas agrupaciones de varias computadoras. En los años ochenta, UNIX se consolidó como el sistema operativo dominante para la computación científica y técnica. Por desgracia, los sistemas operativos instalados en las computadoras comerciales carecían de la potencia y de la flexibilidad, pero en 1991 un universitario finlandés, Linus Torvalds, creó Linux, un sistema operativo similar a UNIX y que funcionaba en las computadoras personales; Torvalds permitió que su sistema operativo fuera accesible de manera gratuita en Internet. 11 La vieja frase atribuida a Julio Cesar, “Divide et impera” , usada por Napoleón Bonaparte 61 La primera agrupación de computadoras en arreglo (cluster) nació en 1994 en el Centro Goddard de Vuelos Espaciales. La NASA, a la que pertenece dicha entidad, andaba buscando una solución para los complicados problemas computacionales asociados a las ciencias de la Tierra y del espacio. Necesitaba una máquina capaz de alcanzar un Gigaflop, es decir, realizar mil millones de operaciones de punto flotante por segundo. En aquel entonces, una supercomputadora comercial capaz de alcanzar esta velocidad venía a costar un millón de dólares, y dedicarlo a un sólo grupo de investigadores resultaba un gasto imposible. Sterling, investigador del centro Goddard de la NASA decidió adentrarse en el sistema de agrupaciones de computadoras y Con Donald J. Becker, compañero suyo, conectó 16 computadoras, cada una de las cuales contenía un microprocesador Intel 486. Emplearon el sistema Linux y una red Ethernet estándar. Para aplicaciones científicas, esta agrupación de computadoras alcanzaba los 70 Megaflops, o sea, 70 millones de operaciones de punto flotante por segundo. Aunque nos parezca poco de acuerdo con los estándares actuales, esa velocidad no era mucho menor que la de algunas supercomputadoras comerciales de aquel momento. La agrupación se construyó, además, con 40.000 dólares, la décima parte del precio de una máquina comercial con características similares en 1994. Los investigadores de la NASA lo llamaron "Beowulf", en referencia al joven héroe de la leyenda medieval que derrotó al gigante Grendel arrancándole uno de sus brazos. Con ese nombre se designa ahora toda agrupación económica e integrada por computadoras comerciales. El algoritmo principal con el que se rige la computación en paralelo es el principio del “divide y vencerás”. Un sistema de procesadores en paralelo secciona un problema complejo en múltiples tareas de componentes menores. Estas tareas se asignan a los diferentes nodos del sistema que realizan sus tareas de manera simultánea. De acuerdo a la naturaleza del problema la programación y el desempeño dependerán del rendimiento del procesamiento en paralelo ya que depende su alto rendimiento de factores como los tiempos de retardo entre la información que viaja de una computadora a otra, la velocidad de la red y estilo de programación utilizado. Uno de los factores de gran importancia es la frecuencia que tendrán los nodos para comunicarse entre sí y de esta manera coordinar su trabajo y compartir resultados parciales. Hay problemas que requieren dividirse en un número pequeño de tareas minúsculas las cuales necesitan un intercambio frecuente de información, este tipo de tareas no son adecuados para procesado paralelo. Pero los problemas menos sutiles sí pueden repartirse en porciones mayores. Y al no pedir tanta interconexión entre nodos, permiten un procesamiento correcto y con el mínimo de errores. A la hora de crear una máquina paralela se deberá de decidir entre varios aspectos esenciales que afectan el diseño del sistema. Un factor importante es el que podamos usar cualquier tipo de red para conectar las computadoras. 62 3.2 Aspectos generales de la programación en paralelo La programación en paralelo requiere habilidad e ingenio para determinar un tiempo único de disparo (tiempo temporal cero) de donde parten todos los procesos iniciales. Puede constituir un reto mayor que la propia conexión de las computadoras para crear el sistema Beowulf. Por modelo de programación es acostumbrado recurrir a aplicaciones del tipo cliente servidor. En él, un nodo, que actúa como cliente, dirige el procesado desarrollado por otro o varios más nodos servidores. Es posible que se ejecute el mismo software en todos los nodos que integran la máquina paralela y se asignarán secciones diferentes del código a los nodos cliente, el servidor y cada microprocesador de la agrupación. Por lo que sólo se ejecuta la sección apropiada para su tarea. Los errores de programación pueden tener consecuencias importantes y provocar un descontrol general en la cadena general y en cada nodo, cuando la falla se presenta en un nodo, ésta se transmite a los demás. La búsqueda del error en el código puede resultar una tarea muy complicada y muy frustrante. Antes de poder realizar cualquier tipo de consideración inicial para la construcción de la máquina paralela considerada en este documento, es preciso determinar cuales son los aspectos escenciales para su correcta construcción. Sobre estos aspectos hablaremois a continuación. 3.2.1 Tipo de Hardware Una agrupación homogénea de computadoras en la que todas las computadoras tienen los mismos componentes y microprocesadores permite simplificar la programación y la administración de los nodos mas no deberá de ser requisito imprescindible. La máquina paralela para cumplir con los objetivos del presente trabajo, deberá soportar una mezcla de microprocesadores de tipos y velocidades diferentes Ya que se utilizará el equipo que no se encuentre activo y sea posible conseguir por estar en desuso o que nos proporcionen. El tipo de hardware utilizado, representa un aspecto complicado en el diseño, ya que el fin es el de buscar la distribución del trabajo para su procesamiento en paralelo en las computadoras que conforman el sistema. Dado que la máquina paralela puede tener procesadores de diferentes arquitecturas y de velocidades muy distintas, no podemos repartir de una forma homogénea la carga de trabajo entre los nodos: si actuáramos así, las máquinas más rápidas estarían ociosas durante largos períodos de tiempo a la espera de que las computadoras más lentas, acaben su procesamiento. Por esto el uso de programas de código abierto es muy importante, ya que nos permite modificar el origen del código para adaptarlo a lo que sea más apropiado en cada caso en particular. En este tipo de organización es importante hacer la distribución de la carga, las computadoras más rápidas realizan la mayor parte del trabajo, aunque las máquinas lentas contribuyen al funcionamiento del sistema. El microprocesador es uno de los componentes más importantes, ya que en su velocidad y capacidad es posible determinar la calidad del resto de los elementos. El Microprocesador, para entendernos, y de una manera simple, es el cerebro de la computadora. Es definido como un chip en cuyo interior se encuentran millones de transistores que, combinándose entre ellos, permiten al chip realizar la tarea que tenga encomendada. 63 La unidad de medida que se emplea para expresar la velocidad del microprocesador es el hertz (Hz), aunque la velocidad real de un procesador depende de otros factores, también nos indica más o menos la cantidad de instrucciones que el microprocesador puede realizar en un segundo. Cada computadora, cuenta con una unidad aritmética, una unidad lógica y una unidad de control. Todas estas unidades en conjunto trabajan sincronizadamente controladas por los pulsos de un reloj maestro que coordina la ejecución de todas las operaciones que se realizan por parte del microprocesador. Cuenta además con una antememoria (memoria cache), la cual es una memoria de gran velocidad que sirve al microprocesador para tener los datos recientes que previsiblemente se utilizarán en próximas operaciones sin tener que acudir a la memoria RAM, reduciendo así el tiempo de espera. La computadora en algunos casos podría contar con un coprocesador matemático, este componente es la parte del microprocesador especializado en los cálculos matemáticos, aunque también formar parte de otro circuito. Acontinuación menciono algunos años clave importantes en la historia de los microprocesadores. El 17 de octubre Intel anunciaba la aparición del procesador 80386 DX, el primero en poseer una arquitectura de 32 bits, lo que suponía una velocidad a la hora de procesar las instrucciones realmente importantes con respecto a su predecesor. Dicho procesador contenía en su interior alrededor de los 275000 transistores, más de cien veces los que tenía el primer 4004 después de tan solo 14 años. El reloj llegaba a un máximo de 33 MHz, y era capaz de direccionar 4 GB de memoria. En 1988, Intel desarrollaba un poco tarde un sistema sencillo de actualizar los antiguos 80286, gracias a la aparición del 80386 SX, que sacrificaba el bus de datos para dejarlo en uno de 16 bits, pero a menor coste. Estos procesadores irrumpieron, con la explosión del entorno gráfico Windows desarrollado por Microsoft unos años antes pero que no había tenido la suficiente aceptación por parte de los usuarios. El 10 de Abril de 1989, aparecía el Intel 80486 DX, de nuevo con tecnología de 32 bits, y como novedades principales la incorporación del caché de primer nivel (L1), en el propio chip, lo que aceleraba enormemente la transferencia de datos de este caché al procesador, así como la aparición de coprocesador matemático también integrado en el procesador, dejando por tanto de ser una opción como lo era en los anteriores 80386. Dos cambios que unidos al hecho de que por primera vez se sobrepasaban el millón de transistores usando la tecnología de una micra (aunque en la versión de este procesador que iba a 25 MHz, se usó ya la tecnología de 0,8 micras), hacían posible la aparición de programas de calidad sorprendente, entre los cuales destacaron los juegos. Con una arquitectura real de 32 bits, se usaba de nuevo la tecnología de 0.8 micras, con lo que se lograba construir más unidades en el menor espacio. Los resultados no se hicieron esperar y las compañías empezaron aunque de forma tímida a lanzar programas y juegos exclusivamente para el Pentium. 64 La aparición, el 27 de marzo de 1995, del procesador Pentium Pro, supuso para los servidores de la red y las estaciones de trabajos un aire nuevo, tal y como ocurriera con el Pentium en el ámbito doméstico. La potencia de este nuevo procesador no tenía comparación hasta entonces, gracias a la arquitectura de 64 bits y el empleo de una tecnología revolucionaria como es la de 0.32 micras, lo que permitía la inclusión de 5,500.000 transistores en su interior. El procesador contaba con un segundo chip en el mismo encapsulado que se encargaba de mejorar la velocidad de la memoria caché, lo que resultaba en un incremento del rendimiento sustancioso. Las frecuencias de reloj se mantenían como límite por arriba de 200 MHz, partiendo de un mínimo de 150 MHz. Un procesador que en principio no tenía muchos avisos de saltar al mercado doméstico, puesto que los procesadores Pentium MMX, parecían cubrir de momento todas las necesidades de este campo. El Pentium II, fue simplemente un nuevo ingenio que se sumó a las tecnologías del Pentium Pro con el MMX. Como resultado, el Pentium II fue el procesador más rápido de cuantos a comerciado Intel, hasta principios de 1999. El Pentium II cuenta con 256 KB de caché secundaria integrados en el núcleo del micro su rendimiento mejora en todo tipo de aplicaciones. La última apuesta de Intel, que representa todo un cambio de arquitectura; pese a su nombre, internamente poco o nada tiene que ver con otros miembros de la familia Pentium.Se trata de un microprocesador peculiar: su diseño permite alcanzar mayores velocidades, con menos potencia por cada MHz que los micros anteriores; es decir, que un Pentium 4 a 1,3 GHz puede ser mucho más lento que un Pentium III a "sólo" 1 GHz. Para ser competitivo, el Pentium 4 debe funcionar a 1,7 GHz o más. Ha habido muchos cambios en el campo de los discos duros. De más antiguos del tamaño de una caja de zapatos y de capacidades ridículas (vistas desde hoy) hasta discos duros compactos y reducidos con capacidades 400 veces mayores. El tiempo de acceso es el parámetro más usado para medir la velocidad de un disco duro, y lo forman la suma de dos factores: el tiempo medio de búsqueda y la latencia; el primero es lo que tarde el cabezal en desplazarse a una pista determinada, y el segundo es el tiempo que emplean los datos en pasar por el cabezal. Si se aumenta la velocidad de rotación, el tiempo de latencia se reduce; en antiguas unidades era de 3.600 rpm (revoluciones por minuto), lo que daba un tiempo de latencia de 8,3 milisegundos. La mayoría de los discos duros actuales giran ya a 7.200 rpm, con lo que se obtienen 4,17 micro segundos de tiempo de latencia. Y actualmente, existen discos de alta gama aún más rápidos, hasta 10.000 rpm. El controlador del Disco duro, es un componente electrónico que maneja el flujo de datos entre el sistema y el disco, es directamente responsable de factores como el formato en que se almacenan los datos, su tasa de transferencia y su velocidad. Los primeros discos duros eran administrados por controladores ST506, un estándar creado por la empresa Seagate. Dentro de esta norma se implementaron los modos MFM (Modified Frequency Modulation) y RLL (Run Length Limited), dos sistemas para el almacenamiento de datos que, si bien diferentes en su funcionamiento, a nivel físico y externo del disco presentaban la misma apariencia. 65 La Interfase ESDI (Enhanced Small Devices Interfase) (interfaz mejorada para dispositivos pequeños), permitió elevar el radio de transferencia a 10 Mbits por segundo. Asimismo, se incluyó un pequeño buffer de sectores que permitía transferir pistas completas en un único giro o revolución del disco, se trató de una tecnología de transición, ya que comercialmente no fue muy bien aceptada. El estándar IDE (Integrated Drive Electronics), fue creado por la firma Western Digital, curiosamente por encargo de Compaq para una nueva gama de computadoras personales. Su característica más representativa era la implementación de la controladora en el propio disco duro, de ahí su denominación. Desde ese momento, únicamente se necesita una conexión entre el cable IDE y el Bus del sistema, siendo posible implementarla en la placa. Se eliminó la necesidad de disponer de dos cables separados para control y datos, bastando con un cable de 40 hilos desde el bus al disco duro. Se estableció también el término ATA (AT Attachment) que define una serie de normas a las que deben acogerse los fabricantes de unidades de este tipo. IDE permite transferencias de 4 Mb por segundo. La interfaz IDE supuso la simplificación en el proceso de instalación y configuración de discos duros, y estuvo durante un tiempo a la altura de las exigencias del mercado. La interfaz EIDE o IDE mejorado, propuesto también por Western Digital, aumenta su capacidad, hasta 8,4 Gb, y la tasa de transferencia empieza a subir a partir de los 10 Mb. por segundo, según el modo de transferencia usado. Además, se implementaron dos sistemas de traducción de los parámetros físicos de la unidad, de forma que se pudiera acceder a superiores capacidades. Estos sistemas, denominados CHS y LBA aportaron ventajas, ya que con mínimas modificaciones se podían acceder a las máximas capacidades permitidas. El número de unidades que podían ser instaladas al mismo tiempo aumentó a cuatro, para esto se obligó a los fabricantes de sistemas y de BIOS (Basic input output system.- Sistema basico de entrada y salida) a soportar los controladores secundarios, se habilitó la posibilidad de instalar unidades CD-ROM y de cinta. Prácticamente todos los discos duros incluyen una memoria de paso (buffer), en la que almacenan los últimos sectores leídos ésta que puede ser desde 2 Kb hasta 512 Kb, es un factor muy importante que afecta al rendimiento. Se le llama caché cuando incluyen ciertas características de velocidad; concretamente, los procesos se optimizan cuando el sistema vuelve de una operación de copiado de datos a la unidad sin esperar a que ésta haya finalizado. También utilizan otra técnica diferente donde la unidad informa de la finalización de una operación de escritura en el momento de recibir los datos, antes de comenzar a grabarlos en el disco. La interfaz SCSI (Small Computer System Interfase) ha sido tradicionalmente relegada a tareas y entornos de ámbito profesional, en los que priva más el rendimiento, la flexibilidad y la fiabilidad. Para empezar, SCSI es una estructura de bus separada del bus del sistema. De esta forma, evita las limitaciones propias del bus del PC. Además, en su versión más sencilla permite conectar hasta 7 dispositivos SCSI (serían 8 pero uno de ellos ha de ser la propia controladora) en el equipo. Las ventajas no están limitadas al número de periféricos sino también a su tipo: se puede conectar prácticamente cualquier dispositivo (escáner, impresoras, CD-ROM, unidades removibles, etc.) siempre que cumplan con esta norma. Otra enorme ventaja de SCSI es su portabilidad; esto quiere decir que podemos conectar nuestro disco duro o CD-ROM a computadoras Macintosh, Amiga, etc., que empleen también la norma SCSI. Un detalle a resaltar que todos los periféricos SCSI son inteligentes, es decir, cada uno posee su 66 propia ROM donde almacena sus parámetros de funcionamiento. En especial, es la controladora el dispositivo más importante de la cadena SCSI, que al poseer su propia BIOS puede sobrepasar limitaciones de la ROM BIOS del sistema. Posiblemente lo que hace destacar a SCSI en su rendimiento, bastante superior a IDE , es no depender del bus del sistema. No obstante, no todo iba a ser ventajas: SCSI es más caro que IDE, y en la mayoría de las ocasiones, más complejo de configurar. Considerando construir una maquina paralela formada con 8 computadoras proporcionadas por el CIDETEC-IPN, me es posible establecer el siguiente hardware: • • • • • • • • • • 8 tarjetas madre 486 con un procesador 8 procesadores de velocidad variable 8 módulos de memoria tamaño variable 8 Discos duros de mínimo 1 GB. 8 gabinetes. 8 fuente de poder tipo XT 8 Cables IDE. 8 tarjetas de video. 1 teclado Monitor Samsung 14 pulgadas. 3.2.2 Tipo de red de Comunicación El tipo de red que deberá de selecionarsetiene mucho que ver con las características en precios , eficiencia y operación y velocidad. Ethernet tiene un rendimiento de 10 Mbps y usa un método de acceso por detección de portadora (CSMA/CD). El IEEE 802.3 también define un estándar similar con una ligera diferencia en el formato de las tramas. Todas las adaptaciones del estándar 802.3 tienen una velocidad de transmisión de 10 Mbps con la excepción de 1Base-5, el cual transmite a 1 Mbps pero permite usar grandes tramos de par trenzado. Las topologías más usuales son: 10Base-5; 10Base-2 y 10Base-T, donde el primer número del nombre señala la velocidad en Mbps y el número final a los metros por segmento (multiplicandose por 100). Base viene de banda base (baseband) y Broad de banda ancha (broadband). Ethernet e IEEE 802.3 especifican tecnologías muy similares, ambas utilizan el método de acceso al medio CSMA/CD, el cual requiere que antes de que cualquier estación pueda transmitir, debe escuchar la red para determinar si actualmente está en uso. Si es así, la estación que desea transmitir espera y si la red no está en uso, la estación transmite. En CSMA/CD todos los nodos tienen acceso a la red en cualquier momento, una colisión ocurrirá cuando dos estaciones detectaron silencio dentro de la red y enviaron datos al mismo tiempo, en este caso ambas transmisiones se dañan y las estaciones deben transmitir algún tiempo después (acceso aleatorio). 67 Como ya lo hemos dicho Ethernet utiliza el método de acceso al medio CSMA/CD (Carrier Es CSMA ya que múltiples computadoras pueden acceder simultáneamente al cable Ethernet y determinar si se encuentra activo o no, simplemente escuchando si la señal está presente, por otro lado CD “detección de colisión” se refiere a que cada transceptor monitorea el cable mientras está transfiriendo para verificar que una señal externa no interfiera con la suya. Sense Multiple Access with Collision Detection). El estándar 10Base-T ofrece muchas de las ventajas del Ethernet sin la necesidad de usar el caro cable coaxial. Además permite una topología en estrella o distribuida para grupos de estaciones en departamentos u otras áreas. Parte de la especificación 10Base-T busca la compatibilidad con otros estándares 802.3 del IEEE. Esto facilita la transición de un medio a otro; las placas Ethernet ya instaladas se pueden aprovechar si pasamos de coaxial a par trenzado. La siguiente figura muestra una red simple 10Base-T. La especificación 10Base-T incluye una característica de comprobación del cable llamada comprobación de integridad del enlace. Con esta prestación, el sistema comprueba constantemente la conducción del par trenzado para detectar circuitos abiertos y cortocircuitos. El control se mantiene desde un punto central. Cuenta con las siguientes ventajas: 1. Tolerante a fallas. 2. Fácil ubicación de fallas. 3. Fácil de trasladar o cambiar. 4. Uso de cable de par trenzado blindado. Desventajas: 1. Limitación de distancias. 2. Sensible al ruido. 3.2.3 El sistema operativo. El programa base fundamental de todos los programas de sistema, es el Sistema Operativo, que controla todos los recursos de la computadora y proporciona la base sobre la cual pueden escribirse los programas de aplicación. Con las primeras computadoras, era algo muy complicado ser programador, no sólo porque los lenguajes de programación no habían evolucionado sino porque se debía manejar la computadora desde la consola y la consola en aquellos tiempos significaba un gran sistema de interruptores. Afortunadamente, esto ha ido cambiando y se lo debemos, en parte, a que han nacido y evolucionado los Sistemas Operativos. Como también lo han hecho las máquinas, los lenguajes de programación e incluso las ideas. 68 Un Sistema Operativo es un programa que actúa como intermediario entre el usuario y el hardware de una computadora, es el instrumento indispensable para hacer de la computadora un objeto útil. Su propósito es proporcionar un entorno en el cual el usuario pueda ejecutar programas. El objetivo principal de un Sistema Operativo es, lograr que el sistema de computación se emplee de manera eficiente y se administren los recursos eficientemente. Entre las principales funciones del sistema operativo están: 1. Administración de recursos de la computadora. Su función es la de administrar los dispositivos de hardware en la computadora. 2. Control de lo que hace la computadora y de cómo lo hace. Las actividades principales que se realizan van enfocadas a controlar los datos y los programas, administrar y mantener los sistemas de archivo de disco. 3. Permitir la comunicación usuario máquina. Permite proporcionar ya sea una interfaz de línea de comando o una interfaz gráfica al usuario, para que este último se pueda comunicar con la computadora. Con el paso del tiempo, los Sistemas Operativos fueron clasificándose de diferentes maneras, dependiendo del uso o de la aplicación que se les daba. A continuación se mostrarán diversos tipos de Sistemas Operativos que existen en la actualidad, con algunas de sus características. • Sistemas operativos por lotes. Se reúnen todos los trabajos comunes para realizarlos al mismo tiempo, evitando la espera de dos o más trabajos como sucede en el procesamiento en serie. Estos sistemas son de los más tradicionales y antiguos, y fueron introducidos alrededor de 1956 para aumentar la capacidad de procesamiento de los programas. • Sistemas operativos de tiempo real. Son aquellos en los cuales no tiene importancia el usuario sino los procesos. Por lo general, están sub utilizados sus recursos con la finalidad de prestar atención a los procesos en el momento que lo requieran. Se utilizan en entornos donde el tiempo de respuesta es critico. • Sistemas operativos de multiprogramación o multitarea. Se distinguen por sus habilidades para poder soportar la ejecución de dos o más trabajos activos (que se están ejecutado) al mismo tiempo. Esto trae como resultado que la Unidad Central de Procesamiento (CPU) siempre tenga alguna tarea que ejecutar, aprovechando al máximo su utilización. • Sistemas operativos de tiempo compartido. Permiten la simulación de que el sistema y sus recursos son todos para cada usuario. El usuario hace una petición a la computadora y ésta la procesa tan pronto como le es posible. La respuesta aparecerá en la terminal del usuario. • Sistemas operativos paralelos. En estos tipos de Sistemas Operativos se pretende que cuando existan dos o más procesos que compitan por algún recurso se puedan realizar o ejecutar al mismo tiempo. 69 • Sistemas operativos distribuidos. Permiten distribuir trabajos, tareas o procesos entre un conjunto de procesadores. Puede ser que este conjunto de procesadores esté en un equipo o en diferentes, (en este caso es transparente para el usuario). Los sistemas distribuidos deben de ser muy confiables, ya que si un componente del sistema se descompone otro componente debe de ser capaz de reemplazarlo. • Sistemas operativos de red. Son aquellos sistemas que mantienen a dos o más computadoras unidas a través de algún medio de comunicación (físico o no) con el objetivo primordial de poder compartir los diferentes recursos y la información del sistema. 3.3 Elección de componentes para la construcción de la maquina paralela El sistema operativo considerado para la construcción de la máquina paralela es LINUX Mandrake versión 9.2 ya que es de costo limitado o bien casi ningún costo, de no pagar licencias y ser de libre distribución, además de tener múltiples ventajas relacionadas a un excelente desempeño y fortaleza en servicios e interfaz gráfica simple. Estas ventajas son las siguientes: El sistema operativo Linux Mandrake versión 9.2 (codename: Bamboo) es un sistema más avanzados y potente con relación a los sistemas Linux disponibles hoy en día, con características de vanguardia como Apache 2, redimensionado de particiones NTFS de disco duro, control de energía ACPI, soporte de red zeroconf, soporte WI-FI. Linux Mandrake 9.2 da a los usuarios un nivel de comodidad sin igual con un instalador gráfico simplificado, un tema de escritorio Mandrake Galaxy completamente nuevo, impresionantes fuentes anti-alias por supuesto, los nuevos escritorios gráficos KDE 3.1 y GNOME 2.2. Mandrake Linux 9.2 incluye el siguiente software necesario para el proyecto: 1. 2. 3. 4. 5. 6. 7. 8. 9. Kernel 2.4.21: Núcleo de Linux configurable XFree 4.3: Servidor X para acceso remoto Glibc 2.3.1: Librerias de Lenguaje c GCC 3.2.2 : Compilador GNU C estándar Apache 2: Servidor WEB. OpenSSH 3.5: Servidor de conexión remota. KDE 3.1: Escritorio tipo Windows. GNOME 2.2:Escritorio tipo Windows Mozilla 1.3 Linux Mandrake 9.2 está optimizado para procesadores 486 y superiores (y compatibles), por lo que no funcionará en procesadores x86 antiguos. Cuenta con una configuración mejorada y mayor cantidad de hardware soportado. Mantenimiento del sistema simplificado y Amplia selección de aplicaciones de oficina. 70 Cuenta con multimedia y juegos, servicios de servidores, Internet e Intranet, seguridad de alto nivel, todo el software necesario para el desarrollo de aplicaciones, esta disponible en 60 idiomas y Esta regido por los estándares de Linux y Software Libre. El sistema básico de Linux Mandrake está disponible como descarga gratuita en muchos lugares de Internet. Linux Mandrake 9.2 está diseñado especialmente para el uso personal. Incluye 2 CDS con miles de las mejores aplicaciones multimedia, gráficas y de productividad. Linux Mandrake nos permitirá configurar servicios adicionales e incluye todo lo necesario para instalar y desplegar fácilmente servicios de red profesionales, como Apache 2 y Advanced Extranet Server. El kerner de Linux 2.4.21 proporciona soporte nativo para gran cantidad de memoria mayor a 1024 MB y MultiProceso Simétrico. 3.3.1 Tipo de carga del sistema operativo para la máquina paralela. Existen dos métodos para poder realizar la carga del sistema operativo utilizando Linux, estas formas de acceso se refieren a la manera de como cada nodo realiza la petición de carga. Las dos formas de carga son las siguientes: a) Carga Local. En este tipo de carga el sistema operativo es instalado en forma local en el disco duro. Por lo que la instalación deberá de ser considerada de acuerdo a las características del cliente que vaya a utilizarse. b) Carga Remota. Éste se divide a su vez en tres formas: 1. Arranque vía protocolo. Desde el momento en que la computadora es encendida, ésta deberá ser capaz de reconocer los dispositivos locales e intentar dar de alta los servicios de arranque a través de su tarjeta de red. 2. Identificación DHCP. Los clientes no pueden almacenar el kernel con el que deben arrancar. Este se encontrará en el servidor y ser deberá de ser trasferido cada vez que el cliente lo solicite. Es necesario un disco de carga que le de una dirección IP a la máquina y un nombre. 3. Descarga de la imagen del kernel vía protocolo TFTP. Igualmente los clientes no pueden almacenar el kernel con el que deben arrancar. Este protocolo primitivo de ftp crea una pequeña cache donde se va cargando un kernel especial que da de alta el nodo. 4. Por último, vía protocolo NFS, se le asigna su directorio de trabajo. Para realizar lo anterior es necesario crear un disco de arranque con una imagen de craga. La imagen de carga no es mas que los archivos basicos de carga del sistema operativo , el el proceso completo puede observarse en la figura 22. 71 Figura 22.- Ejemplo del Proceso de Carga Remota 3.3.2. Aplicaciones y Programas. 3.3.2.1 Servicios requeridos Existen servicios básicos los cuales deberán de configurarse en el nodo principal y van relacionados a tipo de carga del sistema operativo que se seleccione. Sin embargo para dar una generalidad de servicios las cuales puedan servir a cualquier esquema antes mencionado bastarán con configurar los siguientes: a) Servidor RPL. b) Servidor DHCP. c) Servidor TFTP. d) Servidor de NFS. e) Servidor RSH. 3.3.2.1.1 El servidor RPL. El protocolo RPL (remote protocol load, Carga por protocolo remoto), ha sido diseñado para el arranque desde tarjetas de red y le da al servidor la posibilidad de hacer peticiones por DHCP (Dynamic Host Configuration Protocol-Protocolo de configuración de localidades dinamicas), servicio que no posee debido a su falta de disco duro. Al instalar una tarjeta de red con este soporte permitirá interrumpir a la BIOS del servidor, en este caso un nodo cliente, con la interrupción del BIOS-ROM, INT 19H para administrar el arranque desde este dispositivo. Es necesario que la tarjeta madre de este nodo cliente cuente con esta característica, algo común en las tarjetas actuales. La estructura de datos en que se basa RPL es una pequeña imagen llamada ROM, que deberá ser transferida al Nic. Esta ROM puede ubicarse en 2 localidades: 72 a. Integrarse directamente en el hardware del Nic. Esta posibilidad sólo viene contemplada en las tarjetas más caras puesto ya que requiere un chip llamado boot ROM específico para cada modelo, tiene una capacidad de unos 32KB. b. La segunda que es más económica, consiste en montar un servidor de Roms, para que los clientes obtengan la suya desde él. Esta posibilidad ofrece ventajas tanto a nivel de flexibilidad y ya no será necesario el chip. Las imágenes en ROM ocupan 16KB. 3.3.2.1.2 El servidor DHCP (dynamic host configuration protocol). DHCP es un superconjunto de las operaciones que puede realizar una llamada especial de carga llamada bootstrap o BOOTP, la cual es una mejora sobre el antiguo protocolo de arranque RARP (ARP remoto). Se utiliza DHCP para conseguir la dirección IP. El funcionamiento de BOOTP y DHCP, es simple cuenta de los siguientes procesos: 1. Realizar intercambios de un sólo paquete con el mismo formato tanto para peticiones como respuestas. Este paquete o datagrama es de tipo IP/UDP y utiliza el tiempo muerto del sistema (timeout) para retransmitir, mientras no se reciba respuesta a una petición. 2. Solicita un BOOTREQUEST. Existe un código de control llamado BOOTREQUEST, el cual usa el puerto 68, las peticiones BOOTREQUEST contienen el nombre de la máquina que las solicitó y si ésta es conocida. 3. Solicita un BOOTREPLY. Existe un código de control llamado BOOTREPLY el cual usa el puerto 67 para solicitar peticiones del archivo que debe de descargarse. Los servidores se comportan como compuertas, permitiendo peticiones BOOTP entre varias redes. En breve el funcionamiento se resume a lo siguiente: • El cliente rellena un paquete con todos los campos que conoce y con el código de petición, y lo difunde a la dirección 255.255.255.255 de broadcast. • A continuación contesta el servidor, moldeando el paquete de manera especifica para que el cliente reciba el paquete y lo procese para establecer los parámetros de su dirección IP. • El servidor de DHCP se inicia como proceso residente (llamado demonio), utilizando un servicio de red llamado inetd o xinetd. 73 3.3.2.1.3 El servidor TFTP (trivial ftp). Este protocolo es un FTP especial mucho más simple. Para empezar, la capa de transporte utiliza UDP en lugar de TCP y transferencia por bloques para el envío de los archivos, lo que hace más sencilla la transferencia. El otro motivo por el que se utiliza UDP y un mecanismo tan simple de control de paquetes es porque se necesita que el programa y lo mínimo de pila IP ocupen poco en memoria para que este pueda grabarse en ROM, que inherentemente disponen de poca capacidad, máximo 32 KBytes. El servidor también es controlado por un servicio de red llamado inetd (demonio de configuración de servicios de red). Su configuración se centrará en el servidor, puesto que el cliente lo adopta de forma explícito. Existen dos tipos técnicas de configuración para este protocolo y éstas son: a. Simple. No se establecer normas de seguridad. b. Seguro. Basa su seguridad en una llamada a un proceso llamado chroot, (una función del sistema operativo). De este modo, en la ejecución de la rutina de aceptación de peticiones, el directorio exportado se convierte en directorio raíz. Consecuentemente el acceso a otros archivos es más difícil. El protocolo TFTP es un servicio inseguro, ya que el propio protocolo es simple e inseguro, por lo que es recomendable que el servidor que posea este servicio esté aislado de cualquier red que no garantice medidas serias de seguridad. En casi contrario, cualquiera podría sustituir los archivos que descargan los clientes e incluir en ellos alguna rutina no deseada. 3.3.2.1.4 El servidor NFS NFS es el sistema de almacenamiento ingeniado por Sun Microsystems y que utiliza RPC (Remote Procedure Call-Procedimiento de llamadas remotas). Es un modelo de servidores sin estado, es decir, los servidores NFS no guardan en ningún momento los archivos a los que se están accediendo. El funcionamiento se basa en dos secciones: cliente y servidor. El cliente monta el sistema de archivos exportado por el servidor y a partir de este momento accede a los archivos remotos como si fuesen propios. Este sistema es utilizado desde hace tiempo en casi todos los sistemas UNIX como método de compartir archivos en red. La función NFSroot designa el método que sigue el kernel cuando en lugar de tomar el clásico sistema de archivos ext2 o reiserfs. El sistema de archivos que debemos exportar en el servidor debe contener todos los archivos necesarios para que la distribución pueda funcionar. Este factor es muy variable, dentro de cada distribución. En principio debe de establecerse una política que nos indique que directorios deben ser necesariamente de lectura y escritura o solamente de lectura. Una buena forma de ahorrar espacio en el servidor sería exportando para todos los clientes los mismos directorios para sólo lectura y particularizando para cada uno los de escritura y lectura. 74 3.3.2.1.5 El servidor RSH El servidor RSH forma parte de un programa de comunicación llamado SSH (Secure Shell). SSH es un programa que permite realizar conexiones entre máquinas a través de una red abierta de forma segura y ejecutar comandos. El programa SSH provee fuerte autenticación y comunicación segura sobre un canal inseguro y nace como un reemplazo a los comandos telnet, ftp y rlogin, los cuales proporcionan gran flexibilidad en la administración de una red, pero sin embargo, presenta grandes riesgos en la seguridad de un sistema. Rsh es configurado con los servicios de red llamados inetd. 3.4 Proceso de construcción Una vez que ya tenemos todas las características que debe llevar nuestra máquina paralela procederemos a la construcción en dos fases esenciales: 1. Construcción Física. Aquí se realizará la planeación en cuanto como deben de conectarse los dispositivos para el funcionamiento correcto, también le podríamos llamar acoplamiento de hardware. 2. Construcción lógica. Aquí se realizará el análisis de los procesos queme permitan explotar el hardware ya previamente construido y se refiere al funcionamiento del sistema operativo y sus aplicaciones. 3.4.1 Construcción física Nuestro proyecto deberá de ser una máquina paralela que permita lograr gran desempeño, a bajo costo, por lo que tomaremos la base de construcción básica de un cluster lo que en Linux es llamado Beowulf para adaptarla a un modelo que permita ser. El Beowulf consiste en varios nodos o computadoras completas conectadas mediante un bus de comunicación común bajo un sistema operativo abierto. El esquema de hardware muestra en la figura 23. 75 Figura 23.- Esquema de Hardware de un beowulf. Como es posible ver en la figura cada computadora que dentro del esquema es llamado nodo va conectado a un canal de comunicación, existe una máquina la cual actúa como servidor y se le llama como nodo principal. La eficiencia de este beowulf dependerá de la velocidad entre las conexiones de cana nodo sobre el bus de comunicación, así como de cada nodo con su dispositivo de almacenamiento. En este esquema se aprecia que es requerido un disco duro para cada nodo, una tarjeta de red o una interfaz de comunicación y un bus común para todos los nodos. En la figura 24 se muestra el diagrama a bloques de un cluster tipo beowulf. Figura 24.- Diagrama a bloques de un cluster tipo beowulf. 76 Como se puede observar en la figura anterior la estructura del cluster considera su construcción con base en el bus de comunicaciones, la interfaz y la infraestructura intermedia del cluster para crear un ambiente de programación paralela montada sobre un dispositivo de almacenamiento local. La infraestructura intermedia del cluster se refiere al entorno de lectura de procesos que permiten hacer la redirección a la memoria y al dispositivo de almacenamiento de cada nodo. Cada proceso deberá de correr en forma local de los propios recursos de la máquina. Como es de esperarse la homogeneidad de los recursos de cada nodo es importante para balancear la carga de cálculo en cada uno de los procesadores ya que estos consumirán sus recursos locales, como su memoria y su espacio en almacenamiento de disco y como se espera también un nodo mas actualizado y de mejor velocidad responderá con mejor desempeño que uno antiguo. El esquema de un beowulf considera nodos locales con su memoria y su disco de almacenamiento, también considera contar con el sistema operativo completo y funcional corriendo, lo cual incrementa el costo de construcción, que sin embargo comparado con el costo de una supercomputadora comercial está muy por debajo, pero el objetivo que se persigue en el presente trabajo es no solo alcanzar niveles óptimos de cálculo en la máquina paralela sino además generar un esquema económico. Para poder realizar lo anterior al sistema Beowulf se le harán algunas modificaciones en las que los discos duros son inexistentes o de capacidad de almacenamiento aproximado a 500 MB o más para los nodos de que realizan llamadas a sistema operativo en forma remota y sólo existirá un dispositivo de almacenamiento para el nodo maestro. Por otro llamaremos nodo cliente a aquel nodo que realiza llamadas a sistema operativo en forma remota y que estará formado tan sólo por sus unidades mínimas de funcionamiento. Estas unidades mínimas que permiten crear un nodo integral son las siguientes: a. b. c. d. e. f. Tarjeta Madre. Memoria Fuente de poder Microprocesador Tarjeta de red Unidad de carga. La unidad de carga podrá establecerse de manera que pueda ser un lector de CDROM para leer un disco de arranque, una unidad de cinta, un floppy disk o bien un dispositivo de almacenamiento USB. Todo en conjunto crea el concepto de nodo integral.(Ver figura 25). Una consideración que se debe tomar en cuenta antes de comprar o utilizar una tarjeta madre para un nodo integral es que esta deberá de tener la capacidad de utilizar un teclado tipo USB o bien que el BIOS no necesite del teclado para encender. Las tarjetas madre en la actualidad son muy económicas y ya tienen las dos características anteriores, podría comprarse tarjetas madre que permitan el autoinicio vía red y eso permitirá eliminar del nodo la sección de unidad de carga. Desgraciadamente estas tarjetas son más caras y poco comunes. 77 Como se puede apreciar en el listado, es posible preguntar donde está el teclado, el ratón (mouse) o el monitor, cabe mencionar que cada nodo integral no necesita de esto para su funcionamiento correcto pero sí se utilizará para la su configuración, la cual depende del dispositivo de carga que se utilice lo cual no es lo mismo para un floppy disk que para un CDROM o bien algún dispositivo USB. Figura 25.- El nodo Integral. Se consideró además de cada nodo integral, un nodo maestro al cual llamaremos nodo principal que es el que contendrá en su totalidad el sistema operativo y él o los dispósitivos de almacenamiento que serán utilizados por los nodos integrales, por lo que este nodo contara con los mismos elementos de un nodo integral más un teclado, un ratón o mouse y un monitor. La máquina paralela tendrá entonces dadas las modificaciones indicadas en la figura 26. En este nuevo esquema cada nodo integral depende del dispositivo de carga para poder configurarse dentro del sistema operativo del nodo principal y configurar el entorno, así como los procesos que estarán involucrados en el funcionamiento. El dispositivo de almacenamiento principal se encuentra en el nodo principal y de aquí en un mismo directorio, se tomará el mismo archivo a procesar por cada uno de los nodos integrales de manera que existirá un sólo entorno para cada nodo integral. Este sistema permite garantizar la escalabilidad y el integrar n-nodos integrales al proyecto con el mínimo de problemas. 78 Figura 26.- Esquema principal de la máquina paralela propuesta. Indudablemente el bus de comunicaciones es primordial para que la máquina logre un desempeño correcto y óptimo por lo que analizando los diferentes tipos de topologías de red, fue más factible el tener una red de tipo ethernet 10/100 mb/s por su bajo precio12. Además de que las tarjetas de red conseguidas también soportan esta tecnología (aunque la interfaz para el bus de comunicaciones puede ser diversa), lo único que se requiere es un canal de comunicación simple, así que para la construcción de cualquier otra máquina paralela es posible utilizar cualquier esquema de comunicación vía un análisis de tiempos para ver la factibilidad de éste. El modelo propuesto final en hardware de la máquina paralela dadas las consideraciones anteriores es el mostrado por la figura 27. La correcta configuración del software, en este caso el sistema operativo es muy importante ya que aquí es donde el proyecto cobrará forma 12 Precio de 12 Dlls. Americanos cotizados el dia 12 de febrero de 2006. 79 Figura 27.- El modelo en hardware propuesto final de la máquina paralela. 3.4.2 Construcción Lógica. El procedimiento general que debe de hacer un nodo integral , es más compleja ya que este no cuenta con todos los elementos para darse de alta en la red y no tiene tampoco la capacidad de disco para guardar información. La idea fundamental para configurar los dispositivos de carga es la siguiente: el nodo integral buscará su dirección IP en el servidor de arranque vía protocolo BOOTP, usando la dirección IP inicial como “0.0.0.0” y recibiendo su núcleo vía el protocolo TFTP. El arrancar un sistema a través de pequeños segmentos no es simple, es necesario instalar el paquete nfsboot. 80 Este paquete contiene la imagen de una EPROM de arranque para diferentes tarjetas de red que puede ser grabada directamente pero existen varias vías alternativas para preparar el nodo integral. Si la máquina cuenta con un disco duro, entonces es posible utilizar un pequeño programa tipo DOS, o la imagen binaria del un disquete creado con el comando dd de la siguiente forma: #dd if=imagen of=/dev/fd0H1440 Esta imagen contiene un cliente BOOTP y TFTP. Es necesario configurar un núcleo de Linux, para que tenga la opción nfsroot habilitada. Es necesario poner al día el núcleo con un parche incluido en el paquete nfsboot. Es necesario configurar el soporte para dispositivos de sistemas de archivo ya sea por disquetes o discos duros, pero es obligatorio habilitar soporte TCP/IP, el soporte para tarjeta ethernet y el soporte de sistema de archivos nfs. Y, una vez realizado esto, recompilar el núcleo y reconstruir los módulos de configuración. BOOTPD puede encontrarse en el paquete comprimido bootpd-2.4.tar.gz o bien en su versión compilada binaria. Después de obtener el paquete, es necesario compilarlo e instalarlo, con el fin de que los archivos generados puedan encontrase como servicios en la carpeta /sbin. Al tratarse de un servicio, éste deberá de iniciarse para que esté corriendo como demonio en el sistema, esto es permanentemente y para esto se utiliza el comando; # bootpd –s En el caso de Linux mandrake existe un servicio llamo Xinetd el cual se encarga de la configuración y carga de este servicio por lo que sólo será necesario darlo de alta con la instrucción: #/sbin/chkconfig bootpd on Por ultimo se iniciará el servicio con el siguiente comando: #/etc/rc.d/init.d/xinetd restart El protocolo BOOTP tiene un archivo de configuración llamado bootptab el cual se encuentra en /etc. Este deberá modificarse insertando la dirección IP, su dirección de compuerta (gateway), el servidor de nombres y las direcciones ethernet de las máquinas remotas. En el caso de cada nodo integral se tiene una configuración semejante a la siguiente: global.prof:\ :sm=255.255.255.0:\ :ds=192.168.1.5:\ :gw=192.168.1.19:\ :ht=ethernet:\ :bf=linux: nodo1:hd=/export/root/nodo1:tc=global.prof:ha=0000c0863d7a:ip=193.1.0.1. nodo2:hd=/export/root/nodo2:tc=global.prof:ha=0800110244e1:ip=192.1.0.2 nodo3:hd=/export/root/nodo3:tc=global.prof:ha=0800110244e1:ip=192.1.0.3 nodo4:hd=/export/root/nodo4:tc=global.prof:ha=0800110244e1:ip=192.1.0.4 nodo5:hd=/export/root/nodo5:tc=global.prof:ha=0800110244e1:ip=192.1.0.5 nodo6:hd=/export/root/nodo6:tc=global.prof:ha=0800110244e1:ip=192.1,0.6 nodo7:hd=/export/root/nodo7:tc=global.prof:ha=0800110244e1:ip=192.1.0.7 nodo8:hd=/export/root/nodo8:tc=global.prof:ha=0800110244e1:ip=192.1.0.8 81 Aquí encontraremos las siguientes claves de configuración: 1. sm: Corresponde a la máscara de subred 2. ds: Dirección del servidor de nombres (DNS) 3. gw: Dirección de la pasarela por defecto 4. ht: Tipo de hardware de red 5. bf: Nombre del archivo de arranque Después de esto, cada máquina debe tener una línea donde se tiene el siguiente esquema: 1. El primer campo contiene el nombre de la máquina 2. hd contiene el directorio del archivo de arranque 3. El archivo de esquema general debe ser incluido en el campo tc 4. ha contiene la dirección de hardware de la tarjeta de red 5. ip contiene la dirección ip que se asigna 3.4.3 Instalación del nodo principal Para la instalación del nodo principal bastará con tener instalados los servicios básicos antes mencionados. Es necesario un sistema Linux completo, además de espacio en disco para exportarlo para lectura y escritura en el nodo integral. Es necesario montar el directorio exportado en algún lugar común sobre el sistema de archivos de la máquina Linux. Es posible crear los subdirectorios para los nodos integrales utilizando el siguiente script , se establece que los nodos integrales son llamados nodo1,nodo2: cd /export/linux for x in [nodo2 nodo3 nodo4 nodo5 nodo6 nodo7] ; do mkdir $x; cd $x (cd ../nodo1; tar cf - *) | tar xvf – done Una vez hecho esto, es necesario realizar las siguientes exportaciones: /export/linux/usr: Sólo lectura para todo el mundo /export/linux/nodo1: Solamente para nodo1 con permisos rw,root /export/linux/nodo2: Solamente para nodo1 con permisos rw,root /export/linux/nodo3: Solamente para nodo1 con permisos rw,root /export/linux/nodo4: Solamente para nodo1 con permisos rw,root 82 /export/linux/nodo5: Solamente para nodo1 con permisos rw,root /export/linux/nodo6: Solamente para nodo1 con permisos rw,root /export/linux/nodo7: Solamente para nodo1 con permisos rw,root Como se indica a continuación el archivo /etc/export quedaria así: # Este archivo es /etc/export # La siguiente línea es una única: /etc/root/usr -access=linuxnet # Las siguientes líneas corresponden a una por cada máquina /export/root/nodo1 rw=machine1,root=nodo1 /export/root/nodo2 rw=machine1,root=nodo2 /export/root/nodo3 rw=machine1,root=nodo3 /export/root/nodo4 rw=machine1,root=nodo4 /export/root/nodo5 rw=machine1,root=nodo5 /export/root/nodo6 rw=machine1,root=nodo6 /export/root/nodo7 rw=machine1,root=nodo7 Por último es necesario ejecutar el siguiente comando para actualizar las exportaciones: #exportfs -a Con lo anterior quedara configurado el servidor TFTP, ya que los nodos integrales arrancarán desde el directorio /export. Por ultimo se realiza un enlace que permita montar los directorios al momento en el que el servidor es encendido: #/sbin/mount server://export/linux/usr /usr Como la primera línea de: /export/linux/nodo1X/etc/rc.d/rc.S Hasta este momento los nodos integrales son dados de alta en el sistema operativo como máquinas individuales. La figuras 28 y 29 muestran el diagrama de flujo de la carga de los nodos integrales. 83 Figura 28.- Diagrama de flujo de la carga de los nodos integrales en el sistema operativo (parte 1) 84 Figura 29.- Diagrama de flujo de la carga de los nodos integrales en el sistema operativo (parte 2). Es posible que cada terminal pueda tener acceso a un entorno grafico, así como a diferentes aplicaciones, sin embargo para este proyecto no es necesario, ya que el entorno grafico se encuentra en el nodo principal. Hasta este momento existe conexión entre cada nodo integral y el nodo principal, pero aun no funciona como una máquina paralela. 85 3.4.4 Diseño e implementación de la máquina paralela Para poder crear ahora la máquina paralela es necesario saber como funciona en sus procesos el procesamiento distribuido, que consiste en la administración de varios procesos, ejecutándose en sistemas de computadoras múltiples y distribuidas. La concurrencia es fundamental en todas las áreas que necesitan cómputo paralelo y fundamental para el diseño del sistema operativo. La concurrencia comprende un gran número de características de diseño, donde son incluidos aspectos como la comunicación entre procesos, administración de los recursos, la sincronización en la ejecución de varios procesos y la asignación del tiempo de procesador para cada proceso. Estas características son comunes para sistemas con multiprocesadores y proceso distribuido, e inclusive con sistemas programados con un sólo procesador. La concurrencia puede presentarse en tres contextos diferentes: a) Múltiples aplicaciones: la multiprogramación se creó para permitir que el tiempo de procesador de la máquina fuese compartido dinámicamente entre varias aplicaciones activas. b) Aplicaciones estructuradas: como ampliación de los principios del diseño modular y la programación estructurada, algunas aplicaciones pueden implementarse eficazmente como un conjunto de procesos concurrentes. c) Estructura del sistema operativo: las ventajas de estructuración son aplicables en algunos sistemas operativos y el uso de conjunto de procesos o hilos son aprovechados por los programadores para aprovechar la concurrencia. En un sistema multiprogramado con un único procesador, los procesos se intercalan en el tiempo aparentando una ejecución simultánea. Aunque no se logra un procesamiento paralelo y produce una sobrecarga en los intercambios de procesos, la ejecución intercalada produce beneficios en la eficiencia del procesamiento y en la estructuración de los programas. La intercalación y la superposición pueden contemplarse como ejemplos de procesamiento concurrente en un sistema monoprocesador, los problemas son consecuencia de la velocidad de ejecución de los procesos que no pueden predecirse y depende de las actividades de otros procesos. De la forma en que el sistema operativo trata las interrupciones surgen las siguientes dificultades: 1. Compartir recursos globales implica riesgos de seguridad 2. Para el sistema operativo es difícil administrar en forma óptima los recursos. Dentro de las labores que realiza el sistema operativo se encuentran las siguientes actividades: 1) El sistema operativo debe seguir a los distintos procesos activos 2) El sistema operativo debe asignar y retirar los distintos recursos a cada proceso activo, entre estos se incluyen: 86 i. ii. iii. iv. Tiempo de procesador Memoria Archivos Dispositivos de entrada y salida 3) El sistema operativo debe proteger los datos y los recursos físicos de cada proceso contra los accesos o influencias no intencionadas de otros procesos. 4) Los resultados de un proceso son independientes de la velocidad a la que se realiza la ejecución de otros procesos concurrentes. Para abordar la independencia de la velocidad debemos ver las formas en las que los procesos interactúan. Se puede clasificar la manera como interactúan los procesos en función al nivel de conocimiento que cada proceso tiene de la existencia de los demás. Existen tres niveles de conocimiento: 1) Los procesos no tienen conocimiento de los demás: son procesos independientes que no operan juntos. 2) Los procesos tienen un conocimiento indirecto de los otros: los procesos no conocen a los otros por sus identificadores de proceso pero muestran cooperación el objeto común. 3) Los procesos tienen conocimiento directo de los otros: los procesos se comunican por el identificador de proceso y pueden trabajar conjuntamente. Los procesos concurrentes entran en conflicto cuando compiten por el uso del mismo recurso. Dos o más procesos necesitan acceder a un recurso durante su ejecución y es de alta prioridad que cada proceso deje tal y como esté el estado del recurso que utilice. La ejecución de un proceso puede influir en el comportamiento de los procesos que por él compiten. Cuando existen procesos en competencia, se deben solucionar tres problemas de control: La necesidad de exclusión mutua. Hacer que se cumpla la exclusión mutua provoca un interbloqueo. b) La inanición. Si tres procesos necesitan acceder a un recurso, donde P1 posee al recurso, luego lo abandona y le concede el acceso al siguiente proceso P2, P1 solicita acceso de nuevo y el sistema operativo concede el acceso a P1 Y P2 alternativamente, se puede negar indefinidamente a P3 el acceso al recurso. c) Cooperación entre procesos compartidos. Comprende los procesos que interactúan con otros sin tener conocimiento siquiera de ellos a) 87 Para solucionar problemas de procesos concurrentes, se diseñaron los sistemas operativos actuales, como un conjunto de procesos secuenciales, eficientes y fiables para dar soporte a la cooperación de recursos y de procesos. Los procesos de usuario podrían utilizar estos mecanismos si el procesador y el sistema operativo los hacían disponible. El principio fundamental es el siguiente, los procesos pueden interactuar entre si por medio de simples señales, con esto son obligados a detenerse en una posición determinada hasta que reciba una señal específica. Para controlar esta situación se usan variables especiales llamadas semáforos, los procesos ejecutan funciones primitivas llamadas wait, y si la señal aun no se ha transmitido, el proceso se suspende hasta que tiene lugar la transmisión. Los semáforos son variables que tienen un número entero sobre el que se definen las siguientes operaciones: a. Valor negativo: la operación wait disminuye el valor del semáforo y si el valor no es positivo el proceso que ejecuta se bloquea. b. Operaciones signal: incrementan el número del semáforo. Si el valor es positivo se desbloquea el proceso bloqueado por una operación wait. No hay forma de examinar o manipular los semáforos aparte de estas operaciones. Las funciones primitivas wait y signal se suponen atómicas, es decir no pueden ser interrumpidas y cada rutina puede considerarse como un peso indivisible. Un semáforo solo puede tomar los valores 0 y 1. Los semáforos son más sencillos de implantar y puede demostrarse que tienen la misma potencia de expresión que los semáforos del sistema. Ambos semáforos emplean una cola para mantener los procesos en espera, la cuestión reside en el orden en que se retiran los procesos de la cola. Los semáforos robustos garantizan la inexistencia de inanición en el algoritmo de exclusión mutua, pero no es así en los semáforos débiles, se supone que los semáforos del sistema son siempre robustos ya que son los más adecuados y porque son los tipos de semáforos que más incluyen los sistemas operativos. Adicional a los semáforos existen los monitores. Estos son estructuras de un lenguaje de programación que ofrecen una funcionalidad equivalente a las de los semáforos pero son más fáciles de controlar. La estructura de monitor se ha implementado en varios lenguajes de programación como: Pascal concurrente, Modula-2, Java, etcetera. Para una lista enlazada se puede necesitar un proceso de cierre que bloquee todas las listas enlazadas o bien un cierre por cada elemento de una lista. Un monitor es un módulo de software que consta de uno o más procedimientos, una secuencia de inicio y uno datos locales. Sus características son las siguientes: a. Sólo los procedimientos del monitor acceden a variables de datos locales. b. Un proceso entra en el monitor invocando a uno de sus procedimientos. c. En el monitor sólo un proceso puede ser ejecutado en un momento dado; cualquier otro proceso quedará suspendido esperando la disponibilidad del monitor. d. Al ser un proceso por vez, el monitor puede ofrecer un servicio de exclusión mutua fácilmente. El monitor proporciona variables de condición que son accesibles sólo desde dentro del monitor. Hay dos funciones para operar variables de condición: 88 a. cwait : suspende la ejecución del proceso que llama bajo la condición "c". El monitor está ahora disponible para otro proceso. b. csignal : retorna la ejecución de un proceso suspendido después de un cwait, bajo la misma condición. Si hay varios procesos elige uno de ellos. Si un proceso de monitor ejecuta un csignal y no hay tareas esperando entonces el csignal de pierde. Aunque un proceso puede entrar al monitor llamando a cualquiera de sus procedimientos, se puede decir que el monitor tiene un sólo punto de acceso, custodiado para que sólo un proceso esté en el monitor en un instante dado. Si existen otros procesos tratando de entrar al monitor, estos se colocan en una cola de procesos suspendidos esperando la disponibilidad del monitor. Un proceso dentro de un monitor puede suspenderse a sí mismo, temporalmente, bajo la condición X ejecutando cwait(x), entonces se coloca en una cola de procesos que esperan que cambie la condición X entonces ejecuta un csignal(x) que avisa a la cola de condición correspondiente de que la condición a cambiado.} 3.4.4.1 Intercambio de mensajes Existen dos requisitos básicos que deben satisfacerse cuando los procesos interactúan entre sí y que conforman el intercambio de mensajes. Estos son: 1. La sincronización 2. La comunicación Los procesos tienen que sincronizarse para cumplir la exclusión mutua, los procesos cooperantes pueden necesitar intercambiar información. El intercambio de mensajes es un método que permite que se realice ambas funciones. Este método tiene la ventaja de que es de fácil implementación en sistemas distribuidos y también en sistemas de multiprocesador y monoprocesador de memoria compartida. La funcionalidad real del intercambio de mensajes, generalmente, se da por medio de un par de funciones primitivas: a. Send: Enviar información. b. Receive:Recibir información 3.4.4.2 Sincronización La comunicación de un mensaje implica cierto nivel de sincronización. El receptor no puede recibir un mensaje hasta que sea enviado por otro proceso. Cuando se ejecuta una primitiva send en un proceso, existen dos posibilidades: a. El proceso emisor se bloquea hasta que recibe el mensaje b. El proceso emisor no se bloquea 89 Igualmente cuando un proceso ejecuta una primitiva receive, existen dos alternativas: a. Si previamente se ha enviado algún mensaje, éste es recibido y continua la ejecución. b. Si no hay ningún mensaje esperando entonces: i. El proceso se bloquea hasta que llega un mensaje ii. El proceso continúa ejecutando, abandonando el intento de recepción. El emisor y el receptor pueden ser bloqueantes o no bloqueantes. Existen 3 tipos de combinaciones pero un sistema sólo implementa uno o dos. I. II. III. Envío bloqueante, recepción bloqueante: tanto el emisor como el receptor se bloquean hasta que llega el mensaje; esta técnica se conoce como rendezvous. Envío no bloqueante, recepción bloqueante: aunque el emisor puede continuar, el receptor se bloquea hasta que llega el mensaje solicitado. Es la combinación más útil. Envío no bloqueante, recepción no bloqueante: nadie debe esperar. El send no bloqueante es la forma más natural para muchas tareas de programación concurrente. Un posible riesgo del send no bloqueante es que por error puede llevar a una situación en la que el proceso genere mensajes repetidamente. Para el receive, la versión bloqueante es la más natural para muchas tareas de programación concurrente. En general, un proceso que solicita un mensaje necesitará la información esperada antes de continuar. Es importante disponer de alguna forma de especificar en la primitiva send que proceso va a recibir el mensaje. La mayoría de las implementaciones permiten a los procesos receptores indicar el origen del mensaje que se va a recibir. Los distintos esquemas para hacer referencia a los procesos en las primitivas send y receive se encuadran dentro de 2 categorías: Direccionamiento directo: la primitiva send incluye una identificación específica del proceso de destino. i. La primitiva receive se puede manejar de dos formas: 1. Requiere que el proceso designe explícitamente un proceso emisor. 2. El proceso debe conocer de antemano de que proceso espera un mensaje. En otros casos es imposible especificar el proceso de origen por anticipado. 2. Direccionamiento indirecto: los mensajes no se envían directamente del emisor al receptor, sino a una estructura de datos compartidos formada por colas, que pueden guardar los mensajes temporalmente, que se denominan buzones. Para que los dos procesos se comuniquen, uno envía mensajes al buzón apropiado y el otro los retira. La ventaja principal de este tipo de direccionamiento está en que se desacopla a emisor y receptor, asegurando mayor flexibilidad en el uso de mensajes. 90 Por último existe una clasificación basada en la relación entre emisores y receptores y se encuentra dada de la siguiente forma: 1. Uno a uno: Llamada también punto a punto, permite que se establezca un enlace privado entre dos procesos. 2. Muchos a uno: resulta útil para interacciones cliente-servidor. En este caso el buzón se llama puerto. 3. Uno a muchos: permite un emisor y varios receptores. La asociación de procesos a buzones puede ser estática o dinámica. Los puertos suelen estar asociados estáticamente con algún proceso en particular. El puerto se crea y se asigna al proceso permanentemente. Una relación de uno a uno se define de forma estática y permanentemente. Cuando hay varios emisores, la asociación a un buzón puede realizarse dinámicamente. Se pueden utilizar primitivas como conectar o desconectar. Con base en lo anterior la máquina paralela requerirá que cada buzón se encuentre en forma local, escuchando las llamadas de los buzones de otros nodos integrales e inclusive del nodo principal. El control de los procesos deberá de realizarse de manera remota y cada buzón deberá de tener interacción con los demás buzones. Para poder tener el control de cada nodo con cada uno de los demás es requerido un servicio que permita lograr esta interacción de procesos sin que se vea lastimada la seguridad del proyecto. Este servicio será el RSH que permitirá acceder como determinado usuario a los demás nodos, cabe mencionar que el estándar MPICH es un entorno de programación que permite explotar la configuración de la máquina paralela realizando algunas configuraciones adicionales. Los detalles de como preparar e instalar MPICH incluyen en las secciones siguientes: a. El primer paso es descargar MPICH e instalarlo: La vía más fácil para conseguir el programa es ingresando a la página Web: www.mcs.anl.gov/mpi/mpich/download.html. b. Se adquiere por la vía anterior el archivo mpich.tar.gz , por lo que se deberá de des comprimir usando el siguiente comando: #tar –zxvf mpich.tar.gz Es necesario pre-compilar el código que se obtuvo al hacer la descompresión de MPICH, esto se realiza con el la instrucción siguiente: #./configure -- with-device=ch_p4mpd -- prefix=/usr/local/mpich-1.2.6 91 El proceso de configuración analiza el sistema operativo y determina las opciones y las direcciones de los archivos; esto también crea el archivo makefile el cual permite crear los archivos ejecutables. Es necesario decidir donde se instalará MPICH. Este paso no es estrictamente necesario. A continuación deberemos de compilar el código usando las librerías de GNU gcc las cuales deberán de estar incluidas en el sistema operativo del nodo principal. Estos ejecutables o binarios se crean con la siguiente instrucción: #make Esto puede tomar algún tiempo en crear los archivos definitivos, por último después de concluida esta fase será necesario ejecutar la siguiente orden: #make install Esto sitúa los archivos en el lugar definitivo para su uso. Es necesario que el directorio completamente compilado sea copiado a los recursos compartidos de los nodos integrales, para que el nodo integral pueda ejecutar los demonios correspondientes. Los archivos en su totalidad del directorio BIN deberán de ser copiados al directorio /usr/bin de cada nodo integral y del nodo principal. El método de acceso rsh es más sencillo de utilizar que otros servicios de acceso como el (secure shell) y consume menos recursos , es necesario incluir rlogin como otro servicio de xinetd, el cual será útil para probar el funcionamiento del nodo integral y se configura igual que el servicio rsh y pertenece al demonio xinetd. Este servidor es instalado en defecto, pero por default estos servicios de son inhabilitados. Para habilitarlos se deberá de correr el siguiente comando: ssh #/sbin/chkconfig rlogin on #/sbin/chkconfig rsh on Y deberemos reiniciar el servidor xinetd con el siguiente comando: #/etc/rc.d/init.d/xinetd restart Hasta este momento no es posible establecer comunicación alguna ya que el servicio esta denegado Para permitir a los usuarios de rsh ingresar sin contraseña es necesario editar el archivo /etc/hosts.equiv. Este archivo debe tener los nombres de los nodos integrales y del nodo principal. 92 En el directorio raíz de cada nodo deberá de estar un archivo llamado .rhost en el cual se encuentran todos los nodos, aceptados. Un ejemplo de este archivo es el siguiente: Server # Este es el nodo principal Nodo1 Nodo2 Nodo3 Nodo4 Nodo5 Nodo6 Nodo7 Para permitir el control de las terminales será necesario editar el archivo /etc/securetty Con el fin de añadir la instrucción: Pts/1 Con el fin de que acepte terminales remotas. Esto será muy útil porque por medio de estas terminales podremos administrar algunos procesos de los nodos integrales. La seguridad del acceso es controlada por el archivo /etc/pam.d/rsh el cual contiene la siguiente información: auth auth auth auth account session required /lib/security/pam_nologin.so required /lib/security/pam_securetty.so required /lib/security/pam_env.so sufficient /lib/security/pam_rhosts_auth.so required /lib/security/pam_stack.so service=system-auth required /lib/security/pam_stack.so service=system-auth Como se puede observar las claves de autentificación para el sistema se encuentran establecidas con el comando required o sufficien”. Un comando sufficient le dice al sistema que no es requerido un password. La comunicación entre los procesos de MPICH emplean los mecanismos de los puertos estándares de UNIX generalmente utilizan los puertos en el rango de 1024 y 65535. La prueba que indica que cada nodo integral está correctamente configurado para aceptar órdenes remotas se comprueba con la orden: #Rsh [nombre del nodo] ls. Con este procedimiento el compilador mpich deberá de encontrarse en funcionamiento y por lo tanto la máquina paralela deberá de funcionar, pero será necesario hacer las pruebas correspondientes para asegurarnos que realmente existe la paralelizacion de los procesos y lo más importante es que puede ejecutar programas paralelos. La figura 30 muestra hasta el momento en que se establece la comunicación de los procesos en la máquina paralela en una distribución de mensajes a todos los nodos (broadcast). 93 Figura 30.- Se muestra hasta el momento de como se establece la comunicación de los procesos en la máquina paralela simulando un broadcast. 94 Para crear un programa en paralelo es necesario conocer cual es la manera como funciona el compilador paralelo, en este caso el MPICH. Existen tres fases necesarias para crear un código el cual pueda responder al procesamiento paralelo. Estas fases son: 1. Escribir la aplicación utilizando el lenguaje C y el compilador gcc, utilizando las librerías de MPICH. Bastará tan solo con incluir la librería mpi.h. 2. Compilar la aplicación utilizando el comando mpicc con la siguiente sintaxis. #mpicc –o archivo de salida archivo.c 3. Ejecutar la aplicación : Es necesario antes que nada cambiar los permisos para que puedan ser utilizados por todos los nodos en escritura, lectura y ejecución con los siguientes comandos: #chmod 777 [ archivo de salida]( generado por mpicc) #mpirun –np [numero de procesos] archivo (generado por mpicc) Por ejemplo supongamos un programa simple para identificar un nodo con su nombre. #include <stdio.h> #include "mpi.h" int main(int argc, char* argv[]) { int numProcs; int myRank; // Inicializo MPI MPI_Init(&argc,&argv); // Determino el numero de procesos MPI_Comm_size( MPI_COMM_WORLD, 2); // Determino el numero de proceso con el que estoy ejecutado MPI_Comm_rank( MPI_COMM_WORLD, &myRank); // Muestro el numero de procesos if(myRank==0) printf("Numero de procesos : %d\n",numProcs); fflush(NULL); // Muestro quien soy printf("Hola Mundo, soy el proceso : %d\n",myRank); fflush(NULL); // Finalizo MPI MPI_Finalize(); return 0; } Como podemos ver el código fuente es similar al estándar de c, en el caso del compilador 95 de C se utiliza GNU GCC, el cual es importante para ingresar las librerias de MPI. La iniciación del entorno en paralelo es establecida por el comando: #MPI_Init(&argc,&argv); El cual tiene esa configuración ya que acepta valores de inicialización al momento de correr el programa el parámetro mas importante que es pasado a esta función de mpi es el parámetro np o numero de procesos que es utilizada por mpirun. El entorno de mpi está configurado por el número de nodos en el archivo machines.linux en el cual se establece el nodo y el número de procesadores que involucra, para este proyecto tenemos: Servidor:2 Nodo1:2 Nodo2:2 Nodo3:2 Nodo4:2 Nodo5:2 Nodo6:2 Nodo7:2 Por lo que para hacer referencia a este listado y a estos nodos se utiliza el comando MPI_COMM_WORLD: // Determina él numero de procesos MPI_Comm_size( MPI_COMM_WORLD, &np); // Determino el numero de proceso con el que estoy ejecutado MPI_Comm_rank( MPI_COMM_WORLD, &myRank); Al final del programa el entorno deberá de terminar con el siguiente comando, este comando solo es ocupado una vez en el código y es obligatorio escribirlo. // Finalizo MPI MPI_Finalize(); La librería de MPICH cuenta además de estas funciones las dos primitivas principales de el intercambio de mensajes como lo es MPI_SEND y MPI_RECEIVE, además de 105 funciones adicionales, esta librería es un estándar por lo que los programas que funcionan en otro tipo de supercomputadoras funcionarán correctamente sobre esta máquina paralela. De esta forma garantizo la compatibilidad y se podrá integrar como nodo integral cualquier computadora o súper computadora que permita el acceso rsh y MPICH bajo cualquier sistema operativo. Logrando con esto que permita la multiplataforma. En el anexo 3 se muestran las principales funciones de la librería MPICH. 3.4.5 Experimentos y optimización. 3.4.5.1 Performance de Red El diseño, la construcción y la utilización de un sistema de alto desempeño requiere de una medición apropiada y una optimización en la configuración de la red. 96 Para llevar a cabo estos experimentos se realizaron las pruebas con la siguiente configuración: 1. Una Tarjeta de 100 Mbps fast ethernet comercial por nodo conectadas mediante un switch fast ethernet marca 3com. 2. Una tarjeta de red 1000 Mbps gigabit Ethernet marca 3com por nodo conectadas con un switch gigabit Ethernet. Para materializar los dos escenarios en el cluster construido cuyo hardware es heterogéneo, se tomaron dos nodos de iguales caracteríısticas, en este caso fueron seleccionados por proximidad al nodo principal. La primera prueba o benchmark que se realizó fue el llamado Throughput de TCP, que consiste en evaluar el desempeño del canal de comunicación del cluster a nivel de protocolo TCP. Para esto se utilizo el modulo TCP del benchmark NetPIPE.(Ver anexo 4.) Con los resultados obtenidos se realizaron los gráficos de throughput según el tamaño de bloque transferido, de saturación de la red y de firma ethernet. Estos últimos permiten analizar el tamaño máximo del paquete para el cual se logra un incremento en el throughput y la latencia de la red respectivamente. Obteniendo los siguientes resultados: a. En fast ethernet (FE) el buffer de envió fue de 16 KB. b. En gigabit ethernet (GE) el buffer de envío fue de 64 KB En ambos casos el buffer de recepción es de 85 KB. El buffer de envío para GE se configuró cambiando las variables del socket TCP del sistema operativo Linux. Utilizando el comando de linux ifconfig se configuraron los distintos tamaños de MTU, por ejemplo para 3000 bytes se ejecutó: #ifconfig eth0 mtu 3000 La Figura 31 muestra el throughput en función del tamaño de bloque transferido. A simple vista, se pueden observar las mejoras resultantes al incrementar la capacidad del medio de comunicación entre los nodos. Sin embargo, pese a utilizar tarjetas y un switch gigabit ethernet, el mejor resultado no alcanza los 350 Mbps, esto como resultado de tener una red de orden 1 (red lan). Es factible incrementar el resultado utilizando una configuración de red indirecta, sin embargo el costo de esta implementación es muy costoso y mas difícil de implementar. Con respecto a gigabit ethernet y a la variación en el tamaño del MTU, si se aumenta a 3000 bytes se logra una mejora pareja de 20 Mbps comparada con 1500 bytes. También se logra una mejora similar con 9000 bytes, pero su comportamiento es un poco inestable y por debajo del caso de 3000 bytes. Es posible que el procesador no sea lo suficientemente rápido para realizar los cálculos que requiere TCP/IP para poder utilizar la capacidad de ancho de banda que provee gigabit ethernet. En todos los casos se utilizan paquetes de tamaño menor o igual a 8 bytes, esto se debe a que para paquetes tan pequeños el benchmark envía un sólo paquete TCP muchas veces y devuelve el 97 promedio de la latencia obtenida. Estos casos no son útiles para analizar el throughput. También se observa que para cada caso la función crece abruptamente en cierto intervalo de tiempo, es allí es, donde se obtiene un throughput mayor al incrementar el tamaño del bloque. El gráfico de saturación de la red, figura 32, se obtiene de graficar el tamaño de bloque contra el tiempo ambos en escala logarítmica. Se define como punto de saturación a partir del cual al incrementar el tamaño del bloque el tiempo crece linealmente. Figura 31.- Throughput para tamaño de sockets por default sobre TCP , donde (F)ast, (E)thernet, (B)onding, M(PICH), (G)igabit. 98 Figura 32.- Gráfico de saturación. 3.4.5.2 Transmisión de información (throughput) de MPICH Para realizar la medición del troughput de MPICH, se utilizó de nuevo él modulo MPI del Los resultados obtenidos se muestran a partir de los gráficos de throughput el cual depende del bloque transferido, de saturación de la red (figura 32) y de firma ethernet . Figura 33. En la figura 31, se muestra el throughput contra el tamaño de bloque transferido. Sé graficaron los resultados para MPICH en fast ethernet y gigabit ethernet con MTU=1500 bytes. Se modificó la variable SOCKBUFSIZE, y se ejecutó el benchmark para buffers de 32 KB y 128 KB. benchmark NetPIPE. 99 Figura 33.- Gráfico de firma ethernet. Para las pruebas de las funciones de MPICH a primera vista se observa que el desempeño se ve afectado en comparación con los resultados obtenidos para TCP. Esto se debe a la sobrecarga (overhead) que se agrega sobre el protocolo TCP al implementar funciones de paso de mensajes más simples para el programador. En las pruebas de MPICH con su configuración de buffers de envío y se recibieron mensajes por de 32 KB, lo que ocasiono que el throughput disminuyera en promedio: a. 18 % para gigabit ethernet b. 11 % para fast Ethernet. En el gráfico de saturación de la red, Figura 32, se observa que los puntos de saturación de MPICH coinciden con los de TCP. Siendo de 4 KB para gigabit ethernet, y para fast ethernet de 2 KB. 100 Finalmente, en la figura 33, se observa la latencia de MPICH donde es mayor la latencia para el caso de fast ethernet con 70 µs y en gigabit ethernet con MTU igual a 1500 bytes con 47 µs. 3.4.5.3 Benchmark Time Esta prueba de desempeño es utilizada para tomar los tiempos de acceso de los distintos comandos UNIX. Se midieron los tiempos en los siguientes eventos, esto se hace con el comando time que permite mostrar cualquier comando remoto o local: 1. 2. 3. 4. Lectura local (ext3) Lectura remota (NFS) Lectura local escritura local. Lectura local escritura remota Parámetros de prueba: Para la transferencia de archivos en su categoría de transferencia remota se utilizo las fuentes del kernel comprimido con un tamaño de 36,7 MB y se selecciono para realizar las pruebas dos nodos al azar. La sintaxis básica de este comando es simple y se encuentra representada de la siguiente forma: #Time comando Ejemplo #time rsh nodo1 ls. Para analizar los gráficos se debe tomar en cuenta la influencia el tamaño de bloque de cada comando y del archivo de prueba , 8 KB para NFS .En la Figura 34, se muestra el tiempo de ejecución de los comandos de lectura rm -f, du -sk, ls -R, grep -r y find -name. 101 Figura 34.- Se muestra el tiempo de ejecución de los comandos de lectura rm -f, du -sk, ls -R, grep -r y find -name. 102 CONCLUSIONES Y RECOMENDACIONES Se realizaron exitosamente pruebas de desempeño, generadas por los benchmarks y se ejecuto el programa pi para el calculo de la constante pi, en la maquina paralela alcanzando una capacidad de procesamiento de 1 Gflops, la compatibilidad del sistema se comprobo en este mismo ejercicio, ya que el programa fue escrito para la origin 2000. Además se han establecido recomendaciones y especificaciones acerca de la instalación, configuración y construcción de cada nodo, con énfasis en el hardware de los nodos y la tecnología de red utilizada. La máquina descrita constituye el primer paso de un programa de desarrollo tecnológico en materia de supercómputo. Para fines del 2006 se concluirá la construcción de una máquina de memoria distribuida en configuración de hipercubo de hasta 256 nodos, y para fines del 2007 se pretende contar con una máquina de memoria compartida de características similares para satisfacer las aplicaciones más demandantes de la computación técnica y científica. No se obtuvo mayor rendimiento con gigabit ethernet que utilizando fast ethernet. Como se desprende de los experimentos de red realizados, por lo que se demuestra que para obtener un mayor rendimiento en gigabit ethernet es necesario tener en cuenta la arquitectura del nodo antes de migrar de la tecnología fase ethernet. El máximo throughput alcanzable depende fuertemente del bus PCI del nodo como así como también la velocidad del procesador y sus técnicas de manejar él cache. También es factor de la capacidad que posean las tarjetas de red para acceder al resto de los componentes que le dan la característica de acceder directo a memoria, realizar checksums de paquetes y de poseer su propia cache para el manejo de los sockets TCP, siendo necesario un bus PCI dedicado que le garantice la tasa de transferencia adecuada. No solo depende del hardware el desempeño de sistema sino también del la correcta configuración del los parámetros del protocolo de red TCP/IP. Se debe tener en cuenta que todas las pruebas realizadas con NetPIPE dan un valor máximo del throughput de la máquina paralela. Y que con el hardware actual es prácticamente imposible llegar a lograr el 50 % de la capacidad gigabit. Con respecto a los sistemas de archivos disponibles, se ha podido comprobar que tener configurados archivos ext3 y NFS, en el cluster brinda mayores posibilidades de uso posibilidades al momento de implementar una solución a un problema dado. En la aplicación de la prueba con el comando time, se demostró que NFS no es adecuado para procesamiento paralelo pues no tiene consistencia en cache. Por último, las particiones ext3 locales en cada uno de los nodos son buenas para ejecuciones seriales en los nodos internos del cluster pues se evita el uso de la red innecesariamente. Con respecto a la compatibilidad de la máquina para poder aceptar lenguajes de programación de estándares para procesamiento paralelo. La máquina paralela cumplió aceptando el estándar por de facto MPICH permitiéndole trabajar inclusive con otros sistemas operativos, también aceptó programas elaborados en otras plataformas que contengan el mismo entandar. 103 Esto permitió a la vez que la máquina paralela acepte otro tipo de programas que acepta el protocolo estándar MPI, como mpi-povray, el cual es un programa que permite la renderización y el modelado de gráficos de alto consumo computacional. 104 BIBLIOGRAFÍA Internetworking with TCP/IP. Volume I. Principles, Protocols and Architecture. Douglas E. Comer Editorial Prentice Hall ISBN: 0-13-216987-8 InternetWorking with TCP/IP. Volume II. Design, Implementation and Internals. Douglas E. Comer / David L. Stevens Editorial Prentice Hall ISBN: 0-13-134677-6 InternetWorking with TCP/IP. Volume III. Cliente - Server Programming and Applications. Douglas E. Comer / David L. Stevens Editorial Prentice Hall ISBN: 0-13-474222-2 UNIX. Programación Avanzada. Francisco Manuel Márquez García Editorial RA-MA, 1993 ISBN: 84-7897-112-2 El Lenguaje de Programación C. Brian W. Kerniguan / Dennis M. Ritchie Editorial Prentice Hall ISBN: 968-880-205-0 Aplique Turbo C++ Herbert Schildt Editorial Mc Graw Hill ISBN: 0-07-881610-6 Programación y Aplicaciones X Windows. Eric F. Johnson / Kevin Reichard Editorial Ra-Ma ISBN: 84-7897-065-7 El Libro de las Comunicaciones del PC. Técnica, Programación y Aplicaciones. José A. Caballar Editorial Ra-Ma ISBN: 84-7897-212-9 105 UNIX. Manual de Referencia. Sistema V. Versión 3. Stephen Coffin Editorial Mc Graw Hill ISBN: 0-07-881299-2 Sistemas Operativos: Diseño e Implementación. Andrew S. Tanenbaum Editorial Prentice Hall ISBN: 0-13-630302-1 Conéctate al Mundo de Internet. De Krol / O’Reilly & Associates, Inc. Editorial Mc Graw Hill ISBN: 970-10-0637-2 Tratamiento Digital de Imágenes. Alberto Domingo Ajenjo Editorial Anaya Multimedia ISBN: 84-7614-460-1 Robótica, Control, Visión e Inteligencia. K.S. Fu / R.C. González / C.S.G. Lee Editorial Mc Graw Hill ISBN: 0-07-022625-3 106 ANEXO A. BREVE HISTORIA DE TCP/IP Internet fue propuesta originalmente por la precursora de DARPA, creadora de proyectos de investigación avanzada de la defensa (advanced research projets agency, ARPA), con una forma de probar la viabilidad de las redes de conmutación de paquetes. (Cuando el enfoque de ARPA se volvió de naturaleza militar, se cambio el nombre. Durante su estadía en el proyecto, ARPA previo una red de líneas rentadas conectadas por nodos de conmutación. La red se denominó ARPAnet y los nodos se conocieron como procesadores de Mensajes de Internet (IMPs). ARPAnet inicialmente está formada por cuatro IMPs. En 1971 ARPAnet entró en servicio normal. Las máquinas utilizaron ARPAnet mediante la conexión a un IMP y utilizando el protocolo "1822" (número del documento técnico que describía el sistema). Una necesidad comúnmente reconocida era la capacidad de transferir archivos de una máquina a otra, así como la capacidad de aceptar registro de entrada remoto no podían ser realizados hasta que se implementaron en un protocolo conocido como Programa de Control de Red (Network Control Program, NCP) que cumplía con estos requisitos. Más adelante, a través de FTP (Protocolo de Transferencia de Archivo, File Transfer Protocol) se añadió el correo electrónico y junto con el registro y la transferencia de archivos remotos de NCP, se conformaron los servicios de ARPAnet. Al llegar 1973 resultaba claro que NCP era incapaz de manejar el volumen de tráfico y la nueva funcionalidad propuesta. Se inició un proyecto con el objetivo de desarrollar un nuevo protocolo. El nacimiento de TCP/IP y las arquitecturas de las compuertas fueron propuestos por primera vez en 1974. El artículo publicado por Cerf y Kahn describía un sistema que incluía un protocolo de aplicación estandarizada, que también utilizaba confirmaciones de extremo a extremo. También, proponían conectividad universal a través de la red. Estas dos ideas eran radicales en un mundo de hardware y software propietarios, porque permitirían que cualquier tipo de plataforma participara en la red. El protocolo fue creado y se conoció como TCP/IP. Ya que dentro de un sistema TCP/IP los datos transmitidos se dividen en pequeños paquetes, éstos resaltan una serie de características. La tarea de IP es llevar los datos a granel (los paquetes) de un sitio a otro. Las computadoras que encuentran las vías para llevar los datos de una red a otra (denominadas enrutadores) utilizan IP para trasladar los datos. En resumen IP mueve los paquetes de datos a granel, mientras TCP se encarga del flujo y asegura que los datos estén correctos. Las líneas de comunicación se pueden compartir entre varios usuarios. Cualquier tipo de paquete puede transmitirse al mismo tiempo, y se ordenará y combinará cuando llegue a su destino. Compare esto con la manera en que se transmite una conversación telefónica: una vez que establece una conexión, se reservan algunos circuitos para usted, que no puede emplear en otra llamada, aun si deja esperando a su interlocutor por veinte minutos. Los datos no tienen que enviarse directamente entre dos computadoras. Cada paquete pasa de computadora en computadora hasta llegar a su destino. Éste, claro está, es el secreto de como se pueden enviar datos y mensajes entre dos computadoras aunque no estén conectadas directamente entre sí. Lo que realmente sorprende es que sólo se necesitan algunos segundos para enviar un archivo de a buen tamaño de una máquina a otra, aunque estén separadas por miles de kilómetros y pese a que los datos tienen que pasar por múltiples computadoras. Una de las razones de la rapidez es que, cuando algo anda mal, sólo es necesario volver a transmitir un paquete, no todo el mensaje. Los paquetes no necesitan seguir la misma trayectoria. La red puede llevar cada paquete de un lugar a otro y usar la conexión más idónea que esté disponible en ese instante. No todos los paquetes de los mensajes tienen que viajar, necesariamente, por la misma ruta, ni necesariamente tienen que llegar todos al mismo tiempo. La flexibilidad del sistema lo hace muy confiable. Si un enlace se pierde, el sistema usa otro. Cuando usted envía un mensaje, el TCP divide los datos en paquetes, ordena éstos en secuencia, agrega cierta información para control de errores y después los lanza hacia fuera, y los distribuye. En el otro extremo, el TCP recibe los paquetes, verifica si hay errores y los vuelve a combinar para convertirlos en los datos originales. De haber error en algún punto, el programa TCP destino envía un mensaje solicitando que se vuelvan a enviar determinados paquetes. TCP/IP es el protocolo común utilizado por todas las computadoras son conectadas a Internet, de manera que éstos puedan comunicarse entre sí. Hay que tener en cuenta que en Internet se encuentran conectadas computadoras de clases muy diferentes y con hardware y software incompatibles en muchos casos, además de todos los medios y formas posibles de conexión. Aquí se encuentra una de las grandes ventajas del TCP/IP, pues este protocolo se encargará de que la comunicación entre todos sea posible. TCP/IP es compatible con cualquier sistema operativo y con cualquier tipo de hardware. TCP/IP no es un único protocolo, sino que es en realidad lo que se conoce con este nombre es un conjunto de protocolos que cubren los distintos niveles del modelo OSI. Los dos protocolos más importantes son el TCP (Transmisión Control Protocol) y el IP (Internet Protocol), que son los que dan nombre al conjunto. La arquitectura del TCP/IP consta de cinco niveles o capas en las que se agrupan los protocolos y que se relacionan con los niveles OSI de la siguiente manera: a) Aplicación: Se corresponde con los niveles OSI de aplicación, presentación y sesión. Aquí se incluyen protocolos destinados a proporcionar servicios, tales como correo electrónico (SMTP), transferencia de archivos (FTP), conexión remota (TELNET) y otros más recientes como el protocolo HTTP (Hypertext Transfer Protocol). b) Transporte: Coincide con el nivel de transporte del modelo OSI. Los protocolos de este nivel, tales como TCP y UDP, se encargan de manejar los datos y proporcionar la fiabilidad necesaria en el transporte de los mismos. c) Internet: Es el nivel de red del modelo OSI. Incluye al protocolo IP, que se encarga de enviar los paquetes de información a sus destinos correspondientes. Es utilizado con esta finalidad por los protocolos del nivel de transporte. d) Físico: Análogo al nivel físico del OSI. e) Red: Es la interfaz de la red real. TCP/IP no especifica ningún protocolo concreto, así es que corre por las interfaces conocidas, como por ejemplo: 802.2, CSMA/CD, X.25, etc. b El protocolo TCP/IP necesita funcionar sobre algún tipo de red o de medio físico que proporcione sus propios protocolos para el nivel de enlace de Internet. Por este motivo hay que tener en cuenta que los protocolos utilizados en este nivel pueden ser muy diversos y no forman parte del conjunto TCP/IP. Sin embargo, esto no debe ser problemático puesto que una de las funciones y ventajas principales del TCP/IP es proporcionar una abstracción del medio de forma que sea posible el intercambio de información entre medios diferentes y tecnologías que inicialmente son incompatibles. Para transmitir información a través de TCP/IP, ésta debe ser dividida en unidades de menor tamaño. Esto proporciona grandes ventajas en el manejo de los datos que se transfieren y, por otro lado, esto es algo común en cualquier protocolo de comunicaciones. En TCP/IP cada una de estas unidades de información recibe el nombre de "datagrama" (datagram), y son conjuntos de datos que se envían como mensajes independientes. Para mucha gente los términos TCP/IP y Ethernet van juntos casi en forma automática, principalmente por razones históricas, así como por el simple hecho de que más redes basadas en Ethernet con TCP/IP que cualquier otro tipo. Ethernet se desarrolló originalmente en el Centro de Investigaciones de Palo Alto de XEROX (PARC), como un paso hacia un sistema electrónico de comunicaciones de oficina y desde entonces ha crecido en capacidad y popularidad. Ethernet es un sistema de hardware proporcionado para las capas de vínculo de datos y física del modelo OSI. Como parte de los estándares de Ethernet, se establecen los tipos de cable y las velocidades de difusión. Hay varias versiones distintas de Ethernet, cada una de ellas con una velocidad diferente de transferencia de datos. La más común es Ethernet versión 2, también conocida como 10base5, Thick Ethernet e IEEE 802.3 (Institute of Electrical and Electronic Engineers, IEEE). Este sistema tiene una velocidad de 10 megabits por segundo. Ambos tienen sus propios procesos para el empaquetado de la información: TCP/IP utiliza direcciones de 32 bits, en tanto que Ethernet emplea un esquema de 48 bits. El protocolo de transporte de clase 4 del modelo OSI (al que con frecuencia se le llama TP4), y TCP tienen numerosas similitudes, pero también algunas diferencias. A continuación se dan a conocer los puntos en que los dos protocolos son iguales. Los dos protocolos están diseñados para proporcionar un servicio de transporte seguro, orientado a conexión y de extremo a extremo, sobre una red insegura, que puede perder, dañar, almacenar y duplicar paquetes. Los dos deben enfrentarse a los peores problemas como sería el caso de una subred que pudiera almacenar una secuencia válida de paquetes y más tarde volviera a entregarlos. Los dos protocolos también son semejantes por el hecho de que los dos tienen una fase de establecimiento de conexión, una fase de transferencia de datos y después una fase de liberación de la conexión. Los conceptos generales del establecimiento, uso y liberación de conexiones también son similares, aunque difieren en algunos detalles. En particular, tanto TP4 como TCP utilizan la comunicación ida-vuelta-ida para eliminar las dificultades potenciales ocasionadas por paquetes antiguos que aparecieran súbitamente y pudiesen causar problemas. Sin embargo, los dos protocolos también presentan diferencias muy notables. Primero, TP4 utiliza nueve tipos diferentes de UTP, en tanto que TCP sólo tiene uno. Esta c diferencia trae como resultado que TCP sea más sencillo, pero al mismo tiempo también necesita una cabecera más grande, porque todos los campos deben estar presentes en todas las TPDU. El mínimo tamaño de la cabecera TCP es de 20 octetos; el mínimo tamaño de la cabecera TP4 es de 5 octetos. Los dos protocolos permiten campos opcionales, que pueden incrementar el tamaño de las cabeceras por encima del mínimo permitido. Una segunda diferencia es con respecto a lo que sucede cuando los dos procesos, en forma simultánea, intentan establecer conexiones entre los mismos dos TSAP (es decir, una colisión de conexiones). Con TP4 se establecen dos conexiones duplex independientes; en tanto que con TCP, una conexión se identifica mediante un par de TSAP, por lo que solamente se establece una conexión. Una tercera diferencia es con respecto al formato de direcciones que se utiliza. TP4 no especifica el formato exacto de una dirección TSAP; mientras que TCP utiliza números de 32 bits. El concepto de calidad de servicio también se trata en forma diferente en los dos protocolos, constituyendo la cuarta diferencia. TP4 tiene un mecanismo de extremo abierto, bastante elaborado, para una negociación a tres bandas sobre la calidad de servicio. Esta negociación incluye al proceso que hace la llamada, al proceso que es llamado y al mismo servicio de transporte. Se pueden especificar muchos parámetros, y pueden proporcionarse los valores: deseado y mínimo aceptable. A diferencia de esto, TCP no tiene ningún campo de calidad de servicio, sino que el servicio subyacente IP tiene un campo de 8 bits, el cual permite que se haga una relación a partir de un número limitado de combinaciones de velocidad y seguridad. Una quinta diferencia es que TP4 permite que los datos del usuario sean transportados en la TPDU CR, pero TCP no permite que los datos del usuario aparezcan en la TPDU inicial. El dato inicial (como por ejemplo, una contraseña), podría ser necesario para decidir si se debe, o no, establecer una conexión. Con TCP no es posible hacer que el establecimiento dependa de los datos del usuario. Las cuatro diferencias anteriores se relacionan con la fase de establecimiento de la conexión. Las cinco siguientes se relacionan con la fase de transferencia de datos. Una diferencia básica es el modelo del transporte de datos. El modelo TP4 es el de una serie de mensajes ordenados (correspondientes a las TSDU en la terminología OSI). El modelo TCP es el de un flujo continuo de octetos, sin que haya ningún límite explícito entre mensajes. En la práctica, sin embargo, el modelo TCP no es realmente un flujo puro de octetos, porque el procedimiento de biblioteca denominado push puede llamarse para sacar todos los datos que estén almacenados, pero que todavía no se hayan transmitido. Cuando el usuario remoto lleva a cabo una operación de lectura, los datos anteriores y posteriores al push no se combinarán, por lo que, en cierta forma un push podría penarse como si definiesen una frontera entre mensajes. La séptima diferencia se ocupa de cómo son tratados los datos importantes que necesitan de un procesamiento especial. TP4 tiene dos flujos de mensajes independientes, los datos normales y los acelerados multiplexados de manera conjunta. En cualquier instante únicamente un mensaje acelerado puede estar activo. TCP utiliza el campo acelerado para indicar que cierta cantidad de octetos, dentro de la TPDU actualmente en uso, es especial y debería procesarse fuera de orden. d La octava diferencia es la ausencia del concepto de superposición en TP4 y su presencia en TCP. Esta diferencia no es tan significativa como al principio podría parecer, dado que es posible que una entidad de transporte ponga dos TPDU, por ejemplo, DT y AK en un único paquete de red. La novena diferencia se relaciona con la forma como se trata el control de flujo. TP4 puede utilizar un esquema de crédito pero también se puede basar en el esquema de ventana de la capa de red para regular el flujo. TCP siempre utiliza un mecanismo de control de flujo explícito con el tamaño de la ventana especificado en cada TPDU. La décima diferencia se relaciona con este esquema de ventana. En ambos protocolos el receptor tiene la capacidad de reducir la ventana en forma voluntaria. Esta posibilidad genera potencialmente problemas, si el otorgamiento de una ventana grande y su contracción subsiguiente llegan en un orden incorrecto. En TCP no hay ninguna solución para este problema; en tanto en TP4 éste se resuelve por medio del número de subsecuencia que está incluido en la contracción, permitiendo de esta manera que el emisor determine si la ventana pequeña siguió, o precedió, a la más grande. Finalmente, la onceava y última diferencia existente entre los dos protocolos, consisten en la manera como se liberan las conexiones. TP4 utiliza una desconexión abrupta en la que una serie de TPDU de datos puede ser seguido directamente por una TPDU DR. Si las TPDU de datos se llegaran a perder, el protocolo no los podría recuperar y la información, al final se perdería. TCP utiliza una comunicación de ida-vuelta-ida para evitar la pérdida de datos en el momento de la desconexión. El modelo OSI trata este problema en la capa de sesión. Es importante hacer notar que la Oficina Nacional de Normalización de Estados Unidos estaba tan disgustada con esta propiedad de TP4, que introdujo TPDU adicionales en el protocolo de transporte para permitir la desconexión sin que hubiera una pérdida de datos. Como consecuencia de esto, las versiones de Estados Unidos y la internacional de TP4 son diferentes. Es importante señalar que el protocolo IP explicado anteriormente, o mejor dicho la versión de éste es la más utilizada actualmente, pero hace muy poco tiempo salió una nueva versión llamada la número 6. Las diferencias no son muchas, pero mejoran muchos aspectos de la antigua, ésta no es muy utilizada, pero creemos que es necesario explicar como funciona, para poder hacer una comparación con la antigua. Una red TCP/IP transfiere datos mediante el ensamblaje de bloques de datos en paquetes, cada paquete comienza con una cabecera que contiene información de control; tal como la dirección del destino, seguido de los datos. Cuando se envía un archivo por la red TCP/IP, su contenido se envía utilizando una serie de paquetes diferentes. El Internet protocol (IP), un protocolo de la capa de red, permite a las aplicaciones ejecutarse transparentemente sobre redes interconectadas. Cuando se utiliza IP, no es necesario conocer que hardware se utiliza, por tantota aplicación corre en una red de área local. El Transmissión Control Protocol (TCP); un protocolo de la capa de transporte, asegura que los datos sean entregados, que lo que se recibe, sea lo que se pretendía enviar y que los paquetes que sean recibidos en el orden en que fueron enviados. TCP terminará una conexión si ocurre un error que haga la transmisión fiable imposible. e La primera vez que uno oye hablar de Internet, casi siempre es en relación con el nombre TCP/IP, en muchos casos se habla de TCP/IP como "el protocolo que se usa en Internet" o "que hace funcionar Internet". Como explicación coloquial es válida, pero IP y TCP son dos protocolos con funciones específicas y diferenciadas. Pero cuando se habla de TCP/IP no se está hablando únicamente de estos dos protocolos, sino de toda una familia con fines diversos, que han constituido la arquitectura de la actual red Internet. Entre ellos, por supuesto, se encuentra el fundamental, Internet Protocol o IP, encargado de generar el internet virtual. TCP proporciona el nivel de transporte más empleado, pero es posible encontrar otros protocolos de transporte en Internet como UDP. Otros protocolos vienen a servir de apoyo a éstos, como ICMP y, para realizar una comunicación, será necesario resolver muchos otros problemas como la correspondencia entre direcciones físicas y lógicas para lo que se emplean protocolos como ARP, RARP y BOOTP; el mantenimiento de una información de rutas consistente, a través de protocolos de encaminamiento como GGP, EGP, OSPF o RLP; la administración de red para lo que se define otros protocolos como NSMP la accesibilidad de una serie de servicios finales en forma de aplicación a través de otra serie de protocolos como TELNET, FTP,TFTP o SMTP. A todos ellos y otros muchos, se alude cuando se menciona TCP/IP de forma genérica. Desde el momento que surgió Ethernet la necesidad de realizar una conexión entre distintas redes, se fija como primer objetivo ocultar no sólo el hardware sino, también, el tipo de red sobre el que se sustenta la comunicación, para lo que se define una serie de servicios universales de comunicación. Este objetivo de transparencia puede alcanzarse a través de los programas de aplicación que de encarguen de tratar en cada máquina con la red y el hardware específico con que ésta cuenta proporcionando un sistema uniforme en la red. Sin embargo, este enfoque si bien es más intuitivo y concreto y a veces se emplea en programas reducidos para resolver un problema bien definido, presenta grandes problemas en cuanto el escenario aparece como un conjunto heterogéneo más o menos numeroso y, sobre todo, cuando se persigue cierta generalidad. Así, si en determinado momento se desea incorporar una nueva funcionalidad, es necesario desarrollar código para cada diferente arquitectura. Una posibilidad consiste en ceder una API (interfaces de programas de aplicaciones) de comunicaciones implementando internamente una arquitectura de protocolos. Desde este punto de vista se generará una inter-red virtual interconectada a través de un protocolo encargado de generar esta imagen de red virtual, al que se denomina protocolo de red. Esta arquitectura puede estar constituida por una serie de protocolos de propósito general, independiente de las aplicaciones, que se encarguen de transmitir fragmentos de información desde un origen a un destino sin importarles la naturaleza de la información que transportan. Por otra parte, al tratar los protocolos con fragmentos de información es posible realizar un tratamiento más eficiente. Con esta perspectiva, los programadores de aplicaciones emplean la API del sistema para realizar la comunicación necesaria sin necesidad de preocuparse por los mecanismos reales de esta comunicación separando una problemática de otra. f ANEXO B. CRONOLOGÍA DEL PROCESAMIENTO EN PARALELO. Año 1955 Suceso El IBM 704 usa circuitos aritméticos paralelos binarios junto con una unidad de punto flotante que aceleraban significativamente el desarrollo de operaciones numéricas frente a las tradicionales unidades aritmético-lógicas (el arquitecto del sistema es Gnetne Amdahl). A pesar de su velocidad (aprox. 5kFLOPS), las operaciones de E/S resultaban lentas y representaban un cuello de botella. Como solución a este problema la IBM decide incorporar procesadores de E/S independientes (y posteriormente llamados canales) en modelos posteriores de la 704 y su sucesor, la IBM 709. 1956 IBM inicia el proyecto 7030 (también llamado STRETCH) para producir una supercomputadora para el Laboratorio Nacional Los Álamos. Su meta es crear una máquina 100 veces más poderosa que las de su época. Se inicia el proyecto LARC (Livermore Automatic Research Computer), el diseño de una supercomputadora para el Laboratorio Nacional Livermore. 1958 El proyecto Atlas comienza como una aventura conjunta entre la Universidad de Manchester y Ferranti Ltd. El arquitecto principal es Tom Kilburn. Bull anuncia la Gamma 60 con múltiples unidades funcionales e instrucciones fork y join en su conjunto de instrucciones. Llegaron a construirse 19. John Cocke y Daniel Slotnick discuten el uso del paralelismo en cálculos numéricos en un memorandum de la IBM. Posteriormente Slotnick propone la SOLOMON, una máquina SIMD con 1024 elementos de procesamiento de 1 bit, cada uno con memoria para 128 valores de 32 bits. La máquina nunca se construye pero es el punto de arranque para trabajos posteriores. 1959 Sperry Rand entrega el primer sistema LARC, el cual dispone de un procesador de E/S independiente que operaba en paralelo con una o dos unidades de procesamiento. Sólo se construyeron dos. IBM entrega su primera STRETCH, que presentaba la anticipación de instrucciones y corrección de errores. Se construyen 8. La tecnología es reutilizada en la IBM 7090. La primera IBM 7090 es entregada. Esta es la versión transistorizada de la IBM 709. I 1960 Control Data inicia el desarrollo de su CDC 6600. E. V. Yevreinov en el Instituto de Matemáticas en Novosibirsk (IMN) comienza sus trabajos en arquitecturas fuertemente acopladas de paralelismo burdo con interconexiones programables. 1962 CDC entrega su primera CDC 1604, máquina similar a la IBM 7090 caracterizada por palabras de 48 bits y ciclos de memoria de 6µs. La computadora Atlas es operacional. Es la primera máquina en usar memoria virtual y paginación, su ejecución de instrucciones es en oleoducto (pipelined), y contiene unidades aritméticas de punto flotante y punto fijo separadas. Su desempeño es de aproximadamente 200kFLOPS. C. A. Petri describe las Redes de Petri, un concepto teórico para la descripción y análisis de las propiedades de sistemas concurrentes. Burroughs introduce su multiprocesador MIMD simétrico D825. Cuenta de 1 a 4 CPUs que acceden a 1 ó 16 módulos de memoria usando un conmutador de barraje cruzado (crossbar switch). Las CPUs son similares al posterior B5000, el sistema operativo es simétrico con una cola compartida (shared ready queue). 1964 Control Data Corporation empieza a producir la CDC 6600, la primer supercomputadora en ser un éxito técnico y comercial. Cada máquina tiene una CPU de 60 bits y 10 unidades periféricas de procesamiento (PPUs). La CPU utiliza un marcador para manejar la dependencia de instrucciones. IBM inicia el diseño del Advanced Computer System (ACS), capaz de manejar hasta siete instrucciones por ciclo. El proyecto fue cerrado en 1969 pero muchas de las técnicas fueron incorporadas en posteriores computadores. Daniel Slotnick propone la construcción de una computadora paralela masiva para el Laboratorio Nacional Livermore, pero la Comisión de Energía Atómica da el contrato a CDC, que construye la STAR-100. Slotnick consigue el financiamiento de la U.S. Air Force y su diseño evoluciona a la ILLIAC-IV. La máquina es construida en la Universidad de Illinois, con Burroughs y Texas Instruments como principales subcontratistas. La Advanced Scientific Computer (ASC) de la Texas Instruments crece junto a esta iniciativa. II 1965 General Electric, el MIT, y AT&T Bell Laboratories comienzan a trabajar en El objetivo del proyecto es la construcción de un sistema operativo de propósito General de memoria compartida, multiprocesamiento y tiempo compartido. Edsger Dijkstra describe y nombra el Problema de las Regiones Críticas. Mucho del trabajo posterior en sistemas concurrentes es dedicado a encontrar eficientes y seguras formas de manejar regiones críticas. Multics. James W. Cooley y John W. Tukey describen el Algoritmo de la Transformada Rápida de Fourier, que es posteriormente uno de los más grandes consumidores de ciclos de punto flotante. 1976 Marzo La Cray-1 es la primera computadora en usar el procesamiento vectorial y tenía una capacidad de procesamiento pico de 100 MFLOPS. Frecuencia de reloj 110 MHz; 9 ns ciclo del núcleo. Cortesia de M. en C. Eduardo René Rodríguez Ávila [13]. 13 Extracto de Principia, Sección de historia de la computación, URL: http://homepage.mac.com/eravila/history.html III ANEXO C. FUNCIONES BÁSICAS DE MPICH Aún cuando MPI incluye más de 125 funciones, se puede trabajar en la creación de cualquier programa en paralelo con sólo seis. Estas funciones se describen a continuación tanto en su sintaxis para Fortran como para C. También se describe el tipo de dato de aquellos argumentos de las funciones que no son inherentes a MPI. Los argumentos se describen en la tabla I y ahí se define el tipo de dato de los argumentos MPI. MPI predefine una serie de variables y de estructuras de datos inherentes a su funcionamiento y estas se encuentran en un archivo de encabezado que debe ser incluido en todo código que use MPI. La siguiente instrucción debe agregarse en la parte inicial del código: a. En Fortran: include "mpif.h". b. En C: #include <mpi.h> Las siguientes instrucciones inicializan el ambiente de trabajo en paralelo: a. En fortran: Call MPI_INIT (ierr). b. En C: MPI_INIT(&argc,argv) Con las siguientes instrucciones MPICH inicializa varias estructuras de datos inherentes al ambiente de trabajo MPI. Si el ambiente no se puede inicializar, el programa se detiene por completo: a. En fortran: Call MPI_COMM_SIZE(comm.,size,ierr). b. En C: MPI_COMM_SIZE(comm.., size) La siguiente función, regresa el número de procesadores así como un comunicador por default, comm = MPI_WORLD_COMM, el cual indica el conjunto de todos los procesadores asignados a la ejecución del programa. Posteriormente, el usuario puede definir otros comunicadores para designar subconjuntos de procesadores. a. En fortran: call MPI_COMM_RANK (comm, rank, ierr). b. En C: MPI_COMM_RANK(comm, rank) IV La primitiva send, envía un mensaje a otro procesador. El procesador origen espera que el procesador destinatario haya recibido el mensaje antes de continuar trabajando. a. Fortran: call MPI_SEND(buf, count, datatype, dest, tag, comm, ierr). b. En C: MPI_Send(&buf, count, datatype, dest, tag, comm). Se dispone a recibir un mensaje de parte de otro procesador. El procesador destinatario no puede continuar su trabajo hasta haber recibido dicho mensaje. a. Fortran: call MPI_RECV(buf, count, datatype, source, tag, comm, status, ierr). b. En C: MPI_Recv(&buf, count, datatype, source, tag, comm, &status) La siguiente función, cierra el ambiente de trabajo en paralelo una vez finalizado el trabajo: a. Fortran: call MPI_FINALIZE(ierr). b. En C: MPI_Finalize(.) Los argumentos de las funciones tienen el siguiente significado: Al iniciar la ejecución de un programa en paralelo, la instrucción MPI_COMM_SIZE regresa un comunicador por default: MPI_COMM_WORLD, el cual contiene los números que corresponden a cada uno de los procesadores que se asignan para la ejecución del programa. Esta información es utilizada por la mayoría de las funciones MPI para saber cuáles son los procesadores de la computadora que se han de comunicar entre si para efectuar dicha función. Posteriormente, el usuario puede seleccionar subconjuntos de procesadores a partir de los procesadores definidos en MPI_COMM_WORLD para obtener otros comunicadores. El tipo de dato de MPI_COMM_WORLD es definido como MPI_Comm en mpif.h, mpi.h. Los tipos de datos reconocidos por MPI son definidos en la tabla II siguiente. V Argc Argv Buf Comm Número de argumentos en la línea de comandos (C). Argumentos en la línea de comandos (C). Variable que contiene la información a comunicar. Comunicador que incluye el número de cada procesador miembro de un ambiente de trabajo en paralelo. Al iniciar la ejecución de un programa en paralelo, la instrucción MPI_COMM_SIZE regresa un comunicador por default: MPI_COMM_WORLD, el cual contiene los números que corresponden a cada uno de los procesadores que se asignan para la ejecución del programa. Cantidad de elementos contenidos en buf. Count Tipo de la variable buf. Los tipos de datos reconocidos por MPI son definidos en la tabla datatype 2. Número lógico del procesador al cual se ha transferido información. Dest Entero que identifica una situación asociada con error en proceso. Algunas errorcode implementaciones de MPI regresan este valor como si fuera producto de una instrucción return errorcode. Código de error de implementación que es igual a MPI_SUCCESS sí la función termina Iré con éxito; de otra manera, el valor de ierr corresponde a un valor que depende de la implementación de MPI. Número lógico del procesador. Rank Operación a ejecutar. Op Tamaño de buffer de salida. Outsize Posición del último elemento alimentado o recuperado de un buffer. position Variable que contiene la información a recibir. Recvbuf Cantidad de elementos contenidos en recvbuf. recvcount recvdatatype Tipo de la variable recvbuf. Los tipos de datos reconocidos por MPI son definidos en la tabla II. En combinación con las funciones MPI_TEST y MPI_WAIT proporciona información Request sobre el estado de una función MPI_ISEND o MPI_IRECV. Variable que contiene la información a comunicar. sendbuf Cantidad de elementos contenidos en senbuf. sendcount senddatatype Tipo de la variable senbuf. Ver tabla II. Número de procesadores asignados al programa. Size Número lógico del procesador que ha enviado información. Source Arreglo de tamaño MPI_STATUS_SIZE. Auxiliar en conocer el estado de ejecución de Status una función MPI. Identifica el envío. Generalmente es cero y sólo cambia cuando se ha de comunicar más Tag de un envío. Número lógico del procesador a quien se envía información. Target Tabla I. Argumentos de funciones MPI. VI MPI C MPI Fortran MPI_CHAR signed char MPI_INTEGER INTEGER MPI_SHORT signed short int MPI_REAL REAL MPI_INT signed int MPI_DOUBLE_PRECISION DOUBLE PRECISION MPI_LONG signed long int MPI_COMPLEX COMPLEX MPI_UNSIGNED_CHAR unsigned char MPI_LOGICAL LOGICAL MPI_UNSIGNED_SHORT unsigned short int MPI_CHARACTER CHARACTER MPI_UNSIGNED unsigned int MPI_BYTE MPI_UNSIGNED_LONG unsigned long int MPI_PACKED MPI_FLOAT float MPI_DOUBLE double MPI_LONG_DOUBLE long double MPI_BYTE MPI_PACKED Tabla II. Correspondencia entre tipos de datos en MPI, Fortran y C. VII ANEXO D. NETPIPE. NetPIPE es una herramienta independiente del funcionamiento del protocolo que representa visualmente la red bajo una gran variedad de condiciones. Realiza las pruebas simples de los mensajes tipo ping-pong que incrementan el tamaño de procesamiento entre dos procesos a través de una red o dentro de un sistema de SMP. El tamaño del mensaje puede elegirse a intervalos regulares, y con perturbaciones leves, con el fin de proporcionar una prueba completa del sistema de comunicación. Cada punto de referencias implica muchas pruebas del ping-pong para proporcionar una sincronización exacta. Los estados latentes son calculados dividiendo el tiempo redondo del viaje por la mitad para los mensajes pequeños generalmente en octetos menores a 64 Kbytes. NetPIPE fue desarrollado originalmente en la LCC por Quinn Snell, Armin Mikler y Juan Gustafson. El código ha sido desarrollado y mantenido por Dave Turner desde octubre de 2000 con contribuciones diversas. Los módulos que se han agregado desde su creación involucran librerías de prueba para PVM, TCGMSG, y los estándares para MPI y Mpi-2. El archivo de instalación es llamado Netpipe_3.6.2.tar.gz y para instalarlo es necesario hacer lo siguiente: 1. Colocar el archivo Netpipe_3.6.2.tar.gz en un directorio llamado netpipe. 2. Descomprimir el archivo utilizando el comando tar –zxvf Netpipe_3.6.2.tar.gz 3. Utilizar el comando ./configure para crear el archivo make. 4. Utilizar el comando make para crear el ejecutable y a continuación make install para que el archivo se encuentre completamente instalado. A