procesadores avanzados - Departamento de Tecnología Electrónica

Anuncio
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
Parte 2.- SISTEMAS PARALELOS
Tema 4.-INTRODUCCION A LAS ARQUITECTURAS PARALELAS
Anexo 2.- PROCESADORES. AVANZADOS
INDICE:
Capitulo 4.1.-TECNOLOGÍA DE PROCESADORES AVANZADOS ................................................................. 2
Espacio de diseño de los procesadores......................................................................................................... 2
Procesadores CICS ......................................................................................................................................................3
Procesadores RICS ......................................................................................................................................................3
Procesadores VLIW.....................................................................................................................................................3
Procesadores Superpipelined .......................................................................................................................................3
Instrucciones Pipelines ................................................................................................................................... 4
Procesadores y Coprocesadores. .................................................................................................................. 5
Capitulo 4.2.- PROCESADORES CISC Y RISC................................................................................................ 7
Arquitectura de los conjuntos de instrucciones .............................................................................................. 7
Conjunto de instrucciones complejas...........................................................................................................................7
Conjunto de instrucciones reducidas ...........................................................................................................................7
Diferencias arquitectónicas..........................................................................................................................................7
PROCESADORES ESCALARES CISC ......................................................................................................... 9
Familias de microprocesadores CISC........................................................................................................................10
PROCESADORES ESCALARES RISC ....................................................................................................... 12
Procesadores RISC escalares representativos: ...........................................................................................................12
Los impactos del RISC ..............................................................................................................................................13
Capitulo 4.3.- PROCESADORES SUPERESCALARES Y VECTORIALES.................................................... 15
Procesadores Superescalares...................................................................................................................... 15
Arquitectura VLIW......................................................................................................................................... 18
El Pipelinig en los procesadores VLIW.....................................................................................................................19
VLIW OPPORTUNITIES .........................................................................................................................................19
Procesadores Vectorial y Simbólico ............................................................................................................. 20
Instrucciones vectoriales............................................................................................................................................20
Pipelines vectoriales ..................................................................................................................................................20
Procesadores simbólicos.............................................................................................................................. 21
ETSII – Dpto. Tecnología Electrónica
Página: 1 / 21
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
Capitulo 4.1.-TECNOLOGÍA DE PROCESADORES AVANZADOS
Vamos a estudiar la arquitectura de los modernos procesadores:
• CISC,
• RISC,
• Superescalares,
• VLIW,
• Super-pipelined,
• Vectoriales y
• Simbólicos.
Los procesadores escalares y vectoriales se emplean en cálculo numérico y los simbólicos en aplicaciones de IA.
Espacio de diseño de los procesadores
Representamos en una grafica la frecuencia de señal de reloj y los ciclos por instrucción (CPI) para varios
modelos de mismas familias y para familias diferentes.
CPI
Ciclos por instrucción
20
10
Escalar
CISC
5
Espacio de
diseño de la
mayoría de los
futuros
procesadores
Superpipelined
Escalar
RISC
2
1
0,5
VLIW
0,2
Superescalar
RISC
Superordenador
Vectorial
0,1
Ciclos de reloj
MHz
5
10
20
50
100
200
500
1000
Como la tecnología de implementación en los procesadores varia muy rápidamente, la señal del reloj varia
gradualmente desde valores mas pequeños a valores mayores.
Otra cuestión a observar es que los fabricantes de procesadores están tratando de reducir el numero de CPI
(Ciclos por Instrucción) usando HW y SW adecuado.
Esta grafica representa la década hasta los 95, según vaya avanzando la tecnología, algunas de las zonas se
desplazaran hacia la zona derecha inferior.
ETSII – Dpto. Tecnología Electrónica
Página: 2 / 21
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
Procesadores CICS
Los procesadores convencionales como, Intel 486, Motorota 68040, VAX 8600, IBM 390,... se clasifican en la
familia de arquitecturas denominada como de computación de conjuntos de instrucciones complejas CISC
(Complex-Instruction-Set Computing).
Trabajan con frecuencias de reloj de 33 a 50 MHz.
Actualmente estas velocidades de reloj están por encima del GHz.
Con control programado, cada instrucción maquina es interpretada por un microprograma localizado en una
memoria del CI del procesador.
Las instrucciones compuestas son decodificadas internamente y ejecutadas con las microinstrucciones que
están almacenadas en la ROM interna.
Estos procesadores tienen un valor de CPI entre 1 y 20.
Procesadores RICS
Otra familia a describir será la RISC, computación de conjuntos de instrucciones reducidas (Reduced-InstructionSet Computing), por ejemplo, los Intel i860, SPARC, MIPS R3000, IBM RS-6000, .....
Estos poseen una frecuencia de reloj mas elevada entre 20 y 120 MHz por su tecnología de implementación y
consiguen con el uso de un control por HW reducir el numero de CPI de 1 o 2.
Una clase especial de procesadores RISC son los procesadores superescalares, que permiten la ejecución de
múltiples instrucciones en el mismo ciclo.
El valor de CPI de estos procesadores lógicamente, debe de ser menor que en un procesador RISC genérico.
Su frecuencia de reloj, eso si, se encuentra en el mismo rango que la de los procesadores RISC.
Procesadores VLIW
Los procesadores de arquitectura VLIW (Very Long Instruction Word) utilizan unidades aun mas funcionales que
en el caso de los procesadores superescalar.
Con esto, el valor de CPI en estos procesadores puede ser aun mas reducido.
Debido al uso de instrucciones muy largas (256 a 1024 bits) la mayoría de los procesadores VLIW se han
implementado con control microprogramador.
La frecuencia de reloj es mas lenta por el empleo de memoria de solo lectura (ROM)
Un gran numero de ciclos de micro código de acceso puede ser necesitado para algunas instrucciones.
Procesadores Superpipelined
Los procesadores Superpipelined poseen relojes multifase con una mucho mas elevada frecuencia de reloj, que
puede ir de 100 a 500 MHz. Lo que ocurre es que el rango de CPI es también muy grande a pesar de que se
este tipo de procesadores se usa paralelamente con multi-instrucciones.
Las supercomputadoras vectoriales usan este tipo de procesador superpipelined y usan múltiples unidades
funcionales para realizar operaciones con escalares y vectores.
El numero efectivo de CPI usado en una supercomputadora debe de ser muy bajo, lo ideal, es que este
posicionado en la esquina inferior derecha de la grafica. Pero al intentar alcanzar esta posición, el coste se
incrementa considerablemente.
ETSII – Dpto. Tecnología Electrónica
Página: 3 / 21
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
Instrucciones Pipelines
El ciclo de ejecución de una instrucción incluye cuatro fases: lectura, descodificación, ejecución y escritura.
Estas fases se suelen realizar por una instrucción pipeline como se ve en la figura.
Instrucciones
sucesivas
Ejecución pipeline en un procesador escalar
Ciclos de reloj
Así podemos modelar un procesador de instrucciones con esta estructura simple compuesta por pipelines.
Usaremos esta estructura pipeline para la explicación de los siguientes tipos de procesadores.
La pipeline, como una cadena de ensamblaje, recibe instrucciones sucesivas de sus entradas y las ejecuta
secuencialmente, con solapamiento según las instrucciones fluyan a través de ella.
Un ciclo de pipeline se define como el tiempo necesario para cada fase para completar su operación, asumiendo
igual retraso en cada fase.
Las características básicas de esta estructura pipeline son las siguientes:
1. Ciclo de instrucción simple pipeline: El periodo de reloj para una fase de la instrucción pipeline.
Se considera que todas las fases tiene el mismo tiempo.
2. Latencia de ejecución de instrucciones: es el tiempo en ciclos requerido entre la gestión de 2
instrucciones.
3. Relación de instrucciones: es el número de instrucciones procesadas por ciclo.
Este parámetro también se denomina grado de una computadora superescalar.
4. Latencia de operación, según las operaciones sean simples, como por ejemplo sumas, cargas,
almacenamientos, movimientos..... o complejas, requiriendo una latencia mayor, operaciones complejas
pueden se la división, perdidas de cache.
Las latencias, en ambos casos se miden en número de ciclos.
5. Conflicto de recursos, esto se refiere a la situación en la que 2 o mas instrucciones necesitan usar la
misma unidas funcional al mismo tiempo.
Un procesador escalar básico se define como una maquina con una instrucción gestionada por ciclo, con latencia
1 para una operación simple.
La instrucción pipeline puede ser totalmente utilizada si instrucciones sucesivas pueden entrar continuamente en
un ratio de una por ciclo, como se ve en la figura anterior.
La latencia puede ser mayor de un ciclo por varias razones.
Si por ejemplo esta latencia es 2 ciclos por instrucción, la tubería puede estar infrautilizada.
Instrucciones
sucesivas
Ejecución pipeline en 2 ciclos por instrucción
ETSII – Dpto. Tecnología Electrónica
Página: 4 / 21
Ciclos de reloj
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
Otra situación de infrautilización de pipeline es cuando el ciclo de pipeline es doblado combinado fases.
Las fases de lectura y descodificación se combinan en una única fase de pipeline y las operaciones de ejecución
y escritura se combinan en otra fase.
Instrucciones
sucesivas
Ejecución pipeline en 2 ciclos por instrucción
Ciclos de reloj
Procesadores y Coprocesadores.
El procesador central de un ordenador se denomina CPU - Unidad Central de Procesamiento.
DMA ( Acceso Directo a Memoria)
Memoria principal
Bus Memoria
Procesador
Enteros
ALU
Subsistema de
I/O
Cache
Unidad
Coma
Flotante
Almacenamiento
Masivo
( Discos,
Cintas,......)
CU
Usuarios
CPU
CPU con unidad de coma flotante
Esta CPU es esencialmente un procesador escalar, el cual esta compuesto por múltiples unidades funcionales,
como puedan ser, principalmente, un acelerador de coma flotante y la unidad aritmético lógica (ALU), entre otros.
La unidad de coma flotante puede ser construida en un coprocesador que estará conectado a la CPU.
ETSII – Dpto. Tecnología Electrónica
Página: 5 / 21
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
DMA ( Acceso Directo a Memoria)
Memoria principal
Instrucciones
y Datos
Datos
Subsistema de
I/O
CPU
Coprocesador
Almacenamiento
Masivo
( Discos,
Cintas,......)
Instrucciones
Usuarios
CPU con un coprocesador
Este coprocesador ejecuta operaciones según se lo ordene la CPU.
El coprocesador puede ser un acelerador de coma flotante que ejecute instrucciones escalares, un procesador
vectorial que ejecute operaciones vectoriales o un procesador de señales digitales (DSP), o un procesador LISP
ejecutando programas AI.
Los coprocesadores no pueden llevar a cabo operaciones de I/O.
Coprocesador
Intel 8087
Intel 80287
Intel 387 DX
Intel i486
Motorota MC68882
Weitek 3167
Weitek 4167
Procesador
Intel 8086 / 8088
Intel 80286
Intel 386 DX
Intel i486
( incluido en el chip)
Motorota
MC68020 / 68030
Intel 386 DX
Intel i486
Características del coprocesador
5 MHz -- 70 ciclos para la suma y 700 ciclos para lógica
12,5 MHz -- 30 ciclos para la suma y 264 ciclos para lógica
33 MHz -- 12 ciclos para la suma y 210 ciclos para lógica
33 MHz -- 8 ciclos para la suma y 171 ciclos para lógica
40 MHz -- 56 ciclos para la suma y 574 ciclos para lógica
33 MHz -- 6 ciclos para la suma y 365 ciclos para lógica
33 MHz -- 2 ciclos para la suma.
La tabla nos muestra una lista de algunos pares procesador/coprocesador que se han desarrollado para
aumentar la velocidad de las operaciones numéricas.
Comentar finalmente que los coprocesadores no pueden ser usados de manera individual.
El procesador y el coprocesador operan en relación y de manera compatible, se puede decir que trabajan de
manera que tenemos un procesador “amo” y el resto son procesadores “esclavos”.
Eso si, por ciertas razones, un procesador esclavo, puede ser mas potente que su “host”.
ETSII – Dpto. Tecnología Electrónica
Página: 6 / 21
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
Capitulo 4.2.- PROCESADORES CISC Y RISC.
Arquitectura de los conjuntos de instrucciones
El conjunto de instrucciones en una computadora especifica son los comandos primitivos y las instrucciones de
maquina que el programador puede usar a la hora de programar la máquina.
La complejidad de estos conjuntos de instrucciones puede venir determinada por los formatos de datos, de
instrucciones, métodos de direccionamiento y mecanismos de flujo de control, entre otros.
Por la experiencia en diseño de procesos, 2 arquitecturas han predominado: CISC y RISC.
Conjunto de instrucciones complejas
En las primeras épocas de la computación, la mayoría de las computadoras trabajaban con conjuntos de
instrucciones que eran relativamente sencillas. La razón de esto era que el HW era muy caro.
A lo largo de la evolución de las computadoras en las ultimas 3 décadas, el precio del HW ha bajado muchísimo,
y el coste del SW ha ido subiendo gradualmente.
El resultado de esto es que una o mas funciones han sido implementadas en el HW, haciendo así el conjunto de
instrucciones mucho mas grande y complejo.
Un conjunto de instrucciones normal para una arquitectura CISC contiene aproximadamente de 125 a 350
instrucciones, usando formatos variables de instrucción y formatos de datos y un conjunto de 8 a 24 registros de
propósito general (GPRs).
Conjunto de instrucciones reducidas
Después de 2 décadas de uso de procesadores CISC, los usuarios de computadoras se dieron cuenta de que
solamente el 25% de las instrucciones de un conjunto complejo de instrucciones son usados frecuentemente
mas de un 95% del tiempo.
Esto implica que el 75% de las instrucciones que soporta el HW no son usadas mas que rara vez.
¿Por que entonces debemos de gastar valiosa área de Chip para funciones que se ejecutan muy raramente?.
Con instrucciones elaboradas de baja frecuencia, que demanda grandes micro-códigos necesarios para
ejecutarlos, puede ser mas ventajoso el eliminarlas totalmente del HW y crear una SW que se ocupe de
implementarlas. Aun cuando este SW va a ser mas lento, el resultado va a ser positivo debido a la escasa
frecuencia de aparición y uso.
El incluir instrucciones que se usan raramente en este SW, va a liberara área de Chip, lo que hará que podamos
construir procesadores RISC mas potentes.
Un conjunto de instrucciones normal RISC contiene menos de 100 instrucciones con un formato de 32 bits.
Solamente se usan de 3 a 5 modos de direccionamiento, la mayoría de las instrucciones son basadas en
registro, el acceso a memoria se hace solamente por lectura/almacenamiento.
Diferencias arquitectónicas
Describimos las diferencias en la arquitectura de los procesadores CISC y RISC.
En la figura se representa gráficamente la diferencia entre un procesador CISC y uno RISC.
Dirección de datos e
instrucciones.
CU
Memoria de control
microprogramado
Cache
Memoria principal
Arquitectura CICS con control micro-programado y cache unificado
ETSII – Dpto. Tecnología Electrónica
Página: 7 / 21
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
CU de
control por
HW
Dirección de datos
Cache de
Datos
Cache de
Instrucciones
Memoria principal
Arquitectura RICS con control por HW y cache para Instrucciones y Datos
Estas diferencias no se van a mantener en el futuro, porque los procesadores que aparezcan van a contener
elementos y características de ambos tipos.
La arquitectura CISC convencional usa un cache unificado para gestionar datos e instrucciones.
Con esto, deben de compartir el mismo camino datos/instrucciones.
En un procesador RISC, se usan caches separados para datos e instrucciones, con diferentes modelos de
acceso.
Como siempre, existen excepciones y por poner un ejemplo, existen procesadores CISC que usan códigos split
El uso de control micro-programado se encuentra el los CISC tradicionales, y el control por HW puede ser
encontrado en la mayoría de los RISC.
En los primeros CISC, se necesitaba memoria de control ROM, lo que hacia mas lenta la ejecución.
Los CISC modernos usan también control por HW.
Esto quiere decir que los split caches y controles HW no se usan solamente en las maquinas RISC.
El uso del control por HW reducirá efectivamente el numero de CPIs a una instrucción por ciclo si el pipelining se
mantiene en estado optimo.
Algunos CISC usan caches split y control por HW.
Arquitectura
característica
Tamaño del set de
instrucciones
y
formato
de
las
instrucciones
Modos
de
direccionamiento
Registros
de
propósito general y
modelos de cache
Velocidad de reloj y
CPI
Control de CPU
CICS
RISC
Gran conjunto de instrucciones con
varios formatos.
16 – 64 bits por instrucción.
Pequeño conjunto de instrucciones con
formato fijo de 32 bits.
La mayor parte de las instrucciones
basadas en registros.
Limitado a 3 – 5
12 – 24
8 – 24 GPRs
Cache unificada de instrucciones y
datos
1992 :
33 – 50 MHz con CPI entre 2 y 15
Micro-programado
usando
ROM,
actualmente por HW
32 – 192 GPRs
Cache individuales para instrucciones y
datos
1993 :
50 – 150 MHz con CPI < 1,5
Control por HW
El gran numero de instrucciones usados en un procesador CISC es el resultado del uso de instrucciones de
formato variable y del uso de mas de una docena de modos de direccionamiento.
Con pocos GPRs, muchas mas instrucciones acceden a la memoria para realizar operaciones. El numero de CPI
entonces es bastante elevado, como resultado de los grandes micro-códigos usados para controlar la ejecución
de algunas de las instrucciones complejas.
En el caso de los RISC se usan instrucciones de 32 bits que son, predominantemente, basadas en registros.
Con unos pocos y simples modos de direccionamiento, el ciclo de acceso a memoria se divide en operaciones
de acceso pipelined que incluirán el uso de caches y registro de trabajo.
Usando un registro de archivos grande, y caches separados para datos e instrucciones se nos beneficiara el
direccionamiento interno de datos y se elimina el almacenamiento innecesario de datos intermedios.
Con control por HW, el numero de CPI se reduce a 1 para la mayoría de las operaciones RISC.
ETSII – Dpto. Tecnología Electrónica
Página: 8 / 21
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
PROCESADORES ESCALARES CISC
El procesador escalar, en los procesadores mas simples, ejecuta instrucciones usando operandos de punto fijo.
Procesadores escalares mas potentes ejecutan operaciones de alta integración y operaciones en coma flotante.
Un procesador escalar moderno posee ambas unidades de enteros y de coma flotante el la misma CPU.
DMA ( Acceso Directo a Memoria)
Memoria principal
Bus Memoria
Procesador
Enteros
ALU
Subsistema de
I/O
Cache
Unidad
Coma
Flotante
Almacenamiento
Masivo
( Discos,
Cintas,......)
CU
Usuarios
CPU
CPU con unidad de coma flotante
En el caso ideal, un procesador CISC debe de tener las mismas prestaciones a las que tendría un procesador
escalar de las mismas características.
Instrucciones
sucesivas
Ejecución pipeline en un procesador escalar
Ciclos de reloj
Lo que ocurre es que normalmente el procesador suele estar underpipelined.
Las causas de esto pueden ser la dependencia de datos entre instrucciones, penalizaciones en la ramificación y
otros conflictos, como se vera mas adelante.
Instrucciones
sucesivas
Ejecución pipeline en 2 ciclos por instrucción
ETSII – Dpto. Tecnología Electrónica
Página: 9 / 21
Ciclos de reloj
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
Otro caso que puede darse es causado por usar un ciclo de reloj que es mayor que la latencia de operación..
Instrucciones
sucesivas
Ciclos de reloj
Ejecución pipeline en 2 ciclos por instrucción
Finalmente decir que el mayor problema para el diseñador va a ser la reducción del ciclo de reloj para conectar
este a la latencia de operaciones simples.
Esto se resuelve en la arquitectura RISC.
Vemos ahora como las técnicas RISC, superescalar y superpipelining pueden ser aplicadas para mejorar las
prestaciones
Consola
Bus de consola
Subsistema
I/O
Bus de direcciones
Enteros
ALU
Unidad de
Instrucciones
( 16 GRPs)
Unidad
Coma
Flotante
Bus de
operandos
Cache
16 KB
Memoria
de control
Control de
Memoria y
sistemas de
I/O
Bus de memoria
Almacenamiento
Masivo
( Discos,
Cintas,......)
Memoria principal
Bus de escritura
CPU del VAX 8600 con arquitectura típica de procesador CICS
La CPU de este ejemplo contiene dos unidades funcionales para ejecución e instrucciones de coma flotante.
Tenemos un cache que se usa para instrucciones y datos.
Tenemos 16 GPRs en la unidad de instrucciones.
El pipelinig de instrucciones se ha construido con 6 etapas, como en la mayoría de las maquinas CICS.
El CPI de las instrucciones varia entre 2 y 20 ciclos, debido al empleo de largas secuencias de instrucciones y
operaciones de control por HW.
Familias de microprocesadores CISC
Procesadores Intel :
• 8 bits : 8008, 8080, 8085
• 16 bits : 8086, 8088,80186,80286
• 32 bits : 80386, 80486, 80586
Procesadores Motorola :
• 8 bits :6800
• 16 bits : 68000
• 32 bits : 68020, 68030, 68040.
ETSII – Dpto. Tecnología Electrónica
Página: 10 / 21
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
Bus de Instrucciones
ATC de
Instrucciones
Cache de
Instrucciones
Bus de
Direcciones
( 32 bits)
D. I.
Buscar Inst
Controlador de
Instrucciones
Conversor
Decodifica
Ejecución
Bus de
Controladores
Unidad de memoria de Instrucciones
Calcula DE
Bus de Datos
e Instrucciones
( 32 bits)
Busca DE
Unidad de memoria de Datos
Escritura
Unidad de Punto
Flotante
Ejecución
Controlador de
Datos
Escritura
Unidad de Enteros
ATC de
Datos
Cache de
Datos
D.D.
Bus de
Señales de
Control
Bus de Datos
Arquitectura del microprocesador Motorola MC68040
Cache de 4 KB de datos
Cache de 4 KB de instrucciones
100 instrucciones con 16 registros multi-propósito
Cache de traslación de direcciones ATC.
Unidad de integración organizada en una pipeline de 6 etapas :
• Buscar Instrucciones.
• Decodificación
• Calculo de dirección efectiva
• Buscar dirección efectiva
• Ejecución
• Escritura
La unidad de punto flotante esta constituida en tres etapas
ETSII – Dpto. Tecnología Electrónica
Página: 11 / 21
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
PROCESADORES ESCALARES RISC
El procesador genérico RISC se denomina RISC escalar, porque ha sido diseñado para ejecutar una instrucción
por ciclo, como ocurría en el procesador escalar.
En teoría, ambos procesadores RISC y CISC deberían de tener prácticamente el mismo rendimiento, si
trabajaran con la misma señal/frecuencia de reloj e igual longitud de programa. Esto no siempre ocurre, porque
la arquitectura afecta la calidad y densidad del código generado por los compiladores.
El diseño RISC aumenta su potencia colocando algunas de las operaciones usadas con menos frecuencia en el
interior de un Software.
La necesidad de un buen compilador es mucho mayor en un procesador RISC que en uno CISC.
El paralelismo en el nivel de instrucciones se explota en ambos tipos de procesadores.
Procesadores RISC escalares representativos:
• Sun SPARC CY7C601
• Intel i860
• Motorota 88100
• AMD 29000
entre las características a destacar :
• Conjunto de instrucciones de 51 a 124 instrucciones básicas
• Instrucciones de 32 bits
• Numero de registros entre 32 y 192
• Unidad de punto flotante en chip en los modelos i860 y M88100
Dirección
FI Registro estático
Dato
Resultados FPP
Buffer direcciones de
instrucciones
( 2 x 64)
Procesador de
Punto Flotante
Pipelined
de 64 bits
Fichero registros de
datos en
Punto Flotante
( 32 x 32)
Cola de Punto Flotante
( 3 x 64)
Dirección instrucción
Operandos FP
Control Fichero
Registros
Instrucciones FP
Unidad de Control
Instrucciones en Punto
Flotante
Control FP
Arquitectura del procesador Sun Microsystems Sparc CY7C602
( Unidad de coma flotante esperada en 2 chips)
Este procesador ejecuta con un conjunto de 32 registros enteros de 32 bits, 8 de estos registros son registros
globales, compartidos por todos los procesos, los 24 restantes van asociados solamente con un procedimiento.
Cada registro esta dividido en 3 partes, Entradas (Ins), salidas (Outs) y Locales.
ETSII – Dpto. Tecnología Electrónica
Página: 12 / 21
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
Dirección externa de 32 bits
Unidad de Gestión
de Memoria
Cache Instrucciones
4 KB
Cache datos
8 KB
Dirección
Instrucciones
Dirección
Datos
Datos
Cache
128 bits
Instrucción FP
Datos
externos
64 bits
64
Núcleo Instrucción
32
Unidad de Control
del Bus
32
32
32
Unidad Entero
RISC
Unidad de Control de
Punto Flotante
Registros del Nucleo
Registros FP
64
Dest
Src1
Src2
64
64
Ki
T
Unidad Grafica
Enlaces de registros
Unidad Sumadora
Pipelined
Kr
Unidad Multiplicadora
Pipelined
Arquitectura del procesador i860
Es un procesador RISC de 64 bits, fabricado en chips con mas de 1 millón de transistores
Alcanza hasta los 80 Mflops
Dispone de 9 unidades funcionales conectadas
Ejecuta 82 instrucciones:
•
•
•
•
42 RISC enteros
24 Punto Flotante
10 Graficas
6 Operaciones de pseudo-ensamblador
Buses internos y externos de direcciones de 32 bits
Bus de datos internos de 64 bits
Cache de datos compuesto por una memoria asociativa de 2 vías y 8 KB, transmite 128 bits por ciclo de reloj
La Unidad de Gestión de Memoria soporta 4 KB para páginas de memoria virtual.
Los impactos del RISC
El debate entre los diseñadores de RISC y CICS ha durado más de 1 década.
Los procesadores RISC muestran mejores prestaciones que los CICS si la longitud del programa no se
incrementa demasiado.
Por la experiencia acumulada se puede decir que en la conversión de un programa CICS a un su equivalente en
RSIC se incrementa la longitud del código en un 40 %, debido a que un procesador RISC carece de ciertas
instrucciones sofisticas de las que posee un procesador CICS, por supuesto depende del comportamiento del
programa y no es generalizable.
ETSII – Dpto. Tecnología Electrónica
Página: 13 / 21
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
Este incremento de la longitud del código es mucho más pequeño que el incremento en la velocidad de reloj y la
reducción de CPIs, pero sin embargo este incremento de la longitud de un programa RICS implica mayor tráfico
de instrucciones y mayor demanda de memoria.
Otro problema de los RISC es causado por el uso de un archivo de registros grande.
A pesar de que de un conjunto de registros más grande puede gestionar más resultados intermedios y reducir el
tráfico de datos entre la CPU y la memoria, el sistema de decodificación de registros será mas complicado.
El mayor tiempo de acceso a registro nos pide una demanda mayor al compilador para realizar las funciones de
registro de ventana.
Otra desventaja de los RISC se basa en su control por HW, que es menos flexible.
Las desventajas del RISC están directamente relacionadas con algunas de sus ventajas.
Las diferencias entre las arquitecturas RISC y CISC se han reducido actualmente porque ahora los 2 están
siendo implementados con la misma tecnología HW.
Los procesadores VAX 9000, Motorota 88100 y Intel i586 han construidos con prestaciones mixtas de ambas
arquitecturas.
Realmente son las características de la aplicación las que determinan la mejor elección de una arquitectura de
procesador.
ETSII – Dpto. Tecnología Electrónica
Página: 14 / 21
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
Capitulo 4.3.- PROCESADORES SUPERESCALARES Y VECTORIALES
Los procesadores escalares CISC o RISC pueden ser mejorados con una arquitectura superescalar o vectorial.
Recordar que los procesadores escalares son aquellos que ejecutan una instrucción por ciclo de maquina.
Solamente una instrucción es gestionada por ciclo, y solo podemos esperar a que se complete una operación en
la pipeline por ciclo.
En un procesador superescalar, se usan pipelines de múltiples instrucciones. Esto implica que múltiples
instrucciones se gestionan por ciclo, y se generan múltiples resultados en ese ciclo.
Un procesador vectorial ejecuta instrucciones “vector” en arrays de datos.
Procesadores Superescalares
Los procesadores superescalares están diseñados para explotar el paralelismo en el nivel de instrucciones en
los programas del usuario. Solamente se pueden ejecutar en paralelo las instrucciones independientes sin
causar un estado de espera.
La cantidad de este paralelismo en el nivel de instrucciones varia ampliamente dependiendo del código
ejecutado.
Pipeline en los procesadores escalares:
Instrucciones
sucesivas
Procesador superescalar de grado m=3
Ciclos de reloj
En esta figura se muestra el uso en paralelo de 3 pipelines en un procesador de grado 3.
En este sentido, el procesador escalar base, implementado como RISC o CISC tiene un grado m =1.
Un procesador superescalar de grado m puede gestionar m instrucciones por ciclo.
Para utilizar enteramente este procesador, m instrucciones deben de ser ejecutados en paralelo.
Esta situación no tiene porque ser cierta en todos los ciclos de reloj. En ese caso, alguna de las pipelines estará
en estado de espera.
En un procesador superescalar, la latencia de operación simple requiere solamente un ciclo, como ocurría en el
procesador escalar base. Debido a la necesidad de tener un elevado grado de paralelismo en el nivel de
instrucciones en el programa, los procesadores superescalares necesitan de un compilador optimizado para
explotar el paralelismo.
Los procesadores superescalares fueron desarrollados originalmente como una alternativa a los procesadores
vectoriales.
En teoría, un procesador superescalar debería dar las mismas prestaciones que una maquina con HW vectorial.
Una maquina superescalar que tenga coma fija, coma flotante carga y branch todo ello en un mismo ciclo, dará
efectivamente el mismo paralelismo efectivo que una maquina vectorial que ejecuta una carga de vector dirigida
a un vector suma, con un elemento cargado y añadido por ciclo.
ETSII – Dpto. Tecnología Electrónica
Página: 15 / 21
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
Una arquitectura superescalar típica se muestra en la figura:
Memoria
Instrucciones
Fichero
Registros
Buffer
Re-ordenador
Cache
Instrucciones
Decodificador
Branch
ALU
Shifter
Load
Store
Unidad RISC Enteros
Unidad RISC Coma Flotante
Fichero
Registros
Buffer
Re-ordenador
Decodificador
ADD
Convert
MULTI
DIV
Load
Direc.
Memoria
Instrucciones
Store
Data
Cache Datos
Se utilizan múltiples instrucciones pipelines.
El cache de instrucciones proporciona múltiples instrucciones por (fetch, traer o leer).
El número de instrucciones enviadas a varias unidades funcionales puede variar en cada ciclo.
Este numero esta limitado por las dependencias entre datos y los conflictos entre instrucciones que son
decodificadas simultáneamente.
La unidad de enteros y de punto flotante, se construyen con múltiples unidades funcionales.
ETSII – Dpto. Tecnología Electrónica
Página: 16 / 21
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
Existen múltiples buses de datos entre las distintas unidades funcionales.
En teoría, todas las unidades funcionales pueden ser usadas si no existen dependencias o conflictos entre ellas
durante un ciclo dado.
Debido al bajo número de CPI obtenido y a las altas frecuencias de reloj que se consiguen, la mayor parte de los
procesadores superescalares sobrepasan con mucho las prestaciones de los procesadores escalares.
El numero máximo de instrucciones ejecutadas por ciclo varia de 2 a 5 en estos procesadores.
Cache
Instrucciones
( 8 KB)
Branch Procesor
Procesador
Coma Fija
32
Almacenamiento
y I/O
Procesador
Coma Flotante
32
64
64
Cache Datos ( 64 KB)
128
128
Memoria Principal ( 8 a 128 MB)
Arquitectura IBM RS/6000
Este procesador superescalar es de 1990, tiene 3 unidades funcionales: Branch, Coma Fija y Coma Flotante que
pueden trabajar en paralelo.
El procesador Branch puede arrancar hasta 5 instrucciones por ciclo, estas incluyen:
• 1 instrucción Branch en el procesador Branch
• 1 instrucción de punto fijo en el procesador de enteros
• 1 instrucción de condicional en el procesador Branch
• 1 instrucción de punto flotante en el procesador de coma flotante que cuenta como 2.
El RS-6000 esta implementado con control por HW y dispone de buses de 32 y 64 bits de tamaño de palabra.
El diseño de este procesador esta optimizado por aplicaciones científicas y de ingeniería que requieren de
cálculo numérico intensivo.
Ha demostrado también un bien rendimiento en entornos comerciales multiusuario.
Otros procesadores superescalares representativos:
• Intel i960CA
• DEC 21064
ETSII – Dpto. Tecnología Electrónica
Página: 17 / 21
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
Arquitectura VLIW
LA arquitectura VLIW (Very Long Instruction Word) se caracteriza por 2 conceptos bien establecidos:
•
•
Procesamiento superescalar
Microcódigo horizontal, diferentes campos en 1 instrucción larga suministran código a varias
unidades funcionales.
Una maquina VLIW tiene palabras de instrucción de cientos de bits de largo.
Como se ve en la figura, múltiples unidades funcionales se usan al mismo tiempo en la maquina VLIW.
Memoria
Principal
Fichero Registro
Unidad
Load
Store
Unidad
ADD
FP
Unidad
ALU
Unidad
Branch
Procesador típico VLIW
Todas las unidades funcionales comparten el uso de un gran archivo de registro común.
Las operaciones que van a ser realizadas por las unidades funcionales se coordinan en una instrucción VLIW,
con 256 o 1024 bits por palabra de instrucción.
Load / Store
FP Add
FP Multiply
Branch
-------
IntegerALU
El concepto VLIW es copiado del microcódigo horizontal.
Los diferentes campos de la larga palabra de instrucción llevan los códigos a ser usados por las diferentes
unidades funcionales.
Los programas escritos en las tradicionales palabras cortas de instrucción (es decir 32 bits) deben de ser
compactadas entre si para formar las instrucciones VLIW.
Esta compactación del código debe de ser realizada por un compilador que pueda predecir las salidas usando
estadísticas del tiempo o heurísticas.
ETSII – Dpto. Tecnología Electrónica
Página: 18 / 21
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
El Pipelinig en los procesadores VLIW
La ejecución de instrucciones en un procesador ideal VLIW se ve en la figura.
Buscar
Escribir
Decode
Ejecutar
3 Oper.
Ejecución en un procesador VLIW de grado m = 3
Ciclos de reloj
Cada instrucción especifica múltiples operaciones. Las maquinas VLIW se comportan de similar manera a las
maquinas superescalares con tres diferencias principales:
1. La decodificación de las instrucciones VLIW es mas fácil que en el caso de instrucciones superescalar.
2. La densidad de código de la maquina superescalar es mejor cuando el paralelismo a nivel de
instrucciones disponible es menor que el explotable por una maquina VLIW.
Esto se debe a que el formato fijado VLIW incluye bits para operaciones no ejecutables, mientras que el
procesador superescalar gestiona solamente instrucciones ejecutables
3. Una maquina superescalar puede ser compatible en código y objeto con una gran familia de maquinas
no paralelas. Por el contrario, una maquina VLIW que explote diferentes cantidades de paralelismo
requerirá diferentes conjuntos de instrucciones
El paralelismo de instrucciones y el movimiento de datos en una arquitectura VLIW esta completamente
especificado a la hora de la compilación. Run time resource scheduling and synchornization son entonces
completamente eliminados.
Uno puede considerar el procesador VLIW como un caso extremo del procesador superescalar en el cual todas
las operaciones independientes aun no demandadas son empaquetadas de manera sincronizada en previsión
El valor de CPI de un procesador VLIW puede ser aun menor que el de un procesador superescalar.
Por ejemplo la computadora Multiflow trace permite mas de siete operaciones ejecutadas al mismo tiempo con
256 bits por instrucción VLIW.
VLIW OPPORTUNITIES
En la arquitectura VLIW, se explota el paralelismo aleatoriamente entre operaciones escalares, sin tenerse en
cuenta el paralelismo regular o síncrono como en una supercomputadora vectorizada o una computadora SIMD.
El éxito en un procesador VLIW depende en gran medida de la eficiencia en la compactación del código.
La arquitectura es totalmente incompatible con cualquiera de los procesadores convencionales de propósito
general.
El paralelismo de instrucciones embebido en el código compactado puede requerir una latencia diferente para
ser ejecutado por diferentes unidades funcionales, a pesar de que las direcciones son gestionadas al mismo
tiempo.
Diferentes implementaciones de arquitecturas VLIW pueden ser no compatibles binariamente unas con las otras.
Codificando explícitamente el paralelismo en las instrucciones, el procesador VLIW puede eliminar el HW y SW
necesarios para detectar el paralelismo. La principal desventaja de la arquitectura VLIW es su simplicidad en
estructura de HW y conjunto de instrucciones. El procesador VLIW se comporta bien en aplicaciones científicas
donde el comportamiento del programa es mas predecible. En aplicaciones de propósito general, puede que la
arquitectura no trabaje bien.
Debido a ser incompatible con los HW y SW convencionales, la arquitectura VLIW no ha entrado en la corriente
principal de las computadoras. La necesidad de una compilación especial y una compactación de código ha
impedido su aceptación en el mundo comercial.
ETSII – Dpto. Tecnología Electrónica
Página: 19 / 21
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
Procesadores Vectorial y Simbólico
Por definición, un procesador vectorial es un coprocesador diseñado específicamente para realizar operaciones
de computación con vectores.
Una instrucción vectorial contiene un gran array de operandos.
Los procesadores vectoriales son usados generalmente en supercomputadoras multipipelined.
Los procesadores vectoriales pueden construirse con una arquitectura registro a registro o con una arquitectura
memoria a memoria. La primera de estas arquitecturas usa instrucciones y archivos de registro de vector, la
segunda utiliza instrucciones basadas en la memoria que son mas largas, incluyendo las direcciones de
memoria.
Instrucciones vectoriales
Las instrucciones vector basadas en registros aparecen en la mayoría de los procesadores vectoriales registro a
registro como en los superordenadores CRAY.
Las operaciones vectoriales, en todos los casos, son realizadas por pipelines, incluyendo pipelines funcionales y
pipelines de acceso-memoria.
La longitud de los vectores debe de ser la misma en todos los operandos usados en una instrucción vectorial.
Los vectores más largos, que excedan la longitud del registro, n, deben de ser segmentados en el tiempo para
ajustarse a la longitud del registro.
Las operaciones vectoriales basadas en memoria se pueden encontrar en procesadores memoria a memoria.
Aquí la longitud del vector no esta limitada por la longitud del registro. Los vectores largos se tratan en una en
forma de corriente usando superpalabras, que se obtienen de muchas otras palabras de memoria más cortas.
Pipelines vectoriales
Las pipelines vectoriales pueden ser utilizadas en cualquier procesador escalar, ya sea superescalar,
superpipelined, o ambos. Utilizan la ventaja del paralelismo a nivel lazo abierto
Las pipelines vectoriales eliminaran parte del solapamiento del SW en el control de bucles.
Por supuesto, la efectividad de un procesador vectorial se basa en la capacidad y optimización de un compilador
que pueda “vectorizar” códigos secuénciales para el pipelining vectorial.
Instrucciones
sucesivas
Ejecución pipeline en un procesador escalar
Ciclos de reloj
Instrucciones
sucesivas
Ciclos de reloj
Ejecución pipeline en un procesador escalar con vectores
ETSII – Dpto. Tecnología Electrónica
Página: 20 / 21
MSA
Sistemas de Multiprocesamiento
PROCESADORES AVANZADOS
Procesadores simbólicos
El procesamiento simbólico ha sido utilizado en múltiples áreas, como puedan ser las de comprobación de
teoremas, reconocimiento de modelos, maquinas inteligentes, etc.
En estas aplicaciones, los datos y los resultados, las operaciones primitivas, el comportamiento del algoritmo,
memoria, I/O y comunicaciones son elementos especiales, elementos arquitectónicos especiales diferentes de
los elementos numéricos usados en las computaciones numéricas.
Los procesadores simbólicos han sido denominados procesadores Prolog, Lisp o manipuladores simbólicos.
Por ejemplo, un programa Lisp puede interpretarse como un conjunto de funciones entre las cuales los
datos pasan de función a función.
La ejecución concurrente de estas funciones es la base para el paralelismo.
En vez de trabajar con datos numéricos, trabajamos con programas lógicos, objetos, listas simbólicas, redes
neuronales, pizarras..., etc.
Las operaciones primitivas para la inteligencia artificial incluyen:
•
•
•
•
•
•
Buscar
Comparar
Inferencia lógica
Unificación
Filtrado
Operaciones de razonamiento
Este tipo de operaciones van a necesitar un conjunto especial de instrucciones conteniendo comparar, unir y
operaciones lógicas y simbólicas.
En este tipo de operaciones, normalmente no se usan operaciones de coma flotante.
El procesador simbólico Lisp 3600
Bus A
Registros
Procesador
Etiquetas
Buffer de la
Pila
Procesador
Punto Fijo
Instrucción en
curso
Bus B
Selector
Operandos
Memoria
Principal
Procesador
Coma Flotante
Colector de
Basura
La maquina esta dividida en varia capas.
Esto permite almacenar o agrupar para simplificar el conjunto de instrucciones.
Ejecuta la mayoría de las instrucciones Lisp en un solo ciclo.
ETSII – Dpto. Tecnología Electrónica
Página: 21 / 21
MSA
Descargar