PROBLEMA 2 MULTIPROCESADORES Aunque parece que para pocos procesadores un bus común es la red ideal, no siempre es así; por ejemplo, ya que un bus común se usa tanto para accesos a memoria como para mantener la coherencia entre cachés, tiene un tacc igual para ambos casos (el estar recargado con la arbitración entre distintos maestros puede hacerlo más lento). Sin embargo, un NUMA puede sacrificar el tacc a la red mientras favorece el tacc a la memoria local. Suponiendo que esto ocurre, comparar un UMA de 16 procesadores (con cachés locales L1 y L2) con un NUMA topología malla 2D del mismo número y tipo de procesadores, para un algoritmo FFT (comunicación todos con todos) y otro tipo Ocean (sólo comunicación adyacente). Se pide: a) Calcular el número medio de enlaces que ha de recorrer un mensaje para ambos algoritmos en la red malla 2D. b) Suponiendo los datos temporales siguientes, ¿qué porcentaje máximo de accesos remotos se permite en el NUMA para que se comporte mejor que el UMA? Sea c.c.= ciclos de CPU y c.r.= ciclos de red, con una frecuencia de CPU de 150 MHz y una línea de caché de 128 bytes y direcciones de 32 bits para ambos casos. Suponer que toda la línea está limpia (igual MR). Datos para el UMA: thit,L1+ thit,L2 = 40c.c., Pmiss,L2 = 124c.c. (y a la vez se carga la línea en L1). Datos para el NUMA: frecuencia de la red de 100MHz, ancho de red de 16 bits, thit,L1+ thit,L2 = 40c.c., Pmiss,L2 = 80c.c. (optimizado según el enunciado, es decir, sólo referente a los accesos locales), ts=5c.r., th=1c.r. y tiempo de transferencia tw=16bits/c.r. Suponer que no existe contención en la red. Suponer también que el envío de paquetes por la red se hace por medio del método encadenado de túneles (wormhole), de forma que el tiempo total de envío es exactamente: lth+ mtw (más el correspondiente tiempo de inicio y de recepción) donde m es el tamaño en bloques de 16 bits (el ancho de la red) del paquete (despreciar la cabecera del paquete).