Curso Avanzado Cell Broad Engine by Acid-burn

Acid-burn · Mensaje por **Acid-burn** » 03 Sep 2009, 19:59

Programación de procesadores multinúcleo.
Introducción a la programación del Cell Broadband Engine (Cell BE)
Programación del Cell BE:
-Introducción
-Arquitectura del Cell BE
-Programación del Cell BE
-Conclusiones

1-Introducción

Motivación
• Procesadores monolíticos --------------------------------------------------• Procesadores modulares
• Procesadores mononúcleo -------------------------------------------------• Procesadores multinúcleo
• Complejidad: diseño hardware ----------------------------------------------• Complejidad: desarrollo y optimización del software

Desafíos
• Restricciones tecnológicas
• Los núcleos de procesamiento son más simples
– Menos transistores dedicados a lógica de control y a almacenamiento
– Falta de predicción de saltos y otras técnicas de especulación agresivas
– Cantidad limitada de memoria dentro del chip para cada núcleo (el tamaño de la memoria escala a un ritmo menor que el tamaño de los núcleos)
• Cantidad limitada de ancho de banda de acceso a memoria
• Restricciones software
• Complejidad que supone el desarrollo y optimización de nuevas aplicaciones paralelas
• Dificultad para construir nuevos compiladores capaces de extraer automáticamente el paralelismo sin intervención del programador
• Fracción del rendimiento pico que se puede conseguir con aplicaciones reales
• Migración de software existente construido sobre MPI, OpenMP, Cray Shmem, etc.

Objetivos
• Existe una arquitectura multinúcleo que está recibiendo una enorme atención debido a su tremendo potencial: Cell BE
• El Cell BE posee un modelo de programación no tradicional
• En esta sesión vamos a explicar los conceptos básicos en los que se basa este modelo de programación
• Para ello, resulta imprescindible conocer su arquitectura
• A continuación, pasaremos a analizar y ejecutar algunos ejemplos reales sobre una PS3
• Por último, esbozaremos las técnicas de optimización más relevantes

Cell BE
• Desarrollado conjuntamente por Sony (PS3), Toshiba e IBM (STI)
• Procesadormultinúcleo heterogéneo diseñado específicamente para explotar tanto el paralelismo de datos (SIMD) como el paralelismo a nivel de thread (Thread-Level Parallelism, TLP)
• 1 x Power Processor Element (PPE)
– Procesador de propósito general para ejecutar el SO y coordinar las tareas de los demás núcleos (el jefe)
• 8 x Synergistic Processing Element (SPE)
– Procesadores de propósito específico diseñados para tratar grandes cantidades de datos (los subordinados)
• Rendimiento pico de 204.8 Gflops (simple precisión) y 14.64 Gflops (doble precisión)

Arquitectura del Cell BE

Imagen

PPE

• Procesadormultinúcleo hetérogéneo
• 1 x Power Processor Element (PPE)
– 64-bit Power-architecture-compliant processor
– Dual-issue, in-order execution, 2-way SMT processor
– PowerPC Processor Unit (PPU)
– 32 KB L1 IC, 32 KB L1 DC, VMX unit
– PowerPC Processor Storage Subsystem(PPSS)
– 512 KB L2 Cache
– Procesador de propósito general para ejecutar el SO y el código de control
– Coordina las tareas realizadas por los demás núcleos

SPEs
• Procesadormultinúcleo hetérogéneo
• 8 x Synergistic Processing Element (SPE)
– Dual-issue, in-order execution, 128-bit SIMD processors
– Synergistic Processor Unit (SPU)
– ISA SIMD (cuatro granularidades diferentes) con banco de registros SIMD (128 registros de 128 bits )
– 256 KB Local Storage (LS) para código/datos
– Memory Flow Controller (MFC)
– Memory-mapped I/O registers (MMIO Registers)
– DMA Controller: comandos para transferir datos desde/hacia memoria principal/LSs
– Procesadores de propósito específico diseñados para tratar datos
– Proporcionan la capacidad de cómputo principal

Esquema general
• Element Interconnect Bus (EIB)
– Interconecta PPE, SPEs, y los controladores de memoria y E/S
– 4 anillos de 16 Bytes de ancho (2 en sentido horario y 2 en sentido antihorario)
– Hasta tres transferencias de datos simultáneas por anillo
– Algoritmo de ruta más corta
• Memory Interface Controller (MIC)
– 2 canales de memoria Rambus XDR (accesos en cada canal de 1-8, 16, 32, 64 o 128 Bytes)
• Cell BE Interface (BEI)
– 2 canales Rambus FlexIO I/O (1 de ellos puede unir 2 Cell BEs – 16 SPEs)

El encanto del Cell BE
• Capacidad de procesamiento (3.2 GHz)
• Rendimiento pico de 204.8 Gflops (simple precisión) y 14.64 Gflops (doble precisión)
• Ancho de banda interno
• Rendimiento pico de 204.8 GB/s
• Ancho de banda de acceso a memoria (25.6 GB/s) y a los dispositivos de E/S (25 GB/s entrantes y 35 GB/s salientes)
• Permite que se realicen muchas peticiones de acceso a memoria de manera simultánea
• Hasta 128 operaciones de transferencia de DMA pendientes

Sistemas comerciales

• Cell BE disponible en:
• Play Station 3
– Alternativa más barata pero…
– …sólo 6 SPEs disponibles y < 200 MB para apps.
• IBM Blade Center QS20/21/22
• Mercury dual Cell-based blade
• Mercury Cell-based PCI Express board

Supercomputadores
• IBM Roadrunner: supercomputador más rápido del mundo
– Hardware: diseño híbrido
– TriBlade: 2 x dual-core Opterons (16 GB RAM) + 4 x PowerXCell 8i (16 GB RAM)
– 12960 IBM PowerXCell 8i (Cell BE)
– 6480 AMD Opterons
– Software: basado en Linux
– Red Hat Enterprise Linux
– xCAT
– DaCS for Hybrid
– ALF
– Open MPI

Programación del Cell BE

Filosofía general

• El Cell BE proporciona
• Gran capacidad de procesamiento (pico) dentro del chip (SPEs)
• Gran ancho de banda agregado (pico) dentro del chip (EIB)
• Pequeñas memorias locales dentro del chip (escasa reutilización de los datos)
• …lo que significa que deberíamos…
• Implementar algoritmos de distribución y balanceo de la carga para alimentar a todos los SPEs de manera equitativa
• Favorecer diseños algorítmicos que transfieran los datos dentro del chip en vez de acceder a memoria principal continuamente
• Incorporar esquemas algorítmicos (por ejemplo, double-buffering) que permitan solapar cómputo y comunicaciones
• Cuestiones críticas: sincronización, balanceo de la carga y movimiento de datos

Esquema general

• Los SPEs ejecutan threads creados por el PPE y sólo pueden acceder a código/datos dentro de su propio LS
• Programas diferentes escritos en C/C++ para el PPE y los SPEs
• Normalmente los SPEs ejecutan el mismo código pero sobre diferentes datos (Single ProgramMultiple Data, SPMD)
• Data Parallelism
• No obstante, también son posibles otros esquemas alternativos
• Task parallelism, pipeline, function offload, device management, etc.
• SDK proporcionado por IBM (usaremos la versión 3.0)
• Programas diferentes escritos en C/C++ para el PPE y los SPEs
• Código del PPE
– Tipos de datos vectoriales e intrinsics para utilizar la unidad VMX (por ejemplo, vector float or vec_add)
– Funciones de librería para manejar los threads y llevar a cabo tareas de comunicación y sincronización (por ejemplo, spe_context_run, spe_mfcio_put, spe_in_mbox_write)
• Código de los SPEs
– Tipos de datos vectoriales e intrinsics para hacer uso del ISA SIMD (por ejemplo, vector float or spu_add)
– Funciones de librería para llevar a cabo tareas de comunicación y sincronización (por ejemplo, mfc_get, spu_read_in_mbox)
• Librerías BLAS, LAPACK y SIMD Math

Otras librerías/entornos para programar el Cell BE

• Data Communications and Synchronization (DaCS) library y Accelerated Library Framework (ALF) se incluyen en la última versión del SDK de IBM
• Cell Superscalar (CellS) desarrollado por Barcelona Supercomputing Center
• Multicore Plus SDK Software desarrollado porMercury Computing Systems Inc.
• RapidMindMulticore Development Platform para procesadores multinúcleo de la familia x86 de AMD e Intel, GPUs de ATI/AMD y NVIDIA GPUs y Cell BE

Ejemplo 1: ¡HolaMundo!

EJEMPLO 1: ¡Hola Mundo!

Ejemplo 1: ¡HolaMundo!

• Conectar PS3 (PuTTY/SSH)
• Usuario: AcidXX
• Clave: AcidXX.09
• Donde XX Є [01..30]
• [AcidXX@...]$

• Descargar ejemplos.tgz de:

-Servidor Ftp: clustercell.no-ip.org
-Usuario: dark-alex.org
-Pass: dark-alex.org
• Extraer ficheros de ejemplo y acceder al directorio de ejemplo /cellbe_hello

• Compilar:
• [AcidXX@...] $ cat ../ps3.env export CELL_TOP=/opt/ibm/cell-sdk/prototype
• [AcidXX@...] $ source ../ps3.env
• [AcidXX@...] $ make
• Ejecutar:
• [AcidXX@...] $ ppu/cellbe_hello 1
• Editar código:
• [AcidXX@...] $ vim ppu/cellbe_hello_ppu.c
• [AcidXX@...] $ vim spu/cellbe_hello_spu.c

• Código PPE

int main(int argc, char **argv)
{
int num_spes, i;
if ( argc < 2) {
fprintf(stderr, "Usage: %s NUM_SPEs\n", argv[0]); exit(1);
}
/* set number of SPEs */
num_spes = atoi(argv[1]);
/* figure out the number of availabe SPEs */
if ((spe_cpu_info_get(SPE_COUNT_USABLE_SPES, -1)) < num_spes) {
fprintf(stderr, "System doesn't have enough working SPEs.\n"); return -1;
}

/* marshall thread_info structures */
for(i=0; i < num_spes; i++)
{
/* create the SPE context */
if ((tinfo[i].ctx = spe_context_create(SPE_MAP_PS, NULL)) == NULL) {
perror("spe_context_create"); exit (1);
}
/* load the SPE program into the SPE context */
if (spe_program_load(tinfo[i].ctx, &cellbe_hola_spu) != 0) {
perror("spe_program_load\n"); exit (1);
}
/* set SPE thread ID */
tinfo[i].id = i;
}

/* run the SPE threads */
for(i=0; i < num_spes; i++)
{
/* spawn Linux threads to run SPE contexts */
if (pthread_create (&(tinfo[i].thread), NULL,
&thread_function, &tinfo[i])){
perror("pthread_create");
exit (1);
}
printf("PPE: thread for SPE %d created\n", i);
}
/* Computation is distributed among SPEs */

for(i=0;i<num_spes;i++)
{
/* wait for Linux threads */
if (pthread_join (tinfo[i].thread, NULL)) {
perror("Failed pthread_join");
exit (1);
}
/* destroy the SPE context */
if (spe_context_destroy(tinfo[i].ctx) != 0) {
perror("spe_context_destroy");
exit (1);
}
...
}

for(i=0;i<num_spes;i++)
{
...
/* check the SPE exit status */
if (tinfo[i].stop_info.stop_reason == SPE_EXIT) {
if (tinfo[i].stop_info.result.spe_exit_code != 0) {
fprintf(stderr, "SPE %d returned a non-zero exit status.\n", i); exit(1);
}
} else {
fprintf(stderr, "SPE %d abnormally terminated.\n", i); exit(1);
}
}
printf("*** Test completed successfully ***\n");
return 0;
}

/* function executed by each Linux thread */
void *thread_function(void *arg)
{
unsigned int entry = SPE_DEFAULT_ENTRY;
thread_info *tinfo = (thread_info *) arg;
if ((spe_context_run(tinfo->ctx, &entry, 0, (void *) tinfo->id, 0, &tinfo->stop_info))<0)
{
perror("spe_context_run");
exit (1);
}
pthread_exit(NULL);
}

• Código SPEs

int main(uint64_t speid, uint64_t id)
{
/* ¡Hola mundo! */
fprintf(stderr, "SPE %lld (%llx): ¡Hola mundo!\n", id, speid);
return 0;
}

Comunicación y sincronización

• El PPE y los SPEs se comunican y sincronizan utilizando un conjunto de mecanismos soportados por el hardware:
• Buzones (mailboxes), señales (signals), operaciones atómicas (atomic operations) y transferencias de DMA
• Los registros MMIO que corresponden a buzones, señales y DMA controller de cada SPE están, como su nombre indica, mapeados en memoria.
• El PPE y los SPEs pueden programar el DMA controller para realizar transferencias entre la memoria principal, los LSs y los dispositivos de E/S
• Transferencias de DMA iniciadas por un SPE o por el PPE, bloqueantes o no bloqueantes, entre memoria principal y el LS de un SPE o entre dos LSs de dos SPEs diferentes
• Restricciones en las direcciones de memoria y el tamaño
• Las direcciones de memoria de origen y destino deben estar alineadas con un límite de 16 B
• Tamaño de DMA de 1, 2, 4, 8B o múltiplos de 16B hasta un máximo de 16 KB
• NOTA: se obtiene un mejor rendimiento cuando las direcciones de origen y destino están alineadas con un límite de 128 Bytes y el tamaño de la trasferencia es un múltiplo de 128 Bytes
• Buzones (mailboxes): permiten el intercambio de mensajes de 32 bits entre los SPEs y el PPE
• Envío de mensajes desde el SPE
– 1-entry SPU Write Outbound Mailbox
– 1-entry SPU Write Outbound Interrupt Mailbox
• Recepción de mensajes en el SPE
– 4-entry SPU Read Inbound Mailbox
• Cada buzón tiene un canal y su correspondiente registro MMIO
• El canal permite al SPE propietario leer/escribir de/en los buzones
• El registro MMIO permite a otros SPEs y al PPE leer/escribir de/en los buzones

Ejemplo 2: Uso de buzones

EJEMPLO 2: Uso de buzones

Ejemplo 2: Uso de buzones