Introducción a Cómputo Paralelo con CUDA...

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICOFacultad de Ingeniería

Introducción a Cómputo Paralelo con CUDA C/C++

Laboratorio de Intel y Cómputo de alto desempeño

Elaboran: Ariel Ulloa TrejoJaime Beltrán Rosales

Revisión: Ing. Laura Sandoval Montaño

Temario

1. Antecedentes

2. El GPU

3. Modelo de programación CUDA

4. Manejo de matrices

5. Memoria compartida

Ariel Ulloa Trejo Jaime Beltrán Rosales

3 Modelo de programación CUDA

Jerarquía de la memoria

• Una malla (o grid) está conformada por bloques.

• Los bloques a su vez están conformados por hilos.

Jerarquía de la memoria

• Cada hilo tiene memorialocal privada.

• Cada bloque tiene memoriacompartida visible a todoslos hilos del mismo.

• Todos los hilos tienenacceso a la misma memoriaglobal.

El dispositivo puede:

• L/E registros por hilo.

• L/E memoria local por hilo.

• L/E memoria compartida por bloque.

• L/E memoria global por grid.

• Leer memoria constante por grid.

El host (CPU) puede:

• Transferir datos a la memoria global y constante y viceversa.

1. Copiar Datos a procesar.

2. El CPU indica al GPU qué hay que hacer.

3. El código se ejecuta en paralelo.

4. Copiar resultado de GPU a CPU.

cudaMalloc()

• Función necesaria paraasignar memoria en eldispositivo.

cudaFree()• Es necesario liberar la

memoria que ya no seutiliza.

cudaMemcpy()

• Función que copia datos entre las memorias:

• La transferencia es asíncrona(el programa continúa antesde que la copia sea finalizada)

Función Kernel

CUDA C/C++ es una extensión del lenguaje C que permite al programador definir funciones Kernel.

Características

• Es ejecutada por N hilos.

• Cada hilo lo realiza de forma secuencial.

• Se debe especificar la declaración __global__

• El número de hilos se define utilizando <<<…>>>

• No tiene valor de retorno (void)

Ejercicio

• Hacer un programa que realice la suma de dos enteros.

Configuración de la ejecución:

• La ejecución opera en paralelo a través de hilos.

• Cada hilo tiene su identificador y registros.

• La cantidad de hilos en ejecución depende del hardware.

• Un grid está compuesto por bloques, y éstos por hilos.

Hilos:

• Todos los hilos tieneníndices con el fin de calcularlas direcciones de memoriay tomas decisiones decontrol.

• Los hilos tienen variablespara identificarse, ya sea en1, 2 ó 3 dimensiones (lo queproporciona la facilidadpara el manejo de vectores,matrices o volúmenes).

Bloques:

• Tal como los hilos, losbloques (dentro del grid)también tienen variables en1, 2 ó 3 dimensiones.

• El kernel es copiado entodos los bloques“invocados”.

• El número total de hilos esla cantidad de hilos de cadabloque por la cantidad debloques.

3 Modelo de programación CUDAÍndices:

Variables (creadas automáticamente):

– Índice del hilo en x threadIdx.x

– Índice del hilo en y threadIdx.y

– Índice del hilo en z threadIdx.z

– Índice del bloque en x blockIdx.x

– Índice del bloque en y blockIdx.y

– Índice del bloque en z blockIdx.z

– Número de hilos por bloque en x blockDim.x

– Número de bloques por grid en x gridDim.x

Ejercicio:

• Sumar dos vectores de tamaño 100 en el GPU usando 1bloque y 100 hilos.

Arreglos unidimensionales

Ejercicio:

• Sumar dos vectores de tamaño 100 en el GPU usando 10bloques y 10 hilos por bloque.

Solución:

• tid = threadIdx.x + blockDim.x * blockIdx.x;

• Cuyo mapeo es:

Ejercicio:

• Sumar dos vectores de tamaño 100 en el GPU usando 2bloques y 10 hilos por bloque.

¿20 hilos para 100 elementos?

Introducción a Cómputo Paralelo con CUDA...

Documents

Transcript of Introducción a Cómputo Paralelo con CUDA...

Segunda Parte: TECNOLOGÍA CUDAbibing.us.es/proyectos/abreproy/11926/fichero/Segunda+parte... · Un multiprocesador CUDA contiene ocho procesadores escalares, también llamadoa “Cores”

Simulaciones de Física Estadística usando GPGPU: tres … · CUDA Driver Version / Runtime Version 4.2 / 4.1 CUDA Capability Major/Minor version number: 2.0 Total amount of global

CUDA Por: Ernesto Y. Soto Rivas G00387821. ¿Qué es CUDA? CUDA es un lenguaje de programación que utiliza el Graphical Processing Unit (GPU) Permite.

Operación stencil en CUDA · 2016-06-30 · cias entre ellos. Normalmente, este paralelismo es explotado en problemas de naturalezaiterativadonde,encadaiteración,cadahilodeejecuciónseencarga

Programación Paralela en OpenMplcomp89.fi-b.unam.mx/licad/assets/ProgramacionOpenMP/Programaci... · Introducción a Open Multiprocessing (OpenMP) Proyecto PAPIME PE104911 Elba Karen

Recursos avanzados de CUDA Agradecimientos Curso de …ujaldon/descargas/curso-gpu2/diapos/CUDA... · 2017-07-13 · Diferencias en la jerarquía de memoria: Fermi vs. Kepler 5 Motivación

ARQUITECTURA CUDA Integrantes: Jose D Apollo 08-10272 Ricardo Rosa 08-11005.

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO Facultad de ...lcomp89.fi-b.unam.mx/licad/assets/CUDA/04_Matrices.pdf · 07_matrices_02.cu 08_matrices_03.cu Ejercicio: Hacer un programa

programación gpu con cuda

Programación de Multitareas utilizando Hiloslcomp89.fi-b.unam.mx/licad/assets/Programacion... · Las tareas pueden ser implementadas en funciones separadas o bien por iteraciones

Manejo de Memoria en CUDA (I) Martín Belzunce 1Manejo de Memoria en CUDA Computación Paralela con Procesadores Gráficos Departamento de Electrónica Facultad.

CUDA + OpenGL - Laboratorio de Computación Distribuida ... · 2D y 3D Provee ... 18 OpenGL: ejemplo 4 ... The Cg Tutorial

CUDA: MODELO DE PROGRAMACIÓN - dis.um.esdis.um.es/~domingo/apuntes/AlgProPar/0910/... · Interoperatividad con Directx y OpenGL. Versión 2.3.1 (26/08/2009) Muy extendido: Resultados

Montaje, Mantenimiento y Reparación de los Sistemas ...oa.upm.es/50458/1/TFG_LEOMAR_NAHR_CUADRADO.pdf · Compute Unified Device Architecture (CUDA) - Conjunto de herramientas de

Taller: Introducción a GPU's y Programación CUDA para HPCcomputacion.cs.cinvestav.mx/~ameneses/pub/notas/cuda_taller.pdf · PARTE I: Introducción a GPU's y CUDA Friday, October

Primeros pasos con CUDA - fisica.cab.cnea.gov.arfisica.cab.cnea.gov.ar/gpgpu/images/clases/clase_1_cuda.pdf · - Manejo de jerarquía de memorias instaladas en la GPU Memoria local

CUDA Tutorial ECAR

Presentation_NVIDIA CUDA

PFC CUDA reacTIVision - e-Repositori UPF

CUDA en Fortran