Que es la supercomputacion una explicacion orientada al mundo empresarial
Transcript of Que es la supercomputacion una explicacion orientada al mundo empresarial
¿Qué es la supercomputación? Una explicación orientada al
mundo empresarial
José M. CelaDirector departamento CASE
2
Índice de la charla
● ¿Qué es la supercomputación?● Evolución de los computadores: 1945-2020● Costes y beneficios de la supercomputación
● ¿Qué es el BSC-CNS?● Estructura● Servicios a la comunidad científica● Actividades de transferencia de tecnología con empresas● Formación
● Conclusiones
3
2X transistores/Chip cada 1.5 años
llamada “Ley de Moore”
Moore’s Law
Los microprocesadores son menores, mas densos y mas potentes. Otros dispositivos también mejoran sus prestaciones.
Gordon Moore (co-fundador de Intel) predijo in 1965 que la densidad de transistores por unidad de área se doblaría cada 18 meses.
Tendencia tecnológica: Capacidad del microprocesador
4
Organización del microprocesador: Cadena de producción (H. Ford)
5
Cuello de botella en el acceso a memoria DRAM
● No todo escala igual de rápido● El tiempo de acceso a una DRAM se mejora muy lentamente
6
Latencia y pipelines
• F D/Map
Q R Ex
D/St
R W
Ret
PC
Icache
Icache
RegisterMap
Dcache
Regs
Regs
Regs
10-20 cycles
100-1000 cycles
L2 Cache
Memory
Processor on a chip1-3
cycles
1-3 cycles
7
Supercomputador = SMP-clusters
● Los supercomputadores actuales son SMP clusters
● Varia el número de procesadores por nodo
● Varia el tipo de red de interconexión
● Estas máquinas se programan usando
● Procesos paralelos MPI (Message Passing Interface)
● Threads paralelos openMP
Interconnection NetworkInterconnection Network
Memory
P P P P
Memory
P P P P
Memory
P P P P
Memory
P P P P
SMP SMP SMP SMP
Interconnection NetworkInterconnection Network
Memory
P P P P
Memory
P P P P
Memory
P P P P
Memory
P P P P
SMP SMP SMP SMP
8
La velocidad de cálculo y su coste
● Costes asociados a la computación● Hardware
● Software de entorno (compiladores, debugers, librerías, …)
● Personal● que sabe programar el sistema y usar los programas generados
● que gestiona el sistema
● Energía y espacio
● Para cada tamaño de máquina y problema la relación de estos costes varía
9
Las aplicaciones definen el computador
● Aplicaciones fuertemente acopladas● CDF
● Mecánica Comp.
● …
● Aplicación débilmente acoplada● Animación
● Monte-Carlo
● Estudio paramétrico
● …
● Supercomputing ● Red de altas
prestaciones
● GRID Computing ● Cualquier red, cuanto
mas barata mejor
10
GRID: verdades y mentiras
● Verdades
● Se puede enviar trabajos remotos de forma automatizada
● Se puede sacar mas provecho a una red corporativa en algunos casos
● Para ciertas aplicaciones es una opción económica viable
● Mentiras
● Los costes siempre son menores que en un centro de cálculo y la calidad de servicio es igual
● Todo tipo de problema puede usar la Grid
● Puedo usar maquinas ajenas bajo demanda
● El usuario no debe preocuparse de que la Grid sea heterogénea
11
Supercomputing vs. Grid computing
● Supercomputing● Homogéneo y localizado
● Red de alta velocidad ( L= 5µs, BW = 4 Gbit/s, no bloqueante)
● Grid computing● Heterogéneo y distribuido geográficamente
● Internet (L= ms-s, BW=10kbits-1Mbit)
● Cloud computing● Homogéneo y localizado
● Red barata (Ethernet)
12
TOP500
13
Lower Lower VoltageVoltage
Increase Increase Clock RateClock Rate& Transistor & Transistor
DensityDensity
Hasta hace poco vimos aumentar el número de transistores y la frecuencia del reloj.
Disipar la potencia se ha convertido en el mayor problema: Procesador de Intel > 100 Watts
La frecuencia de reloj no se puede aumentar más.
Sin embargo, el numero de transistores seguirá aumentando.
Incrementar el rendimiento de la CPU: un balance delicado
Core
Cache
Core
Cache
Core
C1 C2
C3 C4
Cache
C1 C2
C3 C4
Cache
C1 C2
C3 C4
C1 C2
C3 C4
C1 C2
C3 C4
C1 C2
C3 C4
14
Multicore chips
15
¿Cómo van ha reducir la potencia los computadores?
● Reducir la cantidad de DRAM/core y rediseñar toda la electrónica para que consuma menos● Blue Gene
● Hacer chips multicore sin coherencia de cache y con procesadores especializados● Cell/B.E.● GPUs● FPGAs
16
13.6 GF/s8 MB EDRAM
4 processors
1 chip, 20 DRAMs
13.6 GF/s2.0 (or 4.0) GB DDRSupports 4-way SMP
32 Node Cards1024 chips, 4096 procs
14 TF/s2 TB
72 Racks
Final System:1 PF/s,144 TB November 2007: 0.596 PF/s
Cabled 8x8x16Rack
System
Compute Card
Chip
435 GF/s64 GB
(32 chips 4x4x2)32 compute, 0-1 IO cards
Node Card
Blue Gene/P
Front End Node / Service Node
JS21 / Power5
Linux SLES10
Blue Gene/P continues Blue Gene’s leadership performance in a space-saving, power-efficient package for the most demanding and scalable
high-performance computing applications
HPC SW:
Compilers
GPFS
ESSL
Loadleveler
17
Cell Broadband Engine Architecture™ (CBEA) Technology Competitive Roadmap
20102009200820072006
PerformanceEnhancements/Scaling
AdvancedCell BE
(1+8eDP SPE)65nm SOI
Cell BE(1+8)
90nm SOI
CostReduction
All future dates and specifications are estimations only; Subject to change without notice. Dashed outlines indicate concept designs.
Next Gen (2PPE’+32SPE’)
45nm SOI~1 TFlop (est.)
Cell BE(1+8)
65nm SOI
18
Primer computador PetaFlop (Nov2008): Roadrunner en LANL
“Connected Unit” cluster192 Opteron nodes
(180 w/ 2 dual-Cell bladesconnected w/ 4 PCIe x8 links)
~7,000 dual-core Opterons • ~50 TeraFlop/s (total)~13,000 eDP Cell chips • 1.4 PetaFlop/s (Cell)
CU clusters
2nd stage InfiniBand 4x DDR interconnect(18 sets of 12 links to 8 switches)
2nd Generation IB 4X DDR
19
Green 500
57126Blue Gene/P SolutionRZG/Max-Planck-Gesellschaft MPI/IPP371.67
9
56126Blue Gene/P SolutionIBM - Rochester371.67
9
7594.5Blue Gene/P SolutionASTRON/University Groningen371.67
8
12483.47BladeCenter QS22/LS21 Cluster, PowerXCell 8i 3.2 Ghz / Opteron DC 1.8 GHz , Voltaire Infiniband
DOE/NNSA/LANL444.94
7
42138BladeCenter QS22/LS21 Cluster, PowerXCell 8i 3.2 Ghz / Opteron DC 1.8 GHz , Infiniband
IBM Poughkeepsie Benchmarking Center458.33
5
41138BladeCenter QS22/LS21 Cluster, PowerXCell 8i 3.2 Ghz / Opteron DC 1.8 GHz , Infiniband
DOE/NNSA/LANL458.33
5
43126.38BladeCenter QS22 Cluster, PowerXCell 8i 3.2 Ghz, Infiniband
Repsol YPF530.33
2
43026.38BladeCenter QS22 Cluster, PowerXCell 8i 3.2 Ghz, Infiniband
Repsol YPF530.33
2
42926.38BladeCenter QS22 Cluster, PowerXCell 8i 3.2 Ghz, Infiniband
Repsol YPF530.33
2
22034.63BladeCenter QS22 Cluster, PowerXCell 8i 4.0 Ghz, Infiniband
Interdisciplinary Centre for Mathematical and Computational Modelling, University of Warsaw
536.24
1
TOP500 Rank*
Total Power (kW)
Computer*Site*MFLOPS/W
Green500 Rank
20
● El nivel MPI seguirá igual● Todos los códigos deberán ser híbridos por problemas
de balanceo de carga● openMP en multiprocesadores homogéneos
● Pero en procesadores heterogeneos● openCL (IBM, NVIDIA)● CUDA (NVIDIA)● …
● El compilador debe generar el código SIMD de forma automática
¿Cómo se van ha programar estos procesadores?
21
● Misión
● Investigar, desarrollar y gestionar tecnología de computación que facilite el avance científico
● Objetivos
● Operar la infraestructura nacional de supercomputación nacional
● I+D en Supercomputación
● Colaborar en I+D en eCiencia
● Consorcio Publico
● Gobierno Español (MEC) 51%● Generalitat Catalana (DURSI) 37%● UPC 12%
Barcelona Supercomputing CenterCentro Nacional de Supercomputación
22
Personal
El BSC-CNS a final de 2008 tiene 200 miembros de 21 países diferentes (Alemania, Argentina, Bélgica, Brasil, Bulgaria, Canadá, Colombia, China, Cuba, Dinamarca, España, Estados Unidos, Francia, India, Irlanda, Italia, Líbano, México, Polonia, Reino Unido, Rusia, Serbia y Turquía).
23
Departamentos del BSC
•Air quality
•Meteorological modeling
•Climate change
•Molecular Modeling and Bioinformatics •Computational Genomics
•Protein Interactions and Docking
•Electronic and Atomic Protein Modeling
• Computational Mechanics
• Applied Computer Science
• Optimization
• Support to MareNostrum
•Services
•Computer Architecture
•Performance Tools
•Programming Models •Grid Computing
• e-Business Platforms
COMPUTER APPLICATIONS in
SCIENCE & ENGINEERING
OPERATIONSLIFE SCIENCESEARTH SCIENCESCOMPUTER SCIENCES
24
JS21 Processor Blade• 2x2 PPC 970 MP 2,3 GHz• 8 GB memory • 36 Gigabytes HD SAS• 2x1Gb Ethernet on board• Myrinet daughter card
Blade Center• 14 blades per chassis (7U)
• 56 processors• 112 GB memory
• Gigabit ethernet switch
Blades, blade center and racks
6 chassis in a rack (42U)• 336 processors• 672 GB memory
25
Clos 256x256Clos 256x256
Clos 256x256Clos 256x256
Clos 256x256Clos 256x256
Clos 256x256Clos 256x256
Clos 256x256Clos 256x256
Spine 1280 Spine 1280
256 links (1 to each node)250MB/s each direction
128 Links
0255
…
Myrinet
26
MareNostrum
- 2560 JS21● 2 PPC 790 MP 2,3 GHz● 8 Gigabytes (20 TB)● 36 Gigabytes HD SAS● Myrinet daughter card● 2x1Gb Ethernet on board
-Myrinet● 10 clos256+256● 2 spines 1280s
-20 Storage nodes● 2 P615, 2 Power4+, 4 GigaBytes● 28 SATA disc, 512 Gbytes (280 TB)
Performance Summary
-10240 processors (PPC970, 4 inst/ciclo, 2.3 GHz)
- 94,21 TFlops
-20 TB Memory
-300 TB disk
Blade centers
Myrinet racks
Storage servers
Operations rack
Gigabit switch
10/100 switches
27
Sistemas adicionales
● Robot de cintas● SL8500 installation● 6 Petabytes● LTO4 Technology
● ALTIX (SGI, shared memory) ● 128 Montecito 1.6 GHz● 2.5 Tbyte Main Memory
28
Servicios a empresas
● EL 20% del tiempo de MareNostrum es para uso interno del BSC.● Artículos científicos● Proyectos con empresas
● El BSC sólo hace proyectos de I+D.
● No vendemos tiempo de CPU de forma sistemática. Sólo realizamos pruebas de concepto.
● Para cualquier pregunta contactar con● José Mª Cela ([email protected])
29
BSC-IBM MareIncognito project
● Our 10-100 Petaflop research project for BSC (2010)
● Port/develop applications to reduce time-to-production once installed
● Programming models
● Tools for application developmentand to support previous evaluations
● Evaluate node architecture
● Evaluate interconnect options
Performance
analysis andPrediction
Tools
Processor and node
Load balancing
Interconnect
Applicationdevelopment
an tuning
Fine-grain programming
models
Model andprototype
30
Actividades de CASE
• Computational Mechanics
• Applied Computer Science
• Optimization
COMPUTER APPLICATIONS in
SCIENCE & ENGINEERING
OPERATIONSLIFE SCIENCESEARTH SCIENCESCOMPUTER SCIENCES
31
Objetivos de CASE
● Identificar comunidades científicas que necesiten supercomputación y ayudarles a desarrollar software que explote de forma eficiente los recursos del supercomputador● Ciencia de los Materiales (SIESTA)● Fusión (EUTERPE, EIRENE, BIT, …)● Espectroscopia (OCTOPUS, ALYA)● Modelado atmosférico (ALYA, WRF)● Geofísica (BSIT, ALYA)
● Desarrollar nuestra propia tecnología en Mecánica Computacional● ALYA, BSIT, …
● Realizar transferencia de tecnología con las empresas● REPSOL, AIRBUS, …
32
● Conclusiones
33
● Supercomputadores (MPI)● Procesador heterogeneo sin coherencia de cache
● CUDA, openCL, …
● Procesador Homogeneo con coherencia de cache● openMP
● Grid computing● Útil en algunos casos sobre todo en clusters
● Principal coste● Formación adecuada del personal
Evolución de los supercomputadores
34
● BSC-CNS● Centro al servicio de las empresas españolas que
requieran supercomputación
● Experiencia dilatada en proyectos de I+D con empresas
● No importa la dimensión financiera de la empresa, lo que importa es la tecnología que requiere
BSC-CNS
35
¿Por qué la supercomputación?
Could not exist as a business
Unable to compete, product testing and
quality issues
Unable to compete, time to market and
cost issues
Could still exist and compete
Source : Fortune Magazine
IDC pregunto a 33 compañías de los sectores aeroespacial, automoción, petrolero, electrónica, farmacéutico, financiero, logística y entretenimiento en USA, donde estaría su empresa sin acceso a HPC?
3%
47% 34%
16%„The country that out-computes
will be the one that out-competes“
Council on Competitiveness
http://compete.org