Die University of Edinburgh hat eine neue Hochleistungs-Computing-Plattform namens Tursa erhalten, die für die computergestützte Teilchenphysik optimiert wurde.
Das neue System wird von der Nvidia HGX Hochleistungs-Computing-Plattform und ist der dritte von vier angekündigten DiRAC-Supercomputern der „nächsten Generation“.
DiRAC ist die integrierte Supercomputing-Einrichtung des Vereinigten Königreichs für theoretische Modellierung und HPC-basierte Forschung in Astronomie, Kosmologie, Teilchenphysik und Kernphysik. Es wird das Tursa-System betreiben.
.
“Tursa wurde entwickelt, um einzigartige Forschungsherausforderungen zu bewältigen, um neue Möglichkeiten für wissenschaftliche Modellierung und Simulation zu erschließen”, sagte Luigi Del Debbio, Professor für Theoretische Physik an der University of Edinburgh und Projektleiter für den DiRAC-3-Einsatz.
Tursa basiert auf Atos und wird über 448 Nvidia A100 Tensor Core GPUs verfügen und vier Nvidia HDR 200 Gb/s InfiniBand Netzwerkadapter pro Knoten enthalten.
Bei der Ankündigung der neuesten Partnerschaft mit DiRAC nutzte Nvidia auch den Mobile World Congress, um zu sagen, dass es die Nvidia HGX AI-Supercomputing-Plattform “aufgeladen” habe und auf ihre Kombination aus der Verschmelzung von KI mit HPC baut, um in weitere Branchen vorzudringen p>”HPC geht überall hin, KI geht überall hin, jedes Unternehmen auf der Welt wird Supercomputing einsetzen, um seine Geschäfte zu beschleunigen”, sagte Gilad Shainer, Senior Vice President of Networking bei Nvidia, gegenüber den Medien.
„Supercomputing bedient immer mehr Anwendungen … die Verwaltung des Supercomputers wird daher viel komplizierter. Sie müssen Sicherheit in Supercomputing bringen, weil Sie die Benutzer isolieren, zwischen den Anwendungen isolieren, zwischen den Benutzern schützen müssen, Sie müssen Daten schützen .”
Nvidia hat seiner HGX-Plattform drei Technologien hinzugefügt: Die Nvidia A100 80GB PCIe GPU, Nvidia NDR 400G InfiniBand Networking und Nvidia Magnum IOTM GPUDirect Storage Software.
Nvidia A100 80Gb PCle
Bild: Nvidia
Die Nvidia A100 Tensor-Core-GPUs, so das Unternehmen, bieten “beispiellose HPC-Beschleunigung”, um komplexe KI-, Datenanalyse-, Modelltrainings- und Simulationsherausforderungen zu lösen, die für industrielle HPC relevant sind. A100 80-GB-PCIe-GPUs erhöhen die GPU-Speicherbandbreite um 25 % im Vergleich zum A100 mit 40 GB auf 2 TB/s und bieten 80 GB HBM2e-Speicher mit hoher Bandbreite.
“Wenn wir einen Supercomputer bauen, geht es immer um Leistung … aber hier stoßen wir auf ein großes Problem”, sagte Shainer. „Die Lösung besteht darin, die GPU zu verwenden … die GPU in den Supercomputer zu bringen und die GPU zu verwenden, um das gesamte Infrastrukturmanagement … von der CPU aus auszuführen.“
Der Nvidia-Partnersupport für den A100 80 GB PCIe umfasst Atos, Cisco, Dell Technologies, Fujitsu, H3C, HPE, Inspur, Lenovo, Penguin Computing, QCT und Supermicro. Die HGX-Plattform mit A100-basierten GPUs, die über NVLink miteinander verbunden sind, ist auch über Cloud-Dienste von Amazon Web Services, Microsoft Azure und Oracle Cloud Infrastructure verfügbar.
Nvidia NDR 400G InfiniBand Networking wird unterdessen als Skalierungsleistung angepriesen um die massiven Herausforderungen in industriellen und wissenschaftlichen HPC-Systemen zu bewältigen.
„Diese Systeme treiben unsere Bandbreite auf die nächste Stufe. Wir verlagern das Rechenzentrum von 200 Gb/s auf 400 Gb/s, um Daten schneller übertragen zu können, um die GPUs füttern zu können, um unsere Leistungsfähigkeit zu erhöhen.“ tun”, sagte Shainer.
Nvidia Quantum-2 Switch-Systeme mit fester Konfiguration bieten 64 Ports von NDR 400 Gb/s InfiniBand pro Port oder 128 Ports von NDR200 und bieten damit eine dreimal höhere Portdichte im Vergleich zu HDR InfiniBand , erklärte er.
Die modularen Nvidia Quantum-2-Switches bieten skalierbare Portkonfigurationen bis zu 2.048 Ports von NDR 400 Gb/s InfiniBand – oder 4.096 Ports von NDR200 – mit einem bidirektionalen Gesamtdurchsatz von 1,64 Petabit pro Sekunde. Der Switch mit 2.048 Ports bietet eine 6,5-mal höhere Skalierbarkeit als die vorherige Generation und kann mehr als eine Million Knoten verbinden.
Es wird erwartet, dass die Schalter bis zum Jahresende bemustert werden. Es wird erwartet, dass Infrastrukturhersteller wie Atos, DDN, Dell Technologies, HPE und Lenovo die Quantum-2 NDR 400Gb/s InfiniBand Switches ebenfalls in ihre Enterprise- und HPC-Angebote integrieren werden.
Magnum IO GPUDirect Storage wird als “unübertroffene Leistung für komplexe Workloads” beschrieben, sagte Nvidia und ermöglicht den direkten Speicherzugriff zwischen GPU-Speicher und Speicher.
“Der direkte Pfad ermöglicht es Anwendungen, von einer geringeren E/A-Latenz zu profitieren und die volle Bandbreite der Netzwerkadapter zu nutzen, während die Auslastung der CPU verringert und die Auswirkungen des erhöhten Datenverbrauchs verwaltet werden”, sagte Nvidiaia .
Nvidia und Google Cloud kündigten auf dem Mobile World Congress außerdem Pläne zur Einrichtung eines KI-on-5G-Innovationslabors an.
Die beiden propagieren es als Gelegenheit für Netzwerkinfrastrukturakteure und KI-Softwarepartner, um zu entwickeln, zu testen, und Lösungen einzuführen, die “zur Beschleunigung der Schaffung intelligenter Städte, intelligenter Fabriken und anderer fortschrittlicher 5G- und KI-Anwendungen beitragen”.
Das Unternehmen kündigte außerdem an, dass seine AI-on-5G-Computerplattform Aerial A100 der nächsten Generation 16 ARM-basierte CPU-Kerne in den Nvidia BlueField-3 A100 integrieren wird.
AKTUELLES VON NVIDIA
Nvidia CEO vermeidet mobiles RTX zugunsten von GeForce NowCEOs von Arm und NVIDIA diskutieren umstrittene Fusion: “Unabhängigkeit ist nicht gleichbedeutend mit Stärke”Es gibt gerade eine Öffnung für ARM bei Servern fügt Base Command mit SuperPod as a Service hinzu, plant zertifizierte Arm-Systeme im Jahr 2022Nvidia erwirbt das AV-Mapping-Unternehmen DeepMap, um seine DRIVE-Plattform zu stärken Industrie Smart Cities Cloud