Chipmakers hitta nya sätt att gå framåt

0
172

Noll

Chip designers står inför en svår uppgift. De verktyg som de har förlitat sig på att göra saker mindre, snabbare och billigare, som kallas Moores Lag, är allt mer ineffektiva. Vid samma tid, nya tillämpningar såsom djup lärande kräver mer kraftfull och effektiv hårdvara.

Det är nu klart att skalning allmänt ändamål Processorer inte ensam vara tillräcklig för att uppnå prestanda per watt mål för framtida tillämpningar, och mycket av de tunga lyft som lastas till acceleratorer som Gpu, Fpga: er, DSPs och även anpassat ASICs som Googles TPU. Fångsten är att dessa komplexa och heterogena system är svåra att konstruera, tillverka och program. En av de centrala teman på den senaste Linley Processor Konferensen var hur branschen är att svara på denna utmaning.

“Arkitekter i dag står inför en enorm, nästan oöverstigligt problem,” sade Anush Mohandass, marknadsföring vice vd på NetSpeed System. “Du behöver Processorer, du behöver Grafikprocessorer, du behöver en vision-processorer, och alla dessa behöver för att fungera perfekt tillsammans.”

Vid konferensen, NetSpeedett privat företag som specialiserat sig på skalbar, sammanhängande network-on-chip-teknik som används för att limma ihop bitar av en heterogen processorer –meddelade Turing, en maskin lärande algoritm som optimerar chip design för processorer riktade till fordonsindustrin, cloud computing, mobil och Internet of Things. Mohandass pratade om hur systemet kommer ofta upp med “icke-intuitivt rekommendationer” för att uppfylla målen design, inte bara för kraft, prestanda och område, men också krav på funktionssäkerhet och som är nödvändiga i fordon och industriella sektorer.

ARM är väl positionerat för att underlätta denna övergång, eftersom den levererar mycket av tekniken i mobila processorer, som redan funktion till en viss grad så heterogena processorer. Sin senaste DynamIQ kluster teknik är utformad för att skala till en mycket “bredare design spectrum” som kan möta behoven av nya ansökningar från inbäddade till cloud-servrar. Varje DynamIQ Gemensam Enhet (DSU) kan ha en kombination av upp till åtta stora och små kärnor, och en CPU kan ha upp till 32 av dessa DSU kluster, men den praktiska gränsen är runt 64 stora kärnor. Det har också en perifer port för låg latens, tätt tillsammans anslutningar till acceleratorer som DSPs eller neurala nätverk motorer, och stöder branschstandarden för CCIX (cache-sammanhängande interconnect) och PCI-Express buss.

linley-arm.jpg

I sin presentation, Brian Jeff, marknadschef på ARMEN, pratat om ökad prestanda Cortex-A75 och A55 CPU-kärnor, flexibel cache och sammanbinder, och nya maskinen lärande funktioner, “Vi byggde en produkt färdplan som är utformad för att serva dessa förändrade krav, även när vi driva vår CPU-prestanda och upp och upp,” Jeff sa. Han visade exempel på processorer för ADAS (automatisk körning bistånd), nätverk bearbetning och hög densitet servrar som kombinerat dessa element.

En 64-core-A75-processor kommer att ge tre gånger prestandan av nuvarande 32-core-A72 server chip vilket gör den konkurrenskraftig med Intels kisel, enligt ARM. “Vi tror att vi kan passa detta väl under 100 watt–och antagligen i storleksordningen 50 watt-för att beräkna,” Jeff sa. I en separat presentation på ARM: s växande system-nivå IP, David J. Koenen, en senior product manager, sade A75 fört dem närmare entrådiga resultat av Xeon E5. Men i den här frågan, att han erkände att de kunde inte riktigt matcha Intel ändå lägga till att det skulle ta ett eller kanske två mer Cortex generationer att uppfylla detta mål.

linley-qualcomm.jpg

Qualcomm ‘ s kommande Centriq 2400 är baserad på en anpassad ARMv8 design, känd som Falkor, men 10mn processor med 48 kärnor som körs på mer än 2 ghz bör ge en god indikation på hur väl ARM har skalat prestanda. På Linley Processor Konferens, Qualcomm senior director Barry Wolford avslöjas nya detaljer om cache–512K delad L2-cache för var och en av de 24 Falkor duplex, för en summa av 12 MB, och ett dussin 5MB pooler av senaste nivå cache för en summa av 60 MB L3–och egen, sammanhängande ring buss. Wolford sade Centriq 2400 kommer att leverera konkurrenskraftiga entrådiga prestanda samtidigt som den fortfarande uppfyller de höga kärnan räknas som krävs för virtualiserade miljöer i moln datacenter.

AMD tar en mer praktisk metod för att problemet med att öka core räknas i en tid när Moores Lag rinner ut i sanden. Snarare än att försöka bygga en monolitisk processor, chipmaker tog fyra 14nm Epyc dö och förpackade dem med sin Oändlighet Tyg för att skapa en 32-server core-processor. Greg Shippen, en AMD kolleger och chefsarkitekt, sade efterfrågan för fler kärnor och större bandbredd var att trycka på dö storlekar för Cpu och Gpu nära till de fysiska gränserna för litografisk utrustning. Genom att dela upp den i fyra dör, den totala arealen ökat med ca 10% (på grund av att dö-att-dö interconnect) men kostnaderna minskade med 40% på grund av mindre dör har högre orderingång avkastning. Shippen medgett att multi-chip modul (MCM) med separata cacheminnen har en viss inverkan på prestanda med kod som inte är optimerade för att skala mellan noder, men han sa Konsekvent Infinity Tyg minimerar latens hit.

linley-amd.jpg

Denna “chiplets” lösning verkar vara att få ånga, inte bara för att öka avkastningen och sänka kostnaderna, men också för att blanda och matcha olika typer av logik, minne och i/O–tillverkas på olika processer-i samma MCM. DARPA har ett program för att ytterligare detta begrepp som kallas MARKER (Gemensamma Heterogen Integration och Immateriella Återanvändning Strategier) och Intel utvecklar en MCM som kombinerar en Skylake Xeon-PROCESSOR med en integrerad Arria 10 FPGA, som är planerad till första halvåret 2018. Intels nuvarande lösning är en PCI-Express kort, Programmerbara Acceleration Kort, med en Arria 10, som har validerats för Xeon servrar. Intel har som mål att standardisera FPGA hårdvara och mjukvara så att koden körs över hela familjen och över flera generationer.

“Nu kan du smidigt flytta från en FPGA till nästa utan att skriva din Verilog,” sade David Munday, en Intel software engineering manager. “Det betyder att accelerationen är bärbar-du kan vara på en diskret genomförandet och du kan flytta till en integrerad genomförande.”

IBM och OpenCAPI Konsortiet har drivit sin egen lösning för att fästa acceleratorer till en mängd processor för att möta efterfrågan på högre prestanda och högre minnesbandbredd i hyperscale datacenter, high-performance computing och djupt lärande. “För att få latens och bandbredd egenskaper vi behöver verkligen ett nytt gränssnitt och ny teknik,” säger Jeff Stuecheli, en IBM Power hårdvara arkitekt.

CAPI började som ett alternativ till PCIe för att fästa co-processorer, men fokus har vidgats och bussen nu stöder standard-minne, lagring-klass minne, och hög prestanda i/O-såsom nätverk och lagring styrsystem. Stuecheli sade konsortiet sätter avsiktligt de flesta av komplexiteten i host controller, så det kommer vara lätt för heterogena system designers att fästa någon typ av anordning. På den konferensen, var IBM som visar en 300 mm wafer med Power9 processorer, som närmar sig och med den kommersiella lanseringen (Oak Ridge National Laboratory och Lawrence Livermore National Laboratory har redan fått en del transporter för framtida superdatorer).

Heterogena system är inte bara svårt att bygga, de är också en utmaning att optimera och program. UltraSoC är en IP-leverantör som säljer smarta moduler” för att felsöka och övervaka hela SoC (ARM, MIPS och andra) för att identifiera problem med CPU-prestanda, minne, bandbredd, låsningar och data korruption utan att påverka systemets prestanda. Och Silexica har utvecklat en SLX-kompilator som kan ta befintlig kod och optimera den för att köra på heterogena hårdvara för bil -, flyg-och industri, och 5G trådlösa basstationer.

Brute-force skalning av Processorer kommer inte att få oss där vi måste gå, men branschen kommer att fortsätta att komma upp med nya sätt att skala kraft, prestanda för att möta behoven av nya applikationer. Det viktigaste takeaway från Linley Processor Konferensen är att detta mer komplext och nyanserat förhållningssätt kräver ny teknik för att konstruera, ansluta, tillverkning och program dessa heterogena system.

0