Nvidia Rapids cuGraph: het Maken van grafiek analyse alomtegenwoordig

0
123

Hoe Nvidia ziet data science als de volgende grote markt
Nvidia CEO Jensen Huang is wedden dat de gegevens wetenschap zal groepje datacenters met een high-performance computing. Hier is de reden waarom het zinvol is.

Een nieuwe open-source bibliotheek van Nvidia kan worden het geheime ingrediënt voor het bevorderen van analyses en het maken van grafiek databases sneller. De sleutel: parallelle verwerking van de Nvidia Gpu ‘ s.

Nvidia heeft lang geleden gestopt wordt “slechts” een hardware bedrijf. Als de hardware is wat veel van het berekenen van de ondersteuning van de explosie, in AI, draait op een Nvidia op zich heeft genomen de taak van de bestrating van de laatste kilometer tot de software. Nvidia doet dit door het ontwikkelen en vrijgeven bibliotheken die software ontwikkelaars en data-wetenschappers kunnen gebruiken om te integreren GPU kracht in hun werk.
 
Het uitgangspunt is simpel: Niet iedereen is een specialist in het parallellisme of wil. Parallel programmeren is moeilijk. Nog, dit is wat nodig is om te profiteren van de GPU-mogelijkheden en prestaties in software en analyses. Dus, Nvidia biedt bibliotheken die mensen kunnen gebruiken om hun software, zonder te weten alle voor de uitvoering en hardware details.

Nvidia heeft om dit te doen met CUDA sinds 2007. Sindsdien Nvidia heeft meer dan 40 Nvidia CUDA-X bibliotheken, met de meest recente worden Stroomversnellingen, een open-source data science-platform, dat is de paraplu waaronder verschillende initiatieven zoals Dask of XGBoost voor data science is geëvolueerd.
 
Nvidia is nu loslaten Rapids cuGraph 0.9, een bibliotheek waarvan het doel is om een grafiek analyse alomtegenwoordig. Dit kan de basis vormen voor de belangrijke ontwikkelingen in de grafiek analytics en grafiek databases. Grafiek is een veld hebben we nauwlettend in de gaten, maar we zijn niet meer de enigen zijn, en dat is niet de enige reden waarom we denken dat dit is groot.

Grafiek analytics op steroïden

Dit korte fragment is genomen uit van Gartner ‘ s analyse van de oorzaken waarom de grafiek zal regeren de wereld in 2020:

“De toepassing van de grafiek verwerking en grafische gegevensbestanden zal groeien met 100 procent per jaar door middel van 2022 tot en voortdurend versnellen data preparatie en het inschakelen van meer complexe en adaptieve gegevens wetenschap.”

Brad Rees, echter, is dat te doen, lang voordat het was cool.
 
Rees begon te werken met graph programmeren en analyses, data science, en AI in de jaren 1980. Over meerdere jaren en projecten, Rees zijn weg gevonden Nvidia in 2017, in wat toen een ontluikende inspanning binnen Nvidia. Vandaag, Brad Rees is de AI van de infrastructuur manager bij Nvidia, die belast was met het brengen van grafiek analyses en algoritmes voor de wereld.
 
Rees kreeg interesse in de GPU programmeren rond de tijd van de CUDA-2.0 uit kwam. Zoals anderen ook hebben opgemerkt, de netten worden gebruikt in de grafische verwerking van zijn soort een natuurlijke match voor de grafische verwerking: Elke knoop staat voor een concept, elke zijde staat voor een relatie.

cugraphviz.jpg

Tabellen en grafieken van grafiek-aangedreven algoritmen en analyses zullen de belangrijkste technologieën voor 2020

Dus, het feit dat de Gpu ‘ s kan de snelheid van de grafiek verwerking, ging niet onopgemerkt voorbij. Toen Rees de gevoegde Nvidia, waren er al implementaties voor een paar graafalgoritmes op Gpu ‘ s. Zo Rees verklaren, echter deze waren niet erg systematisch, of zeer goed geïntegreerd binnen de Nvidia ecosysteem. Als het algoritme verzameling groeide en de grafiek was het verkrijgen van stoom, cuGraph werd geboren, en Rees werd de projectleider.
 
CuGraph is een verzameling grafiek algoritmen geïmplementeerd via de Nvidia Gpu ‘ s. Dat lijkt misschien niet veel als je niet in de grafiek algoritmen, dus zet die in de context, laten we zeggen dat de PageRank, de beroemde algoritme dat Google bouwde zijn imperium op, is een grafiek algoritme, ook.
 
Er zijn veel graafalgoritmes rond, en elk algoritme kan het bieden van inzicht voor verschillende data-analyse scenario ‘ s. Wanneer cuGraph de eerste officiële release, 0.6, kwam uit in eind Maart, het bevatte reeds vele algoritmen, waaronder PageRank. Die eerste release gericht op het bieden van een stichting en een aantal algoritmen geoptimaliseerd voor single-GPU analytics.

Met de release van versie 0.9, Nvidia cuGraph komt een stap dichter bij 1.0. Zo Rees uitgelegd, het doel is niet alleen om het toevoegen van algoritmen om cuGraph, maar om ze te laten werken over meerdere Gpu ‘ s, ook. Dit is nu bereikt voor de PageRank. Zelfs in de versie 0.6, echter, cuGraph was al tot 2000 keer sneller dan NetworkX.
 
NetworkX is een grafiek analytics framework voor Python die cuGraph was gemodelleerd op, om alles te doen NetworkX heeft op Gpu ‘ s. NetworkX is gekozen omdat dit de meest populaire grafiek framework gebruikt door gegevens wetenschappers. NetworkX op steroïden zou al een hele prestatie, maar de visie gaat veel verder dan dat, en de gevolgen zijn erg interessant.

De visie voor de Nvidia cuGraph

Rees opgemerkt dat cuGraph ontwikkeling zou langzaam verschuiven in de richting van het verbeteren van het gebruiksgemak, interoperabiliteit en integratie met de rest van Nvidia ‘ s Rapids bibliotheek.
 
In een blog post, Rees ging om uit te leggen hoe cuGraph maakt gebruik van de eigenschap grafiek paradigma, en hoe Frames zijn de sleutel tot interoperabiliteit met Stroomversnellingen. Rees zei dat Gegevens Frames kunnen worden gebruikt om te bouwen van grafieken, uitvoeren van algoritmen op die grafieken, en neem dan de gegevens die algoritmen produceren en voeg ze toe aan de oorspronkelijke Gegevens Frames als dat nodig is.
 
CuGraph de roadmap omvat ook het toevoegen van dynamische data structuren. Deze kunnen van pas komen bij het analyseren van de grafiek verandert in de tijd. Als gegevens worden gestreamd in, hoe de structuur van een netwerk wijzigingen kunnen worden bewaakt en gerapporteerd.

cugraphvsnetworkx.png

Nvidia ‘ s cuGraph bibliotheek wil versnellen grafiek verwerken, en het lijkt alsof het recht op het merk

Van even groot belang is het gebruik van een dynamische structuur binnen google analytics. In veel gevallen, de grootte van het resultaat onbekend is a priori. Kunnen inklappen, uitklappen, aan toe te voegen, en het verminderen van zowel de grafiek of de resultaten on-the-fly is een krachtige techniek.
 
Daar houdt het nog niet, hoewel. Rees opgemerkt dat cuGraph zou het toevoegen van state of the art grafiek analytics kaders zoals GraphBLAS en Hornet, terwijl een oogje op alle nieuwe ontwikkelingen en het naadloos integreren van hen onder cuGraph voor ontwikkelaars.
 
De verwijzing naar eigendom grafieken, echter, was een trigger voor een meer speculatieve discussie, dat raakt niet alleen algoritmen, maar databases, ook. Eigendom grafieken zijn een van de twee meer verspreid manieren om model grafieken. Verschillende graph databases aangenomen, en is het contactpunt voor W3C ‘ s voortdurende inspanningen om te standaardiseren graph databases.
 
Dus, we vroegen ons af wat de wisselwerking tussen cuGraph en grafiek databases kunnen worden. Om te beginnen, moeten we de nadruk leggen op het verschil: cuGraph is een analytics framework, geoptimaliseerd om gegevens te laden en uitvoeren van algoritmen. Databases, aan de andere kant, worden ook verondersteld om gegevens op te slaan. Hoewel cuGraph is niet gericht op deze, er zijn een paar manieren cuGraph kunnen beïnvloeden en worden beïnvloed door, graph databases.

Grafiek-query ‘ s en de grafiek van databases

We hebben gezien databases aanbieden grafiek analytics kaders, ongeacht of zij graph databases. U kan een relationele database modellering en opslaan van gegevens in tabellen, bijvoorbeeld, die wordt geleverd met een kader waarmee het opvragen van gegevens in een grafiek query taal zoals Cypher. Dus, als ze dit doen, kunnen, en moeten, cuGraph dit nu ook doen?
 
Rees opgemerkt dat het toevoegen van ondersteuning voor Cypher, bijvoorbeeld, is haalbaar. Of, en wanneer, dit kan worden gedaan, is echter een ander verhaal. Het nut van het doen van dit, zou aanzienlijk: het is makkelijker uit te drukken verwerking als onderdeel van een query, mogelijk zelfs in een interactieve omgeving, dan is het gebruik van een API. De laatste moet programmering vaardigheden; een analist kan ook een deel van het voormalige.
 
Minstens even, zo niet belangrijker, echter, is de andere manier rond. Veel graph databases zijn begonnen met het aanbieden van grafiek algoritme implementaties uit de doos. Als de lopende grafiek algoritmen is een algemeen geval, zou het dan niet zinvol voor hen om te integreren met cuGraph om hun prestaties te verbeteren? Het geheel zou, en zij totaal kon.

cugraph.gif

Grafiek analytics maakt een goede combinatie met graph databases. Zoals vele databases deze dagen komen gebundeld met zijn grafiek algoritmen, cuGraph van invloed kunnen zijn databases ook.

Hoewel dit enigszins speculatief, laat het ons opmerking een paar van de punten. Ten eerste, er zijn graph databases geruchten al hebben, of om te werken aan ondersteuning voor Gpu ‘ s. Ten tweede, er zijn veel GPU-databases rond. Er is een groeiende vraag voor de grafische verwerking, kunnen we zien al snel een of meer van hen toe te voegen aan hun mogelijkheden.
 
Dit is de reden waarom cuGraph kan bewijzen dat er een beslissende factor die van invloed zijn op de grafiek database landschap: het toevoegen van grafiek query mogelijkheden zou versterken beide cuGraph en wat querytaal die wordt ondersteund, terwijl het toevoegen van cuGraph naar een database die zou werken op dezelfde wijze, ook.

In de grote regeling van dingen, cuGraph de inzet is om de grafiek analyse alomtegenwoordig. Daarbij zou niet alleen betekenen dat sneller analytics, maar heeft potentieel een opstapje in de toekomst van AI, die in grote mate, gaat door grafiek. CuGraph is iets in de gaten te houden.

Innovatie

Waarom 2019 wordt het beste jaar ooit te kopen van een smartphone: Betaalbare vlaggenschepen in overvloed

We kunnen het invoeren van een nieuw geologisch tijdperk

Apollo-geïnspireerde robot hacks samen tools met behulp van alledaagse voorwerpen

Waarom heeft AI een slechte rep van de media? (ZDNet YouTube)

Deze deepfakes van Bill Hader zijn absoluut angstaanjagend (CNET)

20 angstaanjagend maakt gebruik van kunstmatige intelligentie (TechRepublic)

Verwante Onderwerpen:

Innovatie

Digitale Transformatie

Robotica

Het Internet van Dingen

Enterprise Software

CXO