Hvordan Nvidia ser data videnskab som sit næste store marked
Nvidia CEO Jensen Huang satser på, at data videnskab vil meld datacentre med high-performance computing. Her er derfor, det giver mening.
En ny open source-bibliotek ved at Nvidia kunne være den hemmelige ingrediens til at fremme analytics og gør grafen databaser hurtigere. Nøglen: parallel behandling på Nvidia Gpu ‘ er.
Nvidia har for længe siden holdt op med at være “bare” en hardware-virksomhed. Som sin hardware er, hvad meget af compute-støtte eksplosion i AI kører på Nvidia har påtaget sig opgaven med at bane den sidste kilometer til softwaren. Nvidia gør dette ved at udvikle og frigive biblioteker, der har software-udviklere og data, som forskerne kan bruge til at integrere GPU kraft i deres arbejde.
Præmissen er simpel: Ikke alle, der er specialist i parallelitet eller ønsker at blive det. Parallel programmering er svært. Alligevel, dette er hvad der kræves for at drage fordel af GPU evner og øge ydeevnen i software og analytics. Så, Nvidia giver biblioteker folk kan bruge til at bygge deres software, uden at kende alle gennemførelsen og hardware detaljer.
Nvidia har gjort det med CUDA siden 2007. Siden da, Nvidia har udgivet mere end 40 Nvidia CUDA-X-bibliotekerne, med den seneste Rapids, en open-source data videnskab platform, der er den paraply under hvilken flere initiativer såsom Dask eller XGBoost for data videnskab har udviklet sig.
Nvidia er nu slipper Rapids cuGraph 0.9, et bibliotek, hvis mål er at gøre graf analyse allestedsnærværende. Dette kan være fundamentet for en væsentlig udvikling i grafen analytics og graf databaser. Grafen er et område, vi har været tæt overvågning, men vi er ikke længere de eneste, og det er ikke den eneste grund til, hvorfor vi mener, at dette er stor.
Graf analytics på steroider
Dette korte uddrag er taget ud af gartners analyse af, hvorfor grafen vil regere verden i 2020’erne:
“Anvendelsen af grafen behandling og graf databaser vil vokse 100 procent om året gennem 2022 løbende at fremskynde data forberedelse og muliggøre mere kompleks og adaptive data videnskab.”
Brad Rees, dog, har været at gøre det lang tid, før det var cool.
Rees begyndte at arbejde med grafen programmering og analytics, data videnskab, og AI i 1980’erne. Over flere år og projekter, Rees fandt sin vej til Nvidia i 2017, i hvad der dengang var en spirende indsats inden for Nvidia. I dag, Brad Rees er AI infrastruktur manager i Nvidia, der havde til opgave at bringe grafen analytics og algoritmer til verden.
Rees blev interesseret i GPU-programmering omkring den tid CUDA 2,0 kom ud. Som andre også har påpeget, de masker, der anvendes i grafik-behandling er en form for et naturligt match til graf behandling: Hver knude repræsenterer et koncept, hver kant repræsenterer et forhold.

Grafer og graf-baserede algoritmer og analytics vil være vigtige teknologier til 2020’erne
Så den kendsgerning, at Gpu ‘ er kan fremskynde graf behandling ikke gå ubemærket hen. Når Rees sluttede Nvidia, der allerede var implementeringer for et par graf algoritmer på Gpu ‘ er. Som Rees forklaret, men disse var ikke særlig systematisk, eller meget godt integreret i Nvidia økosystem. Da algoritmen samlingen voksede, og grafen blev vinder damp, cuGraph blev født, og Rees blev projektleder.
CuGraph er en samling af graf algoritmer implementeret over Nvidia Gpu ‘ er. Det lyder måske ikke som meget, hvis du ikke er i graf-algoritmer, så at sætte det ind i en sammenhæng, lad os sige, at PageRank, den berømte algoritme, som Google opbygget sit imperium på, er en graf algoritme, også.
Der er mange graf algoritmer rundt, og hver algoritme, der kan give indblik i de forskellige analyse af data scenarier. Når cuGraph ‘ s første officielle udgivelse, 0.6, kom ud i slutningen af Marts, er det allerede indeholdt mange algoritmer, herunder PageRank. Som første udgivelse med fokus på at levere et fundament og omfattede en række algoritmer, der er optimeret til single-GPU analytics.
Med udgivelsen af version 0.9, Nvidia cuGraph kommer et skridt tættere på 1.0. Som Rees forklaret, målet er ikke kun at holde tilføje algoritmer til at cuGraph, men at få dem til at arbejde over flere Gpu ‘ er, også. Dette mål er nu nået til PageRank. Selv i version 0.6, men cuGraph var allerede op til 2000 gange hurtigere end NetworkX.
NetworkX er en graf, analytics framework for Python, der cuGraph blev modelleret på, at gøre alt, hvad NetworkX gør på Gpu ‘ er. NetworkX blev valgt, fordi det er det mest populære graf rammer, der anvendes af data forskere. NetworkX på steroider, og det vil være noget af en bedrift, men den vision går langt ud over det, og konsekvenserne er ganske interessant.
Visionen for Nvidia cuGraph
Rees bemærkes, at cuGraph udvikling vil langsomt skift i retning af en forbedring af brugervenligheden, interoperabilitet, og integration med resten af Nvidia ‘ s Rapids bibliotek.
I et blog-indlæg, Rees gik på at forklare, hvordan cuGraph benytter ejendommen graf paradigme, og hvordan Data Frames er nøglen til interoperabilitet med Strømfald. Rees sagde, at Data Frames kan bruges til at oprette grafer, køre algoritmer på disse grafer, og derefter tage de data, som disse algoritmer producerer og tilføje dem til de oprindelige Data Frames, som er nødvendig.
CuGraph s køreplan også tilføje dynamiske datastrukturer. Disse kan komme i handy, når man analyserer grafen ændrer sig over tid. Som data streames i, hvordan strukturen i et netværk ændringer kan overvåges og rapporteres på.
Nvidia ‘ s cuGraph bibliotek har til formål at fremskynde graf behandling, og det ser ud som om det er lige på mærket
Lige så vigtigt er det brug af en dynamisk struktur inden for analytics. I mange tilfælde, størrelsen af det resultat, der er ukendt på forhånd. At være i stand til at bryde sammen, udvide, tilføje og reducere enten på grafen eller på de resultater, der on-the-fly er en kraftfuld teknik.
Det behøver ikke stoppe der, selv om. Rees bemærkes, at cuGraph ville være at tilføje state of the art graf analytics rammer såsom GraphBLAS og Hornet og samtidig holde øje med alle de nye udviklinger og problemfrit at integrere dem under cuGraph for udviklere at bruge.
Henvisningen til ejendom grafer, men var en udløsende faktor for en mere spekulative diskussion, som rører ved ikke lige algoritmer, men databaser, også. Ejendom grafer er en af de to mest udbredte måder at model grafer. Flere graf databaser, der er vedtaget det, og det er omdrejningspunktet for W3C ‘ s løbende bestræbelser på at standardisere graf databaser.
Så, vi spekulerede på, hvad samspillet mellem cuGraph og graf databaser kan være. Til at begynde med, bør vi understrege forskellen: cuGraph er en analytisk ramme, der er optimeret til indlæsning af data og køre algoritmer. Databaser, på den anden side, er også meningen at gemme data. Selv om cuGraph er ikke rettet mod dette, der er et par måder, cuGraph kan påvirke og blive påvirket af, graf databaser.
Graf forespørgsler og graf databaser
Vi har været vidne til databaser, der tilbyder graf analytics rammer, uanset om de er graf databaser. Du kan have en relationel database modellering og lagring af data i tabeller, for eksempel, som kommer sammen med en ramme, der giver mulighed for at forespørge data på en graf query language, som Cypher. Så, hvis de kan gøre dette, kan, og bør, cuGraph gøre dette også?
Rees bemærkes, at tilsætning støtte til Cypher, for eksempel, det er muligt. Hvorvidt eller hvornår dette kan ske, er imidlertid en anden historie. Nytten af at gøre dette ville være af væsentlig betydning: det er nemmere at udtrykke behandling som en del af en forespørgsel, der potentielt selv i et interaktivt miljø, end det er ved hjælp af en API. Sidstnævnte behov programmering færdigheder; en analytiker kan også gøre det tidligere.
Lige så, hvis ikke mere vigtigt, dog, er den anden vej rundt. Mange graf databaser er begyndt at tilbyde graf algoritme implementeringer ud af boksen. Så kører graf algoritmer er en fælles brug tilfældet, ville det ikke give mening for dem at integrere med cuGraph til at øge deres præstationer? Det helt ville, og de helt kunne.
Graf analytics gøre et par gode graf med databaser. Så mange databaser, der i disse dage kommer bundtet med, omfatter graf algoritmer, cuGraph kan påvirke databaser for.
Selv om dette er ren spekulation, så lad os se på et par punkter. Første, der er graf databaser rygter om, at enten allerede har, eller af at være i arbejde om støtte til Gpu ‘ er. For det andet er der mange GPU databaser rundt. Da der er en stigende efterspørgsel for graf behandling, vi kan snart se en eller flere af de tilføjer det til deres evner.
Dette er grunden til, at cuGraph kan vise sig at være en afgørende faktor, der vil påvirke den grafdatabase landskab: tilføje grafen forespørgsel kapacitet ville styrke både cuGraph og hvad query language får lov til at være understøttet, samtidig med at tilføje cuGraph til en database, der tilbyder kunne arbejde på samme måde, også.
I de større ordning af ting, cuGraph ‘ s indsats er at gøre graf analyse allestedsnærværende. At gøre dette ville ikke blot betyde hurtigere analytics, men potentielt et springbræt i fremtiden af AI, som i stor udstrækning, går gennem graf. CuGraph er noget at holde øje med.
Innovation
Hvorfor 2019 er det bedste år nogensinde at købe en smartphone: Billig flagskibe i massevis
Vi kan være på vej ind i en ny geologisk epoke
Apollo-inspirerede robot hacks sammen værktøjer ved hjælp af dagligdags objekter
Hvorfor AI få en dårlig rep fra medierne? (ZDNet YouTube)
Disse deepfakes af Bill Hader er helt skræmmende (CNET)
20 skræmmende anvendelse af kunstig intelligens (TechRepublic)
Relaterede Emner:
Innovation
Digital Transformation
Robotteknologi
Tingenes Internet
Virksomhedens Software
CXO