AWS Neptune -uppdatering: Maskininlärning, datavetenskap och framtiden för grafdatabaser

0
150

 George Anadiotis

Av George Anadiotis för Big on Data | 30 juli 2021 – 12:00 GMT (13:00 BST) | Ämne: Big Data Analytics

Datamodeller och frågespråk är visserligen något torra ämnen för människor som inte befinner sig i den inre cirkeln av finsmakare. Även om grafdatamodeller och frågespråk inte är något undantag från den regeln har vi försökt hålla reda på utvecklingen inom det området av en huvudskäl.

Graph är det snabbast växande området i det största segmentet inom företagsprogramvara – databaser. Fall i punkt: En rad senaste finansieringsrundor, som kulminerade i Neo4js 325 miljoner dollar i serie F -finansieringsomgång, ledde till att värderingen uppgår till över 2 miljarder dollar.

Neo4j är bland de grafdatabasleverantörer som har funnits längst, och det är nu också det bäst finansierade. Men det betyder inte att det är den enda som är värd att hålla ett öga på. AWS gick in på grafdatabasmarknaden 2018 med Neptune, och det har gjort stora framsteg sedan.

Idag presenterar AWS stöd för openCypher, frågespråket med öppen källkod baserat på Neo4js Cypher. Vi tar tillfället i akt att packa upp vad detta innebär och hur det är relaterat till framtiden för grafdatabaser, samt återkomma till intressant utveckling i Neptuns stöd för maskininlärning och datavetenskap.

Bygga broar med openCypher

Utvecklare kan nu använda openCypher, ett populärt graffrågespråk, med Amazon Neptune, vilket ger fler valmöjligheter för att bygga eller migrera grafapplikationer. Neptune har nu stöd för de tre mest populära graffrågesspråken: Cypher, Gremlin och SPARQL.

Dessutom kommer Neptune att lägga till stöd för Bolt, Neo4js binära protokoll. Vad detta antyder är möjligheten att låta kunderna dra nytta av välkända och befintliga verktyg – Neo4: s verktyg, för att vara mer specifik. Men det finns fler anledningar till varför detta är viktigt.

Det finns två huvuddatamodeller som används för att modellera grafer: RDF och Labeled Property Graph (LPG). Neptune stöder båda, med SPARQL som frågespråk för RDF och Gremlin som frågespråk för gasol. Gremlin har mycket att göra, eftersom det har nästan allestädes närvarande stöd och erbjuder mycket kontroll över grafövergångar. Men det kan också vara ett problem.

Gremlin, en del av Apache Tinkerpop -projektet, är ett viktigt frågespråk. Detta innebär att i motsats till deklarativa frågespråk som SQL, Cypher och SPARQL, uttrycker Gremlin -frågor inte bara vad de ska hämta, utan de måste också ange hur. I detta avseende liknar Gremlin mer ett programmeringsspråk.

 awsneptunearchitect

Amazon Neptune -arkitektur. Neptuns förmågor förstärks nu av stödet för openCypher, vilket ger sin arsenal mer flexibilitet.

AWS

Inte alla användare är bekväma att använda Gremlin i alla scenarier. Om de ville använda gasolmodellen var det dock allt de behövde gå efter. Amazon verkar, trots att de anställer några viktiga bidragsgivare till Apache Tinkerpop, erkänna detta. Att lägga till stöd för openCypher gör arbetet med gasolmotorn i Neptune mer lättillgängligt.

Neptuns stöd för gasol och RDF är möjligt eftersom det är värd för två olika motorer under huven, en för varje datamodell. Att lägga till stöd för openCypher ändrar inte det – åtminstone inte ännu. Men RDF*kanske. RDF *, även känd som RDF Star, är en uppdatering av RDF-standarden som gör det möjligt att också modellera LPG-grafer.

Det pågår arbete inom detta område i både RDF- och LPG -arbetsgrupper. Förutom Amazon med Neptune lägger andra RDF -leverantörer också till experimentellt stöd för openCypher. Den större bilden här är det pågående arbetet, godkänt av ISO, med GQL.

GQL är en ny standard för grafiska frågespråk, som syftar till att förena det som idag är ett fragmenterat landskap. Förväntningen är att GQL kommer att göra för grafdatabaser vad SQL gjorde för relationsdatabaser. Amazon är aktivt i både RDF* och GQL -insatser.

Så småningom borde det göra det möjligt för Neptune att förena sina två för närvarande olika motorer. Men historien här är större än bara Amazon. Löftet är att vad Amazon kommer att kunna göra under huven ska alla grafdatabasanvändare kunna göra över sina system: använd en enda datamodell och ett enda frågespråk.

Data vetenskap och maskininlärningsfunktioner: Bärbara datorer och grafneurala nätverk

GQL har fortfarande en bit kvar. Standardiseringsinsatser är alltid komplicerade, och antagandet är inte heller garanterat över hela linjen. Men Neptunus är också ett exempel på en annan viktig utveckling inom grafdatabaser: integration av datavetenskap och maskininlärningsfunktioner.

Att utveckla grafapplikationer och navigera i grafresultat underlättas av IDE: er och verktyg för visuell utforskning som är skräddarsydda för detta ändamål. Medan många grafdatabasleverantörer har införlivat inbyggda verktyg för dessa ändamål i sina erbjudanden, förlitade sig Neptune uteslutande på tredjepartsintegrationer tills nyligen.

Sättet Neptuns team valde att ta itu med detta gap var genom att utveckla AWS Graph Notebook. Anteckningsböcker är mycket populära bland datavetenskapare och maskininlärare, vilket gör att de kan blanda och matcha kod, data, visualisering och dokumentation och att arbeta tillsammans.

AWS Graph Notebook är ett Python -paket med öppen källkod för Jupyter -bärbara datorer för att stödja grafvisualisering. Det stöder både Gremlin och SPARQL, och vi förväntar oss att det så småningom också kommer att stödja openCypher. Även om det ursprungligen antogs av datavetenskap och maskininlärningsgrupper, verkar Amazon tro att anteckningsböcker också kommer att fånga bland utvecklare.

 amazonneptuneml.jpg

Neptune ML är kodnamnet Amazon har gett integrationen mellan dess Neptunus grafdatabas och grafiska maskininlärningsfunktioner i SageMaker och DGL.

AWS

Vi får vänta för att se om den insatsen lönar sig. Vad som dock är säkert är att erbjudandet av bärbara datorsupport stärker Neptuns attraktionskraft för datavetenskap och maskininlärningsfall. Men det är inte allt Neptune har att erbjuda där – skriv Neptune ML.

Amazon visar Neptune ML som ett sätt att göra enkla, snabba och exakta förutsägelser på grafer med grafneurala nätverk (GNN). Neptune ML drivs av Amazon SageMaker och open source Deep Graph Library (DGL), till vilket Amazon bidrar.

GNNs är en relativt ny gren av Deep Learning, med den intressanta funktionen att de utnyttjar ytterligare kontextuella information som modellering av data som en graf kan modellera för att träna Deep Learning -algoritmer. GNN anses vara toppmodern inom maskininlärning, och de kan ha bättre noggrannhet i att göra förutsägelser jämfört med konventionella neurala nätverk.

Att integrera GNN med grafdatabaser är en naturlig matchning. GNN kan användas för förutsägelser på nodnivå och kantnivå, det vill säga de kan utläsa ytterligare data och anslutningar i grafer. De kan användas för att träna modeller för att dra slutsatser om användningsfall som bedrägeriförutsägelser, annonsinriktning, kund 360, rekommendationer, identitetsupplösning och kunskapsdiagram.

Återigen är Neptunus inte den enda som införlivar anteckningsböcker och maskininlärning i sitt erbjudande. Förutom att ta itu med datavetenskap och maskininlärning, kan dessa funktioner också uppgradera utvecklaren och slutanvändarupplevelsen. Bättre verktyg, bättre data, bättre analyser-alla resulterar i bättre slutanvändarapplikationer. Det är vad alla leverantörer strävar efter.

läs detta

 Allt du behöver veta om AI

Allt du behöver veta om AI

En verkställande guide för artificiell intelligens, från maskininlärning och allmän AI till neurala nätverk.

Läs mer

Relaterade ämnen:

Digital Transformation Robotics Internet of Things Innovation Enterprise Software CXO  George Anadiotis

Av George Anadiotis för Big on Data | 30 juli 2021 – 12:00 GMT (13:00 BST) | Ämne: Big Data Analytics