Aggiornamento di AWS Neptune: machine learning, data science e futuro dei database a grafi

0
169

George Anadiotis

Di George Anadiotis per Big on Data | 30 luglio 2021 — 12:00 GMT (13:00 BST) | Argomento: Big Data Analytics

I modelli di dati e i linguaggi di query sono indubbiamente argomenti piuttosto aridi per le persone che non fanno parte della cerchia ristretta degli intenditori. Sebbene i modelli di dati grafici e i linguaggi di query non facciano eccezione a questa regola, abbiamo cercato di tenere traccia degli sviluppi in quell'area, per una ragione principale.

Il grafico è l'area in più rapida crescita nel segmento più grande del software aziendale: i database. Caso in questione: una serie di recenti round di finanziamento, culminati nel round di finanziamento della Serie F da $ 325 milioni di Neo4j, ha portato la sua valutazione a oltre $ 2 miliardi.

Neo4j è tra i fornitori di database grafici che operano da più tempo, e ora è anche quello meglio finanziato. Ma questo non significa che sia l'unico che vale la pena tenere d'occhio. AWS è entrata nel mercato dei database a grafi nel 2018 con Neptune e da allora ha fatto molti progressi.

Oggi, AWS svela il supporto per openCypher, il linguaggio di query open source basato su Cypher di Neo4j. Cogliamo l'occasione per svelare cosa significa e come è correlato al futuro dei database a grafi, oltre a rivisitare interessanti sviluppi nel supporto di Neptune per l'apprendimento automatico e la scienza dei dati.

Costruire ponti con openCypher

Gli sviluppatori possono ora utilizzare openCypher, un popolare linguaggio di query su grafi, con Amazon Neptune, offrendo una scelta più ampia per creare o migrare applicazioni grafiche. Neptune ora supporta i tre principali linguaggi di query di grafi più popolari: Cypher, Gremlin e SPARQL.

Inoltre, Neptune aggiungerà il supporto per Bolt, il protocollo binario di Neo4j. Ciò a cui questo suggerisce è la capacità di consentire ai clienti di sfruttare gli strumenti familiari ed esistenti: gli strumenti di Neo4, per essere più specifici. Ma ci sono più ragioni per cui questo è importante.

Esistono due modelli di dati principali utilizzati per modellare i grafici: RDF e Labeled Property Graph (LPG). Neptune supporta entrambi, con SPARQL che funge da linguaggio di query per RDF e Gremlin che funge da linguaggio di query per GPL. Gremlin ha molto da offrire, in quanto ha un supporto quasi onnipresente e offre molto controllo sugli attraversamenti dei grafici. Ma anche questo può essere un problema.

Gremlin, parte del progetto Apache Tinkerpop, è un linguaggio di interrogazione imperativo. Ciò significa che, a differenza dei linguaggi di query dichiarativi come SQL, Cypher e SPARQL, le query Gremlin non esprimono solo cosa recuperare, ma devono anche specificare come. A questo proposito, Gremlin è più simile a un linguaggio di programmazione.

awsneptunearchitecture.png

Architettura Amazon Neptune. Le capacità di Nettuno sono ora migliorate dal supporto per openCypher, che offre maggiore flessibilità al suo arsenale.

AWS

Non tutti gli utenti si sentono a proprio agio nell'usare Gremlin in tutti gli scenari. Se volevano utilizzare il modello a GPL, tuttavia, era tutto ciò che dovevano fare. Amazon, nonostante abbia impiegato alcuni collaboratori chiave per Apache Tinkerpop, sembra riconoscerlo. L'aggiunta del supporto per openCypher rende più accessibile il lavoro con il motore GPL in Neptune.

Il supporto di Nettuno per GPL e RDF è possibile perché ospita due motori diversi sotto il cofano, uno per ogni modello di dati. L'aggiunta del supporto per openCypher non cambia questo, almeno non ancora. Ma RDF* potrebbe. RDF*, noto anche come RDF Star, è un aggiornamento dello standard RDF che gli consente di modellare anche i grafici del GPL.

C'è lavoro in corso in quell'area in entrambi i gruppi di lavoro CDR e GPL. Oltre ad Amazon con Neptune, anche altri fornitori di RDF stanno aggiungendo il supporto sperimentale per openCypher. Il quadro più ampio qui è il lavoro in corso, approvato dall'ISO, su GQL.

GQL è un nuovo standard per i linguaggi di query di grafi, che mira a unificare quello che oggi è un panorama frammentato. L'aspettativa è che GQL faccia per i database a grafi ciò che SQL ha fatto per i database relazionali. Amazon è attiva sia negli sforzi RDF* che GQL.

Alla fine, ciò dovrebbe consentire a Neptune di unificare i suoi due motori attualmente disparati. Ma la storia qui è più grande del semplice Amazon. La promessa è che ciò che Amazon sarà in grado di fare sotto il cofano, tutti gli utenti di database a grafo dovrebbero essere in grado di farlo attraverso i loro sistemi: utilizzare un singolo modello di dati e un unico linguaggio di query.

Dati funzioni scientifiche e di apprendimento automatico: notebook e reti neurali a grafo

GQL ha ancora molta strada da fare. Gli sforzi di standardizzazione sono sempre complicati e nemmeno l'adozione è garantita su tutta la linea. Ma Neptune esemplifica anche un altro importante sviluppo nei database grafici: l'integrazione delle funzionalità di data science e machine learning.

Lo sviluppo di applicazioni grafiche e la navigazione tra i risultati grafici è notevolmente facilitato dagli IDE e dagli strumenti di esplorazione visiva su misura per questo scopo. Sebbene molti fornitori di database a grafo abbiano incorporato strumenti integrati per tali scopi nelle loro offerte, fino a poco tempo Neptune si affidava esclusivamente a integrazioni di terze parti.

Il modo in cui il team di Neptune ha scelto di colmare questa lacuna è stato lo sviluppo di AWS Graph Notebook. I notebook sono molto popolari tra i data scientist e i professionisti del machine learning, poiché consentono loro di combinare e abbinare codice, dati, visualizzazione e documentazione e di lavorare in modo collaborativo.

AWS Graph Notebook è un pacchetto Python open source per i notebook Jupyter per supportare la visualizzazione dei grafici. Supporta sia Gremlin che SPARQL e prevediamo che alla fine supporterà anche openCypher. Sebbene inizialmente adottato dalle folle di data science e machine learning, Amazon sembra credere che i notebook prenderanno piede anche tra gli sviluppatori.

amazonneptuneml.jpg

Neptune ML è il nome in codice che Amazon ha dato all'integrazione tra il suo database di grafici Neptune e le capacità di apprendimento automatico dei grafici in SageMaker e DGL.

AWS

Dovremo aspettare per vedere se la scommessa verrà ripagata. Ciò che è certo, tuttavia, è che l'offerta di supporto per notebook rafforza l'interesse di Neptune per i casi d'uso di data science e machine learning. Ma non è tutto ciò che Nettuno ha da offrire: inserisci Neptune ML.

Amazon promuove Neptune ML come un modo per fare previsioni facili, veloci e accurate su grafici con reti neurali a grafo (GNN). Neptune ML è alimentato da Amazon SageMaker e dalla Deep Graph Library (DGL) open source, a cui Amazon contribuisce.

GNN è un ramo relativamente nuovo del Deep Learning, con l'interessante caratteristica che sfruttano il contesto aggiuntivo informazioni che la modellazione dei dati come grafico può modellare per addestrare algoritmi di Deep Learning. Le GNN sono considerate lo stato dell'arte nell'apprendimento automatico e possono avere una migliore precisione nel fare previsioni rispetto alle reti neurali convenzionali.

L'integrazione di GNN con database a grafi è una corrispondenza naturale. Le GNN possono essere utilizzate per previsioni a livello di nodo e di bordo, ovvero possono dedurre dati e connessioni aggiuntivi nei grafici. Possono essere utilizzati per addestrare modelli per dedurre proprietà per casi d'uso come previsione di frodi, targeting degli annunci, customer 360, consigli, risoluzione dell'identità e completamento del grafico della conoscenza.

Ancora una volta, Neptune non è l'unico a incorporare notebook e machine learning nella sua offerta. Oltre ad affrontare la folla di data science e machine learning, queste funzionalità possono anche aggiornare l'esperienza dello sviluppatore e dell'utente finale. Strumenti migliori, dati migliori, analisi migliori: tutti si traducono in migliori applicazioni per l'utente finale. Questo è ciò per cui tutti i fornitori si stanno impegnando.

leggi questo

Tutto ciò che devi sapere sull'AI

Tutto ciò che devi sapere sull'AI

Una guida esecutiva all'intelligenza artificiale, dall'apprendimento automatico e dall'IA generale alle reti neurali.

Ulteriori informazioni

Argomenti correlati:

Trasformazione digitale Robotica Internet of Things Innovation Enterprise Software CXO George Anadiotis

Di George Anadiotis per Big on Data | 30 luglio 2021 — 12:00 GMT (13:00 BST) | Argomento: Analisi dei Big Data