ITALIANO

Il web come un database: Il più grande knowledge graph mai

133

Zero

Il web è tra gli uomini più grandi successi e le risorse. Sempre in espansione e quasi totalizzante, che tutti abbiamo imparato a dipendere da essa. C’è solo un problema: ci vuole lavoro per ottenere informazioni.

Questo perché le informazioni in documenti e documenti sul web sono in tutto il luogo, e qualcuno deve individuare e leggere, per estrarre le informazioni. I motori di ricerca hanno percorso una lunga strada, e sono di grande aiuto nella individuazione di parte, ma non tanto l’estrazione di parte. Almeno, non fino ad oggi.

Inoltre: lo Zen e l’arte di strutture di dati: Dal self-tuning per auto-progettazione di sistemi di dati

Google e il suo ilk a volte può dare l’impressione che sono in grado di comprendere e rispondere alle domande. Parte del motivo è la somma della conoscenza umana nel mix. Google, notoriamente, è passata dall’utilizzo di puro testo e metodi statistici per l’aggiunta di un modulo di ricerca quando ha comprato la MetaWeb. MetaWeb sviluppato Freebase, che era una folla di origine knowledge graph, simile nell’approccio a Wikipedia, che è stato integrato nel motore di ricerca di Google.

Eat your heart out, Google

Che consente a Google di fare un po della sua magia. Se cerchi su Google “Google”, per esempio, non solo ottenere un sacco di link. Si ottiene anche un info-box che elenca fatti, il CEO di Google, fondatori, e l’indirizzo. Ecco perché c’è una voce in Google knowledge graph che le liste di Google come azienda, e queste sono solo alcune delle proprietà di aziende, in modo che Google recupera e visualizza le informazioni da Wikipedia.

Ma se si cerca su Google “quanti dipendenti ha Google” o “che cosa è Google indirizzo”, quello che si ottiene è un sacco di link. Si è soli … devi leggere i documenti e capire la risposta. Se tali informazioni in un database, è necessario digitare qualcosa come “SELEZIONARE Indirizzo le Organizzazioni il CUI Nome=Google” e tu avresti la tua risposta in pochi secondi. Che è la differenza tra informazioni strutturate e non strutturate.

Anche: MemSQL 6.5: NewSQL autonome, di ottimizzazione dei carichi di lavoro, migliorata l’importazione dei dati e l’esecuzione di query di velocità

Questo è anche ciò che Diffbot presenta oggi: La possibilità di interrogare il web come un database. Questo risultato impressionante è anche sulla base di un knowledge graph. La differenza è che, in Diffbot caso, il knowledge graph è solo parzialmente curata da esseri umani, e viene popolato automaticamente la scansione del web. ZDNet ha parlato di Mike Tung, Diffbot CEO e Fondatore, per scoprire come Diffbot fa questo.

Prima di tutto, dovete eseguire la ricerca per indicizzazione del web. Questo è dove Gigablast e Matt Wells venire. Gigablast è un motore di ricerca creato da Matt Wells, Diffbot VP di Ricerca, nel 2000. Tung dice che questo è ciò che Diffbot utilizza la ricerca per indicizzazione, e negozio, ogni singolo documento sul web. Difficile come questo può essere, tuttavia, non è nemmeno la metà del lavoro.

La parte davvero difficile è ottenere informazioni dai documenti, e questo è dove la magia è. Tung spiega questo viene fatto usando la visione artificiale, machine learning (ML), e l’elaborazione del linguaggio naturale (NLP).

Computer vision aiuta Diffbot capire la struttura dei documenti. Si imita il modo in cui gli esseri umani abbattere i documenti, per capire quali sono gli elementi strutturali di ogni documento-le cose come intestazioni, blocchi, etc. In un mondo perfetto, questo dovrebbe essere possibile ispezionando la struttura HTML di documenti web. Ma non è tutto sul web è l’HTML, documenti HTML e non sono perfetti.

Anche: MemSQL 6.5: NewSQL autonome, di ottimizzazione dei carichi di lavoro, migliorata l’importazione dei dati e l’esecuzione di query di velocità

Dopo la struttura viene contenuto. Il contenuto viene analizzato utilizzando una combinazione di PNL e ML, il cui risultato è una conoscenza strutturata a cui si aggiunge il Diffbot del knowledge graph (DAG). Tung in mostra un esempio basato su Marissa Mayer, ex-CEO di Yahoo.

L’assunzione di un breve testo su Mayer come input, Diffbot sistema di elaborazione, ed è stato in grado di estrarre tutti i tipi di fatti descritti nel testo: Mayer, sesso, storia di occupazione, istruzione, etc. Facendo questo, Diffbot aggiunge una voce per Mayer nel suo knowledge graph, e di popolarlo con proprietà quali il sesso, l’età, e simili.

“Contrariamente alla percezione popolare, Google knowledge graph non è derivato principalmente dall’automazione,” dice Tung. “A differenza di Google, l’obiettivo del trattamento non è per classificare le pagine per gli utenti di leggere (e iniettare un po’ di pubblicità lungo la strada), ma piuttosto per evitare di lettura del tutto.

DKG è il primo web-scala knowledge graph, che è del tutto sintetizzato da un sistema automatizzato sistema di intelligenza artificiale, senza un uomo-in-the-loop. Che è il motivo per cui il principale vincolo alla crescita è il numero di macchine che abbiamo dedicato all’acquisizione di conoscenze”, ha aggiunto, concludendo che DKG attualmente contiene qualcosa nell’ambito di un miliardo di fatti.

Da un web di documenti per un web di dati

Questo non è del tutto nuova. Il primo che ha proposto la visione di passare da un sito web di documenti per un web di dati non era altri che il web inventore, Tim Berners Lee, che ha pubblicato la sua Semantic Web manifesto nel 2001.

Come Tung note, tuttavia, “una lunga fila di storia (che vanno da RDF/microformati/RSS/markup semantico), ha dimostrato che richiedono umana annotazione è mai intenzione di scala in termini di incentivazione economica e precisione a tutti la conoscenza.”

Anche se annotazione non deve necessariamente essere umano (può venire dall’automazione), Tung non avere un punto: la Maggior parte dei contenuti sul web è molto poco, se non a tutti, con annotazioni. Tung pensa che la creazione di questo global knowledge graph utilizzando l’attuale stato di AI è l’approccio giusto — e sembra funzionare.

Inoltre: lo Spostamento veloce senza rompere i dati: la Governance per la gestione del rischio in macchina di apprendimento e di là

Le applicazioni sono ampie e profonde. Tung note che “enterprise funzioni come la vendita, di reclutamento, di supply chain, di contabilità, di business intelligence e di market intelligence di tutto il lavoro fuori di database che può essere mantenuto aggiornato e accurato da integrare direttamente con il knowledge graph.”

Tung ha dimostrato un tale scenario, l’utilizzo di DKG di query per la gente che lavora per Uber. Inizialmente la query ha restituito quasi 40.000 risultati, che Tung è stato in grado di filtrare l’utilizzo di standard di filtraggio, come ci si aspetterebbe da un database: Ottenere solo i dipendenti in servizio, il filtro per regione, ecc.

E che il riferimento all’integrazione con database ha implicazioni di vasta portata. Lo scenario di cui sopra è stato solo in base alle informazioni che si trovano sul web. Ma le imprese non solo lavorare con ciò che trovano sul web, hanno anche loro interno sistemi e database, e Tung dice DKG può sostenere, che offre un punto di accesso per domarli tutti.

Anche: GraphQL per database: Un livello universale di accesso al database?

DKG potrebbe contare come Diffbot il più grande successo fino ad oggi, ma non è venuto fuori nulla. Tung ha forti credenziali per mostrare, avendo progettato web-scala di estrazione di informazioni architetture e lavorato per Microsoft, eBay e Yahoo. Diffbot è stato intorno dal 2008, ha nomi come eBay Bing di Microsoft e Salesforce tra i suoi clienti, e Tencent e Bloomberg tra i suoi investitori.

Impressionante come tutto questo possa sembrare, tuttavia, ci sono un paio di trucchi.

Lingua, figlio

Per cominciare, non tutti DKG è auto-magicamente creato. Che non è necessariamente una cosa negativa, ma va a mostrare i limiti di anche che “l’attuale stato di AI” si può fare. DKG è seminato da Diffbot conoscenza ingegneri, che hanno deciso che le entità in grado di gestire sono le persone, le aziende, i luoghi, gli articoli, i prodotti, le discussioni e le immagini.

Questo significa che tutto ciò Diffbot striscia dal web sarà classificato come una di quelle cose. Chiaramente, questa decisione è stata condotta da quello che Diffbot i clienti sono più interessati, ma che non significa che ogni pagina web è classificato come uno dei 20 tipi di DKG attualmente lo sa. Tung dice che hanno intenzione di includere in questo categorie quali eventi o informazioni mediche.

In altre parole, Diffbot ha consapevolmente scelto di limitare la portata di quello che gestisce, per fare un ben noto problema gestibile. Per chiunque abbia familiarità con la conoscenza grafici (anche con il nome di ontologie per la estimatore), che Diffbot non è la definizione di una ontologia superiore, e il suo popolamento dal web. Il concetto e le relative sfide sono ben noti, ma il modo in cui Diffbot gestisce questo è lo stato dell’arte.

Anche: AWS Nettuno andando GA: il buono, Il brutto, il cattivo per grafico database utenti e fornitori

Che ci portano ad un altro argomento chiave: Question answering. Se si dispone di tutto il web a portata di mano, come hai intenzione di query? Dipende. Se sei un uomo d’affari, idealmente, si desidera utilizzare il linguaggio naturale. Attualmente, DKG non supporta questa. Essa, tuttavia, ha il suo Diffbot Query Language (DQL).

DQL sembra abbastanza semplice, se si ha familiarità con i linguaggi di query. Ma, poi di nuovo, se si ha familiarità con i linguaggi di query, perchè vuoi imparare un altro ancora? C’è già mazzo di grafico linguaggi di query esiste, come SPARQL, Gremlin, e OpenCypher, e con l’aumento del grafico database, ci aspettiamo che loro di diventare sempre più diffusa.

Questo tocca un altro problema: Anche se Diffbot approccio condivide molte somiglianze con il web semantico dei concetti e standard (Tung anche specificamente menzionato RDF-come soggetto-predicato-oggetto triple nella sua composizione di elaborazione del testo), il suo approccio è il proprietario.

Indipendentemente dal fatto che si sa o come quelli standard, non hanno fatto Diffbot vita più facile da usare? Per esempio, con la costruzione di DKG sulla cima di un off-the-shelf grafico database. Tung riconosce, ma lui dice che hanno testato più di una dozzina di grafico database, e tutti si ruppe in circa 10-100M entità, quindi hanno dovuto costruire qualcosa di proprietario.

Come per il problema della lingua, Tung ha detto che il loro approccio è quello di soddisfare gli utenti dove sono, eliminando la necessità di utilizzare direttamente un linguaggio di query (o un API, che DKG supporta anche) per quanto possibile. Il modo per farlo, Tung dice, è da integrare DKG con i più diffusi sistemi come Salesforce, SAP, o Tableau, così gli utenti possono ottenere in modo trasparente i dati da DKG nelle loro applicazioni.

Che può essere un bene per gli utenti, ma anche luoghi piuttosto un onere di Diffbot di sviluppare e mantenere tutte queste integrazioni. Tung dice intendono sviluppare ponti per i più popolari linguaggi di query, tuttavia, in modo che le integrazioni non sono realizzate a mano.

Inoltre: il Pianeta analytics 1.0: un laboratorio per il mondo

Ultimo ma non meno importante, il fatto di essere in grado di interrogare il web, inoltre, significa che si dovrebbe trust automaticamente i risultati? Non necessariamente. Questo è il motivo per cui Google e il suo ilk hanno sviluppato sofisticati algoritmi per classificare i risultati, cercando di determinare le più rilevanti. DKG solo parzialmente questo.

È possibile filtrare Uber dipendenti per età, per esempio, ma qual è la fonte definitiva per che? Se X dice di una persona che è nata nel 1974, e l’origine Y dice di essere nato nel 1947, che uno si deve fidare? Come fai a sapere che stanno parlando della stessa persona?

Questi sono ben noti e difficili da affrontare i problemi, e Diffbot deve affrontare loro come chiunque altro che è venuto prima di loro. È, tuttavia, DKG è un risultato impressionante con molte potenziali applicazioni.

Precedente e relativa copertura:

AI chip per i big data e l’apprendimento automatico: Gpu, Fpga e scelte difficili nel cloud e on-premise

Come Gpu e chip Fpga aiutare con i dati di attività complesse, quali le operazioni di analisi e di apprendimento automatico, e quali sono le opzioni?

Data-driven in caso di calamità di Misurare l’impatto di risposta di emergenza

Con i disastri naturali raccogliendo in frequenza e intensità, il ruolo delle Ong nelle operazioni di soccorso è in ripresa. Un requisito fondamentale per tutte le Ong, è la trasparenza, e l’applicazione di data-driven tecniche può essere di aiuto.

Wolfram Research va per il Software 2.0, rilascia la rete neurale repository

Wolfram, essendo stato in IA prima che fosse fresco, ora diventa un pezzo di apprendimento profondo hype, nella sua sui generis. Dove si fa a resistere, rispetto alla concorrenza, e come è facile da usare e da integrare Wolfram con il resto del mondo?

Argomenti Correlati:

L’innovazione

Big Data Analytics

CXO

Intelligenza Artificiale

Enterprise Software

Archiviazione