Het web als database: De grootste knowledge graph ooit

0
101

Nul

Het web is onder de mensheid de grootste prestaties en middelen. Steeds verder uitbreiden en bijna alles omvattende, we hebben het allemaal van afhankelijk. Er is slechts één probleem: Het neemt het werk te krijgen.

Dat is omdat de informatie in de documenten en de documenten op het web zijn all over the place, en moet iemand vinden ze, en lees ze voor, pak die informatie. Zoekmachines hebben een lange weg afgelegd, en ze enorm helpen in het lokaliseren van een deel, maar niet zo veel in de extractie te deel. Althans, tot vandaag.

Ook: Zen en de kunst van data structuren: Van self-tuning zelf ontwerpen van data systemen

Google en zijn soortgenoten kan soms de indruk wekken dat ze het begrijpen en beantwoorden van vragen. Een deel van de reden is de toevoeging van de menselijke kennis in de mix. Google beroemde ging uit met puur tekst-en statistische methoden voor het toevoegen van een vorm van curatie bij de aankoop van MetaWeb. MetaWeb ontwikkeld Freebase, dat was een crowd-sourced knowledge graph, een soortgelijke aanpak voor Wikipedia, die werd geïntegreerd in Google ‘ s zoekmachine.

Eat your heart out, Google

Dat maakt het mogelijk voor Google om te doen wat van zijn magie. Als je op Google “Google” bijvoorbeeld, u niet alleen een bos van verbindingen. Ook krijgt u een info-box met een opsomming van feiten, zoals Google ‘ s CEO, stichter en adres. Dat is omdat er een vermelding in Google ‘ s knowledge graph opsomming van Google als een bedrijf, en dit zijn enkele van de eigenschappen bedrijven, zodat Google haalt en geeft die informatie van Wikipedia.

Maar als u probeert Googlen “hoe veel medewerkers heeft Google hebben,” of “wat is de Google-adres”, wat je krijgt is een bos van verbindingen. U bent op uw eigen — u documenten lezen en uitzoeken van het antwoord. Als die informatie in een database, typt u dus iets als “SELECTEERT u het Adres VAN Organisaties WAARBIJ de Naam=Google” en u zou uw antwoord in enkele seconden. Dat is het verschil tussen gestructureerde en ongestructureerde informatie.

Ook: MemSQL 6.5: NewSQL met autonome werklast optimalisatie, verbeterde data-inname en de uitvoering van een query snelheid

Dat is ook wat Diffbot is de onthulling van vandaag: De mogelijkheid voor de query op het web als database. Deze indrukwekkende prestatie is gebaseerd op de knowledge graph. Het verschil is dat, in Diffbot het geval, de knowledge graph is slechts gedeeltelijk samengesteld door mensen, en wordt automatisch ingevuld door het crawlen van de web. ZDNet sprak met Mike Tung, Diffbot ‘ s CEO en Oprichter, om uit te vinden hoe Diffbot dit doet.

opera-snapshot2018-08-30101415www-diffbot-com.png

Diffbot slikt en analyseert het hele web in een knowledge graph – een database u kunt query ‘ s. Afbeelding: Diffbot

Ten eerste, je moet beschikbaar zijn om te crawlen. Dit is waar Gigablast en Matt Wells komen. Gigablast is een zoekmachine gemaakt door Matt Putten, Diffbot ‘ s VP van de Zoektocht, in 2000. Tung zegt dat dit is wat Diffbot gebruikt om te crawlen en te winkel, elk document op het web. Hard dit ook mag zijn, echter, het is niet eens de helft van de baan.

De echt harde deel is om de informatie uit documenten, en dit is waar de magie is. Tung legt dit is gedaan met behulp van computer vision, machine learning (ML) en natural language processing (NLP).

Computer vision helpt Diffbot begrijpen van de structuur van documenten. Het bootst de manier waarop mensen breken documenten, uitzoeken wat zijn de structurele elementen van elk document — dingen zoals koppen, blokken, enz. In een perfecte wereld, moet dit mogelijk zijn door de inspectie van de HTML-structuur van web documenten. Maar niet alles op het web is HTML en HTML-documenten zijn niet perfect.

Ook: MemSQL 6.5: NewSQL met autonome werklast optimalisatie, verbeterde data-inname en de uitvoering van een query snelheid

Na de structuur content. De inhoud wordt geanalyseerd met behulp van een combinatie van NLP en ML, het resultaat van die gestructureerde kennis die is toegevoegd aan Diffbot ‘ s knowledge graph (DKG). Tung tentoongesteld een voorbeeld op basis van Marissa Mayer, de ex-CEO van Yahoo.

Het nemen van een korte tekst over Mayer als input, Diffbot het systeem verwerkt en kon het uitpakken van alle soorten van feiten in de tekst beschreven: Mayer ‘ s geslacht, werkervaring, opleidingsniveau, etc. Door dit te doen, Diffbot voegt een item voor de Mayer in de knowledge graph, en gevuld met eigenschappen zoals geslacht, leeftijd en dergelijke.

“In tegenstelling tot de populaire perceptie, Google’ s knowledge graph is niet afgeleid voornamelijk van de automatisering”, aldus Tung. “In tegenstelling tot Google, het doel van de verwerking niet om pagina’ s te rangschikken voor de mens om te lezen (en te injecteren wat reclame langs de weg), maar eerder om te voorkomen dat menselijke lezen helemaal.

DKG is de eerste web-schaal knowledge graph, dat volledig gesynthetiseerd door een geautomatiseerd systeem van AI, zonder een mens-in-de-lus. Dat is de reden waarom de belangrijkste beperking is de groei van het aantal machines die wij besteden aan het verwerven van kennis,” voegt hij eraan toe, is de conclusie dat de DKG bevat momenteel iets in het gebied van één miljard feiten.

Uit een web van documenten naar een web van gegevens

Dit is niet geheel nieuw. De eerste die naar voren dat de visie gaat uit van een web van documenten naar een web van data was geen andere dan de web-uitvinder Tim Berners Lee, die gepubliceerd zijn Semantische Web manifesto in 2001.

Als Tung merkt echter op, “een lange lijn van de geschiedenis (variërend van RDF/microformats/RSS/semantische opmaak) heeft aangetoond dat dat menselijke annotatie is nooit schaal in termen van economische prikkel en de nauwkeurigheid van alle kennis.”

Hoewel annotatie niet noodzakelijk om mens te zijn (het kan komen van automatisering), Tung heeft wel een punt: de Meeste content op het web is erg slecht, of helemaal niet, geannoteerd. Tung denkt dat het bouwen van deze globale kennis grafiek met behulp van de huidige stand van de AI is de juiste aanpak, en het lijkt te werken.

Ook: snel Bewegen zonder te breken gegevens: Governance voor het managen van risico ‘ s in machine learning en buiten

De toepassingen zijn breed en vergaand. Tung merkt op dat “enterprise-functies zoals sales, werving en selectie, supply chain, accounting, business intelligence en market intelligence alle werkzaamheden uit van de databanken, die kan worden bijgewerkt en juist door het integreren direct met de knowledge graph.”

diffbot-kg-record-linking.jpg

Diffbot de verwerking van natuurlijke taal in actie. Let op hoe de feiten gewonnen uit de tekst worden weergegeven als onderwerp — predicaat — object triples. (Afbeelding: Diffbot)

Tung aangetoond dat een dergelijk scenario, met behulp van DKG query voor mensen die werken voor Uber. In eerste instantie de query bijna 40.000 resultaten, die Tung was in staat om te filteren met behulp van de standaard filtering zoals men zou verwachten van een database: alleen huidige werknemers, filteren op regio, enz.

En die verwijzing naar de integratie met databases heeft verstrekkende implicaties. Het bovenstaande scenario is gebaseerd op informatie die te vinden is op het web. Maar bedrijven werken niet alleen met wat ze vinden op het web — ze hebben ook hun eigen interne systemen en databases, en Tung zegt DKG kunnen ondersteunen die goed, het aanbieden van een toegangspunt om ze allemaal te regeren.

Ook: GraphQL voor databases: Een laag voor universele toegang tot de database?

DKG goed kan tellen als Diffbot ‘ s grootste prestatie tot nu toe, maar het kwam niet uit het niets. Tung heeft een sterke referenties aan te tonen, dat ontworpen web-schaal informatie-extractie architecturen en werkte voor Microsoft, eBay en Yahoo. Diffbot is al sinds 2008, het heeft namen zoals eBay Microsoft Bing, en Salesforce van haar klanten, en Tencent en het internationale monetaire fonds onder de beleggers.

Indrukwekkend als dat allemaal ook mag klinken, er zijn echter een paar valkuilen.

Taal, zoon

Om te beginnen met, niet alle van DKG is auto-magisch gemaakt. Dat is niet noodzakelijk een slechte zaak, maar het gaat om de grenzen van zelfs wat “de huidige staat van AI” kan doen. DKG is gezaaid door Diffbot de kennis van ingenieurs, die hebben besloten dat de entiteiten in het behandelen van mensen, bedrijven, locaties, voorwerpen, producten, discussies en afbeeldingen.

Dit betekent dat alles Diffbot kruipt van het web zal worden geclassificeerd als een van die dingen. Het is duidelijk dat deze beslissing werd gedreven door wat Diffbot ‘ s klanten zijn voornamelijk geïnteresseerd in, maar dat betekent niet dat elke pagina op het web is geclassificeerd als een van de 20 soorten DKG nu kent. Tung zegt dat ze van plan zijn uit te breiden met categorieën, zoals gebeurtenissen of medische informatie.

In andere woorden, Diffbot heeft er bewust voor gekozen om het beperken van de omvang van wat er omgaat, om een bekend probleem beheersbaar. Voor iedereen die bekend is met de kennis van grafieken (ook door de naam van ontologieën voor de connaisseurs), wat Diffbot doet is het definiëren van een upper ontology, en het vullen van de website. Het concept en de bijbehorende uitdagingen zijn bekend, maar de manier waarop Diffbot omgaat met deze state of the art is.

Ook: AWS Neptunus gaat GA: De goede, de slechte en de lelijke grafiek voor gebruikers van de database en leveranciers

Dat brengt ons bij een ander belangrijk onderwerp: Vraag beantwoorden. Als u het hele web binnen handbereik, hoe gaat u dit opvragen? Het hangt ervan af. Als u een ondernemer, idealiter zou u graag gebruik maken van natuurlijke taal. Op dit moment, DKG wordt niet ondersteund. Het heeft echter wel haar eigen Diffbot Query Language (DQL).

DQL ziet er vrij simpel, als je bekend bent met query talen. Maar, nogmaals, als u vertrouwd bent met de query talen, waarom zou je willen hebben om te leren toch een andere? Er is al een hoop grafiek query talen die er zijn, zoals SPARQL, Gremlin, en OpenCypher, en met de opkomst van de grafiek databases, we verwachten dat ze meer en meer verspreid.

Dit raakt aan een ander probleem: Ook al Diffbot de aanpak van aandelen veel overeenkomsten met het semantische web concepten en standaarden (Tung zelfs specifiek genoemd RDF-als subject-predicaat-object triples in zijn uitsplitsing van de tekst te verwerken), de aanpak is merkgebonden.

Ongeacht of u het weet of als deze normen, zou het niet hebben gemaakt Diffbot het leven makkelijker om ze te gebruiken? Bijvoorbeeld door het bouwen van DKG op de top van een off-the-shelf grafiek database. Tung erkent het, maar hij zegt dat ze getest op meer dan een dozijn graph databases, en ze brak rond 10-100M entiteiten, dus ze hadden om iets op te bouwen vrij van eigendomsrechten.

Als voor de taal probleem, Tung zegt dat hun aanpak is om te voldoen aan de gebruikers waar ze zijn, het elimineren van de behoefte aan direct met een query-taal (of een API, die DKG ondersteunt ook) zo veel mogelijk. De manier om dit te doen, Tung zegt, is door het integreren van DKG met populaire systemen zoals Salesforce, SAP, of Tableau, zodat gebruikers kunnen transparant ophalen van gegevens van de DKG in hun toepassingen.

Dat kan goed zijn voor de gebruikers, maar het plaatst ook een flink last van Diffbot het ontwikkelen en onderhouden van al die integraties. Tung zegt dat ze van plan zijn te ontwikkelen bruggen voor populaire query talen, echter, dus integraties niet hoeft te worden met de hand gemaakt.

Ook: Planeet analytics 1.0: Van de VN-lab de hele wereld

Laatste maar niet de minste, is in staat om een query voor het web ook betekenen dat je automatisch moet vertrouwen op de resultaten? Niet per se. Dit is de reden waarom Google en zijn soortgenoten hebben geavanceerde algoritmes om de resultaten te rangschikken, proberen te bepalen wat het meest relevant zijn. DKG slechts gedeeltelijk doet dit.

U kunt filteren Uber medewerkers van de leeftijd, bijvoorbeeld, maar wat is de definitieve bron voor? Als bron X zegt dat een persoon is geboren in 1974, en de bron Y zegt ze werden geboren in 1947, die moet je vertrouwen? Hoe weet je dat ze het over dezelfde persoon om te beginnen met?

Deze zijn bekend, moeilijk aan te pakken problemen, en Diffbot heeft om ze aan te pakken zoals iedereen die is gekomen voor hen. Zelfs als het is, echter, DKG is een indrukwekkende prestatie met veel potentiële toepassingen.

Vorige en aanverwante dekking:

AI chips voor big data en machine learning: Gpu ‘s, fpga’ s, en harde keuzes in de cloud en on-premise

Hoe kan Gpu ‘s en fpga’ s helpen met data-intensieve taken, zoals operaties, google analytics en machine learning, en wat zijn de opties?

Data-gedreven rampenbestrijding: het Meten van de impact van de rampenbestrijding

Met natuurrampen afhalen in frequentie en intensiteit, de rol van Ngo ‘ s in de rampenbestrijding is het oppakken van zo goed. Een belangrijke vereiste voor alle Ngo ‘ s is transparantie, en het toepassen van data-gedreven technieken kunnen helpen.

Wolfram Research gaat voor Software 2.0, releases neurale net archief

Wolfram, die is in AI voordat het koud was, krijgt nu een stuk van de diepe leren hype, in de sui generis manier. Waar staat het ten opzichte van de concurrentie, en hoe gemakkelijk is het te gebruiken en te integreren Wolfram met de rest van de wereld?

Verwante Onderwerpen:

Innovatie

Big Data Analytics

CXO

Kunstmatige Intelligentie

Enterprise Software

Opslag

0