DANSK

Internettet som en database: Den største viden graf nogensinde

145

Nul

Den web er blandt menneskehedens største resultater og ressourcer. Der bliver stadigt større og næsten altomfattende, har vi alle kommer til at afhænge af det. Der er bare ét problem: Det kræver arbejde at få oplysninger ud af det.

Det er fordi, at de oplysninger i dokumenter, og dokumenter på nettet er over det hele, og nogen har brug for at finde dem, og læs dem, at hente disse oplysninger. Søgemaskiner er kommet en lang vej, og de er til stor hjælp i lokalisering en del, men ikke så meget i at udvinde en del. I hvert fald ikke indtil i dag.

Også: Zen og kunsten af data strukturer: Fra selvjusterende til selv at designe data systemer

Google og dets ligesindede kan nogle gange give indtryk af, at de kan forstå og besvare spørgsmål. En del af årsagen er tilføjelsen af den menneskelige viden i mix. Google berømte gik fra at bruge rent tekst-baseret og statistiske metoder til at tilføje en form for datasikring, når det købte MetaWeb. MetaWeb udviklet Freebase, som var en crowd-sourced “knowledge graph, samme tilgang til Wikipedia, som var integreret i Google’ s søgemaskine.

Spise dit hjerte ud, Google

Der gør det muligt for Google at gøre nogle af sine magic. Hvis du Google “Google”, for eksempel, at du ikke bare få en masse links. Du får også en info-boks, der viser fakta, sådan som Googles CEO, stiftere, og adresse. Det er fordi der er en post i Google ‘ s viden graf, der viser Google som virksomhed, og disse er nogle af de egenskaber, virksomheder har, så Google henter og viser, at information fra Wikipedia.

Men hvis du kan prøve at Google “hvor mange ansatte har Google” eller “hvad er Google ‘s adresse”, hvad vil du få en masse links. Du er på din egen-du er nødt til at læse dokumenter og finde ud af svaret. Hvis der var oplysninger i en database, du ville skrive noget i retning af “VÆLG Adresse FRA Organisationer, HVOR Navn=Google”, og du ville have dit svar på få sekunder. Der er forskel mellem strukturerede og ustrukturerede oplysninger.

Også: MemSQL 6.5: NewSQL med autonome arbejdsbyrde optimering, bedre data indtagelse og forespørgsel udførelse hastighed

Det er også, hvad Diffbot er afsløringen i dag: evnen til at søge på internettet som en database. Denne imponerende bedrift, er også baseret på en viden graf. Forskellen er, at i Diffbot ‘ s tilfælde, knowledge graph er kun delvist er skabt af mennesker, og er automatisk udfyldes ved gennemgang nettet. ZDNet har talt med Mike Tung, Diffbot ‘ s CEO og Grundlægger, for at finde ud af, hvordan Diffbot gør dette.

Første off, er du nødt til at gennemsøge internettet. Dette er, hvor Gigablast og Matt Wells kommer i. Gigablast er en søgemaskine, skabt af Matt Wells, Diffbot ‘ s VP for Søgning, i 2000. Tung siger, at dette er, hvad Diffbot bruger til at kravle, og gemme hvert enkelt dokument på nettet. Hårdt, da dette kan være, men det er ikke engang det halve arbejde.

Den virkelig hårde del er at få de oplysninger ud af dokumenterne, og det er her, det magiske. Tung forklarer dette gøres ved hjælp af computer vision, machine learning (ML), og natural language processing (NLP).

Computer vision hjælper Diffbot med at forstå strukturen af dokumenter. Det efterligner den måde, mennesker nedbryde dokumenter, finde ud af, hvad er de strukturelle elementer af hvert enkelt dokument-ting, såsom overskrifter, blokke osv. I en perfekt verden, bør dette være muligt, ved at inspicere HTML struktur af web-dokumenter. Men ikke alt på nettet er HTML og HTML-dokumenter er heller ikke perfekt.

Også: MemSQL 6.5: NewSQL med autonome arbejdsbyrde optimering, bedre data indtagelse og forespørgsel udførelse hastighed

Efter struktur kommer indhold. Indholdet er analyseret ved hjælp af en kombination af NLP og ML, som er struktureret viden, der er føjet til Diffbot viden graf (DKG). Tung fremvist et eksempel baseret på Marissa Mayer, tidligere administrerende DIREKTØR for Yahoo.

Tage en kort tekst om Mayer som input, Diffbot ‘s system behandles det og var i stand til at udtrække alle typer af forhold, der er beskrevet i teksten: Mayer’ s køn, beskæftigelse, historie, uddannelse, osv. Ved at gøre dette, Diffbot tilføjer en post til Mayer i sin viden graf, og udfylder det med egenskaber som køn, alder og lignende.

“I modsætning til den populære opfattelse, Google’ s knowledge graph er ikke stammer primært fra automatisering,” siger Tung. “I modsætning til Google, målet for vores behandling er ikke til at rangere sider for mennesker at læse (og injicere nogle reklamer langs vejen), men snarere for at undgå menneskelige læsning helt.

DKG er det første web-skala viden graf, der er helt syntetiseret af en automatiseret AI-system, uden at et menneske-in-the-loop. Derfor er den største hindring for vækst er antallet af maskiner, som vi dedikerer til det at erhverve viden,” tilføjer han, at konkludere, at DKG indeholder for øjeblikket noget i det område af en milliard fakta.

Fra et spind af dokumenter til en web af data

Dette er ikke helt ny. Den første som fremlagde visionen om at gå fra en web-dokumenter, at en web af data, der var ingen andre end web ‘ s opfinder, Tim Berners Lee, der udgav hans Semantiske Web manifest i 2001.

Som Tung bemærker dog, at “en lang række af historie (der spænder fra RDF/mikroformater/RSS/semantisk markup) har vist, at det kræver menneskelige annotation vil aldrig skala i form af økonomiske incitamenter og nøjagtighed til alle viden.”

Selv om kommentering behøver ikke nødvendigvis at være menneske (det kan komme fra automation), Tung har en pointe: det Meste indhold på nettet er meget dårligt, hvis overhovedet, kommenteret. Tung mener, at opbygningen af denne globale viden graf ved hjælp af den aktuelle tilstand af AI, er den rigtige fremgangsmåde — og det ser ud til at virke.

Også: det går hurtigt uden at bryde data: Styring til styring af risici i machine learning og uden

De programmer er bred og vidtrækkende. Tung bemærker, at “enterprise funktioner, såsom salg, rekruttering, supply chain, regnskabs -, business intelligence-og market intelligence alle arbejde ud af databaser, der kan blive holdt opdateret og præcise ved at integrere direkte med den viden graf”.

Tung påvist et sådant scenario, hjælp DKG til at søge efter mennesker, der arbejder for Uber. I første omgang forespørgslen returneres næsten 40.000 resultater, hvor Tung var i stand til at filtrere ved hjælp af standard-filtrering, som man ville forvente fra en database: Få kun nuværende medarbejdere, filter af regionen, osv.

Og at en henvisning til integration med databaser har vidtrækkende implikationer. Ovenstående scenarie kun var baseret på oplysninger, der findes på nettet. Men virksomheder ikke bare arbejde med det, de finder på nettet-de har også deres egne interne systemer og databaser, og Tung siger DKG kan støtte dem så godt, og tilbyder et adgangspunkt til at styre dem alle.

Også: GraphQL for databaser: Et lag for universal database adgang?

DKG kan godt tælle som Diffbot største præstation til dato, men det er ikke kommet ud af ingenting. Tung har stærke legitimationsoplysninger til at prale af, at have designet web-skala oplysninger udvinding arkitekturer og arbejdet for Microsoft, eBay og Yahoo. Diffbot har eksisteret siden 2008, har det navne som eBay, Microsoft Bing, og Salesforce blandt sine kunder, og Tencent og Bloomberg blandt sine investorer.

Imponerende som alt dette kan lyde, er der dog et par fælder.

Sprog, søn

Til at begynde med, ikke alle af DKG er auto-magisk skabt. Det er ikke nødvendigvis en dårlig ting, men det går til at vise grænserne for, hvad “den nuværende stat af AI” kan gøre. DKG er seedede af Diffbot viden ingeniører, der har besluttet, at de enheder, det vil håndtag er personer, virksomheder, steder, artikler, produkter, diskussioner og billeder.

Det betyder, at alt Diffbot kravler fra internettet vil blive klassificeret som en af disse ting. Det er klart, at denne beslutning var drevet af, hvad Diffbot ‘ s kunder er for det meste interesseret i, men det betyder ikke, at hver side på nettet, der er klassificeret som en af de 20 typer DKG-for øjeblikket kender. Tung siger, at de planlægger at udvide denne til også at omfatte kategorier såsom begivenheder eller medicinske oplysninger.

Med andre ord, Diffbot har bevidst valgt at begrænse omfanget af, hvad det håndtag, for at gøre et velkendt problem at håndtere. Til alle, der kender viden grafer (også går ved navn ontologier for connaisseurs), hvad Diffbot gør, er at definere en øvre ontologi, og befolker det fra internettet. Begrebet og udfordringer er velkendte, men den måde, Diffbot håndterer dette er state of the art.

Også: AWS Neptun vil GA: den gode, Den onde og den grusomme til graf-database-brugere og leverandører

Hvilket bringer os til et andet centralt emne: Spørgsmål at besvare. Hvis du har hele internettet lige ved hånden, hvor du kommer til at søge det? Det afhænger af. Hvis du er en virksomhed person,, ideelt set, du ønsker at bruge naturligt sprog. På nuværende tidspunkt, DKG ikke understøtter dette. Det har dog sin egen Diffbot Query Language (DQL).

DQL ser temmelig enkel, hvis du er fortrolig med query sprog. Men så igen, hvis du er fortrolig med query sprog, hvorfor ville du ønsker at have til at lære endnu én? Der er allerede flok af grafen query sprog derude, såsom SPARQL, Gremlin, og OpenCypher, og med den stigende graf databaser, vi forventer dem til at blive mere og mere udbredt.

Dette berører et andet problem: Selv om Diffbot tilgang deler mange ligheder med semantisk web koncepter og standarder (Tung endda specifikt nævnt RDF-som subjekt-prædikat-objekt tripler i hans opdeling af tekstbehandling), er dens tilgang er proprietære.

Uanset om du ved, eller som de standarder, ville det ikke have gjort Diffbot livet er blevet lettere at bruge dem? For eksempel, ved at bygge DKG på toppen af en off-the-shelf graf-database. Tung anerkender det ville, men han siger, at de testede over et dusin graf databaser, og de brød ned på omkring 10-100M enheder, så de var nødt til at opbygge noget, som er proprietære.

For sproglige spørgsmål, Tung siger, at deres tilgang er at møde brugerne, hvor de er, hvilket eliminerer behovet for direkte ved hjælp af en query language (eller en API, som DKG understøtter også) så meget som muligt. Den måde at gøre dette på, siger Tung, er ved at integrere DKG med populære systemer som Salesforce, SAP, eller Tableau, så brugerne kan gennemsigtig få data fra DKG i deres applikationer.

Der kan være godt for brugerne, men det stiller også noget af en byrde af Diffbot til at udvikle og vedligeholde alle disse integrationer. Tung siger, at de har til hensigt at udvikle broer til populære query sprog, men så integrationer vil ikke nødt til at blive hånd-udformet.

Også: Planet analytics 1.0: Fra FN ‘ s laboratorium for at kloden

Sidst, men ikke mindst, betyder at være i stand til at søge nettet også betyde, at du automatisk skal stole på resultaterne? Ikke nødvendigvis. Dette er grunden til, at Google og dets ligesindede har udviklet avancerede algoritmer til at rangere resultater, der forsøger at bestemme den mest relevante. DKG kun delvist gør dette.

Du kan filtrere Uber medarbejdere efter alder, for eksempel, men hvad er den afgørende kilde til det? Hvis source-X siger, at en person, der var født i 1974, og kilde Y siger, at de var født i 1947, og som man bør, du har tillid til? Hvordan kan du vide, de taler om den samme person til at begynde med?

Disse er kendte, er svære at tackle problemer, og Diffbot til at tackle dem som alle andre, der er kommet før dem. Selv som det er, men DKG er en imponerende præstation med mange anvendelsesmuligheder.

Tidligere og relaterede dækning:

AI chips for big data og machine learning: Gpu ‘ er, Fpga, og hårde valg i skyen og on-premise

Hvordan kan Gpu ‘er og Fpga’ er hjælpe med data-intensive opgaver som operationer, analytics, og machine learning, og hvad er mulighederne?

Data-drevet disaster relief: at Måle effekten af beredskab

Med naturkatastrofer, picking up i frekvens og intensitet, den rolle Ngo ‘ er i katastrofehjælp er picking up så godt. En vigtig forudsætning for, at alle Ngo ‘ er, der er gennemsigtighed, og at anvende data-drevet teknikker, der kan hjælpe.

Wolfram Research går til Software 2.0, udgivelser neurale net repository

Wolfram, der har været i AI, før det var cool, nu får et stykke af den dybe læring hype, i sin sui generis måde. Hvor gør det stå i forhold til den konkurrence, og hvor let er det at bruge og integrere Wolfram med resten af verden?

Relaterede Emner:

Innovation

Big Data Analytics

CXO

Kunstig Intelligens

Virksomhedens Software

Opbevaring