Er Google ‘ s Snorkel DryBell fremtiden for enterprise data management?

0
15

Der har altid været et rigt marked for software-værktøjer til at rydde op i virksomhedens data, og integrerer det til at gøre det mere nyttigt. Med det mantra, at “data er det nye olie,” der er mere end nogensinde en meget god salgstale til at være lavet af leverandører, store og små, fra Oracle til at Talend.

Men hvad hvis der intet behov for at blive renset op, per se? Hvad nu, hvis, i stedet, de mest værdifulde dele af de data, der kan overføres, i en vis forstand, i machine learning-modeller, uden at det ændrer de data, der i sig selv?

Dette begreb er underforstået af en ny teknologi indføres torsdag af Google ‘ s AI team, i samarbejde med Brown University og Stanford University.

Den kode, der går under det lidt klodsede navn “Snorkel DryBell,” bygger oven på den eksisterende Snorkel software, en open-source forventes udviklet på Stanford. Snorkel-lader man automatisk tildele etiketter til data, en slags taksonomi af, hvad der er i de data, fra indhold depoter til real-time signaler, der kommer ind i datacentret.

Også: Googles distribueret computing for dummies tog ResNet-50 på under en halv time

snorkel-drybell-schematic.png

Det arbejde, der påpeger, at der er, at en masse data, som ikke kan bruges uden for firewallen, men der kan ikke desto mindre være gearede til at træne dyb læring. Dette er kendt som “ikke-serveable” data”, ligesom månedlige aggregerede statistikker” eller “dyre interne modeller,” ifølge Google. Alle, der bør være i stand til at være gearede til at gøre machine learning bedre, hævder de.

Det spørgsmål, implicit, er, om eventuelle data, der er brug for at blive renset op i alle. I stedet, det kan simpelthen gøres til en del af pipeline af bygning machine learning uden ændringer. Alle der er brug for er industrialiseringsproces, der grundlæggende Snorkel funktion, så den kan håndtere flere forskellige datakilder, og på en større skala, der passer til virksomhedens indstillinger.

Et blog-indlæg af Alex Ratner, Ph.d. – studerende i datalogi fra Stanford University, og Cassandra Xia, med Google AI, forklarer arbejde. Der er også en medfølgende papir, “Snorkel DryBell: Et Case-Studie i Udbygningen af Svage Tilsyn i Industriel Skala,” som Stephen Bach er den ledende forfatter, udgivet på arXiv pre-print-server.

Den Snorkel tilgang er let nok at forstå. I traditionelle overvåget træning i machine learning, data fed til en machine learning system har til at være mærket af emne-eksperter. Den menneskelige udformet etiketter er, hvordan maskinen lærer at klassificere data. Det er tidskrævende for mennesker.

Også: MIT lader AI “syntetisere” computer programmer til at hjælpe data forskere

Snorkel i stedet lader et team af fagspecialister skrive opgaver at tildele etiketter til data automatisk. En generativ neurale netværk og derefter sammenligner, hvilke etiketter der skal flere funktioner generere til de samme data, en slags stemme optælling, der resulterer i sandsynligheder, der er blevet tildelt til hvilke etiketter, kan være sandt. At data og probabilistisk etiketter er derefter brugt til at træne en logistisk regressionsmodel, i stedet for at bruge hånd-mærket data. Den strategi er kendt som “svage tilsyn” i modsætning til traditionelle overvåget machine learning.

Google-Stanford-Brun team foretage justeringer for at Snorkle med at behandle data i større skala. Med andre ord, Snorkel DryBell er industrialiseringen af Snorkel.

For én, er de ændrede optimering funktion, der anvendes i den generative neurale netværk af DryBell fra den, der anvendes i Snorkel. Resultatet er en sats af it-etiketter, der er dobbelt hastighed af hvad Snorkel konventionelt leverer, skriver de.

Mens Snorkel er beregnet til at køre på et enkelt design node, holdet integreret DryBell med MapReduce distributed file system. Der giver DryBell at køre på tværs af mange computere på et “løst koblet” mode.

Også: Kan IBM eventuelt tamme AI for virksomheder?

Med industrialisering, holdet er i stand til at levere meget mere svagt mærket data til dyb læring system, og de resultater, de skriver, viste de svage tilsyn slå konventionelle overvåget indlæring ved hjælp af hånd-udformet etiketter — op til et punkt.

For eksempel, i en test opgave, “emne klassificering,” hvor computeren skal “opdage et emne af interesse” i virksomhedens indhold, de “svagt overvåget” den logistiske regressionsmodel på “684,000 være uden navn datapunkter.”

“Vi finder,” som de skriver, “at det tager omkring 80,000 hånd-mærket eksempler til at matche den intelligente nøjagtigheden af den svagt under opsyn klassificeringen.”

Afgørende i alt dette er det ikke-serveable data, rodet, larmende ting, der ikke desto mindre er af stor værdi i en organisation. Når de har en “ablation” – undersøgelsen, hvor de fjernede stykker data, som er ikke-serveable, resultaterne var ikke så god.

Resultatet er en slags “overførsel af læring,” en fælles machine learning-tilgangen, hvor maskinen er uddannet på en masse data, og er derefter i stand til at generalisere sine diskrimination lignende data.

“Denne tilgang kan ses som en ny type af overførsel af læring, hvor der i stedet for at overføre en model mellem de forskellige datasæt, vi overføre domæne viden mellem forskellige funktionssæt,” skriver de.

Dette er en måde at få data, der er fanget i, at virksomheden har nyfundne utility, og er “en af de store praktiske fordele ved en svag tilsyn tilgang som en, der gennemføres i Snorkel DryBell.”

Skal læse

“AI er meget, meget dum, “siger Google’ s AI-leder (CNET), Hvordan man får alle Google Assistant ‘s nye stemmer lige nu (CNET)Samlet Google AI division et klart signal om, at AI’ s fremtid (TechRepublic)Top 5: Ting at vide om AI (TechRepublic)

Forestil dem så, at den nye enterprise data management-opgave: skriv nogle mærkning funktioner i C++ og er baseret på et bedste gæt af eksperter i domænet, og bruge outputtet til at træne et neuralt netværk, og komme videre. Slut med at bruge evigheder at rydde op eller regulere data.

“Vi finder, at den mærkning funktion abstraktion er brugervenlig, i den forstand, at udviklere i organisationen kan skrive nye mærkning funktioner til at fange domæne viden,” skriver de. z

Desuden, den generative model, der gør op etiketterne bliver en slags dommer over kvaliteten af virksomhedens data, i processen, noget, de beskriver som “kritisk”.

“At vurdere kvaliteten eller nytte for hver enkelt kilde, og afstemme deres kombinationer i overensstemmelse hermed, ville have været en besværlig engineering opgave,” de observerer.

“Ved hjælp af Snorkel DryBell, at disse svage tilsyn signaler kunne simpelthen alle være integreret som mærkning funktioner, og den deraf følgende anslåede nøjagtighed blev anset for at være uafhængigt nyttige til at identificere hidtil ukendte lav kvalitet kilder (som derefter blev senere bekræftet som sådan, og enten fast eller fjernes).”

Den eneste ting, der mangler i det nuværende arbejde er bevis for, at det kan arbejde med dybe læring neurale netværksmodeller. Svagt tilsyn med en simpel logistisk regression model er én ting. Uddannelse meget dybt convolutional eller tilbagevendende netværk ville være en interessant næste udfordring for sådan et system.

Tidligere og relaterede dækning:

Hvad er AI? Alt, hvad du behøver at vide

En executive guide til kunstig intelligens, fra machine learning og generelt AI til neurale netværk.

Hvad er dyb læring? Alt, hvad du behøver at vide

Den lowdown på en dyb læring: fra hvordan det relaterer til det bredere felt af machine learning igennem til, hvordan du kommer i gang med det.

Hvad er machine learning? Alt, hvad du behøver at vide

Denne vejledning forklarer, hvad machine learning er, hvordan det er relateret til kunstig intelligens, hvordan det fungerer, og hvorfor det er vigtigt.

Hvad er cloud computing? Alt, hvad du behøver at vide om

En introduktion til cloud computing-lige fra det grundlæggende op til IaaS og PaaS, hybrid, offentlige og private cloud.

Relaterede historier:

Google ‘ s AI surfer “gamescape” for at erobre game theory
Dette er, hvad AI ligner (som skitseret ved AI)
Google ‘ s DeepMind hold med førende 3D spil dev platform
DeepMind ‘ s AI pletter tidlige tegn på øjensygdom

Relaterede Emner:

Big Data Analytics

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software