Är Googles Snorkla DryBell framtiden för företagets data management?

0
199

Det har alltid varit en rik marknaden för mjukvaruverktyg för att städa upp företagets data och integrera den för att göra den mer användbar. Med mantrat att “data är den nya oljan,” det är mer än någonsin en mycket bra säljargument att göras av leverantörer för stora och små, från Oracle till Talend.

Men vad händer om ingenting behövs städas upp, per se? Vad händer om man i stället, de mest värdefulla delarna av data kan överföras, i en mening, i machine learning modeller, utan att ändra uppgifterna själv?

Att begreppet är underförstått av en ny teknik introduceras torsdagen av Googles AI-team, tillsammans med Brown University och Stanford University.

Koden, som går under den något klumpiga namnet “Snorkel DryBell,” bygger på toppen av den befintliga Snorkla programvara, ett open-source projicerade utvecklat på Stanford. Snorklar gör det möjligt att automatiskt tilldela etiketter till data, som är en typ av taxonomi för vad som finns i data, från innehåll förråd till real-time signaler som kommer in i datacentret.

Också: Googles distribuerad databehandling för dummies tåg ResNet-50 i en halvtimme

snorkel-drybell-schematic.png

Verket påpekar att det är en massa uppgifter som inte kan användas utanför brandväggen, men som ändå kan tas tillvara för att träna djupt lärande. Detta är känt som “icke-serveable” data”, som månatliga aggregerade statistik” eller “dyra interna modeller”, enligt Google. Alla som borde kunna tas tillvara för att göra maskinen lära sig bättre, menar de.

Den fråga som, underförstått, är om någon data måste rensas upp. Det kan i stället göras till en del av ledningen för att bygga maskinen lärande utan modifiering. Allt som behövs är att industrialisera att grundläggande Snorkla funktion, så att det kan hantera flera olika datakällor, och på en större skala som passar företaget inställningar.

Ett blogginlägg av Alex Ratner, Doktorand vid institutionen för datavetenskap vid Stanford University, och Cassandra Xia med Google AI, förklarar arbetet. Det finns även en medföljande papper, “Snorkel DryBell: En fallstudie i Utbyggnaden Svag Tillsyn i Industriell Skala” som Stephen Bach är den ledande författare, inlagd på arXiv pre-print-server.

Snorkel att metoden är lätt att förstå. I traditionella övervakad träning i machine learning, data matas till en maskin lärande system har för att vara märkt av ämnesexperter. Den mänskliga utformad etiketter är hur maskinen lär sig att klassificera data. Det är tidskrävande för de mänskliga.

Också: MIT låter AI “syntetisera” computer program till stöd för data forskare

Snorkla istället låter ett team av ämnesexperter skriva funktioner som tilldelar etiketter för data automatiskt. En generativ neurala nätverk och sedan jämför vilka etiketter flera funktioner genererar för samma uppgifter, en typ av rösträkning som resulterar i sannolikheter som tilldelats till vilka etiketter kan vara sant. Att data och dess probabilistisk etiketter används sedan för att utbilda en logistisk regression modell, istället för att med hjälp av hand-märkta uppgifterna. Metoden är känd som “svag tillsyn” i kontrast till de traditionella övervakade maskinen lärande.

Google-Stanford-Brun laget göra justeringar för att Snorkla för att bearbeta data i större skala. Med andra ord, Snorkla DryBell är industrialiseringen av Snorkla.

För en, de ändrade optimering funktion som används i den generativa neurala nätverk av DryBell från den som används i Snorkla. Resultatet är en kurs i design och etiketter som är dubbla hastigheten av vad Snorkla konventionellt levererar, skriver de.

Medan Snorkling är tänkt att köras på en enda data-nod, laget integrerad DryBell med MapReduce distributed file system. Som gör att DryBell att köras på flera datorer i ett “löst kopplade” mode.

Också: IBM Kan möjligen tämja AI för företag?

Med industrialisering, laget kan leverera mycket mer svagt märkt data till den djupa, lärande system, och resultaten, de skriver, visade en svag tillsyn slå konventionella övervakad inlärning med hjälp av handgjorda etiketter upp till en punkt.

Till exempel, i en test uppgift, “klassificering”, där datorn för att “upptäcka ett ämne av intresse” i enterprise content, de “svagare övervakade” av logistisk regression modell på “684,000 omärkta datapunkter.”

“Hittar vi” skriver de, “att det tar ungefär 80 000 för hand-märkt exempel för att matcha automatisk noggrannhet svagt övervakas klassificerare.”

Av avgörande betydelse i allt detta är icke-serveable data, stökig, bullrig saker som ändå är av stort värde inom en organisation. När de gjorde en “ablation” studie, där de tagit bort bitar av data utbildning som är icke-serveable, resultaten var inte lika bra.

Resultatet är en typ av “överföring lärande,” en gemensam maskin lärande där maskinen är utbildad på en massa uppgifter och sedan kunna generalisera sitt diskriminering till liknande uppgifter.

“Denna strategi kan ses som en ny typ av överföring lärande, där i stället för att överföra en modell mellan olika datamängder, vi överför domän kunskap mellan olika uppsättningar med funktioner,” skriver de.

Detta är ett sätt att få data som är instängd i företaget för att ha nyfunna verktyg, och är “ett av de stora praktiska fördelar med en svag tillsyn strategi som genomförs i Snorkla DryBell.”

Måste läsa

‘AI är mycket, mycket dumt”, säger Googles AI ledare (CNET)Hur man får alla Google Assistant nya röster just nu (CNET)Enhetlig Google AI division en tydlig signal om att AI: s framtid (TechRepublic)Topp 5: Saker att veta om AI (TechRepublic)

Tänk, då den nya datahantering uppgift: skriv ner några märkning funktioner i C++, baserat på en bästa gissning av domänen experter, och använda den här utgången för att träna ett neuralt nätverk, och gå vidare. Inga fler spenderar eoner städa upp eller regularizing data.

“Vi finner att de märkning funktion abstraktion är användarvänligt, i den meningen att utvecklare i organisationen kan skriva nya märkningen funktioner för att fånga domän kunskap”, skriver de. z

Dessutom, en generativ modell som stämmer upp etiketterna blir en typ av döma av kvaliteten på företagets data, i processen, något som de beskriver som “kritisk”.

“Att bestämma kvaliteten eller nyttan av varje källa, och att trimma deras kombinationer därför skulle ha varit en betungande engineering task,” de observerar.

“Med hjälp av en Snorkel DryBell, dessa svaga tillsyn signaler kunde helt enkelt kan integreras som en märkning funktioner, och den resulterande beräknade noggrannhet befanns vara självständigt användbara för att identifiera tidigare okända låg kvalitet källor (som senare bekräftats som sådana, och antingen fast eller tas bort).”

Det enda jag saknade från det pågående arbetet finns bevis för att den kan arbeta med djupt lärande neurala nätverk modeller. Svagt att övervaka en enkel logistisk regression modell är en sak. Utbildning mycket djup convolutional eller återkommande nätverk skulle vara en intressant nästa utmaning för ett sådant system.

Tidigare och relaterade täckning:

Vad är AI? Allt du behöver veta

En verkställande guide till artificiell intelligens, från maskininlärning och allmänna AI att neurala nätverk.

Vad är djupt lärande? Allt du behöver veta

Lowdown på djupt lärande: från hur det förhåller sig till de bredare fält av maskinen lärande genom hur man kommer igång med det.

Vad är lärande? Allt du behöver veta

Denna guide förklarar vad lärande är, hur den är relaterad till artificiell intelligens, hur det fungerar och varför det är viktigt.

Vad är cloud computing? Allt du behöver veta om

En introduktion till cloud computing rätt från grunderna upp till IaaS och PaaS, hybrid, offentliga och privata moln.

Relaterade artiklar:

Googles AI surfar “gamescape” att erövra spelteori
Detta är vad AI ser ut (som skissat av AI)
Googles DeepMind lag med ledande 3D-spel dev plattform
DeepMind AI fläckar tidiga tecken på ögonsjukdom

Relaterade Ämnen:

Big Data Analytics

Digital Omvandling

CXO

Sakernas Internet

Innovation

Affärssystem