Is Google ‘ s Snorkelen DryBell de toekomst van enterprise data management?

0
159

Er is altijd al een rijke markt voor software-tools die opschonen van de gegevens van de onderneming en integreren om te maken het meer bruikbaar. Met de mantra: “data is de nieuwe olie”, er is meer dan ooit een zeer goede sales pitch te worden gemaakt door leveranciers, groot en klein, van Oracle naar Talend.

Maar wat als niets nodig opgeschoond te worden, per se? Wat als in plaats daarvan de meest waardevolle delen van de gegevens kunnen worden overgedragen, in een gevoel, in machine learning modellen, zonder dat de data zelf?

Dat begrip wordt geïmpliceerd door een nieuwe technologie geïntroduceerd donderdag door Google AI team, in combinatie met de Brown University en Stanford University.

De code, die gaat door de ietwat lompe naam “Snorkel DryBell,” bouwt voort op de bestaande Snorkelen software, een open-source geprojecteerd ontwikkeld aan de universiteit van Stanford. Snorkelen kun je automatisch toekennen van labels aan gegevens, een soort taxonomie van wat er in de data van de content repositories real-time signalen in het data center.

Ook: Google ‘ s distributed computing voor dummies treinen ResNet-50 in minder dan een half uur

snorkel-drybell-schematic.png

Het werk wijst erop dat er is dat veel gegevens die niet kunnen worden gebruikt buiten de firewall, maar dat kan toch worden gebruikt om te trainen diep leren. Dit is bekend als “niet-serveable” gegevens”, zoals de maandelijkse geaggregeerde statistieken” of “duur van interne modellen,” aldus Google. Dat alles moet in staat zijn om te worden gebruikt voor het maken van machine learning beter, betogen ze.

De vraag, impliciet of alle gegevens moet worden opgeruimd. In plaats daarvan kunt u gewoon deel uitmaken van de leiding van de bouw van machine learning, zonder aanpassing. Alles wat nodig is om te industrialiseren dat basic Snorkel-functie, zodat het kan meer van verschillende data-bronnen, en op een grotere schaal die past bij enterprise-instellingen.

Een blog post door Alex Ratner, een Promovendus in de vakgroep computerwetenschappen aan de Universiteit van Stanford, en Cassandra Xia, met Google AI, legt het werk. Er is ook een bijbehorende papieren, “Snorkel DryBell: Een Case Studie in het Implementeren van Zwak Toezicht op Industriële Schaal” van die Stephen Bach is de voornaamste auteur, geplaatst op het arXiv pre-print server.

De Snorkel aanpak is gemakkelijk genoeg te begrijpen. In de traditionele begeleide training in machine learning, data wordt naar een machine learning systeem heeft gelabeld worden door vakexperts. De mens gemaakte labels zijn hoe de machine leert classificeren van de gegevens. Dat is tijdrovend is voor de mens.

Ook: MIT kunt AI “synthetiseren” computer programma ‘ s om de steun van wetenschappers gegevens

Snorkelen in plaats laat een team van experts schrijven dat het toewijzen van labels om de gegevens automatisch. Een generatieve neurale netwerk vergelijkt vervolgens welke labels meerdere functies genereren voor dezelfde data, een soort van stemming natellen dat resulteert in kansen wordt toegewezen als aan die labels kunnen worden voldaan. Die gegevens en de probabilistische labels worden vervolgens gebruikt om de trein is een logistische regressie model, in plaats van met behulp van hand-label gegevens. De aanpak staat bekend als “zwak toezicht” in tegenstelling tot traditionele bewaakte machine learning.

De Google-Stanford-Bruin-team aanpassingen maken om te Snorkelen voor de verwerking van de gegevens op grotere schaal. In andere woorden, Snorkelen DryBell is de industrialisatie van de Snorkel.

Voor een, zij veranderden de optimalisatie functie die gebruikt wordt in de generatieve neurale netwerk van DryBell van die gebruikt in Snorkelen. Het resultaat is een tarief van computing labels dat is het dubbele van de snelheid van wat Snorkelen conventioneel levert, schrijven ze.

Tijdens het Snorkelen is bedoeld om te worden uitgevoerd op een enkele computing knooppunt, het team geïntegreerd DryBell met de MapReduce distributed file system. Dat kan DryBell te worden uitgevoerd over een groot aantal computers in een “los gekoppeld” mode.

Ook: Kan IBM eventueel tamme AI voor ondernemingen?

Met de industrialisatie, het team is in staat om veel meer zwak label gegevens naar de deep learning system, en de resultaten, schrijven ze, bleek de zwakke toezicht beat conventionele begeleid leren met behulp van met de hand vervaardigde labels — tot een punt.

Bijvoorbeeld, in een test taak, “onderwerp classificatie,” waar de computer detecteren een onderwerp van belang” in enterprise content, ze “zwak toezicht” de logistische regressie model op “684,000 de niet-gelabelde data punten.”

“We vinden,” schrijven ze, “dat duurt ongeveer 80,000 hand-gelabeld voorbeelden overeenkomen met de voorspellende nauwkeurigheid van de zwak toezicht classifier.”

Cruciaal bij dit alles is de niet-serveable gegevens, de rommelige, drukke dingen die toch van grote waarde is binnen een organisatie. Toen deden ze een “ablatie” – studie, waar ze verwijderd van de stukken van de training data, die niet-serveable, de resultaten waren niet zo goed.

Het resultaat is een soort van “transfer van leren”, een gemeenschappelijke ‘machine learning’ – benadering, waarbij de machine wordt getraind op een bos van gegevens en is vervolgens in staat om te generaliseren zijn van discriminatie naar vergelijkbare data.

“Deze aanpak kan worden gezien als een nieuw type van overdracht van leren, waarbij in plaats van het overbrengen van een model tussen de verschillende datasets, we overbrengt domein van kennis tussen de verschillende functie stelt,” schrijven ze.

Dit is een manier om gegevens die zit gevangen in de onderneming om nieuwe programma, en is “een van de grote praktische voordelen van een zwak toezicht aanpak zoals geïmplementeerd in de Snorkel DryBell.”

Moet lezen

‘AI is heel, heel stom,’ zegt Google AI leider (CNET)Hoe krijg je al die Google Assistent van de nieuwe stemmen nu (CNET)Unified Google AI afdeling een duidelijk signaal van AI ‘ s toekomst (TechRepublic)Top 5: Dingen om te weten over AI (TechRepublic)

Stel je dan de nieuwe enterprise data management-taak: het schrijven labelen van functies in C++, gebaseerd op een schatting door deskundigen, en gebruik de output trainen van een neuraal netwerk, en verder te gaan. Niet meer besteden eons schoonmaken of regularizing gegevens.

“We vinden dat de etikettering functie abstractie is gebruiksvriendelijk in de zin dat de ontwikkelaars in de organisatie kan het schrijven van nieuwe etikettering functies voor het vastleggen van domein kennis,” schrijven ze. z

Bovendien, de generatieve model dat strookt de labels wordt het een soort van scheidsrechter van de kwaliteit van de gegevens van de onderneming, in het proces, iets wat ze omschrijven als ‘essentieel’.

“Het bepalen van de kwaliteit of het nut van elke bron, en het afstemmen van hun combinaties dienovereenkomstig zou moeten zijn van een verlieslatende engineering task,” die zij waarnemen.

“Het gebruik van Snorkel DryBell, deze zwakke toezicht signalen kunnen eenvoudig worden geïntegreerd, zoals het labelen van functies, en de daaruit voortvloeiende geschatte nauwkeurigheid bleken onafhankelijk van elkaar zijn nuttig voor het identificeren van onbekende lage kwaliteit van de bronnen (die vervolgens werden later bevestigd als vaste of verwijderd).”

Het enige wat ontbreekt in het huidige werk is het bewijs dat het kan werken met diep leren neurale netwerk modellen. Zwak toezicht houden op een eenvoudige logistische regressie model is één ding. Training zeer diepe convolutional of recurrente netwerken zou een interessante nieuwe uitdaging voor een dergelijk systeem.

Vorige en aanverwante dekking:

Wat is AI? Alles wat je moet weten

Een executive gids voor kunstmatige intelligentie, van machine learning en algemene AI-neurale netwerken.

Wat is diep leren? Alles wat je moet weten

De lowdown op diep leren: van hoe het zich verhoudt tot het bredere veld van machine-leren door te zien hoe aan de slag met het.

Wat is machine learning? Alles wat je moet weten

In deze gids wordt uitgelegd wat ‘machine learning’ is, hoe het is in verband met kunstmatige intelligentie, hoe het werkt en waarom het belangrijk is.

Wat is cloud computing? Alles wat u moet weten over

Een introductie van cloud computing recht vanaf de basis tot IaaS en PaaS -, hybride -, public en private cloud.

Verwante artikelen:

Google AI surft op het “gamescape” te veroveren spel theorie
Dit is wat AI eruit ziet (zoals geschetst door AI)
Google DeepMind teams met toonaangevende 3D-game dev platform
DeepMind AI plekken vroege tekenen van de ziekte van het oog

Verwante Onderwerpen:

Big Data Analytics

Digitale Transformatie

CXO

Het Internet van Dingen

Innovatie

Enterprise Software