Kinas AI-forskare undervisar ett neuralt nät för att utbilda sig

0
136

Mer och mer, AI är att försöka få maskiner att lära sig med ett minimum av mänsklig vägledning. Så kallade ” self-tillsynen är ett element som kan läggas till massor av maskininlärning uppgifter så att en dator lär sig med mindre mänsklig hjälp, kanske en dag med ingen alls.

Forskare vid Kinas Sun Yat-Sen University och Hong Kong Polytechnic University använda self-tillsyn i en ny bit av forskning för att hjälpa en dator lär det innebära en mänsklig figur i ett videoklipp.

Att förstå vad en person gör i en bild är sin egen rika ven av maskininlärning forskning, användbart för en hel rad saker, bland annat videoövervakning. Men sådana metoder förlita sig på “kommenterad” datamängder där etiketter noggrant tillämpas för inriktningen av lederna i kroppen.

Även: Titta på YouTube-videor en dag kanske låta robotar kopiera människor

Det är ett problem eftersom större och större “djup” neurala nätverk är hungrig efter mer och mer data, men det räcker inte alltid märkt data att mata nätverk.

Så, Sun Yat-Sen, som forskare ställa ut för att visa ett neuralt nätverk kan förbättra sin förståelse genom att kontinuerligt jämföra gissningar av flera nätverk med varandra, och i slutändan minska behovet för “ground truth” som ges av en märkt uppsättning data.

china-ai-scientists-refine-pose-predictions-2019.png

Kinas AI-forskare visar hur deras lärande modell förfinat sin “prognos” av 3D-pose av en skådespelare från en bild genom att lägga till lite själv-handledning-kod till den sista delen av det neurala nätverket.

(Bild: Wang et. al. 2019)

Som författarna uttrycker det, tidigare insatser för att anföra en människa posera som har nått framgång, men på bekostnad av en “tidskrävande nätverk arkitektur (t ex ResNet-50) och begränsad skalbarhet för alla scenarier på grund av den otillräckliga 3D utgöra data.”

Författarna visar framgång i att slå andra AI-metoder för att förutsäga pose av en figur över ett antal benchmark-tester. De visar också att de även slå sina egna resultat från 2017 med tillägg av detta nya self-tillsyn strategi.

Också: MIT ups ante på att få en AI att lära en annan

Papper, 3D Human Utgör Maskiner med Self-övervakad Inlärning, är inlagd på arXiv pre-print server och är författad av Keze Wang, Liang Lin, Chenhan Jiang, Chen Qian, och Pengxu Wei. Framför allt, Qian är med SenseTime, den Kinesiska AI start som säljer programvara för olika applikationer såsom ansiktsigenkänning, och som säljer en maskin för att lära programmering ramverk som kallas “Papegojor”.

I sin ursprungliga papper från 2017, författarna använt en kommenterad uppgifter, “MPII Mänskliga” – Pose data som sammanställts i 2014 Mykhaylo Andriluka och kollegor vid tyska Max Planck-Institutet för Informatik. De används som heter data set för att ta ut två-dimensionell mänskliga kroppsdelar från stillbilder — i grund och botten, stick-figur ritningar av armar och ben orienterad i rymden. De omvandlas sedan de 2D-kroppen-del representationer i 3D representationer som visar läggning av armar och ben i tre-dimensionell rymd.

I den nya tidningen, författare göra detsamma “pre-utbildning via MPII uppsättning data, för att extrahera 2D poser på bilderna. Och precis som i 2017, de använder en annan uppsättning data, “Human3.6M,” utdrag marken sanningen för 3D, liksom. Human3.6M har 3,6 miljoner bilder som är tagna i en laboratoriemiljö av betalda skådespelare utföra en mängd olika uppgifter, från att köra för att gå till rökning med att äta.

Också: Google föreslår att alla program kan använda en liten robot AI

Vad som är nytt denna gång är att i den sista delen av deras neurala nät, de kasta bort 2D-och 3D-kommentarer. De i stället jämför prognos sin 3D-modell gör om vad 2D-versionen ska vara till 2D-bilder som producerats i det första steget. “Efter initiering, ersätter vi de förväntade 2D poser och 3D innebär för 2D-och 3D mark-sanningen för att optimera” modellen “i en egen övervakas mode.”

De “projekt 3D-koordinat(s)” 3D “- pose i bildplanet för att få den projicerade 2D-pose” och sedan “minimera olikhet mellan denna nya 2D-pose och den första de hade härstammar som en optimering mål.”

I en mening, det neurala nätverket fortsätter att be om sin 3D-modell av kroppen är att förutsäga exakt i tre dimensioner vad det trodde i början av processen i två dimensioner, lära sig mer om hur 3D-och 2D motsvarar.

Det finns en hel del nu-standard maskin att lära sig saker här: En convolutional neurala nätverk, eller CNN, tillåter systemet att extrahera 2D-stick figur. Som metod är lånade från ett tidigare arbete av Carnegie-Mellon forskare 2014 och följa upp de gjorde i och med 2016.

china-3d-pose-machine-2019.png

Ett diagram över hela neurala nätverk set-up för 3D-Pose Maskiner, bland annat en convolutional neurala nätverk för att extrahera 2D figur förståelse, följt av lång och kort sikt minne nätverk för att extrahera temporal information nyckeln till 3D förståelse, följt av en sista self-övervakad jämförelse mellan prognoser för att förbättra resultaten.

(Bild: Wang et. al. 2019)

Sedan, en lång-och kortsiktiga minne, eller LSTM, ett neuralt nätverk som är specialiserade för att behålla ett minne av sekvenser av händelser, används för att extrahera kontinuitet i kroppen från flera sekventiella video ramar för att skapa 3D-modellen. Att arbeta är modellerad efter arbete i 2014 av Alex Gravar och kollegor på Googles DeepMind, som hade ursprungligen byggts för taligenkänning.

Vad är nytt här är att införa egen tillsyn för att göra det hela håller ihop utan att marken-sanningen etiketter. Genom att ta det sista steget, var författarna kunna minska behovet av 3D-data och istället luta mig mot 2D-bilder. “Den som har ålagts korrigering mekanism som gör det möjligt för oss att utnyttja externa storskaliga 2D mänskliga utgör data för att öka 3D human utgör uppskattning,” skriver de.

Måste läsa

‘AI är mycket, mycket dumt”, säger Googles AI ledare CNETBaidu skapar Kunlun kisel för AIEnhetlig Google AI division en tydlig signal om att AI: s framtida TechRepublic

Författarna inte bara levererade bättre resultat på Human3.6M databas, de såg en dramatisk hastighet-upp mot den etablerade metoder. Kör på en enda Nvidia “GTX1080” GPU, det tog sin neurala nät 51 millisekunder för att bearbeta en bild kontra så mycket som 880 millisekunder för andra metoder. De såg också en dramatisk speedup jämfört med deras tidigare, 2017 strategi. Resultaten validera vad de kallar en “lätt arkitektur” för deras neurala nätverk.

Forskarna har massor av konkurrens för överskådlig framtid. Andra metoder har tagit en liknande “lätt övervakad” metod för att förutsäga attityder, och även fånga människors rörelse. Till exempel robotteknik laboratorium professor Sergey Levine från UC Berkeley i oktober förra året rapporterade att kunna träna simulerade robotar att imitera mänskliga aktiviteter som kan ses i omärkta YouTube-videor. Kanske den Kinesiska arbete och insatser som levines kommer att nå någon fusion på vägen. I alla fall, värdet av själv-övervakad inlärning är klart viktigaste punkten av AI-forskning.

Tidigare och relaterade täckning:

Vad är AI? Allt du behöver veta

En verkställande guide till artificiell intelligens, från maskininlärning och allmänna AI att neurala nätverk.

Vad är djupt lärande? Allt du behöver veta

Lowdown på djupt lärande: från hur det förhåller sig till de bredare fält av maskinen lärande genom hur man kommer igång med det.

Vad är lärande? Allt du behöver veta

Denna guide förklarar vad lärande är, hur den är relaterad till artificiell intelligens, hur det fungerar och varför det är viktigt.

Vad är cloud computing? Allt du behöver veta om

En introduktion till cloud computing rätt från grunderna upp till IaaS och PaaS, hybrid, offentliga och privata moln.

Relaterade Ämnen:

Kina

Digital Omvandling

CXO

Sakernas Internet

Innovation

Affärssystem