Meer en meer, AI probeert om machines te leren zelf met een minimum van menselijke begeleiding. De zogenaamde self-toezicht is een element dat kan worden toegevoegd aan veel van machine learning taken, zodat een computer leert met minder menselijke hulp, wellicht op een dag met helemaal niets.
Wetenschappers in China Sun Yat-Sen Universiteit en Hong Kong Polytechnic University gebruik van self-toezicht in een nieuw beetje van het onderzoek om te helpen een computer leren is het vormen van een menselijke figuur in een video clip.
Het begrip van wat een persoon doet in een foto is zijn eigen rijke ader van machine learning onderzoek, handig voor een heel aantal dingen met inbegrip van video-surveillance. Maar deze methoden berusten op “aantekeningen” data-sets waar de labels worden zorgvuldig toegepast om de oriëntatie van de gewrichten van het lichaam.
Ook: het Bekijken van YouTube video ‘ s kan op een dag laat robots kopie mensen
Dat is een probleem omdat een grotere en grotere “diep” neurale netwerken zijn honger naar meer en meer data, maar er is niet altijd genoeg label gegevens te voeden met het netwerk.
Dus, de Sun Yat-Sen onderzoekers zien van een neuraal netwerk kan verfijnen van haar begrip door het voortdurend vergelijken van de raden van meerdere netwerken met elkaar, uiteindelijk het verminderen van de noodzaak voor de “ground truth” die wordt geboden door een label gegevens instellen.

China ‘ s AI-wetenschappers laten zien hoe hun machine learning model verfijnd zijn “voorspelling” van de 3D-houding van een actor van een afbeelding door het toevoegen van een aantal zelf-toezicht code om het laatste deel van het neurale netwerk.
(Afbeelding: Wang et. al. 2019)
Als de auteurs, de voorafgaande inspanningen voor het afleiden van een menselijke pose succes hebben behaald, maar ten koste van een “tijdrovend netwerk architectuur (bijv., ResNet-50) en de beperkte schaalbaarheid voor alle scenario’ s te wijten aan de onvoldoende 3D vormen-gegevens.”
De auteurs demonstreren succes in het verslaan van andere AI methoden in het voorspellen van het vormen van een figuur in een serie van de benchmark-tests. Ze laten ook zien ze slaan zelfs hun eigen resultaten van 2017 met de toevoeging van deze nieuwe self-toezicht aanpak.
Ook: MIT ups ante in het krijgen van een AI te leren een andere
Het papier, de 3D-Menselijke Houding Machines met Self-begeleid Leren, is geplaatst op het arXiv pre-print server en is geschreven door Keze Wang, Liang Lin, Chenhan Jiang, Chen Qian, en Pengxu Wei. Met name, Qian is met SenseTime, de Chinese AI opstarten dat verkoopt software voor diverse toepassingen zoals gezichtsherkenning, en die verdeelt een machine leren programmeren kader genaamd “Papegaaien.”
In hun oorspronkelijke papieren van 2017, de auteurs gebruikt een geannoteerde data set, de “MPII Menselijke Houding” gegevensset is samengesteld in 2014 door Mykhaylo Andriluka en collega ‘ s in de duitse Max Planck Instituut voor Informatica. Ze gebruikt die gelabeld set gegevens te extraheren twee-dimensionale menselijke lichaamsdelen van stilstaande beelden-in principe, poppetje tekeningen van de ledematen gericht in de ruimte. Ze vervolgens omgezet die 2D lichaam-deel vertegenwoordigingen in 3D-weergaven die aangeven dat de oriëntatie van de ledematen in een drie-dimensionale ruimte.
In de paper, de auteurs hetzelfde doen “pre-training” via de MPII data-set voor het uitpakken van de 2D vormt van de beelden. En net als in 2017, zij maken gebruik van een andere set gegevens, “Human3.6M,” uitpakken van de grond de waarheid voor 3D. Human3.6M heeft 3,6 miljoen foto ‘ s gemaakt in een laboratorium setting van betaalde acteurs het uitvoeren van een verscheidenheid van taken, uitgevoerd om te lopen om te roken, te eten.
Ook: Google geeft alle software kunnen gebruik maken van een kleine robot AI
Wat is nieuw in deze tijd is dat in het laatste deel van hun neurale net, ze gooien de 2D-en 3D-annotaties. Ze in plaats daarvan vergelijken met de voorspelling van hun 3D-model maakt over wat de 2D-versie moet worden naar de 2D beelden die werden geproduceerd in de eerste stap. “Na de initialisatie, we vervangen de voorspelde 2D poses en 3D poseert voor de 2D-en 3D-grond-waarheid te optimaliseren” het model “in een eigen toezicht de mode.”
Ze “project voor de 3D-coördinaat(s)” van de 3D-vormen in het beeld vliegtuig te verkrijgen van het geprojecteerde 2D pose” en dan zijn ze “het minimaliseren van het verschil tussen dit nieuwe 2D-vormen en de eerste die ze had afgeleid “als een optimalisatie van de doelstelling.”
In een zin, het neurale netwerk houdt met de vraag of het 3D model van het lichaam is het voorspellen nauwkeurig in drie dimensies wat dacht aan het begin van het proces in twee dimensies, te leren over hoe 3D-en 2D-overeenkomen.
Er is veel van de nu-standaard machine learning dingen hier: Een convolutional neurale netwerk, of CNN, kan het systeem uitpakken van de 2D-stick figuur. Die aanpak is ontleend aan een eerder stuk van het werk door de Carnegie-Mellon onderzoekers in 2014 en een follow-up deden ze in 2016.
Een schema van de volledige neurale netwerk set-up voor 3D-Vormen Machines, waaronder een convolutional neurale netwerk uitpakken 2D figuur begrip, gevolgd door een lange, een korte-termijn geheugen, netwerk uitpakken temporele informatie sleutel tot het begrijpen van 3D, gevolgd door een definitieve eigen toezicht vergelijking tussen de voorspellingen om de resultaten te verbeteren.
(Afbeelding: Wang et. al. 2019)
Vervolgens een lange korte-termijn geheugen, of LSTM, een neuraal netwerk is gespecialiseerd behouden en is het geheugen van de volgorde van gebeurtenissen, wordt gebruikt voor het uitpakken van de continuïteit van het lichaam van meerdere opeenvolgende video beelden te maken van het 3D-model. Dat werk is gemodelleerd naar werk gedaan in 2014 door Alex Graven en collega ‘s op Google’ s DeepMind, die oorspronkelijk zijn gebouwd voor spraakherkenning.
Wat de roman hier is het opleggen van zelf toezicht om de hele zaak bij elkaar te houden zonder de grond-waarheid labels. Door het nemen van deze laatste stap, de auteurs waren in staat om het verminderen van de behoefte aan 3D-gegevens en in plaats daarvan leunen op 2D-beelden. “De opgelegde correctie-mechanisme ons in staat stelt te profiteren van de externe grootschalige 2D-menselijke vormen van data te stimuleren 3D menselijke pose estimation,” schrijven ze.
Moet lezen
‘AI is heel, heel stom,’ zegt Google AI leider CNETBaidu maakt Kunlun silicium voor AIUnified Google AI afdeling een duidelijk signaal van AI de toekomst van TechRepublic
De auteurs niet alleen leverde betere resultaten op de Human3.6M database, zagen zij een dramatische snelheid tegen de gevestigde benaderingen. Uitgevoerd op een enkele Nvidia “GTX1080” GPU, het kostte hun neurale netten 51 milliseconden om een beeld versus zoveel 880 milliseconden voor andere benaderingen. Ze zag ook een dramatische speedup ten opzichte van hun voorafgaande, 2017 aanpak. De resultaten bevestigen wat zij noemen een “lightweight architecture” voor hun neurale netwerk.
De onderzoekers hebben veel concurrentie voor de nabije toekomst. Andere benaderingen hebben een evenzo “licht onder toezicht” aanpak voor het voorspellen van poses, en zelfs het vastleggen van de menselijke beweging. Bijvoorbeeld, de robotica laboratorium van professor Sergey Levine van UC Berkeley in oktober vorig jaar gemeld te worden in staat om te trainen gesimuleerde robots te imiteren van menselijke activiteiten zoals te zien is in de niet-gelabelde YouTube-video ‘ s. Misschien is de Chinese arbeid en inspanningen zoals Levine ‘ s zal bereiken fusion op de weg. In ieder geval, de waarde van self-begeleid leren is duidelijk het belangrijkste punt van AI-onderzoek.
Vorige en aanverwante dekking:
Wat is AI? Alles wat je moet weten
Een executive gids voor kunstmatige intelligentie, van machine learning en algemene AI-neurale netwerken.
Wat is diep leren? Alles wat je moet weten
De lowdown op diep leren: van hoe het zich verhoudt tot het bredere veld van machine-leren door te zien hoe aan de slag met het.
Wat is machine learning? Alles wat je moet weten
In deze gids wordt uitgelegd wat ‘machine learning’ is, hoe het is in verband met kunstmatige intelligentie, hoe het werkt en waarom het belangrijk is.
Wat is cloud computing? Alles wat u moet weten over
Een introductie van cloud computing recht vanaf de basis tot IaaS en PaaS -, hybride -, public en private cloud.
Verwante Onderwerpen:
China
Digitale Transformatie
CXO
Het Internet van Dingen
Innovatie
Enterprise Software