Kina ‘ s AI-forskere underviser i et neuralt net til at uddanne sig

0
146

Mere og mere, AI forsøger at gøre maskiner lære sig selv med et minimum af menneskelig vejledning. Såkaldte self-tilsyn er et element der kan være tilføjet til masser af machine learning-opgaver, så computeren lærer med mindre menneskelig hjælp, måske en dag med ingen overhovedet.

Forskere i Kina, Sun Yat-Sen University og Hong Kong Polytechnic University brug selv-tilsyn i en ny smule af forskning for at bidrage til en computer lære de udgør af en menneskelig figur i et videoklip.

Forståelsen af, hvad en person gør i et billede er sin egen rig åre af machine learning forskning, der er nyttig for en hel række ting, herunder video overvågning. Men sådanne metoder stole på “kommenteret” datasæt, hvor etiketterne er omhyggeligt anvendt til orientering af leddene i kroppen.

Også: Se YouTube-videoer, en dag kan lade robotter kopiere mennesker

Det er et problem, fordi større og større “dybt” neurale netværk er sulten efter mere og mere data, men der er ikke altid nok mærket data til at fodre netværk.

Så, Sun Yat-Sen forskere satte sig for at vise et neuralt netværk kan udvikle sin forståelse ved løbende at sammenligne gæt af flere netværk med hinanden, og i sidste ende mindske behovet for “ground truth”, som ydes af et navngivet sæt data.

china-ai-scientists-refine-pose-predictions-2019.png

Kina ‘ s AI-forskere viser, hvordan deres machine learning model raffineret sin “forudsigelse” af 3D udgøre en skuespiller fra et billede ved at tilføje nogle selvstændige tilsyn kode for at den sidste del af det neurale netværk.

(Billede: Wang et. al. 2019)

Som forfatterne udtrykker det, den forudgående indsats for at udlede et menneske udgøre har opnået succes, men på bekostning af en “tidskrævende netværk arkitektur (fx, ResNet-50) og begrænset skalerbarhed for alle scenarier på grund af den utilstrækkelige 3D udgør data.”

Forfatterne demonstrerer succes i at slå andre AI metoder til at forudsige udgør af en figur på tværs af en række benchmark-tests. De viser også, at de selv slå deres egne resultater fra 2017 og med tilføjelsen af denne nye selvstændige tilsyn tilgang.

Også: MIT ups ante i at få en AI til at undervise en anden

Det papir, 3D Menneskelige Udgøre Maskiner med Selvstændig Læring, der er bogført på arXiv pre-print server, og er forfattet af Keze Wang, Liang Lin, Chenhan Jiang, Chen Qian, og Pengxu Wei. Især, Qian er med SenseTime, den Kinesiske AI start, der sælger software til forskellige applikationer såsom ansigtsgenkendelse, og som fordeler en maskine at lære programmering ramme kaldet “Papegøjer.”

I deres oprindelige papir fra 2017, forfatterne har brugt en kommenteret data sæt, “MPII Menneskelige Udgøre” data samlet set i 2014, ved at Mykhaylo Andriluka og kolleger i Tyskland er Max Planck Institute for Informatics. De plejede at mærket datasæt til at udtrække to-dimensionelle menneskelige kropsdele fra billeder — dybest set, stick-figur tegninger af lemmer orienteret i rummet. Derefter konverteret dem 2D-krop-en del repræsentationer i 3D-repræsentationer, der angiver retningen af lemmer i tre-dimensionelle rum.

I det nye papir, forfattere gør det samme “pre-training” via MPII datasæt, for at udtrække 2D udgør fra billeder. Og lige som i 2017 gælder det, at de bruger et andet sæt data, “Human3.6M,” at trække jorden sandheden til 3D, så godt. Human3.6M har 3,6 millioner billeder, der er taget i et laboratorium indstilling af betalt aktører, der udfører en lang række opgaver, fra at løbe for at gå til rygning til at spise.

Også: Google foreslår, at alle software kunne bruge en lille robot, AI

Hvad er nyt i denne tid er, at i den sidste del af deres neurale net, de smider væk 2D-og 3D-anmærkninger. De er i stedet sammenligne forudsigelse deres 3D-model gør sig om, hvad dens 2D-version, skal være til 2D-billeder, der blev produceret i de første trin. “Efter initialisering, vi erstatte den forudsagte 2D rejser og 3D udgør for 2D-og 3D-ground-truth at optimere” model “i en selvstændig måde.”

De “projekt 3D-koordinat(s)” i 3D udgøre “ind i billedet plan for at opnå det forventede 2D udgøre” og så de “minimere forskellighed” mellem denne nye 2D udgør, og den første de havde fremstillet “som en optimering mål.”

I en vis forstand, de neurale netværk bliver ved med at bede, hvis dens 3D-model af kroppen er at forudsige præcist i tre dimensioner, hvad det troede i begyndelsen af processen i to dimensioner, er at lære om, hvordan 3D-og 2D-svarer.

Der er en masse nu-standard machine learning ting her: En convolutional neurale netværk, eller CNN, giver systemet mulighed for at udtrække 2D-stick figur. Denne tilgang er lånt fra et tidligere stykke arbejde ved Carnegie-Mellon forskere i 2014 og en opfølgning, som de gjorde i 2016.

china-3d-pose-machine-2019.png

Et diagram af den fulde neurale netværk, der er oprettet med henblik på 3D Udgøre Maskiner, herunder en convolutional neurale netværk til at udtrække 2D-figur forståelse, efterfulgt af et langt, en kort-tids hukommelse nettet til at udtrække tidsmæssig oplysninger nøglen til 3D-forståelse, efterfulgt af en endelig selvstændig sammenligning mellem forudsigelser for at forbedre resultaterne.

(Billede: Wang et. al. 2019)

Derefter, en lang og kort sigt hukommelse, eller LSTM, en neurale netværk, der er specialiseret til at fastholde en erindring om sekvenser af begivenheder, der bruges til at udtrække kontinuitet i kroppen fra flere fortløbende video rammer for at skabe 3D-model. At arbejde er modelleret efter arbejde udført i 2014 af Alex Grave og kolleger på Google ‘ s DeepMind, som oprindelig havde været bygget til talegenkendelse.

Hvad er det nye her er, om indførelse af selvstændige tilsyn for at gøre det hele holde sammen uden ground-truth etiketter. Ved at tage dette sidste trin, forfattere var i stand til at mindske behovet for 3D-data og i stedet lean på 2D-billeder. “Den, der pålægges korrektion mekanisme, der gør os i stand til at udnytte de eksterne store 2D menneskelige stille data til at øge 3D menneskelige udgør skøn,” skriver de.

Skal læse

“AI er meget, meget dum, “siger Google’ s AI leder CNETBaidu skaber Kunlun silicium til AISamlet Google AI division et klart signal om, at AI ‘ s fremtidige TechRepublic

Forfatterne er ikke kun leveret bedre resultater på Human3.6M database, så de en dramatisk hastighed-op mod de etablerede metoder. Kører på en enkelt Nvidia “GTX1080” GPU, det tog deres neurale net 51 millisekunder til at behandle et billede versus så meget som 880 millisekunder for andre tilgange. De så også en dramatisk hastighedsforøgelse i forhold til deres forudgående, 2017 tilgang. Resultaterne validere, hvad de kalder en “let arkitektur” for deres neurale netværk.

Forskerne vil have masser af konkurrence inden for en overskuelig fremtid. Andre tilgange har taget en tilsvarende “let overvåget” tilgang til at forudsige udgør, og selv fange menneskelige bevægelse. For eksempel, robotteknologi laboratoriet af professor Sergey Levine fra UC Berkeley i oktober sidste år rapporterede at være i stand til at træne simulerede robotter til at efterligne menneskelige aktiviteter, som er set i være uden navn YouTube-videoer. Måske det Kinesiske arbejde og indsats som Levine ‘ s vil nå nogle fusion ned af vejen. Under alle omstændigheder værdien af selvstændig læring er klart det vigtigste punkt af AI-forskning.

Tidligere og relaterede dækning:

Hvad er AI? Alt, hvad du behøver at vide

En executive guide til kunstig intelligens, fra machine learning og generelt AI til neurale netværk.

Hvad er dyb læring? Alt, hvad du behøver at vide

Den lowdown på en dyb læring: fra hvordan det relaterer til det bredere felt af machine learning igennem til, hvordan du kommer i gang med det.

Hvad er machine learning? Alt, hvad du behøver at vide

Denne vejledning forklarer, hvad machine learning er, hvordan det er relateret til kunstig intelligens, hvordan det fungerer, og hvorfor det er vigtigt.

Hvad er cloud computing? Alt, hvad du behøver at vide om

En introduktion til cloud computing-lige fra det grundlæggende op til IaaS og PaaS, hybrid, offentlige og private cloud.

Relaterede Emner:

Kina

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software