Google undersøger, AI ‘ s mystiske polytope

0
110

Nogle flere spor lækker ud, om den beskrivelse, der for to uger siden om Google ‘ s AlphaStar machine learning system, der konkurrerer i den video, spil StarCraft.

Et centralt element kan være den mystiske “polytope.”

Hvad er en polytope? En Euklidisk geometrisk figur i N dimensioner, hvoraf de to-dimensionelle polygoner og tre-dimensionelle polyedre er de velkendte eksempler. Den polytope fremstår som en måde at tænke på landskabet af mulige løsninger i et spil som StarCraft.

Også: Retfærdighed i AI, StarCraft Udgave

Der er ingen papir endnu for AlphaStar, men efter Google ‘ s blog indlæg om programmet på Jan. 24, spor begyndte at dukke op.

Som nævnt i et separat indlæg i sidste uge, AlphaStar bygger på arbejde, ved Google ‘ s DeepMind gruppe, der specifikt forsker David Balduzzi og kolleger, om noget, der hedder “Nash gennemsnit”, hvor flere computer-agenter, der spiller spillet mod hinanden, er undersøgt af de neurale netværk på tværs af flere spil. Denne undersøgelse finder forskellige attributter, der kan kombineres for at skabe en slags ideal-afspiller indbygget fra fordelene ved de forskellige agenter i de flere spil. Udforskning af spillere, hvad der er henvist til Balduzzi og kolleger som “gamescape,” er udtrykt som en polytope.

google-2019-value-iteration-in-the-polytope.png

Hvordan politikker af en AI-agent navigere gennem “polytope” af værdi funktioner i styrkelse læring. De blå prikker, der bevæger sig den politik, der tager på sin måde, at den “optimale” værdi funktion i rød, der vinder spillet.

Google Hjernen

Nu, Google forskere, der har tilbudt op en anden undersøgelse af polytope, i en to artikler udgivet samtidigt i slutningen af sidste uge, den ene bygning efter den næste.

Også: Google ‘ s AI surfer “gamescape” for at erobre game theory

Det første papir, Værdien Funktion Polytope i Styrkelse Læring, som er skrevet af Google Hjernen Robert Dadashi, Adrien Ali Taïga, Nicolas Le Roux, Dale Schuurmans, og Marc G. Bellemare, med Taïga også tjener på Montreal ‘ s MILA organisation for machine learning, og Schuurmans at have en aftale på University of Alberta. Det papir, der er lagt ud på arXiv pre-print-server.

Her er, hvordan polytope arbejder i Dadashi & Co.’s undersøgelse. Styrkelse læring opgaver såsom AlpaStar ofte stole på computing, hvad den fremtidige belønning vil være at foretage en given handling i en given situation i spillet. At state-action vurdering er kendt som den værdi funktion. At finde den rigtige funktion kan være, hvad kan den agent vinde spillet.

Dadashi viser i det papir, som alle de værdi funktioner, der kan være resultatet af et sæt af forskellige politikker, som en agent kan bruge danne en polytope. Det er vigtigt, fordi så kan man se, hvordan forskellige politikker “flytte” gennem polytope, indtil de er landet på en “optimal” value funktion, der vinder spillet. Den optimale værdi funktion er lokaliseret på et bestemt hjørne af polytope, så at vinde et spil, i en vis forstand bliver et spørgsmål om at navigere i polytope til højre hjørnet på den måde kan du måske gå gennem et værelse på udkig efter noget skjult i det ene hjørne.

Det er let at se, hvordan dette arbejde kunne informere Balduzzi & Co.’s Nash gennemsnit: navigering polytope for værdi funktioner kan erstattes ved at navigere polytope ideel til spillere af StarCraft.

google-2019-polytopes-of-markov-decision-process.png

Flere Mpd’, eller “Markov beslutningsproces,” den typiske søg strategi for at løse en styrkelse læring scenarie, producere flere polytopes.

Google Hjernen/Google DeepMind

Det andet Google papir tager polytope af værdi funktioner og bruger det til at lodde noget, der kan være mere omfattende: problemet med “repræsentationer.”

Også: Google ‘ s StarCraft II sejr viser AI forbedrer via mangfoldighed, opfindsomhed, der ikke er reflekser

Et centralt tema i AI fra begyndelsen, er, om en maskine kan “repræsentere” dens verden. Det er én ting for en machine learning system til at løse et problem, det er en anden ting er, at der skal være “intelligens” i, hvad det gør. Evnen af et neuralt netværk til at ikke bare udføre opgaver, men at skildre aspekter af verden omkring det på en måde, der fører til avancerede abstraktioner om verden, er, hvad der i teorien adskiller AI fra en rent mekanisk system.

I det andet papir, En Geometrisk Perspektiv på Optimal Repræsentationer til at Styrke Læring, Dadashi og de andre forfattere er gået, og en anden Google-Hjerne forsker, Pablo Samuel Castro, og to forskere fra DeepMind, Vil Dabney og Tor Lattimore, og Oxford U. s Clare Lyle.

Denne gang, Dadashi og kolleger siger, at værdien funktioner, der er i hjørnerne af, at polytope er “kontradiktorisk værdi funktioner”, som blot betyder, at de er dem, der kommer til at føre til en deterministisk række initiativer for at vinde spillet. At finde den kontradiktoriske værdi funktioner kræver en repræsentation, der “ligner” en given værdi funktion. En repræsentation i dette tilfælde er en kombination af en “feature vektor,” en vektor, der repræsenterer en given tilstand i spillet, og en vægt vektor, der er justerbar via den velkendte back-propagation teknik. At komme tættere på hjørnet, hvor den værdi, funktionen indebærer at flytte gennem polytope på en måde, der minimerer fejl sats mellem tilnærmelse og det kontradiktoriske værdi funktion.

Også: Google funderer den mangler af machine learning

Dette har to vigtige resultater. En, det gør styrkelse læring stærkere ved at oprette flere “ekstra opgaver”, der direkte agent i løbet af spillet, snarere end en enkelt stor belønning funktion ved udgangen.

Og mere vigtigt, at løse de opgaver, der gør repræsentation bedre og bedre. Som forfatterne udtrykker det, “en agent, der forudsiger AVFs, af sig selv eller sammen med nogle af de primære mål, skal der udvikles en bedre tilstand repræsentation.”

google-2019-the-represenations-of-ai.png

Repræsentation af den fire-værelses problem. Den sidste, på højre, udformet ved hjælp af “kontradiktorisk værdi funktioner,” viser “smuk struktur” i forhold til de andre, siger Google ‘ s forskere.

Google Hjernen/Google DeepMind

Forfatterne testede deres arbejde på en fælles AI opgave, “fire-værelses domæne”, hvor en agent har til at navigere fra et værelse i et to-dimensionalt gitter verden, bevæger sig rundt væggene, og gå ind og ud af entryways, indtil den ankommer til et hjørne, der er udpeget som sejr. De sammenligner, hvordan repræsentationer fundet med det kontradiktoriske værdi funktion sammenligne repræsentationer opfundet tilfældigt. Forfatterne skriver, at de tilfældigt udvalgte repræsentationer “fange den generelle afstand til målet, men lidt andet.” I modsætning til “den repræsentation af AVF [kontradiktorisk værdi funktion] … udstiller smukke struktur,” herunder, der viser ting som “focal point”, og en “bias i retning af de mål-rummet.”

Skal læse

“AI er meget, meget dum, “siger Google’ s AI-leder (CNET), Hvordan man får alle Google Assistant ‘s nye stemmer lige nu (CNET)Samlet Google AI division et klart signal om, at AI’ s fremtid (TechRepublic)Top 5: Ting at vide om AI (TechRepublic)

“Alt i alt vores resultater viser, at den AVF metode kan lære overraskende stor repræsentationer,” skriver de.

Ingen af disse umiddelbart relaterer til AlphaStar, selvfølgelig. Men det tyder på et nyt, højere niveau af abstraktion i at søge for politikker, der kan løse et spil ved først at tænke grundigt over, hvordan computeren repræsenterer, hvad deres muligheder er.

Derfor forventer, at se polytope dukker op mere og mere i forskning fra Googles og andre. Det kan være mystisk i nogle henseender, men det ser ud til at virke i praksis, i det mindste på nogle opgaver, og det åbner op for en ny vej til forståelse af repræsentationer. Det er også udvider debat om, hvad disse erklæringer betyder, for så vidt som den faktiske intelligens.

Tidligere og relaterede dækning:

Hvad er AI? Alt, hvad du behøver at vide

En executive guide til kunstig intelligens, fra machine learning og generelt AI til neurale netværk.

Hvad er dyb læring? Alt, hvad du behøver at vide

Den lowdown på en dyb læring: fra hvordan det relaterer til det bredere felt af machine learning igennem til, hvordan du kommer i gang med det.

Hvad er machine learning? Alt, hvad du behøver at vide

Denne vejledning forklarer, hvad machine learning er, hvordan det er relateret til kunstig intelligens, hvordan det fungerer, og hvorfor det er vigtigt.

Hvad er cloud computing? Alt, hvad du behøver at vide om

En introduktion til cloud computing-lige fra det grundlæggende op til IaaS og PaaS, hybrid, offentlige og private cloud.

Relaterede historier:

Google ‘ s AI surfer “gamescape” for at erobre game theory
Dette er, hvad AI ligner (som skitseret ved AI)
Google ‘ s DeepMind hold med førende 3D spil dev platform
DeepMind ‘ s AI pletter tidlige tegn på øjensygdom

Relaterede Emner:

Google

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software