Battle of the AI Agenter: Atari Versus MMORPG

0
136

Hvordan AI udvikler sig til at læse følelser
Rana el Kaliouby, CEO og medstifter af Affectiva, fortæller Tonya Hall, hvordan AI udvikler sig til at måle en persons mentale sundhed.

Hvordan kan vi vide, danseren fra dansen?

En anden version af digteren Yeat ‘ s berømte spørgsmål, i forbindelse med kunstig intelligens, kan være: Er du analysere spillet, eller er du analysere spiller?

Ny forskning rapporter ud mandag udforske nye aspekter af forstærkning for at lære, AI-system, som “agenter” computeren konkurrenter i spil, lære at vinde i mål-drevet scenarier.

Begge undersøgelser er at lære noget om intelligens, men også noget om det miljø af spil, der former intelligens, og hvordan de to er forbundne.

Praktikanter Joseph Suarez, Yilun Du, Phillip Isola, og Igor Mordatch på non-profit OpenAI foundation udviklet en “åben verden” video-spil, hvor agenter forsøger at holde sig i live ved at slås om de knappe ressourcer. Deres system afspejler troen på, at komplekse online-spil er de nærmeste til den “virkelige verden” i form af produktion af komplekse adfærd i befolkningen.

openai-neuro-mmo-game-grid.png

OpenAI “Neurale MMO” spil grid.

OpenAI

Også: Google ‘ s StarCraft II sejr viser AI forbedrer via mangfoldighed, opfindsomhed, der ikke er reflekser

Og machine learning forskere Łukasz Kaiser og kolleger på Google ‘ s Hjerne enhed er udviklet en hurtigere måde at træne agenter til at mestre de grundlæggende klassiske 1980’erne Atari arcade spil som Pong, Freeway, og Battle Zone. Deres intuition er, at ved at skabe en model af de spil, en computer kan forudsige nogle af de grundlæggende principper i spil på måder, som mennesker formår at forudsige spillet fysik inden for få minutter.

Den tidligere tilgang præmier kompleksitet, bevæger sig ud over simple toy udfordringer, mens sidstnævnte arbejde, værdier, effektivitet, indsigt.

I begge tilfælde, de valg, der er fast besluttet på at et omfang af de spil, de har valgt, således at begreberne AI er formet af den umiddelbare udfordring.

Den OpenAI forskning, Neurale MMO: ET Massivt Multiagent Spil Miljø for Uddannelse og Evaluering af Intelligente Agenter, sendt på arXiv pre-print server, tilbyder en virtuel verden, der består af et gitter med fliser, der har ressourcer som vand at drikke og vegetation til at plukke.

Agenter bevæge sig gennem den virtuelle verden, der kæmper med hinanden for at få den dyrebare ressourcer til at overleve. Det er et velkendt scenarie, der går tilbage til begyndelsen af projekter som “kunstigt liv” simuleringer af David Ackley og Michael Littman af Bellcore i 1991.

Denne undersøgelse var ved indgangen til styrkelse læring ansøgning til kunstige verdener. Den OpenAI undersøgelse, der går langt videre, test, så mange som 100 millioner agent “levetid”, tager 100 GPU-kerner, en uge til at beregne.

Også: Google ‘ s AI surfer “gamescape” for at erobre game theory

Forfatterne understreger, at de ønskede at skabe noget i retning af “massively multiplayer online role-playing games” eller MMORPG, fordi, som de ser det, er det “kun MMOs kontekstualisere [learning pensum] inden for vedvarende sociale og økonomiske strukturer, der nærmer sig omfanget af den virkelige verden.” Det handler om skala, med andre ord.

De finder nogle pæne ting, sådan som krigere i denne verden at gøre det bedre end landmænd, da “alle for de befolkninger, der er uddannet med bekæmpelse af behændigt udkonkurrere alle de befolkninger, der er uddannet med kun at fouragere.” På et bredere plan, mere agenter at spille på, når i spillet, jo mere er, at den enkelte agent udforsker nye områder af spillet nettet, er på udkig efter ressourcer med mindre konkurrence.

De fandt også de agenter begynder at udvikle individuelle færdigheder, “nicher”, som forfatterne udtrykker det, og dermed mangfoldighed går op med større og større tal af agenter. “Tilstedeværelsen af andre befolkningsgrupper kraft agenter til at opdage en enkelt fordelagtige færdighed eller trick,” skriver de.

Dette er lidt minder om nogle af resultaterne af Googles DeepMind enhed, som de har udviklet “AlphaStar” system til at spille MMORPG StarCraft, hvor udvikling af niche færdigheder blev noteret. I virkeligheden, forfatterne bemærker en sammenhæng mellem deres arbejde og tidligere arbejde af DeepMind team på stikprøver forskellige populationer for overlegenhed.

Måske er den mest interessante del af dette papir, men er selv-reflekterende passager mod enden. Forfatterne takker MMORPG kan ikke være den eneste form for simulation, som kan modellere den virkelige verden læring. Men de insisterer på at det er en, der har vist sig at arbejde, i form af opmuntrende udvikling.

“Mens nogle kan se, at vores indsats som cherrypicking miljø design,” skriver de, “vi mener, at dette er netop formålet: det primære mål for spillet udvikling er at skabe komplekse og engagerende spil på det niveau af menneskelig intelligens.

Også: Intel ‘s neuro guru slams dyb læring: “det er faktisk ikke lære’

“De spiller base og derefter bruger disse design-beslutninger for at skabe strategier for langt ud over den fantasi af udviklere.”

(Et blog-indlæg af OpenAI har en dejlig blog-indlæg på den forskning, som godt, med videoer af gameplay.)

google-simple-neural-network.png

Google ‘ s “SimPLe” neurale netværk til at skabe model simulationer af Atari spil og videreuddannelse styrkelse læring.

Google Brian

Google forskning papir, Model Baseret Styrkelse Læring for Atari, også lagt ud på arXiv, bruger en kombination af convolutional neurale netværk, lang og kort sigt hukommelse, og fuld forbundne neurale netværk til at oprette en simulering af Atari spil, der forudsiger den fremtidige rammer efter hver fire rammer.

Mens andre forskere har anvendt neurale netværk til at forudsige billeder i videoen, skriver forfatterne, intet af dette arbejde førte til måder at spille spillet på konkurrencevilkår.

I dette projekt, Google-teamet var i stand til at slå benchmark “Rainbow” neurale netværk, der er udviklet af Google ‘ s DeepMind enhed i 2017, og også OpenAI “PPO” tilgang i 2017, som begge repræsenterer state of the art i styrkelse læring.

Tricket i tilfælde af Kaiser og holdkammerater var ikke til at træne det neurale netværk på billeder af spillet fra den “replay buffer”, der betyder, at en faktiske spil historie, men i stedet for at konstruere et forestillet sig “verden”, der er baseret på de frame-by-frame forudsigelser af spillet.

Denne “model-baseret” tilgang”, skriver forfatterne, “er mere prøve-effektiv end en meget tunet Rainbow baseline på næsten alle spil, der kræver mindre end halvdelen af de prøver, der på mere end halvdelen af de spil og på Motorvejen er mere end 10 gange mere prøve-effektive.” Specifikt, den bedste score, når det neurale netværk, der blev testet på et rigtigt spil, var bedre på næsten alle spil, ud af de i alt 26 Atari-spil, når uddannelse var begrænset til blot 100.000 i “arbejde” i spillet, omkring to timer af spillet, forfatterne skøn.

Forfatterne, agent er ved at lære, at disse Atari games har lidt forudsigelig fysik, som den simulerede verden er fanger, og som de ældre neurale netværk ikke fange.

Skal læse

“AI er meget, meget dum, “siger Google’ s AI-leder (CNET), Hvordan man får alle Google Assistant ‘s nye stemmer lige nu (CNET)Samlet Google AI division et klart signal om, at AI’ s fremtid (TechRepublic)Top 5: Ting at vide om AI (TechRepublic)

Som de udtrykte det, er det en smule, hvordan mennesker hurtigt finde ud af det grundlæggende, og beherske sådanne video spil på få minutter. “Menneskelige spillere kan lære at spille Atari-spil på få minutter. Mennesker har en intuitiv forståelse af de fysiske processer, der er repræsenteret i spillet: vi ved, at flyene kan flyve, boldene kan rulle, og kugler, der kan ødelægge udlændinge.” (Papiret har også en dejlig blog-indlæg.)

Begge papirer tilbyde spændende muligheder, som forfatterne fortsætter med at udforske verden, er de enten har skabt, i tilfælde af OpenAI, eller simuleret, i tilfælde af Google. Den OpenAI team bemærker, at den fremtidige forskning bør afspejle stilarter bekæmpelse for hver agent, der afhænger af, hvordan en anden agent, er kampene. “Vi mener, at de har lært at målrette indstilling er sandsynligt, at nyttige for at undersøge effekter af samtidige læring i store befolkningsgrupper.”

Og i tilfælde af Google-gruppe, har de endnu ikke været i stand til at vende hurtigt, at tidlig indlæring af spil til spil, der er konkurrencedygtige over lange strækninger for at spille. De forventer, at deres simulerede modeller af verden har mere information at give om de spil, der vil forbedre de fremtidige resultater.

Tidligere og relaterede dækning:

Hvad er AI? Alt, hvad du behøver at vide

En executive guide til kunstig intelligens, fra machine learning og generelt AI til neurale netværk.

Hvad er dyb læring? Alt, hvad du behøver at vide

Den lowdown på en dyb læring: fra hvordan det relaterer til det bredere felt af machine learning igennem til, hvordan du kommer i gang med det.

Hvad er machine learning? Alt, hvad du behøver at vide

Denne vejledning forklarer, hvad machine learning er, hvordan det er relateret til kunstig intelligens, hvordan det fungerer, og hvorfor det er vigtigt.

Hvad er cloud computing? Alt, hvad du behøver at vide om

En introduktion til cloud computing-lige fra det grundlæggende op til IaaS og PaaS, hybrid, offentlige og private cloud.

Relaterede historier:

Google ‘ s AI surfer “gamescape” for at erobre game theory
Dette er, hvad AI ligner (som skitseret ved AI)
Google ‘ s DeepMind hold med førende 3D spil dev platform
DeepMind ‘ s AI pletter tidlige tegn på øjensygdom

Relaterede Emner:

Big Data Analytics

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software