Bedryfsnuus

Is AlphaZero die moeite werd om te speel?

2018-06-02

DeepMind, 'n kunsmatige intelligensiemaatskappy in besit van Google, het 'n nuwe koerant uitgereik wat beskryf hoe die span AlphaGo se masjienleersisteem gebruik het om 'n nuwe projek genaamd AlphaZero te bou. AlphaZero gebruik AI-tegnologie genaamd versterkingsleer, wat slegs basiese reëls gebruik, geen menslike ervaring, opleiding van nuuts af nie, het die bordspel AI uitgevee.

AlphaZero het die eerste keer verower, en het 'n ander bordspel ontplof. Onder dieselfde toestande het die stelsel agt ure se opleiding gehad en die eerste AI verslaan wat die mense verslaan het - Li Shishi-weergawe AlphaGo; Na 4 ure se opleiding het AI Elmo die sterkste skaakspel AI Stockfish verslaan en die sterkste (Japanse skaak) AI Elmo in 2 uur verslaan. Selfs die sterkste Go-speler, AlphaGo, is nie gespaar nie. Al 34 uur lank opgelei, AlphaZero het AlphaGo Zero getoets wat 72 uur opgelei het.

Grafiek / Getal trekke, tekens of verliese in die spel vanuit die AlphaZero-perspektief (uit die DeepMind-spanpapier)

Versterking van leer is so kragtig. Wat is dit?

Adit Deshpande, 'n bekende AI-blogger van die Universiteit van Kalifornië, Los Angeles (UCLA), het 'n reeks artikels oor Deep Learning Research Review gepubliseer in sy blog, wat die krag agter AlphaGo se oorwinning verklaar. In sy artikel het hy voorgestel dat die veld van masjienleer in drie kategorieë verdeel kan word: onder toesig van leer, onopgedateerde leer en versterkingsleer. Versterking leer kan verskillende aksies in verskillende situasies of omgewings leer om die beste resultate te behaal.

Foto / Adit Deshpande se blog Deep Learning Research Review Week 2: Reinforcement Learning

Ons dink 'n klein robot in 'n klein kamer. Ons het nie hierdie robot geprogrammeer om te beweeg of te loop of enige aksie te doen nie. Dit staan ​​net daar. Ons wil hê dit moet na 'n hoek van die kamer beweeg, beloning punte kry wanneer u daar kom en punte verloor elke keer as u gaan. Ons hoop dat die robot die aangewese plek sover moontlik sal bereik, en die robot kan in vier rigtings beweeg: oos, suid, wes en noord. Robotte is eintlik baie eenvoudig. Watter soort gedrag is die mees waardevolle? Natuurlik is dit 'n aangewese plek. Om die grootste beloning te kry, kan ons net robots toelaat om aksies te gebruik wat waarde verhoog.
Foto / Adit Deshpande se blog Deep Learning Research Review Week 2: Reinforcement Learning

Wat is die waarde van AlphaZero se ontploffing van menslike skaakspeletjies?

AlphaGo Zero is 'n deurbraak, is AlphaZero ook? Buitelandse kundiges het ontleed dat laasgenoemde vier deurbrake in tegnologie gehad het:

Eerstens, AlphaGo Zero optimaliseer volgens die wen-verhouding, oorweeg slegs oorwinning, negatiewe twee soorte resultate; En AlphaZero is volgens die resultaat om voort te gaan op die optimalisering, het in ag geneem die moontlikheid soos das.

Tweedens, AlphaGo Zero sal die direksie rigting vir versterkingsleer verander, terwyl AlphaZero nie. Gaanbord is gestapel, terwyl skaak en skaak nie is nie, dus AlphaZero is meer veelsydig.

Drie, AlphaGo Zero sal voortgaan om die beste weergawe van die vervangingskoers te kies, terwyl AlphaZero net 'n neurale netwerk opdateer. Dit verminder die risiko om swak resultate op te lei.

4. Die hyperparameters in die soekafdeling van AlphaGo Zero word verkry deur Bayesian optimization. Keuring sal 'n groot invloed hê op die skattingsresultaat. AlphaZero hergebruik dieselfde hiperparameter vir alle speletjies, daarom is daar nie nodig om spesifieke aanpassings vir die spel te maak nie.

Die vierde paradigma van senior masjienleerargitek Tu Weiwei het aan geekpark gesê dat AlphaZero deurbrake en beperkings het:

Eerstens, DeepMind Die kern van hierdie proefskrif is om die veelsydigheid van die AlphaGo Zero-strategie op die skaakprobleem te bewys; Daar is geen spesiale hoogtepunt in die metode nie. AlphaZero is eintlik 'n uitgebreide weergawe van AlphaGo Zero-strategie van Gaan na ander soortgelyke bordspeletjies, en slaan die ander tegnologie-gebaseerde bordspel AI. Hulle was die beste voor.

Tweedens, AlphaZero is slegs 'n "universele" enjin vir soortgelyke bordspeletjies wat 'n goed gedefinieerde en perfekte inligtingspeletjie het. AlphaZero sal steeds probleme ondervind vir meer komplekse ander probleme.

Vroeër, toe Ryukyu Sun Jian AlphaGo Zero geïnterpreteer het, het hy gesê: "Gefortifiseerde leer kan uitgebrei word na baie ander velde en dit is nie so maklik om dit in die werklike wêreld te gebruik nie. Byvoorbeeld, versterkingsleer kan gebruik word om nuwe dwelms en nuwe dwelms te ondersoek. Die struktuur moet gesoek word. Na die soektog word dit in medisyne gemaak. Dan hoe om die medisyne regtig te toets, is effektief. Hierdie geslote lus koste is baie duur en baie stadig. Dit is baie moeilik vir jou om dit so eenvoudig te maak as om skaak te speel. "

Derdens, AlphaZero benodig ook baie rekenaarhulpbronne om die relatief 'eenvoudige' op te los. skaakprobleem, en die koste is baie hoog. Volgens geek-parke het DeepMind in die koerant gesê dat hulle 5000 eerste generasie TPU's gebruik het om selfspelspeletjies te genereer en 64 TPU's van die tweede generasie gebruik om neurale netwerke op te lei. Voorheen het sommige kenners aan 'n sekere media gesê dat hoewel die prestasie van die TPU ongelooflik is, die koste baie hoog sal wees. Sommige beleggers van 'n internasionale waagkapitaalorganisasie het ook vriende in hierdie kring gemaak. Een van die woorde is: "Hierdie duur chip, ek kyk net na ..."

Vierde, die huidige AlphaZero kan 'n afstand van "Go God" wees. op Go. Winnende mense verteenwoordig nie God nie. Die huidige netwerkstruktuur en opleidingstrategie is nie optimaal nie. Eintlik is dit die moeite werd om verder te studeer.

Alhoewel daar sekere beperkinge is, is die toepassings scenario's die moeite werd om te grawe. Daar is baie ander navorsingsareas waaraan aandag gegee word in die rigting van navorsing wat masjienleer meer algemeen maak, soos AutoML, migrasie-leer, ensovoorts. Terselfdertyd, hoe om verder 'n meer algemene AI-enjin te verkry teen laer koste (rekenaarkoste, domein deskundige koste) en AI meer waardevol te maak in praktiese toepassings, is ook aandag.

Druppeltoere is 'n spesiale area. Volgens geek-parke gebruik DJ's kunsmatige intelligensietegnologie om bestuurders en passasiers van onredelike reguitlyne (moontlik oor riviere) na werkstukke te pas. Passasiers met die minste tyd aan motors spandeer baie tegniese optimalisering. Hulle het ook probleme ondervind en hard gewerk vir hulle: Wanneer tegnologie-intelligensie stelsels opgelei word, kan tegnologie soos GPU-klusters gebruik word. Wanneer bestuurders en passasiers egter ooreenstem, word prestasie in realtime vereis en die konfigurasie word verminder. Daarom, hoe om akkuraatheid te verseker, is ook 'n ondersoek. Personeel het die probleem ondersoek.

Maar Tu Weiwei het DeepMind se pogings bevestig in die rigting van "universele kunsmatige intelligensie."