Deep reinforcement learning: Et skridt nærmere rigtig AI

Ved hjælp af deep reinforcement learning interagerer maskiner med deres miljøer ved at bearbejde observationer og foretage handlinger uden menneskelig styring.

Kunstig intelligens er den seneste nye teknologiske trend, som alle har en mening om – det er menneskehedens undergang eller håb, det er den teknologi med “superkræfter”, som alle virksomheder bare må have i deres produkter og løsninger.

Mange produkter påstås at være AI af markedsføringsmæssige grunde, hvilket skaber stor forvirring om selve udtrykket. Lad os for at præcisere tingene stille et helt enkelt spørgsmål: Hvad er kunstig intelligens?

Spørgsmålet er enkelt, men det er svaret ikke, for der findes faktisk ikke nogen formel definition af intelligens. Måske kan vi ikke helt definere det, men de fleste vil være enige i, at mennesker er intelligente. Og det er vores evne til at finde løsninger på komplekse problemer, der får os til at mene, at vi er intelligente. Et gennemsnitligt menneske med tilstrækkelig erfaring kan udvikle strategier for udfordrende situationer.

Tag eksempelvis et bordfodboldspil. Selvom du aldrig har spillet det, finder du hurtigt ud af, hvad det handler om, og så begynder du at spille og forsøger at score et mål. Efterhånden som du får mere erfaring, forsøger du med forskellige strategier.

Når du spiller, foregår der komplekse processer i dit nervesystem: Du lærer af erfaring, forudsiger miljøets dynamikker og optimerer din adfærd for at nå frem til det endelige mål. Hvis vi kan blive enige om, at de ting er kritisk vigtige aspekter i intelligens, så bør det, der kaldes for AI, have de samme egenskaber.

Skal maskiner tænke og handle selvstændigt for at blive betragtet som AI? Ja. Og det er dét, deep reinforcement learning (DRL), som er et specielt område inden for maskinel indlæring (ML), måske vil føre os frem til.

Hvad er DRL?

DRL er en kombination af to ML-teknikker – deep learning, der er velkendt på grund af anvendelsesmulighederne i forskellige områder, eksempelvis objektgenkendelse; og reinforcement learning, der formaliserer idéen om maskiner, der interagerer med miljøer og lærer af erfaring i stedet for af leverede data.

Ved hjælp af DRL interagerer maskiner med deres miljøer ved at bearbejde observationer og foretage handlinger uden menneskelig styring. Idet de gør det, genererer de data, der derefter i kombination med et feedbacksignal fortæller maskinen, om den skaber gode resultater eller ej.

For nu at blive ved eksemplet med bordfodbolden – hvis det lykkes maskinen at score et mål, får den positiv feedback. Deep learning-delen hjælper maskinen med at identificere mønstre i de selvgenererede data og med at justere sin adfærd, så den får mere positiv feedback fremover.

DRL gør maskiner i stand til at finde frem til deres egne løsninger på komplekse opgaver. Maskinen skal bare have adgang til miljøet og simpel feedback om resultaterne. Det er det hele – der er ikke brug for hverken hardcodede regler eller ekspertdata.

For at sige det helt enkelt: Med DRL behøver du ikke vide, hvordan tingene kan gøres, bare du kender det endelige mål.

De forretningsmæssige fordele kan være enorme. Forestil dig en hvilken som helst kompleks udfordring, eksempelvis hele en international virksomheds forsyningskæde eller en produktionsvirksomheds produktionslinje.

I sådanne tilfælde vil du have rettidig levering, lave omkostninger, ingen forsinkelser, høj kvalitet og lavt energiforbrug. Men det er ikke nemt at finde den rette metode til at opnå og afbalancere alle de mål. Med DRL kan maskiner opnå overmenneskelige evner og støtte dig på måder, du aldrig havde kunnet forestille dig.

Hvorfor ser vi ikke mere DRL i virksomheder?

Til dels fordi det tager tid at uddanne folk i DRL. Maskinerne skal bruge erfaringer for at kunne begynde at lære af sig selv. I oplæringsfasen er deres adfærd langt fra optimal, og ingen leverandør/producent har råd til kaos af den slags i systemet.

Simuleringer er en god metode til at håndtere det problem. I et simuleret miljø kan maskinen lære, hvad den skal gøre, langt hurtigere og uden at gøre skade på den rigtige forretning. Simuleringerne skal være meget præcise og virkelighedsnære. Inden for bilindustrien skal simuleringerne være ligesom rigtige trafikforhold; for forsyningskæden skal du simulere, hvordan bestillinger og leveringer fungerer.

Kvaliteten af resultaterne afhænger i høj grad af kvaliteten af simuleringerne. Blåtrykket for en succesfuld DRL-applikation er derfor at tage et rigtigt system, udarbejde præcise simuleringer af det, lade maskinen lære i sit eget miljø og derefter overføre den lærte adfærd til det rigtige system.

Et eksempel på, hvordan DRL kan benyttes i rigtige systemer, er de tests, Bosch Rexroth og DXC Technology udfører via en halvautomatisk bordfodboldmaskine.

Bordfodboldmaskinens mål er enkelt: Den skal lære at score mål for at vinde over modstanderen, og det er det eneste, den bliver belønnet for.

I løbet af processen udvikler maskinen helt selv strategien, og i simuleringerne lærte maskinen at score mål efter kun to timer. Efter seks timer mere klarede den sig langt bedre, end nogen af udviklerne gjorde.

De maskiner, der kontrollerer spillet, håndteres af standardløsninger til automatisering såsom servomotorer, drivenheder og styringer, der benyttes i forskellige industricases. I sidste ende er idéen at opnå viden og skabe større fleksibilitet i produktionen.

Ideelt set vil produktionsvirksomheder fremover ikke behøve bede programmører om at tilføje funktioner. De vil fortælle maskinen, hvad de vil have, og så klarer systemet resten.

Teknologien og applikationerne for DRL er spændende, men forskerne er realistiske, og det kommer til at tage tid at anvende simulerede cases i virkelighedens verden.

Der er masser af udfordringer, og det at skabe et realistisk simuleringsmiljø er kun én af dem. Men hvis alting går godt, er DRL et enormt spring fremad mod rigtig AI.

Læs mere: Fremtiden for AI: Potentialet er ubegrænset

Læs mere: Gartner forudsiger fremtiden for AI-teknologier

Sig din mening

*