Dyp forsterkende læring: Ett steg nærmere AI

Gjennom dyp forsterkende læring samhandler maskinene med miljøene sine ved å behandle observasjoner og iverksette tiltak uten menneskelig veiledning.

Kunstig intelligens (AI). Det er den hot tech-trenden alle har en mening om – det er menneskehetens undergang eller håp, det er teknologien med “superkrefter” som enhver bedrift ønsker å ha til produktene og løsningene de tilbyr.

Mange produkter har kunstig intelligens på merkelappen av markedsføringsgrunner, noe som skaper mye forvirring rundt selve begrepet. For å avklare dette, la oss stille oss et enkelt spørsmål: Hva er kunstig intelligens?

Spørsmålet er enkelt, men det er ikke svaret, fordi det ikke er noen formell definisjon av intelligens. Vi er kanskje ikke i stand til å definere det helt, men de fleste er enige om at mennesker er intelligente. Og det er vår evne til å finne løsninger på komplekse problemer som får oss til å tro at vi er intelligente.

Et gjennomsnittlig menneske med nok erfaring kan utvikle strategier for utfordrende situasjoner.
Ta for eksempel et fotballspill. Selv om du aldri har spilt det kan du, når du først har forstått hva det går ut på, begynne å spille og prøve å score mål.

Når du har tilegnet deg erfaring, vil du teste ut forskjellige strategier. Når du spiller skjer det komplekse prosesser i nervesystemet: lære av erfaring, forutse dynamikken i miljøet og optimalisere atferden din, for å nå det endelige målet. Hvis vi er enige om at dette er viktige aspekter ved intelligens, bør det som er merket som kunstig intelligens ha de samme egenskapene.

Vil maskiner måtte tenke og handle på egen hånd for å bli betraktet som kunstig intelligente? Ja. Og det er dette dyp forsterkende læring (DRL), et spesialfelt innenfor maskinlæring, kan føre oss til.

DRL er en kombinasjon av to ML-teknikker – dyp læring, kjent for sine applikasjoner innen forskjellige felt som objektgjenkjenning; og forsterkende læring, som formaliserer ideen om maskiner som samhandler med miljøer og som lærer av erfaring i stedet for fra oppgitte data.

Gjennom DRL samhandler maskiner med miljøene sine ved å behandle observasjoner og iverksette tiltak uten menneskelig veiledning. På den måten genererer de data, som deretter kombineres med et tilbakemeldingssignal som informerer maskinen om den fungerer bra eller ikke.

Hvis vi holder oss til eksempelet med fotballspill – hvis maskinen klarer å score et mål, får den positive tilbakemeldinger. Den dype læringsdelen hjelper maskinen med å identifisere mønstre i de egengenererte dataene og tilpasse atferden, slik at den kan få flere positive tilbakemeldinger i fremtiden.

DRL gjør det mulig for maskiner å finne sin egen løsning på komplekse oppgaver. Maskinen trenger bare tilgang til miljøet og enkel tilbakemelding på prestasjonen. Det er alt – ikke noe behov for hardkodede regler eller ekspertdata.

Enkelt sagt: Med DRL trenger du ikke å vite hvordan ting kan gjøres så lenge du kjenner til det endelige målet.

Bedriftens fordeler kan bli enorme. Se for deg en hvilken som helst kompleks utfordring, for eksempel hele forsyningskjeden til et internasjonalt selskap eller produsentens produksjonslinje. I slike tilfeller ønsker du levering til rett tid, lave kostnader, ingen forsinkelser, høy kvalitet og lavt energiforbruk, men det er ikke enkelt å finne den rette måten å oppnå og balansere alle disse målene på. Med DRL kan maskiner få overmenneskelige evner og støtte deg på en måte du aldri kunne ha forestilt deg.

Så hvorfor ser vi ikke flere DRL-applikasjoner i bedrifter? Delvis skyldes det at DRL-opplæring tar tid. Maskinene trenger erfaring for å begynne å lære på egen hånd. I opplæringsfasen er atferden deres langt fra optimal, og ingen leverandør/produsent har råd til et slikt kaos i systemet.

Simuleringer er en god måte å få bukt med dette problemet på. Maskinen kan lære hva den skal gjøre i et simulert miljø mye raskere og uten å skade den virkelige forretningsdriften. Simuleringene må være veldig presise og ligge nært opp til virkeligheten.

For bilindustrien må simuleringene være akkurat som virkelige trafikkforhold; for forsyningskjeden må du simulere hvordan ordrer og leveranser fungerer. Kvaliteten på resultatet avhenger i veldig stor grad av kvaliteten på simuleringene.

Planen for en vellykket DRL-applikasjon er derfor å ta et ekte system, lage presise simuleringer av det, la maskinen lære i dette miljøet og overføre den lærte atferden til det virkelige systemet igjen.

Et eksempel på hvordan DRL kan brukes i virkelige systemer er testene Bosch Rexroth og DXC Technology utfører gjennom en halvautomatisert bordfotballmaskin. Bordfotballmaskinens mål er enkelt: Den må lære seg å score mål for å slå motstanderen, og dette er det eneste den blir belønnet for. I prosessen utvikler maskinen strategien helt på egen hånd, og i simuleringene lærte maskinen å score mål etter bare to timer. Etter ytterligere seks timer presterte den mye bedre enn noen av utviklerne.

Maskinene som styrer spillet, styres av standard automatiseringsløsninger, som servomotorer, frekvensomformere og styringssystemer, som brukes til ulike formål innen industrien. Til syvende og sist er ideen å innhente kunnskap og gjøre produksjonsprosessen mer fleksibel. Ideelt sett skal ikke produsenter i fremtiden måtte be programmerere om å legge til funksjoner. De vil fortelle maskinen hva de ønsker, og så vil systemet gjøre resten.

Teknologien og DRL-applikasjonene er spennende, men forskerne er realistiske, og det vil ta tid å overføre simulerte oppgaver til virkeligheten. Det er mange utfordringer, og det å skape et realistisk simuleringsmiljø er bare en av dem. Men hvis alt går som det skal, er DRL et stort steg på veien mot bruk av kunstig intelligens til reelle oppgaver.

Read more:  Gartner predicts the future of AI technologies

Si din mening

*