Demis Hassabis – Cambridge 2017

Demis Hassabis – Cambridge 2017

Im März dieses Jahres konnte ich einen sehr interessanten Vortrag von Demis Hassabis, einem der Gründer von DeepMind Technologies, an der Cambridge University verfolgen. In dem etwa 2h Vortrag, lieferte Demis Hassabis einen Überblick über den aktuellen Stand des „Deep Reinforcment Learnings“ und zeigte einige eindrucksvolle Beispiele dieses maschinellen Lernverfahrens. Eines davon hat es bis in die täglichen Schlagzeilen geschafft: Die Software „AlphaGo“.

Vor allem das Spiel AlphaGo vs. Lee Sedol im März 2016 erregte weltweit Aufmerksamkeit, weil zum ersten Mal in der Geschichte ein Computerprogramm einen der Weltbesten
Profispieler 4:1 beim Go besiegt hat. Nun, dass Computerprogramme Menschen im Schach, Dame etc. besiegen können, ist nichts Neues. Was war also bei AlphaGo so besonders? Im Gegensatz zu Schach, in dem vereinfacht gesagt, die Software alle möglichen Spielzüge berechnet und den erfolgreichsten auswählt, ist es beim Spiel Go nicht so einfach. Die Anzahl der möglichen Spielzüge übersteigt schlicht die Anzahl der Atome im Universum. Das ist selbst für den schnellsten Computer zuviel. Gute Go Spieler müssen sich auf Ihre Intuition verlassen. Eine urmenschliche Eigenschaft. Wie hat es also AlphaGo geschafft, Lee Sedol zu schlagen? Die Antwort ist einfach: Mit Intuition!

Der Verstand spielt auf dem Weg der Entdeckung nur eine untergeordnete Rolle. Es findet ein Sprung im Bewusstsein statt, nennen Sie es Intuition oder was Sie wollen, und die Lösung kommt zu Ihnen und Sie wissen nicht wie und warum.

-Albert Einstein

Bevor es nun zu sehr in Mystische geht, sollte man sich vor Augen führen was Intuition überhaupt ist bzw. was sie nicht ist. Sucht man nach einer Definition von Intuition, hat man gleich mehrere zur Auswahl. Die Biologie, Psychologie, Philosophie, ja selbst Religion versucht eine Erklärung für Intuition zu liefern. Welcher Bereich letztendlich die richtige Definition liefern wird, bleibt abzuwarten. Unzweifelhaft ist aber der Entstehungsort von Intuition: Das menschliche Gehirn. In den tiefen der neuronalen Verbindungen entstehen aus unzähligen, vorherigen (Spiel-)Erfahrungen und anderen Einflüssen, letztendlich die Impulse, die ins Bewusstsein vordringen und den nächsten Spielzug bestimmen. Desto besser diese „Intuition“, desto besser der menschliche Go-Spieler. Einen ähnlichen Mechanismus haben die Macher von AlphaGo angewendet. Die Entwickler bedienten sich dabei einer der grundlegendsten Mechanismen von biologischen Gehirnen. Das sog. Belohnungssystem.

Fast jede Handlung eines Lebewesens hängt direkt oder indirekt mit seinem Belohnungssystem zusammen. Wie schon der Name suggeriert, wollen Gehirne „belohnt“ werden. Und wir tun vieles dafür, dieses Gehirnareal zufrieden zu stellen. Die Gehaltserhöhung auf der Arbeit, das Lob und die Anerkennung von anderen Menschen, der Sieg in einem Wettkampf oder die Tafel Schokolade. Neben Belohnung kennt unser Gehirn aber auch Bestrafung. Der verbummelten Termin, das misslungene Projekt im Job oder der Geldverlust bei einer Wette. Das einsetzende, meist schmerzähnliche Gefühl sorgt dafür, dass wir nächstes mal aufmerksamer und vorsichtiger agieren. (Meistens jedenfalls..) Vereinfacht gesagt, versucht unser Gehirn Belohnung zu maximieren und Bestrafung zu minimieren.

 

Dieses Prinzip macht sich das Reinforcment Learning (RL) zu nutze. Eine schöne Implementierung des RL findet sich in Form des Q-Algorithmus bzw. Q-Learnings.  Plakativ erklärt,  versucht ein „Agent“ anhand seiner Aktionen eine maximale Belohnung zu erreichen. Angenommen der Agent ist eine Maus in einem Labyrinth, in dem irgendwo ein Stück Käse versteckt ist. Die Maus versucht nun einen Weg zum Käse zu finden. Manche Wege erweisen sich als Sackgasse, andere führen die Maus näher zum Ziel. Nimmt die Maus den Weg der Sackgasse, wird sie „bestraft“ (negative Belohnung -1), führt der gewählte Weg näher zum Käse, erhält die Maus eine Belohnung (+1). Das Maximum ist erreicht, wenn die Maus den Käse gefunden hat. DeepMind hat das Q-Learning mit Hilfe von neuronalen Netzen zum sog. „Deep Reinforcment Learning„weiterentwickelt und so einige große Probleme des schon etwas älteren Q-Algoritmus umgangen. AlphaGo ist also ein System, bestehend aus einem Agenten, der Go spielt. Sein Belohnungssystem ist darauf ausgelegt, möglichst erfolgreiche Spielzüge zu absolvieren.

Bevor es jedoch in einem Turnier eingesetzt wird, muss der Agent lernen. Nach unzähligen Go-Partien kristallisieren sich nach und nach erfolgreiche Spielstrategien heraus ohne das alle möglichen Spielzüge durchprobiert werden müssen. Das Zusammenspiel von Aktion und Belohnung/Bestrafung ermöglicht es, Spielzüge auch in unbekannten Spielsituationen erfolgreich durchzuführen. Dass dieser Algorithmus zu einer gewissen „Kreativität“ in der Lage ist, wurde sehr eindrucksvoll im Spielzug 37 gezeigt. Selbst Experten hat dieser Spielzug verblüfft. Wer weis, vielleicht findet sich eines Tages die genaue Definition von Intuition in einem mathematischen Nachschlagewerk.

 

-Vasilios Danos

Leave a reply

Your email address will not be published.

You may use these HTML tags and attributes:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>