Sujet: Monte-Carlo Tree Search, des algorithmes à la théorie

Lieu : Equipe SEQUEL – INRIA Lille Nord Europe

Encadrant : Rémi Munos, Email : remi.munos@inria.fr

Mots-clés

Algorithmes des bandits manchots, apprentissage par renforcement, optimisation, prise de décisions dans l'incertain.

Sujet 

La méthode de Monte-Carlo Tree Search (MCTS) a contribué de manière spectaculaire à l'avancée du domaine du computer-go (voir [4,5]) en fournissant une nouvelle méthode d'exploration de très grands espaces de recherche inspirée du principe de "l'optimisme dans l'incertain". Basées sur des algorithmes de bandit (dont l'algorithme UCB (Upper Confidence Bound) [6] et variantes [9]) utilisés de manière hiérarchique les méthodes de MCTS (dont UCT [1], BAST [2], HOO [3]) sont très efficaces numériquement pour des problèmes d'optimisation et de planification de grande taille. A l'heure actuelle il paraît essentiel de développer une analyse mathématique permettant de comprendre leur fonctionnement en profondeur et permettre de prédire leur performance (vitesse de convergence) en fonction d'une mesure de complexité du problème.

Ce travail se fera dans le cadre du projet européen COMPLACS (Composing Learning for Artificial Cognitive Systems).

Le travail à mener durant ce projet :

  1. Etat de l’art sur les algorithmes MCTS et algorithmes de type optimistes dans l'incertain et leur champs d'application

  2. Approfondissement de la méthode d'"optimisation optimiste simultanée" initiés dans [10], en particulier on étudiera l'extension au cas stochastique.

  3. Application d'une stratégie de ce type à un problème d'optimisation, de planification ou jeux.

  4. Analyse théorique et / ou développement d'un logiciel mettant en oeuvre cette stratégie et tests numériques, avec éventuellement participation à des compétitions (dans le cas de la programmation d'un jeu).

Autres informations:

Références

[1] Levente Kocsis and Csaba Szepesvari. Bandit based monte-carlo planning. ECML 2006.

[2] Pierre-Arnaud Coquelin and Remi Munos. Bandit algorithms for tree search. UAI 2007.

[3] Sébastien Bubeck, Rémi Munos, Gilles Stoltz, and Csaba Szepesvari. Online optimization in X-armed bandits. NIPS 2008.

[4] Gelly, Wang, Munos, Teytaud, Modification of UCT with Patterns in Monte-Carlo Go, INRIA, Research Report (RR-6062), 2006.

[5] Gelly, Munos, L'Ordinateur, champion de go ?, Pour la Science, 354:28-35, Avril 2007.

[6] Peter Auer, Nicolo Cesa-Bianchi, and Paul Fischer. Finite-time analysis of the multi-armed bandit problem. Machine Learning, 47(2/3):235–256, 2002.

[7] Jean Francois Hren and Remi Munos. Optimistic Planning of Deterministic Systems. EWRL 2008.

[8] Nicolo Cesa-Bianchi and Gabor Lugosi. Prediction, Learning, and Games.Cambridge University Press, 2006.

[9] Jean-Yves Audibert, Rémi Munos, and Csaba Szepesvari. Exploration-exploitation trade-off using variance estimates in multi-armed bandits. Theoretical Computer Science, 410:1876-1902, 2009.

[10] Rémi Munos, Optimistic optimization of deterministic functions without the knowledge of its smoothness. NIPS 2011.