メインコンテンツへスキップ
  1. 研究テーマ/

Bandits and Online Learning

オンライン環境で意思決定をしながら効率的に学習するには?

本テーマでは、オンライン環境で意思決定を行い、その結果として得られるフィードバックをもとに学習するアルゴリズムを扱う。特に、部分的なフィードバックしか得られない状況や、環境が時間とともに変化する状況においても、安定した学習を実現することを目指す。

研究の焦点
#

  • 部分的なフィードバックからどのように効率的に学習できるか
  • 時間変化する環境下で、安定した学習をどのように実現するか

関連論文