本テーマでは、オンライン環境で意思決定を行い、その結果として得られるフィードバックをもとに学習するアルゴリズムを扱う。特に、部分的なフィードバックしか得られない状況や、環境が時間とともに変化する状況においても、安定した学習を実現することを目指す。
研究の焦点
#- 部分的なフィードバックからどのように効率的に学習できるか
- 時間変化する環境下で、安定した学習をどのように実現するか
関連論文
AAMAS 2026 (Extended abstract)
Yuma Fujimoto, Kaito Ariu, Kenshi Abe
テーマ:Bandits & Online LearningWSDM 2025 (Industry day talks)
Daiki Katsuragawa, Yusuke Kaneko, Kaito Ariu, Kenshi Abe
テーマ:Bandits & Online LearningSIGIR 2023 (Short Paper)
Hiroaki Shiino, Kaito Ariu, Kenshi Abe, Togashi Riku
テーマ:Bandits & Online LearningICML 2022
Kaito Ariu, Kenshi Abe, Alexandre Proutière
テーマ:Bandits & Online LearningarXiv
Masahiro Kato, Kenshi Abe, Kaito Ariu, Shota Yasui
テーマ:Bandits & Online LearningAAAI 2020 Workshop on Reinforcement Learning in Games
Gota Morishita, Kenshi Abe, Kazuhisa Ogawa, Yusuke Kaneko
テーマ:Bandits & Online Learning