↓ メインコンテンツへスキップ

Bandits and Online Learning

オンライン環境で意思決定をしながら効率的に学習するには？

本テーマでは、オンライン環境で意思決定を行い、その結果として得られるフィードバックをもとに学習するアルゴリズムを扱う。特に、部分的なフィードバックしか得られない状況や、環境が時間とともに変化する状況においても、安定した学習を実現することを目指す。

研究の焦点
#

部分的なフィードバックからどのように効率的に学習できるか
時間変化する環境下で、安定した学習をどのように実現するか

関連論文

AAMAS 2026 (Extended abstract)

Time-Varyingness in Auction Breaks Revenue Equivalence

Yuma Fujimoto, Kaito Ariu, Kenshi Abe

テーマ:Bandits & Online Learning

WSDM 2025 (Industry day talks)

Efficient Creative Selection in Online Advertising using Top-Two Thompson Sampling

Daiki Katsuragawa, Yusuke Kaneko, Kaito Ariu, Kenshi Abe

テーマ:Bandits & Online Learning

SIGIR 2023 (Short Paper)

Exploration of Unranked Items in Safe Online Learning to Re-Rank

Hiroaki Shiino, Kaito Ariu, Kenshi Abe, Togashi Riku

テーマ:Bandits & Online Learning

ICML 2022

Thresholded LASSO Bandit

Kaito Ariu, Kenshi Abe, Alexandre Proutière

テーマ:Bandits & Online Learning

arXiv

A Practical Guide of Off-Policy Evaluation for Bandit Problems

Masahiro Kato, Kenshi Abe, Kaito Ariu, Shota Yasui

テーマ:Bandits & Online Learning

AAAI 2020 Workshop on Reinforcement Learning in Games

Online Learning for Bidding Agent in First Price Auction

Gota Morishita, Kenshi Abe, Kazuhisa Ogawa, Yusuke Kaneko

テーマ:Bandits & Online Learning