Research

International Conference

Kaito Ariu, Po-An Wang, Alexandre Proutiere, Kenshi Abe.
Policy Testing in Markov Decision Processes
AISTATS 2026. [paper]
Yuma Fujimoto, Kaito Ariu, Kenshi Abe.
Time-Varyingness in Auction Breaks Revenue Equivalence
AAMAS 2026 (Extended abstract). [paper]
Noboru Isobe, Kenshi Abe, Kaito Ariu.
Last Iterate Convergence in Monotone Mean Field Games
NeurIPS 2025. [paper]
Yuma Fujimoto, Kaito Ariu, Kenshi Abe.
Learning from Delayed Feedback in Games via Extra Prediction
NeurIPS 2025. [paper]
Yuma Fujimoto, Kaito Ariu, Kenshi Abe.
Global Behavior of Learning Dynamics in Zero-Sum Games with Memory Asymmetry
AAMAS 2025 (Full paper). [paper]
Yuma Fujimoto, Kaito Ariu, Kenshi Abe.
Nash Equilibrium and Learning Dynamics in Three-Player Matching m-Action Games
AAMAS 2025 (Extended abstract). [paper]
Yuu Jinnai, Tetsuro Morimura, Kaito Ariu, Kenshi Abe.
Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignment
NAACL 2025. [paper]
Kenshi Abe, Mitsuki Sakamoto, Kaito Ariu, Atsushi Iwasaki.
Boosting Perturbed Gradient Ascent for Last-Iterate Convergence in Games
ICLR 2025. [paper]
Daiki Katsuragawa, Yusuke Kaneko, Kaito Ariu, Kenshi Abe.
Efficient Creative Selection in Online Advertising using Top-Two Thompson Sampling
WSDM 2025 (Industry day talks). [paper]
Hiroki Ishibashi, Kenshi Abe, Atsushi Iwasaki.
Approximate State Abstraction for Markov Games
AAAI 2025. [paper]
Yuma Fujimoto, Kaito Ariu, Kenshi Abe.
Synchronization behind Learning in Periodic Zero-Sum Games Triggers Divergence from Nash equilibrium
AAAI 2025. [paper]
Tetsuro Morimura, Mitsuki Sakamoto, Yuu Jinnai, Kenshi Abe, Kaito Ariu.
Filtered Direct Preference Optimization
EMNLP 2024. [paper]
Tetsuro Morimura, Kazuhiro Ota, Kenshi Abe, Peinan Zhang.
Policy Gradient Algorithms with Monte-Carlo Tree Search for Non-Markov Decision Processes
Reinforcement Learning Conference (RLC) 2024. [paper]
Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Atsushi Iwasaki.
Adaptively Perturbed Mirror Descent for Learning in Games
ICML 2024. [paper]
Yuu Jinnai, Tetsuro Morimura, Ukyo Honda, Kaito Ariu, Kenshi Abe.
Model-Based Minimum Bayes Risk Decoding
ICML 2024. [paper]
Riku Togashi, Kenshi Abe, Yuta Saito.
Scalable and Provably Fair Exposure Control for Large-Scale Recommender Systems
WWW 2024. [paper]
Hakuei Yamada, Junpei Komiyama, Kenshi Abe, Atsushi Iwasaki.
Learning Fair Division from Bandit Feedback
AISTATS 2024. [Paper]
Yuma Fujimoto, Kaito Ariu, Kenshi Abe.
Memory Asymmetry Creates Heteroclinic Orbits to Nash Equilibrium in Learning in Zero-Sum Games
AAAI 2024. [paper]
Hiroaki Shiino, Kaito Ariu, Kenshi Abe, Togashi Riku.
Exploration of Unranked Items in Safe Online Learning to Re-Rank
SIGIR 2023 (Short Paper). [paper]
Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Kentaro Toyoshima, Atsushi Iwasaki.
Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Games
AISTATS 2023. [paper]
Yuma Fujimoto, Kaito Ariu, Kenshi Abe.
Learning in Multi-Memory Games Triggers Complex Dynamics Diverging from Nash Equilibrium
IJCAI 2023. [paper]
Kenshi Abe, Mitsuki Sakamoto, Atsushi Iwasaki.
Mutation-Driven Follow the Regularized Leader for Last-Iterate Convergence in Zero-Sum Games
UAI 2022. [paper]
Kaito Ariu, Kenshi Abe, Alexandre Proutière.
Thresholded LASSO Bandit
ICML 2022. [paper]
Kenshi Abe, Junpei Komiyama, Atsushi Iwasaki.
Anytime Capacity Expansion in Medical Residency Match by Monte Carlo Tree Search
IJCAI 2022. [paper]
Kenshi Abe, Yusuke Kaneko.
Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games
AAMAS 2021 (Full Paper). [paper]

International Workshop

Kaito Ariu, Po-An Wang, Alexandre Proutiere, Kenshi Abe.
Policy Testing in Markov Decision Processes
NeurIPS 2025 Workshop on Aligning Reinforcement Learning Experimentalists and Theorists. [paper]
Yuu Jinnai, Tetsuro Morimura, Kaito Ariu, Kenshi Abe.
Regularized Best-of-N Sampling to Mitigate Reward Hacking for Language Model Alignment
ICML 2024 Workshop on Models of Human Feedback for AI Alignment. [paper]
Tetsuro Morimura, Mitsuki Sakamoto, Yuu Jinnai, Kenshi Abe, Kaito Ariu.
Filtered Direct Preference Optimization
ICML 2024 Workshop on Models of Human Feedback for AI Alignment. [paper]
Riku Togashi, Kenshi Abe.
Fair Matrix Factorisation for Large-Scale Recommender Systems
RecSys 2022 FAccTRec Workshop. [paper]
Yuki Shimano, Kenshi Abe, Atsushi Iwasaki, Kazunori Ohkawara.
Computing Strategies of American Football via Counterfactual Regret Minimization
AAAI 2022 Workshop on Reinforcement Learning in Games (Oral Presentation). [paper]
Masahiro Kato, Kei Nakagawa, Kenshi Abe, Tetsuro Morimura.
Direct Expected Quadratic Utility Maximization for Mean-Variance Controlled Reinforcement Learning
NeurIPS 2021 Workshop on Deep Reinforcement Learning. [paper]
Gota Morishita^*, Kenshi Abe^*, Kazuhisa Ogawa, Yusuke Kaneko (^*equal contribution).
Online Learning for Bidding Agent in First Price Auction
AAAI 2020 Workshop on Reinforcement Learning in Games. [paper]

Journal

Tsunehiko Tanaka, Kenshi Abe, Kaito Ariu, Tetsuro Morimura, Edgar Simo-Serra.
Return-Aligned Decision Transformer
Transactions on Machine Learning Research. [paper]
Yuki Ichihara, Yuu Jinnai, Tetsuro Morimura, Kaito Ariu, Kenshi Abe, Mitsuki Sakamoto, Eiji Uchibe.
Evaluation of Best-of-N Sampling Strategies for Language Model Alignment
Transactions on Machine Learning Research. [paper]
阿部拳之, 豊島健太郎, 坂本充生, 岩崎敦.
二人零和ゲームにおける突然変異駆動型正則化先導者追従法の終極反復収束
情報処理学会論文誌. [paper]

Preprints

Kenshi Abe, Mitsuki Sakamoto, Kaito Ariu, Atsushi Iwasaki.
Asymmetric Perturbation in Solving Bilinear Saddle-Point Optimization
[Arxiv]
Wataru Masaka, Mitsuki Sakamoto, Kenshi Abe, Kaito Ariu, Tuomas Sandholm, Atsushi Iwasaki.
The Power of Perturbation under Sampling in Solving Extensive-Form Games
[Arxiv]
Sho Shimoyama, Tetsuro Morimura, Kenshi Abe, Toda Takamichi, Yuta Tomomatsu, Masakazu Sugiyama, Asahi Hentona, Yuuki Azuma, Hirotaka Ninomiya.
Why Guided Dialog Policy Learning performs well? Understanding the role of adversarial learning and its alternative
[Arxiv]
Masahiro Kato, Kenshi Abe, Kaito Ariu, Shota Yasui.
A Practical Guide of Off-Policy Evaluation for Bandit Problems
[Arxiv]
Masahiro Nomura, Kenshi Abe.
A Simple Heuristic for Bayesian Optimization with A Low Budget
[Arxiv]

Domestic Conference

眞坂航宙, 坂本充生, 阿部拳之, 蟻生開人, 岩崎敦.
不完全情報展開型ゲームの求解における利得摂動に関する研究.
情報処理学会第87回全国大会.
坂本充生, 陣内佑, 森村哲郎, 阿部拳之, 蟻生開人.
大規模言語モデルのためのアライメントデータ合成手法の実験的評価.
言語処理学会第31回年次大会 (NLP 2025) [paper].
森村哲郎, 坂本充生, 陣内佑, 阿部拳之, 蟻生開人.
ベイズリスク選好最適化：報酬モデル不要のオンライン選好最適化手法.
第27回情報論的学習理論ワークショップ (IBIS 2024).
眞坂航宙, 坂本充生, 阿部拳之, 蟻生開人, 岩崎敦.
（不完全情報）展開型ゲームにおける零分散の利得摂動手法.
第27回情報論的学習理論ワークショップ (IBIS 2024).
市原有生希, 陣内佑, 森村哲郎, 阿部拳之, 蟻生開人, 坂本充生, 内部英治.
Evaluation of Best-of-N Sampling Strategies for Language Model Alignment.
第27回情報論的学習理論ワークショップ (IBIS 2024).
磯部伸, 阿部拳之, 蟻生開人.
Last Iterate Convergence in Monotone Mean Field Games.
第27回情報論的学習理論ワークショップ (IBIS 2024).
蟻生開人, Po-An Wang, 阿部拳之, Alexandre Proutiere.
マルコフ決定過程における良方策検定手法の提案.
第27回情報論的学習理論ワークショップ (IBIS 2024).
坂本充生, 森村哲郎, 陣内佑, 阿部拳之, 蟻生開人.
Filtered Direct Preference Optimization: 選好データセットの質に基づくフィルタリング手法の提案.
第27回情報論的学習理論ワークショップ (IBIS 2024).
藤本悠雅, 蟻生開人, 阿部拳之.
Synchronization behind Learning in Periodic Zero-Sum Games Triggers Divergence from Nash equilibrium.
第27回情報論的学習理論ワークショップ (IBIS 2024).
石橋宙希, 阿部拳之, 岩崎敦.
二人零和マルコフゲームにおける状態抽象化に関する研究.
第23回情報科学技術フォーラム (FIT 2024).
坂本充生, 阿部拳之, 蟻生開人, 岩崎敦.
RLHFにおける分布シフトの評価.
第38回人工知能学会全国大会 (JSAI 2024). [paper]
石橋宙希, 島野雄貴, 阿部拳之, 岩崎敦.
二人零和マルコフゲームにおける状態抽象化法に関する研究.
情報処理学会第86回全国大会 [paper].
板垣圭知, 小宮山純平, 阿部拳之, 岩崎敦.
研修医配属における地域間格差を調整する制約のモンテカルロ木探索.
情報処理学会第86回全国大会 [paper].
阿部拳之, 蟻生開人, 坂本充生, 岩崎敦.
A Slingshot Approach to Learning in Monotone Games.
第26回情報論的学習理論ワークショップ (IBIS 2023).
坂本充生, 阿部拳之, 蟻生開人, 岩崎敦.
Zero-Variance Perturbation Utiity for Extensive-Form Games.
第26回情報論的学習理論ワークショップ (IBIS 2023).
藤本悠雅, 蟻生開人, 阿部拳之.
Learning in Multi-Memory Games Triggers Complex Dynamics Diverging from Nash Equilibrium.
第26回情報論的学習理論ワークショップ (IBIS 2023).
山田博瑛, 小宮山純平, 阿部拳之, 岩崎敦.
オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究.
第26回情報論的学習理論ワークショップ (IBIS 2023).
山田博瑛, 小宮山純平, 阿部拳之, 岩崎敦.
オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究.
第22回情報科学技術フォーラム (FIT 2023).
板垣圭知, 小宮山純平, 阿部拳之, 岩崎敦.
研修医配属における地域間格差を調整するための制約のモンテカルロ木探索.
第22回情報科学技術フォーラム (FIT 2023).
坂本充生, 阿部拳之, 蟻生開人, 岩崎敦.
二人零和展開型ゲームにおける突然変異付き乗算型重み更新に関する研究.
第37回人工知能学会全国大会 (JSAI 2023). [paper]
山田博瑛, 小宮山純平, 阿部拳之, 岩崎敦.
オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究.
第37回人工知能学会全国大会 (JSAI 2023). [paper]
戸田隆道, 森村哲郎, 阿部拳之.
タスク指向対話システムの方策学習への Decision Transformerの適用.
言語処理学会第29回年次大会 (NLP 2023) [paper].
下山翔, 森村哲郎, 阿部拳之.
タスク指向対話における強化学習を用いた対話方策学習への敵対的学習の役割の解明.
言語処理学会第29回年次大会 (NLP 2023) [paper].
山田博瑛, 小宮山純平, 阿部拳之, 岩崎敦.
オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究.
情報処理学会第85回全国大会 [paper].
板垣圭知, 小宮山純平, 阿部拳之, 岩崎敦.
研修医配属における地域間格差を調整するための制約のモンテカルロ木探索.
情報処理学会第85回全国大会 [paper].
阿部拳之, 蟻生開人, 坂本充生, 豊島健太郎, 岩崎敦.
Last-Iterate Convergence with Full- and Noisy-Information Feedback in Two-Player Zero-Sum Games.
第25回情報論的学習理論ワークショップ (IBIS 2022).
蟻生開人, 阿部拳之, Alexandre Proutiere.
Thresholded Lasso Bandit.
第25回情報論的学習理論ワークショップ (IBIS 2022).
富樫陸, 阿部拳之.
公平性を考慮した大規模推薦システム.
第25回情報論的学習理論ワークショップ (IBIS 2022).
森村哲郎, 大田和寛, 阿部拳之, 張培楠.
ビームサーチ推論のための強化学習.
第25回情報論的学習理論ワークショップ (IBIS 2022).
豊島健太郎, 坂本充生, 阿部拳之, 岩崎敦.
二人零和ゲームにおける突然変異駆動型Follow-The-Regularized-Leaderの終極反復収束.
第21回情報科学技術フォーラム (FIT 2022).
坂本充生, 豊島健太郎, 阿部拳之, 岩崎敦.
二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究.
第36回人工知能学会全国大会 (JSAI 2022). [paper]
坂本充生, 阿部拳之, 岩崎敦.
二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究.
情報処理学会第84回全国大会.
豊島健太郎, 坂本充生, 阿部拳之, 岩崎敦.
クールノー競争におけるマルチエージェント強化学習に関する研究.
情報処理学会第84回全国大会.
坂本充生, 阿部拳之, 岩崎敦.
見間違えのある繰り返しゲームのためのActor-Critic型強化学習.
第24回情報論的学習理論ワークショップ (IBIS 2021).
坂本充生, 阿部拳之, 岩崎敦.
見間違えのある繰り返しゲームのためのActor-Critic型強化学習.
日本オペレーションズ・リサーチ学会 2021年秋季研究発表会. [paper]
坂本充生, 阿部拳之, 岩崎敦.
見間違えのある繰り返し囚人のジレンマにおける方策勾配法に関する研究.
第20回情報科学技術フォーラム (FIT 2021) (FIT船井ベストペーパー賞). [paper]
島野雄貴, 阿部拳之, 岩崎敦, 大河原一憲.
反実仮想後悔最小化によるアメリカンフットボールにおけるオフェンス戦略の均衡推定.
第20回情報科学技術フォーラム (FIT 2021).
阿部拳之, 金子雄祐.
二人零和マルコフゲームにおけるオフ方策評価のためのQ学習.
第25回ゲームプログラミングワークショップ (GPW 2020). [paper]
阿部拳之.
花札におけるナッシュ均衡戦略の計算.
第22回情報論的学習理論ワークショップ (IBIS 2019).
野村将寛, 阿部拳之.
Black-box最適化に対するBudgetを考慮した探索空間の初期化.
第33回人工知能学会全国大会 (JSAI 2019). [paper]
阿部拳之, 野村将寛.
非定常多腕バンディットアルゴリズムを用いたハイパーパラメータ最適化フレームワークの提案.
第21回情報論的学習理論ワークショップ (IBIS 2018).
阿部拳之, 小野功.
活用と探索の釣り合いを考慮した事例ベース政策最適化.
第12回進化計算学会研究会 (2017年). (ベストポスター発表賞)
阿部拳之, 小野功.
多峰性景観下での自然進化戦略による事例ベース政策最適化.
計測自動制御学会システム・情報部門学術講演会 (SSI 2016).
阿部拳之, 小野功.
自然進化戦略を用いた事例ベース政策最適化.
第54回システム工学部会研究会 (2016年).

Presentations

学習理論におけるゲーム理論のフロンティア
 第39回人工知能学会全国大会 (JSAI 2025) 企画セッション (2025/5/28).
Adaptively Perturbed Mirror Descent for Learning in Games
ICML 2024 著者発表会 (2024/7/10).
機械学習が紡ぐゲーム理論のフロンティア
第38回人工知能学会全国大会 (JSAI 2024) 企画セッション (2024/5/29).
Learning in games: ゲーム理論とオンライン学習
 Algorithmic Learning & Optimization 勉強会#1 (2023/6/24).
二人零和マルコフゲームにおけるオフ方策評価
 AAMAS2021 著者発表会 (2021/5/27).
広告配信オークションにおける入札戦略
第19回情報科学技術フォーラム (FIT 2020) (2020/9/1).
多人数不完全情報ゲームにおけるAI開発
日本経済学会 2020年度春季大会 (2020/5/30).
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
第43回強化学習アーキテクチャ勉強会 (2019/8/20).

Research

International Conference

International Workshop

Journal

Preprints

Domestic Conference

Presentations

Blog Posts