Research
International Conference
- Tetsuro Morimura, Mitsuki Sakamoto, Yuu Jinnai, Kenshi Abe, Kaito Ariu.
Filtered Direct Preference Optimization
EMNLP 2024. [paper] - Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Atsushi Iwasaki.
Adaptively Perturbed Mirror Descent for Learning in Games
ICML 2024. [paper] - Yuu Jinnai, Tetsuro Morimura, Ukyo Honda, Kaito Ariu, Kenshi Abe.
Model-Based Minimum Bayes Risk Decoding
ICML 2024. [paper] - Yuu Jinnai, Tetsuro Morimura, Kaito Ariu, Kenshi Abe.
Regularized Best-of-N Sampling to Mitigate Reward Hacking for Language Model Alignment
ICML 2024 Workshop on Models of Human Feedback for AI Alignment. [paper] - Tetsuro Morimura, Mitsuki Sakamoto, Yuu Jinnai, Kenshi Abe, Kaito Ariu.
Filtered Direct Preference Optimization
ICML 2024 Workshop on Models of Human Feedback for AI Alignment. [paper] - Tetsuro Morimura, Kazuhiro Ota, Kenshi Abe, Peinan Zhang.
Policy Gradient Algorithms with Monte-Carlo Tree Search for Non-Markov Decision Processes
Reinforcement Learning Conference (RLC) 2024. [paper] - Riku Togashi, Kenshi Abe, Yuta Saito.
Scalable and Provably Fair Exposure Control for Large-Scale Recommender Systems
WWW 2024. [paper] - Hakuei Yamada, Junpei Komiyama, Kenshi Abe, Atsushi Iwasaki.
Learning Fair Division from Bandit Feedback
AISTATS 2024. [Paper] - Yuma Fujimoto, Kaito Ariu, Kenshi Abe.
Memory Asymmetry Creates Heteroclinic Orbits to Nash Equilibrium in Learning in Zero-Sum Games
AAAI 2024. [paper] - Hiroaki Shiino, Kaito Ariu, Kenshi Abe, Togashi Riku.
Exploration of Unranked Items in Safe Online Learning to Re-Rank
SIGIR 2023 (Short Paper). [paper] - Yuma Fujimoto, Kaito Ariu, Kenshi Abe.
Learning in Multi-Memory Games Triggers Complex Dynamics Diverging from Nash Equilibrium
IJCAI 2023. [paper] - Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Kentaro Toyoshima, Atsushi Iwasaki.
Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Games
AISTATS 2023. [paper] - Riku Togashi, Kenshi Abe.
Fair Matrix Factorisation for Large-Scale Recommender Systems
RecSys 2022 FAccTRec Workshop. [paper] - Kenshi Abe, Mitsuki Sakamoto, Atsushi Iwasaki.
Mutation-Driven Follow the Regularized Leader for Last-Iterate Convergence in Zero-Sum Games
UAI 2022. [paper] - Kaito Ariu, Kenshi Abe, Alexandre Proutière.
Thresholded LASSO Bandit
ICML 2022. [paper] - Kenshi Abe, Junpei Komiyama, Atsushi Iwasaki.
Anytime Capacity Expansion in Medical Residency Match by Monte Carlo Tree Search
IJCAI 2022. [paper] - Yuki Shimano, Kenshi Abe, Atsushi Iwasaki, Kazunori Ohkawara.
Computing Strategies of American Football via Counterfactual Regret Minimization
AAAI 2022 Workshop on Reinforcement Learning in Games (Oral Presentation). [paper] - Masahiro Kato, Kei Nakagawa, Kenshi Abe, Tetsuro Morimura.
Direct Expected Quadratic Utility Maximization for Mean-Variance Controlled Reinforcement Learning
NeurIPS 2021 Workshop on Deep Reinforcement Learning. [paper] - Kenshi Abe, Yusuke Kaneko.
Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games
AAMAS 2021 (Full Paper). [paper] - Gota Morishita*, Kenshi Abe*, Kazuhisa Ogawa, Yusuke Kaneko (*equal contribution).
Online Learning for Bidding Agent in First Price Auction
AAAI 2020 Workshop on Reinforcement Learning in Games. [paper]
Journal
- 阿部拳之, 豊島健太郎, 坂本充生, 岩崎敦.
二人零和ゲームにおける突然変異駆動型正則化先導者追従法の終極反復収束
情報処理学会論文誌. [paper]
Preprints
- Kenshi Abe, Mitsuki Sakamoto, Kaito Ariu, Atsushi Iwasaki.
Boosting Perturbed Gradient Ascent for Last-Iterate Convergence in Games
[Arxiv] - Yuma Fujimoto, Kaito Ariu, Kenshi Abe.
Synchronization behind Learning in Periodic Zero-Sum Games Triggers Divergence from Nash equilibrium
[Arxiv] - Yuma Fujimoto, Kaito Ariu, Kenshi Abe.
Global Behavior of Learning Dynamics in Zero-Sum Games with Memory Asymmetry
[Arxiv] - Yuma Fujimoto, Kaito Ariu, Kenshi Abe.
Nash Equilibrium and Learning Dynamics in Three-Player Matching m-Action Games
[Arxiv] - Tsunehiko Tanaka, Kenshi Abe, Kaito Ariu, Tetsuro Morimura, Edgar Simo-Serra.
Return-Aligned Decision Transformer
[Arxiv] - Sho Shimoyama, Tetsuro Morimura, Kenshi Abe, Toda Takamichi, Yuta Tomomatsu, Masakazu Sugiyama, Asahi Hentona, Yuuki Azuma, Hirotaka Ninomiya.
Why Guided Dialog Policy Learning performs well? Understanding the role of adversarial learning and its alternative
[Arxiv] - Masahiro Kato, Kenshi Abe, Kaito Ariu, Shota Yasui.
A Practical Guide of Off-Policy Evaluation for Bandit Problems
[Arxiv] - Masahiro Nomura, Kenshi Abe.
A Simple Heuristic for Bayesian Optimization with A Low Budget
[Arxiv]
Domestic Conference
- 坂本充生, 阿部拳之, 蟻生開人, 岩崎敦.
RLHFにおける分布シフトの評価.
第38回人工知能学会全国大会 (JSAI2024). [paper] - 石橋宙希, 島野雄貴, 阿部拳之, 岩崎敦.
二人零和マルコフゲームにおける状態抽象化法に関する研究.
情報処理学会 第86回全国大会 [paper]. - 板垣圭知, 小宮山純平, 阿部拳之, 岩崎敦.
研修医配属における地域間格差を調整する制約のモンテカルロ木探索.
情報処理学会 第86回全国大会 [paper]. - 阿部拳之, 蟻生開人, 坂本充生, 岩崎敦.
A Slingshot Approach to Learning in Monotone Games.
第25回情報論的学習理論ワークショップ (IBIS2023). - 坂本充生, 阿部拳之, 蟻生開人, 岩崎敦.
Zero-Variance Perturbation Utiity for Extensive-Form Games.
第25回情報論的学習理論ワークショップ (IBIS2023). - 藤本悠雅, 蟻生開人, 阿部拳之.
Learning in Multi-Memory Games Triggers Complex Dynamics Diverging from Nash Equilibrium.
第25回情報論的学習理論ワークショップ (IBIS2023). - 山田博瑛, 小宮山純平, 阿部拳之, 岩崎敦.
オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究.
第25回情報論的学習理論ワークショップ (IBIS2023). - 山田博瑛, 小宮山純平, 阿部拳之, 岩崎敦.
オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究.
第22回情報科学技術フォーラム (FIT 2023). - 板垣圭知, 小宮山純平, 阿部拳之, 岩崎敦.
研修医配属における地域間格差を調整するための制約のモンテカルロ木探索.
第22回情報科学技術フォーラム (FIT 2023). - 戸田隆道, 森村哲郎, 阿部拳之.
タスク指向対話システムの方策学習への Decision Transformerの適用.
言語処理学会 第29回年次大会 (NLP2023) [paper]. - 下山翔, 森村哲郎, 阿部拳之.
タスク指向対話における強化学習を用いた対話方策学習への敵対的学習の役割の解明.
言語処理学会 第29回年次大会 (NLP2023) [paper]. - 山田博瑛, 小宮山純平, 阿部拳之, 岩崎敦.
オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究.
情報処理学会 第85回全国大会 [paper]. - 板垣圭知, 小宮山純平, 阿部拳之, 岩崎敦.
研修医配属における地域間格差を調整するための制約のモンテカルロ木探索.
情報処理学会 第85回全国大会 [paper]. - 坂本充生, 阿部拳之, 蟻生開人, 岩崎敦.
二人零和展開型ゲームにおける突然変異付き乗算型重み更新に関する研究.
第37回人工知能学会全国大会 (JSAI2023). [paper] - 山田博瑛, 小宮山純平, 阿部拳之, 岩崎敦.
オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究.
第37回人工知能学会全国大会 (JSAI2023). [paper] - 阿部拳之, 蟻生開人, 坂本充生, 豊島健太郎, 岩崎敦.
Last-Iterate Convergence with Full- and Noisy-Information Feedback in Two-Player Zero-Sum Games.
第24回情報論的学習理論ワークショップ (IBIS2022). - 蟻生開人, 阿部拳之, Alexandre Proutiere.
Thresholded Lasso Bandit.
第24回情報論的学習理論ワークショップ (IBIS2022). - 富樫陸, 阿部拳之.
公平性を考慮した大規模推薦システム.
第24回情報論的学習理論ワークショップ (IBIS2022). - 森村哲郎, 大田和寛, 阿部拳之, 張培楠.
ビームサーチ推論のための強化学習.
第24回情報論的学習理論ワークショップ (IBIS2022). - 豊島健太郎, 坂本充生, 阿部拳之, 岩崎敦.
二人零和ゲームにおける突然変異駆動型Follow-The-Regularized-Leaderの終極反復収束.
第21回情報科学技術フォーラム (FIT 2022). - 坂本充生, 豊島健太郎, 阿部拳之, 岩崎敦.
二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究.
第36回人工知能学会全国大会 (JSAI2022). [paper] - 坂本充生, 阿部拳之, 岩崎敦.
二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究.
情報処理学会 第84回全国大会. - 豊島健太郎, 坂本充生, 阿部拳之, 岩崎敦.
クールノー競争におけるマルチエージェント強化学習に関する研究.
情報処理学会 第84回全国大会. - 坂本充生, 阿部拳之, 岩崎敦.
見間違えのある繰り返しゲームのためのActor-Critic型強化学習.
日本オペレーションズ・リサーチ学会 2021年 秋季研究発表会. [paper] - 坂本充生, 阿部拳之, 岩崎敦.
見間違えのある繰り返しゲームのためのActor-Critic型強化学習.
第24回情報論的学習理論ワークショップ (IBIS2021). - 島野雄貴, 阿部拳之, 岩崎敦, 大河原一憲.
反実仮想後悔最小化によるアメリカンフットボールにおけるオフェンス戦略の均衡推定.
第20回情報科学技術フォーラム (FIT 2021). - 坂本充生, 阿部拳之, 岩崎敦.
見間違えのある繰り返し囚人のジレンマにおける方策勾配法に関する研究.
第20回情報科学技術フォーラム (FIT 2021) (FIT船井ベストペーパー賞). [paper] - 阿部拳之, 金子雄祐.
二人零和マルコフゲームにおけるオフ方策評価のためのQ学習.
第25回ゲームプログラミングワークショップ (GPW 2020). [paper] - 阿部拳之.
花札におけるナッシュ均衡戦略の計算.
第22回情報論的学習理論ワークショップ (IBIS2019). - 野村将寛, 阿部拳之.
Black-box最適化に対するBudgetを考慮した探索空間の初期化.
第33回人工知能学会全国大会 (JSAI 2019). [paper] - 阿部拳之, 野村将寛.
非定常多腕バンディットアルゴリズムを用いたハイパーパラメータ最適化フレームワークの提案.
第21回情報論的学習理論ワークショップ (IBIS2018). - 阿部拳之, 小野功.
活用と探索の釣り合いを考慮した事例ベース政策最適化.
第12回進化計算学会研究会 (2017年). (ベストポスター発表賞) - 阿部拳之, 小野功.
多峰性景観下での自然進化戦略による事例ベース政策最適化.
計測自動制御学会システム・情報部門学術講演会 (SSI2016). - 阿部拳之, 小野功.
自然進化戦略を用いた事例ベース政策最適化.
第54回システム工学部会研究会 (2016年).
Presentations
- Adaptively Perturbed Mirror Descent for Learning in Games
ICML 2024 著者発表会 (2024/7/10). - 機械学習が紡ぐゲーム理論のフロンティア
第38回人工知能学会全国大会 (JSAI 2024) 企画セッション (2024/5/29). - Learning in games: ゲーム理論とオンライン学習
Algorithmic Learning & Optimization 勉強会#1 (2023/6/24). - 二人零和マルコフゲームにおけるオフ方策評価
AAMAS2021 著者発表会 (2021/5/27). - 広告配信オークションにおける入札戦略
第19回情報科学技術フォーラム (FIT 2020) (2020/9/1). - 多人数不完全情報ゲームにおけるAI開発
日本経済学会 2020年度春季大会 (2020/5/30). - 多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
第43回強化学習アーキテクチャ勉強会 (2019/8/20).