論文

国際会議27件

ICML 2026 Oral

Asymmetric Perturbation in Solving Bilinear Saddle-Point Optimization

Kenshi Abe, Mitsuki Sakamoto, Kaito Ariu, Atsushi Iwasaki

テーマ:Learning in Games

arXiv

ICML 2026

Last-Iterate Convergence of Regularized Gradient Methods for Stochastic Monotone Variational Inequalities

Shinji Ito, Taira Tsuchiya, Kaito Ariu, Kenshi Abe

テーマ:Learning in Games

OpenReview

AAMAS 2026 (Extended abstract)

Time-Varyingness in Auction Breaks Revenue Equivalence

Yuma Fujimoto, Kaito Ariu, Kenshi Abe

テーマ:Bandits & Online Learning

arXiv

AISTATS 2026

Policy Testing in Markov Decision Processes

Kaito Ariu, Po-An Wang, Alexandre Proutiere, Kenshi Abe

テーマ:Reinforcement Learning

arXiv

NeurIPS 2025

Last Iterate Convergence in Monotone Mean Field Games

Noboru Isobe, Kenshi Abe, Kaito Ariu

テーマ:Learning in Games

arXiv

NeurIPS 2025

Learning from Delayed Feedback in Games via Extra Prediction

Yuma Fujimoto, Kaito Ariu, Kenshi Abe

テーマ:Learning in Games

arXiv

AAMAS 2025 (Full paper)

Global Behavior of Learning Dynamics in Zero-Sum Games with Memory Asymmetry

Yuma Fujimoto, Kaito Ariu, Kenshi Abe

テーマ:Learning in Games

arXiv

AAMAS 2025 (Extended abstract)

Nash Equilibrium and Learning Dynamics in Three-Player Matching m-Action Games

Yuma Fujimoto, Kaito Ariu, Kenshi Abe

テーマ:Learning in Games

arXiv

NAACL 2025

Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignment

Yuu Jinnai, Tetsuro Morimura, Kaito Ariu, Kenshi Abe

テーマ:LLM Alignment

arXiv

ICLR 2025

Boosting Perturbed Gradient Ascent for Last-Iterate Convergence in Games

Kenshi Abe, Mitsuki Sakamoto, Kaito Ariu, Atsushi Iwasaki

テーマ:Learning in Games

arXiv

WSDM 2025 (Industry day talks)

Efficient Creative Selection in Online Advertising using Top-Two Thompson Sampling

Daiki Katsuragawa, Yusuke Kaneko, Kaito Ariu, Kenshi Abe

テーマ:Bandits & Online Learning

Paper

AAAI 2025

Approximate State Abstraction for Markov Games

Hiroki Ishibashi, Kenshi Abe, Atsushi Iwasaki

テーマ:Learning in Games

arXiv

AAAI 2025

Synchronization behind Learning in Periodic Zero-Sum Games Triggers Divergence from Nash equilibrium

Yuma Fujimoto, Kaito Ariu, Kenshi Abe

テーマ:Learning in Games

arXiv

EMNLP 2024

Filtered Direct Preference Optimization

Tetsuro Morimura, Mitsuki Sakamoto, Yuu Jinnai, Kenshi Abe, Kaito Ariu

テーマ:LLM Alignment

arXiv

Reinforcement Learning Conference (RLC) 2024

Policy Gradient Algorithms with Monte-Carlo Tree Search for Non-Markov Decision Processes

Tetsuro Morimura, Kazuhiro Ota, Kenshi Abe, Peinan Zhang

テーマ:Reinforcement Learning

arXiv

ICML 2024

Adaptively Perturbed Mirror Descent for Learning in Games

Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Atsushi Iwasaki

テーマ:Learning in Games

arXiv

ICML 2024

Model-Based Minimum Bayes Risk Decoding

Yuu Jinnai, Tetsuro Morimura, Ukyo Honda, Kaito Ariu, Kenshi Abe

テーマ:LLM Alignment

arXiv

WWW 2024

Scalable and Provably Fair Exposure Control for Large-Scale Recommender Systems

Riku Togashi, Kenshi Abe, Yuta Saito

テーマ:Fairness & Allocation

arXiv

AISTATS 2024

Learning Fair Division from Bandit Feedback

Hakuei Yamada, Junpei Komiyama, Kenshi Abe, Atsushi Iwasaki

テーマ:Fairness & Allocation

arXiv

AAAI 2024

Memory Asymmetry Creates Heteroclinic Orbits to Nash Equilibrium in Learning in Zero-Sum Games

Yuma Fujimoto, Kaito Ariu, Kenshi Abe

テーマ:Learning in Games

arXiv

IJCAI 2023

Learning in Multi-Memory Games Triggers Complex Dynamics Diverging from Nash Equilibrium

Yuma Fujimoto, Kaito Ariu, Kenshi Abe

テーマ:Learning in Games

arXiv

SIGIR 2023 (Short Paper)

Exploration of Unranked Items in Safe Online Learning to Re-Rank

Hiroaki Shiino, Kaito Ariu, Kenshi Abe, Togashi Riku

テーマ:Bandits & Online Learning

arXiv

AISTATS 2023

Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Games

Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Kentaro Toyoshima, Atsushi Iwasaki

テーマ:Learning in Games

arXiv

UAI 2022

Mutation-Driven Follow the Regularized Leader for Last-Iterate Convergence in Zero-Sum Games

Kenshi Abe, Mitsuki Sakamoto, Atsushi Iwasaki

テーマ:Learning in Games

arXiv

IJCAI 2022

Anytime Capacity Expansion in Medical Residency Match by Monte Carlo Tree Search

Kenshi Abe, Junpei Komiyama, Atsushi Iwasaki

テーマ:Fairness & Allocation

arXiv

ICML 2022

Thresholded LASSO Bandit

Kaito Ariu, Kenshi Abe, Alexandre Proutière

テーマ:Bandits & Online Learning

arXiv

AAMAS 2021 (Full Paper)

Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games

Kenshi Abe, Yusuke Kaneko

テーマ:Learning in Games

arXiv

ジャーナル3件

Transactions on Machine Learning Research

Return-Aligned Decision Transformer

Tsunehiko Tanaka, Kenshi Abe, Kaito Ariu, Tetsuro Morimura, Edgar Simo-Serra

テーマ:Reinforcement Learning

arXiv

Transactions on Machine Learning Research

Evaluation of Best-of-N Sampling Strategies for Language Model Alignment

Yuki Ichihara, Yuu Jinnai, Tetsuro Morimura, Kaito Ariu, Kenshi Abe, Mitsuki Sakamoto, Eiji Uchibe

テーマ:LLM Alignment

arXiv

情報処理学会論文誌

二人零和ゲームにおける突然変異駆動型正則化先導者追従法の終極反復収束

阿部拳之, 豊島健太郎, 坂本充生, 岩崎敦

テーマ:Learning in Games

Paper

国際ワークショップ7件

NeurIPS 2025 Workshop on Aligning Reinforcement Learning Experimentalists and Theorists

Policy Testing in Markov Decision Processes

Kaito Ariu, Po-An Wang, Alexandre Proutiere, Kenshi Abe

テーマ:Reinforcement Learning

arXiv

ICML 2024 Workshop on Models of Human Feedback for AI Alignment

Filtered Direct Preference Optimization

Tetsuro Morimura, Mitsuki Sakamoto, Yuu Jinnai, Kenshi Abe, Kaito Ariu

テーマ:LLM Alignment

arXiv

ICML 2024 Workshop on Models of Human Feedback for AI Alignment

Regularized Best-of-N Sampling to Mitigate Reward Hacking for Language Model Alignment

Yuu Jinnai, Tetsuro Morimura, Kaito Ariu, Kenshi Abe

テーマ:LLM Alignment

arXiv

RecSys 2022 FAccTRec Workshop

Fair Matrix Factorisation for Large-Scale Recommender Systems

Riku Togashi, Kenshi Abe

テーマ:Fairness & Allocation

arXiv

AAAI 2022 Workshop on Reinforcement Learning in Games Oral

Computing Strategies of American Football via Counterfactual Regret Minimization

Yuki Shimano, Kenshi Abe, Atsushi Iwasaki, Kazunori Ohkawara

テーマ:Learning in Games

Paper

NeurIPS 2021 Workshop on Deep Reinforcement Learning

Direct Expected Quadratic Utility Maximization for Mean-Variance Controlled Reinforcement Learning

Masahiro Kato, Kei Nakagawa, Kenshi Abe, Tetsuro Morimura

テーマ:Reinforcement Learning

arXiv

AAAI 2020 Workshop on Reinforcement Learning in Games

Online Learning for Bidding Agent in First Price Auction

Gota Morishita, Kenshi Abe, Kazuhisa Ogawa, Yusuke Kaneko

テーマ:Bandits & Online Learning

Paper

プレプリント4件

arXiv

The Power of Perturbation under Sampling in Solving Extensive-Form Games

Wataru Masaka, Mitsuki Sakamoto, Kenshi Abe, Kaito Ariu, Tuomas Sandholm, Atsushi Iwasaki

テーマ:Learning in Games

arXiv

Why Guided Dialog Policy Learning performs well? Understanding the role of adversarial learning and its alternative

Sho Shimoyama, Tetsuro Morimura, Kenshi Abe, Toda Takamichi, Yuta Tomomatsu, Masakazu Sugiyama, Asahi Hentona, Yuuki Azuma, Hirotaka Ninomiya

テーマ:LLM Alignment

arXiv

A Practical Guide of Off-Policy Evaluation for Bandit Problems

Masahiro Kato, Kenshi Abe, Kaito Ariu, Shota Yasui

テーマ:Bandits & Online Learning

arXiv

A Simple Heuristic for Bayesian Optimization with A Low Budget

Masahiro Nomura, Kenshi Abe

arXiv

国内発表54件

第28回情報論的学習理論ワークショップ (IBIS 2025)

Asymmetric Perturbation in Solving Bilinear Saddle-Point Optimization

阿部拳之, 坂本充生, 蟻生開人, 岩崎敦

テーマ:Learning in Games

第28回情報論的学習理論ワークショップ (IBIS 2025)

Policy Testing in Markov Decision Processes

Po-An Wang, Kaito Ariu, Alexandre Proutiere, Kenshi Abe

テーマ:Reinforcement Learning

第28回情報論的学習理論ワークショップ (IBIS 2025)

Unified Convergence Guarantees for Learning with General Payoff Perturbations in Extensive-Form Games

阿部拳之, 坂本充生, 眞坂航宙, 蟻生開人, 岩崎敦

テーマ:Learning in Games

第28回情報論的学習理論ワークショップ (IBIS 2025)

ゲームにおける時間遅れフィードバックからの学習

藤本悠雅, 阿部拳之, 蟻生開人

テーマ:Learning in Games

第28回情報論的学習理論ワークショップ (IBIS 2025)

オークション環境の時間変動による収入同値の破れ

藤本悠雅, 蟻生開人, 阿部拳之

テーマ:Bandits & Online Learning

第28回情報論的学習理論ワークショップ (IBIS 2025)

共通トレンドを考慮した加法報酬モデルに基づく非定常バンディットアルゴリズム

暮石航大, 蟻生開人, 阿部拳之

テーマ:Bandits & Online Learning

第24回情報科学技術フォーラム (FIT 2025)

不完全情報展開型ゲームの求解における利得摂動に関する研究

眞坂航宙, 坂本充生, 阿部拳之, 蟻生開人, 岩崎敦

テーマ:Learning in Games

第39回人工知能学会全国大会 (JSAI 2025)

周期的なゼロ和ゲームにおけるマルチエージェント学習

藤本悠雅, 蟻生開人, 阿部拳之

テーマ:Learning in Games

Paper

第39回人工知能学会全国大会 (JSAI 2025)

日本語大規模言語モデルの自己学習によるアライメントの実験評価

坂本充生, 陣内佑, 森村哲郎, 阿部拳之, 蟻生開人

テーマ:LLM Alignment

Paper

第39回人工知能学会全国大会 (JSAI 2025)

不完全情報展開型ゲームの求解における利得摂動に関する研究

眞坂航宙, 坂本充生, 阿部拳之, 蟻生開人, 岩崎敦

テーマ:Learning in Games

Paper

情報処理学会第87回全国大会

不完全情報展開型ゲームの求解における利得摂動に関する研究

眞坂航宙, 坂本充生, 阿部拳之, 蟻生開人, 岩崎敦

テーマ:Learning in Games

言語処理学会第31回年次大会 (NLP 2025)

大規模言語モデルのためのアライメントデータ合成手法の実験的評価

坂本充生, 陣内佑, 森村哲郎, 阿部拳之, 蟻生開人

テーマ:LLM Alignment

Paper

第27回情報論的学習理論ワークショップ (IBIS 2024)

（不完全情報）展開型ゲームにおける零分散の利得摂動手法

眞坂航宙, 坂本充生, 阿部拳之, 蟻生開人, 岩崎敦

テーマ:Learning in Games

第27回情報論的学習理論ワークショップ (IBIS 2024)

Evaluation of Best-of-N Sampling Strategies for Language Model Alignment

市原有生希, 陣内佑, 森村哲郎, 阿部拳之, 蟻生開人, 坂本充生, 内部英治

テーマ:LLM Alignment

第27回情報論的学習理論ワークショップ (IBIS 2024)

Filtered Direct Preference Optimization: 選好データセットの質に基づくフィルタリング手法の提案

坂本充生, 森村哲郎, 陣内佑, 阿部拳之, 蟻生開人

テーマ:LLM Alignment

第27回情報論的学習理論ワークショップ (IBIS 2024)

Last Iterate Convergence in Monotone Mean Field Games

磯部伸, 阿部拳之, 蟻生開人

テーマ:Learning in Games

第27回情報論的学習理論ワークショップ (IBIS 2024)

Synchronization behind Learning in Periodic Zero-Sum Games Triggers Divergence from Nash equilibrium

藤本悠雅, 蟻生開人, 阿部拳之

テーマ:Learning in Games

第27回情報論的学習理論ワークショップ (IBIS 2024)

ベイズリスク選好最適化：報酬モデル不要のオンライン選好最適化手法

森村哲郎, 坂本充生, 陣内佑, 阿部拳之, 蟻生開人

テーマ:LLM Alignment

第27回情報論的学習理論ワークショップ (IBIS 2024)

マルコフ決定過程における良方策検定手法の提案

蟻生開人, Po-An Wang, 阿部拳之, Alexandre Proutiere

テーマ:Reinforcement Learning

第23回情報科学技術フォーラム (FIT 2024)

二人零和マルコフゲームにおける状態抽象化に関する研究

石橋宙希, 阿部拳之, 岩崎敦

テーマ:Learning in Games

第38回人工知能学会全国大会 (JSAI 2024)

RLHFにおける分布シフトの評価

坂本充生, 阿部拳之, 蟻生開人, 岩崎敦

テーマ:LLM Alignment

Paper

情報処理学会第86回全国大会

研修医配属における地域間格差を調整する制約のモンテカルロ木探索

板垣圭知, 小宮山純平, 阿部拳之, 岩崎敦

テーマ:Fairness & Allocation

Paper

情報処理学会第86回全国大会

二人零和マルコフゲームにおける状態抽象化法に関する研究

石橋宙希, 島野雄貴, 阿部拳之, 岩崎敦

テーマ:Learning in Games

Paper

第26回情報論的学習理論ワークショップ (IBIS 2023)

A Slingshot Approach to Learning in Monotone Games

阿部拳之, 蟻生開人, 坂本充生, 岩崎敦

テーマ:Learning in Games

第26回情報論的学習理論ワークショップ (IBIS 2023)

Learning in Multi-Memory Games Triggers Complex Dynamics Diverging from Nash Equilibrium

藤本悠雅, 蟻生開人, 阿部拳之

テーマ:Learning in Games

第26回情報論的学習理論ワークショップ (IBIS 2023)

Zero-Variance Perturbation Utility for Extensive-Form Games

坂本充生, 阿部拳之, 蟻生開人, 岩崎敦

テーマ:Learning in Games

第26回情報論的学習理論ワークショップ (IBIS 2023)

オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究

山田博瑛, 小宮山純平, 阿部拳之, 岩崎敦

テーマ:Fairness & Allocation

第22回情報科学技術フォーラム (FIT 2023)

オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究

山田博瑛, 小宮山純平, 阿部拳之, 岩崎敦

テーマ:Fairness & Allocation

第22回情報科学技術フォーラム (FIT 2023)

研修医配属における地域間格差を調整するための制約のモンテカルロ木探索

板垣圭知, 小宮山純平, 阿部拳之, 岩崎敦

テーマ:Fairness & Allocation

第37回人工知能学会全国大会 (JSAI 2023)

オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究

山田博瑛, 小宮山純平, 阿部拳之, 岩崎敦

テーマ:Fairness & Allocation

Paper

第37回人工知能学会全国大会 (JSAI 2023)

二人零和展開型ゲームにおける突然変異付き乗算型重み更新に関する研究

坂本充生, 阿部拳之, 蟻生開人, 岩崎敦

テーマ:Learning in Games

Paper

言語処理学会第29回年次大会 (NLP 2023)

タスク指向対話システムの方策学習への Decision Transformerの適用

戸田隆道, 森村哲郎, 阿部拳之

テーマ:LLM Alignment

Paper

言語処理学会第29回年次大会 (NLP 2023)

タスク指向対話における強化学習を用いた対話方策学習への敵対的学習の役割の解明

下山翔, 森村哲郎, 阿部拳之

テーマ:LLM Alignment

Paper

情報処理学会第85回全国大会

オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究

山田博瑛, 小宮山純平, 阿部拳之, 岩崎敦

テーマ:Fairness & Allocation

Paper

情報処理学会第85回全国大会

研修医配属における地域間格差を調整するための制約のモンテカルロ木探索

板垣圭知, 小宮山純平, 阿部拳之, 岩崎敦

テーマ:Fairness & Allocation

Paper

第25回情報論的学習理論ワークショップ (IBIS 2022)

Last-Iterate Convergence with Full- and Noisy-Information Feedback in Two-Player Zero-Sum Games

阿部拳之, 蟻生開人, 坂本充生, 豊島健太郎, 岩崎敦

テーマ:Learning in Games

第25回情報論的学習理論ワークショップ (IBIS 2022)

Thresholded Lasso Bandit

蟻生開人, 阿部拳之, Alexandre Proutiere

テーマ:Bandits & Online Learning

第25回情報論的学習理論ワークショップ (IBIS 2022)

ビームサーチ推論のための強化学習

森村哲郎, 大田和寛, 阿部拳之, 張培楠

テーマ:Reinforcement Learning

第25回情報論的学習理論ワークショップ (IBIS 2022)

公平性を考慮した大規模推薦システム

富樫陸, 阿部拳之

テーマ:Fairness & Allocation

第21回情報科学技術フォーラム (FIT 2022)

二人零和ゲームにおける突然変異駆動型Follow-The-Regularized-Leaderの終極反復収束

豊島健太郎, 坂本充生, 阿部拳之, 岩崎敦

テーマ:Learning in Games

第36回人工知能学会全国大会 (JSAI 2022)

二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究

坂本充生, 豊島健太郎, 阿部拳之, 岩崎敦

テーマ:Learning in Games

Paper

情報処理学会第84回全国大会

クールノー競争におけるマルチエージェント強化学習に関する研究

豊島健太郎, 坂本充生, 阿部拳之, 岩崎敦

テーマ:Learning in Games

情報処理学会第84回全国大会

二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究

坂本充生, 阿部拳之, 岩崎敦

テーマ:Learning in Games

第24回情報論的学習理論ワークショップ (IBIS 2021)

見間違えのある繰り返しゲームのためのActor-Critic型強化学習

坂本充生, 阿部拳之, 岩崎敦

テーマ:Learning in Games

日本オペレーションズ・リサーチ学会 2021年秋季研究発表会

見間違えのある繰り返しゲームのためのActor-Critic型強化学習

坂本充生, 阿部拳之, 岩崎敦

テーマ:Learning in Games

Paper

第20回情報科学技術フォーラム (FIT 2021) FIT船井ベストペーパー賞

見間違えのある繰り返し囚人のジレンマにおける方策勾配法に関する研究

坂本充生, 阿部拳之, 岩崎敦

テーマ:Learning in Games

Paper

第20回情報科学技術フォーラム (FIT 2021)

反実仮想後悔最小化によるアメリカンフットボールにおけるオフェンス戦略の均衡推定

島野雄貴, 阿部拳之, 岩崎敦, 大河原一憲

テーマ:Learning in Games

第25回ゲームプログラミングワークショップ (GPW 2020)

二人零和マルコフゲームにおけるオフ方策評価のためのQ学習

阿部拳之, 金子雄祐

テーマ:Learning in Games

Paper

第22回情報論的学習理論ワークショップ (IBIS 2019)

花札におけるナッシュ均衡戦略の計算

阿部拳之

テーマ:Learning in Games

第33回人工知能学会全国大会 (JSAI 2019)

Black-box最適化に対するBudgetを考慮した探索空間の初期化

野村将寛, 阿部拳之

Paper

第21回情報論的学習理論ワークショップ (IBIS 2018)

非定常多腕バンディットアルゴリズムを用いたハイパーパラメータ最適化フレームワークの提案

阿部拳之, 野村将寛

第12回進化計算学会研究会 (2017年) ベストポスター発表賞

活用と探索の釣り合いを考慮した事例ベース政策最適化

阿部拳之, 小野功

計測自動制御学会システム・情報部門学術講演会 (SSI 2016)

多峰性景観下での自然進化戦略による事例ベース政策最適化

阿部拳之, 小野功

第54回システム工学部会研究会 (2016年)

自然進化戦略を用いた事例ベース政策最適化

阿部拳之, 小野功

↑