Publications

International Conference26 papers

ICML 2026

Asymmetric Perturbation in Solving Bilinear Saddle-Point Optimization

Kenshi Abe, Mitsuki Sakamoto, Kaito Ariu, Atsushi Iwasaki

Theme:Learning in Games

arXiv

AAMAS 2026 (Extended abstract)

Time-Varyingness in Auction Breaks Revenue Equivalence

Yuma Fujimoto, Kaito Ariu, Kenshi Abe

Theme:Bandits & Online Learning

arXiv

AISTATS 2026

Policy Testing in Markov Decision Processes

Kaito Ariu, Po-An Wang, Alexandre Proutiere, Kenshi Abe

Theme:Reinforcement Learning

arXiv

NeurIPS 2025

Last Iterate Convergence in Monotone Mean Field Games

Noboru Isobe, Kenshi Abe, Kaito Ariu

Theme:Learning in Games

arXiv

NeurIPS 2025

Learning from Delayed Feedback in Games via Extra Prediction

Yuma Fujimoto, Kaito Ariu, Kenshi Abe

Theme:Learning in Games

arXiv

AAMAS 2025 (Full paper)

Global Behavior of Learning Dynamics in Zero-Sum Games with Memory Asymmetry

Yuma Fujimoto, Kaito Ariu, Kenshi Abe

Theme:Learning in Games

arXiv

AAMAS 2025 (Extended abstract)

Nash Equilibrium and Learning Dynamics in Three-Player Matching m-Action Games

Yuma Fujimoto, Kaito Ariu, Kenshi Abe

Theme:Learning in Games

arXiv

NAACL 2025

Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignment

Yuu Jinnai, Tetsuro Morimura, Kaito Ariu, Kenshi Abe

Theme:LLM Alignment

arXiv

ICLR 2025

Boosting Perturbed Gradient Ascent for Last-Iterate Convergence in Games

Kenshi Abe, Mitsuki Sakamoto, Kaito Ariu, Atsushi Iwasaki

Theme:Learning in Games

arXiv

WSDM 2025 (Industry day talks)

Efficient Creative Selection in Online Advertising using Top-Two Thompson Sampling

Daiki Katsuragawa, Yusuke Kaneko, Kaito Ariu, Kenshi Abe

Theme:Bandits & Online Learning

Paper

AAAI 2025

Approximate State Abstraction for Markov Games

Hiroki Ishibashi, Kenshi Abe, Atsushi Iwasaki

Theme:Learning in Games

arXiv

AAAI 2025

Synchronization behind Learning in Periodic Zero-Sum Games Triggers Divergence from Nash equilibrium

Yuma Fujimoto, Kaito Ariu, Kenshi Abe

Theme:Learning in Games

arXiv

EMNLP 2024

Filtered Direct Preference Optimization

Tetsuro Morimura, Mitsuki Sakamoto, Yuu Jinnai, Kenshi Abe, Kaito Ariu

Theme:LLM Alignment

arXiv

Reinforcement Learning Conference (RLC) 2024

Policy Gradient Algorithms with Monte-Carlo Tree Search for Non-Markov Decision Processes

Tetsuro Morimura, Kazuhiro Ota, Kenshi Abe, Peinan Zhang

Theme:Reinforcement Learning

arXiv

ICML 2024

Adaptively Perturbed Mirror Descent for Learning in Games

Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Atsushi Iwasaki

Theme:Learning in Games

arXiv

ICML 2024

Model-Based Minimum Bayes Risk Decoding

Yuu Jinnai, Tetsuro Morimura, Ukyo Honda, Kaito Ariu, Kenshi Abe

Theme:LLM Alignment

arXiv

WWW 2024

Scalable and Provably Fair Exposure Control for Large-Scale Recommender Systems

Riku Togashi, Kenshi Abe, Yuta Saito

Theme:Fairness & Allocation

arXiv

AISTATS 2024

Learning Fair Division from Bandit Feedback

Hakuei Yamada, Junpei Komiyama, Kenshi Abe, Atsushi Iwasaki

Theme:Fairness & Allocation

arXiv

AAAI 2024

Memory Asymmetry Creates Heteroclinic Orbits to Nash Equilibrium in Learning in Zero-Sum Games

Yuma Fujimoto, Kaito Ariu, Kenshi Abe

Theme:Learning in Games

arXiv

IJCAI 2023

Learning in Multi-Memory Games Triggers Complex Dynamics Diverging from Nash Equilibrium

Yuma Fujimoto, Kaito Ariu, Kenshi Abe

Theme:Learning in Games

arXiv

SIGIR 2023 (Short Paper)

Exploration of Unranked Items in Safe Online Learning to Re-Rank

Hiroaki Shiino, Kaito Ariu, Kenshi Abe, Togashi Riku

Theme:Bandits & Online Learning

arXiv

AISTATS 2023

Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Games

Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Kentaro Toyoshima, Atsushi Iwasaki

Theme:Learning in Games

arXiv

UAI 2022

Mutation-Driven Follow the Regularized Leader for Last-Iterate Convergence in Zero-Sum Games

Kenshi Abe, Mitsuki Sakamoto, Atsushi Iwasaki

Theme:Learning in Games

arXiv

IJCAI 2022

Anytime Capacity Expansion in Medical Residency Match by Monte Carlo Tree Search

Kenshi Abe, Junpei Komiyama, Atsushi Iwasaki

Theme:Fairness & Allocation

arXiv

ICML 2022

Thresholded LASSO Bandit

Kaito Ariu, Kenshi Abe, Alexandre Proutière

Theme:Bandits & Online Learning

arXiv

AAMAS 2021 (Full Paper)

Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games

Kenshi Abe, Yusuke Kaneko

Theme:Learning in Games

arXiv

Journal2 papers

Transactions on Machine Learning Research

Return-Aligned Decision Transformer

Tsunehiko Tanaka, Kenshi Abe, Kaito Ariu, Tetsuro Morimura, Edgar Simo-Serra

Theme:Reinforcement Learning

arXiv

Transactions on Machine Learning Research

Evaluation of Best-of-N Sampling Strategies for Language Model Alignment

Yuki Ichihara, Yuu Jinnai, Tetsuro Morimura, Kaito Ariu, Kenshi Abe, Mitsuki Sakamoto, Eiji Uchibe

Theme:LLM Alignment

arXiv

International Workshop7 papers

NeurIPS 2025 Workshop on Aligning Reinforcement Learning Experimentalists and Theorists

Policy Testing in Markov Decision Processes

Kaito Ariu, Po-An Wang, Alexandre Proutiere, Kenshi Abe

Theme:Reinforcement Learning

arXiv

ICML 2024 Workshop on Models of Human Feedback for AI Alignment

Filtered Direct Preference Optimization

Tetsuro Morimura, Mitsuki Sakamoto, Yuu Jinnai, Kenshi Abe, Kaito Ariu

Theme:LLM Alignment

arXiv

ICML 2024 Workshop on Models of Human Feedback for AI Alignment

Regularized Best-of-N Sampling to Mitigate Reward Hacking for Language Model Alignment

Yuu Jinnai, Tetsuro Morimura, Kaito Ariu, Kenshi Abe

Theme:LLM Alignment

arXiv

RecSys 2022 FAccTRec Workshop

Fair Matrix Factorisation for Large-Scale Recommender Systems

Riku Togashi, Kenshi Abe

Theme:Fairness & Allocation

arXiv

AAAI 2022 Workshop on Reinforcement Learning in Games (Oral Presentation)

Computing Strategies of American Football via Counterfactual Regret Minimization

Yuki Shimano, Kenshi Abe, Atsushi Iwasaki, Kazunori Ohkawara

Theme:Learning in Games

Paper

NeurIPS 2021 Workshop on Deep Reinforcement Learning

Direct Expected Quadratic Utility Maximization for Mean-Variance Controlled Reinforcement Learning

Masahiro Kato, Kei Nakagawa, Kenshi Abe, Tetsuro Morimura

Theme:Reinforcement Learning

arXiv

AAAI 2020 Workshop on Reinforcement Learning in Games

Online Learning for Bidding Agent in First Price Auction

Gota Morishita, Kenshi Abe, Kazuhisa Ogawa, Yusuke Kaneko

Theme:Bandits & Online Learning

Paper

Preprints4 papers

arXiv

The Power of Perturbation under Sampling in Solving Extensive-Form Games

Wataru Masaka, Mitsuki Sakamoto, Kenshi Abe, Kaito Ariu, Tuomas Sandholm, Atsushi Iwasaki

Theme:Learning in Games

arXiv

Why Guided Dialog Policy Learning performs well? Understanding the role of adversarial learning and its alternative

Sho Shimoyama, Tetsuro Morimura, Kenshi Abe, Toda Takamichi, Yuta Tomomatsu, Masakazu Sugiyama, Asahi Hentona, Yuuki Azuma, Hirotaka Ninomiya

Theme:LLM Alignment

arXiv

A Practical Guide of Off-Policy Evaluation for Bandit Problems

Masahiro Kato, Kenshi Abe, Kaito Ariu, Shota Yasui

Theme:Bandits & Online Learning

arXiv

A Simple Heuristic for Bayesian Optimization with A Low Budget

Masahiro Nomura, Kenshi Abe

arXiv

↑