論文
研究テーマで絞り込む
国際会議26件
ICML 2026
AAMAS 2026 (Extended abstract)
Time-Varyingness in Auction Breaks Revenue Equivalence
テーマ:Bandits & Online LearningAISTATS 2026
Policy Testing in Markov Decision Processes
テーマ:Reinforcement LearningNeurIPS 2025
Last Iterate Convergence in Monotone Mean Field Games
テーマ:Learning in GamesNeurIPS 2025
Learning from Delayed Feedback in Games via Extra Prediction
テーマ:Learning in GamesAAMAS 2025 (Full paper)
Global Behavior of Learning Dynamics in Zero-Sum Games with Memory Asymmetry
テーマ:Learning in GamesAAMAS 2025 (Extended abstract)
Nash Equilibrium and Learning Dynamics in Three-Player Matching m-Action Games
テーマ:Learning in GamesNAACL 2025
Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignment
テーマ:LLM AlignmentICLR 2025
Boosting Perturbed Gradient Ascent for Last-Iterate Convergence in Games
テーマ:Learning in GamesWSDM 2025 (Industry day talks)
Efficient Creative Selection in Online Advertising using Top-Two Thompson Sampling
テーマ:Bandits & Online LearningAAAI 2025
Approximate State Abstraction for Markov Games
テーマ:Learning in GamesAAAI 2025
Synchronization behind Learning in Periodic Zero-Sum Games Triggers Divergence from Nash equilibrium
テーマ:Learning in GamesEMNLP 2024
Filtered Direct Preference Optimization
テーマ:LLM AlignmentReinforcement Learning Conference (RLC) 2024
Policy Gradient Algorithms with Monte-Carlo Tree Search for Non-Markov Decision Processes
テーマ:Reinforcement LearningICML 2024
Adaptively Perturbed Mirror Descent for Learning in Games
テーマ:Learning in GamesICML 2024
Model-Based Minimum Bayes Risk Decoding
テーマ:LLM AlignmentWWW 2024
Scalable and Provably Fair Exposure Control for Large-Scale Recommender Systems
テーマ:Fairness & AllocationAISTATS 2024
Learning Fair Division from Bandit Feedback
テーマ:Fairness & AllocationAAAI 2024
Memory Asymmetry Creates Heteroclinic Orbits to Nash Equilibrium in Learning in Zero-Sum Games
テーマ:Learning in GamesIJCAI 2023
Learning in Multi-Memory Games Triggers Complex Dynamics Diverging from Nash Equilibrium
テーマ:Learning in GamesSIGIR 2023 (Short Paper)
Exploration of Unranked Items in Safe Online Learning to Re-Rank
テーマ:Bandits & Online LearningAISTATS 2023
Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Games
テーマ:Learning in GamesUAI 2022
Mutation-Driven Follow the Regularized Leader for Last-Iterate Convergence in Zero-Sum Games
テーマ:Learning in GamesIJCAI 2022
Anytime Capacity Expansion in Medical Residency Match by Monte Carlo Tree Search
テーマ:Fairness & AllocationICML 2022
Thresholded LASSO Bandit
テーマ:Bandits & Online LearningAAMAS 2021 (Full Paper)
Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games
テーマ:Learning in Gamesジャーナル3件
Transactions on Machine Learning Research
Return-Aligned Decision Transformer
テーマ:Reinforcement LearningTransactions on Machine Learning Research
Evaluation of Best-of-N Sampling Strategies for Language Model Alignment
テーマ:LLM Alignment情報処理学会論文誌
二人零和ゲームにおける突然変異駆動型正則化先導者追従法の終極反復収束
テーマ:Learning in Games国際ワークショップ7件
NeurIPS 2025 Workshop on Aligning Reinforcement Learning Experimentalists and Theorists
Policy Testing in Markov Decision Processes
テーマ:Reinforcement LearningICML 2024 Workshop on Models of Human Feedback for AI Alignment
Filtered Direct Preference Optimization
テーマ:LLM AlignmentICML 2024 Workshop on Models of Human Feedback for AI Alignment
Regularized Best-of-N Sampling to Mitigate Reward Hacking for Language Model Alignment
テーマ:LLM AlignmentRecSys 2022 FAccTRec Workshop
Fair Matrix Factorisation for Large-Scale Recommender Systems
テーマ:Fairness & AllocationAAAI 2022 Workshop on Reinforcement Learning in Games (Oral Presentation)
Computing Strategies of American Football via Counterfactual Regret Minimization
テーマ:Learning in GamesNeurIPS 2021 Workshop on Deep Reinforcement Learning
Direct Expected Quadratic Utility Maximization for Mean-Variance Controlled Reinforcement Learning
テーマ:Reinforcement LearningAAAI 2020 Workshop on Reinforcement Learning in Games
Online Learning for Bidding Agent in First Price Auction
テーマ:Bandits & Online Learningプレプリント4件
arXiv
The Power of Perturbation under Sampling in Solving Extensive-Form Games
テーマ:Learning in GamesarXiv
Why Guided Dialog Policy Learning performs well? Understanding the role of adversarial learning and its alternative
テーマ:LLM AlignmentarXiv
A Practical Guide of Off-Policy Evaluation for Bandit Problems
テーマ:Bandits & Online LearningarXiv
A Simple Heuristic for Bayesian Optimization with A Low Budget
国内発表54件
Asymmetric Perturbation in Solving Bilinear Saddle-Point Optimization
テーマ:Learning in GamesPolicy Testing in Markov Decision Processes
テーマ:Reinforcement LearningUnified Convergence Guarantees for Learning with General Payoff Perturbations in Extensive-Form Games
テーマ:Learning in Gamesゲームにおける時間遅れフィードバックからの学習
テーマ:Learning in Gamesオークション環境の時間変動による収入同値の破れ
テーマ:Bandits & Online Learning共通トレンドを考慮した加法報酬モデルに基づく非定常バンディットアルゴリズム
テーマ:Bandits & Online Learning不完全情報展開型ゲームの求解における利得摂動に関する研究
テーマ:Learning in Games周期的なゼロ和ゲームにおけるマルチエージェント学習
テーマ:Learning in Games日本語大規模言語モデルの自己学習によるアライメントの実験評価
テーマ:LLM Alignment不完全情報展開型ゲームの求解における利得摂動に関する研究
テーマ:Learning in Games不完全情報展開型ゲームの求解における利得摂動に関する研究
テーマ:Learning in Games大規模言語モデルのためのアライメントデータ合成手法の実験的評価
テーマ:LLM Alignment(不完全情報)展開型ゲームにおける零分散の利得摂動手法
テーマ:Learning in GamesEvaluation of Best-of-N Sampling Strategies for Language Model Alignment
テーマ:LLM AlignmentFiltered Direct Preference Optimization: 選好データセットの質に基づくフィルタリング手法の提案
テーマ:LLM AlignmentLast Iterate Convergence in Monotone Mean Field Games
テーマ:Learning in GamesSynchronization behind Learning in Periodic Zero-Sum Games Triggers Divergence from Nash equilibrium
テーマ:Learning in Gamesベイズリスク選好最適化:報酬モデル不要のオンライン選好最適化手法
テーマ:LLM Alignmentマルコフ決定過程における良方策検定手法の提案
テーマ:Reinforcement Learning二人零和マルコフゲームにおける状態抽象化に関する研究
テーマ:Learning in GamesRLHFにおける分布シフトの評価
テーマ:LLM Alignment研修医配属における地域間格差を調整する制約のモンテカルロ木探索
テーマ:Fairness & Allocation二人零和マルコフゲームにおける状態抽象化法に関する研究
テーマ:Learning in GamesA Slingshot Approach to Learning in Monotone Games
テーマ:Learning in GamesLearning in Multi-Memory Games Triggers Complex Dynamics Diverging from Nash Equilibrium
テーマ:Learning in GamesZero-Variance Perturbation Utility for Extensive-Form Games
テーマ:Learning in Gamesオンライン環境において公平な資源配分を実現するアルゴリズムに関する研究
テーマ:Fairness & Allocationオンライン環境において公平な資源配分を実現するアルゴリズムに関する研究
テーマ:Fairness & Allocation研修医配属における地域間格差を調整するための制約のモンテカルロ木探索
テーマ:Fairness & Allocationオンライン環境において公平な資源配分を実現するアルゴリズムに関する研究
テーマ:Fairness & Allocation二人零和展開型ゲームにおける突然変異付き乗算型重み更新に関する研究
テーマ:Learning in Gamesタスク指向対話システムの方策学習への Decision Transformerの適用
テーマ:LLM Alignmentタスク指向対話における強化学習を用いた対話方策学習への敵対的学習の役割の解明
テーマ:LLM Alignmentオンライン環境において公平な資源配分を実現するアルゴリズムに関する研究
テーマ:Fairness & Allocation研修医配属における地域間格差を調整するための制約のモンテカルロ木探索
テーマ:Fairness & AllocationLast-Iterate Convergence with Full- and Noisy-Information Feedback in Two-Player Zero-Sum Games
テーマ:Learning in GamesThresholded Lasso Bandit
テーマ:Bandits & Online Learningビームサーチ推論のための強化学習
テーマ:Reinforcement Learning公平性を考慮した大規模推薦システム
テーマ:Fairness & Allocation二人零和ゲームにおける突然変異駆動型Follow-The-Regularized-Leaderの終極反復収束
テーマ:Learning in Games二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究
テーマ:Learning in Gamesクールノー競争におけるマルチエージェント強化学習に関する研究
テーマ:Learning in Games二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究
テーマ:Learning in Games見間違えのある繰り返しゲームのためのActor-Critic型強化学習
テーマ:Learning in Games見間違えのある繰り返しゲームのためのActor-Critic型強化学習
テーマ:Learning in Games第20回情報科学技術フォーラム (FIT 2021)
FIT船井ベストペーパー賞
見間違えのある繰り返し囚人のジレンマにおける方策勾配法に関する研究
テーマ:Learning in Games反実仮想後悔最小化によるアメリカンフットボールにおけるオフェンス戦略の均衡推定
テーマ:Learning in Games二人零和マルコフゲームにおけるオフ方策評価のためのQ学習
テーマ:Learning in Games花札におけるナッシュ均衡戦略の計算
テーマ:Learning in GamesBlack-box最適化に対するBudgetを考慮した探索空間の初期化
非定常多腕バンディットアルゴリズムを用いたハイパーパラメータ最適化フレームワークの提案
第12回進化計算学会研究会 (2017年)
ベストポスター発表賞
活用と探索の釣り合いを考慮した事例ベース政策最適化
多峰性景観下での自然進化戦略による事例ベース政策最適化
自然進化戦略を用いた事例ベース政策最適化
該当する論文が見つかりませんでした。