阿部拳之

阿部拳之https://bakanaouji.github.io/ja/Recent content on 阿部拳之Hugo -- gohugo.ioja© 2026 阿部拳之Tue, 07 Jul 2026 00:00:00 +0000Asymmetric Perturbation in Solving Bilinear Saddle-Point Optimizationhttps://bakanaouji.github.io/ja/publications/asymmetric-perturbation-bilinear-icml-2026/Tue, 07 Jul 2026 00:00:00 +0000https://bakanaouji.github.io/ja/publications/asymmetric-perturbation-bilinear-icml-2026/Time-Varyingness in Auction Breaks Revenue Equivalencehttps://bakanaouji.github.io/ja/publications/time-varyingness-auction-aamas-2026/Wed, 27 May 2026 00:00:00 +0000https://bakanaouji.github.io/ja/publications/time-varyingness-auction-aamas-2026/Policy Testing in Markov Decision Processeshttps://bakanaouji.github.io/ja/publications/policy-testing-mdp-aistats-2026/Sat, 02 May 2026 00:00:00 +0000https://bakanaouji.github.io/ja/publications/policy-testing-mdp-aistats-2026/Policy Testing in Markov Decision Processeshttps://bakanaouji.github.io/ja/publications/policy-testing-mdp-neurips-2025/Sat, 06 Dec 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/policy-testing-mdp-neurips-2025/Last Iterate Convergence in Monotone Mean Field Gameshttps://bakanaouji.github.io/ja/publications/monotone-mean-field-games-neurips-2025/Wed, 03 Dec 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/monotone-mean-field-games-neurips-2025/Learning from Delayed Feedback in Games via Extra Predictionhttps://bakanaouji.github.io/ja/publications/learning-from-delayed-feedback-neurips-2025/Wed, 03 Dec 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/learning-from-delayed-feedback-neurips-2025/Asymmetric Perturbation in Solving Bilinear Saddle-Point Optimizationhttps://bakanaouji.github.io/ja/publications/asymmetric-perturbation-bilinear-ibis-2025/Wed, 12 Nov 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/asymmetric-perturbation-bilinear-ibis-2025/Policy Testing in Markov Decision Processeshttps://bakanaouji.github.io/ja/publications/policy-testing-mdp-ibis-2025/Wed, 12 Nov 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/policy-testing-mdp-ibis-2025/Unified Convergence Guarantees for Learning with General Payoff Perturbations in Extensive-Form Gameshttps://bakanaouji.github.io/ja/publications/unified-convergence-guarantees-efg-ibis-2025/Wed, 12 Nov 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/unified-convergence-guarantees-efg-ibis-2025/ゲームにおける時間遅れフィードバックからの学習https://bakanaouji.github.io/ja/publications/learning-from-delayed-feedback-ibis-2025/Wed, 12 Nov 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/learning-from-delayed-feedback-ibis-2025/オークション環境の時間変動による収入同値の破れhttps://bakanaouji.github.io/ja/publications/time-varyingness-auction-ibis-2025/Wed, 12 Nov 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/time-varyingness-auction-ibis-2025/共通トレンドを考慮した加法報酬モデルに基づく非定常バンディットアルゴリズムhttps://bakanaouji.github.io/ja/publications/additive-reward-non-stationary-bandit-ibis-2025/Wed, 12 Nov 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/additive-reward-non-stationary-bandit-ibis-2025/不完全情報展開型ゲームの求解における利得摂動に関する研究https://bakanaouji.github.io/ja/publications/perturbation-under-sampling-efg-fit-2025/Wed, 03 Sep 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/perturbation-under-sampling-efg-fit-2025/Return-Aligned Decision Transformerhttps://bakanaouji.github.io/ja/publications/return-aligned-decision-transformer-tmlr-2025/Sun, 08 Jun 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/return-aligned-decision-transformer-tmlr-2025/周期的なゼロ和ゲームにおけるマルチエージェント学習https://bakanaouji.github.io/ja/publications/synchronization-periodic-zero-sum-jsai-2025/Tue, 27 May 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/synchronization-periodic-zero-sum-jsai-2025/日本語大規模言語モデルの自己学習によるアライメントの実験評価https://bakanaouji.github.io/ja/publications/alignment-evaluation-llm-jsai-2025/Tue, 27 May 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/alignment-evaluation-llm-jsai-2025/不完全情報展開型ゲームの求解における利得摂動に関する研究https://bakanaouji.github.io/ja/publications/perturbation-under-sampling-efg-jsai-2025/Tue, 27 May 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/perturbation-under-sampling-efg-jsai-2025/Global Behavior of Learning Dynamics in Zero-Sum Games with Memory Asymmetryhttps://bakanaouji.github.io/ja/publications/global-behavior-zero-sum-games-aamas-2025/Wed, 21 May 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/global-behavior-zero-sum-games-aamas-2025/Nash Equilibrium and Learning Dynamics in Three-Player Matching m-Action Gameshttps://bakanaouji.github.io/ja/publications/three-player-matching-games-aamas-2025/Wed, 21 May 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/three-player-matching-games-aamas-2025/Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignmenthttps://bakanaouji.github.io/ja/publications/regularized-best-of-n-naacl-2025/Wed, 30 Apr 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/regularized-best-of-n-naacl-2025/Boosting Perturbed Gradient Ascent for Last-Iterate Convergence in Gameshttps://bakanaouji.github.io/ja/publications/boosting-perturbed-gradient-ascent-iclr-2025/Thu, 24 Apr 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/boosting-perturbed-gradient-ascent-iclr-2025/不完全情報展開型ゲームの求解における利得摂動に関する研究https://bakanaouji.github.io/ja/publications/perturbation-under-sampling-efg-ipsj-2025/Thu, 13 Mar 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/perturbation-under-sampling-efg-ipsj-2025/Efficient Creative Selection in Online Advertising using Top-Two Thompson Samplinghttps://bakanaouji.github.io/ja/publications/creative-selection-online-advertising-wsdm-2025/Tue, 11 Mar 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/creative-selection-online-advertising-wsdm-2025/大規模言語モデルのためのアライメントデータ合成手法の実験的評価https://bakanaouji.github.io/ja/publications/alignment-evaluation-llm-nlp-2025/Mon, 10 Mar 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/alignment-evaluation-llm-nlp-2025/Approximate State Abstraction for Markov Gameshttps://bakanaouji.github.io/ja/publications/state-abstraction-markov-games-aaai-2025/Thu, 27 Feb 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/state-abstraction-markov-games-aaai-2025/Synchronization behind Learning in Periodic Zero-Sum Games Triggers Divergence from Nash equilibriumhttps://bakanaouji.github.io/ja/publications/synchronization-periodic-zero-sum-aaai-2025/Thu, 27 Feb 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/synchronization-periodic-zero-sum-aaai-2025/Evaluation of Best-of-N Sampling Strategies for Language Model Alignmenthttps://bakanaouji.github.io/ja/publications/evaluation-best-of-n-tmlr-2025/Sat, 15 Feb 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/evaluation-best-of-n-tmlr-2025/The Power of Perturbation under Sampling in Solving Extensive-Form Gameshttps://bakanaouji.github.io/ja/publications/perturbation-under-sampling-efg-arxiv-2025/Tue, 28 Jan 2025 00:00:00 +0000https://bakanaouji.github.io/ja/publications/perturbation-under-sampling-efg-arxiv-2025/Filtered Direct Preference Optimizationhttps://bakanaouji.github.io/ja/publications/filtered-dpo-emnlp-2024/Tue, 12 Nov 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/filtered-dpo-emnlp-2024/（不完全情報）展開型ゲームにおける零分散の利得摂動手法https://bakanaouji.github.io/ja/publications/perturbation-under-sampling-efg-ibis-2024/Mon, 04 Nov 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/perturbation-under-sampling-efg-ibis-2024/Evaluation of Best-of-N Sampling Strategies for Language Model Alignmenthttps://bakanaouji.github.io/ja/publications/evaluation-best-of-n-ibis-2024/Mon, 04 Nov 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/evaluation-best-of-n-ibis-2024/Filtered Direct Preference Optimization: 選好データセットの質に基づくフィルタリング手法の提案https://bakanaouji.github.io/ja/publications/filtered-dpo-ibis-2024/Mon, 04 Nov 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/filtered-dpo-ibis-2024/Last Iterate Convergence in Monotone Mean Field Gameshttps://bakanaouji.github.io/ja/publications/monotone-mean-field-games-ibis-2024/Mon, 04 Nov 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/monotone-mean-field-games-ibis-2024/Synchronization behind Learning in Periodic Zero-Sum Games Triggers Divergence from Nash equilibriumhttps://bakanaouji.github.io/ja/publications/synchronization-periodic-zero-sum-ibis-2024/Mon, 04 Nov 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/synchronization-periodic-zero-sum-ibis-2024/ベイズリスク選好最適化：報酬モデル不要のオンライン選好最適化手法https://bakanaouji.github.io/ja/publications/bayes-risk-preference-optimization-ibis-2024/Mon, 04 Nov 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/bayes-risk-preference-optimization-ibis-2024/マルコフ決定過程における良方策検定手法の提案https://bakanaouji.github.io/ja/publications/policy-testing-mdp-ibis-2024/Mon, 04 Nov 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/policy-testing-mdp-ibis-2024/二人零和マルコフゲームにおける状態抽象化に関する研究https://bakanaouji.github.io/ja/publications/state-abstraction-markov-games-fit-2024/Wed, 04 Sep 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/state-abstraction-markov-games-fit-2024/Policy Gradient Algorithms with Monte-Carlo Tree Search for Non-Markov Decision Processeshttps://bakanaouji.github.io/ja/publications/policy-gradient-mcts-rlc-2024/Sat, 10 Aug 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/policy-gradient-mcts-rlc-2024/Filtered Direct Preference Optimizationhttps://bakanaouji.github.io/ja/publications/filtered-dpo-icml-2024/Fri, 26 Jul 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/filtered-dpo-icml-2024/Regularized Best-of-N Sampling to Mitigate Reward Hacking for Language Model Alignmenthttps://bakanaouji.github.io/ja/publications/regularized-best-of-n-icml-2024/Fri, 26 Jul 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/regularized-best-of-n-icml-2024/Adaptively Perturbed Mirror Descent for Learning in Gameshttps://bakanaouji.github.io/ja/publications/adaptively-perturbed-mirror-descent-icml-2024/Tue, 23 Jul 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/adaptively-perturbed-mirror-descent-icml-2024/Model-Based Minimum Bayes Risk Decodinghttps://bakanaouji.github.io/ja/publications/model-based-mbr-icml-2024/Tue, 23 Jul 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/model-based-mbr-icml-2024/RLHFにおける分布シフトの評価https://bakanaouji.github.io/ja/publications/distribution-shift-evaluation-rlhf-jsai-2024/Tue, 28 May 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/distribution-shift-evaluation-rlhf-jsai-2024/二人零和ゲームにおける突然変異駆動型正則化先導者追従法の終極反復収束https://bakanaouji.github.io/ja/publications/mutation-driven-ftrl-ipsj-j-2024/Wed, 15 May 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/mutation-driven-ftrl-ipsj-j-2024/Scalable and Provably Fair Exposure Control for Large-Scale Recommender Systemshttps://bakanaouji.github.io/ja/publications/scalable-fair-exposure-control-www-2024/Tue, 14 May 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/scalable-fair-exposure-control-www-2024/Learning Fair Division from Bandit Feedbackhttps://bakanaouji.github.io/ja/publications/learning-fair-division-aistats-2024/Thu, 02 May 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/learning-fair-division-aistats-2024/研修医配属における地域間格差を調整する制約のモンテカルロ木探索https://bakanaouji.github.io/ja/publications/medical-residency-match-ipsj-2024/Fri, 15 Mar 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/medical-residency-match-ipsj-2024/二人零和マルコフゲームにおける状態抽象化法に関する研究https://bakanaouji.github.io/ja/publications/state-abstraction-markov-games-ipsj-2024/Fri, 15 Mar 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/state-abstraction-markov-games-ipsj-2024/Memory Asymmetry Creates Heteroclinic Orbits to Nash Equilibrium in Learning in Zero-Sum Gameshttps://bakanaouji.github.io/ja/publications/memory-asymmetry-heteroclinic-orbits-aaai-2024/Thu, 22 Feb 2024 00:00:00 +0000https://bakanaouji.github.io/ja/publications/memory-asymmetry-heteroclinic-orbits-aaai-2024/A Slingshot Approach to Learning in Monotone Gameshttps://bakanaouji.github.io/ja/publications/adaptively-perturbed-mirror-descent-ibis-2023/Sun, 29 Oct 2023 00:00:00 +0000https://bakanaouji.github.io/ja/publications/adaptively-perturbed-mirror-descent-ibis-2023/Learning in Multi-Memory Games Triggers Complex Dynamics Diverging from Nash Equilibriumhttps://bakanaouji.github.io/ja/publications/multi-memory-games-ibis-2023/Sun, 29 Oct 2023 00:00:00 +0000https://bakanaouji.github.io/ja/publications/multi-memory-games-ibis-2023/Zero-Variance Perturbation Utility for Extensive-Form Gameshttps://bakanaouji.github.io/ja/publications/perturbation-under-sampling-efg-ibis-2023/Sun, 29 Oct 2023 00:00:00 +0000https://bakanaouji.github.io/ja/publications/perturbation-under-sampling-efg-ibis-2023/オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究https://bakanaouji.github.io/ja/publications/learning-fair-division-ibis-2023/Sun, 29 Oct 2023 00:00:00 +0000https://bakanaouji.github.io/ja/publications/learning-fair-division-ibis-2023/オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究https://bakanaouji.github.io/ja/publications/learning-fair-division-fit-2023/Wed, 06 Sep 2023 00:00:00 +0000https://bakanaouji.github.io/ja/publications/learning-fair-division-fit-2023/研修医配属における地域間格差を調整するための制約のモンテカルロ木探索https://bakanaouji.github.io/ja/publications/medical-residency-match-fit-2023/Wed, 06 Sep 2023 00:00:00 +0000https://bakanaouji.github.io/ja/publications/medical-residency-match-fit-2023/Learning in Multi-Memory Games Triggers Complex Dynamics Diverging from Nash Equilibriumhttps://bakanaouji.github.io/ja/publications/multi-memory-games-ijcai-2023/Tue, 22 Aug 2023 00:00:00 +0000https://bakanaouji.github.io/ja/publications/multi-memory-games-ijcai-2023/Exploration of Unranked Items in Safe Online Learning to Re-Rankhttps://bakanaouji.github.io/ja/publications/safe-online-learning-to-rerank-sigir-2023/Mon, 24 Jul 2023 00:00:00 +0000https://bakanaouji.github.io/ja/publications/safe-online-learning-to-rerank-sigir-2023/Why Guided Dialog Policy Learning performs well? Understanding the role of adversarial learning and its alternativehttps://bakanaouji.github.io/ja/publications/guided-dialog-adversarial-arxiv-2023/Thu, 13 Jul 2023 00:00:00 +0000https://bakanaouji.github.io/ja/publications/guided-dialog-adversarial-arxiv-2023/オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究https://bakanaouji.github.io/ja/publications/learning-fair-division-jsai-2023/Tue, 06 Jun 2023 00:00:00 +0000https://bakanaouji.github.io/ja/publications/learning-fair-division-jsai-2023/二人零和展開型ゲームにおける突然変異付き乗算型重み更新に関する研究https://bakanaouji.github.io/ja/publications/mutation-mwu-efg-jsai-2023/Tue, 06 Jun 2023 00:00:00 +0000https://bakanaouji.github.io/ja/publications/mutation-mwu-efg-jsai-2023/Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Gameshttps://bakanaouji.github.io/ja/publications/last-iterate-full-noisy-feedback-aistats-2023/Tue, 25 Apr 2023 00:00:00 +0000https://bakanaouji.github.io/ja/publications/last-iterate-full-noisy-feedback-aistats-2023/タスク指向対話システムの方策学習への Decision Transformerの適用https://bakanaouji.github.io/ja/publications/decision-transformer-dialogue-nlp-2023/Mon, 13 Mar 2023 00:00:00 +0000https://bakanaouji.github.io/ja/publications/decision-transformer-dialogue-nlp-2023/タスク指向対話における強化学習を用いた対話方策学習への敵対的学習の役割の解明https://bakanaouji.github.io/ja/publications/guided-dialog-adversarial-nlp-2023/Mon, 13 Mar 2023 00:00:00 +0000https://bakanaouji.github.io/ja/publications/guided-dialog-adversarial-nlp-2023/オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究https://bakanaouji.github.io/ja/publications/learning-fair-division-ipsj-2023/Thu, 02 Mar 2023 00:00:00 +0000https://bakanaouji.github.io/ja/publications/learning-fair-division-ipsj-2023/研修医配属における地域間格差を調整するための制約のモンテカルロ木探索https://bakanaouji.github.io/ja/publications/medical-residency-match-ipsj-2023/Thu, 02 Mar 2023 00:00:00 +0000https://bakanaouji.github.io/ja/publications/medical-residency-match-ipsj-2023/Last-Iterate Convergence with Full- and Noisy-Information Feedback in Two-Player Zero-Sum Gameshttps://bakanaouji.github.io/ja/publications/last-iterate-full-noisy-feedback-ibis-2022/Sun, 20 Nov 2022 00:00:00 +0000https://bakanaouji.github.io/ja/publications/last-iterate-full-noisy-feedback-ibis-2022/Thresholded Lasso Bandithttps://bakanaouji.github.io/ja/publications/thresholded-lasso-bandit-ibis-2022/Sun, 20 Nov 2022 00:00:00 +0000https://bakanaouji.github.io/ja/publications/thresholded-lasso-bandit-ibis-2022/ビームサーチ推論のための強化学習https://bakanaouji.github.io/ja/publications/policy-gradient-mcts-ibis-2022/Sun, 20 Nov 2022 00:00:00 +0000https://bakanaouji.github.io/ja/publications/policy-gradient-mcts-ibis-2022/公平性を考慮した大規模推薦システムhttps://bakanaouji.github.io/ja/publications/scalable-fair-exposure-control-ibis-2022/Sun, 20 Nov 2022 00:00:00 +0000https://bakanaouji.github.io/ja/publications/scalable-fair-exposure-control-ibis-2022/Fair Matrix Factorisation for Large-Scale Recommender Systemshttps://bakanaouji.github.io/ja/publications/scalable-fair-exposure-control-recsys-2022/Fri, 23 Sep 2022 00:00:00 +0000https://bakanaouji.github.io/ja/publications/scalable-fair-exposure-control-recsys-2022/二人零和ゲームにおける突然変異駆動型Follow-The-Regularized-Leaderの終極反復収束https://bakanaouji.github.io/ja/publications/mutation-driven-ftrl-fit-2022/Tue, 13 Sep 2022 00:00:00 +0000https://bakanaouji.github.io/ja/publications/mutation-driven-ftrl-fit-2022/Mutation-Driven Follow the Regularized Leader for Last-Iterate Convergence in Zero-Sum Gameshttps://bakanaouji.github.io/ja/publications/mutation-driven-ftrl-uai-2022/Tue, 02 Aug 2022 00:00:00 +0000https://bakanaouji.github.io/ja/publications/mutation-driven-ftrl-uai-2022/Anytime Capacity Expansion in Medical Residency Match by Monte Carlo Tree Searchhttps://bakanaouji.github.io/ja/publications/medical-residency-match-ijcai-2022/Tue, 26 Jul 2022 00:00:00 +0000https://bakanaouji.github.io/ja/publications/medical-residency-match-ijcai-2022/Thresholded LASSO Bandithttps://bakanaouji.github.io/ja/publications/thresholded-lasso-bandit-icml-2022/Tue, 19 Jul 2022 00:00:00 +0000https://bakanaouji.github.io/ja/publications/thresholded-lasso-bandit-icml-2022/二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究https://bakanaouji.github.io/ja/publications/mutation-driven-ftrl-jsai-2022/Tue, 14 Jun 2022 00:00:00 +0000https://bakanaouji.github.io/ja/publications/mutation-driven-ftrl-jsai-2022/クールノー競争におけるマルチエージェント強化学習に関する研究https://bakanaouji.github.io/ja/publications/multi-agent-rl-cournot-competition-ipsj-2022/Thu, 03 Mar 2022 00:00:00 +0000https://bakanaouji.github.io/ja/publications/multi-agent-rl-cournot-competition-ipsj-2022/二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究https://bakanaouji.github.io/ja/publications/mutation-driven-ftrl-ipsj-2022/Thu, 03 Mar 2022 00:00:00 +0000https://bakanaouji.github.io/ja/publications/mutation-driven-ftrl-ipsj-2022/Computing Strategies of American Football via Counterfactual Regret Minimizationhttps://bakanaouji.github.io/ja/publications/american-football-cfr-aaai-2022/Mon, 28 Feb 2022 00:00:00 +0000https://bakanaouji.github.io/ja/publications/american-football-cfr-aaai-2022/Direct Expected Quadratic Utility Maximization for Mean-Variance Controlled Reinforcement Learninghttps://bakanaouji.github.io/ja/publications/direct-quadratic-utility-maximization-neurips-2021/Mon, 13 Dec 2021 00:00:00 +0000https://bakanaouji.github.io/ja/publications/direct-quadratic-utility-maximization-neurips-2021/見間違えのある繰り返しゲームのためのActor-Critic型強化学習https://bakanaouji.github.io/ja/publications/misperception-repeated-games-ibis-2021/Wed, 10 Nov 2021 00:00:00 +0000https://bakanaouji.github.io/ja/publications/misperception-repeated-games-ibis-2021/見間違えのある繰り返しゲームのためのActor-Critic型強化学習https://bakanaouji.github.io/ja/publications/misperception-repeated-games-orsj-2021/Thu, 16 Sep 2021 00:00:00 +0000https://bakanaouji.github.io/ja/publications/misperception-repeated-games-orsj-2021/見間違えのある繰り返し囚人のジレンマにおける方策勾配法に関する研究https://bakanaouji.github.io/ja/publications/misperception-repeated-games-fit-2021/Wed, 25 Aug 2021 00:00:00 +0000https://bakanaouji.github.io/ja/publications/misperception-repeated-games-fit-2021/反実仮想後悔最小化によるアメリカンフットボールにおけるオフェンス戦略の均衡推定https://bakanaouji.github.io/ja/publications/american-football-cfr-fit-2021/Wed, 25 Aug 2021 00:00:00 +0000https://bakanaouji.github.io/ja/publications/american-football-cfr-fit-2021/Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Gameshttps://bakanaouji.github.io/ja/publications/off-policy-exploitability-evaluation-aamas-2021/Wed, 05 May 2021 00:00:00 +0000https://bakanaouji.github.io/ja/publications/off-policy-exploitability-evaluation-aamas-2021/二人零和マルコフゲームにおけるオフ方策評価のためのQ学習https://bakanaouji.github.io/ja/publications/off-policy-q-learning-markov-games-gpw-2020/Sat, 14 Nov 2020 00:00:00 +0000https://bakanaouji.github.io/ja/publications/off-policy-q-learning-markov-games-gpw-2020/A Practical Guide of Off-Policy Evaluation for Bandit Problemshttps://bakanaouji.github.io/ja/publications/off-policy-evaluation-bandits-guide-arxiv-2020/Fri, 23 Oct 2020 00:00:00 +0000https://bakanaouji.github.io/ja/publications/off-policy-evaluation-bandits-guide-arxiv-2020/Online Learning for Bidding Agent in First Price Auctionhttps://bakanaouji.github.io/ja/publications/bidding-agent-first-price-auction-aaai-2020/Sat, 08 Feb 2020 00:00:00 +0000https://bakanaouji.github.io/ja/publications/bidding-agent-first-price-auction-aaai-2020/花札におけるナッシュ均衡戦略の計算https://bakanaouji.github.io/ja/publications/nash-equilibrium-strategy-hanafuda-ibis-2019/Wed, 20 Nov 2019 00:00:00 +0000https://bakanaouji.github.io/ja/publications/nash-equilibrium-strategy-hanafuda-ibis-2019/A Simple Heuristic for Bayesian Optimization with A Low Budgethttps://bakanaouji.github.io/ja/publications/bayesian-optimization-low-budget-arxiv-2019/Mon, 18 Nov 2019 00:00:00 +0000https://bakanaouji.github.io/ja/publications/bayesian-optimization-low-budget-arxiv-2019/Black-box最適化に対するBudgetを考慮した探索空間の初期化https://bakanaouji.github.io/ja/publications/bayesian-optimization-low-budget-jsai-2019/Tue, 04 Jun 2019 00:00:00 +0000https://bakanaouji.github.io/ja/publications/bayesian-optimization-low-budget-jsai-2019/非定常多腕バンディットアルゴリズムを用いたハイパーパラメータ最適化フレームワークの提案https://bakanaouji.github.io/ja/publications/non-stationary-bandit-hpo-ibis-2018/Sun, 04 Nov 2018 00:00:00 +0000https://bakanaouji.github.io/ja/publications/non-stationary-bandit-hpo-ibis-2018/活用と探索の釣り合いを考慮した事例ベース政策最適化https://bakanaouji.github.io/ja/publications/exemplar-policy-optimization-ee-jpnsec-2017/Mon, 13 Mar 2017 00:00:00 +0000https://bakanaouji.github.io/ja/publications/exemplar-policy-optimization-ee-jpnsec-2017/多峰性景観下での自然進化戦略による事例ベース政策最適化https://bakanaouji.github.io/ja/publications/exemplar-policy-optimization-multimodal-ssi-2016/Tue, 06 Dec 2016 00:00:00 +0000https://bakanaouji.github.io/ja/publications/exemplar-policy-optimization-multimodal-ssi-2016/自然進化戦略を用いた事例ベース政策最適化https://bakanaouji.github.io/ja/publications/exemplar-policy-optimization-nes-sice-se-2016/Mon, 07 Mar 2016 00:00:00 +0000https://bakanaouji.github.io/ja/publications/exemplar-policy-optimization-nes-sice-se-2016/Bandits and Online Learninghttps://bakanaouji.github.io/ja/research/bandits-online-learning/Mon, 01 Jan 0001 00:00:00 +0000https://bakanaouji.github.io/ja/research/bandits-online-learning/オンライン環境で意思決定をしながら効率的に学習するには？Fairness in Recommender Systems and Allocationhttps://bakanaouji.github.io/ja/research/fairness-recsys-allocation/Mon, 01 Jan 0001 00:00:00 +0000https://bakanaouji.github.io/ja/research/fairness-recsys-allocation/限られた資源や機会を公平に配分するには？Language Model Alignment and Preference Optimizationhttps://bakanaouji.github.io/ja/research/language-model-alignment/Mon, 01 Jan 0001 00:00:00 +0000https://bakanaouji.github.io/ja/research/language-model-alignment/言語モデルの出力を人間の選好にどう整合させるか？Learning Dynamics and Equilibrium Computation in Gameshttps://bakanaouji.github.io/ja/research/learning-dynamics-equilibrium-games/Mon, 01 Jan 0001 00:00:00 +0000https://bakanaouji.github.io/ja/research/learning-dynamics-equilibrium-games/ナッシュ均衡へ高速に収束する学習アルゴリズムとは？Reinforcement Learning and Sequential Decision Makinghttps://bakanaouji.github.io/ja/research/reinforcement-learning-sequential-decision/Mon, 01 Jan 0001 00:00:00 +0000https://bakanaouji.github.io/ja/research/reinforcement-learning-sequential-decision/逐次的な意思決定において、方策をどう改善・評価するか？