Language Model Alignment and Preference Optimization

言語モデルの出力を人間の選好にどう整合させるか？

言語モデルの出力を人間の選好により整合させる方法を研究している。整合性と報酬ハッキングへの頑健性の観点から、生成戦略をどう設計・評価できるかに着目する。

研究の焦点
#

生成戦略は人間の選好をどうすればより反映できるか
報酬ハッキングに頑健な生成戦略とは何か

関連論文

NAACL 2025

Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignment

Yuu Jinnai, Tetsuro Morimura, Kaito Ariu, Kenshi Abe

テーマ:LLM Alignment

arXiv

Transactions on Machine Learning Research

Evaluation of Best-of-N Sampling Strategies for Language Model Alignment

Yuki Ichihara, Yuu Jinnai, Tetsuro Morimura, Kaito Ariu, Kenshi Abe, Mitsuki Sakamoto, Eiji Uchibe

テーマ:LLM Alignment

arXiv

EMNLP 2024

Filtered Direct Preference Optimization

Tetsuro Morimura, Mitsuki Sakamoto, Yuu Jinnai, Kenshi Abe, Kaito Ariu

テーマ:LLM Alignment

arXiv

ICML 2024 Workshop on Models of Human Feedback for AI Alignment

Filtered Direct Preference Optimization

Tetsuro Morimura, Mitsuki Sakamoto, Yuu Jinnai, Kenshi Abe, Kaito Ariu

テーマ:LLM Alignment

arXiv

ICML 2024 Workshop on Models of Human Feedback for AI Alignment

Regularized Best-of-N Sampling to Mitigate Reward Hacking for Language Model Alignment

Yuu Jinnai, Tetsuro Morimura, Kaito Ariu, Kenshi Abe

テーマ:LLM Alignment

arXiv

ICML 2024

Model-Based Minimum Bayes Risk Decoding

Yuu Jinnai, Tetsuro Morimura, Ukyo Honda, Kaito Ariu, Kenshi Abe

テーマ:LLM Alignment

arXiv

Why Guided Dialog Policy Learning performs well? Understanding the role of adversarial learning and its alternative

Sho Shimoyama, Tetsuro Morimura, Kenshi Abe, Toda Takamichi, Yuta Tomomatsu, Masakazu Sugiyama, Asahi Hentona, Yuuki Azuma, Hirotaka Ninomiya

テーマ:LLM Alignment

arXiv

↑

研究の焦点#

関連論文

Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignment

Evaluation of Best-of-N Sampling Strategies for Language Model Alignment

Filtered Direct Preference Optimization

Filtered Direct Preference Optimization

Regularized Best-of-N Sampling to Mitigate Reward Hacking for Language Model Alignment

Model-Based Minimum Bayes Risk Decoding

Why Guided Dialog Policy Learning performs well? Understanding the role of adversarial learning and its alternative

研究の焦点
#