メインコンテンツへスキップ
  1. 研究テーマ/

Language Model Alignment and Preference Optimization

言語モデルの出力を人間の選好にどう整合させるか?

言語モデルの出力を人間の選好により整合させる方法を研究している。整合性と報酬ハッキングへの頑健性の観点から、生成戦略をどう設計・評価できるかに着目する。

研究の焦点
#

  • 生成戦略は人間の選好をどうすればより反映できるか
  • 報酬ハッキングに頑健な生成戦略とは何か

関連論文