要約
ヒューマン フィードバックからの強化学習 (RLHF) は、大規模な言語モデルの命令追従機能を強化するのに効果的であることが証明されています。
ただし、クロスモダリティ領域では依然として研究が進んでいません。
モダリティの数が増加するにつれて、すべてのモダリティ モデルを人間の意図 (指示に従うなど) に合わせることが差し迫った課題になります。
この研究では、すべてのモダリティ (テキスト、画像、オーディオ、
およびビデオ)、その動作が人間の意図と一致していることを確認します。
この取り組みにはいくつかの課題があります。
まず、ほとんどのデータセットが特定のモダリティ、主にテキストと画像に限定されているため、既存のオープンソース リソースには大規模な全モダリティの人間の嗜好データは存在しません。
第二に、複雑な全モダリティのシナリオにおけるトレーニング後の調整に対する RLHF のバイナリ設定の有効性は、依然として未開拓の領域です。
最後に、特にモダリティの選択と相乗効果に関して、全モダリティ モデルの機能を評価するための体系的な枠組みが欠如しています。
これらの課題に対処するために、私たちは、細心の注意を払って注釈が付けられた 200,000 個の全モダリティの人間の嗜好データを含む align-anything フレームワークを提案します。
次に、統一言語フィードバックから学習する調整方法を導入し、複雑なモダリティ固有の人間の好みを効果的に捕捉し、モデルの指示追従機能を強化します。
さらに、トレーニング後の調整後の全モダリティ モデルのパフォーマンスの向上を評価するために、挑戦的な全モダリティ能力評価フレームワークである eval-anything を構築します。
すべてのデータ、モデル、コード フレームワークはコミュニティ向けにオープンソース化されています。
詳細については、https://github.com/PKU-Alignment/align-anything を参照してください。
要約(オリジナル)
Reinforcement learning from human feedback (RLHF) has proven effective in enhancing the instruction-following capabilities of large language models; however, it remains underexplored in the cross-modality domain. As the number of modalities increases, aligning all-modality models with human intentions — such as instruction following — becomes a pressing challenge. In this work, we make the first attempt to fine-tune all-modality models (i.e. input and output with any modality, also named any-to-any models) using human preference data across all modalities (including text, image, audio, and video), ensuring its behavior aligns with human intentions. This endeavor presents several challenges. First, there is no large-scale all-modality human preference data in existing open-source resources, as most datasets are limited to specific modalities, predominantly text and image. Secondly, the effectiveness of binary preferences in RLHF for post-training alignment in complex all-modality scenarios remains an unexplored area. Finally, there is a lack of a systematic framework to evaluate the capabilities of all-modality models, particularly regarding modality selection and synergy. To address these challenges, we propose the align-anything framework, which includes meticulously annotated 200k all-modality human preference data. Then, we introduce an alignment method that learns from unified language feedback, effectively capturing complex modality-specific human preferences and enhancing the model’s instruction-following capabilities. Furthermore, to assess performance improvements in all-modality models after post-training alignment, we construct a challenging all-modality capability evaluation framework — eval-anything. All data, models, and code frameworks have been open-sourced for the community. For more details, please refer to https://github.com/PKU-Alignment/align-anything.
arxiv情報
著者 | Jiaming Ji,Jiayi Zhou,Hantao Lou,Boyuan Chen,Donghai Hong,Xuyao Wang,Wenqi Chen,Kaile Wang,Rui Pan,Jiahao Li,Mohan Wang,Josef Dai,Tianyi Qiu,Hua Xu,Dong Li,Weipeng Chen,Jun Song,Bo Zheng,Yaodong Yang |
発行日 | 2024-12-20 12:27:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google