Stream Aligner: Efficient Sentence-Level Alignment via Distribution Induction

要約

大規模言語モデル (LLM) の急速な進歩により、その機能は大幅に向上しましたが、人間の価値観や意図との整合性についての懸念も高まっています。
適応トレーニングや推論時間法などの現在のアライメント戦略は、この分野での可能性を実証しています。
ただし、これらのアプローチは、さまざまなタスクや困難にわたって、展開の複雑さと機能のバランスを取るのに依然として苦労しています。
この研究では、生成プロセス全体にわたるさまざまなタスクの効率とパフォーマンスの向上を組み合わせる新しいアライメント パラダイムである、Streaming Distribution Induce Aligner (Stream Aligner) を紹介します。
Stream Aligner は、小規模なモデルを使用して接尾辞文の好みを学習し、上流モデルによって出力された接尾辞文を繰り返し修正し、修正された文を使用して後続の世代の接尾辞文を置き換えることにより、動的な文レベルの修正を実現します。
私たちの実験では、Aligner と比較して、Stream Aligner が追加モデルの機能への依存を減らし、LLM の推論能力を強化し、ユーザー対話中の待ち時間を短縮することを示しています。
具体的には、Stream Aligner-2B モデルは、テストされた Llama2-70B チャット モデルにおいて、有用性が 76.1%、無害性が 36.0% 向上し、Stream Aligner-8B は、テストされた被験者の数学能力が 3.5% 向上しました。
Llama3-70B-命令モデル。

要約(オリジナル)

The rapid advancement of large language models (LLMs) has led to significant improvements in their capabilities, but also to increased concerns about their alignment with human values and intentions. Current alignment strategies, including adaptive training and inference-time methods, have demonstrated potential in this area. However, these approaches still struggle to balance deployment complexity and capability across various tasks and difficulties. In this work, we introduce the Streaming Distribution Induce Aligner (Stream Aligner), a novel alignment paradigm that combines efficiency with enhanced performance in various tasks throughout the generation process. Stream Aligner achieves dynamic sentence-level correction by using a small model to learn the preferences of the suffix sentence, iteratively correcting the suffix sentence output by the upstream model, and then using the corrected sentence to replace the suffix sentence in subsequent generations. Compared to Aligner, our experiments demonstrate that Stream Aligner reduces reliance on the capabilities of additional models, enhances the reasoning abilities of LLMs, and decreases latency during user interaction. Specifically, Stream Aligner-2B model has achieved an improvement of 76.1% in helpfulness, 36.0% in harmlessness on the tested Llama2-70B-chat model, and Stream Aligner-8B has achieved an improvement of 3.5% on the math ability of the tested Llama3-70B-Instruct model.

arxiv情報

著者 Hantao Lou,Jiaming Ji,Kaile Wang,Yaodong Yang
発行日 2025-01-09 16:02:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク