A Preliminary Study of the Intrinsic Relationship between Complexity and Alignment

要約

オープンドメインの命令データを使用して大規模言語モデル (LLM) をトレーニングすると、最終タスクとユーザーの好みに合わせるという点で目覚ましい成功を収めています。
広範な調査により、指導データの品質と多様性を高めることで一貫してパフォーマンスが向上することが明らかになりました。
しかし、重要な指標としてのデータの複雑さの影響は、次の 3 つの側面において比較的未解明なままです。(1) 複雑さの増加に伴うパフォーマンス改善の持続可能性が不確実なスケーリング則、(2) 追加のトークン、複雑さによって改善がもたらされるかどうか
これは、より多くのトレーニング トークンの導入、および (3) 簡単なものから難しいものまでの範囲の指導を組み込むことの潜在的な利点がまだ十分に理解されていないカリキュラムの調整から来ています。
この論文では、制御可能な方法で命令データの複雑さを系統的に強化する \textit{tree-instruct} を提案します。
このアプローチでは、指定された数のノードが命令セマンティック ツリーに追加され、変更されたツリーに基づいて新しい命令データが生成されます。
追加するノードの数を調整することで、修正された命令データの難易度を制御できます。
私たちの予備実験により、次の洞察が明らかになりました。 (1) 複雑さの増加は、一貫してパフォーマンスの持続的な向上につながります。
たとえば、1,000 個の命令データと 10 個のノードを使用すると、勝率が 24\% 大幅に向上しました。
(2) 同じトークン バジェットの下では、いくつかの複雑な命令が、多様ではあるが単純な命令よりも優れたパフォーマンスを発揮します。
(3) カリキュラム指導の調整では、期待した結果が得られない可能性があります。
複雑さの増大に焦点を当てることが鍵となるようです。

要約(オリジナル)

Training large language models (LLMs) with open-domain instruction data has yielded remarkable success in aligning to end tasks and user preferences. Extensive research has highlighted that enhancing the quality and diversity of instruction data consistently improves performance. However, the impact of data complexity, as a crucial metric, remains relatively unexplored in three aspects: (1) scaling law, where the sustainability of performance improvements with increasing complexity is uncertain, (2) additional tokens, whether the improvement brought by complexity comes from introducing more training tokens, and (3) curriculum tuning, where the potential advantages of incorporating instructions ranging from easy to difficult are not yet fully understood. In this paper, we propose \textit{tree-instruct} to systematically enhance the complexity of instruction data in a controllable manner. This approach adds a specified number of nodes into the instruction semantic tree, yielding new instruction data based on the modified tree. By adjusting the number of added nodes, we can control the difficulty level in the modified instruction data. Our preliminary experiments reveal the following insights: (1) Increasing complexity consistently leads to sustained performance improvements. For instance, using 1,000 instruction data and 10 nodes resulted in a substantial 24\% increase in win rate. (2) Under the same token budget, a few complex instructions outperform diverse yet simple instructions. (3) Curriculum instruction tuning might not yield the anticipated results; focusing on increasing complexity appears to be the key.

arxiv情報

著者 Yingxiu Zhao,Bowen Yu,Binyuan Hui,Haiyang Yu,Fei Huang,Yongbin Li,Nevin L. Zhang
発行日 2023-08-10 16:58:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク