OpenAssistant Conversations — Democratizing Large Language Model Alignment

要約

大規模言語モデル (LLM) を人間の好みに合わせることで、ユーザビリティが大幅に向上することが証明されており、ChatGPT が示すように急速な導入が促進されています。
教師あり微調整 (SFT) やヒューマン フィードバックからの強化学習 (RLHF) などの調整手法により、LLM の機能を効果的に活用するために必要なスキルとドメイン知識が大幅に軽減され、さまざまなドメインにわたる LLM のアクセシビリティと有用性が向上します。
ただし、RLHF のような最先端のアライメント技術は、人間による高品質のフィードバック データに依存しているため、作成に費用がかかり、多くの場合独自仕様のままです。
大規模なアライメントに関する研究を民主化する取り組みとして、私たちは OpenAssistant Conversations をリリースしました。これは人間が生成し、人間が注釈を付けたアシスタント スタイルの会話コーパスであり、35 の異なる言語で 161,443 のメッセージから構成され、461,292 の品質評価で注釈が付けられています。その結果、10,000 以上の完全なメッセージが得られます。
完全に注釈が付けられた会話ツリー。
このコーパスは、13,500 人を超えるボランティアが参加する世界規模のクラウドソーシング活動の成果です。
OpenAssistant Conversations でトレーニングされたモデルは、標準ベンチマークでそれぞれの基本モデルと比較して一貫した改善を示しています。
私たちはコードとデータを完全に寛容なライセンスに基づいてリリースします。

要約(オリジナル)

Aligning large language models (LLMs) with human preferences has proven to drastically improve usability and has driven rapid adoption as demonstrated by ChatGPT. Alignment techniques such as supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF) greatly reduce the required skill and domain knowledge to effectively harness the capabilities of LLMs, increasing their accessibility and utility across various domains. However, state-of-the-art alignment techniques like RLHF rely on high-quality human feedback data, which is expensive to create and often remains proprietary. In an effort to democratize research on large-scale alignment, we release OpenAssistant Conversations, a human-generated, human-annotated assistant-style conversation corpus consisting of 161,443 messages in 35 different languages, annotated with 461,292 quality ratings, resulting in over 10,000 complete and fully annotated conversation trees. The corpus is a product of a worldwide crowd-sourcing effort involving over 13,500 volunteers. Models trained on OpenAssistant Conversations show consistent improvements on standard benchmarks over respective base models. We release our code and data under a fully permissive licence.

arxiv情報

著者 Andreas Köpf,Yannic Kilcher,Dimitri von Rütte,Sotiris Anagnostidis,Zhi-Rui Tam,Keith Stevens,Abdullah Barhoum,Nguyen Minh Duc,Oliver Stanley,Richárd Nagyfi,Shahul ES,Sameer Suri,David Glushkov,Arnav Dantuluri,Andrew Maguire,Christoph Schuhmann,Huu Nguyen,Alexander Mattick
発行日 2023-10-31 11:38:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2 パーマリンク