OpenAssistant Conversations — Democratizing Large Language Model Alignment

要約

タイトル:OpenAssistant Conversations – 大規模言語モデルの民主化されたアラインメント
要約:大規模言語モデル(LLMs)を人間の嗜好に合わせることで、使用可能性が大幅に向上し、ChatGPTの採用が加速されたことが証明されています。監視付き微調整(SFT)や人間のフィードバックからの強化学習(RLHF)などのアラインメント技術は、LLMsの機能を効果的に活用するために必要なスキルやドメイン知識を大幅に減らし、さまざまなドメインでのアクセスと有用性を向上させています。しかし、RLHFのような最新のアラインメント技術は、高品質な人間のフィードバックデータに依存しており、作成するのが高価で、しばしば独占的になります。大規模アラインメントの研究を民主化するために、OpenAssistant Conversationsをリリースします。161,443のメッセージで構成され、66,497の会話ツリーに分散し、35の異なる言語で、461,292の品質評価で注釈が付けられた人間が生成した、人間が注釈を付けたアシスタントスタイルの対話コーパスです。このコーパスは、13,500人以上のボランティアによる世界中のクラウドソーシングの成果です。OpenAssistant Conversationsデータセットの効果を示すために、人間のデータにチューニングされた最初の完全オープンソースの大規模モデルであるOpenAssistantを提供します。好みの調査により、OpenAssistantの回答は、GPT-3.5-turbo(ChatGPT)と比較して、相対勝率51.7%、48.3%と同程度に好まれるという結論が得られました。コードとデータは完全に許容されるライセンスで公開されます。

– 大規模言語モデル(LLMs)を人間の嗜好に合わせることで、使用可能性が大幅に向上し、ChatGPTの採用が加速されたことが証明されています。
– 監視付き微調整(SFT)や人間のフィードバックからの強化学習(RLHF)などのアラインメント技術は、LLMsの機能を効果的に活用するために必要なスキルやドメイン知識を大幅に減らし、さまざまなドメインでのアクセスと有用性を向上させています。
– RLHFのような最新のアラインメント技術は、高品質な人間のフィードバックデータに依存しており、作成するのが高価で、しばしば独占的になります。
– このコーパスは、13,500人以上のボランティアによる世界中のクラウドソーシングの成果であり、161,443のメッセージで構成され、66,497の会話ツリーに分散し、35の異なる言語で、461,292の品質評価で注釈が付けられた人間が生成した、人間が注釈を付けたアシスタントスタイルの対話コーパスです。
– OpenAssistantは、人間のデータにチューニングされた最初の完全オープンソースの大規模モデルであり、好みの調査により、OpenAssistantの回答がChatGPTと同程度に好まれるという結論が得られています。
– コードとデータは完全に許容されるライセンスで公開されます。

要約(オリジナル)

Aligning large language models (LLMs) with human preferences has proven to drastically improve usability and has driven rapid adoption as demonstrated by ChatGPT. Alignment techniques such as supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF) greatly reduce the required skill and domain knowledge to effectively harness the capabilities of LLMs, increasing their accessibility and utility across various domains. However, state-of-the-art alignment techniques like RLHF rely on high-quality human feedback data, which is expensive to create and often remains proprietary. In an effort to democratize research on large-scale alignment, we release OpenAssistant Conversations, a human-generated, human-annotated assistant-style conversation corpus consisting of 161,443 messages distributed across 66,497 conversation trees, in 35 different languages, annotated with 461,292 quality ratings. The corpus is a product of a worldwide crowd-sourcing effort involving over 13,500 volunteers. To demonstrate the OpenAssistant Conversations dataset’s effectiveness, we present OpenAssistant, the first fully open-source large-scale instruction-tuned model to be trained on human data. A preference study revealed that OpenAssistant replies are comparably preferred to GPT-3.5-turbo (ChatGPT) with a relative winrate of 48.3% vs. 51.7% respectively. We release our code and data under fully permissive licenses.

arxiv情報

著者 Andreas Köpf,Yannic Kilcher,Dimitri von Rütte,Sotiris Anagnostidis,Zhi-Rui Tam,Keith Stevens,Abdullah Barhoum,Nguyen Minh Duc,Oliver Stanley,Richárd Nagyfi,Shahul ES,Sameer Suri,David Glushkov,Arnav Dantuluri,Andrew Maguire,Christoph Schuhmann,Huu Nguyen,Alexander Mattick
発行日 2023-04-14 18:01:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, I.2 パーマリンク