要約
大規模言語モデル (LLM) のシームレスな相互運用性を可能にする統一フレームワークの台頭により、オープンエンドのタスクに対する LLM と LLM のコラボレーションが可能になりました。
それにもかかわらず、このような共同執筆を探求する取り組みはこれまでなかった。
私たちは人間と LLM のコラボレーションを超えた次のステップに進み、CollabStory と呼ばれる初の LLM のみで生成されたコラボレーション ストーリー データセットを生成することで、このマルチ LLM シナリオを探索します。
私たちは、複数の LLM がストーリーを共同執筆する、単一著者 ($N=1$) から複数著者 (最大 $N=5$) のシナリオに焦点を当てています。
私たちは、オープンソースの命令調整された LLM を使用して 32,000 を超えるストーリーを生成します。
さらに、人間と人間の複数著者による執筆タスクと分析の標準を設定した PAN タスクからインスピレーションを得ています。
私たちは、マルチ LLM 設定の作成者関連タスクを拡張し、LLM 間コラボレーションのベースラインを提示します。
現在のベースラインでは、この新たなシナリオに対処できないことがわかりました。
したがって、CollabStory は、複数の LLM の使用を識別するための技術の開発と理解を促進するのに役立つリソースです。
LLM と LLM のコラボレーションは、盗作の検出、単位の割り当て、教育現場での学問的誠実さの維持、著作権侵害の懸念への対処などに関連する進行中の課題を潜在的に克服する可能性があるため、これは執筆タスクのコンテキストで研究するために非常に重要です。
データセットとコードは \texttt{\url{https://github.com/saranya-venkatraman/multi_llm_story_writing}} で入手できます。
要約(オリジナル)
The rise of unifying frameworks that enable seamless interoperability of Large Language Models (LLMs) has made LLM-LLM collaboration for open-ended tasks a possibility. Despite this, there have not been efforts to explore such collaborative writing. We take the next step beyond human-LLM collaboration to explore this multi-LLM scenario by generating the first exclusively LLM-generated collaborative stories dataset called CollabStory. We focus on single-author ($N=1$) to multi-author (up to $N=5$) scenarios, where multiple LLMs co-author stories. We generate over 32k stories using open-source instruction-tuned LLMs. Further, we take inspiration from the PAN tasks that have set the standard for human-human multi-author writing tasks and analysis. We extend their authorship-related tasks for multi-LLM settings and present baselines for LLM-LLM collaboration. We find that current baselines are not able to handle this emerging scenario. Thus, CollabStory is a resource that could help propel an understanding as well as the development of techniques to discern the use of multiple LLMs. This is crucial to study in the context of writing tasks since LLM-LLM collaboration could potentially overwhelm ongoing challenges related to plagiarism detection, credit assignment, maintaining academic integrity in educational settings, and addressing copyright infringement concerns. We make our dataset and code available at \texttt{\url{https://github.com/saranya-venkatraman/multi_llm_story_writing}}.
arxiv情報
著者 | Saranya Venkatraman,Nafis Irtiza Tripto,Dongwon Lee |
発行日 | 2024-06-18 14:35:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google