要約
LLM 透かしは、LLM で生成されたテキストを識別するために、モデル出力に知覚できないもののアルゴリズム的に検出可能な信号を埋め込み、大規模な言語モデルの潜在的な誤用を軽減する上で重要になっています。
ただし、豊富な LLM 透かしアルゴリズム、その複雑なメカニズム、複雑な評価手順と視点により、研究者やコミュニティが最新の進歩を簡単に実験し、理解し、評価することが困難になっています。
これらの問題に対処するために、LLM 透かし入れ用のオープンソース ツールキットである MarkLLM を紹介します。
MarkLLM は、LLM 透かしアルゴリズムを実装するための統合された拡張可能なフレームワークを提供すると同時に、アクセスを容易にするユーザーフレンドリーなインターフェイスを提供します。
さらに、これらのアルゴリズムの基礎となるメカニズムの自動視覚化をサポートすることで、理解を深めます。
評価のために、MarkLLM は、2 種類の自動評価パイプラインとともに、3 つの観点にわたる 12 のツールの包括的なスイートを提供します。
私たちは、MarkLLM を通じて研究者をサポートしながら、LLM 透かし技術に対する一般の人々の理解と参加を向上させ、コンセンサスを醸成し、研究と応用のさらなる進歩を推進することを目指しています。
私たちのコードは https://github.com/THU-BPM/MarkLLM で入手できます。
要約(オリジナル)
LLM watermarking, which embeds imperceptible yet algorithmically detectable signals in model outputs to identify LLM-generated text, has become crucial in mitigating the potential misuse of large language models. However, the abundance of LLM watermarking algorithms, their intricate mechanisms, and the complex evaluation procedures and perspectives pose challenges for researchers and the community to easily experiment with, understand, and assess the latest advancements. To address these issues, we introduce MarkLLM, an open-source toolkit for LLM watermarking. MarkLLM offers a unified and extensible framework for implementing LLM watermarking algorithms, while providing user-friendly interfaces to ensure ease of access. Furthermore, it enhances understanding by supporting automatic visualization of the underlying mechanisms of these algorithms. For evaluation, MarkLLM offers a comprehensive suite of 12 tools spanning three perspectives, along with two types of automated evaluation pipelines. Through MarkLLM, we aim to support researchers while improving the comprehension and involvement of the general public in LLM watermarking technology, fostering consensus and driving further advancements in research and application. Our code is available at https://github.com/THU-BPM/MarkLLM.
arxiv情報
著者 | Leyi Pan,Aiwei Liu,Zhiwei He,Zitian Gao,Xuandong Zhao,Yijian Lu,Binglin Zhou,Shuliang Liu,Xuming Hu,Lijie Wen,Irwin King |
発行日 | 2024-05-16 12:40:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google