TextMachina: Seamless Generation of Machine-Generated Text Datasets

要約

大規模言語モデル (LLM) の最近の進歩により、高品質の機械生成テキスト (MGT) が実現され、数え切れないほどの新しい使用例やアプリケーションが生まれました。
しかし、LLM への簡単なアクセスは、悪用により新たな課題を引き起こしています。
悪意のある使用に対処するために、研究者は、MGT 関連のタスクでモデルを効果的にトレーニングするためのデータセットをリリースしました。
これらのデータセットをコンパイルするために同様の戦略が使用されていますが、現在それらを統合するツールはありません。
このシナリオでは、検出、アトリビューション、ミックスケース、境界検出などの MGT 関連タスク用の堅牢なモデルを構築するための高品質で不偏なデータセットの作成を支援するように設計された、モジュール式で拡張可能な Python フレームワークである TextMacina を紹介します。
LLM 統合、プロンプト テンプレート、バイアス軽減など、MGT データセットの構築に固有の複雑さを抽象化するユーザー フレンドリーなパイプラインを提供します。
TextMacina によって生成されたデータセットの品質は、100 を超えるチームが堅牢な MGT 検出器をトレーニングした共有タスクなど、これまでの研究で評価されています。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have led to high-quality Machine-Generated Text (MGT), giving rise to countless new use cases and applications. However, easy access to LLMs is posing new challenges due to misuse. To address malicious usage, researchers have released datasets to effectively train models on MGT-related tasks. Similar strategies are used to compile these datasets, but no tool currently unifies them. In this scenario, we introduce TextMachina, a modular and extensible Python framework, designed to aid in the creation of high-quality, unbiased datasets to build robust models for MGT-related tasks such as detection, attribution, mixcase, or boundary detection. It provides a user-friendly pipeline that abstracts away the inherent intricacies of building MGT datasets, such as LLM integrations, prompt templating, and bias mitigation. The quality of the datasets generated by TextMachina has been assessed in previous works, including shared tasks where more than one hundred teams trained robust MGT detectors.

arxiv情報

著者 Areg Mikael Sarvazyan,José Ángel González,Marc Franco-Salvador
発行日 2024-04-12 09:52:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク