Halving transcription time: A fast, user-friendly and GDPR-compliant workflow to create AI-assisted transcripts for content analysis

要約

定性的研究では、データの転写はしばしば労働集約的で時間がかかります。
このプロセスを促進するために、人工知能(AI)を利用するワークフローが開発されました。
このワークフローは、転写速度を向上させるだけでなく、標準のコンテンツ分析ソフトウェアとの互換性が欠けていることが多いAI生成転写産物の問題にも対処します。
このワークフロー内では、自動音声認識が採用され、オーディオ録音から初期転写産物が作成され、Atlas.tiやmaxqdaなどのコンテンツ分析ソフトウェアと互換性があるようにフォーマットされます。
12のインタビューの研究からの経験的データは、このワークフローが転写時間を最大46.2%短縮できることを示唆しています。
さらに、広く使用されている標準ソフトウェアを使用することにより、このプロセスは学生と研究者の両方に適しているが、さまざまな学習、教育、および研究環境にも適応できるようにする。
また、非ネイティブスピーカーにとって特に有益です。
さらに、ワークフローはGDPRに準拠しており、ローカルなオフラインの成績証明書の生成を促進します。これは、機密データを扱うときに重要です。

要約(オリジナル)

In qualitative research, data transcription is often labor-intensive and time-consuming. To expedite this process, a workflow utilizing artificial intelligence (AI) was developed. This workflow not only enhances transcription speed but also addresses the issue of AI-generated transcripts often lacking compatibility with standard content analysis software. Within this workflow, automatic speech recognition is employed to create initial transcripts from audio recordings, which are then formatted to be compatible with content analysis software such as ATLAS.ti or MAXQDA. Empirical data from a study of 12 interviews suggests that this workflow can reduce transcription time by up to 46.2%. Furthermore, by using widely used standard software, this process is suitable for both students and researchers while also being adaptable to a variety of learning, teaching, and research environments. It is also particularly beneficial for non-native speakers. In addition, the workflow is GDPR-compliant and facilitates local, offline transcript generation, which is crucial when dealing with sensitive data.

arxiv情報

著者 Jakob Sponholz,Andreas Weilinghoff,Juliane Schopf
発行日 2025-03-17 10:33:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Halving transcription time: A fast, user-friendly and GDPR-compliant workflow to create AI-assisted transcripts for content analysis はコメントを受け付けていません

Chain of Evidences and Evidence to Generate: Prompting for Context Grounded and Retrieval Augmented Reasoning

要約

LLMSが推論タスクをどのように実行するかに革命をもたらしている一方で、現在の方法とバリエーション(例えば、自己整合性、反応、反射、樹木(TOT)、累積推論(CR)など)は、限られた文脈の基礎、幻想/潜在的な出力生成、および潜伏期的なslugishnessなどの制限に苦しんでいます。
これらの課題を克服するために、2つのユニークな戦略の証拠チェーン(COE)}の上に構築された新しいモノ/デュアルステップゼロショットプロンプトフレームワークと生成する証拠(E2G)を紹介します。
未検証の推論の主張の代わりに、当社の革新的なアプローチは、最初に抽出された証拠として機能し、LLMの出力生成プロセスをより正確で効率的に導くというコンテキストで明示的に言及された思考シーケンスにのみ焦点を当てることにより、「意思決定の証拠」の力を活用します。
このシンプルでありながら強力なアプローチは、LLMSでより速く、より信頼性が高く、文脈的に認識されている推論を促進し、促進するチェーンの可能性を完全にロックします。
私たちのフレームワークは、さまざまな知識集約的な推論と生成タスクにわたって一貫して顕著な結果を達成し、最先端のLLMSでベースラインアプローチを上回ります。
たとえば、(i)GPT-4を使用したLogiqaベンチマークでは、COEは53.8%の新しい最先端の精度を達成し、COTを18%、TOT、CRを9%上回ります。
(ii)PALM-2のCOEは、Gemini Ultraの可変ショットパフォーマンスを0.9 F1ポイント上回り、DropでF1スコア83.3を達成します。
https://huggingface.co/datasets/kagnlp/chain-of-evidences/で将来の研究のための新しい命令チューニングデータセットとして、これらのベンチマークのプロンプトと出力をリリースします。

要約(オリジナル)

While chain-of-thoughts (CoT) prompting has revolutionized how LLMs perform reasoning tasks, its current methods and variations (e.g, Self-consistency, ReACT, Reflexion, Tree-of-Thoughts (ToT), Cumulative Reasoning (CR) etc.,) suffer from limitations like limited context grounding, hallucination/inconsistent output generation, and iterative sluggishness. To overcome these challenges, we introduce a novel mono/dual-step zero-shot prompting framework built upon two unique strategies Chain of Evidences (CoE)} and Evidence to Generate (E2G). Instead of unverified reasoning claims, our innovative approaches leverage the power of ‘evidence for decision making’ by first focusing exclusively on the thought sequences explicitly mentioned in the context which then serve as extracted evidence, guiding the LLM’s output generation process with greater precision and efficiency. This simple yet potent approach unlocks the full potential of chain-of-thoughts prompting, facilitating faster, more reliable, and contextually aware reasoning in LLMs. Our framework consistently achieves remarkable results across various knowledge-intensive reasoning and generation tasks, surpassing baseline approaches with state-of-the-art LLMs. For instance, (i) on the LogiQA benchmark using GPT-4, CoE achieves a new state-of-the-art accuracy of 53.8%, surpassing CoT by 18%, ToT by 11%, and CR by 9%; (ii) CoE with PaLM-2 outperforms the variable-shot performance of Gemini Ultra by 0.9 F1 points, achieving an F1 score of 83.3 on DROP. We release our prompts and outputs on these benchmarks as a new instruction tuning dataset for future research at https://huggingface.co/datasets/kagnlp/Chain-of-Evidences/.

arxiv情報

著者 Md Rizwan Parvez
発行日 2025-03-17 10:35:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Chain of Evidences and Evidence to Generate: Prompting for Context Grounded and Retrieval Augmented Reasoning はコメントを受け付けていません

TinyR1-32B-Preview: Boosting Accuracy with Branch-Merge Distillation

要約

パフォーマンスを維持しながら、大規模な言語モデル(LLMS)のサイズを縮小するという課題は大きな注目を集めています。
ただし、モデルの蒸留や転送学習などの既存の方法は、多くの場合、高い精度を達成できません。
この制限に対処するために、2つのフェーズを介してモデルの圧縮を強化するブランチマージ蒸留アプローチを導入します。(1)大規模な教師モデルからの知識が\ textit {選択的に蒸留された}は、ドメイン固有の監視微調整(SFT)を介して特殊な学生モデルになります。
(2)これらの学生モデルがマージされ、クロスドメインの知識移転が可能になり、一般化が改善されるマージフェーズ。
DeepSeek-R1を教師として、DeepSeek-R1-Distill-Qwen-32Bを生徒として使用して蒸留アプローチを検証します。
結果のマージされたモデルであるTinyr1-32B-Previewは、数学(+5.5ポイント)、コーディング(+4.4ポイント)、科学(+2.9ポイント)を含む、複数のベンチマークにわたって対応するDeepSeek-R1-Distill-Qwen-32Bを上回ります。
計算コストと時間を短縮して、より小さく、高性能なLLMを作成するためのソリューション。

要約(オリジナル)

The challenge of reducing the size of Large Language Models (LLMs) while maintaining their performance has gained significant attention. However, existing methods, such as model distillation and transfer learning, often fail to achieve high accuracy. To address this limitation, we introduce the Branch-Merge distillation approach, which enhances model compression through two phases: (1) the Branch Phase, where knowledge from a large teacher model is \textit{selectively distilled} into specialized student models via domain-specific supervised fine-tuning (SFT); And (2) the Merge Phase, where these student models are merged to enable cross-domain knowledge transfer and improve generalization. We validate our distillation approach using DeepSeek-R1 as the teacher and DeepSeek-R1-Distill-Qwen-32B as the student. The resulting merged model, TinyR1-32B-Preview, outperforms its counterpart DeepSeek-R1-Distill-Qwen-32B across multiple benchmarks, including Mathematics (+5.5 points), Coding (+4.4 points) and Science (+2.9 points), while achieving near-equal performance to DeepSeek-R1 on AIME 2024. The Branch-Merge distillation approach provides a scalable solution for creating smaller, high-performing LLMs with reduced computational cost and time.

arxiv情報

著者 Lin Sun,Guangxiang Zhao,Xiaoqi Jian,Yuhan Wu,Weihong Lin,Yongfu Zhu,Change Jia,Linglin Zhang,Jinzhu Wu,Junfeng Ran,Sai-er Hu,Zihan Jiang,Junting Zhou,Wenrui Liu,Bin Cui,Tong Yang,Xiangzheng Zhang
発行日 2025-03-17 10:36:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | TinyR1-32B-Preview: Boosting Accuracy with Branch-Merge Distillation はコメントを受け付けていません

Overview of the NTCIR-18 Automatic Evaluation of LLMs (AEOLLM) Task

要約

この論文では、LLMS(AEOLLM)タスクのNTCIR-18自動評価の概要を説明します。
大規模な言語モデル(LLM)が学界と産業の両方で人気が高まっているため、LLMSの能力を効果的に評価する方法はますます重要であるが、まだ挑戦的な問題になります。
既存の方法は、2つのタイプに分けることができます。手動評価、高価な手動評価と自動評価は、タスク形式(大半は複数選択の質問に属する)や評価基準(参照ベースのメトリックで占める)などの多くの制限に直面しています。
自動評価の革新を進めるために、生成タスクに焦点を当て、参照のない方法を奨励するAEOLLMタスクを提案します。
その上、ダイアログ生成、テキスト拡張、要約生成、非ファクトルの質問が異なる方法を包括的にテストするなど、さまざまなサブタスクを設定します。
今年、私たちは合計4チームから48回のランを受け取りました。
このペーパーでは、タスクの背景、データセット、評価測定、評価結果についてそれぞれ説明します。

要約(オリジナル)

In this paper, we provide an overview of the NTCIR-18 Automatic Evaluation of LLMs (AEOLLM) task. As large language models (LLMs) grow popular in both academia and industry, how to effectively evaluate the capacity of LLMs becomes an increasingly critical but still challenging issue. Existing methods can be divided into two types: manual evaluation, which is expensive, and automatic evaluation, which faces many limitations including task format (the majority belong to multiple-choice questions) and evaluation criteria (occupied by reference-based metrics). To advance the innovation of automatic evaluation, we propose the AEOLLM task which focuses on generative tasks and encourages reference-free methods. Besides, we set up diverse subtasks such as dialogue generation, text expansion, summary generation and non-factoid question answering to comprehensively test different methods. This year, we received 48 runs from 4 teams in total. This paper will describe the background of the task, the data set, the evaluation measures and the evaluation results, respectively.

arxiv情報

著者 Junjie Chen,Haitao Li,Zhumin Chu,Yiqun Liu,Qingyao Ai
発行日 2025-03-17 10:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Overview of the NTCIR-18 Automatic Evaluation of LLMs (AEOLLM) Task はコメントを受け付けていません

In-Context Learning Enables Robot Action Prediction in LLMs

要約

最近、大規模な言語モデル(LLMS)は、言語ドメインでコンテキスト内学習(ICL)を使用して顕著な成功を収めています。
ただし、LLMS内のICL機能を活用してロボットアクションを直接予測することは、ほとんど未踏のままです。
このペーパーでは、RobopRomptを紹介します。これは、既製のテキストのみのLLMがトレーニングなしでICLを介してロボットアクションを直接予測できるようにするフレームワークです。
私たちのアプローチは、最初にエピソードから重要な瞬間を捉えたキーフレームをヒューリスト的に識別します。
次に、これらのキーフレームと推定初期オブジェクトポーズからエンドエフェクターアクションを抽出し、両方がテキストの説明に変換されます。
最後に、これらのテキストの説明とタスク命令からICLデモンストレーションを形成するための構造化されたテンプレートを構築します。
これにより、LLMはテスト時にロボットアクションを直接予測できます。
広範な実験と分析を通じて、RobopRomptは、シミュレーションおよび実世界の設定でゼロショットおよびICLベースラインよりも強力なパフォーマンスを示しています。
プロジェクトページは、https://davidyyd.github.io/robopromptで入手できます。

要約(オリジナル)

Recently, Large Language Models (LLMs) have achieved remarkable success using in-context learning (ICL) in the language domain. However, leveraging the ICL capabilities within LLMs to directly predict robot actions remains largely unexplored. In this paper, we introduce RoboPrompt, a framework that enables off-the-shelf text-only LLMs to directly predict robot actions through ICL without training. Our approach first heuristically identifies keyframes that capture important moments from an episode. Next, we extract end-effector actions from these keyframes as well as the estimated initial object poses, and both are converted into textual descriptions. Finally, we construct a structured template to form ICL demonstrations from these textual descriptions and a task instruction. This enables an LLM to directly predict robot actions at test time. Through extensive experiments and analysis, RoboPrompt shows stronger performance over zero-shot and ICL baselines in simulated and real-world settings. Our project page is available at https://davidyyd.github.io/roboprompt.

arxiv情報

著者 Yida Yin,Zekai Wang,Yuvan Sharma,Dantong Niu,Trevor Darrell,Roei Herzig
発行日 2025-03-17 10:43:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO | In-Context Learning Enables Robot Action Prediction in LLMs はコメントを受け付けていません

Evaluating the Instruction-following Abilities of Language Models using Knowledge Tasks

要約

LLM評価ベンチマークは、従来、知識/推論機能のテストを次のように分離してきました。
この作業では、知識と指導のフォローとの相互作用を研究し、LLMSが単純な回答の修正命令に従うのに苦労していることを観察し、元の知識タスクの回答に関係しないでください。
既存の複数選択回答ベースのナレッジベンチマークを活用し、テキスト(例:変更)、数値(例:値の増加、変化のフォーマット)、リスト(例:回答候補者の並べ替え)およびディストラクタの指示(例:数値回答のケースの変更)を操作する一連の簡単な指示を適用します。

要約(オリジナル)

LLM evaluation benchmarks have traditionally separated the testing of knowledge/reasoning capabilities from instruction following. In this work, we study the interaction between knowledge and instruction following, and observe that LLMs struggle to follow simple answer modifying instructions, and are also distracted by instructions that should have no bearing on the original knowledge task answer. We leverage existing multiple-choice answer based knowledge benchmarks and apply a set of simple instructions which include manipulating text (eg.: change case), numeric quantities (eg.: increase value, change formatting), operate on lists (eg.: sort answer candidates) and distractor instructions (eg.: change case of numeric answers).

arxiv情報

著者 Rudra Murthy,Praveen Venkateswaran,Prince Kumar,Danish Contractor
発行日 2025-03-17 10:45:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Evaluating the Instruction-following Abilities of Language Models using Knowledge Tasks はコメントを受け付けていません

A Survey on Knowledge-Oriented Retrieval-Augmented Generation

要約

検索された生成(RAG)は、大規模な回収システムと生成モデルを組み合わせることにより、自然言語の理解と生成を強化する可能性について、近年大きな注目を集めています。
RAGは、ドキュメント、データベース、構造化されたデータなどの外部の知識ソースを活用して、モデルのパフォーマンスを改善し、より正確でコンテキストに関連する出力を生成します。
この調査の目的は、検索メカニズム、生成プロセス、2つの間の統合などの基本的なコンポーネントを調べることにより、RAGの包括的な概要を提供することを目的としています。
動的な外部知識を持つ生成モデルを増強する能力や、検索された情報を生成目標に合わせることに関連する課題など、RAG​​の重要な特性について説明します。
また、基本的な検索された高級アプローチから、マルチモーダルデータと推論機能を組み込んだより高度なモデルに至るまで、RAGメソッドを分類する分類法を提示します。
さらに、RAGシステムの評価に一般的に使用される評価ベンチマークとデータセット、および質問応答、要約、情報の検索などのフィールドでのアプリケーションの詳細な調査をレビューします。
最後に、検索効率の強化、モデルの解釈可能性、ドメイン固有の適応など、RAG​​システムを改善するための新たな研究の方向性と機会を強調します。
この論文は、現実世界の課題に対処する際のRAGの見通しと、自然言語処理のさらなる進歩を促進する可能性を概説することで締めくくります。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) has gained significant attention in recent years for its potential to enhance natural language understanding and generation by combining large-scale retrieval systems with generative models. RAG leverages external knowledge sources, such as documents, databases, or structured data, to improve model performance and generate more accurate and contextually relevant outputs. This survey aims to provide a comprehensive overview of RAG by examining its fundamental components, including retrieval mechanisms, generation processes, and the integration between the two. We discuss the key characteristics of RAG, such as its ability to augment generative models with dynamic external knowledge, and the challenges associated with aligning retrieved information with generative objectives. We also present a taxonomy that categorizes RAG methods, ranging from basic retrieval-augmented approaches to more advanced models incorporating multi-modal data and reasoning capabilities. Additionally, we review the evaluation benchmarks and datasets commonly used to assess RAG systems, along with a detailed exploration of its applications in fields such as question answering, summarization, and information retrieval. Finally, we highlight emerging research directions and opportunities for improving RAG systems, such as enhanced retrieval efficiency, model interpretability, and domain-specific adaptations. This paper concludes by outlining the prospects for RAG in addressing real-world challenges and its potential to drive further advancements in natural language processing.

arxiv情報

著者 Mingyue Cheng,Yucong Luo,Jie Ouyang,Qi Liu,Huijie Liu,Li Li,Shuo Yu,Bohou Zhang,Jiawei Cao,Jie Ma,Daoyu Wang,Enhong Chen
発行日 2025-03-17 11:24:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A Survey on Knowledge-Oriented Retrieval-Augmented Generation はコメントを受け付けていません

A Framework to Assess Multilingual Vulnerabilities of LLMs

要約

大規模な言語モデル(LLM)は、複数の言語での理解と応答など、より広範な機能を獲得しています。
彼らは違法な質問に答えるのを防ぐために安全訓練を受けていますが、トレーニングデータと人間の評価リソースの不均衡により、これらのモデルは低資源言語(LRL)での攻撃を受けやすくなります。
このペーパーでは、一般的に使用されるLLMの多言語の脆弱性を自動的に評価するフレームワークを提案します。
フレームワークを使用して、さまざまなレベルのリソースの可用性を表す8つの言語で6つのLLMを評価しました。
2つの言語での人間の評価を通じて自動化されたフレームワークによって生成された評価を検証し、フレームワークの結果がほとんどの場合、人間の判断と一致することを示しました。
私たちの調査結果は、LR​​Lの脆弱性を明らかにしています。
ただし、これらはモデルのパフォーマンスの低下に起因することが多く、結果として矛盾する反応をもたらすため、最小限のリスクをもたらす可能性があります。

要約(オリジナル)

Large Language Models (LLMs) are acquiring a wider range of capabilities, including understanding and responding in multiple languages. While they undergo safety training to prevent them from answering illegal questions, imbalances in training data and human evaluation resources can make these models more susceptible to attacks in low-resource languages (LRL). This paper proposes a framework to automatically assess the multilingual vulnerabilities of commonly used LLMs. Using our framework, we evaluated six LLMs across eight languages representing varying levels of resource availability. We validated the assessments generated by our automated framework through human evaluation in two languages, demonstrating that the framework’s results align with human judgments in most cases. Our findings reveal vulnerabilities in LRL; however, these may pose minimal risk as they often stem from the model’s poor performance, resulting in incoherent responses.

arxiv情報

著者 Likai Tang,Niruth Bogahawatta,Yasod Ginige,Jiarui Xu,Shixuan Sun,Surangika Ranathunga,Suranga Seneviratne
発行日 2025-03-17 11:39:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A Framework to Assess Multilingual Vulnerabilities of LLMs はコメントを受け付けていません

ClusComp: A Simple Paradigm for Model Compression and Efficient Finetuning

要約

大規模な言語モデル(LLMS)スケールとして、モデルの圧縮はエッジの展開とアクセシビリティに不可欠です。
重量のみの量子化はモデルのサイズを削減しますが、ビット幅が低い場合の性能劣化に苦しんでいます。
さらに、標準の微調整は量子化されたモデルと互換性があり、代替方法は完全に微調整に及ばないことがよくあります。
この論文では、ClusCompを提案します。ClusCompは、重量行列をコードブックに閉じ込め、ブロックごとにファイデットをクラスターするシンプルで効果的な圧縮パラダイムを提案します。
ClusComp(1)は2〜4ビットの量子化で優れた性能を達成し、(2)最小限の微調整で超低ビット法を上回りながら圧縮を1ビットに押し込み、(3)効率的な微調整を可能にし、既存の量子化ベースのアプローチを上回り、完全なFP16 FINETUNNINGを競います。
特に、ClusCompは、単一のA6000-48GB GPUでの70B LLMの圧縮と微調整をサポートしています。

要約(オリジナル)

As large language models (LLMs) scale, model compression is crucial for edge deployment and accessibility. Weight-only quantization reduces model size but suffers from performance degradation at lower bit widths. Moreover, standard finetuning is incompatible with quantized models, and alternative methods often fall short of full finetuning. In this paper, we propose ClusComp, a simple yet effective compression paradigm that clusters weight matrices into codebooks and finetunes them block-by-block. ClusComp (1) achieves superior performance in 2-4 bit quantization, (2) pushes compression to 1-bit while outperforming ultra-low-bit methods with minimal finetuning, and (3) enables efficient finetuning, even surpassing existing quantization-based approaches and rivaling full FP16 finetuning. Notably, ClusComp supports compression and finetuning of 70B LLMs on a single A6000-48GB GPU.

arxiv情報

著者 Baohao Liao,Christian Herold,Seyyed Hadi Hashemi,Stefan Vasilev,Shahram Khadivi,Christof Monz
発行日 2025-03-17 11:52:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ClusComp: A Simple Paradigm for Model Compression and Efficient Finetuning はコメントを受け付けていません

Beemo: Benchmark of Expert-edited Machine-generated Outputs

要約

大規模な言語モデル(LLMS)の急速な増殖により、機械で生成されたテキスト(MGT)の量が増加し、さまざまなドメインでテキスト著者がぼやけました。
ただし、ほとんどの既存のMGTベンチマークには、単一の著者テキスト(人間が書かれた機械で生成された)が含まれます。
この従来の設計では、より実用的なマルチオーソルシナリオをキャプチャすることができません。ユーザーは、自然の流れ、コヒーレンス、および事実上の正確性のLLM応答を改良します。
私たちの論文では、人間によって書かれた6.5kのテキストを含む専門家編集された機械で生成された出力(BEEMO)のベンチマークを紹介し、10個の命令定められたLLMによって生成され、創造的な執筆から要約に至るまで、さまざまなユースケースのために専門家によって編集されました。
さらに、Beemoは13.1kの機械で生成されたLLM編集されたテキストで構成され、さまざまな編集タイプで多様なMGT検出評価を可能にします。
Beemoの作成プロトコルを文書化し、さまざまな実験セットアップでMGT検出器の33の構成をベンチマークする結果を提示します。
専門家ベースの編集はMGT検出を回避し、LLM編集されたテキストは人間が書かれたものとして認識される可能性は低いことがわかります。
Beemoとすべての材料は公開されています。

要約(オリジナル)

The rapid proliferation of large language models (LLMs) has increased the volume of machine-generated texts (MGTs) and blurred text authorship in various domains. However, most existing MGT benchmarks include single-author texts (human-written and machine-generated). This conventional design fails to capture more practical multi-author scenarios, where the user refines the LLM response for natural flow, coherence, and factual correctness. Our paper introduces the Benchmark of Expert-edited Machine-generated Outputs (Beemo), which includes 6.5k texts written by humans, generated by ten instruction-finetuned LLMs, and edited by experts for various use cases, ranging from creative writing to summarization. Beemo additionally comprises 13.1k machine-generated and LLM-edited texts, allowing for diverse MGT detection evaluation across various edit types. We document Beemo’s creation protocol and present the results of benchmarking 33 configurations of MGT detectors in different experimental setups. We find that expert-based editing evades MGT detection, while LLM-edited texts are unlikely to be recognized as human-written. Beemo and all materials are publicly available.

arxiv情報

著者 Ekaterina Artemova,Jason Lucas,Saranya Venkatraman,Jooyoung Lee,Sergei Tilga,Adaku Uchendu,Vladislav Mikhailov
発行日 2025-03-17 12:05:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Beemo: Benchmark of Expert-edited Machine-generated Outputs はコメントを受け付けていません