SkipGPT: Dynamic Layer Pruning Reinvented with Token Awareness and Module Decoupling

要約

大規模な言語モデル(LLM)は、タスク全体で顕著なパフォーマンスを実現しますが、深い多層アーキテクチャのためにかなりの計算コストが発生します。
レイヤープルーニングはこれらの非効率性を緩和する戦略として浮上していますが、従来の静的剪定方法はLLM推論に固有の2つの重要なダイナミクスを見落としています:(1)トークンレベルの異質性がコンテキストアウェアプルーニングの決定を要求する水平ダイナミクス、および(2)MLPの垂直レイアーズレイアーズレイアーズレイアーズレイアーズレイアーズレイアーズレイアーズの垂直ダイナミクスを見下ろす
ポリシー。
2つのコアイノベーションを通じて計算リソース割り当てを最適化するように設計された動的レイヤー剪定フレームワークであるSkipGPTを紹介します。(1)重要なトークンに優先順位を付けるためのグローバルトークン認識ルーティング、および(2)MLPおよび自己科学コンポーネントの分離されたプルーニングポリシー。
トレーニングの不安定性を緩和するために、2段階の最適化パラダイムを提案します。まず、早期の剪定決定を回避するためにソフトパラメーター化を介してルーティング戦略を学習する解き込められたトレーニングフェーズで、その後、レイヤー除去が影響するパラメーター効率の高いロラ微調整を行います。
広範な実験では、SKIPGPTがベンチマーク全体で元の密なモデルのパフォーマンスを一致させるか、それを超えながら、モデルパラメーターの40%を超えることを示しています。
保存された表現力と動的効率を調和させることにより、SKIPGPTは、スケーラブルでリソース認識のLLMの実用的な展開を進めます。
私たちのコードは、https://github.com/eit-nlp/skipgptで公開されています。

要約(オリジナル)

Large language models (LLMs) achieve remarkable performance across tasks but incur substantial computational costs due to their deep, multi-layered architectures. Layer pruning has emerged as a strategy to alleviate these inefficiencies, but conventional static pruning methods overlook two critical dynamics inherent to LLM inference: (1) horizontal dynamics, where token-level heterogeneity demands context-aware pruning decisions, and (2) vertical dynamics, where the distinct functional roles of MLP and self-attention layers necessitate component-specific pruning policies. We introduce SkipGPT, a dynamic layer pruning framework designed to optimize computational resource allocation through two core innovations: (1) global token-aware routing to prioritize critical tokens, and (2) decoupled pruning policies for MLP and self-attention components. To mitigate training instability, we propose a two-stage optimization paradigm: first, a disentangled training phase that learns routing strategies via soft parameterization to avoid premature pruning decisions, followed by parameter-efficient LoRA fine-tuning to restore performance impacted by layer removal. Extensive experiments demonstrate that SkipGPT reduces over 40% of model parameters while matching or exceeding the performance of the original dense model across benchmarks. By harmonizing dynamic efficiency with preserved expressivity, SkipGPT advances the practical deployment of scalable, resource-aware LLMs. Our code is publicly available at: https://github.com/EIT-NLP/SkipGPT.

arxiv情報

著者 Anhao Zhao,Fanghua Ye,Yingqi Fan,Junlong Tong,Zhiwei Fei,Hui Su,Xiaoyu Shen
発行日 2025-06-04 17:26:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SkipGPT: Dynamic Layer Pruning Reinvented with Token Awareness and Module Decoupling はコメントを受け付けていません

SuperWriter: Reflection-Driven Long-Form Generation with Large Language Models

要約

長い形式のテキスト生成は、特にコヒーレンスを維持し、論理的な一貫性を確保し、シーケンスの長さが増加するにつれてテキストの品質を維持する上で、大規模な言語モデル(LLM)にとって重要な課題です。
これらの制限に対処するために、長型のテキスト生成の品質と一貫性を高めるために設計されたエージェントベースのフレームワークであるSuperWriter-Agentを提案します。
SuperWriter-Agentは、明示的な構造化された思考計画と改良段階を世代パイプラインに導入し、プロの作家のそれに似たより意図的で認知的に根拠のあるプロセスに従うようにモデルを導きます。
このフレームワークに基づいて、7BのスーパーライターLMをトレーニングするために、監視された微調整データセットを構築します。
さらに、モンテカルロツリー検索(MCTS)を使用して最終的な品質評価を伝播し、それに応じて各世代のステップを最適化する階層的な直接選好最適化(DPO)手順を開発します。
多様なベンチマーク全体の経験的結果は、スーパーライターLMが最新のパフォーマンスを達成し、自動評価と人間の評価の両方でさらに大規模なベースラインモデルを上回ることを示しています。
さらに、包括的なアブレーション研究は、階層DPOの有効性を実証し、長型のテキスト生成の品質を改善するために構造化された思考ステップを組み込むことの価値を強調しています。

要約(オリジナル)

Long-form text generation remains a significant challenge for large language models (LLMs), particularly in maintaining coherence, ensuring logical consistency, and preserving text quality as sequence length increases. To address these limitations, we propose SuperWriter-Agent, an agent-based framework designed to enhance the quality and consistency of long-form text generation. SuperWriter-Agent introduces explicit structured thinking-through planning and refinement stages into the generation pipeline, guiding the model to follow a more deliberate and cognitively grounded process akin to that of a professional writer. Based on this framework, we construct a supervised fine-tuning dataset to train a 7B SuperWriter-LM. We further develop a hierarchical Direct Preference Optimization (DPO) procedure that uses Monte Carlo Tree Search (MCTS) to propagate final quality assessments and optimize each generation step accordingly. Empirical results across diverse benchmarks demonstrate that SuperWriter-LM achieves state-of-the-art performance, surpassing even larger-scale baseline models in both automatic evaluation and human evaluation. Furthermore, comprehensive ablation studies demonstrate the effectiveness of hierarchical DPO and underscore the value of incorporating structured thinking steps to improve the quality of long-form text generation.

arxiv情報

著者 Yuhao Wu,Yushi Bai,Zhiqiang Hu,Juanzi Li,Roy Ka-Wei Lee
発行日 2025-06-04 17:27:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SuperWriter: Reflection-Driven Long-Form Generation with Large Language Models はコメントを受け付けていません

Long or short CoT? Investigating Instance-level Switch of Large Reasoning Models

要約

大規模な推論モデルの急速な進歩により、長いチェーン(COT)プロンプトは、複雑なタスクで強力なパフォーマンスを実証しました。
ただし、これにはトークンの使用が大幅に増加することがよくあります。
この論文では、長いCOT戦略と短いCOT戦略を比較する包括的な経験的分析を実施します。
私たちの調査結果は、長いCOTがパフォーマンスの改善につながる可能性がある一方で、その利点は、その著しく高いトークン消費に比べてわずかであることが多いことを明らかにしています。
具体的には、十分な生成予算が利用可能な場合、長いCOTはアウトパフォームする傾向がありますが、短いCOTはより厳しい予算の制約の下でより効果的です。
これらの洞察は、タスクのコンテキストとリソースの可用性に基づいて適切なCOT戦略を選択する動的なアプローチの必要性を強調しています。
これに対処するために、スイッチコットを提案します。スイッチコットは、推論の精度と計算効率のバランスをとるために、長いCOT戦略と短いCOT戦略の間で適応的に選択する自動フレームワークを提案します。
さらに、SwitchCotは予算を付けるように設計されており、さまざまなリソース制約を備えたシナリオに広く適用されます。
実験結果は、スイッチコットが高い精度を維持しながら、推論コストを最大50%削減できることを示しています。
特に、限られたトークン予算の下では、長いベッドまたは短いベッドのみを使用するか、それを超えるパフォーマンスを達成します。

要約(オリジナル)

With the rapid advancement of large reasoning models, long Chain-of-Thought (CoT) prompting has demonstrated strong performance on complex tasks. However, this often comes with a significant increase in token usage. In this paper, we conduct a comprehensive empirical analysis comparing long and short CoT strategies. Our findings reveal that while long CoT can lead to performance improvements, its benefits are often marginal relative to its significantly higher token consumption. Specifically, long CoT tends to outperform when ample generation budgets are available, whereas short CoT is more effective under tighter budget constraints. These insights underscore the need for a dynamic approach that selects the proper CoT strategy based on task context and resource availability. To address this, we propose SwitchCoT, an automatic framework that adaptively chooses between long and short CoT strategies to balance reasoning accuracy and computational efficiency. Moreover, SwitchCoT is designed to be budget-aware, making it broadly applicable across scenarios with varying resource constraints. Experimental results demonstrate that SwitchCoT can reduce inference costs by up to 50% while maintaining high accuracy. Notably, under limited token budgets, it achieves performance comparable to, or even exceeding, that of using either long or short CoT alone.

arxiv情報

著者 Ruiqi Zhang,Changyi Xiao,Yixin Cao
発行日 2025-06-04 17:28:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Long or short CoT? Investigating Instance-level Switch of Large Reasoning Models はコメントを受け付けていません

R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning

要約

大規模な言語モデル(LLM)は、特にマルチステップおよび長鎖の推論で進行しています。
ただし、モデルが最適な推論検索相互作用の軌跡を特定できず、最適ではない応答をもたらすことが多いため、検索との深い相互作用を含む推論能力を拡張することは非自明の課題のままです。
LLMが深い検索相互作用でマルチステップ推論を自律的に実行できるように設計され、複雑な報酬信号を介して最適な検索相互作用の軌跡を学習し、複雑な論理および知識に敏感なタスクの応答品質を改善するように設計された、推論検索統合のための新しい強化学習フレームワークであるR-Searchを提案します。
R-SearchはLLMをガイドして、いつ取得または推論するかを動的に決定する一方で、主要な証拠をグローバルに統合して、推論と検索の間の深い知識の相互作用を強化します。
RLトレーニング中、R-Searchは、Reasoning-Searchの軌跡を共同で最適化するために、マルチステージのマルチタイプの報酬を提供します。
7つのデータセットでの実験では、R-Searchが高度なRAGベースラインを最大32.2%(領域内)および25.1%(領域外)よりも優れていることが示されています。
コードとデータは、https://github.com/qingfei1/r-searchで入手できます。

要約(オリジナル)

Large language models (LLMs) have notably progressed in multi-step and long-chain reasoning. However, extending their reasoning capabilities to encompass deep interactions with search remains a non-trivial challenge, as models often fail to identify optimal reasoning-search interaction trajectories, resulting in suboptimal responses. We propose R-Search, a novel reinforcement learning framework for Reasoning-Search integration, designed to enable LLMs to autonomously execute multi-step reasoning with deep search interaction, and learn optimal reasoning search interaction trajectories via multi-reward signals, improving response quality in complex logic- and knowledge-intensive tasks. R-Search guides the LLM to dynamically decide when to retrieve or reason, while globally integrating key evidence to enhance deep knowledge interaction between reasoning and search. During RL training, R-Search provides multi-stage, multi-type rewards to jointly optimize the reasoning-search trajectory. Experiments on seven datasets show that R-Search outperforms advanced RAG baselines by up to 32.2% (in-domain) and 25.1% (out-of-domain). The code and data are available at https://github.com/QingFei1/R-Search.

arxiv情報

著者 Qingfei Zhao,Ruobing Wang,Dingling Xu,Daren Zha,Limin Liu
発行日 2025-06-04 17:29:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning はコメントを受け付けていません

Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Information Peaks in LLM Reasoning

要約

大規模な推論モデル(LRMS)は、複雑な問題解決における印象的な能力を実証していますが、その内部推論メカニズムは依然としてよく理解されていません。
この論文では、情報理論的な観点からLRMの推論の軌跡を調査します。
LRMの推論中に中間表現と正解の間の相互情報(MI)がどのように進化するかを追跡することにより、興味深いMIピーク現象を観察します。特定の生成ステップでのMIは、LRMの推論プロセス中に突然の大幅な増加を示します。
このような現象を理論的に分析し、MIが増加するにつれて、モデルの予測誤差の確率が低下することを示しています。
さらに、これらのMIピークは、「うーん」、「待機」、「したがって」、「したがって」、これを思考トークンと呼ぶトークンを反射または移行を表現するトークンにしばしば対応します。
次に、これらの思考トークンがLRMの推論パフォーマンスに不可欠であることを実証しますが、他のトークンには最小限の影響があります。
これらの分析に基づいて、これらの思考トークンを繊細に活用することにより、LRMの推論パフォーマンスを改善するための2つのシンプルで効果的な方法を提案します。
全体として、私たちの作品は、LRMSの推論メカニズムに関する新しい洞察を提供し、推論能力を向上させる実用的な方法を提供します。
このコードはhttps://github.com/chnq/mi-peaksで入手できます。

要約(オリジナル)

Large reasoning models (LRMs) have demonstrated impressive capabilities in complex problem-solving, yet their internal reasoning mechanisms remain poorly understood. In this paper, we investigate the reasoning trajectories of LRMs from an information-theoretic perspective. By tracking how mutual information (MI) between intermediate representations and the correct answer evolves during LRM reasoning, we observe an interesting MI peaks phenomenon: the MI at specific generative steps exhibits a sudden and significant increase during LRM’s reasoning process. We theoretically analyze such phenomenon and show that as MI increases, the probability of model’s prediction error decreases. Furthermore, these MI peaks often correspond to tokens expressing reflection or transition, such as “Hmm”, “Wait” and “Therefore,” which we term as the thinking tokens. We then demonstrate that these thinking tokens are crucial for LRM’s reasoning performance, while other tokens has minimal impacts. Building on these analyses, we propose two simple yet effective methods to improve LRM’s reasoning performance, by delicately leveraging these thinking tokens. Overall, our work provides novel insights into the reasoning mechanisms of LRMs and offers practical ways to improve their reasoning capabilities. The code is available at https://github.com/ChnQ/MI-Peaks.

arxiv情報

著者 Chen Qian,Dongrui Liu,Haochen Wen,Zhen Bai,Yong Liu,Jing Shao
発行日 2025-06-04 15:00:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Information Peaks in LLM Reasoning はコメントを受け付けていません

Generating Automotive Code: Large Language Models for Software Development and Verification in Safety-Critical Systems

要約

安全性が批判的な自動車ソフトウェアの開発は、システムの複雑さと厳格な規制の要求の増加により、重要な課題を提示します。
このペーパーでは、生成人工知能(GENAI)をソフトウェア開発ライフサイクル(SDLC)に統合する新しいフレームワークを提案します。
このフレームワークは、大規模な言語モデル(LLM)を使用して、C ++などの言語でコード生成を自動化し、静的検証、テスト駆動型開発、反復改良などの安全性に焦点を当てたプラクティスを組み込みます。
フィードバック駆動型パイプラインにより、安全基準を順守するためのテスト、シミュレーション、検証の統合が保証されます。
フレームワークは、Adaptive Cruise Control(ACC)システムの開発を通じて検証されます。
LLMの比較ベンチマークは、精度と信頼性のために最適なモデル選択を保証します。
結果は、このフレームワークが自動コード生成を可能にしながら、安全性の高い要件を順守し、Genaiを自動車ソフトウェアエンジニアリングに体系的に統合できることを示しています。
この作業は、安全性が批判的なドメインでのAIの使用を進め、最先端の生成モデルと現実世界の安全要件とのギャップを埋めます。

要約(オリジナル)

Developing safety-critical automotive software presents significant challenges due to increasing system complexity and strict regulatory demands. This paper proposes a novel framework integrating Generative Artificial Intelligence (GenAI) into the Software Development Lifecycle (SDLC). The framework uses Large Language Models (LLMs) to automate code generation in languages such as C++, incorporating safety-focused practices such as static verification, test-driven development and iterative refinement. A feedback-driven pipeline ensures the integration of test, simulation and verification for compliance with safety standards. The framework is validated through the development of an Adaptive Cruise Control (ACC) system. Comparative benchmarking of LLMs ensures optimal model selection for accuracy and reliability. Results demonstrate that the framework enables automatic code generation while ensuring compliance with safety-critical requirements, systematically integrating GenAI into automotive software engineering. This work advances the use of AI in safety-critical domains, bridging the gap between state-of-the-art generative models and real-world safety requirements.

arxiv情報

著者 Sven Kirchner,Alois C. Knoll
発行日 2025-06-04 15:01:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Generating Automotive Code: Large Language Models for Software Development and Verification in Safety-Critical Systems はコメントを受け付けていません

Think Like a Person Before Responding: A Multi-Faceted Evaluation of Persona-Guided LLMs for Countering Hate

要約

自動化されたカウンターナラティブ(CN)は、オンラインヘイトスピーチを緩和するための有望な戦略を提供しますが、感情的なトーン、アクセシビリティ、倫理的リスクに関する懸念は残っています。
ペルソナフレーミング、冗長性と読みやすさ、感情的なトーン、倫理的堅牢性の4つの次元にわたって、大規模な言語モデル(LLM)によって生成されたCNSを評価するためのフレームワークを提案します。
CohereのCommandR-7B、およびMetaのLlama 3.1-70B、GPT-4O-MINIを使用して、MT-CONANおよびHateValデータセットで3つのプロンプト戦略を評価します。
私たちの調査結果は、LLM生成されたCNSがしばしば冗長であり、大学レベルのリテラシーを持つ人々に適応し、アクセシビリティを制限することを明らかにしています。
感情的にガイドされたプロンプトは、より共感的で読みやすい反応をもたらしますが、安全性と有効性を取り巻く懸念が残っています。

要約(オリジナル)

Automated counter-narratives (CN) offer a promising strategy for mitigating online hate speech, yet concerns about their affective tone, accessibility, and ethical risks remain. We propose a framework for evaluating Large Language Model (LLM)-generated CNs across four dimensions: persona framing, verbosity and readability, affective tone, and ethical robustness. Using GPT-4o-Mini, Cohere’s CommandR-7B, and Meta’s LLaMA 3.1-70B, we assess three prompting strategies on the MT-Conan and HatEval datasets. Our findings reveal that LLM-generated CNs are often verbose and adapted for people with college-level literacy, limiting their accessibility. While emotionally guided prompts yield more empathetic and readable responses, there remain concerns surrounding safety and effectiveness.

arxiv情報

著者 Mikel K. Ngueajio,Flor Miriam Plaza-del-Arco,Yi-Ling Chung,Danda B. Rawat,Amanda Cercas Curry
発行日 2025-06-04 15:09:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.LG | Think Like a Person Before Responding: A Multi-Faceted Evaluation of Persona-Guided LLMs for Countering Hate はコメントを受け付けていません

Lacuna Inc. at SemEval-2025 Task 4: LoRA-Enhanced Influence-Based Unlearning for LLMs

要約

このホワイトペーパーでは、Libu(Loraが強化された影響ベースの解除)について説明します。これは、学習のタスクを解決するためのアルゴリズムであり、ゼロから再訓練せずに大規模な言語モデルから特定の知識を削除し、全体的な有用性を損なうことなく削除します(Semeval-2025タスク4:大規模な言語モデルからのデリケートなコンテンツを解き放ちます)。
このアルゴリズムは、Classical \ TextIT {Influnce Functions}を組み合わせて、モデルからのデータの影響を削除し、\ TextIT {Second-Order Optimization}を削除して、ユーティリティ全体を安定させます。
私たちの実験は、この軽量アプローチが、さまざまな種類のタスクでLLMを学習するのに適切に適用できることを示しています。

要約(オリジナル)

This paper describes LIBU (LoRA enhanced influence-based unlearning), an algorithm to solve the task of unlearning – removing specific knowledge from a large language model without retraining from scratch and compromising its overall utility (SemEval-2025 Task 4: Unlearning sensitive content from Large Language Models). The algorithm combines classical \textit{influence functions} to remove the influence of the data from the model and \textit{second-order optimization} to stabilize the overall utility. Our experiments show that this lightweight approach is well applicable for unlearning LLMs in different kinds of task.

arxiv情報

著者 Aleksey Kudelya,Alexander Shirnin
発行日 2025-06-04 15:10:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Lacuna Inc. at SemEval-2025 Task 4: LoRA-Enhanced Influence-Based Unlearning for LLMs はコメントを受け付けていません

Explainability-Based Token Replacement on LLM-Generated Text

要約

生成モデル、特に大規模な言語モデル(LLM)は、人間のように見えるテキストの作成において顕著な進歩を示しています。
しかし、彼らはしばしば、人間によって書かれたテキストよりも出力を検出しやすくするパターンを示します。
この論文では、AI(XAI)メソッドを使用して、AI生成テキスト(AIGT)の検出可能性を低下させ、堅牢なアンサンブルベースの検出アプローチも導入する方法を調査します。
AIGTと人間が書かれたテキストを区別するためにアンサンブル分類器をトレーニングし、SHAPとLIMEを適用して、その予測に最も強く影響するトークンを特定します。
これらの影響力のあるトークンを変更するために、4つの説明可能性ベースのトークン置換戦略を提案します。
私たちの調査結果は、これらのトークン置換アプローチがAIGTを検出する単一の分類器の能力を大幅に減少させる可能性があることを示しています。
ただし、アンサンブル分類器は、複数の言語とドメインで強力なパフォーマンスを維持しており、マルチモデルアプローチがトークンレベルの操作の影響を軽減できることを示しています。
これらの結果は、XAIメソッドが最も影響力のあるトークンに焦点を合わせることでAIGTを検出するのを難しくすることを示しています。
同時に、彼らは、AIGTを隠すための進化するアプローチに適応できる堅牢でアンサンブルベースの検出戦略の必要性を強調しています。

要約(オリジナル)

Generative models, especially large language models (LLMs), have shown remarkable progress in producing text that appears human-like. However, they often exhibit patterns that make their output easier to detect than text written by humans. In this paper, we investigate how explainable AI (XAI) methods can be used to reduce the detectability of AI-generated text (AIGT) while also introducing a robust ensemble-based detection approach. We begin by training an ensemble classifier to distinguish AIGT from human-written text, then apply SHAP and LIME to identify tokens that most strongly influence its predictions. We propose four explainability-based token replacement strategies to modify these influential tokens. Our findings show that these token replacement approaches can significantly diminish a single classifier’s ability to detect AIGT. However, our ensemble classifier maintains strong performance across multiple languages and domains, showing that a multi-model approach can mitigate the impact of token-level manipulations. These results show that XAI methods can make AIGT harder to detect by focusing on the most influential tokens. At the same time, they highlight the need for robust, ensemble-based detection strategies that can adapt to evolving approaches for hiding AIGT.

arxiv情報

著者 Hadi Mohammadi,Anastasia Giachanou,Daniel L. Oberski,Ayoub Bagheri
発行日 2025-06-04 15:15:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Explainability-Based Token Replacement on LLM-Generated Text はコメントを受け付けていません

The Arabic AI Fingerprint: Stylometric Analysis and Detection of Large Language Models Text

要約

大規模な言語モデル(LLM)は、人間のようなテキストを生成する際に前例のない能力を達成し、教育、ソーシャルメディア、学界などの重要なドメイン間の情報整合性に微妙でありながら重要な課題をもたらし、洗練された誤った情報キャンペーンを可能にし、医療ガイダンスの妥協を可能にし、標的宣伝を促進します。
この課題は、特にアラビア語のような探求不足の低リソース言語では深刻になります。
この論文では、アカデミック、ソーシャルメディアのドメインにおける多様なモデルアーキテクチャ(Allam、Jais、Llama、およびGPT-4)にわたって、アラビア語の機械製テキストの包括的な調査(タイトルのみ、コンテンツ認識、およびテキスト洗練)を調べます。
私たちの定型分析は、これらのさまざまなコンテキスト全体で、機械で作られたアラビア語のテキストと人間が書かれた特徴的な言語パターンを明らかにしています。
それらの人間のような性質にもかかわらず、LLMはアラビア語の出力で検出可能な署名を生成することを実証します。
これらの洞察に基づいて、モデルアーキテクチャ全体で強力な精度で正式なコンテキスト(最大99.9 \%F1スコア)で並外れたパフォーマンスを達成するBERTベースの検出モデルを開発しました。
私たちのクロスドメイン分析は、以前に文献で報告された一般化の課題を確認しています。
私たちの知る限り、この作業は、これまでのアラビア語の機械で生成されたテキストの最も包括的な調査を表しています。複数の迅速な生成方法、多様なモデルアーキテクチャ、およびさまざまなテキストドメイン全体での詳細なスタイロメトリック分析を一意に組み合わせて、アラビア語の文脈に積極的に積極的に設計された検出システムを開発するための基礎を確立します。

要約(オリジナル)

Large Language Models (LLMs) have achieved unprecedented capabilities in generating human-like text, posing subtle yet significant challenges for information integrity across critical domains, including education, social media, and academia, enabling sophisticated misinformation campaigns, compromising healthcare guidance, and facilitating targeted propaganda. This challenge becomes severe, particularly in under-explored and low-resource languages like Arabic. This paper presents a comprehensive investigation of Arabic machine-generated text, examining multiple generation strategies (generation from the title only, content-aware generation, and text refinement) across diverse model architectures (ALLaM, Jais, Llama, and GPT-4) in academic, and social media domains. Our stylometric analysis reveals distinctive linguistic patterns differentiating human-written from machine-generated Arabic text across these varied contexts. Despite their human-like qualities, we demonstrate that LLMs produce detectable signatures in their Arabic outputs, with domain-specific characteristics that vary significantly between different contexts. Based on these insights, we developed BERT-based detection models that achieved exceptional performance in formal contexts (up to 99.9\% F1-score) with strong precision across model architectures. Our cross-domain analysis confirms generalization challenges previously reported in the literature. To the best of our knowledge, this work represents the most comprehensive investigation of Arabic machine-generated text to date, uniquely combining multiple prompt generation methods, diverse model architectures, and in-depth stylometric analysis across varied textual domains, establishing a foundation for developing robust, linguistically-informed detection systems essential for preserving information integrity in Arabic-language contexts.

arxiv情報

著者 Maged S. Al-Shaibani,Moataz Ahmed
発行日 2025-06-04 15:16:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | The Arabic AI Fingerprint: Stylometric Analysis and Detection of Large Language Models Text はコメントを受け付けていません