Who Wrote This? Identifying Machine vs Human-Generated Text in Hausa

要約

大規模な言語モデル(LLMS)の進歩により、コンテンツ生成を含むさまざまなタスクに習熟することができました。
ただし、規制されていない使用法は、特に低リソース言語では、盗作や偽のニュースの生成と広がりなどの悪意のある活動につながる可能性があります。
ほとんどの既存の機械で生成されたテキスト検出器は、英語、フランス語などの高リソース言語でトレーニングされています。この研究では、ハウサの人間と機械で生成されたコンテンツを区別できる最初の大規模検出器を開発しました。
人間が生成したテキストとGemini-2.0フラッシュモデルのために7つのHausa-Languageメディアアウトレットを廃棄して、人間が生成した記事の見出しに基づいて対応するHausa-Languageの記事を自動的に生成しました。
得られたデータセットで、4つの事前に訓練されたAFRI中心のモデル(Afriteva、Afriberta、AfroxlMR、およびAfroxlMR-76L)を微調整し、精度とF1スコアメトリックを使用してパフォーマンスを評価しました。
AFROXLMRは、精度99.23%とF1スコア99.21%で最高のパフォーマンスを達成し、HAUSAテキスト検出の有効性を示しました。
私たちのデータセットは、さらなる研究を可能にするために公開されています。

要約(オリジナル)

The advancement of large language models (LLMs) has allowed them to be proficient in various tasks, including content generation. However, their unregulated usage can lead to malicious activities such as plagiarism and generating and spreading fake news, especially for low-resource languages. Most existing machine-generated text detectors are trained on high-resource languages like English, French, etc. In this study, we developed the first large-scale detector that can distinguish between human- and machine-generated content in Hausa. We scrapped seven Hausa-language media outlets for the human-generated text and the Gemini-2.0 flash model to automatically generate the corresponding Hausa-language articles based on the human-generated article headlines. We fine-tuned four pre-trained Afri-centric models (AfriTeVa, AfriBERTa, AfroXLMR, and AfroXLMR-76L) on the resulting dataset and assessed their performance using accuracy and F1-score metrics. AfroXLMR achieved the highest performance with an accuracy of 99.23% and an F1 score of 99.21%, demonstrating its effectiveness for Hausa text detection. Our dataset is made publicly available to enable further research.

arxiv情報

著者 Babangida Sani,Aakansha Soy,Sukairaj Hafiz Imam,Ahmad Mustapha,Lukman Jibril Aliyu,Idris Abdulmumin,Ibrahim Said Ahmad,Shamsuddeen Hassan Muhammad
発行日 2025-03-17 12:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Who Wrote This? Identifying Machine vs Human-Generated Text in Hausa はコメントを受け付けていません

REPA: Russian Error Types Annotation for Evaluating Text Generation and Judgment Capabilities

要約

大規模な言語モデル(LLMS)の最近の進歩により、LLMを審査員として使用するという新しいパラダイムが導入されました。ここでは、LLMが別のLLMの出力を評価およびスコアリングします。
ただし、LLM-as-a-a-judgeの使用は主に英語で研究されています。
このホワイトペーパーでは、ロシアのエラータイプアノテーションデータセット(REPA)、1Kユーザークエリのデータセットと2K LLM生成応答のデータセットを導入することにより、ロシア語のこのフレームワークを評価します。
ヒトのアノテーターは、10の特定のエラータイプにわたって好みを表す各応答ペアをラベル付けし、全体的な好みを選択しました。
人間の好みに基づいて3つの評価システムを使用して、エラータイプ全体で6つの生成LLMをランク付けします。
また、ゼロショットと少数のショット設定で8人のLLM審査員を使用して回答を評価します。
裁判官と位置と長さのバイアスを分析した結果について説明します。
私たちの調査結果は、ロシア語と英語でのLLM裁判官のパフォーマンスの間に顕著なギャップを明らかにしています。
ただし、人間とLLMの好みに基づいたランキングは部分的な整合性を示しており、現在のLLM裁判官はロシア語でのきめの細かい評価に苦労しているが、改善の可能性があることを示唆しています。

要約(オリジナル)

Recent advances in large language models (LLMs) have introduced the novel paradigm of using LLMs as judges, where an LLM evaluates and scores the outputs of another LLM, which often correlates highly with human preferences. However, the use of LLM-as-a-judge has been primarily studied in English. In this paper, we evaluate this framework in Russian by introducing the Russian Error tyPes Annotation dataset (REPA), a dataset of 1k user queries and 2k LLM-generated responses. Human annotators labeled each response pair expressing their preferences across ten specific error types, as well as selecting an overall preference. We rank six generative LLMs across the error types using three rating systems based on human preferences. We also evaluate responses using eight LLM judges in zero-shot and few-shot settings. We describe the results of analyzing the judges and position and length biases. Our findings reveal a notable gap between LLM judge performance in Russian and English. However, rankings based on human and LLM preferences show partial alignment, suggesting that while current LLM judges struggle with fine-grained evaluation in Russian, there is potential for improvement.

arxiv情報

著者 Alexander Pugachev,Alena Fenogenova,Vladislav Mikhailov,Ekaterina Artemova
発行日 2025-03-17 12:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | REPA: Russian Error Types Annotation for Evaluating Text Generation and Judgment Capabilities はコメントを受け付けていません

Fine-tuning can Help Detect Pretraining Data from Large Language Models

要約

大規模な言語モデル(LLMS)の時代では、公正な評価と倫理的リスクに関する懸念のため、事前トレーニングデータの検出がますます重要になっています。
現在の方法では、困惑やmin-k%などのスコアリング関数を設計することにより、メンバーと非会員を区別します。
ただし、トレーニングデータの多様性と複雑さは、区別の難しさを拡大し、事前販売データの検出において最適ではないパフォーマンスにつながります。
この論文では、最初に目に見えないデータの利点を調査します。これは、LLMのリリース後に簡単に収集できます。
LLMSの困惑は、以前に目にされていない少量のデータを微調整した後、メンバーと非会員の場合に異なって変化することがわかります。
これに照らして、微調整されたスコア偏差(FSD)と呼ばれる斬新で効果的な方法を導入します。これにより、データ検出前の現在のスコアリング関数のパフォーマンスが向上します。
特に、同じドメイン内の少量の目に見えないデータを微調整した後、電流スコアの偏差距離を測定することを提案します。
実際には、いくつかの目に見えないデータを使用すると、すべての非会員のスコアが大幅に減少し、メンバーよりも偏差距離が大きくなります。
広範な実験は、私たちの方法の有効性を実証し、さまざまなモデルで共通のベンチマークデータセットのAUCスコアを大幅に改善します。

要約(オリジナル)

In the era of large language models (LLMs), detecting pretraining data has been increasingly important due to concerns about fair evaluation and ethical risks. Current methods differentiate members and non-members by designing scoring functions, like Perplexity and Min-k%. However, the diversity and complexity of training data magnifies the difficulty of distinguishing, leading to suboptimal performance in detecting pretraining data. In this paper, we first explore the benefits of unseen data, which can be easily collected after the release of the LLM. We find that the perplexities of LLMs shift differently for members and non-members, after fine-tuning with a small amount of previously unseen data. In light of this, we introduce a novel and effective method termed Fine-tuned Score Deviation(FSD), which improves the performance of current scoring functions for pretraining data detection. In particular, we propose to measure the deviation distance of current scores after fine-tuning on a small amount of unseen data within the same domain. In effect, using a few unseen data can largely decrease the scores of all non-members, leading to a larger deviation distance than members. Extensive experiments demonstrate the effectiveness of our method, significantly improving the AUC score on common benchmark datasets across various models.

arxiv情報

著者 Hengxiang Zhang,Songxin Zhang,Bingyi Jing,Hongxin Wei
発行日 2025-03-17 12:29:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Fine-tuning can Help Detect Pretraining Data from Large Language Models はコメントを受け付けていません

Code-Driven Inductive Synthesis: Enhancing Reasoning Abilities of Large Language Models with Sequences

要約

大規模な言語モデルは、推論能力において顕著な進歩を遂げます。
既存の作業は、主に演ductive的な推論タスク(コードや数学など)に焦点を当てていますが、人間の学習、帰納的推論とよりよく一致する別のタイプの推論モードは十分に研究されていません。
その理由は、高品質のプロセス監督データを取得することが帰納的推論にとって困難であるという事実に起因しています。
この目的に向けて、誘導性推論データのソースとして数字シーケンスを新たに使用します。
シーケンスをアルゴリズムの問​​題にパッケージ化して、コードソリューションを介して各シーケンスの一般用語を見つけます。
このようにして、コードソリューションが現在のシーケンスの任意の用語を保持するかどうかを確認し、コード単位テストを使用してケースベースの監督信号を注入できます。
シーケンス合成データパイプラインを構築し、トレーニングデータセットCodeseqを形成します。
実験結果は、Codeseqで調整されたモデルがコードと包括的な推論ベンチマークの両方で改善することを示しています。

要約(オリジナル)

Large language models make remarkable progress in reasoning capabilities. Existing works focus mainly on deductive reasoning tasks (e.g., code and math), while another type of reasoning mode that better aligns with human learning, inductive reasoning, is not well studied. We attribute the reason to the fact that obtaining high-quality process supervision data is challenging for inductive reasoning. Towards this end, we novelly employ number sequences as the source of inductive reasoning data. We package sequences into algorithmic problems to find the general term of each sequence through a code solution. In this way, we can verify whether the code solution holds for any term in the current sequence, and inject case-based supervision signals by using code unit tests. We build a sequence synthetic data pipeline and form a training dataset CodeSeq. Experimental results show that the models tuned with CodeSeq improve on both code and comprehensive reasoning benchmarks.

arxiv情報

著者 Kedi Chen,Zhikai Lei,Fan Zhang,Yinqi Zhang,Qin Chen,Jie Zhou,Liang He,Qipeng Guo,Kai Chen,Wei Zhang
発行日 2025-03-17 12:33:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Code-Driven Inductive Synthesis: Enhancing Reasoning Abilities of Large Language Models with Sequences はコメントを受け付けていません

MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs

要約

マルチモーダル大手言語モデル(MLLM)は2D視覚的理解に優れていますが、3Dスペースについて推論する能力が限られたままです。
この作業では、オープンセットの注釈を備えた大規模な高品質の3Dシーンデータを活用して、1)新しい監視された微調整データセットと2)屋内シーンに焦点を当てた新しい評価ベンチマークを紹介します。
Cubify Anything VQA(CA-VQA)データは、空間関係の予測、メトリックサイズと距離推定、3D接地など、多様な空間タスクをカバーしています。
CA-VQAにより、私たち自身を含む3D空間理解ベンチマークで最先端のパフォーマンスを達成する強力なジェネラリストMLLMであるMM空間をトレーニングできることを示しています。
メトリックの深さとマルチビュー入力(CA-VQAで提供)を組み込むことで、3Dの理解をさらに改善することができることを示し、データだけでモデルが専用の単眼深度推定モデルに匹敵する深さ認識機能を実現できることを示しています。
SFTデータセットとベンチマークを公開します。

要約(オリジナル)

Multimodal large language models (MLLMs) excel at 2D visual understanding but remain limited in their ability to reason about 3D space. In this work, we leverage large-scale high-quality 3D scene data with open-set annotations to introduce 1) a novel supervised fine-tuning dataset and 2) a new evaluation benchmark, focused on indoor scenes. Our Cubify Anything VQA (CA-VQA) data covers diverse spatial tasks including spatial relationship prediction, metric size and distance estimation, and 3D grounding. We show that CA-VQA enables us to train MM-Spatial, a strong generalist MLLM that also achieves state-of-the-art performance on 3D spatial understanding benchmarks, including our own. We show how incorporating metric depth and multi-view inputs (provided in CA-VQA) can further improve 3D understanding, and demonstrate that data alone allows our model to achieve depth perception capabilities comparable to dedicated monocular depth estimation models. We will publish our SFT dataset and benchmark.

arxiv情報

著者 Erik Daxberger,Nina Wenzel,David Griffiths,Haiming Gang,Justin Lazarow,Gefen Kohavi,Kai Kang,Marcin Eichner,Yinfei Yang,Afshin Dehghan,Peter Grasch
発行日 2025-03-17 12:34:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs はコメントを受け付けていません

Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding

要約

長いビデオコンテンツを理解することは、多くの場合、密にサンプリングされたフレームキャプションまたはエンドツーエンドの機能セレクターに依存する複雑な努力ですが、これらの手法は一般に、テキストクエリと視覚要素の間の論理的な関係を見落としています。
実際には、計算上の制約では、「干し草の山で針を見つける」に類似した課題である粗いフレームのサブサンプリングが必要です。この問題に対処するために、視覚的なセマンティックロジカル検索のパラダイムの下でキーフレーム選択を再編成するセマンティクス駆動型の検索フレームワークを導入します。
具体的には、4つの基本的な論理依存関係を体系的に定義します。1)空間的共起、2)時間的近接、3)属性依存関係、および4)因果順序。
これらの関係は、反復的な改良プロセスを介してフレームサンプリング分布を動的に更新し、特定のクエリ要件に合わせたセマンティックに重要なフレームのコンテキストを意識した識別を可能にします。
私たちの方法は、キーフレーム選択メトリックの手動注釈付きベンチマークで新しいSOTAパフォーマンスを確立します。
さらに、下流のビデオ質問タスクに適用されると、提案されたアプローチは、LongvideobenchとビデオMMEの既存の方法よりも最高のパフォーマンスの向上を実証し、テキストクエリと視覚的に優しい推論の間の論理的ギャップを埋める際の有効性を検証します。
コードは公開されます。

要約(オリジナル)

Understanding long video content is a complex endeavor that often relies on densely sampled frame captions or end-to-end feature selectors, yet these techniques commonly overlook the logical relationships between textual queries and visual elements. In practice, computational constraints necessitate coarse frame subsampling, a challenge analogous to “finding a needle in a haystack.” To address this issue, we introduce a semantics-driven search framework that reformulates keyframe selection under the paradigm of Visual Semantic-Logical Search. Specifically, we systematically define four fundamental logical dependencies: 1) spatial co-occurrence, 2) temporal proximity, 3) attribute dependency, and 4) causal order. These relations dynamically update frame sampling distributions through an iterative refinement process, enabling context-aware identification of semantically critical frames tailored to specific query requirements. Our method establishes new SOTA performance on the manually annotated benchmark in key-frame selection metrics. Furthermore, when applied to downstream video question-answering tasks, the proposed approach demonstrates the best performance gains over existing methods on LongVideoBench and Video-MME, validating its effectiveness in bridging the logical gap between textual queries and visual-temporal reasoning. The code will be publicly available.

arxiv情報

著者 Weiyu Guo,Ziyang Chen,Shaoguang Wang,Jianxiang He,Yijie Xu,Jinhui Ye,Ying Sun,Hui Xiong
発行日 2025-03-17 13:07:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, eess.IV | Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding はコメントを受け付けていません

Are LLMs (Really) Ideological? An IRT-based Analysis and Alignment Tool for Perceived Socio-Economic Bias in LLMs

要約

主観的な人間の判断に依存することなく、大規模な言語モデル(LLM)の社会経済的バイアスを検出および定量化するためのアイテム応答理論(IRT)ベースのフレームワークを導入します。
従来の方法とは異なり、IRTはアイテムの難易度を説明し、イデオロギーバイアスの推定を改善します。
2つのLLMファミリ(メタラマ3.2-1B-InstructおよびChat-GPT 3.5)を微調整して、異なるイデオロギーの位置を表し、2段階のアプローチを導入します。
我々の結果は、既製のLLMが偏見を示すのではなく、イデオロギーの関与を避けることが多く、党派性の事前の主張に挑戦することを示しています。
この経験的に検証されたフレームワークは、AIアライメント研究を強化し、より公正なAIガバナンスを促進します。

要約(オリジナル)

We introduce an Item Response Theory (IRT)-based framework to detect and quantify socioeconomic bias in large language models (LLMs) without relying on subjective human judgments. Unlike traditional methods, IRT accounts for item difficulty, improving ideological bias estimation. We fine-tune two LLM families (Meta-LLaMa 3.2-1B-Instruct and Chat- GPT 3.5) to represent distinct ideological positions and introduce a two-stage approach: (1) modeling response avoidance and (2) estimating perceived bias in answered responses. Our results show that off-the-shelf LLMs often avoid ideological engagement rather than exhibit bias, challenging prior claims of partisanship. This empirically validated framework enhances AI alignment research and promotes fairer AI governance.

arxiv情報

著者 Jasmin Wachter,Michael Radloff,Maja Smolej,Katharina Kinder-Kurlanda
発行日 2025-03-17 13:20:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | Are LLMs (Really) Ideological? An IRT-based Analysis and Alignment Tool for Perceived Socio-Economic Bias in LLMs はコメントを受け付けていません

LLM-based speaker diarization correction: A generalizable approach

要約

スピーカーダイアリゼーションは、自動化された音声認識(ASR)ツールを使用して転写される会話を解釈するために必要です。
ダイアリゼーション方法の重要な発展にもかかわらず、ダイアリゼーションの精度は依然として問題です。
ここでは、後処理ステップとしてのダイアリゼーション補正のための大規模な言語モデル(LLM)の使用を調査します。
LLMは、転写された会話の大きなデータセットであるFisher Corpusを使用して微調整されました。
フィッシャーコーパスからのホールドアウトデータセットのダイアリゼーション精度と独立したデータセットを測定するモデルの能力が測定されました。
微調整されたLLMが著しくダイアリゼーションの精度を改善できると報告しています。
ただし、モデルのパフォーマンスは、微調整に使用される転写産物と同じASRツールを使用して生成される転写産物に制約され、一般化を制限します。
この制約に対処するために、3つの別々のモデルの重みを組み合わせることにより、アンサンブルモデルが開発されました。各モデルは、それぞれ異なるASRツールの転写産物を使用して微調整されました。
アンサンブルモデルは、ASR固有の各モデルよりも全体的なパフォーマンスが優れていることを示しており、一般化可能でASRに依存しないアプローチが達成可能であることを示唆しています。
これらのモデルの重みを、https://huggingface.co/bklynhlthのHuggingfaceで公開されました。

要約(オリジナル)

Speaker diarization is necessary for interpreting conversations transcribed using automated speech recognition (ASR) tools. Despite significant developments in diarization methods, diarization accuracy remains an issue. Here, we investigate the use of large language models (LLMs) for diarization correction as a post-processing step. LLMs were fine-tuned using the Fisher corpus, a large dataset of transcribed conversations. The ability of the models to improve diarization accuracy in a holdout dataset from the Fisher corpus as well as an independent dataset was measured. We report that fine-tuned LLMs can markedly improve diarization accuracy. However, model performance is constrained to transcripts produced using the same ASR tool as the transcripts used for fine-tuning, limiting generalizability. To address this constraint, an ensemble model was developed by combining weights from three separate models, each fine-tuned using transcripts from a different ASR tool. The ensemble model demonstrated better overall performance than each of the ASR-specific models, suggesting that a generalizable and ASR-agnostic approach may be achievable. We have made the weights of these models publicly available on HuggingFace at https://huggingface.co/bklynhlth.

arxiv情報

著者 Georgios Efstathiadis,Vijay Yadav,Anzar Abbas
発行日 2025-03-17 13:34:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | LLM-based speaker diarization correction: A generalizable approach はコメントを受け付けていません

MAP: Evaluation and Multi-Agent Enhancement of Large Language Models for Inpatient Pathways

要約

入院患者経路は、包括的な患者情報に基づいて複雑な臨床的意思決定を要求し、臨床医に重大な課題をもたらします。
医療用途の大規模な言語モデル(LLM)の進歩にもかかわらず、大規模な入院データセットがないため、人工知能(AI)入院経路シス​​テムに焦点を当てた限られた研究。
さらに、既存の医療ベンチマークは、通常、医療の質問と試験に集中しており、入院患者環境での臨床的意思決定の多面的な性質を無視しています。
これらのギャップに対処するために、最初にMimic-IVデータベースから入院経路決定サポート(IPDS)ベンチマークを開発しました。これは、9つのトリアージ部門に51,274の症例と16の標準化された治療オプションとともに51,274件の症例を網羅しています。
次に、患者入院を管理するトリアージエージェント、部門の主要な意思決定者として機能する診断剤、治療剤を提供する治療剤を含む3つの臨床剤を含む入院患者経路を達成するために、多因子入院患者経路(MAP)フレームワークを提案しました。
さらに、マップフレームワークには、入院患者の経路を監督するチーフエージェントが含まれており、これら3人の臨床薬剤を導き、促進します。
広範な実験では、最先端のLLM Huatuogpt2-13bと比較して、マップが診断精度を25.10%改善したことが示されました。
私たちのマップが重要な臨床コンプライアンスを実証し、3人の取締役会認定臨床医を10%〜12%上回り、入院患者経路システムの基礎を確立したことは注目に値します。

要約(オリジナル)

Inpatient pathways demand complex clinical decision-making based on comprehensive patient information, posing critical challenges for clinicians. Despite advancements in large language models (LLMs) in medical applications, limited research focused on artificial intelligence (AI) inpatient pathways systems, due to the lack of large-scale inpatient datasets. Moreover, existing medical benchmarks typically concentrated on medical question-answering and examinations, ignoring the multifaceted nature of clinical decision-making in inpatient settings. To address these gaps, we first developed the Inpatient Pathway Decision Support (IPDS) benchmark from the MIMIC-IV database, encompassing 51,274 cases across nine triage departments and 17 major disease categories alongside 16 standardized treatment options. Then, we proposed the Multi-Agent Inpatient Pathways (MAP) framework to accomplish inpatient pathways with three clinical agents, including a triage agent managing the patient admission, a diagnosis agent serving as the primary decision maker at the department, and a treatment agent providing treatment plans. Additionally, our MAP framework includes a chief agent overseeing the inpatient pathways to guide and promote these three clinician agents. Extensive experiments showed our MAP improved the diagnosis accuracy by 25.10% compared to the state-of-the-art LLM HuatuoGPT2-13B. It is worth noting that our MAP demonstrated significant clinical compliance, outperforming three board-certified clinicians by 10%-12%, establishing a foundation for inpatient pathways systems.

arxiv情報

著者 Zhen Chen,Zhihao Peng,Xusheng Liang,Cheng Wang,Peigan Liang,Linsheng Zeng,Minjie Ju,Yixuan Yuan
発行日 2025-03-17 14:14:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC, cs.MA | MAP: Evaluation and Multi-Agent Enhancement of Large Language Models for Inpatient Pathways はコメントを受け付けていません

Improving Complex Reasoning with Dynamic Prompt Corruption: A soft prompt Optimization Approach

要約

大規模な言語モデル(LLMS)のプロンプトチューニング(PT)は、トレーニング可能なパラメーターが大幅に少ないさまざまな従来のNLPタスクのパフォーマンスを促進できます。
しかし、我々の調査により、PTは限られた改善を提供し、複雑な推論タスクでLLMの原始的なパフォーマンスを低下させる可能性さえあることが明らかになりました。
このような現象は、ソフトプロンプトが特定のインスタンスにプラスの影響を与えると同時に、特に推論の後期段階で他のインスタンスに悪影響を与える可能性があることを示唆しています。
これらの課題に対処するために、最初にソフトプロンプト内の情報蓄積を特定します。
詳細な分析を通じて、この現象にはしばしばモデルのより深い層に誤った情報フローパターンが伴い、最終的に誤った推論結果につながることを実証します。
\ textbf {d} ynamic \ textbf {p} rompt \ textbf {c} orutdion(dpc)という新しい方法を提案します。
具体的には、DPCは、動的トリガーと動的腐敗の2つの段階で構成されています。
第一に、動的トリガーはソフトプロンプトの影響を測定し、有益か有害かを特定します。
次に、動的な腐敗は、推論プロセスを妨げるキートークンを選択的にマスキングすることにより、ソフトプロンプトの負の影響を軽減します。
GSM8K、Math、Aquaなど、さまざまなLLMSおよび推論タスクに関する広範な実験を通じて提案されたアプローチを検証します。
実験結果は、DPCがPTのパフォーマンスを一貫して向上させ、バニラプロンプトチューニングと比較して4 \%-8 \%の精度の向上を達成できることを示しており、アプローチの有効性とLLMSの複雑な推論を強化する可能性を強調しています。

要約(オリジナル)

Prompt-tuning (PT) for large language models (LLMs) can facilitate the performance on various conventional NLP tasks with significantly fewer trainable parameters. However, our investigation reveals that PT provides limited improvement and may even degrade the primitive performance of LLMs on complex reasoning tasks. Such a phenomenon suggests that soft prompts can positively impact certain instances while negatively affecting others, particularly during the later phases of reasoning. To address these challenges, We first identify an information accumulation within the soft prompts. Through detailed analysis, we demonstrate that this phenomenon is often accompanied by erroneous information flow patterns in the deeper layers of the model, which ultimately lead to incorrect reasoning outcomes. we propose a novel method called \textbf{D}ynamic \textbf{P}rompt \textbf{C}orruption (DPC) to take better advantage of soft prompts in complex reasoning tasks, which dynamically adjusts the influence of soft prompts based on their impact on the reasoning process. Specifically, DPC consists of two stages: Dynamic Trigger and Dynamic Corruption. First, Dynamic Trigger measures the impact of soft prompts, identifying whether beneficial or detrimental. Then, Dynamic Corruption mitigates the negative effects of soft prompts by selectively masking key tokens that interfere with the reasoning process. We validate the proposed approach through extensive experiments on various LLMs and reasoning tasks, including GSM8K, MATH, and AQuA. Experimental results demonstrate that DPC can consistently enhance the performance of PT, achieving 4\%-8\% accuracy gains compared to vanilla prompt tuning, highlighting the effectiveness of our approach and its potential to enhance complex reasoning in LLMs.

arxiv情報

著者 Sinan Fan,Liang Xie,Chen Shen,Ge Teng,Xiaosong Yuan,Xiaofeng Zhang,Chenxi Huang,Wenxiao Wang,Xiaofei He,Jieping Ye
発行日 2025-03-17 14:20:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Improving Complex Reasoning with Dynamic Prompt Corruption: A soft prompt Optimization Approach はコメントを受け付けていません