Accelerating Chain-of-Thought Reasoning: When Goal-Gradient Importance Meets Dynamic Skipping

要約

大規模な言語モデルは、チェーンオブシャーチ(COT)を活用して複雑なタスクを促しますが、その推論の痕跡はしばしば過度に冗長で非効率的であり、大幅な計算コストと遅延につながります。
現在のCOT圧縮技術は、通常、一般的な重要性メトリックと静的圧縮速度に依存しています。
これらの制限を克服するために、監視付きの微調整を介して動的なCOT圧縮を学習する新しいフレームワークであるAdaptive Gogi-Skipを提案します。
このアプローチでは、2つの相乗的イノベーションを導入します。(1)目標勾配の重要性(GOGI)、最終回答損失に対する中間表現の勾配的影響を測定することにより、機能的に関連するトークンを正確に識別する新しいメトリック、および(2)アダプティブダイナミックスキップ(ADS)、ランタイムモデルのconstriventive nectoringを介して動的に制御されるメカニズムが動的に制御されます。
私たちの知る限り、これは、コット圧縮のための動的で不確実なスキップのスキップを備えた目標指向のグラデーションベースの重要性メトリックを統一する最初の作業です。
圧縮された数学データでトレーニングされたAdaptive Gogi-Skipは、AIME、GPQA、GSM8Kなどの多様な推論ベンチマーク全体で強力なクロスドメインの一般化を示しています。
それはかなりの効率性の向上を達成します – コットトークンカウントを平均で45%以上削減し、1.6-2.0倍の推論スピードアップを提供し、高い推論の精度を維持します。
特に、効果的な圧縮速度が高い場合でも精度を維持することにより、既存のベースラインを大幅に上回り、COTの推論効率 – アクセラシーのトレードオフの最先端を進めています。

要約(オリジナル)

Large Language Models leverage Chain-of-Thought (CoT) prompting for complex tasks, but their reasoning traces are often excessively verbose and inefficient, leading to significant computational costs and latency. Current CoT compression techniques typically rely on generic importance metrics and static compression rates, which may inadvertently remove functionally critical tokens or fail to adapt to varying reasoning complexity. To overcome these limitations, we propose Adaptive GoGI-Skip, a novel framework learning dynamic CoT compression via supervised fine-tuning. This approach introduces two synergistic innovations: (1) Goal-Gradient Importance (GoGI), a novel metric accurately identifying functionally relevant tokens by measuring the gradient influence of their intermediate representations on the final answer loss, and (2) Adaptive Dynamic Skipping (ADS), a mechanism dynamically regulating the compression rate based on runtime model uncertainty while ensuring local coherence through an adaptive N-token constraint. To our knowledge, this is the first work unifying a goal-oriented, gradient-based importance metric with dynamic, uncertainty-aware skipping for CoT compression. Trained on compressed MATH data, Adaptive GoGI-Skip demonstrates strong cross-domain generalization across diverse reasoning benchmarks including AIME, GPQA, and GSM8K. It achieves substantial efficiency gains – reducing CoT token counts by over 45% on average and delivering 1.6-2.0 times inference speedups – while maintaining high reasoning accuracy. Notably, it significantly outperforms existing baselines by preserving accuracy even at high effective compression rates, advancing the state of the art in the CoT reasoning efficiency-accuracy trade-off.

arxiv情報

著者 Ren Zhuang,Ben Wang,Shuifa Sun
発行日 2025-05-13 09:39:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Accelerating Chain-of-Thought Reasoning: When Goal-Gradient Importance Meets Dynamic Skipping はコメントを受け付けていません

TUMS: Enhancing Tool-use Abilities of LLMs with Multi-structure Handlers

要約

最近、大規模な言語モデル(LLM)は、幅広いNLPタスクを解決し、自然言語の理解と生成の能力を活用する上でますます重要な役割を果たしてきました。
外部ツールとの統合により、LLMSの有効性がさらに向上し、より正確でタイムリーな、専門的な応答が提供されます。
ただし、LLMは、主に誤ったパラメーターに起因する実行不可能なアクションと不適切なアクションで依然として困難に直面しています。
LLMSによってパラメーターを生成するプロセスは、さまざまなツールのさまざまな困難を考慮せずに粗視化戦略を採用して、ツールレベルに限定されます。
この問題に対処するために、ツールレベルの処理をパラメーターレベルの処理に変換することにより、LLMSのツール使用機能を強化するように設計された新しいフレームワークであるTUMSを提案します。
具体的には、私たちのフレームワークは4つの重要なコンポーネントで構成されています。(1)LLMSがタスクをよりよく理解できるようにするユーザーの意図を識別する意図的な認識者。
(2)複雑なタスクをよりシンプルなサブタスクに分解するタスク分解者。それぞれがツール呼び出しを含む。
(3)正確なパラメーターを生成するためのマルチ構造ハンドラーを備えたサブタスクプロセッサ。
(4)執行者。
私たちの経験的研究は、TUMSフレームワークの有効性と効率を証明し、平均19.6 \%と50.6 \%の改善がツールカの簡単かつハードベンチマークで個別に改善されました。一方、各アブレーション実験で各部品の重要な貢献を実証し、より多くの洞察を提供し、ツール授与LLMSでの将来の研究を刺激しました。

要約(オリジナル)

Recently, large language models(LLMs) have played an increasingly important role in solving a wide range of NLP tasks, leveraging their capabilities of natural language understanding and generating. Integration with external tools further enhances LLMs’ effectiveness, providing more precise, timely, and specialized responses. However, LLMs still encounter difficulties with non-executable actions and improper actions, which are primarily attributed to incorrect parameters. The process of generating parameters by LLMs is confined to the tool level, employing the coarse-grained strategy without considering the different difficulties of various tools. To address this issue, we propose TUMS, a novel framework designed to enhance the tool-use capabilities of LLMs by transforming tool-level processing into parameter-level processing. Specifically, our framework consists of four key components: (1) an intent recognizer that identifies the user’s intent to help LLMs better understand the task; (2) a task decomposer that breaks down complex tasks into simpler subtasks, each involving a tool call; (3) a subtask processor equipped with multi-structure handlers to generate accurate parameters; and (4) an executor. Our empirical studies have evidenced the effectiveness and efficiency of the TUMS framework with an average of 19.6\% and 50.6\% improvement separately on easy and hard benchmarks of ToolQA, meanwhile, we demonstrated the key contribution of each part with ablation experiments, offering more insights and stimulating future research on Tool-augmented LLMs.

arxiv情報

著者 Aiyao He,Sijia Cui,Shuai Xu,Yanna Wang,Bo Xu
発行日 2025-05-13 09:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TUMS: Enhancing Tool-use Abilities of LLMs with Multi-structure Handlers はコメントを受け付けていません

Query-driven Document-level Scientific Evidence Extraction from Biomedical Studies

要約

臨床研究の質問のための生物医学研究から科学的証拠を抽出すること(例えば、幹細胞移植は、プラセボと比較して医学的に難治性のクローン病の患者の生活の質を改善しますか?)は、生物医学的証拠を合成する上で重要なステップです。
この論文では、矛盾する証拠を伴う臨床的質問に対する文書レベルの科学的証拠抽出のタスクに焦点を当てています。
このタスクをサポートするために、Cochraneforestというデータセットを作成し、Cochraneの系統的レビューから森林プロットを活用します。
これは、202の注釈付き森林区画、関連する臨床研究の質問、研究の全文、および研究固有の結論で構成されています。
Cochraneforestに建設すると、証拠抽出のユニークな課題に取り組むために設計された検索された生成フレームワークであるURCA(均一な検索クラスター化された増強)を提案します。
私たちの実験は、URCAがこのタスクでF1スコアで最高の既存の方法を最大10.3%上回ることを示しています。
ただし、結果はコクランフォーストの複雑さも強調しており、自動化されたエビデンス合成システムを進めるための挑戦的なテストベッドとして確立されています。

要約(オリジナル)

Extracting scientific evidence from biomedical studies for clinical research questions (e.g., Does stem cell transplantation improve quality of life in patients with medically refractory Crohn’s disease compared to placebo?) is a crucial step in synthesising biomedical evidence. In this paper, we focus on the task of document-level scientific evidence extraction for clinical questions with conflicting evidence. To support this task, we create a dataset called CochraneForest, leveraging forest plots from Cochrane systematic reviews. It comprises 202 annotated forest plots, associated clinical research questions, full texts of studies, and study-specific conclusions. Building on CochraneForest, we propose URCA (Uniform Retrieval Clustered Augmentation), a retrieval-augmented generation framework designed to tackle the unique challenges of evidence extraction. Our experiments show that URCA outperforms the best existing methods by up to 10.3% in F1 score on this task. However, the results also underscore the complexity of CochraneForest, establishing it as a challenging testbed for advancing automated evidence synthesis systems.

arxiv情報

著者 Massimiliano Pronesti,Joao Bettencourt-Silva,Paul Flanagan,Alessandra Pascale,Oisin Redmond,Anya Belz,Yufang Hou
発行日 2025-05-13 10:50:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Query-driven Document-level Scientific Evidence Extraction from Biomedical Studies はコメントを受け付けていません

Hakim: Farsi Text Embedding Model

要約

テキストの埋め込みにおける最近の進歩により、多くの言語で自然言語の理解が大幅に改善されましたが、ペルシャ語は大規模な埋め込み研究で特に過小評価されています。
この論文では、FAMTEBベンチマーク上の既存のアプローチより8.5%のパフォーマンス改善を達成する、以前に開発されたすべてのペルシャ語モデルを上回る、既存のアプローチよりも8.5%のパフォーマンス改善を達成する、ペルシャのテキスト埋め込みモデルであるHakimを紹介します。
この作業の一環として、監督された監視されていないトレーニングシナリオをサポートするために、コーペシア、ペイリアサップ、ペイリアアンサップの3つの新しいデータセットを紹介します。
さらに、Hakimは、チャットボットおよび検索された生成(RAG)システムのアプリケーション用に設計されており、特にこれらのシステムにメッセージ履歴を組み込む必要がある検索タスクに対処します。
また、Bert Architectureに基づいて構築された新しいベースラインモデルも提案します。
私たちの言語モデルは、さまざまなペルシャのNLPタスクで一貫してより高い精度を達成しますが、レトロマベースのモデルはテキスト情報検索アプリケーションに特に効果的であることが証明されています。
一緒に、これらの貢献は、ペルシャ語の理解を深めるための新しい基盤を確立します。

要約(オリジナル)

Recent advancements in text embedding have significantly improved natural language understanding across many languages, yet Persian remains notably underrepresented in large-scale embedding research. In this paper, we present Hakim, a novel state-of-the-art Persian text embedding model that achieves a 8.5% performance improvement over existing approaches on the FaMTEB benchmark, outperforming all previously developed Persian language models. As part of this work, we introduce three new datasets – Corpesia, Pairsia-sup, and Pairsia-unsup – to support supervised and unsupervised training scenarios. Additionally, Hakim is designed for applications in chatbots and retrieval-augmented generation (RAG) systems, particularly addressing retrieval tasks that require incorporating message history within these systems. We also propose a new baseline model built on the BERT architecture. Our language model consistently achieves higher accuracy across various Persian NLP tasks, while the RetroMAE-based model proves particularly effective for textual information retrieval applications. Together, these contributions establish a new foundation for advancing Persian language understanding.

arxiv情報

著者 Mehran Sarmadi,Morteza Alikhani,Erfan Zinvandi,Zahra Pourbahman
発行日 2025-05-13 10:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Hakim: Farsi Text Embedding Model はコメントを受け付けていません

A document processing pipeline for the construction of a dataset for topic modeling based on the judgments of the Italian Supreme Court

要約

イタリアの法的調査におけるトピックモデリングは、公開データセットの欠如によって妨げられ、最高裁判所の判決における法的テーマの分析が制限されます。
これに対処するために、トピックモデリング用に最適化された匿名化されたデータセットを生成するドキュメント処理パイプラインを開発しました。
パイプラインは、ドキュメントレイアウト分析(YoLOV8X)、光学文字認識、およびテキストの匿名化を統合します。
DLAモジュールは、0.964の50@50@50と0.800の50-95のマップを達成しました。
OCR検出器は0.9022の50-95@50-95に到達し、テキスト認識者(TROCR)は0.0047の文字エラー率と0.0248の単語エラー率を取得しました。
OCRのみの方法と比較して、データセットは、0.6198のダイバーシティスコアと0.6638のコヒーレンススコアでトピックモデリングを改善しました。
トピックを抽出するためにBertopicを適用し、ラベルと要約を生成するために大規模な言語モデルを使用しました。
出力は、ドメインの専門家解釈に対して評価されました。
Claude Sonnet 3.7は、標識用に0.8119、要約のために0.9130のBertscore F1を達成しました。

要約(オリジナル)

Topic modeling in Italian legal research is hindered by the lack of public datasets, limiting the analysis of legal themes in Supreme Court judgments. To address this, we developed a document processing pipeline that produces an anonymized dataset optimized for topic modeling. The pipeline integrates document layout analysis (YOLOv8x), optical character recognition, and text anonymization. The DLA module achieved a mAP@50 of 0.964 and a mAP@50-95 of 0.800. The OCR detector reached a mAP@50-95 of 0.9022, and the text recognizer (TrOCR) obtained a character error rate of 0.0047 and a word error rate of 0.0248. Compared to OCR-only methods, our dataset improved topic modeling with a diversity score of 0.6198 and a coherence score of 0.6638. We applied BERTopic to extract topics and used large language models to generate labels and summaries. Outputs were evaluated against domain expert interpretations. Claude Sonnet 3.7 achieved a BERTScore F1 of 0.8119 for labeling and 0.9130 for summarization.

arxiv情報

著者 Matteo Marulli,Glauco Panattoni,Marco Bertini
発行日 2025-05-13 11:06:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A document processing pipeline for the construction of a dataset for topic modeling based on the judgments of the Italian Supreme Court はコメントを受け付けていません

IndicSQuAD: A Comprehensive Multilingual Question Answering Dataset for Indic Languages

要約

質問回答(QA)システムの急速な進歩は、主に高リソース言語に利益をもたらし、膨大なネイティブスピーカーベースにもかかわらず、インド語の言語はほとんど過小評価されています。
この論文では、Squad Datasetから体系的に派生した9つの主要なインド言語をカバーする包括的な多言語抽出QAデータセットであるIndicsquadを紹介します。
MarathiのためにMahasquadとの以前の作業に基づいて、私たちのアプローチは、多様な言語にわたって高い言語的忠実度と正確な回答スパンアライメントを維持するために翻訳技術を適応および拡張します。
Indicsquadは、各言語の広範なトレーニング、検証、およびテストセットで構成され、モデル開発のための堅牢な基盤を提供します。
言語固有の単一言語のBERTモデルと多言語のMuril-Bertを使用して、ベースラインのパフォーマンスを評価します。
結果は、低リソース設定に固有のいくつかの課題を示しています。
さらに、私たちの実験は、追加の言語への拡大、ドメイン固有のデータセットの開発、マルチモーダルデータの組み込みなど、将来の作業の潜在的な方向性を示唆しています。
データセットとモデルは、https://github.com/l3cube-pune/indic-nlpで公開されています

要約(オリジナル)

The rapid progress in question-answering (QA) systems has predominantly benefited high-resource languages, leaving Indic languages largely underrepresented despite their vast native speaker base. In this paper, we present IndicSQuAD, a comprehensive multi-lingual extractive QA dataset covering nine major Indic languages, systematically derived from the SQuAD dataset. Building on previous work with MahaSQuAD for Marathi, our approach adapts and extends translation techniques to maintain high linguistic fidelity and accurate answer-span alignment across diverse languages. IndicSQuAD comprises extensive training, validation, and test sets for each language, providing a robust foundation for model development. We evaluate baseline performances using language-specific monolingual BERT models and the multilingual MuRIL-BERT. The results indicate some challenges inherent in low-resource settings. Moreover, our experiments suggest potential directions for future work, including expanding to additional languages, developing domain-specific datasets, and incorporating multimodal data. The dataset and models are publicly shared at https://github.com/l3cube-pune/indic-nlp

arxiv情報

著者 Sharvi Endait,Ruturaj Ghatage,Aditya Kulkarni,Rajlaxmi Patil,Raviraj Joshi
発行日 2025-05-13 11:11:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | IndicSQuAD: A Comprehensive Multilingual Question Answering Dataset for Indic Languages はコメントを受け付けていません

Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency

要約

大規模な言語モデルは高いタスクのパフォーマンスを実現しますが、多くの場合、時代遅れの知識に幻覚または依存しています。
検索された生成(RAG)は、カップリング生成と外部検索によりこれらのギャップに対処します。
ハイパーパラメーターがRAGシステムの速度と品質にどのように影響するかを分析し、クロマとFAISSベクターのストア、チャンキングポリシー、クロスエンコーダーの再ランキング、および温度をカバーし、6つのメトリックを評価します。
Chroma Processesは13%より速くクエリを処理しますが、FAISSはより高い回収精度を生成し、明確な速度acccuracyのトレードオフが明らかになります。
小さなウィンドウと最小限のオーバーラップを備えた素朴な固定長チャンキングは、最も迅速なオプションを残しながらセマンティックセグメンテーションを上回ります。
再ランキングは検索品質のわずかな利益を提供しますが、ランタイムが約5倍に増加するため、その有用性はレイテンシの制約に依存します。
これらの結果は、透明で最新の応答のためにRAGシステムを調整する際に、開業医のバランスをとるのに役立ちます。
最後に、是正ぼろのワークフローで上部構成を再評価し、モデルが追加の証拠を繰り返し要求できるときにそれらの利点が持続することを示します。
ほぼ完璧なコンテキスト精度(99%)を取得します。これは、ハイパーパラメーターの適切な組み合わせでRAGシステムが非常に高い検索精度を達成できることを示しています。

要約(オリジナル)

Large language models achieve high task performance yet often hallucinate or rely on outdated knowledge. Retrieval-augmented generation (RAG) addresses these gaps by coupling generation with external search. We analyse how hyperparameters influence speed and quality in RAG systems, covering Chroma and Faiss vector stores, chunking policies, cross-encoder re-ranking, and temperature, and we evaluate six metrics: faithfulness, answer correctness, answer relevancy, context precision, context recall, and answer similarity. Chroma processes queries 13% faster, whereas Faiss yields higher retrieval precision, revealing a clear speed-accuracy trade-off. Naive fixed-length chunking with small windows and minimal overlap outperforms semantic segmentation while remaining the quickest option. Re-ranking provides modest gains in retrieval quality yet increases runtime by roughly a factor of 5, so its usefulness depends on latency constraints. These results help practitioners balance computational cost and accuracy when tuning RAG systems for transparent, up-to-date responses. Finally, we re-evaluate the top configurations with a corrective RAG workflow and show that their advantages persist when the model can iteratively request additional evidence. We obtain a near-perfect context precision (99%), which demonstrates that RAG systems can achieve extremely high retrieval accuracy with the right combination of hyperparameters, with significant implications for applications where retrieval quality directly impacts downstream task performance, such as clinical decision support in healthcare.

arxiv情報

著者 Adel Ammar,Anis Koubaa,Omer Nacar,Wadii Boulila
発行日 2025-05-13 11:13:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency はコメントを受け付けていません

IterKey: Iterative Keyword Generation with LLMs for Enhanced Retrieval Augmented Generation

要約

検索された生成(RAG)は、外部ドキュメントを統合することにより、大規模な言語モデル(LLM)のコンテキスト内の知識を補完する方法として浮上しています。
ただし、実際のアプリケーションは、精度だけでなく解釈可能性も必要とします。
密な検索方法は高い精度を提供しますが、解釈可能性がありません。
逆に、まばらな検索方法は透明性を提供しますが、キーワードのマッチングに依存しているため、クエリの完全な意図をキャプチャできないことがよくあります。
これらの問題に対処するために、LLM駆動型の反復キーワード生成フレームワークであるIterkeyを紹介します。
Iterkeyは、3つのLLM駆動型のステージで構成されています。取得のためのキーワードの生成、取得したドキュメントに基づいて回答の生成、および回答の検証です。
検証が失敗した場合、プロセスは洗練されたキーワードで繰り返し繰り返されます。
4つのQAタスクにわたって、実験結果は、IterkeyがBM25ベースのRAGおよび単純なベースラインで5%から20%の精度の改善を達成することを示しています。
そのパフォーマンスは、密な検索ベースのRAGおよび密なモデルを使用した以前の反復クエリ改良方法に匹敵します。
要約すると、Iterkeyは、LLMを活用してRAGを繰り返し洗練させ、精度と解釈可能性のバランスをとる新しいBM25ベースのアプローチです。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) has emerged as a way to complement the in-context knowledge of Large Language Models (LLMs) by integrating external documents. However, real-world applications demand not only accuracy but also interpretability. While dense retrieval methods provide high accuracy, they lack interpretability; conversely, sparse retrieval methods offer transparency but often fail to capture the full intent of queries due to their reliance on keyword matching. To address these issues, we introduce IterKey, an LLM-driven iterative keyword generation framework that enhances RAG via sparse retrieval. IterKey consists of three LLM-driven stages: generating keywords for retrieval, generating answers based on retrieved documents, and validating the answers. If validation fails, the process iteratively repeats with refined keywords. Across four QA tasks, experimental results show that IterKey achieves 5% to 20% accuracy improvements over BM25-based RAG and simple baselines. Its performance is comparable to dense retrieval-based RAG and prior iterative query refinement methods using dense models. In summary, IterKey is a novel BM25-based approach leveraging LLMs to iteratively refine RAG, effectively balancing accuracy with interpretability.

arxiv情報

著者 Kazuki Hayashi,Hidetaka Kamigaito,Shinya Kouda,Taro Watanabe
発行日 2025-05-13 11:25:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | IterKey: Iterative Keyword Generation with LLMs for Enhanced Retrieval Augmented Generation はコメントを受け付けていません

RepCali: High Efficient Fine-tuning Via Representation Calibration in Latent Space for Pre-trained Language Models

要約

微調整前の訓練を受けた言語モデル(PLMS)は、PLMSをダウンストリームタスクに適用する上で支配的なパラダイムになりました。
ただし、限られた微調整により、PLMSはPLMSのエンコーダーから得られた表現とPLMSのデコーダーへの最適な入力との間の矛盾に依然として闘っています。
この論文は、潜在空間でのPLMの表現を調整することを学ぶことにより、この課題に取り組んでいます。
提案された表現キャリブレーション法(RepCALI)では、特定のキャリブレーションブロックをエンコーダの後に潜在スペースに統合し、校正出力をデコーダー入力として使用します。
提案されているRepcaliのメリットには、エンコーダーデコーダーアーキテクチャ、プラグアンドプレイの性質、および実装の容易さを備えたすべてのPLMに対する普遍性が含まれています。
8つのタスク(英語と中国の両方のデータセットを含む)にわたる25のPLMベースのモデルでの広範な実験は、提案されたRepCaliがPLMS(LLMを含む)に望ましい強化を提供し、ダウンストリームタスクのパフォーマンスを大幅に改善することを示しています。
4つのベンチマークタスクにわたる比較実験は、Repcaliが代表的な微調整ベースラインよりも優れていることを示しています。

要約(オリジナル)

Fine-tuning pre-trained language models (PLMs) has become a dominant paradigm in applying PLMs to downstream tasks. However, with limited fine-tuning, PLMs still struggle with the discrepancies between the representation obtained from the PLMs’ encoder and the optimal input to the PLMs’ decoder. This paper tackles this challenge by learning to calibrate the representation of PLMs in the latent space. In the proposed representation calibration method (RepCali), we integrate a specific calibration block to the latent space after the encoder and use the calibrated output as the decoder input. The merits of the proposed RepCali include its universality to all PLMs with encoder-decoder architectures, its plug-and-play nature, and ease of implementation. Extensive experiments on 25 PLM-based models across 8 tasks (including both English and Chinese datasets) demonstrate that the proposed RepCali offers desirable enhancements to PLMs (including LLMs) and significantly improves the performance of downstream tasks. Comparison experiments across 4 benchmark tasks indicate that RepCali is superior to the representative fine-tuning baselines.

arxiv情報

著者 Fujun Zhang,XiangDong Su
発行日 2025-05-13 11:47:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | RepCali: High Efficient Fine-tuning Via Representation Calibration in Latent Space for Pre-trained Language Models はコメントを受け付けていません

Large Language Models Meet Stance Detection: A Survey of Tasks, Methods, Applications, Challenges and Future Directions

要約

スタンス検出は、ソーシャルメディア、ニュース記事、オンラインレビューなどのさまざまなプラットフォームで主観的なコンテンツを理解するために不可欠です。
大規模な言語モデル(LLM)の最近の進歩は、コンテキストの理解、クロスドメインの一般化、およびマルチモーダル分析に新しい能力を導入することにより、スタンス検出に革命をもたらしました。
これらの進行にもかかわらず、既存の調査には、スタンス検出のためにLLMを特に活用するアプローチの包括的なカバレッジがしばしば欠けています。
この重要なギャップを埋めるために、私たちのレビュー記事は、スタンス検出の体系的な分析を実施し、基本的な概念、方法論、データセット、アプリケーション、新たな課題を含む分野を変換するLLMSの最近の進歩を包括的に検討します。
3つの重要な次元に沿って構成されたLLMベースのスタンス検出アプローチの新しい分類法を提示します。1)監視、監視なし、少数のショット、ゼロショットを含む学習方法。
2)Unimodal、Multimodal、Hybridなどのデータモダリティ。
3)ターゲット、ターゲット、クロスターゲット、マルチターゲットシナリオを含むターゲット関係。
さらに、評価手法について説明し、ベンチマークデータセットとパフォーマンスの傾向を分析し、さまざまなアーキテクチャの強みと制限を強調します。
誤った情報検出、政治分析、公衆衛生監視、ソーシャルメディアの節度における主要なアプリケーションについて説明します。
最後に、暗黙のスタンス表現、文化的偏見、計算上の制約などの重要な課題を特定しながら、説明可能なスタンス推論、低リソースの適応、リアルタイムの展開フレームワークなど、有望な将来の方向性を概説します。
私たちの調査では、大規模な言語モデルを搭載した次世代スタンス検出システムの開発において、研究者と実践者を導くための新たな傾向、オープンな課題、将来の方向性を強調しています。

要約(オリジナル)

Stance detection is essential for understanding subjective content across various platforms such as social media, news articles, and online reviews. Recent advances in Large Language Models (LLMs) have revolutionized stance detection by introducing novel capabilities in contextual understanding, cross-domain generalization, and multimodal analysis. Despite these progressions, existing surveys often lack comprehensive coverage of approaches that specifically leverage LLMs for stance detection. To bridge this critical gap, our review article conducts a systematic analysis of stance detection, comprehensively examining recent advancements of LLMs transforming the field, including foundational concepts, methodologies, datasets, applications, and emerging challenges. We present a novel taxonomy for LLM-based stance detection approaches, structured along three key dimensions: 1) learning methods, including supervised, unsupervised, few-shot, and zero-shot; 2) data modalities, such as unimodal, multimodal, and hybrid; and 3) target relationships, encompassing in-target, cross-target, and multi-target scenarios. Furthermore, we discuss the evaluation techniques and analyze benchmark datasets and performance trends, highlighting the strengths and limitations of different architectures. Key applications in misinformation detection, political analysis, public health monitoring, and social media moderation are discussed. Finally, we identify critical challenges such as implicit stance expression, cultural biases, and computational constraints, while outlining promising future directions, including explainable stance reasoning, low-resource adaptation, and real-time deployment frameworks. Our survey highlights emerging trends, open challenges, and future directions to guide researchers and practitioners in developing next-generation stance detection systems powered by large language models.

arxiv情報

著者 Lata Pangtey,Anukriti Bhatnagar,Shubhi Bansal,Shahid Shafi Dar,Nagendra Kumar
発行日 2025-05-13 11:47:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SI | Large Language Models Meet Stance Detection: A Survey of Tasks, Methods, Applications, Challenges and Future Directions はコメントを受け付けていません