N2C2: Nearest Neighbor Enhanced Confidence Calibration for Cross-Lingual In-Context Learning

要約

コンテキスト内学習(ICL)の最近の進歩は、言語モデルがデモンストレーションが提供されるとパフォーマンスを大幅に改善できることを示しています。
ただし、横断的シナリオでのICLのキャリブレーションと予測信頼をモデル化することにはほとんど注意が払われていません。
このギャップを橋渡しするために、言語間感情分類のためにICLの徹底的な分析を実施します。
私たちの調査結果は、ICLが横断的なシナリオでパフォーマンスが低下し、精度が低く、高キャリブレーションエラーを提示することを示唆しています。
これに応じて、予測信頼キャリブレーションのために拡張分類器を拡張した最新の隣人を使用する新しいアプローチN2C2を提案します。
N2C2は、キャッシュされた少数のショットインスタンスのデータストアを活用することにより、予測ギャップを狭めます。
具体的には、N2C2はデータストアからの予測を統合し、自信に対応する分布、意味的に一貫した検索表現、および適応型隣接併用モジュールを組み込み、限られた数のサポートインスタンスを効果的に利用します。
2つの多言語センチメント分類データセットの評価は、N2C2が従来のICLを上回ることを示しています。
精度とキャリブレーションエラーの観点から、微調整、迅速なチューニング、最近の最新の方法を上回ります。

要約(オリジナル)

Recent advancements of in-context learning (ICL) show language models can significantly improve their performance when demonstrations are provided. However, little attention has been paid to model calibration and prediction confidence of ICL in cross-lingual scenarios. To bridge this gap, we conduct a thorough analysis of ICL for cross-lingual sentiment classification. Our findings suggest that ICL performs poorly in cross-lingual scenarios, exhibiting low accuracy and presenting high calibration errors. In response, we propose a novel approach, N2C2, which employs a -nearest neighbors augmented classifier for prediction confidence calibration. N2C2 narrows the prediction gap by leveraging a datastore of cached few-shot instances. Specifically, N2C2 integrates the predictions from the datastore and incorporates confidence-aware distribution, semantically consistent retrieval representation, and adaptive neighbor combination modules to effectively utilize the limited number of supporting instances. Evaluation on two multilingual sentiment classification datasets demonstrates that N2C2 outperforms traditional ICL. It surpasses fine tuning, prompt tuning and recent state-of-the-art methods in terms of accuracy and calibration errors.

arxiv情報

著者 Jie He,Simon Yu,Deyi Xiong,Víctor Gutiérrez-Basulto,Jeff Z. Pan
発行日 2025-03-12 10:05:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | N2C2: Nearest Neighbor Enhanced Confidence Calibration for Cross-Lingual In-Context Learning はコメントを受け付けていません

Rethinking Prompt-based Debiasing in Large Language Models

要約

大規模な言語モデル(LLMS)でのバイアスの調査は、信頼できるAIを開発するために重要です。
迅速なプロンプトエンジニアリングを通じてプロンプトベースは一般的ですが、その有効性は、モデルが本質的にバイアスを理解しているという仮定に依存しています。
私たちの研究は、オープンソースモデルと商用GPTモデルの両方でバーベキューとステレオセットのベンチマークを使用して、この仮定を体系的に分析しました。
実験結果は、プロンプトベースがしばしば表面的であることを示しています。
たとえば、LLAMA2-7B-CHATモデルは、BBQデータセットのバイアス問題を特定する際に高い精度を達成しているにもかかわらず、偏見のないコンテンツの90%以上を偏見として誤分類しました。
さらに、バイアスベンチマークの特定の評価と質問設定は、多くの場合、LLMが「回避的な答え」を選択し、質問の中核とコンテキストへの回答の関連性を無視します。
さらに、以前の方法の明らかな成功は、欠陥のある評価メトリックに起因する可能性があります。
私たちの研究は、迅速な努力における潜在的な「誤った繁栄」を強調し、真に信頼できるAIを確保するためにバイアスメトリックを再考する必要性を強調しています。

要約(オリジナル)

Investigating bias in large language models (LLMs) is crucial for developing trustworthy AI. While prompt-based through prompt engineering is common, its effectiveness relies on the assumption that models inherently understand biases. Our study systematically analyzed this assumption using the BBQ and StereoSet benchmarks on both open-source models as well as commercial GPT model. Experimental results indicate that prompt-based is often superficial; for instance, the Llama2-7B-Chat model misclassified over 90% of unbiased content as biased, despite achieving high accuracy in identifying bias issues on the BBQ dataset. Additionally, specific evaluation and question settings in bias benchmarks often lead LLMs to choose ‘evasive answers’, disregarding the core of the question and the relevance of the response to the context. Moreover, the apparent success of previous methods may stem from flawed evaluation metrics. Our research highlights a potential ‘false prosperity’ in prompt-base efforts and emphasizes the need to rethink bias metrics to ensure truly trustworthy AI.

arxiv情報

著者 Xinyi Yang,Runzhe Zhan,Derek F. Wong,Shu Yang,Junchao Wu,Lidia S. Chao
発行日 2025-03-12 10:06:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Rethinking Prompt-based Debiasing in Large Language Models はコメントを受け付けていません

DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios

要約

大規模な言語モデル(LLMS)によって生成されたテキストの検出は、最近の非常に興味深いものです。
DetectGPTなどのゼロショットメソッドでは、検出機能が印象的なレベルに達しています。
ただし、実際のアプリケーションにおける既存の検出器の信頼性は、採用されていないままです。
この研究では、新しいベンチマークであるDetectRLを提示し、このタスクでまだ最先端の(SOTA)検出技術がまだ不十分であることを強調しています。
LLMが特に誤用する傾向があるドメインから人間が作成したデータセットを収集しました。
一般的なLLMSを使用して、実際のアプリケーションとより適切に整合するデータを生成しました。
以前の研究とは異なり、ヒューリスティックルールを採用して、敵対的なLLM生成テキストを作成し、さまざまなプロンプトの使用、単語代替などの人間の改訂、スペルミスなどのノイズを書くことをシミュレートしました。
DetectRLの開発は、現在のSOTA検出器の強度と制限を明らかにしています。
さらに重要なことは、さまざまなタイプの検出器に対するライティングスタイル、モデルタイプ、攻撃方法、テキストの長さ、現実世界の人間のライティング要因の潜在的な影響を分析したことです。
DetectRLは、現実世界のシナリオで検出器を評価するための効果的なベンチマークとして機能し、高度な攻撃方法で進化するため、より効率的な検出器の開発を促進するためのよりストレスの多い評価を提供できると考えています。
データとコードは、https://github.com/nlp2ct/detectrlで公開されています。

要約(オリジナル)

Detecting text generated by large language models (LLMs) is of great recent interest. With zero-shot methods like DetectGPT, detection capabilities have reached impressive levels. However, the reliability of existing detectors in real-world applications remains underexplored. In this study, we present a new benchmark, DetectRL, highlighting that even state-of-the-art (SOTA) detection techniques still underperformed in this task. We collected human-written datasets from domains where LLMs are particularly prone to misuse. Using popular LLMs, we generated data that better aligns with real-world applications. Unlike previous studies, we employed heuristic rules to create adversarial LLM-generated text, simulating various prompts usages, human revisions like word substitutions, and writing noises like spelling mistakes. Our development of DetectRL reveals the strengths and limitations of current SOTA detectors. More importantly, we analyzed the potential impact of writing styles, model types, attack methods, the text lengths, and real-world human writing factors on different types of detectors. We believe DetectRL could serve as an effective benchmark for assessing detectors in real-world scenarios, evolving with advanced attack methods, thus providing more stressful evaluation to drive the development of more efficient detectors. Data and code are publicly available at: https://github.com/NLP2CT/DetectRL.

arxiv情報

著者 Junchao Wu,Runzhe Zhan,Derek F. Wong,Shu Yang,Xinyi Yang,Yulin Yuan,Lidia S. Chao
発行日 2025-03-12 10:08:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios はコメントを受け付けていません

Considering Length Diversity in Retrieval-Augmented Summarization

要約

この研究では、以前の作業でカバーされていない長さの制約の下での模範的な概要の長さの影響を具体的に調べることにより、検索された高級要約を調査します。
サマリーの長さをより適切に制御するために、多様な長さを認識した最大限界関連性(DL-MMR)アルゴリズムを提案します。
このアルゴリズムは、検索された要約におけるクエリの関連性と多様なターゲット長さを組み合わせます。
MMRを使用した徹底的な例示的な関連性の比較を必要とする以前の方法とは異なり、DL-MMRは模範的なターゲットの長さも考慮し、模範を互いに比較することを避け、それにより模範的なプールの構築中の計算コストを削減し、メモリを保存します。
実験結果は、元のMMRアルゴリズムと比較して、長さの多様性を考慮するDL-MMRの有効性を示しました。
DL-MMRはさらに、同じレベルの情報レベルを維持しながら、781,513倍のメモリ保存と500,092倍の計算コスト削減における有効性を示しました。

要約(オリジナル)

This study investigates retrieval-augmented summarization by specifically examining the impact of exemplar summary lengths under length constraints, not covered by previous work. We propose a Diverse Length-aware Maximal Marginal Relevance (DL-MMR) algorithm to better control summary lengths. This algorithm combines the query relevance with diverse target lengths in retrieval-augmented summarization. Unlike previous methods that necessitate exhaustive exemplar exemplar relevance comparisons using MMR, DL-MMR considers the exemplar target length as well and avoids comparing exemplars to each other, thereby reducing computational cost and conserving memory during the construction of an exemplar pool. Experimental results showed the effectiveness of DL-MMR, which considers length diversity, compared to the original MMR algorithm. DL-MMR additionally showed the effectiveness in memory saving of 781,513 times and computational cost reduction of 500,092 times, while maintaining the same level of informativeness.

arxiv情報

著者 Juseon-Do,Jaesung Hwang,Jingun Kwon,Hidetaka Kamigaito,Manabu Okumura
発行日 2025-03-12 10:43:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 | Considering Length Diversity in Retrieval-Augmented Summarization はコメントを受け付けていません

AI-native Memory 2.0: Second Me

要約

外部世界との人間の相互作用には、他の個人、ウェブサイト、アプリケーション、または将来、AIエージェントとのかに関わらず、個人的な記憶の交換が根本的に含まれます。
この相互作用のかなりの部分は冗長であり、ユーザーは異なるコンテキストで同じ情報を繰り返し提供する必要があります。
ブラウザで保存された資格情報、オートフィルメカニズム、統一された認証システムなどの既存のソリューションは、一般的に使用されるユーザーデータを保存および取得する仲介者として提供することにより、この冗長性を軽減することを目的としています。
大規模な言語モデル(LLMS)の出現は、AI-Nativeパラダイム:Second Meを通じてメモリ管理を再定義する機会を提供します。
セカンドMEは、ユーザー固有の知識を保持、整理、動的に利用するインテリジェントで永続的なメモリオフロードシステムとして機能します。
ユーザーインタラクションの仲介者として機能することにより、コンテキストを意識した応答を自律的に生成し、必要な情報をプレフィルで生成し、外部システムとのシームレスな通信を促進し、認知負荷と相互作用摩擦を大幅に削減できます。
従来のメモリストレージソリューションとは異なり、2番目のMEは、LLMベースのメモリパラメーター化を活用することにより、静的データ保持を超えて拡張されます。
これにより、構造化された組織、コンテキスト推論、および適応知識の検索が可能になり、メモリ管理に対するより体系的でインテリジェントなアプローチが促進されます。
Second MeのようなAI主導のパーソナルエージェントがデジタルエコシステムにますます統合されるようになるため、セカンドMEは、持続的で文脈的に認識され、自己光化するメモリシステムとの人間世界相互作用を強化するための重要なステップをさらに表しています。
Github:https://github.com/mindverse/second-meに完全にローカライズ可能な展開システムをオープンソースしました。

要約(オリジナル)

Human interaction with the external world fundamentally involves the exchange of personal memory, whether with other individuals, websites, applications, or, in the future, AI agents. A significant portion of this interaction is redundant, requiring users to repeatedly provide the same information across different contexts. Existing solutions, such as browser-stored credentials, autofill mechanisms, and unified authentication systems, have aimed to mitigate this redundancy by serving as intermediaries that store and retrieve commonly used user data. The advent of large language models (LLMs) presents an opportunity to redefine memory management through an AI-native paradigm: SECOND ME. SECOND ME acts as an intelligent, persistent memory offload system that retains, organizes, and dynamically utilizes user-specific knowledge. By serving as an intermediary in user interactions, it can autonomously generate context-aware responses, prefill required information, and facilitate seamless communication with external systems, significantly reducing cognitive load and interaction friction. Unlike traditional memory storage solutions, SECOND ME extends beyond static data retention by leveraging LLM-based memory parameterization. This enables structured organization, contextual reasoning, and adaptive knowledge retrieval, facilitating a more systematic and intelligent approach to memory management. As AI-driven personal agents like SECOND ME become increasingly integrated into digital ecosystems, SECOND ME further represents a critical step toward augmenting human-world interaction with persistent, contextually aware, and self-optimizing memory systems. We have open-sourced the fully localizable deployment system at GitHub: https://github.com/Mindverse/Second-Me.

arxiv情報

著者 Jiale Wei,Xiang Ying,Tao Gao,Fangyi Bao,Felix Tao,Jingbo Shang
発行日 2025-03-12 11:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | AI-native Memory 2.0: Second Me はコメントを受け付けていません

Unmask It! AI-Generated Product Review Detection in Dravidian Languages

要約

生成的AIの上昇は、AIに生成されたレビューの急増につながり、多くの場合、オンラインプラットフォームの信頼性に深刻な脅威をもたらします。
レビューは、製品とサービスに関する主要な情報源として機能します。
本物のレビューは、消費者の意思決定において重要な役割を果たします。
製造されたコンテンツの存在は、消費者を誤解させ、デジタル市場での潜在的な詐欺を信頼し、促進します。
この研究では、このドメインの研究が比較的経験していない2つの低リソース言語であるタミル語とマラヤーラム語でのAI生成された製品レビューの検出に焦点を当てています。
私たちは、従来の機械学習方法から、Indic-Bert、Indicsbert、Muril、XLM-Roberta、Malayalambertなどの高度な変圧器ベースのモデルまで、さまざまなアプローチに取り組みました。
私たちの調査結果は、AIが生成されたコンテンツを正確に識別する上で最先端の変圧器を活用することの有効性を強調し、低リソースの言語設定での偽のレビューの検出を強化する可能性を示しています。

要約(オリジナル)

The rise of Generative AI has led to a surge in AI-generated reviews, often posing a serious threat to the credibility of online platforms. Reviews serve as the primary source of information about products and services. Authentic reviews play a vital role in consumer decision-making. The presence of fabricated content misleads consumers, undermines trust and facilitates potential fraud in digital marketplaces. This study focuses on detecting AI-generated product reviews in Tamil and Malayalam, two low-resource languages where research in this domain is relatively under-explored. We worked on a range of approaches – from traditional machine learning methods to advanced transformer-based models such as Indic-BERT, IndicSBERT, MuRIL, XLM-RoBERTa and MalayalamBERT. Our findings highlight the effectiveness of leveraging the state-of-the-art transformers in accurately identifying AI-generated content, demonstrating the potential in enhancing the detection of fake reviews in low-resource language settings.

arxiv情報

著者 Somsubhra De,Advait Vats
発行日 2025-03-12 11:35:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Unmask It! AI-Generated Product Review Detection in Dravidian Languages はコメントを受け付けていません

SQLCritic: Correcting Text-to-SQL Generation via Clause-wise Critic

要約

テキスト間システムの最近の進歩により、自然言語クエリのSQLへの変換が改善されましたが、正確性と信頼性を確保することには課題が残っています。
自己修正技術は出力を改良しますが、多くの場合、新しいエラーを導入します。
実行フィードバックに焦点を当てた既存のメソッドは、主に構文の問題に対処し、クエリのロジックがユーザーの意図と一致しない場合、セマンティックエラーを残しています。
構造化された実行フィードバックと、詳細で解釈可能な批評を提供する訓練された批評家エージェントを組み合わせた新しいアプローチを提案します。
この方法は、構文エラーとセマンティックエラーの両方を効果的に識別および修正し、精度と解釈性を向上させます。
実験結果は、2つの主要なテキストからSQLのベンチマーク、クモと鳥の大幅な改善を示しており、アプローチの有効性を示しています。

要約(オリジナル)

Recent advancements in Text-to-SQL systems have improved the conversion of natural language queries into SQL, but challenges remain in ensuring accuracy and reliability. While self-correction techniques refine outputs, they often introduce new errors. Existing methods focused on execution feedback mainly address syntax issues, leaving semantic errors — where the query’s logic fails to align with the user’s intent — largely unaddressed. We propose a novel approach combining structured execution feedback with a trained critic agent that provides detailed, interpretable critiques. This method effectively identifies and corrects both syntactic and semantic errors, enhancing accuracy and interpretability. Experimental results show significant improvements on two major Text-to-SQL benchmarks, Spider and BIRD, demonstrating the effectiveness of our approach.

arxiv情報

著者 Jikai Chen,Leilei Gan
発行日 2025-03-12 11:41:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SQLCritic: Correcting Text-to-SQL Generation via Clause-wise Critic はコメントを受け付けていません

CiteFusion: An Ensemble Framework for Citation Intent Classification Harnessing Dual-Model Binary Couples and SHAP Analyses

要約

学術的引用の根底にある動機を理解することは、研究への影響を評価し、透明な学術コミュニケーションを促進するために重要です。
この研究では、ベンチマークデータセット、SCICITE、ACL-ARCのマルチクラス引用意図分類(CIC)タスクに対処するために設計されたアンサンブルフレームワークであるCiteFusionを紹介します。
このフレームワークは、タスクをバイナリ分類サブタスクに分解し、各引用意図に対して独立して微調整されたScibertおよびXLNetモデルの補完的なペアを使用します。
これらのベースモデルは、フィードフォワードニューラルネットワークメタ分類器を介して集約され、不均衡とデータスカースシナリオの堅牢なパフォーマンスを確保します。
解釈可能性を高めるために、SHAP(Shapley Additive説明)を採用して、ベースモデル間のトークンレベルの貢献と相互作用を分析し、分類ダイナミクスへの透明性を提供します。
さらに、セクションタイトルを入力文に組み込むことにより、構造コンテキストの意味的役割を調査し、分類の精度とモデルの信頼性に大きな影響を与えることを示します。
実験結果は、CiteFusionがSCICITEで89.60%、ACL-ARCで76.24%のMacro-F1スコアで最先端のパフォーマンスを達成することを示しています。
両方のデータセットからの元の意図は、相互運用性と再利用性を確保するために、オントロジー(CITO)オブジェクトのプロパティを引用するためにマッピングされます。
このマッピングは、2つのデータセットラベル間の重複を強調し、理解可能性と再利用性を高めます。
最後に、SCICITEで開発されたCiteFusionモデルを活用する引用意図を分類するWebベースのアプリケーションをリリースします。

要約(オリジナル)

Understanding the motivations underlying scholarly citations is critical for evaluating research impact and fostering transparent scholarly communication. This study introduces CiteFusion, an ensemble framework designed to address the multiclass Citation Intent Classification (CIC) task on benchmark datasets, SciCite and ACL-ARC. The framework decomposes the task into binary classification subtasks, utilizing complementary pairs of SciBERT and XLNet models fine-tuned independently for each citation intent. These base models are aggregated through a feedforward neural network meta-classifier, ensuring robust performance in imbalanced and data-scarce scenarios. To enhance interpretability, SHAP (SHapley Additive exPlanations) is employed to analyze token-level contributions and interactions among base models, providing transparency into classification dynamics. We further investigate the semantic role of structural context by incorporating section titles into input sentences, demonstrating their significant impact on classification accuracy and model reliability. Experimental results show that CiteFusion achieves state-of-the-art performance, with Macro-F1 scores of 89.60% on SciCite and 76.24% on ACL-ARC. The original intents from both datasets are mapped to Citation Typing Ontology (CiTO) object properties to ensure interoperability and reusability. This mapping highlights overlaps between the two datasets labels, enhancing their understandability and reusability. Finally, we release a web-based application that classifies citation intents leveraging CiteFusion models developed on SciCite.

arxiv情報

著者 Lorenzo Paolini,Sahar Vahdati,Angelo Di Iorio,Robert Wardenga,Ivan Heibi,Silvio Peroni
発行日 2025-03-12 11:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CiteFusion: An Ensemble Framework for Citation Intent Classification Harnessing Dual-Model Binary Couples and SHAP Analyses はコメントを受け付けていません

xVLM2Vec: Adapting LVLM-based embedding models to multilinguality using Self-Knowledge Distillation

要約

現在の文献では、ほとんどの埋め込みモデルは、エンコーダーのみのトランスアーキテクチャに基づいており、特定の入力の密な意味のある表現を抽出します。これは、テキスト、画像などです。
大規模な言語モデルの導入により、言語モデリングの最近の進歩により、これらの大規模で広範囲に訓練されたモデルから埋め込みを抽出する可能性が調査されています。
ただし、現在の研究は、英語のテキスト埋め込みに焦点を当てています。これは、これらのモデルが訓練されている主要言語でもあります。
さらに、マルチモーダルと多言語の入力を考慮するモデルはほとんどありません。
これに照らして、英語データで訓練された大規模なビジョン言語モデルの適応方法論を提案し、多言語埋め込みとマルチモーダル埋め込みを抽出する際のパフォーマンスを向上させます。
最後に、多言語およびマルチモーダル埋め込みモデルの有効性を評価するためのベンチマークを設計および導入します。

要約(オリジナル)

In the current literature, most embedding models are based on the encoder-only transformer architecture to extract a dense and meaningful representation of the given input, which can be a text, an image, and more. With the recent advances in language modeling thanks to the introduction of Large Language Models, the possibility of extracting embeddings from these large and extensively trained models has been explored. However, current studies focus on textual embeddings in English, which is also the main language on which these models have been trained. Furthermore, there are very few models that consider multimodal and multilingual input. In light of this, we propose an adaptation methodology for Large Vision-Language Models trained on English language data to improve their performance in extracting multilingual and multimodal embeddings. Finally, we design and introduce a benchmark to evaluate the effectiveness of multilingual and multimodal embedding models.

arxiv情報

著者 Elio Musacchio,Lucia Siciliani,Pierpaolo Basile,Giovanni Semeraro
発行日 2025-03-12 12:04:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | xVLM2Vec: Adapting LVLM-based embedding models to multilinguality using Self-Knowledge Distillation はコメントを受け付けていません

A Survey on Enhancing Causal Reasoning Ability of Large Language Models

要約

大規模な言語モデル(LLM)は最近、言語タスクおよびそれ以降で顕著なパフォーマンスを示しています。
ただし、固有の因果推論能力が限られているため、LLMは、ヘルスケアや経済分析などの堅牢な因果推論能力を必要とするタスクの処理において依然として課題に直面しています。
その結果、増え続ける研究により、LLMSの因果的推論能力の向上に焦点を当てています。
活況を呈している研究にもかかわらず、この分野の課題、進歩、将来の方向を十分に検討するための調査がありません。
この重要なギャップを埋めるために、この論文のLLMSの因果推論能力を強化する方法に関する文献を体系的にレビューします。
このトピックの背景と動機の導入から始めて、この分野での重要な課題の要約が続きます。
その後、既存のメソッドを体系的に分類し、メソッドのクラス内およびクラス間の詳細な比較とともに、新しい分類を提案します。
さらに、LLMSの因果推論能力を評価するための既存のベンチマークと評価メトリックを要約します。
最後に、この新興分野の将来の研究の方向性を概説し、この地域の研究者と実践者に洞察とインスピレーションを提供します。

要約(オリジナル)

Large language models (LLMs) have recently shown remarkable performance in language tasks and beyond. However, due to their limited inherent causal reasoning ability, LLMs still face challenges in handling tasks that require robust causal reasoning ability, such as health-care and economic analysis. As a result, a growing body of research has focused on enhancing the causal reasoning ability of LLMs. Despite the booming research, there lacks a survey to well review the challenges, progress and future directions in this area. To bridge this significant gap, we systematically review literature on how to strengthen LLMs’ causal reasoning ability in this paper. We start from the introduction of background and motivations of this topic, followed by the summarisation of key challenges in this area. Thereafter, we propose a novel taxonomy to systematically categorise existing methods, together with detailed comparisons within and between classes of methods. Furthermore, we summarise existing benchmarks and evaluation metrics for assessing LLMs’ causal reasoning ability. Finally, we outline future research directions for this emerging field, offering insights and inspiration to researchers and practitioners in the area.

arxiv情報

著者 Xin Li,Zhuo Cai,Shoujin Wang,Kun Yu,Fang Chen
発行日 2025-03-12 12:20:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A Survey on Enhancing Causal Reasoning Ability of Large Language Models はコメントを受け付けていません