CausalGraph2LLM: Evaluating LLMs for Causal Queries

要約

科学研究では因果関係が不可欠であり、研究者が変数間の真の関係を解釈できるようにします。
これらの因果関係は、多くの場合、非環式グラフである因果グラフで表されます。
最近の大規模な言語モデル(LLMS)の進歩により、因果的推論の能力を調査することと、因果グラフを仮定する潜在的な使用に関心が高まっています。
これらのタスクでは、LLMが後続のダウンストリームタスクのために因果グラフを効果的にエンコードする必要があります。
このホワイトペーパーでは、LLMSの因果推論能力を評価するために、多様な因果グラフ設定にわたって70万クエリを超えるクエリを含む包括的なベンチマークであるCausalGraph2LLMを紹介します。
因果クエリを2つのタイプに分類します:グラフレベルとノードレベルのクエリ。
私たちは、私たちの研究のために、オープンソースと妥当性の両方のモデルの両方をベンチマークします。
私たちの調査結果は、LLMがこのドメインで有望である一方で、使用されるエンコーディングに非常に敏感であることを明らかにしています。
GPT-4やGemini-1.5などの有能なモデルでさえ、約60ドルの\%$の逸脱を伴うエンコーディングに対する感受性を示します。
さらに、下流の因果介入タスクに対するこの感度を示します。
さらに、LLMSは、パラメトリックメモリに由来する可能性のある因果グラフに関するコンテキスト情報を提示すると、しばしばバイアスを表示できることがわかります。

要約(オリジナル)

Causality is essential in scientific research, enabling researchers to interpret true relationships between variables. These causal relationships are often represented by causal graphs, which are directed acyclic graphs. With the recent advancements in Large Language Models (LLMs), there is an increasing interest in exploring their capabilities in causal reasoning and their potential use to hypothesize causal graphs. These tasks necessitate the LLMs to encode the causal graph effectively for subsequent downstream tasks. In this paper, we introduce CausalGraph2LLM, a comprehensive benchmark comprising over 700k queries across diverse causal graph settings to evaluate the causal reasoning capabilities of LLMs. We categorize the causal queries into two types: graph-level and node-level queries. We benchmark both open-sourced and propriety models for our study. Our findings reveal that while LLMs show promise in this domain, they are highly sensitive to the encoding used. Even capable models like GPT-4 and Gemini-1.5 exhibit sensitivity to encoding, with deviations of about $60\%$. We further demonstrate this sensitivity for downstream causal intervention tasks. Moreover, we observe that LLMs can often display biases when presented with contextual information about a causal graph, potentially stemming from their parametric memory.

arxiv情報

著者 Ivaxi Sheth,Bahare Fatemi,Mario Fritz
発行日 2025-02-18 17:19:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CausalGraph2LLM: Evaluating LLMs for Causal Queries はコメントを受け付けていません

KAPPA: A Generic Patent Analysis Framework with Keyphrase-Based Portraits

要約

特許分析は、特許の肖像画と呼ばれる簡潔で解釈可能な文書表現に大きく依存しています。
存在と不在の両方のキキフラゼは、その簡潔さ、代表性、明確さのために、特許の肖像画の理想的な候補です。
このペーパーでは、キーフレーズベースの特許ポートレートを構築し、特許分析を強化するために設計された統合フレームワークであるKappaを紹介します。
カッパは、特許肖像画の構築とポートレートベースの分析の2つのフェーズで動作します。
効果的なポートレート構造を確保するために、特許のマルチレベルの構造特性を活用するために、事前に訓練された言語モデルをプロンプトベースの階層デコード戦略と統合するセマンティックキャリブレーションキーフレーズ生成パラダイムを提案します。
ポートレートベースの分析のために、キーフレーズベースの特許ポートレートを採用して、効率的かつ正確な特許分析を可能にする包括的なフレームワークを開発します。
キーフレーズ生成のベンチマークデータセットに関する広範な実験では、提案されたモデルは、最先端のベースラインと比較して大幅な改善を達成します。
現実世界の特許アプリケーションで実施されたさらなる実験は、キーフレーズベースのポートレートがドメイン固有の知識を効果的にキャプチャし、特許分析タスクのセマンティック表現を充実させることを示しています。

要約(オリジナル)

Patent analysis highly relies on concise and interpretable document representations, referred to as patent portraits. Keyphrases, both present and absent, are ideal candidates for patent portraits due to their brevity, representativeness, and clarity. In this paper, we introduce KAPPA, an integrated framework designed to construct keyphrase-based patent portraits and enhance patent analysis. KAPPA operates in two phases: patent portrait construction and portrait-based analysis. To ensure effective portrait construction, we propose a semantic-calibrated keyphrase generation paradigm that integrates pre-trained language models with a prompt-based hierarchical decoding strategy to leverage the multi-level structural characteristics of patents. For portrait-based analysis, we develop a comprehensive framework that employs keyphrase-based patent portraits to enable efficient and accurate patent analysis. Extensive experiments on benchmark datasets of keyphrase generation, the proposed model achieves significant improvements compared to state-of-the-art baselines. Further experiments conducted on real-world patent applications demonstrate that our keyphrase-based portraits effectively capture domain-specific knowledge and enrich semantic representation for patent analysis tasks.

arxiv情報

著者 Xin Xia,Yujin Wang,Jun Zhou,Guisheng Zhong,Linning Cai,Chen Zhang
発行日 2025-02-18 17:24:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | KAPPA: A Generic Patent Analysis Framework with Keyphrase-Based Portraits はコメントを受け付けていません

Explainable Fake News Detection With Large Language Model via Defense Among Competing Wisdom

要約

ほとんどの偽のニュース検出方法は、ニューラルネットワークに基づいた潜在的な特徴表現を学習します。これにより、正当化をせずにニュースを分類するためのブラックボックスになります。
既存の説明可能なシステムは、調査ジャーナリズムから真実性の正当性を生み出します。これは、遅れて効率が低下することに苦しんでいます。
最近の研究では、正当化は群衆の知恵で表明された多数派の意見に相当していると単純に仮定しています。
ただし、群衆の知恵は無修正であるため、意見には通常、不正確または偏った情報が含まれています。
このペーパーでは、多様で混雑した、さらには競合する物語の海から偽のニュースを検出するために、私たちは斬新な防衛に基づいた説明可能な偽のニュース検出フレームワークを提案します。
具体的には、最初に証拠抽出モジュールを提案して、群衆の知恵を2つの競合するパーティーに分割し、それぞれ顕著な証拠を検出します。
証拠から簡潔な洞察を得るために、2つの可能性のある意味に向けて理由を推測することにより正当化を生成するために大きな言語モデルを利用するプロンプトベースのモジュールを設計します。
最後に、これらの正当化の間で防御をモデル化することで真実性を決定するために、防御ベースの推論モジュールを提案します。
2つの現実世界のベンチマークで実施された広範な実験は、提案された方法が偽のニュース検出に関して最先端のベースラインよりも優れており、高品質の正当化を提供することを示しています。

要約(オリジナル)

Most fake news detection methods learn latent feature representations based on neural networks, which makes them black boxes to classify a piece of news without giving any justification. Existing explainable systems generate veracity justifications from investigative journalism, which suffer from debunking delayed and low efficiency. Recent studies simply assume that the justification is equivalent to the majority opinions expressed in the wisdom of crowds. However, the opinions typically contain some inaccurate or biased information since the wisdom of crowds is uncensored. To detect fake news from a sea of diverse, crowded and even competing narratives, in this paper, we propose a novel defense-based explainable fake news detection framework. Specifically, we first propose an evidence extraction module to split the wisdom of crowds into two competing parties and respectively detect salient evidences. To gain concise insights from evidences, we then design a prompt-based module that utilizes a large language model to generate justifications by inferring reasons towards two possible veracities. Finally, we propose a defense-based inference module to determine veracity via modeling the defense among these justifications. Extensive experiments conducted on two real-world benchmarks demonstrate that our proposed method outperforms state-of-the-art baselines in terms of fake news detection and provides high-quality justifications.

arxiv情報

著者 Bo Wang,Jing Ma,Hongzhan Lin,Zhiwei Yang,Ruichao Yang,Yuan Tian,Yi Chang
発行日 2025-02-18 17:31:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Explainable Fake News Detection With Large Language Model via Defense Among Competing Wisdom はコメントを受け付けていません

Media Slant is Contagious

要約

このペーパーでは、メディアスラントの拡散を調べます。
1995年から2008年にかけて、米国の地元の新聞のパルチザンスラントに対するFox News Channel(FNC)の影響を文書化しています。
私たちは、議会での共和党や民主党のスピーチにニュース記事のテキストを拡大することにより、地元の新聞の政治的傾斜を測定します。
視聴者の楽器としてチャネルポジショニングを使用して、FNCの視聴者が高いほど、地元の新聞がより多くの右翼の傾斜を採用する原因となることがわかります。
この効果は、FNCの導入からわずか数年後に徐々に現れ、投票行動に対するチャネルの影響力の高まりを反映しています。
新聞のスラントの変化の主な要因は、地元の政治的好みの変化のようです。

要約(オリジナル)

This paper examines the diffusion of media slant. We document the influence of Fox News Channel (FNC) on the partisan slant of local newspapers in the U.S. over the years 1995-2008. We measure the political slant of local newspapers by scaling the news article texts to Republicans’ and Democrats’ speeches in Congress. Using channel positioning as an instrument for viewership, we find that higher FNC viewership causes local newspapers to adopt more right-wing slant. The effect emerges gradually, only several years after FNC’s introduction, mirroring the channel’s growing influence on voting behavior. A main driver of the shift in newspaper slant appears to be a change in local political preferences.

arxiv情報

著者 Philine Widmer,Clémentine Abed Meraim,Sergio Galletta,Elliott Ash
発行日 2025-02-18 17:42:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, econ.GN, q-fin.EC | Media Slant is Contagious はコメントを受け付けていません

Emoji Attack: Enhancing Jailbreak Attacks Against Judge LLM Detection

要約

脱獄技術は、大規模な言語モデル(LLMS)をだまして制限された出力を生成し、深刻な脅威をもたらします。
防衛線の1つは、別のLLMを裁判官として使用して、生成されたテキストの有害性を評価することです。
ただし、これらの裁判官LLMはトークンセグメンテーションバイアスに対して脆弱であることを明らかにします。これは、デリミターがトークン化プロセスを変更し、単語をより小さなサブトークンに分割する場合に発生する問題です。
これにより、シーケンス全体の埋め込みが混乱し、検出精度が低下し、有害なコンテンツを安全に誤分類できるようになります。
この論文では、トークンセグメンテーションバイアスを活用することにより、既存の脱獄プロンプトを増幅する新しい戦略である絵文字攻撃を紹介します。
私たちのメソッドは、裁判官LLMによって評価される前に絵文字を体系的にテキストに挿入するように学習することをレバレッジ内で活用し、不安定なコンテンツを検出する可能性を大幅に低下させる埋め込み歪みを誘導します。
従来のデリミターとは異なり、絵文字はセマンティックのあいまいさも導入し、この攻撃で特に効果的になります。
最先端の裁判官LLMSに関する実験を通じて、絵文字攻撃により、既存の保護手段を迂回して「危険な」予測レートが大幅に低下することが実証されています。

要約(オリジナル)

Jailbreaking techniques trick Large Language Models (LLMs) into producing restricted outputs, posing a serious threat. One line of defense is to use another LLM as a Judge to evaluate the harmfulness of generated text. However, we reveal that these Judge LLMs are vulnerable to token segmentation bias, an issue that arises when delimiters alter the tokenization process, splitting words into smaller sub-tokens. This disrupts the embeddings of the entire sequence, reducing detection accuracy and allowing harmful content to be misclassified as safe. In this paper, we introduce Emoji Attack, a novel strategy that amplifies existing jailbreak prompts by exploiting token segmentation bias. Our method leverages in-context learning to systematically insert emojis into text before it is evaluated by a Judge LLM, inducing embedding distortions that significantly lower the likelihood of detecting unsafe content. Unlike traditional delimiters, emojis also introduce semantic ambiguity, making them particularly effective in this attack. Through experiments on state-of-the-art Judge LLMs, we demonstrate that Emoji Attack substantially reduces the ‘unsafe’ prediction rate, bypassing existing safeguards.

arxiv情報

著者 Zhipeng Wei,Yuqi Liu,N. Benjamin Erichson
発行日 2025-02-18 17:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Emoji Attack: Enhancing Jailbreak Attacks Against Judge LLM Detection はコメントを受け付けていません

Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness

要約

検索された生成(RAG)のパラダイムは、大規模な言語モデル(LLM)の幻覚を軽減するのに役立ちます。
ただし、RAGは、取得されたドキュメント内に含まれるバイアスも導入します。
これらのバイアスは、領土紛争など、多言語で文化的に敏感なシナリオで増幅することができます。
この論文では、49の言語にわたって14Kウィキペディアのドキュメントと組み合わせた720の領土紛争クエリで構成されるベンチマークであるBordirlinesを紹介します。
このタスクに対するLLMSの横断的堅牢性を評価するために、多言語検索のためにいくつかのモードを形式化します。
いくつかのLLMでの実験により、多言語文書を取得することで応答の一貫性が最も向上し、純粋に言語内のドキュメントを使用して地政学的バイアスが低下し、多様な視点を組み込むことで堅牢性がどのように改善するかを示していることが明らかになりました。
また、低リソース言語でのクエリは、応答引用の言語分布にはるかに広いばらつきを示します。
私たちのさらなる実験とケーススタディは、IRから文書の内容までの側面によって横断的なぼろきれがどのように影響を受けるかを調査します。
ベンチマークとコードをリリースして、https://huggingface.co/datasets/borderlines/bordirlinesで言語間で公平な情報アクセスを確保するためのさらなる調査をサポートします。

要約(オリジナル)

The paradigm of retrieval-augmented generated (RAG) helps mitigate hallucinations of large language models (LLMs). However, RAG also introduces biases contained within the retrieved documents. These biases can be amplified in scenarios which are multilingual and culturally-sensitive, such as territorial disputes. In this paper, we introduce BordIRLines, a benchmark consisting of 720 territorial dispute queries paired with 14k Wikipedia documents across 49 languages. To evaluate LLMs’ cross-lingual robustness for this task, we formalize several modes for multilingual retrieval. Our experiments on several LLMs reveal that retrieving multilingual documents best improves response consistency and decreases geopolitical bias over using purely in-language documents, showing how incorporating diverse perspectives improves robustness. Also, querying in low-resource languages displays a much wider variance in the linguistic distribution of response citations. Our further experiments and case studies investigate how cross-lingual RAG is affected by aspects from IR to document contents. We release our benchmark and code to support further research towards ensuring equitable information access across languages at https://huggingface.co/datasets/borderlines/bordirlines.

arxiv情報

著者 Bryan Li,Fiona Luo,Samar Haider,Adwait Agashe,Tammy Li,Runqi Liu,Muqing Miao,Shriya Ramakrishnan,Yuan Yuan,Chris Callison-Burch
発行日 2025-02-18 18:32:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness はコメントを受け付けていません

The influence of motion features in temporal perception

要約

このペーパーでは、主観的な時間的知覚と感情的な共鳴を形作る際の運動方法の動詞の役割を調べます。
4つの補完的な研究を通じて、これらの動詞が時間の概念化にどのように影響するかを探り、文字通りおよび比phor的な(時間的)コンテキストでの使用を調べます。
私たちの調査結果は、より速い動詞(たとえば、フライ、ズーム)が動的で魅力的な一時的な経験を呼び起こすことを明らかにしています。
対照的に、より遅い動詞(例えば、クロール、ドラッグ)は、時間の退屈なまたは制約された経験を反映して、受動性、単調さ、否定的な感情を伝えます。
これらの効果は比phor的な文脈で増幅されます。このコンテキストでは、動詞が文字通りの意味を超越する感情的および体験的なニュアンスをコードします。
また、参加者は、動詞がより効果的に時間の体験的で感情的な質をキャプチャするため、感情的に充電された時間的コンテキストでパス動詞(例:GO、PASS)よりも口頭(例:GO、Pass)を好むことがわかります。
これらの発見は、一時的な知覚を形作る際の言語、動き、感情の相互作用を強調し、言語のフレーミングが主観的な時間の経験にどのように影響するかについての洞察を提供します。

要約(オリジナル)

This paper examines the role of manner-of-motion verbs in shaping subjective temporal perception and emotional resonance. Through four complementary studies, we explore how these verbs influence the conceptualization of time, examining their use in literal and metaphorical (temporal) contexts. Our findings reveal that faster verbs (e.g., fly, zoom) evoke dynamic and engaging temporal experiences, often linked to positive emotions and greater agency. In contrast, slower verbs (e.g., crawl, drag) convey passivity, monotony, and negative emotions, reflecting tedious or constrained experiences of time. These effects are amplified in metaphorical contexts, where manner verbs encode emotional and experiential nuances that transcend their literal meanings. We also find that participants prefer manner verbs over path verbs (e.g., go, pass) in emotionally charged temporal contexts, as manner verbs capture the experiential and emotional qualities of time more effectively. These findings highlight the interplay between language, motion, and emotion in shaping temporal perception, offering insights into how linguistic framing influences subjective experiences of time.

arxiv情報

著者 Rosa Illan Castillo,Javier Valenzuela
発行日 2025-02-18 18:33:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The influence of motion features in temporal perception はコメントを受け付けていません

STEER-ME: Assessing the Microeconomic Reasoning of Large Language Models

要約

与えられた大規模な言語モデル(LLM)が経済的推論を確実に実行できるかどうかをどのように判断すべきですか?
既存のほとんどのLLMベンチマークは、特定のアプリケーションに焦点を当てており、モデルに多様な経済的タスクを豊富に提示できません。
顕著な例外は、Ramanらです。
[2024]、戦略的意思決定を包括的にベンチマークするためのアプローチを提供する。
ただし、このアプローチでは、供給とデマンド分析などのマイクロ経済学で一般的な非戦略的設定に対処することができません。
マイクロ経済の推論を58ドルの異なる要素に分類することにより、このギャップに対処し、供給と需要の論理に焦点を当て、それぞれが最大10ドルの異なるドメイン、5ドルの視点、3ドルの種類に基づいています。
この組み合わせ空間にわたるベンチマークデータの生成は、自動ステアをダビングする新しいLLM支援データ生成プロトコルを搭載しています。これは、手書きテンプレートを新しいドメインと視点をターゲットにすることにより、一連の質問を生成します。
新鮮な質問を生成する自動化された方法を提供するため、Auto-Steerは、LLMが過剰に適合する評価ベンチマークのトレーニングを受けるリスクを軽減します。
したがって、これが今後数年間、モデルを評価し、微調整するための有用なツールとして機能することを願っています。
小さなオープンソースモデルから現在の最新の最新モデルに至るまで、27ドルの$ LLMSのケーススタディを介してベンチマークの有用性を示しています。
各分類法全体でミクロ経済の問題を解決する各モデルの能力を調べ、さまざまな促進戦略とスコアリングメトリックにわたって結果を提示しました。

要約(オリジナル)

How should one judge whether a given large language model (LLM) can reliably perform economic reasoning? Most existing LLM benchmarks focus on specific applications and fail to present the model with a rich variety of economic tasks. A notable exception is Raman et al. [2024], who offer an approach for comprehensively benchmarking strategic decision-making; however, this approach fails to address the non-strategic settings prevalent in microeconomics, such as supply-and-demand analysis. We address this gap by taxonomizing microeconomic reasoning into $58$ distinct elements, focusing on the logic of supply and demand, each grounded in up to $10$ distinct domains, $5$ perspectives, and $3$ types. The generation of benchmark data across this combinatorial space is powered by a novel LLM-assisted data generation protocol that we dub auto-STEER, which generates a set of questions by adapting handwritten templates to target new domains and perspectives. Because it offers an automated way of generating fresh questions, auto-STEER mitigates the risk that LLMs will be trained to over-fit evaluation benchmarks; we thus hope that it will serve as a useful tool both for evaluating and fine-tuning models for years to come. We demonstrate the usefulness of our benchmark via a case study on $27$ LLMs, ranging from small open-source models to the current state of the art. We examined each model’s ability to solve microeconomic problems across our whole taxonomy and present the results across a range of prompting strategies and scoring metrics.

arxiv情報

著者 Narun Raman,Taylor Lundy,Thiago Amin,Jesse Perla,Kevin-Leyton Brown
発行日 2025-02-18 18:42:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | STEER-ME: Assessing the Microeconomic Reasoning of Large Language Models はコメントを受け付けていません

NaturalReasoning: Reasoning in the Wild with 2.8M Challenging Questions

要約

数学やコーディングなどの従来のドメインを超えたスケーリングの推論機能は、多様で高品質の質問がないために妨げられています。
この制限を克服するために、参照回答を伴う多様で挑戦的な推論の質問を生成するためのスケーラブルなアプローチを紹介します。
STEMフィールド(物理学、コンピューターサイエンスなど)、経済学、社会科学などを含む複数のドメインにまたがる280万の質問を含む包括的なデータセットであるNaturalReasoningを提示します。
ナチュラルリングが強力な教師モデルから推論能力を効果的に引き出して転送できることを示す知識蒸留実験を通じて、自然reasonidingの質問の有用性を示します。
さらに、NaturalReasoningは、外部報酬モデルまたは自己報酬を使用した監視されていない自己訓練にも効果的であることを実証します。

要約(オリジナル)

Scaling reasoning capabilities beyond traditional domains such as math and coding is hindered by the lack of diverse and high-quality questions. To overcome this limitation, we introduce a scalable approach for generating diverse and challenging reasoning questions, accompanied by reference answers. We present NaturalReasoning, a comprehensive dataset comprising 2.8 million questions that span multiple domains, including STEM fields (e.g., Physics, Computer Science), Economics, Social Sciences, and more. We demonstrate the utility of the questions in NaturalReasoning through knowledge distillation experiments which show that NaturalReasoning can effectively elicit and transfer reasoning capabilities from a strong teacher model. Furthermore, we demonstrate that NaturalReasoning is also effective for unsupervised self-training using external reward models or self-rewarding.

arxiv情報

著者 Weizhe Yuan,Jane Yu,Song Jiang,Karthik Padthe,Yang Li,Dong Wang,Ilia Kulikov,Kyunghyun Cho,Yuandong Tian,Jason E Weston,Xian Li
発行日 2025-02-18 18:46:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | NaturalReasoning: Reasoning in the Wild with 2.8M Challenging Questions はコメントを受け付けていません

RuozhiBench: Evaluating LLMs with Logical Fallacies and Misleading Premises

要約

大規模な言語モデル(LLM)の最近の進歩は、複雑な推論を必要とする質問に答えることができることを示しています。
ただし、論理的な誤りや故意に誤解を招く施設を含むテキストを特定して応答する能力は、あまり研究されていません。
このギャップに対処するために、Ruozhibenchを紹介します。Ruozhibenchは、広範な人間の努力と専門家のレビューを通じて細心の注意を払って作成された、さまざまな形の欺cultive的な推論を含む677の慎重にキュレーションされた質問を含むバイリンガルデータセットを紹介します。
オープンエンドと2つの選択形式の両方を使用して、Ruozhibenchを介した5シリーズからの17 LLMの包括的な評価では、評価プロトコルと結果パターンに関する広範な分析を実施します。
従来のベンチマークでの高いスコアにもかかわらず、これらのモデルは、最高パフォーマンスのモデルであるClaude-3-Haikuでさえ、90%以上の人と比較して62%の精度しか達成されていない、論理的な誤症を正しく検出および推論する能力が限られていることを示しました。

要約(オリジナル)

Recent advances in large language models (LLMs) have shown that they can answer questions requiring complex reasoning. However, their ability to identify and respond to text containing logical fallacies or deliberately misleading premises remains less studied. To address this gap, we introduce RuozhiBench, a bilingual dataset comprising 677 carefully curated questions that contain various forms of deceptive reasoning, meticulously crafted through extensive human effort and expert review. In a comprehensive evaluation of 17 LLMs from 5 Series over RuozhiBench using both open-ended and two-choice formats, we conduct extensive analyses on evaluation protocols and result patterns. Despite their high scores on conventional benchmarks, these models showed limited ability to detect and reason correctly about logical fallacies, with even the best-performing model, Claude-3-haiku, achieving only 62% accuracy compared to the human of more than 90%.

arxiv情報

著者 Zenan Zhai,Hao Li,Xudong Han,Zhenxuan Zhang,Yixuan Zhang,Timothy Baldwin,Haonan Li
発行日 2025-02-18 18:47:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RuozhiBench: Evaluating LLMs with Logical Fallacies and Misleading Premises はコメントを受け付けていません