Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective

要約

Multi-Modal Entity Alignment(MMEA)は、重要な情報検索タスクであるさまざまなマルチモーダルナレッジグラフ(MMKG)から同等のエンティティを取得することを目的としています。
既存の研究では、さまざまな融合パラダイムと一貫性の制約を調査して、同等のエンティティの整合性を改善し、視覚的モダリティが常にプラスに貢献するとは限らないと考えています。
経験的には、類似画像が低いエンティティは通常、不十分なパフォーマンスを生成し、視覚的な機能に過度に依存することの制限を強調します。
モデルは視覚的モダリティに偏って、ショートカット画像マッチングタスクにつながると考えています。
これに対処するために、因果的な観点から視覚モダリティバイアスを調査するCDMEAと呼ばれるMMEAの反事実的な紛争フレームワークを提案します。
私たちのアプローチの目的は、視覚モダリティとグラフの両方のモダリティを活用してMMEAを強化しながら、モデル予測に対する視覚モダリティの直接的な因果効果を抑制することを目的としています。
両方のモダリティの合計効果(TE)を推定し、視覚モダリティの自然直接効果(NDE)を除外することにより、モデルが合計間接効果(TIE)に基づいて予測し、モダリティの両方を効果的に利用し、視覚モダリティバイアスの両方を低下させることを確認します。
9つのベンチマークデータセットでの広範な実験では、CDMEAが、特に類似性の低い、高ノイズ、および低リソースのデータシナリオで、14の最先端の方法を上回ることが示されています。

要約(オリジナル)

Multi-Modal Entity Alignment (MMEA) aims to retrieve equivalent entities from different Multi-Modal Knowledge Graphs (MMKGs), a critical information retrieval task. Existing studies have explored various fusion paradigms and consistency constraints to improve the alignment of equivalent entities, while overlooking that the visual modality may not always contribute positively. Empirically, entities with low-similarity images usually generate unsatisfactory performance, highlighting the limitation of overly relying on visual features. We believe the model can be biased toward the visual modality, leading to a shortcut image-matching task. To address this, we propose a counterfactual debiasing framework for MMEA, termed CDMEA, which investigates visual modality bias from a causal perspective. Our approach aims to leverage both visual and graph modalities to enhance MMEA while suppressing the direct causal effect of the visual modality on model predictions. By estimating the Total Effect (TE) of both modalities and excluding the Natural Direct Effect (NDE) of the visual modality, we ensure that the model predicts based on the Total Indirect Effect (TIE), effectively utilizing both modalities and reducing visual modality bias. Extensive experiments on 9 benchmark datasets show that CDMEA outperforms 14 state-of-the-art methods, especially in low-similarity, high-noise, and low-resource data scenarios.

arxiv情報

著者 Taoyu Su,Jiawei Sheng,Duohe Ma,Xiaodong Li,Juwei Yue,Mengxiao Song,Yingkai Tang,Tingwen Liu
発行日 2025-04-28 03:48:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.MM | Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective はコメントを受け付けていません

BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text

要約

大規模な言語モデル(LLMS)は、医療用途に非常に有望であり、急速に進化しており、新しいモデルが加速されたペースでリリースされています。
ただし、臨床状況におけるLLMの現在の評価は限られたままです。
ほとんどの既存のベンチマークは、健康診断スタイルの質問またはPubMed由来のテキストに依存しており、実際の電子健康記録(EHR)データの複雑さをキャプチャできません。
その他は、特定のアプリケーションシナリオに狭く焦点を当てており、より広範な臨床使用にわたって一般化可能性を制限します。
このギャップに対処するために、9つの言語にわたって実際の臨床データソースから供給された87のタスクを含む包括的な多言語ベンチマークであるBridgeを提示します。
さまざまな推論戦略の下で、52の最先端のLLM(DeepSeek-R1、GPT-4O、Gemini、およびLlama 4を含む)を体系的に評価しました。
合計13,572の実験で、我々の結果は、モデルサイズ、言語、自然言語処理タスク、臨床専門分野にわたる大幅なパフォーマンスの変動を明らかにしています。
特に、オープンソースLLMが独自のモデルに匹敵するパフォーマンスを実現できる一方で、古いアーキテクチャに基づく医学的に微調整されたLLMは、しばしば更新された汎用モデルに対してパフォーマンスが低下することがよくあります。
ブリッジとその対応するリーダーボードは、実際の臨床テキスト理解における新しいLLMの開発と評価のための基礎的なリソースおよびユニークな参照として機能します。

要約(オリジナル)

Large language models (LLMs) hold great promise for medical applications and are evolving rapidly, with new models being released at an accelerated pace. However, current evaluations of LLMs in clinical contexts remain limited. Most existing benchmarks rely on medical exam-style questions or PubMed-derived text, failing to capture the complexity of real-world electronic health record (EHR) data. Others focus narrowly on specific application scenarios, limiting their generalizability across broader clinical use. To address this gap, we present BRIDGE, a comprehensive multilingual benchmark comprising 87 tasks sourced from real-world clinical data sources across nine languages. We systematically evaluated 52 state-of-the-art LLMs (including DeepSeek-R1, GPT-4o, Gemini, and Llama 4) under various inference strategies. With a total of 13,572 experiments, our results reveal substantial performance variation across model sizes, languages, natural language processing tasks, and clinical specialties. Notably, we demonstrate that open-source LLMs can achieve performance comparable to proprietary models, while medically fine-tuned LLMs based on older architectures often underperform versus updated general-purpose models. The BRIDGE and its corresponding leaderboard serve as a foundational resource and a unique reference for the development and evaluation of new LLMs in real-world clinical text understanding.

arxiv情報

著者 Jiageng Wu,Bowen Gu,Ren Zhou,Kevin Xie,Doug Snyder,Yixing Jiang,Valentina Carducci,Richard Wyss,Rishi J Desai,Emily Alsentzer,Leo Anthony Celi,Adam Rodman,Sebastian Schneeweiss,Jonathan H. Chen,Santiago Romero-Brufau,Kueiyu Joshua Lin,Jie Yang
発行日 2025-04-28 04:13:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text はコメントを受け付けていません

AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents

要約

真実性(事実上の正確さの順守)とユーティリティ(人間のニーズと指示を満たす)はどちらも大規模な言語モデルの基本的な側面ですが、これらの目標はしばしば対立します(たとえば、既知の欠陥のある車を販売します)。
LLMベースのエージェントがマルチターンインタラクティブな設定でこれらのシナリオをどのようにナビゲートするかを研究するフレームワークであるAI-Liedarを提案します。
私たちは、シミュレートされた人間のエージェントとのマルチターン会話の間に真実であることと対立する目標を達成するように指示される現実世界のシナリオのセットを設計します。
大規模な真実性を評価するために、心理文献に触発された真実性検出器を開発して、エージェントの反応を評価します。
私たちの実験は、すべてのモデルが真実であることが50%未満であることを示していますが、真実性と目標の達成度(ユーティリティ)はモデル間で異なります。
さらに、LLMの操縦性を真実性に向けてテストし、モデルが真実または欺cept的であるように指示できることを発見し、真実のモデルでさえも存在します。
これらの発見は、LLMSにおける真実性の複雑な性質を明らかにし、LLMとLLMベースのエージェントの安全で信頼できる展開を確保するためのさらなる研究の重要性を強調しています。

要約(オリジナル)

Truthfulness (adherence to factual accuracy) and utility (satisfying human needs and instructions) are both fundamental aspects of Large Language Models, yet these goals often conflict (e.g., sell a car with known flaws), which makes it challenging to achieve both in real-world deployments. We propose AI-LieDar, a framework to study how LLM-based agents navigate these scenarios in an multi-turn interactive setting. We design a set of real-world scenarios where language agents are instructed to achieve goals that are in conflict with being truthful during a multi-turn conversation with simulated human agents. To evaluate the truthfulness at large scale, we develop a truthfulness detector inspired by psychological literature to assess the agents’ responses. Our experiment demonstrates that all models are truthful less than 50% of the time, though truthfulness and goal achievement (utility) rates vary across models. We further test the steerability of LLMs towards truthfulness, finding that models can be directed to be truthful or deceptive, and even truth-steered models still lie. These findings reveal the complex nature of truthfulness in LLMs and underscore the importance of further research to ensure the safe and reliable deployment of LLMs and LLM-based agents.

arxiv情報

著者 Zhe Su,Xuhui Zhou,Sanketh Rangreji,Anubha Kabra,Julia Mendelsohn,Faeze Brahman,Maarten Sap
発行日 2025-04-28 04:20:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents はコメントを受け付けていません

Conflicts in Texts: Data, Implications and Challenges

要約

NLPモデルが実際のアプリケーションにますます統合されるようになると、モデルがしばしば矛盾する情報に依存して生成するという事実に対処する必要があることが明らかになります。
競合は、状況の複雑さ、説明して対処する必要がある変化、データ注釈の困難、および生成された出力の間違いを反映する可能性があります。
すべての場合において、データの競合を無視すると、モデルの望ましくない行動が発生し、NLPモデルの信頼性と信頼性が損なわれる可能性があります。
この調査は、これらの競合を3つの重要な領域に分類します。(1)事実上の矛盾、主観的バイアス、および複数の視点が矛盾をもたらすWeb上の自然なテキスト。
(2)アノテーターの意見の不一致、間違い、および社会的バイアスがモデルトレーニングに影響を与える人間が解決したデータ。
(3)モデルの相互作用。幻覚と知識の競合が展開中に出現する。
以前の研究では、これらの紛争のいくつかが単独で取り組んでいますが、矛盾する情報のより広範な概念の下でそれらを統合し、それらの意味を分析し、緩和戦略について議論します。
競合する情報をより効果的に推論し、調整できる紛争に対応するNLPシステムを開発するための重要な課題と将来の方向性を強調します。

要約(オリジナル)

As NLP models become increasingly integrated into real-world applications, it becomes clear that there is a need to address the fact that models often rely on and generate conflicting information. Conflicts could reflect the complexity of situations, changes that need to be explained and dealt with, difficulties in data annotation, and mistakes in generated outputs. In all cases, disregarding the conflicts in data could result in undesired behaviors of models and undermine NLP models’ reliability and trustworthiness. This survey categorizes these conflicts into three key areas: (1) natural texts on the web, where factual inconsistencies, subjective biases, and multiple perspectives introduce contradictions; (2) human-annotated data, where annotator disagreements, mistakes, and societal biases impact model training; and (3) model interactions, where hallucinations and knowledge conflicts emerge during deployment. While prior work has addressed some of these conflicts in isolation, we unify them under the broader concept of conflicting information, analyze their implications, and discuss mitigation strategies. We highlight key challenges and future directions for developing conflict-aware NLP systems that can reason over and reconcile conflicting information more effectively.

arxiv情報

著者 Siyi Liu,Dan Roth
発行日 2025-04-28 04:24:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Conflicts in Texts: Data, Implications and Challenges はコメントを受け付けていません

Improving Reasoning Performance in Large Language Models via Representation Engineering

要約

大規模な言語モデル(LLMS)の最近の進歩により、LLMが推論する能力に関する擬人化言語がますます増えています。
しかし、LLMの推論が本質的に異なると理解すべきかどうかは、広く議論されています。
推論タスクを処理する際にLLMの残差ストリームからモデルのアクティベーションが読み取られる表現エンジニアリングアプローチを利用することを提案します。
アクティベーションは、指定されたタスクのパフォーマンスを改善するために、モデルの表現空間を変調する推論時間介入としてモデルに適用される制御ベクトルを導出するために使用されます。
制御ベクトルを導き出し、モデル表現を分析するためのコードを公開します。
この方法により、推論ベンチマークのパフォーマンスを改善し、制御ベクトルがKL発散やエントロピーなどのメトリックを介してモデルの最終ロジット分布にどのように影響するかを評価できます。
Mistral-7B-Instructと、誘導性、演ductive的、数学的推論タスクにPythiaモデルの範囲に制御ベクトルを適用します。
LLMは、ある程度、アクティベーションを調節することにより、知覚された推論能力を改善するために制御できることを示しています。
介入は、タスクを正しく解くときにモデルの典型的な状態を確実に抽出する能力に依存します。
我々の結果は、LLMSが実行する他の情報処理タスクと同じ方法で推論パフォーマンスを変調できることを示唆しており、追加のトレーニングなしで残留ストリームでの単純な介入を介して特定のタスクのパフォーマンスを改善できることを示しています。

要約(オリジナル)

Recent advancements in large language models (LLMs) have resulted in increasingly anthropomorphic language concerning the ability of LLMs to reason. Whether reasoning in LLMs should be understood to be inherently different is, however, widely debated. We propose utilizing a representation engineering approach wherein model activations are read from the residual stream of an LLM when processing a reasoning task. The activations are used to derive a control vector that is applied to the model as an inference-time intervention, modulating the representational space of the model, to improve performance on the specified task. We publish the code for deriving control vectors and analyzing model representations. The method allows us to improve performance on reasoning benchmarks and assess how control vectors influence the final logit distribution of a model via metrics such as KL divergence and entropy. We apply control vectors to Mistral-7B-Instruct and a range of Pythia models on an inductive, a deductive and mathematical reasoning task. We show that an LLM can, to a certain degree, be controlled to improve its perceived reasoning ability by modulating activations. The intervention is dependent upon the ability to reliably extract the model’s typical state when correctly solving a task. Our results suggest that reasoning performance can be modulated in the same manner as other information-processing tasks performed by LLMs and demonstrate that we are capable of improving performance on specific tasks via a simple intervention on the residual stream with no additional training.

arxiv情報

著者 Bertram Højer,Oliver Jarvis,Stefan Heinrich
発行日 2025-04-28 04:58:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Improving Reasoning Performance in Large Language Models via Representation Engineering はコメントを受け付けていません

Ragas: Automated Evaluation of Retrieval Augmented Generation

要約

検索拡張生成(RAG)パイプラインの参照フリー評価のフレームワークであるRagas(検索拡張生成評価)を紹介します。
RAGシステムは、検索とLLMベースのジェネレーションモジュールで構成されており、LLMSに参照テキストデータベースからの知識を提供します。これにより、ユーザーとテキストデータベースの間の自然言語層として機能し、幻覚のリスクが軽減されます。
ただし、RAGアーキテクチャの評価は、考慮すべきいくつかの次元があるため、困難です。関連する焦点を絞ったコンテキストパッセージを識別する検索システムの能力、LLMがそのようなパッセージを忠実な方法で悪用する能力、または世代自体の品質です。
Ragasを使用すると、これらのさまざまな寸法\ Textit {地面に依存することなく評価するために使用できる一連のメトリックを提出しました。
このようなフレームワークは、LAGアーキテクチャのより速い評価サイクルに決定的に貢献できると仮定します。これは、LLMSの迅速な採用を考えると特に重要です。

要約(オリジナル)

We introduce Ragas (Retrieval Augmented Generation Assessment), a framework for reference-free evaluation of Retrieval Augmented Generation (RAG) pipelines. RAG systems are composed of a retrieval and an LLM based generation module, and provide LLMs with knowledge from a reference textual database, which enables them to act as a natural language layer between a user and textual databases, reducing the risk of hallucinations. Evaluating RAG architectures is, however, challenging because there are several dimensions to consider: the ability of the retrieval system to identify relevant and focused context passages, the ability of the LLM to exploit such passages in a faithful way, or the quality of the generation itself. With Ragas, we put forward a suite of metrics which can be used to evaluate these different dimensions \textit{without having to rely on ground truth human annotations}. We posit that such a framework can crucially contribute to faster evaluation cycles of RAG architectures, which is especially important given the fast adoption of LLMs.

arxiv情報

著者 Shahul Es,Jithin James,Luis Espinosa-Anke,Steven Schockaert
発行日 2025-04-28 05:09:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Ragas: Automated Evaluation of Retrieval Augmented Generation はコメントを受け付けていません

NutriGen: Personalized Meal Plan Generator Leveraging Large Language Models to Enhance Dietary and Nutritional Adherence

要約

バランスの取れた食事を維持することは全体的な健康に不可欠ですが、多くの個人は栄養の複雑さ、時間の制約、食事知識の欠如のために食事計画に苦労しています。
パーソナライズされた食品の推奨事項は、食事計画を個々の好み、習慣、食事制限に合わせて調整することにより、これらの課題に対処するのに役立ちます。
ただし、既存の栄養補助剤システムは、多くの場合、適応性がなく、食品成分の可用性などの実際の制約を考慮することができず、広範なユーザー入力が必要であり、持続可能でスケーラブルな日常的な使用には非現実的になります。
これらの制限に対処するために、ユーザー定義の食事の好みと制約に合わせたパーソナライズされた食事プランを生成するために設計された大規模な言語モデル(LLM)に基づくフレームワークであるNutrigenを紹介します。
パーソナライズされた栄養データベースを構築し、プロンプトエンジニアリングを活用することにより、LLMSは柔軟性と使いやすさを維持しながら、USDA栄養データベースのような信頼できる栄養参照を組み込むことができます。
LLMは、正確でユーザーフレンドリーな食品の推奨事項を生成する際に強い可能性を秘めており、構造化された実用的でスケーラブルな食事プランを提供することにより、既存の食事勧告システムの重要な制限に対処することを実証します。
私たちの評価は、Llama 3.1 8BおよびGPT-3.5ターボがそれぞれ1.55 \%および3.68 \%の最低パーセントエラーを達成し、偏差を最小限に抑え、精度を改善しながら、ユーザー定義のカロリーターゲットと密接に整合する食事プランを生成することを示しています。
さらに、Deepseek V3のパフォーマンスをいくつかの確立されたモデルと比較して、パーソナライズされた栄養計画における可能性を評価しました。

要約(オリジナル)

Maintaining a balanced diet is essential for overall health, yet many individuals struggle with meal planning due to nutritional complexity, time constraints, and lack of dietary knowledge. Personalized food recommendations can help address these challenges by tailoring meal plans to individual preferences, habits, and dietary restrictions. However, existing dietary recommendation systems often lack adaptability, fail to consider real-world constraints such as food ingredient availability, and require extensive user input, making them impractical for sustainable and scalable daily use. To address these limitations, we introduce NutriGen, a framework based on large language models (LLM) designed to generate personalized meal plans that align with user-defined dietary preferences and constraints. By building a personalized nutrition database and leveraging prompt engineering, our approach enables LLMs to incorporate reliable nutritional references like the USDA nutrition database while maintaining flexibility and ease-of-use. We demonstrate that LLMs have strong potential in generating accurate and user-friendly food recommendations, addressing key limitations in existing dietary recommendation systems by providing structured, practical, and scalable meal plans. Our evaluation shows that Llama 3.1 8B and GPT-3.5 Turbo achieve the lowest percentage errors of 1.55\% and 3.68\%, respectively, producing meal plans that closely align with user-defined caloric targets while minimizing deviation and improving precision. Additionally, we compared the performance of DeepSeek V3 against several established models to evaluate its potential in personalized nutrition planning.

arxiv情報

著者 Saman Khamesian,Asiful Arefeen,Stephanie M. Carpenter,Hassan Ghasemzadeh
発行日 2025-04-28 05:39:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | NutriGen: Personalized Meal Plan Generator Leveraging Large Language Models to Enhance Dietary and Nutritional Adherence はコメントを受け付けていません

Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding

要約

具体化されたエージェントが実際の環境内で動的に解釈および相互作用することを可能にするため、オープンボキャブラリー3Dシーンの理解は、物理的知能を強化するために極めて重要です。
このペーパーでは、3Dエンティティ言語のアライメントと異なるポイントクラウドビュー全体でポイントエンティティの一貫性を活用してエンティティ固有の特徴表現を促進する、オープンポイントエンティティコントラスト学習方法であるMPECを紹介します。
私たちの方法は、セマンティックな差別を改善し、ユニークなインスタンスの差別化を強化し、オープンボキャブリー3DセマンティックセグメンテーションのためにScannetで最新の結果を達成し、優れたゼロショットシーンの理解機能を実証します。
低レベルの知覚から高レベルの推論タスクに至るまで、8つのデータセットでの広範な微調整実験は、学習した3D機能の可能性を紹介し、さまざまな3Dシーンの理解タスク全体で一貫したパフォーマンスの向上を促進します。
プロジェクトのウェブサイト:https://mpec-3d.github.io/

要約(オリジナル)

Open-vocabulary 3D scene understanding is pivotal for enhancing physical intelligence, as it enables embodied agents to interpret and interact dynamically within real-world environments. This paper introduces MPEC, a novel Masked Point-Entity Contrastive learning method for open-vocabulary 3D semantic segmentation that leverages both 3D entity-language alignment and point-entity consistency across different point cloud views to foster entity-specific feature representations. Our method improves semantic discrimination and enhances the differentiation of unique instances, achieving state-of-the-art results on ScanNet for open-vocabulary 3D semantic segmentation and demonstrating superior zero-shot scene understanding capabilities. Extensive fine-tuning experiments on 8 datasets, spanning from low-level perception to high-level reasoning tasks, showcase the potential of learned 3D features, driving consistent performance gains across varied 3D scene understanding tasks. Project website: https://mpec-3d.github.io/

arxiv情報

著者 Yan Wang,Baoxiong Jia,Ziyu Zhu,Siyuan Huang
発行日 2025-04-28 05:43:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding はコメントを受け付けていません

LiveIdeaBench: Evaluating LLMs’ Divergent Thinking for Scientific Idea Generation with Minimal Context

要約

大規模な言語モデル(LLMS)は、文献分析や実験設計などの科学タスクの顕著な能力を示していますが(例えば、論文から重要な調査結果を正確に抽出したり、一貫した実験手順を生成したり)、既存の評価ベンチマークは主にリッチなコンテキスト入力を使用してパフォーマンスを評価します。
LiveIdeabenchを紹介します。LLMSの科学的アイデア生成を評価する包括的なベンチマークであるシングルキーワードプロンプトを使用して、多様な思考機能を評価します。
ギルフォードの創造性理論から描画された私たちのベンチマークは、最先端のLLMの動的なパネルを採用して、独創性、実現可能性、流ency性、柔軟性、明確さの5つの重要な側面にわたって生成されたアイデアを評価します。
22の科学的領域にまたがる1,180のキーワードにまたがる40を超える主要なモデルを使用した広範な実験を通じて、ベンチマークによって測定された科学的アイデア生成能力は、一般的な知能の標準メトリックによってあまり予測されていないことが明らかになりました。
我々の結果は、QWQ-32B-Previewのようなモデルが、一般的なインテリジェンススコアの大きなギャップにもかかわらず、Claude-3.7-Sonnet:Thinking:Thinkingなどのトップ層モデルに匹敵する創造的なパフォーマンスを実現することを示しています。
これらの調査結果は、科学的アイデア生成のための専門的な評価ベンチマークの必要性を強調し、LLMでこれらのアイデア生成能力を強化することで、一般的な問題解決能力を改善するために使用されるものとは異なるトレーニング戦略が必要になる可能性があり、科学プロセスのさまざまな段階に合わせたより広い範囲のAIツールを可能にする可能性があることを示唆しています。

要約(オリジナル)

While Large Language Models (LLMs) demonstrate remarkable capabilities in scientific tasks such as literature analysis and experimental design (e.g., accurately extracting key findings from papers or generating coherent experimental procedures), existing evaluation benchmarks primarily assess performance using rich contextual inputs. We introduce LiveIdeaBench, a comprehensive benchmark evaluating LLMs’ scientific idea generation by assessing divergent thinking capabilities using single-keyword prompts. Drawing from Guilford’s creativity theory, our benchmark employs a dynamic panel of state-of-the-art LLMs to assess generated ideas across five key dimensions: originality, feasibility, fluency, flexibility, and clarity. Through extensive experimentation with over 40 leading models across 1,180 keywords spanning 22 scientific domains, we reveal that the scientific idea generation capabilities measured by our benchmark, are poorly predicted by standard metrics of general intelligence. Our results demonstrate that models like QwQ-32B-preview achieve creative performance comparable to top-tier models such as claude-3.7-sonnet:thinking, despite significant gaps in their general intelligence scores. These findings highlight the need for specialized evaluation benchmarks for scientific idea generation and suggest that enhancing these idea generation capabilities in LLMs may require different training strategies than those used for improving general problem-solving abilities, potentially enabling a wider range of AI tools tailored for different stages of the scientific process.

arxiv情報

著者 Kai Ruan,Xuan Wang,Jixiang Hong,Peng Wang,Yang Liu,Hao Sun
発行日 2025-04-28 06:12:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LiveIdeaBench: Evaluating LLMs’ Divergent Thinking for Scientific Idea Generation with Minimal Context はコメントを受け付けていません

SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared Task on Hallucinations and Related Observable Overgeneration Mistakes

要約

MU-Shroom共有タスクを提示します。これは、命令チューニングされた大手言語モデル(LLM)の出力における幻覚やその他の過剰な過剰な間違いの検出に焦点を当てています。
MU-Shroomは、14の言語で汎用LLMに対処し、幻覚検出の問題をスパンラベルのタスクとしてフレーム化します。
多様な方法論を採用している43の参加チームから2,618の提出物を受け取りました。
多数の提出物は、幻覚検出におけるコミュニティの関心を強調しています。
参加システムの結果を提示し、経験的分析を実施して、このタスクの強力なパフォーマンスに寄与する重要な要因を特定します。
また、関連する現在の課題、特に言語間のさまざまな幻覚の程度と、幻覚スパンにラベルを付ける際の高いアノテーターの意見の不一致を強調します。

要約(オリジナル)

We present the Mu-SHROOM shared task which is focused on detecting hallucinations and other overgeneration mistakes in the output of instruction-tuned large language models (LLMs). Mu-SHROOM addresses general-purpose LLMs in 14 languages, and frames the hallucination detection problem as a span-labeling task. We received 2,618 submissions from 43 participating teams employing diverse methodologies. The large number of submissions underscores the interest of the community in hallucination detection. We present the results of the participating systems and conduct an empirical analysis to identify key factors contributing to strong performance in this task. We also emphasize relevant current challenges, notably the varying degree of hallucinations across languages and the high annotator disagreement when labeling hallucination spans.

arxiv情報

著者 Raúl Vázquez,Timothee Mickus,Elaine Zosa,Teemu Vahtola,Jörg Tiedemann,Aman Sinha,Vincent Segonne,Fernando Sánchez-Vega,Alessandro Raganato,Jindřich Libovický,Jussi Karlgren,Shaoxiong Ji,Jindřich Helcl,Liane Guillou,Ona de Gibert,Jaione Bengoetxea,Joseph Attieh,Marianna Apidianaki
発行日 2025-04-28 06:19:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared Task on Hallucinations and Related Observable Overgeneration Mistakes はコメントを受け付けていません