PsychBench: A comprehensive and professional benchmark for evaluating the performance of LLM-assisted psychiatric clinical practice

要約

大規模な言語モデル(LLMS)の出現は、医療リソースの不足や精神医学的臨床診療における診断の一貫性の低さなどの問題に対処するための潜在的なソリューションを提供します。
この可能性にもかかわらず、本物の精神医学的臨床環境におけるLLMの有効性を評価するための堅牢で包括的なベンチマークフレームワークはありません。
これにより、精神医学的アプリケーションに合わせた専門のLLMSの進歩が妨げられています。
このギャップに応えて、精神医学および臨床データに臨床的要求を組み込むことにより、精神医学的臨床環境でのLLMSの実際のパフォーマンスを評価するために、ベンチマークシステムであるサイケベンチを提案しました。
Psychbenchを使用して16 LLMの包括的な定量評価を実施し、モデルパフォーマンスに対する迅速な設計、考え方の推論、入力テキストの長さ、ドメイン固有の知識の微調整の影響を調査しました。
詳細なエラー分析を通じて、既存のモデルの強みと潜在的な制限を特定し、改善のための指示を提案しました。
その後、さまざまな年功の精神科医が関与する60人の精神科医が関与する臨床読者の研究が行われ、既存のLLMの実際の利点をさらに年功序列の精神科医のための支持ツールとしてさらに調査しました。
定量的および読者の評価を通じて、既存のモデルは重大な可能性を示しているが、精神医学的臨床診療における意思決定ツールとしてまだ適切ではないことを示しています。
読者の調査では、補助ツールとして、LLMは若手精神科医に特に顕著なサポートを提供し、仕事の効率と全体的な臨床品質を効果的に向上させることができることを示しています。
この分野での研究を促進するために、精神医学的臨床環境でLLMの適用を進めることを期待して、データセットと評価のフレームワークを公開します。

要約(オリジナル)

The advent of Large Language Models (LLMs) offers potential solutions to address problems such as shortage of medical resources and low diagnostic consistency in psychiatric clinical practice. Despite this potential, a robust and comprehensive benchmarking framework to assess the efficacy of LLMs in authentic psychiatric clinical environments is absent. This has impeded the advancement of specialized LLMs tailored to psychiatric applications. In response to this gap, by incorporating clinical demands in psychiatry and clinical data, we proposed a benchmarking system, PsychBench, to evaluate the practical performance of LLMs in psychiatric clinical settings. We conducted a comprehensive quantitative evaluation of 16 LLMs using PsychBench, and investigated the impact of prompt design, chain-of-thought reasoning, input text length, and domain-specific knowledge fine-tuning on model performance. Through detailed error analysis, we identified strengths and potential limitations of the existing models and suggested directions for improvement. Subsequently, a clinical reader study involving 60 psychiatrists of varying seniority was conducted to further explore the practical benefits of existing LLMs as supportive tools for psychiatrists of varying seniority. Through the quantitative and reader evaluation, we show that while existing models demonstrate significant potential, they are not yet adequate as decision-making tools in psychiatric clinical practice. The reader study further indicates that, as an auxiliary tool, LLM could provide particularly notable support for junior psychiatrists, effectively enhancing their work efficiency and overall clinical quality. To promote research in this area, we will make the dataset and evaluation framework publicly available, with the hope of advancing the application of LLMs in psychiatric clinical settings.

arxiv情報

著者 Shuyu Liu,Ruoxi Wang,Ling Zhang,Xuequan Zhu,Rui Yang,Xinzhu Zhou,Fei Wu,Zhi Yang,Cheng Jin,Gang Wang
発行日 2025-06-18 12:24:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | PsychBench: A comprehensive and professional benchmark for evaluating the performance of LLM-assisted psychiatric clinical practice はコメントを受け付けていません

Targeted Lexical Injection: Unlocking Latent Cross-Lingual Alignment in Lugha-Llama via Early-Layer LoRA Fine-Tuning

要約

大規模な言語モデル(LLM)は顕著な能力を実証していますが、スワヒリ語などの低リソース言語(LRL)でのパフォーマンスは、しばしばデータ不足と前訓練における過小評価のために遅れています。
重要な課題は、翻訳や横断的情報の検索などのタスクにとって重要な、堅牢な舌側の語彙のアライメントを達成することです。
このペーパーでは、ターゲットを絞った語彙注射(TLI)を紹介します。これは、斬新で効率的な微調整アプローチです。
スワヒリ語中心のLLMであるLugha-llama-8b-Wuraは、初期の内部層のスワヒリ語と英語のワードペアに対して強力でほぼ完璧な語彙アライメントを示すことを実証します(具体的には層2、パイロット研究に基づく0.99998平均コサインの類似性があります)。
セット)。
TLIは、低ランクの適応(LORA)とモデルを微調整するための対照的な学習目標を使用して、この洞察を活用し、特にこの経験的に特定された最適な初期層からの埋め込みをターゲットにしています。
私たちの実験は、TLIが623の訓練されたスワヒリ語と英語のペアの出力レベルの語彙アライメントを大幅に改善し、0.3211から0.4113(+28.08%、p <1.33 x 10^-240)に平均コサイン類似性を高めることを示しています。 さらに重要なことに、これらの改善は、63の目に見えないコントロールワードペアに非常によく一般化され、類似性は0.3143から0.4033(+28.32%、p <7.17 x 10^-27)に増加します。 これらの調査結果は、TLIが、その固有の初期層間横断的知識を保存および伝播するモデルの能力を高めることを示唆しており、LRLに焦点を当てたLLMSの語彙アライメントを改善するためのパラメーター効率の高い効果的な戦略を提供します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities, yet their performance in low-resource languages (LRLs), such as Swahili, often lags due to data scarcity and underrepresentation in pre-training. A key challenge is achieving robust cross-lingual lexical alignment, crucial for tasks like translation and cross-lingual information retrieval. This paper introduces Targeted Lexical Injection (TLI), a novel and efficient fine-tuning approach. We first demonstrate that Lugha-Llama-8B-wura, a Swahili-centric LLM, exhibits strong, near-perfect lexical alignment for Swahili-English word pairs in its early internal layers (specifically Layer 2, with ~0.99998 average cosine similarity based on a pilot study), a capability not fully reflected in its final output representations (baseline ~0.32 similarity on our evaluation set). TLI leverages this insight by using Low-Rank Adaptation (LoRA) and a contrastive learning objective to fine-tune the model, specifically targeting embeddings from this empirically identified optimal early layer. Our experiments show that TLI significantly improves the output-level lexical alignment for 623 trained Swahili-English word pairs, increasing average cosine similarity from 0.3211 to 0.4113 (+28.08%, p < 1.33 x 10^-240). More importantly, these improvements generalize remarkably well to 63 unseen control word pairs, with similarity increasing from 0.3143 to 0.4033 (+28.32%, p < 7.17 x 10^-27). These findings suggest TLI enhances the model's ability to preserve and propagate its inherent early-layer cross-lingual knowledge, offering a parameter-efficient and effective strategy for improving lexical alignment in LRL-focused LLMs.

arxiv情報

著者 Stanley Ngugi
発行日 2025-06-18 12:35:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.6 | Targeted Lexical Injection: Unlocking Latent Cross-Lingual Alignment in Lugha-Llama via Early-Layer LoRA Fine-Tuning はコメントを受け付けていません

Understanding GUI Agent Localization Biases through Logit Sharpness

要約

Multimodal Large Languals Models(MLLMS)により、GUIエージェントは言語を空間アクションに接地することにより、オペレーティングシステムと対話することができました。
有望なパフォーマンスにもかかわらず、これらのモデルは、信頼性を損なう幻覚体系的な局在エラーを頻繁に示します。
モデルの予測を4つの異なるタイプに分類する微調整された評価フレームワークを提案し、従来の精度メトリックを超えた微妙な故障モードを明らかにします。
モデルの不確実性をより適切に定量化するために、座標予測のセマンティック連続性とロジット分布のアラインメントを評価するメトリックであるピークシャープネススコア(PSS)を導入します。
この洞察に基づいて、入力コンテキストを適応的に改良することでモデルのパフォーマンスを向上させるトレーニングフリーのテクニックであるコンテキスト認識の作物をさらに提案します。
広範な実験は、私たちのフレームワークと方法が実用的な洞察を提供し、GUIエージェントの行動の解釈性と堅牢性を高めることを示しています。

要約(オリジナル)

Multimodal large language models (MLLMs) have enabled GUI agents to interact with operating systems by grounding language into spatial actions. Despite their promising performance, these models frequently exhibit hallucinations-systematic localization errors that compromise reliability. We propose a fine-grained evaluation framework that categorizes model predictions into four distinct types, revealing nuanced failure modes beyond traditional accuracy metrics. To better quantify model uncertainty, we introduce the Peak Sharpness Score (PSS), a metric that evaluates the alignment between semantic continuity and logits distribution in coordinate prediction. Building on this insight, we further propose Context-Aware Cropping, a training-free technique that improves model performance by adaptively refining input context. Extensive experiments demonstrate that our framework and methods provide actionable insights and enhance the interpretability and robustness of GUI agent behavior.

arxiv情報

著者 Xingjian Tao,Yiwei Wang,Yujun Cai,Zhicheng Yang,Jing Tang
発行日 2025-06-18 12:55:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Understanding GUI Agent Localization Biases through Logit Sharpness はコメントを受け付けていません

AgentGroupChat-V2: Divide-and-Conquer Is What LLM-Based Multi-Agent System Need

要約

大規模な言語モデルベースのマルチエージェントシステムは、ソーシャルシミュレーションと複雑なタスク解決ドメインに重大な可能性を示しています。
ただし、現在のフレームワークは、特にタスクの複雑さとエージェントの数が増加するにつれて、システムアーキテクチャの設計、クロスドメインの一般化、パフォーマンスの保証における重要な課題に直面しています。
3つのコアイノベーションを通じてこれらの課題に対処する新しいフレームワークであるAgentGroupChat-V2を紹介します。(1)ユーザークエリを階層的タスク森林構造に分解する分割完全並列アーキテクチャを、依存関係管理と分散環境処理を可能にします。
(2)タスク特性に基づいて異種のLLMの組み合わせと相互作用モードを動的に選択する適応コラボレーションエンジン。
(3)エージェント組織の最適化戦略は、効率的な問題分解のための分割統合アプローチを組み合わせたものです。
広範な実験は、エージェントグループチャット-V2の多様なドメインで優れたパフォーマンスを示しており、GSM8Kで91.50%の精度(最高のベースラインを5.6パーセントポイント超えて)、競合レベルのAIMEで30.4%の精度(ほぼ倍増)、および79.20%が人間で1パス@1をパスします。
パフォーマンスの利点は、特に改善が最先端のベースラインと比較して11パーセントポイントを超えるレベル5の数学の問題で、より高いタスクの難易度とともにますます顕著になります。
これらの結果は、AgentGroupChat-V2が、複雑な推論シナリオに大きな利点を持つ効率的な汎用LLMマルチエージェントシステムを構築するための包括的なソリューションを提供することを確認しています。
コードはhttps://github.com/mikegu721/agentgroupchat-v2で入手できます。

要約(オリジナル)

Large language model based multi-agent systems have demonstrated significant potential in social simulation and complex task resolution domains. However, current frameworks face critical challenges in system architecture design, cross-domain generalizability, and performance guarantees, particularly as task complexity and number of agents increases. We introduces AgentGroupChat-V2, a novel framework addressing these challenges through three core innovations: (1) a divide-and-conquer fully parallel architecture that decomposes user queries into hierarchical task forest structures enabling dependency management and distributed concurrent processing. (2) an adaptive collaboration engine that dynamically selects heterogeneous LLM combinations and interaction modes based on task characteristics. (3) agent organization optimization strategies combining divide-and-conquer approaches for efficient problem decomposition. Extensive experiments demonstrate AgentGroupChat-V2’s superior performance across diverse domains, achieving 91.50% accuracy on GSM8K (exceeding the best baseline by 5.6 percentage points), 30.4% accuracy on competition-level AIME (nearly doubling other methods), and 79.20% pass@1 on HumanEval. Performance advantages become increasingly pronounced with higher task difficulty, particularly on Level 5 MATH problems where improvements exceed 11 percentage points compared to state-of-the-art baselines. These results confirm that AgentGroupChat-V2 provides a comprehensive solution for building efficient, general-purpose LLM multi-agent systems with significant advantages in complex reasoning scenarios. Code is available at https://github.com/MikeGu721/AgentGroupChat-V2.

arxiv情報

著者 Zhouhong Gu,Xiaoxuan Zhu,Yin Cai,Hao Shen,Xingzhou Chen,Qingyi Wang,Jialin Li,Xiaoran Shi,Haoran Guo,Wenxuan Huang,Hongwei Feng,Yanghua Xiao,Zheyu Ye,Yao Hu,Shaosheng Cao
発行日 2025-06-18 13:24:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | AgentGroupChat-V2: Divide-and-Conquer Is What LLM-Based Multi-Agent System Need はコメントを受け付けていません

RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation

要約

最近の大規模な言語モデル(LLMS)は、ベンチマークの推論の精度が高いと報告しています。
ただし、観察された結果が真の推論から生じるのか、トレーニングセットの統計的リコールから生じるのかはまだ不明です。
因果関係のはしご(Pearl、2009)とその3つのレベル(関連性、介入、および反事実)に触発されたこのペーパーでは、LLMSの推論能力の階層を特徴付けるフレームワークであるRemagineを紹介します。
中間的な象徴的な表現の問題を変更することにより、再想像すると、暗記だけを使用して解決できない多くの問題を任意に生成します。
さらに、フレームワークは一般的であり、数学、コード、ロジックなど、推論ドメイン全体で動作することができます。
LLMSのいくつかのファミリーを評価するために、4つの広く使用されているベンチマークでフレームワークを実証し、問題のバリエーションでモデルが照会されたときにパフォーマンスの低下を観察します。
これらの評価は、過去のパフォーマンスの統計的リコールに依存していることを示しており、推論階層全体でスキルをターゲットにするためのさらなる研究への扉を開きます。

要約(オリジナル)

Recent Large Language Models (LLMs) have reported high accuracy on reasoning benchmarks. However, it is still unclear whether the observed results arise from true reasoning or from statistical recall of the training set. Inspired by the ladder of causation (Pearl, 2009) and its three levels (associations, interventions and counterfactuals), this paper introduces RE-IMAGINE, a framework to characterize a hierarchy of reasoning ability in LLMs, alongside an automated pipeline to generate problem variations at different levels of the hierarchy. By altering problems in an intermediate symbolic representation, RE-IMAGINE generates arbitrarily many problems that are not solvable using memorization alone. Moreover, the framework is general and can work across reasoning domains, including math, code, and logic. We demonstrate our framework on four widely-used benchmarks to evaluate several families of LLMs, and observe reductions in performance when the models are queried with problem variations. These assessments indicate a degree of reliance on statistical recall for past performance, and open the door to further research targeting skills across the reasoning hierarchy.

arxiv情報

著者 Xinnuo Xu,Rachel Lawrence,Kshitij Dubey,Atharva Pandey,Risa Ueno,Fabian Falck,Aditya V. Nori,Rahul Sharma,Amit Sharma,Javier Gonzalez
発行日 2025-06-18 13:35:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation はコメントを受け付けていません

Factorized RVQ-GAN For Disentangled Speech Tokenization

要約

単一のモデルでボトルネックを3つの言語レベルの音響、音声、および語彙型に考慮する統一された神経発話コーデックである階層オーディオコーデック(HAC)を提案します。
HACは、2つの知識蒸留の目的を活用します。1つは、音素レベルの構造用の事前に訓練された音声エンコーダー(Hubert)から、もう1つは語彙キュー用のテキストベースのエンコーダー(Labse)からです。
英語と多言語のデータに関する実験は、HACの因数分解ボトルネックが解き放たれたトークンセットを生成することを示しています:1つは音素と整列し、別のものは単語レベルのセマンティクスをキャプチャします。
定量的評価は、HACトークンが自然性を維持し、解釈可能な言語情報を提供し、解体と再構成の両方の品質の両方で単一レベルのベースラインを上回ることを確認します。
これらの発見は、HACの統一された個別の音声表現としての可能性を強調し、下流の音声生成と理解のための音響の詳細と語彙的意味を橋渡しします。

要約(オリジナル)

We propose Hierarchical Audio Codec (HAC), a unified neural speech codec that factorizes its bottleneck into three linguistic levels-acoustic, phonetic, and lexical-within a single model. HAC leverages two knowledge distillation objectives: one from a pre-trained speech encoder (HuBERT) for phoneme-level structure, and another from a text-based encoder (LaBSE) for lexical cues. Experiments on English and multilingual data show that HAC’s factorized bottleneck yields disentangled token sets: one aligns with phonemes, while another captures word-level semantics. Quantitative evaluations confirm that HAC tokens preserve naturalness and provide interpretable linguistic information, outperforming single-level baselines in both disentanglement and reconstruction quality. These findings underscore HAC’s potential as a unified discrete speech representation, bridging acoustic detail and lexical meaning for downstream speech generation and understanding tasks.

arxiv情報

著者 Sameer Khurana,Dominik Klement,Antoine Laurent,Dominik Bobos,Juraj Novosad,Peter Gazdik,Ellen Zhang,Zili Huang,Amir Hussein,Ricard Marxer,Yoshiki Masuyama,Ryo Aihara,Chiori Hori,Francois G. Germain,Gordon Wichern,Jonathan Le Roux
発行日 2025-06-18 13:36:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Factorized RVQ-GAN For Disentangled Speech Tokenization はコメントを受け付けていません

OM4OV: Leveraging Ontology Matching for Ontology Versioning

要約

セマンティックWebの動的な性質のため、特に広く使用されているオントロジーの場合、時変情報をキャプチャするためにバージョン制御が必要です。
オントロジーバージョン(OV)が効率的なオントロジー管理のための重要なコンポーネントとしての長年の認識にもかかわらず、肉体労働が現在のOVアプローチによって引き起こされるオントロジーのサイズと蓄積エラーの増加。
この論文では、既存のオントロジーマッチング(OM)技術とシステムを使用してOVを実行するためのさらに別のアプローチを提案します。
Unified OM4ovパイプラインを紹介します。
OMの観点から、OVタスクの新しいタスクの定式化と測定を再構築します。
OMからの以前のアライメントに基づいて、全体的なOVパフォーマンスを向上させるために、交差参照(CR)メカニズムと呼ばれるパイプライン最適化方法を提案します。
OM4ovパイプラインと、オントロジーアライメント評価イニシアチブ(OAEI)データセットに由来するTested Testedの相互参照メカニズムを実験的に検証します。
また、OVシステムで検出されたいくつかの誤ったマッピングが実際には不明ではないOVタスクに使用されるOMの洞察についても説明します。

要約(オリジナル)

Due to the dynamic nature of the Semantic Web, version control is necessary to capture time-varying information, particularly for widely used ontologies. Despite the long-standing recognition of ontology versioning (OV) as a crucial component for efficient ontology management, the growing size of ontologies and accumulating errors caused by manual labour overwhelm current OV approaches. In this paper, we propose yet another approach to performing OV using existing ontology matching (OM) techniques and systems. We introduce a unified OM4OV pipeline. From an OM perspective, we reconstruct a new task formulation and measurement for OV tasks. Building upon the prior alignment(s) from OM, we propose a pipeline optimisation method called the cross-reference (CR) mechanism to enhance overall OV performance. We experimentally validate the OM4OV pipeline and the cross-reference mechanism in the OV tested originating from the Ontology Alignment Evaluation Initiative (OAEI) datasets. We also discuss insights into OM used for OV tasks, where some false mappings detected by OV systems are not actually untrue.

arxiv情報

著者 Zhangcheng Qiang,Kerry Taylor,Weiqing Wang
発行日 2025-06-18 13:36:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | OM4OV: Leveraging Ontology Matching for Ontology Versioning はコメントを受け付けていません

Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification?

要約

毒性は、初期段階の医薬品開発不全の主な原因のままです。
分子設計と特性の予測の進歩にもかかわらず、分子毒性修復のタスク – 毒性の低下を伴う構造的に有効な分子的代替を生成する – はまだ体系的に定義またはベンチマークされていません。
このギャップを埋めるために、分子毒性修復に焦点を当てた汎用マルチモーダル大手言語モデル(MLLMS)の最初のベンチマークタスクであるTomingolを導入します。
多様なメカニズムと粒度にまたがる11の主要なタスクと560の代表的な毒性分子をカバーする標準化されたデータセットを構築します。
専門家の毒物学的知識から通知された、メカニズムに対応したタスクに適した機能を備えた迅速な注釈パイプラインを設計します。
並行して、毒性エンドポイントの予測、合成アクセシビリティ、薬物の毒性、および構造的類似性を、修復の成功のためにハイスループット評価チェーンに統合する自動評価フレームワークであるToxievalを提案します。
30近くの主流の汎用MLLMSを体系的に評価し、複数のアブレーション研究を設計して、評価基準、候補の多様性、失敗の帰属などの重要な要因を分析します。
実験結果は、現在のMLLMがこのタスクで依然として重要な課題に直面しているが、毒性の理解、意味的制約の順守、構造認識分子編集における有望な能力を実証し始めることを示しています。

要約(オリジナル)

Toxicity remains a leading cause of early-stage drug development failure. Despite advances in molecular design and property prediction, the task of molecular toxicity repair – generating structurally valid molecular alternatives with reduced toxicity – has not yet been systematically defined or benchmarked. To fill this gap, we introduce ToxiMol, the first benchmark task for general-purpose Multimodal Large Language Models (MLLMs) focused on molecular toxicity repair. We construct a standardized dataset covering 11 primary tasks and 560 representative toxic molecules spanning diverse mechanisms and granularities. We design a prompt annotation pipeline with mechanism-aware and task-adaptive capabilities, informed by expert toxicological knowledge. In parallel, we propose an automated evaluation framework, ToxiEval, which integrates toxicity endpoint prediction, synthetic accessibility, drug-likeness, and structural similarity into a high-throughput evaluation chain for repair success. We systematically assess nearly 30 mainstream general-purpose MLLMs and design multiple ablation studies to analyze key factors such as evaluation criteria, candidate diversity, and failure attribution. Experimental results show that although current MLLMs still face significant challenges on this task, they begin to demonstrate promising capabilities in toxicity understanding, semantic constraint adherence, and structure-aware molecule editing.

arxiv情報

著者 Fei Lin,Ziyang Gong,Cong Wang,Yonglin Tian,Tengchao Zhang,Xue Yang,Gen Luo,Fei-Yue Wang
発行日 2025-06-18 14:00:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification? はコメントを受け付けていません

Interchangeable Token Embeddings for Extendable Vocabulary and Alpha-Equivalence

要約

言語モデルには、交​​換可能なトークンの概念がありません。正式なロジックのバインド変数など、意味的に同等でありながら明確なシンボル。
この制限は、より大きな語彙への一般化を防ぎ、バインドされた変数を名前を変更することで意味を維持するアルファ等価を認識するモデルの能力を妨げます。
この機械学習の問題を正式にし、そのような変換の堅牢性を評価するためのメトリックであるAlpha-Covarianceを導入します。
このタスクに取り組むために、デュアルパートトークンの埋め込み戦略を提案します。共有コンポーネントはセマンティックの一貫性を保証し、ランダム化されたコンポーネントはトークンの識別性を維持します。
データ増強のためのアルファリネーミングに依存するベースラインと比較して、私たちのアプローチは、線形時間的論理解決における目に見えないトークンへの一般化、命題論理割り当て予測、および拡張可能な語彙とのコピーを導入しながら、アルファ等価の有利な誘導バイアスを導入することを示しています。
私たちの調査結果は、交換可能なトークン表現を学習できる言語モデルを設計するための基盤を確立します。これは、正式なドメインでより柔軟で体系的な推論に向けた重要なステップです。
コードとプロジェクトのページは、https://necrashter.github.io/interchangable-token-embeddingsで入手できます

要約(オリジナル)

Language models lack the notion of interchangeable tokens: symbols that are semantically equivalent yet distinct, such as bound variables in formal logic. This limitation prevents generalization to larger vocabularies and hinders the model’s ability to recognize alpha-equivalence, where renaming bound variables preserves meaning. We formalize this machine learning problem and introduce alpha-covariance, a metric for evaluating robustness to such transformations. To tackle this task, we propose a dual-part token embedding strategy: a shared component ensures semantic consistency, while a randomized component maintains token distinguishability. Compared to a baseline that relies on alpha-renaming for data augmentation, our approach demonstrates improved generalization to unseen tokens in linear temporal logic solving, propositional logic assignment prediction, and copying with an extendable vocabulary, while introducing a favorable inductive bias for alpha-equivalence. Our findings establish a foundation for designing language models that can learn interchangeable token representations, a crucial step toward more flexible and systematic reasoning in formal domains. Our code and project page are available at https://necrashter.github.io/interchangeable-token-embeddings

arxiv情報

著者 İlker Işık,Ramazan Gokberk Cinbis,Ebru Aydin Gol
発行日 2025-06-18 14:42:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.LO | Interchangeable Token Embeddings for Extendable Vocabulary and Alpha-Equivalence はコメントを受け付けていません

Enhancing Hyperbole and Metaphor Detection with Their Bidirectional Dynamic Interaction and Emotion Knowledge

要約

テキストベースの誇張とメタファーの検出は、自然言語処理(NLP)タスクにとって非常に重要です。
しかし、彼らの意味的なあいまいさと表現力のある多様性のため、それらを特定することはかなり困難です。
既存の方法は、主に表面的なテキスト機能に焦点を当て、誇張と比phorの関連性を無視し、これらの修辞的デバイスの知覚に対する暗黙の感情の効果を無視します。
これらの仮説を実装するために、双方向の動的相互作用(EMOBI)に基づいて、感情誘導の誇張および比phor検出フレームワークを提案します。
第一に、感情分析モジュールは、誇張と比phorの背後にある感情的な意味合いを深く採掘します。
次に、感情ベースのドメインマッピングモジュールは、ターゲットドメインとソースドメインを識別して、誇張と比phorの暗黙の意味をより深く理解することを得ます。
最後に、双方向の動的相互作用モジュールは、誇張と比phorの間の相互促進を可能にします。
一方、検証メカニズムは、検出の精度と信頼性を確保するように設計されています。
実験は、Emobiが4つのデータセットのすべてのベースラインメソッドを上回ることを示しています。
具体的には、現在のSOTAと比較して、F1スコアは、Trofiデータセットでの誇張検出で28.1%、Hypo-Lデータセットでのメタファー検出で23.1%増加しました。
これらの結果は、詳細な分析によって支えられており、誇張と比phorの検出を進めるためのアプローチの有効性と可能性を強調しています。

要約(オリジナル)

Text-based hyperbole and metaphor detection are of great significance for natural language processing (NLP) tasks. However, due to their semantic obscurity and expressive diversity, it is rather challenging to identify them. Existing methods mostly focus on superficial text features, ignoring the associations of hyperbole and metaphor as well as the effect of implicit emotion on perceiving these rhetorical devices. To implement these hypotheses, we propose an emotion-guided hyperbole and metaphor detection framework based on bidirectional dynamic interaction (EmoBi). Firstly, the emotion analysis module deeply mines the emotion connotations behind hyperbole and metaphor. Next, the emotion-based domain mapping module identifies the target and source domains to gain a deeper understanding of the implicit meanings of hyperbole and metaphor. Finally, the bidirectional dynamic interaction module enables the mutual promotion between hyperbole and metaphor. Meanwhile, a verification mechanism is designed to ensure detection accuracy and reliability. Experiments show that EmoBi outperforms all baseline methods on four datasets. Specifically, compared to the current SoTA, the F1 score increased by 28.1% for hyperbole detection on the TroFi dataset and 23.1% for metaphor detection on the HYPO-L dataset. These results, underpinned by in-depth analyses, underscore the effectiveness and potential of our approach for advancing hyperbole and metaphor detection.

arxiv情報

著者 Li Zheng,Sihang Wang,Hao Fei,Zuquan Peng,Fei Li,Jianming Fu,Chong Teng,Donghong Ji
発行日 2025-06-18 14:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Enhancing Hyperbole and Metaphor Detection with Their Bidirectional Dynamic Interaction and Emotion Knowledge はコメントを受け付けていません