Set-Theoretic Compositionality of Sentence Embeddings

要約

文エンコーダーは、さまざまなNLPタスクで極めて重要な役割を果たします。
したがって、組成特性の正確な評価が最重要です。
ただし、既存の評価方法は、主に目標タスク固有のパフォーマンスに焦点を当てています。
これにより、文の埋め込みがタスクに依存しないコンテキストで基本的な構成特性がどれほどよく示されるかを理解することに大きなギャップが残ります。
古典的なセット理論を活用すると、3つのコアの「セットのような」構成/操作に基づいて6つの基準を提案することにより、このギャップに対処します:\ textit {textoverlap}、\ textit {textDifference}、および\ textit {textunion}。
これらの基準とのアライメントを評価するために、7ドルの$ 7 $ $ classicalおよび$ 9 $の大手言語モデル(LLM)ベースの文エンコーダーを体系的に評価します。
私たちの調査結果は、Sbertが一貫してセットのような組成特性を実証し、最新のLLMを超えていることを示しています。
さらに、文の埋め込みのセットのような構成性に関する将来のベンチマークの取り組みを促進するために設計された〜$ 192 $ Kサンプルの新しいデータセットを紹介します。

要約(オリジナル)

Sentence encoders play a pivotal role in various NLP tasks; hence, an accurate evaluation of their compositional properties is paramount. However, existing evaluation methods predominantly focus on goal task-specific performance. This leaves a significant gap in understanding how well sentence embeddings demonstrate fundamental compositional properties in a task-independent context. Leveraging classical set theory, we address this gap by proposing six criteria based on three core ‘set-like’ compositions/operations: \textit{TextOverlap}, \textit{TextDifference}, and \textit{TextUnion}. We systematically evaluate $7$ classical and $9$ Large Language Model (LLM)-based sentence encoders to assess their alignment with these criteria. Our findings show that SBERT consistently demonstrates set-like compositional properties, surpassing even the latest LLMs. Additionally, we introduce a new dataset of ~$192$K samples designed to facilitate future benchmarking efforts on set-like compositionality of sentence embeddings.

arxiv情報

著者 Naman Bansal,Yash mahajan,Sanjeev Sinha,Santu Karmaker
発行日 2025-02-28 11:40:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Set-Theoretic Compositionality of Sentence Embeddings はコメントを受け付けていません

UoR-NCL at SemEval-2025 Task 1: Using Generative LLMs and CLIP Models for Multilingual Multimodal Idiomaticity Representation

要約

Semeval-2025タスク1は、英語とブラジルのポルトガル語の両方で慣用的な意味を持つ可能性のある特定の公称化合物とのアラインメントに基づいて、ランキング画像に焦点を当てています。
この課題に対処するために、この作業では、生成的な大規模な言語モデル(LLMS)と多言語のクリップモデルを使用して、慣用化複合表現を強化します。
LLMは、潜在的に慣用的な化合物に対して慣用的な意味を生成し、セマンティックな解釈を豊かにします。
これらの意味は、多言語クリップモデルを使用してエンコードされ、画像ランキングの表現として機能します。
対照的な学習とデータ増強技術が適用され、これらの埋め込みを微調整してパフォーマンスを向上させます。
実験結果は、この方法を通じて抽出されたマルチモーダル表現が、元の公称化合物のみに基づいたものよりも優れていることを示しています。
微調整アプローチは有望な結果を示しますが、微調整せずに埋め込みを使用するよりも効果が低いです。
このペーパーで使用されているソースコードは、https://github.com/tongwu17/semeval-2025-task1-uor-nclで入手できます。

要約(オリジナル)

SemEval-2025 Task 1 focuses on ranking images based on their alignment with a given nominal compound that may carry idiomatic meaning in both English and Brazilian Portuguese. To address this challenge, this work uses generative large language models (LLMs) and multilingual CLIP models to enhance idiomatic compound representations. LLMs generate idiomatic meanings for potentially idiomatic compounds, enriching their semantic interpretation. These meanings are then encoded using multilingual CLIP models, serving as representations for image ranking. Contrastive learning and data augmentation techniques are applied to fine-tune these embeddings for improved performance. Experimental results show that multimodal representations extracted through this method outperformed those based solely on the original nominal compounds. The fine-tuning approach shows promising outcomes but is less effective than using embeddings without fine-tuning. The source code used in this paper is available at https://github.com/tongwu17/SemEval-2025-Task1-UoR-NCL.

arxiv情報

著者 Thanet Markchom,Tong Wu,Liting Huang,Huizhi Liang
発行日 2025-02-28 11:52:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | UoR-NCL at SemEval-2025 Task 1: Using Generative LLMs and CLIP Models for Multilingual Multimodal Idiomaticity Representation はコメントを受け付けていません

Explore the Reasoning Capability of LLMs in the Chess Testbed

要約

推論は、人間の知性の中心的な能力です。
近年、大規模なデータセットの出現により、推論を含む新しい機能が備わっています。
ただし、これらのモデルは、チェスをするなどの長期的で複雑な推論タスクに依然として苦労しています。
専門家のチェスプレーヤーは、長期的な戦略的遊びと短期戦術的な遊びと言語の説明を組み合わせた二重アプローチを採用しているという観察に基づいて、注釈付き戦略と戦術を統合することにより、チェスにおける大規模な言語モデルの推論能力を改善することを提案します。
具体的には、MATEという名前のデータセットを収集します。これは、戦略と戦術のためにチェスの専門家から注釈が付けられた候補者の動きを持つ100万のチェスポジションで構成されるものです。
Llama-3-8Bモデルを微調整し、より良いチェスの動きを選択するタスクで、最先端の商業言語モデルと比較します。
私たちの実験は、モデルがGPT、Claude、およびGeminiモデルよりも優れたパフォーマンスを示していることを示しています。
言語の説明は、大規模な言語モデルの推論能力を高めることができることがわかります。

要約(オリジナル)

Reasoning is a central capability of human intelligence. In recent years, with the advent of large-scale datasets, pretrained large language models have emerged with new capabilities, including reasoning. However, these models still struggle with long-term, complex reasoning tasks, such as playing chess. Based on the observation that expert chess players employ a dual approach combining long-term strategic play with short-term tactical play along with language explanation, we propose improving the reasoning capability of large language models in chess by integrating annotated strategy and tactic. Specifically, we collect a dataset named MATE, which consists of 1 million chess positions with candidate moves annotated by chess experts for strategy and tactics. We finetune the LLaMA-3-8B model and compare it against state-of-the-art commercial language models in the task of selecting better chess moves. Our experiments show that our models perform better than GPT, Claude, and Gemini models. We find that language explanations can enhance the reasoning capability of large language models.

arxiv情報

著者 Shu Wang,Lei Ji,Renxi Wang,Wenxiao Zhao,Haokun Liu,Yifan Hou,Ying Nian Wu
発行日 2025-02-28 11:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Explore the Reasoning Capability of LLMs in the Chess Testbed はコメントを受け付けていません

Merging Clinical Knowledge into Large Language Models for Medical Research and Applications: A Survey

要約

臨床知識とは、疾患の原因、予後、診断、治療に関する研究から学んだ情報の収集です。
このタイプの知識は、硬化性のパフォーマンスを改善し、身体の健康を促進することができます。
大規模な言語モデル(LLMS)の出現により、アカデミックメディカルAIシステムを実際の医療シナリオに適用することを目的とした医療人工知能(Medical AI)は、新しい開発時代に入り、DoctogptやPangu-Drugなどの優れた作品を学業および産業研究から生み出しました。
ただし、この分野には包括的な大要と、学界と産業の医療AIシステムの構築の比較がありません。
したがって、この調査では、臨床データベースの使用、データセット、トレーニングパイプライン、医療知識グラフ、システムアプリケーション、評価システムの統合など、医療AIシステムの建物のパラダイムに焦点を当てています。
この調査が、関連する実践的な研究者が、ヘルスケアのさまざまな分野での学術モデルの現在のパフォーマンスと、これらの科学的成果を実装するための潜在的な問題と将来の方向性を理解するのに役立つことを願っています。

要約(オリジナル)

Clinical knowledge is the collection of information learned from studies on the causes, prognosis, diagnosis, and treatment of diseases. This type of knowledge can improve curing performances, and promote physical health. With the emergence of large language models (LLMs), medical artificial intelligence (medical AI), which aims to apply academic medical AI systems to real-world medical scenarios, has entered a new age of development, resulting in excellent works such as DoctorGPT and Pangu-Drug from academic and industrial researches. However, the field lacks a comprehensive compendium and comparison of building medical AI systems from academia and industry. Therefore, this survey focuses on the building paradigms of medical AI systems including the use of clinical databases, datasets, training pipelines, integrating medical knowledge graphs, system applications, and evaluation systems. We hope that this survey can help relevant practical researchers understand the current performance of academic models in various fields of healthcare, as well as the potential problems and future directions for implementing these scientific achievements.

arxiv情報

著者 Qiyuan Li,Haijiang Liu,Caicai Guo,Deyu Chen,Meng Wang,Feng Gao,Jinguang Gu
発行日 2025-02-28 12:00:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Merging Clinical Knowledge into Large Language Models for Medical Research and Applications: A Survey はコメントを受け付けていません

Capability Localization: Capabilities Can be Localized rather than Individual Knowledge

要約

大規模な言語モデルは、自然言語処理に関連するタスクで優れたパフォーマンスを達成していますが、モデルパラメーターがパフォーマンスの改善にどのように影響するかはまだ不明です。
以前の研究では、個々の知識がローカルパラメーターに保存されており、個々の知識のストレージ形式は分散パラメーター、パラメーターレイヤー、またはパラメーターチェーンであり、統一されていないと想定していました。
忠実度と信頼性評価実験を通じて、個々の知識をローカライズできないことがわかりました。
その後、デカップリング実験のためのデータセットを構築し、データの共通性をローカライズする可能性を発見しました。
この現象をさらに明らかにするために、このペーパーでは、共通性ニューロンを正常に位置付け、GSM8Kデータセットで96.42%のニューロンオーバーラップレートを達成する共通性ニューロン局在(CNL)メソッドを提案します。
最後に、相互データ実験を通じて、共通性ニューロンはパフォーマンスを向上させる能力を備えた能力ニューロンのコレクションであることを実証しました。
私たちのコードは、https://github.com/nlpkeg/capability-neuron-localizationで入手できます。

要約(オリジナル)

Large scale language models have achieved superior performance in tasks related to natural language processing, however, it is still unclear how model parameters affect performance improvement. Previous studies assumed that individual knowledge is stored in local parameters, and the storage form of individual knowledge is dispersed parameters, parameter layers, or parameter chains, which are not unified. We found through fidelity and reliability evaluation experiments that individual knowledge cannot be localized. Afterwards, we constructed a dataset for decoupling experiments and discovered the potential for localizing data commonalities. To further reveal this phenomenon, this paper proposes a Commonality Neuron Localization (CNL) method, which successfully locates commonality neurons and achieves a neuron overlap rate of 96.42% on the GSM8K dataset. Finally, we have demonstrated through cross data experiments that commonality neurons are a collection of capability neurons that possess the capability to enhance performance. Our code is available at https://github.com/nlpkeg/Capability-Neuron-Localization.

arxiv情報

著者 Xiusheng Huang,Jiaxiang Liu,Yequan Wang,Jun Zhao,Kang Liu
発行日 2025-02-28 12:22:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Capability Localization: Capabilities Can be Localized rather than Individual Knowledge はコメントを受け付けていません

ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities

要約

将来のイベントの予測は、情報に基づいた意思決定への重要な入力です。
機械学習(ML)システムには、予測を大規模に提供する可能性がありますが、標準化された予測質問セットでMLシステムの精度を評価するためのフレームワークはありません。
このギャップに対処するために、ForeCastBench:ML Systemsの精度を自動的に生成および定期的に更新された1,000の予測質問で評価する動的ベンチマークを紹介します。
データの漏れの可能性を回避するために、Forecastbenchは、提出時に既知の答えがない将来のイベントに関する質問のみで構成されています。
ベンチマークからの質問のランダムなサブセット($ n = 200 $)で、専門家(人間)の予測者、一般の人々、およびLLMからの予測を収集することにより、現在のMLシステムの機能を定量化します。
LLMは多くのベンチマークで超人間のパフォーマンスを達成していますが、ここではあまりパフォーマンスがありません。専門家の予測者は、トップパフォーマンスのLLM($ P $ -Value $ <0.001 $)よりも優れています。 www.forecastbench.orgのパブリックリーダーボードにシステムと人間のスコアを表示します。

要約(オリジナル)

Forecasts of future events are essential inputs into informed decision-making. Machine learning (ML) systems have the potential to deliver forecasts at scale, but there is no framework for evaluating the accuracy of ML systems on a standardized set of forecasting questions. To address this gap, we introduce ForecastBench: a dynamic benchmark that evaluates the accuracy of ML systems on an automatically generated and regularly updated set of 1,000 forecasting questions. To avoid any possibility of data leakage, ForecastBench is comprised solely of questions about future events that have no known answer at the time of submission. We quantify the capabilities of current ML systems by collecting forecasts from expert (human) forecasters, the general public, and LLMs on a random subset of questions from the benchmark ($N=200$). While LLMs have achieved super-human performance on many benchmarks, they perform less well here: expert forecasters outperform the top-performing LLM ($p$-value $<0.001$). We display system and human scores in a public leaderboard at www.forecastbench.org.

arxiv情報

著者 Ezra Karger,Houtan Bastani,Chen Yueh-Han,Zachary Jacobs,Danny Halawi,Fred Zhang,Philip E. Tetlock
発行日 2025-02-28 12:35:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities はコメントを受け付けていません

DropBP: Accelerating Fine-Tuning of Large Language Models by Dropping Backward Propagation

要約

大規模な言語モデル(LLM)は、さまざまなドメインで大きな成功を収めています。
ただし、これらのLLMのトレーニングには、通常、前方および後方の伝播の両方で、実質的なメモリと計算コストが含まれます。
パラメーター効率の高い微調整(PEFT)は、パラメーターに関連付けられたトレーニングメモリを大幅に減らしますが、重要な計算コストとアクティベーションメモリに対処しません。
この論文では、精度を維持しながら計算コストとアクティベーションメモリを削減するために設計された新しいアプローチである、逆方向の伝播(DROPBP)のドロップを提案します。
DROPBPは、後方伝播中に層をランダムにドロップします。これは、非繰り返しの層と残留接続によって生成される浅いサブモジュールのトレーニングと本質的に同等です。
さらに、DROPBPは各レイヤーの感度を計算して適切なドロップレートを割り当て、それによりトレーニングプロセスを安定させます。
DROPBPは、完全な微調整に適用できるだけでなく、後方伝播中に層を落とすことにより、すべてのタイプのPEFTと直交することもできます。
具体的には、DROPBPは、ベースラインに匹敵する精度でトレーニング時間を44%短縮し、同じ困惑への収束を1.5倍に加速させ、単一のNVIDIA-A100 GPUで6.2倍大きいシーケンス長でトレーニングを可能にします。
さらに、当社のDROPBPは、NVIDIA A100 GPUで79%、Intel Gaudi2 HPUで117%のスループット増加を可能にしました。
このコードは、https://github.com/woosunghyeon/dropbpで入手できます。

要約(オリジナル)

Large language models (LLMs) have achieved significant success across various domains. However, training these LLMs typically involves substantial memory and computational costs during both forward and backward propagation. While parameter-efficient fine-tuning (PEFT) considerably reduces the training memory associated with parameters, it does not address the significant computational costs and activation memory. In this paper, we propose Dropping Backward Propagation (DropBP), a novel approach designed to reduce computational costs and activation memory while maintaining accuracy. DropBP randomly drops layers during backward propagation, which is essentially equivalent to training shallow submodules generated by undropped layers and residual connections. Additionally, DropBP calculates the sensitivity of each layer to assign an appropriate drop rate, thereby stabilizing the training process. DropBP is not only applicable to full fine-tuning but can also be orthogonally integrated with all types of PEFT by dropping layers during backward propagation. Specifically, DropBP can reduce training time by 44% with comparable accuracy to the baseline, accelerate convergence to the same perplexity by 1.5x, and enable training with a sequence length 6.2x larger on a single NVIDIA-A100 GPU. Furthermore, our DropBP enabled a throughput increase of 79% on a NVIDIA A100 GPU and 117% on an Intel Gaudi2 HPU. The code is available at https://github.com/WooSunghyeon/dropbp.

arxiv情報

著者 Sunghyeon Woo,Baeseong Park,Byeongwook Kim,Minjung Jo,Se Jung Kwon,Dongsuk Jeon,Dongsoo Lee
発行日 2025-02-28 12:53:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | DropBP: Accelerating Fine-Tuning of Large Language Models by Dropping Backward Propagation はコメントを受け付けていません

MiCEval: Unveiling Multimodal Chain of Thought’s Quality via Image Description and Reasoning Steps

要約

Multimodal Chain of Thound(MCOT)は、複雑な推論タスクの範囲にわたるマルチモーダル大手言語モデル(MLLM)のパフォーマンスを改善するための一般的なプロンプト戦略です。
その人気にもかかわらず、MCOTの推論ステップの品質を評価するための自動化された方法が顕著に欠けています。
このギャップに対処するために、記述と各推論ステップの両方の品質を評価することにより、推論チェーンの正確性を評価するために設計されたフレームワークであるマルチモーダルチェーンオブサボート評価(Micalval)を提案します。
説明コンポーネントの評価は、画像の説明の精度に焦点を当てていますが、推論ステップは、前のステップに基づいて条件付きで生成されるため、各ステップの品質を評価します。
Micevalは、正確性、関連性、および情報性に応じて各ステップを評価する注釈を備えた微粒データセットの上に構築されています。
4つの最先端のMLLMに関する広範な実験は、Micevalを使用した段階的評価が、Cosineの類似性または微調整アプローチに基づいた既存の方法と比較して、人間の判断とより密接に整合することを示しています。
Micevalデータセットとコードは、https://github.com/alenai97/micevalにあります。

要約(オリジナル)

Multimodal Chain of Thought (MCoT) is a popular prompting strategy for improving the performance of multimodal large language models (MLLMs) across a range of complex reasoning tasks. Despite its popularity, there is a notable absence of automated methods for evaluating the quality of reasoning steps in MCoT. To address this gap, we propose Multimodal Chain-of-Thought Evaluation (MiCEval), a framework designed to assess the correctness of reasoning chains by evaluating the quality of both the description and each reasoning step. The evaluation of the description component focuses on the accuracy of the image descriptions, while the reasoning step evaluates the quality of each step as it is conditionally generated based on the preceding steps. MiCEval is built upon a fine-grained dataset with annotations that rate each step according to correctness, relevance, and informativeness. Extensive experiments on four state-of-the-art MLLMs show that step-wise evaluations using MiCEval align more closely with human judgments compared to existing methods based on cosine similarity or fine-tuning approaches. MiCEval datasets and code can be found in https://github.com/alenai97/MiCEval.

arxiv情報

著者 Xiongtao Zhou,Jie He,Lanyu Chen,Jingyu Li,Haojing Chen,Víctor Gutiérrez-Basulto,Jeff Z. Pan,Hanjie Chen
発行日 2025-02-28 12:57:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MiCEval: Unveiling Multimodal Chain of Thought’s Quality via Image Description and Reasoning Steps はコメントを受け付けていません

Behind the Tip of Efficiency: Uncovering the Submerged Threats of Jailbreak Attacks in Small Language Models

要約

小言語モデル(SLM)は、高効率と低い計算コストのために、エッジデバイスの展開でますます顕著になっています。
研究者は、革新的なトレーニング戦略とモデル圧縮技術を通じてSLMの能力を進め続けていますが、SLMのセキュリティリスクは、このギャップを埋めるために、大規模な言語モデル(LLM)と比較してかなり注目されていません。
私たちの実験は、ほとんどのSLMが既存の脱獄攻撃の影響を非常に受けやすいことを示していますが、それらのいくつかは直接的な有害プロンプトに対して脆弱です。安全性の懸念に対処するために、いくつかの代表的な防衛方法を評価し、SLMのセキュリティを強化する効果を実証します。
さらに、アーキテクチャの圧縮、量子化、知識の蒸留などを含むさまざまなSLM技術によって引き起こされる潜在的なセキュリティ劣化を分析します。
私たちの研究は、SLMSのセキュリティの課題を強調し、より堅牢で安全なSLMを開発する将来の仕事に貴重な洞察を提供できると予想しています。

要約(オリジナル)

Small language models (SLMs) have become increasingly prominent in the deployment on edge devices due to their high efficiency and low computational cost. While researchers continue to advance the capabilities of SLMs through innovative training strategies and model compression techniques, the security risks of SLMs have received considerably less attention compared to large language models (LLMs).To fill this gap, we provide a comprehensive empirical study to evaluate the security performance of 13 state-of-the-art SLMs under various jailbreak attacks. Our experiments demonstrate that most SLMs are quite susceptible to existing jailbreak attacks, while some of them are even vulnerable to direct harmful prompts.To address the safety concerns, we evaluate several representative defense methods and demonstrate their effectiveness in enhancing the security of SLMs. We further analyze the potential security degradation caused by different SLM techniques including architecture compression, quantization, knowledge distillation, and so on. We expect that our research can highlight the security challenges of SLMs and provide valuable insights to future work in developing more robust and secure SLMs.

arxiv情報

著者 Sibo Yi,Tianshuo Cong,Xinlei He,Qi Li,Jiaxing Song
発行日 2025-02-28 12:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR | Behind the Tip of Efficiency: Uncovering the Submerged Threats of Jailbreak Attacks in Small Language Models はコメントを受け付けていません

PersuasiveToM: A Benchmark for Evaluating Machine Theory of Mind in Persuasive Dialogues

要約

自分自身と他者の精神状態を理解し、予測する能力は、心の理論(TOM)として知られており、効果的な社会的相互作用に不可欠です。
大規模な言語モデル(LLM)がTOMの形を示すかどうかを評価するために、最近の研究が登場しています。
最近の研究ではLLMSでTOMを評価していますが、既存のベンチマークは主に肉体的認識に焦点を当て、合成物語や会話におけるサリー・アンテのテストによって導かれ、現実の社会的相互作用における精神状態の複雑な心理的活動を捉えることができません。
このギャップを軽減するために、説得力のある対話でLLMのTOM能力を評価するために設計されたベンチマークであるPersuasivetomを提案します。
私たちのフレームワークでは、2つのカテゴリの質問を紹介します。(1)TOMの推論、進化する精神状態(例えば、説得力の欲求の変化)を追跡するLLMの能力を評価すること、および(2)TOMアプリケーション、LLMが推測された精神状態を利用して効果的な説得戦略を選択し(例えば、希少性を強調)、有効性を評価できるかどうかを評価します。
8つの最先端のLLMにわたる実験は、モデルが複数の質問に優れている一方で、精神状態のダイナミクスとシフトを追跡し、対話全体の精神状態を理解する必要がある質問に答えるのに苦労することを明らかにしています。
PersuasiveTomでの私たちの目的は、複雑な心理的活動により重点を置いて、LLMSのTOM推論能力の効果的な評価を可能にすることです。
私たちのコードは、https://github.com/yu-fangxu/persuasivetomで入手できます。

要約(オリジナル)

The ability to understand and predict the mental states of oneself and others, known as the Theory of Mind (ToM), is crucial for effective social interactions. Recent research has emerged to evaluate whether Large Language Models (LLMs) exhibit a form of ToM. Although recent studies have evaluated ToM in LLMs, existing benchmarks focus predominantly on physical perception with principles guided by the Sally-Anne test in synthetic stories and conversations, failing to capture the complex psychological activities of mental states in real-life social interactions. To mitigate this gap, we propose PersuasiveToM, a benchmark designed to evaluate the ToM abilities of LLMs in persuasive dialogues. Our framework introduces two categories of questions: (1) ToM Reasoning, assessing the capacity of LLMs to track evolving mental states (e.g., desire shifts in persuadees), and (2) ToM Application, evaluating whether LLMs can take advantage of inferred mental states to select effective persuasion strategies (e.g., emphasize rarity) and evaluate the effectiveness of persuasion strategies. Experiments across eight state-of-the-art LLMs reveal that while models excel on multiple questions, they struggle to answer questions that need tracking the dynamics and shifts of mental states and understanding the mental states in the whole dialogue comprehensively. Our aim with PersuasiveToM is to allow an effective evaluation of the ToM reasoning ability of LLMs with more focus on complex psychological activities. Our code is available at https://github.com/Yu-Fangxu/PersuasiveToM.

arxiv情報

著者 Fangxu Yu,Lai Jiang,Shenyi Huang,Zhen Wu,Xinyu Dai
発行日 2025-02-28 13:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | PersuasiveToM: A Benchmark for Evaluating Machine Theory of Mind in Persuasive Dialogues はコメントを受け付けていません