When Does Meaning Backfire? Investigating the Role of AMRs in NLI

要約

自然言語推論(NLI)は、前提と仮説の意味的な内容を適切に解析することに大きく依存しています。
この作業では、抽象的な意味表現(AMR)の形でセマンティック情報を追加するのに役立つかどうかを調査します。
微調整とプロンプトの両方の設定でAMRをNLIに統合する実験は、微調整におけるAMRの存在がモデルの一般化を妨げることを示しています。
しかし、アブレーション研究では、改善はセマンティック推論を支援するのではなく、表面レベルの違いを増幅することからもたらされることが明らかになりました。
この増幅は、コアの意味が保存されている場合でも、非脱出を予測するためにモデルを誤解させる可能性があります。

要約(オリジナル)

Natural Language Inference (NLI) relies heavily on adequately parsing the semantic content of the premise and hypothesis. In this work, we investigate whether adding semantic information in the form of an Abstract Meaning Representation (AMR) helps pretrained language models better generalize in NLI. Our experiments integrating AMR into NLI in both fine-tuning and prompting settings show that the presence of AMR in fine-tuning hinders model generalization while prompting with AMR leads to slight gains in \texttt{GPT-4o}. However, an ablation study reveals that the improvement comes from amplifying surface-level differences rather than aiding semantic reasoning. This amplification can mislead models to predict non-entailment even when the core meaning is preserved.

arxiv情報

著者 Junghyun Min,Xiulin Yang,Shira Wein
発行日 2025-06-17 15:12:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | When Does Meaning Backfire? Investigating the Role of AMRs in NLI はコメントを受け付けていません

TaskCraft: Automated Generation of Agentic Tasks

要約

自律性、ツールの使用、および適応的推論を伴うマルチステップの問題解決を必要とするエージェントタスクは、NLPとAIの進歩の中心になりつつあります。
ただし、既存の命令データにはツールの相互作用がなく、現在のエージェントベンチマークは高価な人間の注釈に依存しており、スケーラビリティが制限されています。
\ TextSC {TaskCraft}を紹介します。これは、実行可能な軌跡を実行する難易度、マルチツール、および検証可能なエージェントタスクを実行するための自動化されたワークフローです。
TaskCraftは、深さベースと幅ベースの拡張機能を使用してアトミックタスクを拡張して、構造的および階層的に複雑な課題を作成します。
経験的な結果は、これらのタスクが生成ワークフローの迅速な最適化を改善し、エージェントファンデーションモデルの監視された微調整を強化することを示しています。
約36,000のタスクの大規模な合成データセットを提示します。エージェントの調整と評価に関する将来の研究をサポートするために、さまざまな困難を抱えています。

要約(オリジナル)

Agentic tasks, which require multi-step problem solving with autonomy, tool use, and adaptive reasoning, are becoming increasingly central to the advancement of NLP and AI. However, existing instruction data lacks tool interaction, and current agentic benchmarks rely on costly human annotation, limiting their scalability. We introduce \textsc{TaskCraft}, an automated workflow for generating difficulty-scalable, multi-tool, and verifiable agentic tasks with execution trajectories. TaskCraft expands atomic tasks using depth-based and width-based extensions to create structurally and hierarchically complex challenges. Empirical results show that these tasks improve prompt optimization in the generation workflow and enhance supervised fine-tuning of agentic foundation models. We present a large-scale synthetic dataset of approximately 36,000 tasks with varying difficulty to support future research on agent tuning and evaluation.

arxiv情報

著者 Dingfeng Shi,Jingyi Cao,Qianben Chen,Weichen Sun,Weizhen Li,Hongxuan Lu,Fangchen Dong,Tianrui Qin,King Zhu,Minghao Liu,Jian Yang,Ge Zhang,Jiaheng Liu,Changwang Zhang,Jun Wang,Yuchen Eleanor Jiang,Wangchunshu Zhou
発行日 2025-06-17 15:19:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TaskCraft: Automated Generation of Agentic Tasks はコメントを受け付けていません

SynGraph: A Dynamic Graph-LLM Synthesis Framework for Sparse Streaming User Sentiment Modeling

要約

eコマースプラットフォームでのユーザーレビューは、時間的およびコンテキスト要因によって駆動される動的な感情パターンを示します。
従来のセンチメント分析方法は、静的レビューに焦点を当て、ユーザーセンチメントの評価とテキストコンテンツの間の進化する時間的関係を把握できません。
ストリーミングレビューに関するセンチメント分析は、ユーザー感情の時間的進化をモデリングおよび予測することにより、この制限に対処します。
ただし、それはデータスパース性に苦しんでおり、時間的、空間的、および組み合わせた形式で現れます。
この論文では、ストリーミングレビューに関するセンチメント分析のデータスパース性に対処するために設計された新しいフレームワークであるSyngraphを紹介します。
Syngraphは、ユーザーをミッドテール、ロングテール、および極端なシナリオに分類し、動的グラフベースの構造内にLLMが高度に拡張することを組み込むことにより、データスパースを緩和します。
実際のデータセットでの実験は、ストリーミングレビューのスパース性に対処し、センチメントモデリングを改善する際の有効性を示しています。

要約(オリジナル)

User reviews on e-commerce platforms exhibit dynamic sentiment patterns driven by temporal and contextual factors. Traditional sentiment analysis methods focus on static reviews, failing to capture the evolving temporal relationship between user sentiment rating and textual content. Sentiment analysis on streaming reviews addresses this limitation by modeling and predicting the temporal evolution of user sentiments. However, it suffers from data sparsity, manifesting in temporal, spatial, and combined forms. In this paper, we introduce SynGraph, a novel framework designed to address data sparsity in sentiment analysis on streaming reviews. SynGraph alleviates data sparsity by categorizing users into mid-tail, long-tail, and extreme scenarios and incorporating LLM-augmented enhancements within a dynamic graph-based structure. Experiments on real-world datasets demonstrate its effectiveness in addressing sparsity and improving sentiment modeling in streaming reviews.

arxiv情報

著者 Xin Zhang,Qiyu Wei,Yingjie Zhu,Linhai Zhang,Deyu Zhou,Sophia Ananiadou
発行日 2025-06-17 15:22:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SynGraph: A Dynamic Graph-LLM Synthesis Framework for Sparse Streaming User Sentiment Modeling はコメントを受け付けていません

Passing the Turing Test in Political Discourse: Fine-Tuning LLMs to Mimic Polarized Social Media Comments

要約

大規模な言語モデル(LLM)の高度化の増加は、説得力のある偏ったコンテンツの自動生成を通じて、イデオロギーの二極化を悪化させる潜在的な役割に関する懸念の高まりを引き起こしました。
この研究では、微調整されたLLMがオンライン環境内で偏光談話を複製して増幅できる程度を調査します。
Redditから抽出された政治的に充電された議論のキュレーションされたデータセットを使用して、オープンソースLLMを微調整して、コンテキストに対応したイデオロギー的に整合した応答を生成します。
モデルの出力は、言語分析、センチメントスコアリング、および人間の注釈を通じて評価され、特に元の談話との信頼性と修辞的な整合に注意を払っています。
結果は、党派のデータで訓練された場合、LLMは非常にもっともらしいコメントで挑発的なコメントを作成できることを示しています。
これらの調査結果は、政治的言説、偽情報、操作キャンペーンにおけるAIの使用に関する重要な倫理的疑問を提起します。
この論文は、AIガバナンス、プラットフォーム規制、および敵対的な微調整リスクを緩和するための検出ツールの開発に対するより広範な意味合いについての議論で締めくくります。

要約(オリジナル)

The increasing sophistication of large language models (LLMs) has sparked growing concerns regarding their potential role in exacerbating ideological polarization through the automated generation of persuasive and biased content. This study explores the extent to which fine-tuned LLMs can replicate and amplify polarizing discourse within online environments. Using a curated dataset of politically charged discussions extracted from Reddit, we fine-tune an open-source LLM to produce context-aware and ideologically aligned responses. The model’s outputs are evaluated through linguistic analysis, sentiment scoring, and human annotation, with particular attention to credibility and rhetorical alignment with the original discourse. The results indicate that, when trained on partisan data, LLMs are capable of producing highly plausible and provocative comments, often indistinguishable from those written by humans. These findings raise significant ethical questions about the use of AI in political discourse, disinformation, and manipulation campaigns. The paper concludes with a discussion of the broader implications for AI governance, platform regulation, and the development of detection tools to mitigate adversarial fine-tuning risks.

arxiv情報

著者 . Pazzaglia,V. Vendetti,L. D. Comencini,F. Deriu,V. Modugno
発行日 2025-06-17 15:41:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Passing the Turing Test in Political Discourse: Fine-Tuning LLMs to Mimic Polarized Social Media Comments はコメントを受け付けていません

GuiLoMo: Allocating Expert Number and Rank for LoRA-MoE via Bilevel Optimization with GuidedSelection Vectors

要約

パラメーター効率の高い微調整(PEFT)メソッド、特に低ランク適応(LORA)は、計算コストを削減して大規模な言語モデルを適応させる効率的な方法を提供します。
ただし、パフォーマンスは少数のトレーニング可能なパラメーターによって制限されています。
最近の研究では、LORAとExperts(MOE)、つまりLora-Moeを組み合わせて容量を強化しますが、2つの制限は、その可能性の完全な搾取を妨げています。
これらのギャップを緩和するために、Guilomoは、GuidedSelection Vectors(GSVS)を使用した、きめ細かい層と層の専門家数とランク配分戦略を提案します。
GSVは、モデル固有のニーズとタスク固有の両方のニーズをキャプチャするために、以前のバイレベル最適化プロセスを介して学習され、最適な専門家数とランクを割り当てるために使用されます。
多様なベンチマーク全体の3つのバックボーンモデルでの実験は、Guilomoがすべてのベースラインよりも優れたまたは同等のパフォーマンスを達成することを示しています。
さらなる分析は、専門家の数字とランクがレイヤーとタスクによってどのように異なるかについての重要な洞察を提供し、適応的な専門家の構成の利点を強調しています。
私たちのコードは、https://github.com/liar406/gui-lomo.gitで入手できます。

要約(オリジナル)

Parameter-efficient fine-tuning (PEFT) methods, particularly Low-Rank Adaptation (LoRA), offer an efficient way to adapt large language models with reduced computational costs. However, their performance is limited by the small number of trainable parameters. Recent work combines LoRA with the Mixture-of-Experts (MoE), i.e., LoRA-MoE, to enhance capacity, but two limitations remain in hindering the full exploitation of its potential: 1) the influence of downstream tasks when assigning expert numbers, and 2) the uniform rank assignment across all LoRA experts, which restricts representational diversity. To mitigate these gaps, we propose GuiLoMo, a fine-grained layer-wise expert numbers and ranks allocation strategy with GuidedSelection Vectors (GSVs). GSVs are learned via a prior bilevel optimization process to capture both model- and task-specific needs, and are then used to allocate optimal expert numbers and ranks. Experiments on three backbone models across diverse benchmarks show that GuiLoMo consistently achieves superior or comparable performance to all baselines. Further analysis offers key insights into how expert numbers and ranks vary across layers and tasks, highlighting the benefits of adaptive expert configuration. Our code is available at https://github.com/Liar406/Gui-LoMo.git.

arxiv情報

著者 Hengyuan Zhang,Xinrong Chen,Yingmin Qiu,Xiao Liang,Ziyue Li,Guanyu Wang,Weiping Li,Tong Mo,Wenyue Li,Hayden Kwok-Hay So,Ngai Wong
発行日 2025-06-17 15:41:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | GuiLoMo: Allocating Expert Number and Rank for LoRA-MoE via Bilevel Optimization with GuidedSelection Vectors はコメントを受け付けていません

A Hybrid Multi-Agent Prompting Approach for Simplifying Complex Sentences

要約

このペーパーでは、複雑な文章を論理的で単純化した文のシーケンスに変換するという課題に対処し、大規模な言語モデルの助けを借りて意味的および論理的な完全性を維持します。
高度なプロンプトとマルチエージェントアーキテクチャを組み合わせたハイブリッドアプローチを提案して、文の簡素化プロセスを強化します。
実験結果は、私たちのアプローチがビデオゲームデザインアプリケーションのために書かれた複雑な文の70%を正常に簡素化できることを示しています。
それに比べて、単一エージェントのアプローチでは、同じタスクで48%の成功率が得られました。

要約(オリジナル)

This paper addresses the challenge of transforming complex sentences into sequences of logical, simplified sentences while preserving semantic and logical integrity with the help of Large Language Models. We propose a hybrid approach that combines advanced prompting with multi-agent architectures to enhance the sentence simplification process. Experimental results show that our approach was able to successfully simplify 70% of the complex sentences written for video game design application. In comparison, a single-agent approach attained a 48% success rate on the same task.

arxiv情報

著者 Pratibha Zunjare,Michael Hsiao
発行日 2025-06-17 15:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Hybrid Multi-Agent Prompting Approach for Simplifying Complex Sentences はコメントを受け付けていません

Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality

要約

監視された微調整(SFT)は、大規模な言語モデル(LLM)を人間の指示と価値観と整列させるための重要なステップですが、SFTの多くの側面はよく理解されていません。
コード生成、数学的推論、一般ドメインタスクなど、さまざまなデータセットで幅広いベースモデルをトレーニングし、制御された条件下で1,000以上のSFTモデルを実現しました。
次に、最も重要なデータセットプロパティを特定し、SFTによって導入されたレイヤーごとの変更を調べました。
私たちの調査結果は、一部のトレーニングタスクの相乗効果がすべてのモデルで持続し、他のモデルは大幅に異なることを明らかにし、モデル固有の戦略の重要性を強調しています。
さらに、困惑は一貫してSFTの有効性を予測し、しばしば訓練されたデータとベンチマークの間の表面的な類似性を超えることを予測し、中層の体重の変化はパフォーマンスの向上と最も強く相関することを実証します。
これらの1,000以上のSFTモデルとベンチマーク結果をリリースして、さらなる研究を加速します。

要約(オリジナル)

Supervised fine-tuning (SFT) is a critical step in aligning large language models (LLMs) with human instructions and values, yet many aspects of SFT remain poorly understood. We trained a wide range of base models on a variety of datasets including code generation, mathematical reasoning, and general-domain tasks, resulting in 1,000+ SFT models under controlled conditions. We then identified the dataset properties that matter most and examined the layer-wise modifications introduced by SFT. Our findings reveal that some training-task synergies persist across all models while others vary substantially, emphasizing the importance of model-specific strategies. Moreover, we demonstrate that perplexity consistently predicts SFT effectiveness–often surpassing superficial similarity between trained data and benchmark–and that mid-layer weight changes correlate most strongly with performance gains. We will release these 1,000+ SFT models and benchmark results to accelerate further research.

arxiv情報

著者 Yuto Harada,Yusuke Yamauchi,Yusuke Oda,Yohei Oseki,Yusuke Miyao,Yu Takagi
発行日 2025-06-17 16:13:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality はコメントを受け付けていません

Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers

要約

現代の機械学習の最も深刻な課題の1つは、希少で過小評価されている機能のロングテールでうまく機能することです。
大規模な汎用モデルは多くのタスクでトレーニングされていますが、高周波ユースケースで最適です。
トレーニング後、トレーニングコーパスで過小評価されている特定のユースケースでうまく機能するようにモデルを適応させることは困難です。
モデルは小さな変化に非常に敏感である可能性があるため、特定のテストケースの出力品質を最大化するために迅速なエンジニアリングまたは少数のショットの例に依存することはイライラする可能性があります。
この作業では、「推論時に過小評価されたユースケースの制御性とパフォーマンスを向上させるために、トレーニングプロトコルを最適化できますか?」
トレーニングと推論手法の違いを再検討し、長期尾のパフォーマンスを改善しながら、モデルが対応するようにトレーニングされている一連のコントロールレバーをユーザーに提供します。
データ特性とタスクの起源の詳細な分類法を作成して、生成属性を明示的に制御し、推論時間に暗黙的に条件の世代を作成します。
これらのマーカーを自動的に推測するためにベースモデルを微調整するため、推論時にオプションになります。
この原則的で柔軟なアプローチは、特にトレーニング分布の長い尾の例で、パフォーマンスの改善が顕著になります。
マーカーを使用して、オープンエンドの世代の品質で5.7%の勝利率の平均リフトを観察していますが、過小評価されたドメインで9.1%以上の利益が見られます。
また、CoderePairなどの過小評価されたタスクで最大14.1%の相対揚力や、評価後の長さ指示の35.3%の絶対改善が観察されます。

要約(オリジナル)

One of the most profound challenges of modern machine learning is performing well on the long-tail of rare and underrepresented features. Large general-purpose models are trained for many tasks, but work best on high-frequency use cases. After training, it is hard to adapt a model to perform well on specific use cases underrepresented in the training corpus. Relying on prompt engineering or few-shot examples to maximize the output quality on a particular test case can be frustrating, as models can be highly sensitive to small changes, react in unpredicted ways or rely on a fixed system prompt for maintaining performance. In this work, we ask: ‘Can we optimize our training protocols to both improve controllability and performance on underrepresented use cases at inference time?’ We revisit the divide between training and inference techniques to improve long-tail performance while providing users with a set of control levers the model is trained to be responsive to. We create a detailed taxonomy of data characteristics and task provenance to explicitly control generation attributes and implicitly condition generations at inference time. We fine-tune a base model to infer these markers automatically, which makes them optional at inference time. This principled and flexible approach yields pronounced improvements in performance, especially on examples from the long tail of the training distribution. While we observe an average lift of 5.7% win rates in open-ended generation quality with our markers, we see over 9.1% gains in underrepresented domains. We also observe relative lifts of up to 14.1% on underrepresented tasks like CodeRepair and absolute improvements of 35.3% on length instruction following evaluations.

arxiv情報

著者 Daniel D’souza,Julia Kreutzer,Adrien Morisot,Ahmet Üstün,Sara Hooker
発行日 2025-06-17 16:40:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers はコメントを受け付けていません

Capacity Matters: a Proof-of-Concept for Transformer Memorization on Real-World Data

要約

このペーパーでは、モデルアーキテクチャとデータ構成が生成変圧器の経験的記憶能力にどのように影響するかを研究します。
モデルは、体系化された医学の命名法(スノーム)の知識グラフから派生した合成テキストデータセットを使用してトレーニングされます。トリプレット、静的接続、およびシーケンスを表し、複雑な関係パターンをシミュレートします。
結果は、埋め込みサイズが学習速度と容量の主要な決定要因であり、追加のレイヤーが限られた利点を提供し、より単純なデータセットのパフォーマンスを妨げる可能性があることを示しています。
活性化関数は重要な役割を果たし、SoftMaxはより大きな安定性と容量を示します。
さらに、データセットの複雑さを高めると、最終的な暗記が改善されるようです。
これらの洞察は、変圧器メモリメカニズムの理解を改善し、構造化された実世界データを使用してモデル設計を最適化するためのフレームワークを提供します。

要約(オリジナル)

This paper studies how the model architecture and data configurations influence the empirical memorization capacity of generative transformers. The models are trained using synthetic text datasets derived from the Systematized Nomenclature of Medicine (SNOMED) knowledge graph: triplets, representing static connections, and sequences, simulating complex relation patterns. The results show that embedding size is the primary determinant of learning speed and capacity, while additional layers provide limited benefits and may hinder performance on simpler datasets. Activation functions play a crucial role, and Softmax demonstrates greater stability and capacity. Furthermore, increasing the complexity of the data set seems to improve the final memorization. These insights improve our understanding of transformer memory mechanisms and provide a framework for optimizing model design with structured real-world data.

arxiv情報

著者 Anton Changalidis,Aki Härmä
発行日 2025-06-17 16:42:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Capacity Matters: a Proof-of-Concept for Transformer Memorization on Real-World Data はコメントを受け付けていません

Assessing the Reasoning Capabilities of LLMs in the context of Evidence-based Claim Verification

要約

LLMは数学とコーディング関連の推論タスクで大きなパフォーマンスを示していますが、他の形式の推論に関するLLMの推論能力は依然としてオープンな問題です。
ここでは、請求検証の観点から推論の問題を調べます。
証拠と組み合わせた主張を、検証に必要な原子推論タイプに分解するように設計されたフレームワークを提案します。
このフレームワークを使用して、LLMSの演ductive的で逆乳製の推論能力を評価するために、実世界の主張を組み込んだ最初のクレーム検証ベンチマークであるRECVを作成します。
ベンチマークは3つのデータセットで構成されており、複雑さを高めるという推論の問題をカバーしています。
複数のプロンプト設定の下で、3つの最先端の独自のLLMを評価します。
私たちの結果は、LLMSは演ductive的な推論の問題に対処できるが、誘ductiveな推論の場合に一貫して失敗することを示しています。
さらに、根拠の生成でLLMを強化することは必ずしも有益ではないことを観察します。
それにもかかわらず、生成された理論的根拠は、特に演ductive的な推論の場合において、人間によって提供されたものと意味的に類似していることがわかります。

要約(オリジナル)

Although LLMs have shown great performance on Mathematics and Coding related reasoning tasks, the reasoning capabilities of LLMs regarding other forms of reasoning are still an open problem. Here, we examine the issue of reasoning from the perspective of claim verification. We propose a framework designed to break down any claim paired with evidence into atomic reasoning types that are necessary for verification. We use this framework to create RECV, the first claim verification benchmark, incorporating real-world claims, to assess the deductive and abductive reasoning capabilities of LLMs. The benchmark comprises of three datasets, covering reasoning problems of increasing complexity. We evaluate three state-of-the-art proprietary LLMs under multiple prompt settings. Our results show that while LLMs can address deductive reasoning problems, they consistently fail in cases of abductive reasoning. Moreover, we observe that enhancing LLMs with rationale generation is not always beneficial. Nonetheless, we find that generated rationales are semantically similar to those provided by humans, especially in deductive reasoning cases.

arxiv情報

著者 John Dougrez-Lewis,Mahmud Elahi Akhter,Federico Ruggeri,Sebastian Löbbers,Yulan He,Maria Liakata
発行日 2025-06-17 17:05:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Assessing the Reasoning Capabilities of LLMs in the context of Evidence-based Claim Verification はコメントを受け付けていません