Lateral Phishing With Large Language Models: A Large Organization Comparative Study

要約

大規模な言語モデル(LLMS)の出現により、高度にターゲットを絞った、パーソナライズされた自動化された攻撃の生成を可能にすることにより、フィッシングメールの脅威が高まりました。
伝統的に、多くのフィッシングメールは、タイプミス、エラー、言語の貧弱なことによって特徴付けられてきました。
これらのエラーはLLMSによって軽減され、攻撃者の障壁が潜在的に低下する可能性があります。
それにもかかわらず、LLMで生成された横方向フィッシングメールの有効性を人間によって作られたものと比較する大規模な研究が不足しています。
現在の文献は、特にLLMがより説得力のあるエラーのないフィッシングコンテンツを生成する可能性を考慮して、実際の大規模な組織設定で、LLMとヒト生成の横方向フィッシングメールの比較効果に適切に対処していません。
このギャップに対処するために、私たちは大規模な大学で先駆的な研究を実施し、教員、スタッフ、管理者、学生労働者を含む約9,000人の従業員を対象としています。
我々の結果は、LLM生成の横方向フィッシングメールは、コミュニケーションの専門家によって書かれたものと同じくらい効果的であり、主要なフィッシングキャンペーンでLLMSによってもたらされる重大な脅威を強調していることを示しています。
全体的なフィッシング実験の結果を分析し、部門と職務の脆弱性を比較します。
さらに、定性的データを収集するために、詳細なアンケートを管理し、脆弱な従業員の行動の背後にある理由と動機に関する洞察を明らかにしました。
この研究は、教育機関におけるサイバーセキュリティの脅威の理解に貢献し、LLMがより説得力のあるコンテンツを生成する可能性を考慮して、LLMと人間生成のフィッシングメールの有効性の包括的な比較を提供します。
調査結果は、AIを搭載したフィッシング攻撃の脅威の増大を軽減するために、ユーザー教育とシステムの防御力の強化の必要性を強調しています。

要約(オリジナル)

The emergence of Large Language Models (LLMs) has heightened the threat of phishing emails by enabling the generation of highly targeted, personalized, and automated attacks. Traditionally, many phishing emails have been characterized by typos, errors, and poor language. These errors can be mitigated by LLMs, potentially lowering the barrier for attackers. Despite this, there is a lack of large-scale studies comparing the effectiveness of LLM-generated lateral phishing emails to those crafted by humans. Current literature does not adequately address the comparative effectiveness of LLM and human-generated lateral phishing emails in a real-world, large-scale organizational setting, especially considering the potential for LLMs to generate more convincing and error-free phishing content. To address this gap, we conducted a pioneering study within a large university, targeting its workforce of approximately 9,000 individuals including faculty, staff, administrators, and student workers. Our results indicate that LLM-generated lateral phishing emails are as effective as those written by communications professionals, emphasizing the critical threat posed by LLMs in leading phishing campaigns. We break down the results of the overall phishing experiment, comparing vulnerability between departments and job roles. Furthermore, to gather qualitative data, we administered a detailed questionnaire, revealing insights into the reasons and motivations behind vulnerable employee’s actions. This study contributes to the understanding of cyber security threats in educational institutions and provides a comprehensive comparison of LLM and human-generated phishing emails’ effectiveness, considering the potential for LLMs to generate more convincing content. The findings highlight the need for enhanced user education and system defenses to mitigate the growing threat of AI-powered phishing attacks.

arxiv情報

著者 Mazal Bethany,Athanasios Galiopoulos,Emet Bethany,Mohammad Bahrami Karkevandi,Nicole Beebe,Nishant Vishwamitra,Peyman Najafirad
発行日 2025-04-15 15:38:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | Lateral Phishing With Large Language Models: A Large Organization Comparative Study はコメントを受け付けていません

Dependency Structure Augmented Contextual Scoping Framework for Multimodal Aspect-Based Sentiment Analysis

要約

マルチモーダルアスペクトベースのセンチメント分析(MABSA)は、画像テキストペアからきめの細かい情報を抽出して、アスペクト用語を特定し、その感情の極性を決定しようとしています。
ただし、既存のアプローチは、センチメントキュー知覚(SCP)、マルチモーダル情報の不整合(MIM)、およびセマンティックノイズエリミネーション(SNE)の3つのコアの課題に同時に対処することに同時に不足していることがよくあります。
これらの制限を克服するために、Dasco(\ textbf {d} ependency structure \ textbf {a} ugented \ textbf {sco} pingフレームワーク)を提案します。
まず、ベースモデルでMABSAのマルチタスク事前削除戦略を設計し、アスペクト指向の強化、画像テキストマッチング、およびアスペクトレベルのセンチメントに敏感な認知を組み合わせました。
これにより、SCPやMIMなどの重要な課題に対処しながら、効果的な画像テキストアラインメントを達成しながら、アスペクト用語と感情の手がかりに対するモデルの認識が改善されました。
さらに、依存性ツリーを構文分岐とセマンティックブランチを組み合わせて組み込み、ターゲット固有の範囲内で重要なコンテキスト要素に選択的に注意を払うようにモデルを導きながら、SNE問題に対処するための無関係なノイズを効果的に除外します。
3つのサブタスクにわたる2つのベンチマークデータセットでの広範な実験は、DascoがMabsaで最先端のパフォーマンスを達成し、JMASAで顕著な利益を得ていることを示しています(+3.1 \%F1および+5.4 \%精度でTwitter2015)。

要約(オリジナル)

Multimodal Aspect-Based Sentiment Analysis (MABSA) seeks to extract fine-grained information from image-text pairs to identify aspect terms and determine their sentiment polarity. However, existing approaches often fall short in simultaneously addressing three core challenges: Sentiment Cue Perception (SCP), Multimodal Information Misalignment (MIM), and Semantic Noise Elimination (SNE). To overcome these limitations, we propose DASCO (\textbf{D}ependency Structure \textbf{A}ugmented \textbf{Sco}ping Framework), a fine-grained scope-oriented framework that enhances aspect-level sentiment reasoning by leveraging dependency parsing trees. First, we designed a multi-task pretraining strategy for MABSA on our base model, combining aspect-oriented enhancement, image-text matching, and aspect-level sentiment-sensitive cognition. This improved the model’s perception of aspect terms and sentiment cues while achieving effective image-text alignment, addressing key challenges like SCP and MIM. Furthermore, we incorporate dependency trees as syntactic branch combining with semantic branch, guiding the model to selectively attend to critical contextual elements within a target-specific scope while effectively filtering out irrelevant noise for addressing SNE problem. Extensive experiments on two benchmark datasets across three subtasks demonstrate that DASCO achieves state-of-the-art performance in MABSA, with notable gains in JMASA (+3.1\% F1 and +5.4\% precision on Twitter2015).

arxiv情報

著者 Hao Liu,Lijun He,Jiaxi Liang,Zhihan Ren,Fan Li
発行日 2025-04-15 16:05:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM | Dependency Structure Augmented Contextual Scoping Framework for Multimodal Aspect-Based Sentiment Analysis はコメントを受け付けていません

REWARD CONSISTENCY: Improving Multi-Objective Alignment from a Data-Centric Perspective

要約

言語モデルの多目的選好アライメントは、しばしば挑戦的なトレードオフに遭遇します。1つの人間の好み(例えば、有用性)に対する最適化は、競合する目標間の固有の対立のために他の人(例えば、無害)を頻繁に妥協します。
以前の研究は主にアルゴリズムソリューションに焦点を当てていますが、これらの競合を効果的に軽減できるデータの種類を明らかにするための新しいデータ駆動型アプローチを探ります。
具体的には、複数の優先目標に沿ったサンプルを識別し、それによりトレーニング中の競合を減らすサンプルを識別する報酬一貫性の概念(RC)を提案します。
勾配ベースの分析を通じて、RCに準拠したサンプルが多目的最適化中に本質的にパフォーマンスの低下を制限することを実証します。
これらの洞察に基づいて、報酬の一貫性サンプリングをさらに開発します。これは、多目的アライメント中に競合を効果的に緩和する優先データセットを自動的に構築するフレームワークです。
生成されたデータは、無害性と有用性を最適化する際に無害なレートと有用性の勝利率の両方で13.37%の平均改善を達成し、さまざまな多目的シナリオで競合を一貫して解決できます。

要約(オリジナル)

Multi-objective preference alignment in language models often encounters a challenging trade-off: optimizing for one human preference (e.g., helpfulness) frequently compromises others (e.g., harmlessness) due to the inherent conflicts between competing objectives. While prior work mainly focuses on algorithmic solutions, we explore a novel data-driven approach to uncover the types of data that can effectively mitigate these conflicts. Specifically, we propose the concept of Reward Consistency (RC), which identifies samples that align with multiple preference objectives, thereby reducing conflicts during training. Through gradient-based analysis, we demonstrate that RC-compliant samples inherently constrain performance degradation during multi-objective optimization. Building on these insights, we further develop Reward Consistency Sampling, a framework that automatically constructs preference datasets that effectively mitigate conflicts during multi-objective alignment. Our generated data achieves an average improvement of 13.37% in both the harmless rate and helpfulness win rate when optimizing harmlessness and helpfulness, and can consistently resolve conflicts in varying multi-objective scenarios.

arxiv情報

著者 Zhihao Xu,Yongqi Tong,Xin Zhang,Jun Zhou,Xiting Wang
発行日 2025-04-15 16:09:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | REWARD CONSISTENCY: Improving Multi-Objective Alignment from a Data-Centric Perspective はコメントを受け付けていません

Network Alignment

要約

複雑なネットワークは、物理的または仮想複雑なシステムをモデル化するために頻繁に採用されています。
複数のシステムに同時に特定のエンティティが存在する場合、ネットワーク全体で対応する関係を発表することが重要になります。
ネットワークアライメントとして知られるこの問題は、非常に重要です。
複雑なシステム構造と動作の理解を高め、複雑なシステムの研究に関する理論物理学研究の検証と拡張を促進し、さまざまな分野で多様な実用的なアプリケーションを促進します。
ただし、異なるフィールドにわたる複雑なネットワークの構造、特性、および特性の変動により、ネットワークアライメントの研究は各ドメイン内で分離されることが多く、用語や概念も均一性を欠いています。
このレビューは、ソーシャルネットワーク分析、バイオインフォマティクス、計算言語学、プライバシー保護などのさまざまなドメインのネットワークアライメント特性と進捗状況の分析に焦点を当てた、ネットワークアライメント研究の最新の進歩を包括的に要約しています。
構造一貫性ベースの方法、ネットワーク埋め込みベースの方法、グラフニューラルネットワークベース(GNNベース)メソッドなど、さまざまな方法の実装原則、プロセス、およびパフォーマンスの違いの詳細な分析を提供します。
さらに、属性ネットワーク、異種ネットワーク、指示ネットワーク、動的ネットワークなど、さまざまな条件下でのネットワークアライメントの方法が提示されています。
さらに、将来の研究の課題と未解決の問題についても議論されています。

要約(オリジナル)

Complex networks are frequently employed to model physical or virtual complex systems. When certain entities exist across multiple systems simultaneously, unveiling their corresponding relationships across the networks becomes crucial. This problem, known as network alignment, holds significant importance. It enhances our understanding of complex system structures and behaviours, facilitates the validation and extension of theoretical physics research about studying complex systems, and fosters diverse practical applications across various fields. However, due to variations in the structure, characteristics, and properties of complex networks across different fields, the study of network alignment is often isolated within each domain, with even the terminologies and concepts lacking uniformity. This review comprehensively summarizes the latest advancements in network alignment research, focusing on analyzing network alignment characteristics and progress in various domains such as social network analysis, bioinformatics, computational linguistics and privacy protection. It provides a detailed analysis of various methods’ implementation principles, processes, and performance differences, including structure consistency-based methods, network embedding-based methods, and graph neural network-based (GNN-based) methods. Additionally, the methods for network alignment under different conditions, such as in attributed networks, heterogeneous networks, directed networks, and dynamic networks, are presented. Furthermore, the challenges and the open issues for future studies are also discussed.

arxiv情報

著者 Rui Tang,Ziyun Yong,Shuyu Jiang,Xingshu Chen,Yaofang Liu,Yi-Cheng Zhang,Gui-Quan Sun,Wei Wang
発行日 2025-04-15 16:32:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, physics.soc-ph | Network Alignment はコメントを受け付けていません

Cancer-Myth: Evaluating AI Chatbot on Patient Questions with False Presuppositions

要約

がん患者は、医療情報の新しい形式のインターネット検索として大規模な言語モデル(LLM)にますます目を向けているため、これらのモデルが複雑でパーソナライズされた質問をどの程度処理するかを評価することが重要です。
ただし、現在の医療ベンチマークは、健康診断または消費者が検索した質問に焦点を当てており、詳細な臨床コンテキストで実際の患者の質問についてLLMを評価しません。
この論文では、3人の血液腫瘍医師によってレビューされた、実際の患者から描かれたがん関連の質問についてLLMSを最初に評価します。
通常、回答は正確であり、GPT-4ターボは5つのうち4.13を獲得していますが、モデルは、安全な医療上の意思決定に対する質問に位置するリスクの誤った前提を認識または対処できないことがよくあります。
この制限を体系的に研究するために、誤った前提を伴う585のがん関連の質問の専門家で検証された敵対的なデータセットであるCancer-Mythを紹介します。
このベンチマークでは、GPT-4O、GEMINI-1.PRO、CLAUDE-3.5-SONNETを含むフロンティアLLMは、これらの誤った前提を30%以上修正します。
高度な医療エージェントの方法でさえ、LLMSが誤った前提を無視することを妨げません。
これらの発見は、LLMSの臨床的信頼性に重​​大なギャップをもたらし、医療AIシステムのより堅牢な保護手段の必要性を強調しています。

要約(オリジナル)

Cancer patients are increasingly turning to large language models (LLMs) as a new form of internet search for medical information, making it critical to assess how well these models handle complex, personalized questions. However, current medical benchmarks focus on medical exams or consumer-searched questions and do not evaluate LLMs on real patient questions with detailed clinical contexts. In this paper, we first evaluate LLMs on cancer-related questions drawn from real patients, reviewed by three hematology oncology physicians. While responses are generally accurate, with GPT-4-Turbo scoring 4.13 out of 5, the models frequently fail to recognize or address false presuppositions in the questions-posing risks to safe medical decision-making. To study this limitation systematically, we introduce Cancer-Myth, an expert-verified adversarial dataset of 585 cancer-related questions with false presuppositions. On this benchmark, no frontier LLM — including GPT-4o, Gemini-1.Pro, and Claude-3.5-Sonnet — corrects these false presuppositions more than 30% of the time. Even advanced medical agentic methods do not prevent LLMs from ignoring false presuppositions. These findings expose a critical gap in the clinical reliability of LLMs and underscore the need for more robust safeguards in medical AI systems.

arxiv情報

著者 Wang Bill Zhu,Tianqi Chen,Ching Ying Lin,Jade Law,Mazen Jizzini,Jorge J. Nieva,Ruishan Liu,Robin Jia
発行日 2025-04-15 16:37:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Cancer-Myth: Evaluating AI Chatbot on Patient Questions with False Presuppositions はコメントを受け付けていません

RankAlign: A Ranking View of the Generator-Validator Gap in Large Language Models

要約

大規模な言語モデル(LLM)は一般に多くのタスクでより能力が高く正確になっていますが、信頼性の信頼性の基本的なソースがその行動に残っています。
重要な制限の1つは、プロンプトが変更されたときに同じ情報を報告する矛盾です。
この論文では、モデルの生成された回答と、その回答の独自の検証であるジェネレーターバリダーターのギャップとの間の矛盾を検討します。
このギャップを以前の作業よりも厳しい方法で定義します。候補者の回答のセット全体にわたって、ジェネレーターとバリデーターからのスコアの相関関係を期待しています。
この尺度によれば、質問の回答、語彙セマンティクスタスク、次の言葉の予測など、さまざまな設定に大きなギャップが存在することを示しています。
次に、ランキングベースのトレーニング方法であるRankAlignを提案し、すべてのベースライン方法を超えて、平均でギャップを大幅に閉じることを示します。
さらに、このアプローチは、ドメイン外のタスクと語彙項目によく一般的になります。

要約(オリジナル)

Although large language models (LLMs) have become generally more capable and accurate across many tasks, some fundamental sources of unreliability remain in their behavior. One key limitation is their inconsistency at reporting the the same information when prompts are changed. In this paper, we consider the discrepancy between a model’s generated answer and their own verification of that answer, the generator-validator gap. We define this gap in a more stringent way than prior work: we expect correlation of scores from a generator and a validator over the entire set of candidate answers. We show that according to this measure, a large gap exists in various settings, including question answering, lexical semantics tasks, and next-word prediction. We then propose RankAlign, a ranking-based training method, and show that it significantly closes the gap by 31.8% on average, surpassing all baseline methods. Moreover, this approach generalizes well to out-of-domain tasks and lexical items.

arxiv情報

著者 Juan Diego Rodriguez,Wenxuan Ding,Katrin Erk,Greg Durrett
発行日 2025-04-15 16:53:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RankAlign: A Ranking View of the Generator-Validator Gap in Large Language Models はコメントを受け付けていません

DataDecide: How to Predict Best Pretraining Data with Small Experiments

要約

大規模な言語モデルはさまざまなデータセットで事前に排出されるのに費用がかかるため、コストを削減するためには、小規模な実験を使用してデータを決定することが重要です。
小規模で観察されたパフォーマンスから決定を下すベンチマークと方法は、最高の大きなモデルを生成するデータセットを最も正確に予測しますか?
この質問のオープンな調査を強化するために、データとスケールの違いよりも最も広範なオープンモデルのモデルであるデータデシドのモデル、データ、および評価をリリースします。
さまざまなソース、重複排除、最大100Bのトークン、最大1Bパラメーター、3つのランダムシードまでのフィルタリングを備えた25のコーパスで制御された事前トレーニング実験を実施します。
単一の小さなサイズ(150mパラメーターなど)のモデルのランキングは、より大きなターゲットスケール(1b)で最適なモデルを予測するための強力なベースラインであることがわかります(comパリソンの約80%が正しい)。
8つのベースライン間のスケーリング法の方法は、シングルスケール予測の計算決定フロンティアを超えていませんが、DataDecideは将来のスケーリング法の改善を測定できます。
また、小さな実験のプロキシとして連続尤度メトリックを使用すると、MMLU、ARC、Hellaswag、MBPP、およびHumanValなどのベンチマークが、計算のわずか0.01%でターゲット1Bスケールで予測できる80%を超えることを特定します。

要約(オリジナル)

Because large language models are expensive to pretrain on different datasets, using smaller-scale experiments to decide on data is crucial for reducing costs. Which benchmarks and methods of making decisions from observed performance at small scale most accurately predict the datasets that yield the best large models? To empower open exploration of this question, we release models, data, and evaluations in DataDecide — the most extensive open suite of models over differences in data and scale. We conduct controlled pretraining experiments across 25 corpora with differing sources, deduplication, and filtering up to 100B tokens, model sizes up to 1B parameters, and 3 random seeds. We find that the ranking of models at a single, small size (e.g., 150M parameters) is a strong baseline for predicting best models at our larger target scale (1B) (~80% of com parisons correct). No scaling law methods among 8 baselines exceed the compute-decision frontier of single-scale predictions, but DataDecide can measure improvement in future scaling laws. We also identify that using continuous likelihood metrics as proxies in small experiments makes benchmarks including MMLU, ARC, HellaSwag, MBPP, and HumanEval >80% predictable at the target 1B scale with just 0.01% of the compute.

arxiv情報

著者 Ian Magnusson,Nguyen Tai,Ben Bogin,David Heineman,Jena D. Hwang,Luca Soldaini,Akshita Bhagia,Jiacheng Liu,Dirk Groeneveld,Oyvind Tafjord,Noah A. Smith,Pang Wei Koh,Jesse Dodge
発行日 2025-04-15 17:02:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | DataDecide: How to Predict Best Pretraining Data with Small Experiments はコメントを受け付けていません

Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning

要約

注意と状態空間モデル(SSM)を組み合わせたハイブリッドLLMアーキテクチャは、最先端の精度とランタイムパフォーマンスを実現します。
最近の研究では、注意のみのモデルに圧縮と蒸留を適用すると、トレーニングコストのほんの一部でより小さく、より正確なモデルが得られることが実証されています。
この作業では、ハイブリッドアーキテクチャの圧縮の有効性を調査します。
SSMブロックの構造的完全性とそのシーケンスモデリング機能を保持する新しいグループ認識剪定戦略を紹介します。
さらに、従来のアプローチと比較して、精度と推論の速度を向上させるために、このようなSSM剪定の必要性を示しています。
圧縮レシピは、SSM、FFN、埋め込み寸法、および層剪定を組み合わせて、それに続いてMinitron技術と同様に知識蒸留ベースの再訓練が続きます。
このアプローチを使用して、Nemotron-H 8Bハイブリッドモデルを4Bパラメーターに圧縮し、最大40倍のトレーニングトークンが少なくなります。
結果として得られるモデルは、2倍のより速い推論を達成しながら、同様のサイズのモデルの精度を上回り、パレートフロンティアを大幅に進めます。

要約(オリジナル)

Hybrid LLM architectures that combine Attention and State Space Models (SSMs) achieve state-of-the-art accuracy and runtime performance. Recent work has demonstrated that applying compression and distillation to Attention-only models yields smaller, more accurate models at a fraction of the training cost. In this work, we explore the effectiveness of compressing Hybrid architectures. We introduce a novel group-aware pruning strategy that preserves the structural integrity of SSM blocks and their sequence modeling capabilities. Furthermore, we demonstrate the necessity of such SSM pruning to achieve improved accuracy and inference speed compared to traditional approaches. Our compression recipe combines SSM, FFN, embedding dimension, and layer pruning, followed by knowledge distillation-based retraining, similar to the MINITRON technique. Using this approach, we compress the Nemotron-H 8B Hybrid model down to 4B parameters with up to 40x fewer training tokens. The resulting model surpasses the accuracy of similarly-sized models while achieving 2x faster inference, significantly advancing the Pareto frontier.

arxiv情報

著者 Ali Taghibakhshi,Sharath Turuvekere Sreenivas,Saurav Muralidharan,Marcin Chochowski,Yashaswi Karnati,Raviraj Joshi,Ameya Sunil Mahabaleshwarkar,Zijia Chen,Yoshi Suhara,Oluwatobi Olabiyi,Daniel Korzekwa,Mostofa Patwary,Mohammad Shoeybi,Jan Kautz,Bryan Catanzaro,Ashwath Aithal,Nima Tajbakhsh,Pavlo Molchanov
発行日 2025-04-15 17:26:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning はコメントを受け付けていません

Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts

要約

大規模な言語モデル(LLMS)は、多数のタスクにわたって顕著な機能を実証していますが、多くの場合、複雑なタスクを処理するために外部コンテキストに依存しています。
検索されたフレームワークは従来、単一のパスでトップランクのドキュメントを選択することに焦点を当てていますが、多くの現実世界のシナリオは、複数のソースを調整された方法で組み合わせる必要がある構成検索を要求します。
この作業では、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するTRI-Encoderシーケンシャルレトリバーを提案し、一連の要素を条件付き確率のシーケンスに取得する可能性を分解し、各検索ステップを以前に選択した例で条件付けできるようにします。
レトリバーを2つの段階でトレーニングします。まず、初期ポリシートレーニングのために監視された連続データを効率的に構築します。
次に、生成されたプログラムの構造的対応に基づいた報酬を使用して、LLMの設定と一致するポリシーを改良します。
実験結果は、この方法がベースラインを一貫して大幅に上回ることを示しており、実験間依存関係を明示的にモデル化することの重要性を強調しています。
これらの調査結果は、複数の証拠または例を必要とするタスクの構成検索の可能性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous tasks, yet they often rely on external context to handle complex tasks. While retrieval-augmented frameworks traditionally focus on selecting top-ranked documents in a single pass, many real-world scenarios demand compositional retrieval, where multiple sources must be combined in a coordinated manner. In this work, we propose a tri-encoder sequential retriever that models this process as a Markov Decision Process (MDP), decomposing the probability of retrieving a set of elements into a sequence of conditional probabilities and allowing each retrieval step to be conditioned on previously selected examples. We train the retriever in two stages: first, we efficiently construct supervised sequential data for initial policy training; we then refine the policy to align with the LLM’s preferences using a reward grounded in the structural correspondence of generated programs. Experimental results show that our method consistently and significantly outperforms baselines, underscoring the importance of explicitly modeling inter-example dependencies. These findings highlight the potential of compositional retrieval for tasks requiring multiple pieces of evidence or examples.

arxiv情報

著者 Quanyu Long,Jianda Chen,Zhengyuan Liu,Nancy F. Chen,Wenya Wang,Sinno Jialin Pan
発行日 2025-04-15 17:35:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts はコメントを受け付けていません

Graph Linearization Methods for Reasoning on Graphs with Large Language Models

要約

大規模な言語モデルは、画像やオーディオなどのテキストを超えた複数のモダリティを処理するために進化しました。
したがって、重要な問題は、グラフをトークンの線形シーケンスに変換する方法です。これは、「グラフ線形化」と呼ばれるプロセスであり、LLMがグラフを自然に処理できるようにします。
グラフは、数兆個のテキストトークンで訓練された現代のLLMSを容易にし、グラフをよりよく理解するために、ローカル依存関係やグローバルアライメントなど、自然言語テキストの特定の特性を反映するために有意義に線形化する必要があると考えています。
これを達成するために、グラフの中心性と縮退に基づいていくつかのグラフ線形化方法を開発しました。
これらのメソッドは、ノードリレクション技術を使用してさらに強化されています。
実験結果は、ランダムな線形化ベースラインと比較して、方法の有効性を示しています。
私たちの研究では、LLMに適した新しいグラフ表現を導入し、グラフ機械学習の潜在的な統合と、統一されたトランスモデルを使用したマルチモーダル処理の傾向に貢献しています。

要約(オリジナル)

Large language models have evolved to process multiple modalities beyond text, such as images and audio, which motivates us to explore how to effectively leverage them for graph reasoning tasks. The key question, therefore, is how to transform graphs into linear sequences of tokens, a process we term ‘graph linearization’, so that LLMs can handle graphs naturally. We consider that graphs should be linearized meaningfully to reflect certain properties of natural language text, such as local dependency and global alignment, in order to ease contemporary LLMs, trained on trillions of textual tokens, better understand graphs. To achieve this, we developed several graph linearization methods based on graph centrality and degeneracy. These methods are further enhanced using node relabeling techniques. The experimental results demonstrate the effectiveness of our methods compared to the random linearization baseline. Our work introduces novel graph representations suitable for LLMs, contributing to the potential integration of graph machine learning with the trend of multimodal processing using a unified transformer model.

arxiv情報

著者 Christos Xypolopoulos,Guokan Shang,Xiao Fei,Giannis Nikolentzos,Hadi Abdine,Iakovos Evdaimon,Michail Chatzianastasis,Giorgos Stamou,Michalis Vazirgiannis
発行日 2025-04-15 17:38:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Graph Linearization Methods for Reasoning on Graphs with Large Language Models はコメントを受け付けていません