Sentence Embeddings as an intermediate target in end-to-end summarisation

要約

文書の要約の問題に対する現在のニューラルネットワークベースの方法は、大きな入力を含むデータセットに適用した場合の闘争闘争です。
この論文では、宿泊施設のユーザーレビューのエンドツーエンドの要約を扱う際に、コンテンツ選択の課題に対する新しいアプローチを提案します。
抽出アプローチと外部的に事前に訓練された文レベルの埋め込みを抽象的な要約モデルに加えて組み合わせることにより、大規模な入力データセットを要約するタスクに適用される場合、既存の方法を上回ることができることを示します。
また、概要の文レベルの埋め込みを予測すると、文の選択の確率分布を一般的に予測する場合と比較するのと比較して、ゆるく整列したソースのエンドツーエンドシステムの品質が向上することを証明します。

要約(オリジナル)

Current neural network-based methods to the problem of document summarisation struggle when applied to datasets containing large inputs. In this paper we propose a new approach to the challenge of content-selection when dealing with end-to-end summarisation of user reviews of accommodations. We show that by combining an extractive approach with externally pre-trained sentence level embeddings in an addition to an abstractive summarisation model we can outperform existing methods when this is applied to the task of summarising a large input dataset. We also prove that predicting sentence level embedding of a summary increases the quality of an end-to-end system for loosely aligned source to target corpora, than compared to commonly predicting probability distributions of sentence selection.

arxiv情報

著者 Maciej Zembrzuski,Saad Mahamood
発行日 2025-05-06 12:34:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Sentence Embeddings as an intermediate target in end-to-end summarisation はコメントを受け付けていません

Pushing the boundary on Natural Language Inference

要約

自然言語推論(NLI)は、事実チェック、質問の回答、情報の検索におけるアプリケーションを使用した自然言語理解の中心的なタスクです。
その重要性にもかかわらず、現在のNLIシステムは、注釈のアーティファクトとバイアスを含むことが多いデータセットを使用した監視された学習に大きく依存しており、一般化と現実世界の適用性を制限しています。
この作業では、NLIでのチェーン思考(COT)学習のためのグループ相対ポリシー最適化(GRPO)を使用した強化学習ベースのアプローチを適用し、ラベル付きの理論的根拠の必要性を排除し、ANLIなどのより挑戦的なデータセットでこのタイプのトレーニングを可能にします。
パラメーター効率の高い技術(LORAおよびQlora)を使用して、7B、14B、および32B言語モデルを微調整し、標準および敵対的なNLIベンチマーク全体で強力なパフォーマンスを示します。
私たちの32B AWQ定量化されたモデルは、11の敵対的なセットのうち7つの$ \ unicode {x2013} $または22GBのメモリフットプリント内の複製$ \ unicode {x2013} $を考慮して、すべての敵対的なセットのうち7つで最先端の結果を上回ります。
この作業は、推論の品質を犠牲にすることなく、堅牢なNLIシステムを構築するためのスケーラブルで実用的なフレームワークを提供します。

要約(オリジナル)

Natural Language Inference (NLI) is a central task in natural language understanding with applications in fact-checking, question answering, and information retrieval. Despite its importance, current NLI systems heavily rely on supervised learning with datasets that often contain annotation artifacts and biases, limiting generalization and real-world applicability. In this work, we apply a reinforcement learning-based approach using Group Relative Policy Optimization (GRPO) for Chain-of-Thought (CoT) learning in NLI, eliminating the need for labeled rationales and enabling this type of training on more challenging datasets such as ANLI. We fine-tune 7B, 14B, and 32B language models using parameter-efficient techniques (LoRA and QLoRA), demonstrating strong performance across standard and adversarial NLI benchmarks. Our 32B AWQ-quantized model surpasses state-of-the-art results on 7 out of 11 adversarial sets$\unicode{x2013}$or on all of them considering our replication$\unicode{x2013}$within a 22GB memory footprint, showing that robust reasoning can be retained under aggressive quantization. This work provides a scalable and practical framework for building robust NLI systems without sacrificing inference quality.

arxiv情報

著者 Pablo Miralles-González,Javier Huertas-Tato,Alejandro Martín,David Camacho
発行日 2025-05-06 13:04:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Pushing the boundary on Natural Language Inference はコメントを受け付けていません

BadLingual: A Novel Lingual-Backdoor Attack against Large Language Models

要約

この論文では、大規模な言語モデル(LLMS)に対する新しい形式のバックドア攻撃を紹介します:舌側バックドア攻撃。
舌側に跳ね返る攻撃の重要な斬新さは、言語自体が感染したLLMをハイジャックして炎症性発話を生成するトリガーとして機能することです。
それらは、悪意のあるエンティティによる人種差別を悪化させる特定の言語圏グループの正確なターゲティングを可能にします。
最初に、トリガー言語への翻訳を通じて特定の下流タスクの一連のトレーニングデータを中毒することによって実行されるベースラインの舌側バックドア攻撃を実装します。
ただし、このベースライン攻撃は、タスクの一般化が不十分であり、実際の設定では実用的ではありません。
この課題に対処するために、私たちは、これらのタスクの特定の質問に関係なく、チャットLLMS内の下流のタスクをトリガーできる、新しいタスクに依存しない舌側バックドアであるBadlingualを設計します。
私たちは、PPLに制約された貪欲な座標勾配ベースの検索(PGCG)ベースの敵対的なトレーニングを使用して、舌側バックドアの決定境界を拡大して新しいアプローチを設計し、それによってさまざまなタスクにわたる舌バックドアの一般化能力を高めます。
提案された攻撃の有効性を検証するために、広範な実験を実行します。
具体的には、ベースライン攻撃は、指定されたタスクで90%以上のASRを達成します。
ただし、そのASRは、タスクと存在するシナリオの6つのタスクでわずか37.61%に達します。
対照的に、Badlingualはベースラインよりも最大37.35%の改善をもたらします。
私たちの研究は、多言語機能を備えたLLMSの脆弱性の新しい視点に光を当て、LLMSの堅牢性を高めるために潜在的な防御に関する将来の研究を促進することが期待されています

要約(オリジナル)

In this paper, we present a new form of backdoor attack against Large Language Models (LLMs): lingual-backdoor attacks. The key novelty of lingual-backdoor attacks is that the language itself serves as the trigger to hijack the infected LLMs to generate inflammatory speech. They enable the precise targeting of a specific language-speaking group, exacerbating racial discrimination by malicious entities. We first implement a baseline lingual-backdoor attack, which is carried out by poisoning a set of training data for specific downstream tasks through translation into the trigger language. However, this baseline attack suffers from poor task generalization and is impractical in real-world settings. To address this challenge, we design BadLingual, a novel task-agnostic lingual-backdoor, capable of triggering any downstream tasks within the chat LLMs, regardless of the specific questions of these tasks. We design a new approach using PPL-constrained Greedy Coordinate Gradient-based Search (PGCG) based adversarial training to expand the decision boundary of lingual-backdoor, thereby enhancing the generalization ability of lingual-backdoor across various tasks. We perform extensive experiments to validate the effectiveness of our proposed attacks. Specifically, the baseline attack achieves an ASR of over 90% on the specified tasks. However, its ASR reaches only 37.61% across six tasks in the task-agnostic scenario. In contrast, BadLingual brings up to 37.35% improvement over the baseline. Our study sheds light on a new perspective of vulnerabilities in LLMs with multilingual capabilities and is expected to promote future research on the potential defenses to enhance the LLMs’ robustness

arxiv情報

著者 Zihan Wang,Hongwei Li,Rui Zhang,Wenbo Jiang,Kangjie Chen,Tianwei Zhang,Qingchuan Zhao,Guowen Xu
発行日 2025-05-06 13:07:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | BadLingual: A Novel Lingual-Backdoor Attack against Large Language Models はコメントを受け付けていません

MoM: Linear Sequence Modeling with Mixture-of-Memories

要約

線形注意、状態空間モデリング、線形RNNなどの線形シーケンスモデリング方法は、トレーニングと推論の複雑さを減らすことにより、大幅な効率改善を提供します。
ただし、これらの方法は通常、入力シーケンス全体を単一の固定サイズメモリ状態に圧縮し、リコール集約型のダウンストリームタスクの最適ではないパフォーマンスにつながります。
神経科学、特に「記憶干渉」を緩和しながら堅牢な長期記憶を維持する脳の能力からインスピレーションを得て、混合物(MOM)と呼ばれる新しいアーキテクチャを紹介します。
Momは複数の独立したメモリ状態を利用しており、ルーターネットワークが特定のメモリ状態に入力トークンを向けています。
このアプローチは、メモリ干渉を最小限に抑えながら、全体的なメモリ容量を大幅に向上させます。
その結果、ママはリコール集約型のタスクで非常にうまく機能し、既存の線形シーケンスモデリング手法を上回ります。
複数のメモリ状態を組み込んでいるにもかかわらず、各メモリ状態の計算は複雑さが直線的なままであるため、ママはトレーニング中に線形複雑さの利点を保持することができますが、推論中は一定の複雑さがあります。
私たちの実験結果は、MOMが下流の言語タスク、特にリコール集約型タスクの現在の線形シーケンスモデルを大幅に上回ることを示しており、トランスモデルに匹敵するパフォーマンスを達成することさえあります。
このコードはhttps://github.com/opensparsellms/momでリリースされ、https://github.com/opensparsellms/linear-moeの一部としてリリースされます。

要約(オリジナル)

Linear sequence modeling methods, such as linear attention, state space modeling, and linear RNNs, offer significant efficiency improvements by reducing the complexity of training and inference. However, these methods typically compress the entire input sequence into a single fixed-size memory state, which leads to suboptimal performance on recall-intensive downstream tasks. Drawing inspiration from neuroscience, particularly the brain’s ability to maintain robust long-term memory while mitigating ‘memory interference’, we introduce a novel architecture called Mixture-of-Memories (MoM). MoM utilizes multiple independent memory states, with a router network directing input tokens to specific memory states. This approach greatly enhances the overall memory capacity while minimizing memory interference. As a result, MoM performs exceptionally well on recall-intensive tasks, surpassing existing linear sequence modeling techniques. Despite incorporating multiple memory states, the computation of each memory state remains linear in complexity, allowing MoM to retain the linear-complexity advantage during training, while constant-complexity during inference. Our experimental results show that MoM significantly outperforms current linear sequence models on downstream language tasks, particularly recall-intensive tasks, and even achieves performance comparable to Transformer models. The code is released at https://github.com/OpenSparseLLMs/MoM and is also released as a part of https://github.com/OpenSparseLLMs/Linear-MoE.

arxiv情報

著者 Jusen Du,Weigao Sun,Disen Lan,Jiaxi Hu,Yu Cheng
発行日 2025-05-06 13:11:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | MoM: Linear Sequence Modeling with Mixture-of-Memories はコメントを受け付けていません

Faster MoE LLM Inference for Extremely Large Models

要約

専門家(MOE)の大規模な言語モデル(LLM)のまばらな混合物は、徐々に超大型スケールモデルの主流のアプローチになりつつあります。
MOEモデルの既存の最適化の取り組みは、主に粗粒のMOEアーキテクチャに焦点を当てています。
Deepseekモデルの出現により、きめ細かいMOEモデルは人気を集めていますが、それらに関する研究は依然として限られています。
したがって、さまざまなサービス負荷の下で効率の動的について説明したいと思います。
さらに、微細なモデルにより、展開者は、活性化されたカウントと総カウントの両方で、ルーティングされた専門家の数を減らすことができ、この削減がMOEの効率とパフォーマンスのトレードオフにどのように影響するかという疑問を提起することができます。
私たちの調査結果は、MOEモデルを展開することはより大きな課題を提示する一方で、重要な最適化の機会も提供することを示しています。
活性化された専門家の数を減らすと、特定のシナリオの効率が大幅に改善され、パフォーマンスの劣化はわずかです。
専門家の総数を減らすと、効率が限られているが、重度の性能劣化をもたらします。
私たちの方法は、パフォーマンスの劣化なしに、スループットを少なくとも10 \%増加させることができます。
全体として、MOEの推論の最適化は、探査と改善の可能性のある領域のままであると結論付けています。

要約(オリジナル)

Sparse Mixture of Experts (MoE) large language models (LLMs) are gradually becoming the mainstream approach for ultra-large-scale models. Existing optimization efforts for MoE models have focused primarily on coarse-grained MoE architectures. With the emergence of DeepSeek Models, fine-grained MoE models are gaining popularity, yet research on them remains limited. Therefore, we want to discuss the efficiency dynamic under different service loads. Additionally, fine-grained models allow deployers to reduce the number of routed experts, both activated counts and total counts, raising the question of how this reduction affects the trade-off between MoE efficiency and performance. Our findings indicate that while deploying MoE models presents greater challenges, it also offers significant optimization opportunities. Reducing the number of activated experts can lead to substantial efficiency improvements in certain scenarios, with only minor performance degradation. Reducing the total number of experts provides limited efficiency gains but results in severe performance degradation. Our method can increase throughput by at least 10\% without any performance degradation. Overall, we conclude that MoE inference optimization remains an area with substantial potential for exploration and improvement.

arxiv情報

著者 Haoqi Yang,Luohe Shi,Qiwei Li,Zuchao Li,Ping Wang,Bo Du,Mengjia Shen,Hai Zhao
発行日 2025-05-06 13:41:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Faster MoE LLM Inference for Extremely Large Models はコメントを受け付けていません

Say It Another Way: A Framework for User-Grounded Paraphrasing

要約

プロンプトの表現方法の小さな変化は、大規模な言語モデル(LLM)の動作に意味のある違いにつながり、評価の安定性と信頼性に関する懸念を引き起こす可能性があります。
以前の作業では簡単なフォーマットの変更が調査されていますが、実世界の使用で見られる種類の自然なバリエーションをキャプチャすることはめったにありません。
自然な迅速な変動を体系的に生成するための最小限の言語変換の分類に基づいて、制御された言い換えフレームワークを提案します。
BBQデータセットを使用して、人間の注釈と自動化されたチェックの両方でメソッドを検証し、それを使用して、ステレオタイプ評価タスクの言い換えプロンプトにLLMがどのように応答するかを調べます。
私たちの分析は、微妙な迅速な変更でさえモデルの動作に大幅な変化につながる可能性があることを示しています。
これらの結果は、堅牢で言い換えられる評価プロトコルの必要性を強調しています。

要約(オリジナル)

Small changes in how a prompt is worded can lead to meaningful differences in the behavior of large language models (LLMs), raising concerns about the stability and reliability of their evaluations. While prior work has explored simple formatting changes, these rarely capture the kinds of natural variation seen in real-world language use. We propose a controlled paraphrasing framework based on a taxonomy of minimal linguistic transformations to systematically generate natural prompt variations. Using the BBQ dataset, we validate our method with both human annotations and automated checks, then use it to study how LLMs respond to paraphrased prompts in stereotype evaluation tasks. Our analysis shows that even subtle prompt modifications can lead to substantial changes in model behavior. These results highlight the need for robust, paraphrase-aware evaluation protocols.

arxiv情報

著者 Cléa Chataigner,Rebecca Ma,Prakhar Ganesh,Afaf Taïk,Elliot Creager,Golnoosh Farnadi
発行日 2025-05-06 14:17:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Say It Another Way: A Framework for User-Grounded Paraphrasing はコメントを受け付けていません

CASE — Condition-Aware Sentence Embeddings for Conditional Semantic Textual Similarity Measurement

要約

文によって伝えられる意味は、しばしばそれが現れるコンテキストに依存します。
文の埋め込み方法の進行にもかかわらず、そのコンテキストに条件付けられた文の埋め込みを最適に変更する方法は不明のままです。
この問題に対処するために、特定の条件下で文の埋め込みを作成するための効率的かつ正確な方法である条件認識文の埋め込み(ケース)を提案します。
まず、ケースは、大規模な言語モデル(LLM)を使用して条件の埋め込みを作成します。この場合、文はプーリング中に条件のトークンに対して計算された注意スコアに影響します。
次に、LLMベースのテキスト埋め込みの次元を減らすために、監視された非線形投影が学習されます。
ケースは、既存の標準ベンチマークデータセットで、以前に提案された条件付きセマンティックテキスト類似性(C-STS)メソッドを大幅に上回ることを示します。
埋め込み条件を減算すると、LLMベースのテキスト埋め込みのC-STSパフォーマンスが一貫して改善されることがわかります。
さらに、LLMベースの埋め込みの次元を削減するだけでなく、パフォーマンスを大幅に向上させる監視された次元削減方法を提案します。

要約(オリジナル)

The meaning conveyed by a sentence often depends on the context in which it appears. Despite the progress of sentence embedding methods, it remains unclear how to best modify a sentence embedding conditioned on its context. To address this problem, we propose Condition-Aware Sentence Embeddings (CASE), an efficient and accurate method to create an embedding for a sentence under a given condition. First, CASE creates an embedding for the condition using a Large Language Model (LLM), where the sentence influences the attention scores computed for the tokens in the condition during pooling. Next, a supervised nonlinear projection is learned to reduce the dimensionality of the LLM-based text embeddings. We show that CASE significantly outperforms previously proposed Conditional Semantic Textual Similarity (C-STS) methods on an existing standard benchmark dataset. We find that subtracting the condition embedding consistently improves the C-STS performance of LLM-based text embeddings. Moreover, we propose a supervised dimensionality reduction method that not only reduces the dimensionality of LLM-based embeddings but also significantly improves their performance.

arxiv情報

著者 Gaifan Zhang,Yi Zhou,Danushka Bollegala
発行日 2025-05-06 14:34:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CASE — Condition-Aware Sentence Embeddings for Conditional Semantic Textual Similarity Measurement はコメントを受け付けていません

SAPIENT: Mastering Multi-turn Conversational Recommendation with Strategic Planning and Monte Carlo Tree Search

要約

会話型推奨システム(CRS)は、ユーザーをインタラクティブな対話に積極的に関与させて、ユーザーの好みを引き出し、パーソナライズされた推奨事項を提供します。
既存の方法は、貪欲なアクション選択またはサンプリング戦略を備えた強化学習(RL)ベースのエージェントを訓練し、最適ではない会話計画に苦しむ可能性があります。
これに対処するために、新しいMonte Carlo Tree Search(MCTS)ベースのCRSフレームワークSapientを提示します。
Sapientは、会話エージェント(S-Agent)と会話プランナー(S-Planner)で構成されています。
S-Plannerは、S-Agentが提案して会話計画を見つけるために提案された初期アクションに基づいて、MCTと会話型検索ツリーを構築します。
S-Plannerからの最高の会話計画は、S-Agentのトレーニングを導くために使用され、S-Agentが会話計画の能力を繰り返し改善できるセルフトレーニングループを作成します。
さらに、トレーニングの効率とパフォーマンスのトレードオフのための効率的なバリアントSAPIENT-Eを提案します。
4つのベンチマークデータセットでの広範な実験は、当社のアプローチの有効性を検証し、サピエントが最先端のベースラインを上回ることを示しています。

要約(オリジナル)

Conversational Recommender Systems (CRS) proactively engage users in interactive dialogues to elicit user preferences and provide personalized recommendations. Existing methods train Reinforcement Learning (RL)-based agent with greedy action selection or sampling strategy, and may suffer from suboptimal conversational planning. To address this, we present a novel Monte Carlo Tree Search (MCTS)-based CRS framework SAPIENT. SAPIENT consists of a conversational agent (S-agent) and a conversational planner (S-planner). S-planner builds a conversational search tree with MCTS based on the initial actions proposed by S-agent to find conversation plans. The best conversation plans from S-planner are used to guide the training of S-agent, creating a self-training loop where S-agent can iteratively improve its capability for conversational planning. Furthermore, we propose an efficient variant SAPIENT-e for trade-off between training efficiency and performance. Extensive experiments on four benchmark datasets validate the effectiveness of our approach, showing that SAPIENT outperforms the state-of-the-art baselines.

arxiv情報

著者 Hanwen Du,Bo Peng,Xia Ning
発行日 2025-05-06 15:08:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SAPIENT: Mastering Multi-turn Conversational Recommendation with Strategic Planning and Monte Carlo Tree Search はコメントを受け付けていません

BIG-Bench Extra Hard

要約

大規模な言語モデル(LLM)は、日常のアプリケーションでますます展開されており、堅牢な一般的な推論能力と多様な推論スキルセットを要求しています。
ただし、現在のLLM推論ベンチマークは、主に数学的およびコーディング能力に焦点を当てており、より広範な推論の習慣を評価する際にギャップを残しています。
特定の例外の1つは、LLMの一般的な推論能力を評価するための重要なベンチマークとして機能してきた大手ベンチデータセットです。これは、統一されたフレームワーク内のさまざまなスキルにわたる一般的な推論の包括的な評価を可能にする多様な挑戦的なタスクのおかげで。
ただし、LLMSの最近の進歩により、Big-Benchの飽和が生じ、その難しいバージョンのBig-Bench Hard(BBH)が生じています。
最先端のモデルは、BBHの多くのタスクでほぼ完璧なスコアを達成し、そのユーティリティを減少させます。
この制限に対処するために、LLM推論評価の境界を押し広げるために設計された新しいベンチマークであるBig-Bench Extra Hard(BBEH)を紹介します。
BBEHは、BBHの各タスクを、同様の推論能力を調査するが、困難を大幅に増加させる新しいタスクに置き換えます。
BBEHのさまざまなモデルを評価し、最高の汎用モデルでは9.8 \%の(高調波)精度を観察し、最良の推論専門モデルでは44.8 \%を観察します。
https://github.com/google-deepmind/bbehでBBEHを公開します。

要約(オリジナル)

Large language models (LLMs) are increasingly deployed in everyday applications, demanding robust general reasoning capabilities and diverse reasoning skillset. However, current LLM reasoning benchmarks predominantly focus on mathematical and coding abilities, leaving a gap in evaluating broader reasoning proficiencies. One particular exception is the BIG-Bench dataset, which has served as a crucial benchmark for evaluating the general reasoning capabilities of LLMs, thanks to its diverse set of challenging tasks that allowed for a comprehensive assessment of general reasoning across various skills within a unified framework. However, recent advances in LLMs have led to saturation on BIG-Bench, and its harder version BIG-Bench Hard (BBH). State-of-the-art models achieve near-perfect scores on many tasks in BBH, thus diminishing its utility. To address this limitation, we introduce BIG-Bench Extra Hard (BBEH), a new benchmark designed to push the boundaries of LLM reasoning evaluation. BBEH replaces each task in BBH with a novel task that probes a similar reasoning capability but exhibits significantly increased difficulty. We evaluate various models on BBEH and observe a (harmonic) average accuracy of 9.8\% for the best general-purpose model and 44.8\% for the best reasoning-specialized model, indicating substantial room for improvement and highlighting the ongoing challenge of achieving robust general reasoning in LLMs. We release BBEH publicly at: https://github.com/google-deepmind/bbeh.

arxiv情報

著者 Mehran Kazemi,Bahare Fatemi,Hritik Bansal,John Palowitch,Chrysovalantis Anastasiou,Sanket Vaibhav Mehta,Lalit K. Jain,Virginia Aglietti,Disha Jindal,Peter Chen,Nishanth Dikkala,Gladys Tyen,Xin Liu,Uri Shalit,Silvia Chiappa,Kate Olszewska,Yi Tay,Vinh Q. Tran,Quoc V. Le,Orhan Firat
発行日 2025-05-06 15:11:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BIG-Bench Extra Hard はコメントを受け付けていません

Rational Retrieval Acts: Leveraging Pragmatic Reasoning to Improve Sparse Retrieval

要約

現在のスパースニューラル情報検索(IR)メソッド、およびBM25などのより従来のモデルは、単一のドキュメントを表す際にドキュメントコレクションと異なる用語の重みの複雑な相互作用を考慮していません。
この論文では、セット内のオブジェクトを識別するときに伝達される機能の数を最小限に抑えるために使用される言語学的フレームワークである合理的な音声行動(RSA)が、特に多数の潜在的な機能(ここでトークン)に適合させることができる方法を示します。
RSAは、データセット内の他のドキュメントの影響を考慮することにより、トークンドキュメントの相互作用を動的に調節します。
実験では、RSAを組み込むことで複数のスパース検索モデルが一貫して改善され、Beirベンチマークからドメイン外データセットの最先端のパフォーマンスが達成されることが示されています。
https://github.com/arthur-75/rational-retrieval-acts

要約(オリジナル)

Current sparse neural information retrieval (IR) methods, and to a lesser extent more traditional models such as BM25, do not take into account the document collection and the complex interplay between different term weights when representing a single document. In this paper, we show how the Rational Speech Acts (RSA), a linguistics framework used to minimize the number of features to be communicated when identifying an object in a set, can be adapted to the IR case — and in particular to the high number of potential features (here, tokens). RSA dynamically modulates token-document interactions by considering the influence of other documents in the dataset, better contrasting document representations. Experiments show that incorporating RSA consistently improves multiple sparse retrieval models and achieves state-of-the-art performance on out-of-domain datasets from the BEIR benchmark. https://github.com/arthur-75/Rational-Retrieval-Acts

arxiv情報

著者 Arthur Satouf,Gabriel Ben Zenou,Benjamin Piwowarski,Habiboulaye Amadou Boubacar,Pablo Piantanida
発行日 2025-05-06 16:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68P20, 68T50, cs.CL, cs.IR, H.3 | Rational Retrieval Acts: Leveraging Pragmatic Reasoning to Improve Sparse Retrieval はコメントを受け付けていません