WASP: A Weight-Space Approach to Detecting Learned Spuriousness

要約

機械学習モデルをトレーニングすることは非常に重要です。これにより、特定のタスクで各クラスを定義するものを明確に理解しています。
モデルのクラスの理解に影響を与える可能性のあるデータセットによって特徴付けられる偽の相関を特定することに専念する作品の合計がありますが、現在のすべてのアプローチはデータまたはエラー分析のみに依存しています。
つまり、検証またはトレーニングセットに掲載されているカウンターエクサムプルではまだ指摘されていないモデルで学んだ偽の相関を指摘することはできません。
この制限を超越する方法を提案し、モデルの予測の分析からモデルの重みの分析に焦点を切り替えます。これは、より洞察力に富んでいることが証明される決定の作成の背後にあるメカニズムです。
Spureasuretivesionse(WASP)を検出するための提案されている重量空間アプローチは、特定のデータセットで微調整されながら、さまざまな(偽の)相関をキャプチャするためにドリフトするため、基礎モデルの重量を分析することに依存しています。
以前の作品とは異なる方法で、私たちの方法(i)は、トレーニングや検証カウンターエクサムプルによって公開されていない場合でも、データセットによって特徴付けられる偽の相関を公開できることを実証します。
)Imagenet-1K分類子によって学んだ以前に未開発の偽の相関関係を明らかにすることができます。

要約(オリジナル)

It is of crucial importance to train machine learning models such that they clearly understand what defines each class in a given task. Though there is a sum of works dedicated to identifying the spurious correlations featured by a dataset that may impact the model’s understanding of the classes, all current approaches rely solely on data or error analysis. That is, they cannot point out spurious correlations learned by the model that are not already pointed out by the counterexamples featured in the validation or training sets. We propose a method that transcends this limitation, switching the focus from analyzing a model’s predictions to analyzing the model’s weights, the mechanism behind the making of the decisions, which proves to be more insightful. Our proposed Weight-space Approach to detecting Spuriousness (WASP) relies on analyzing the weights of foundation models as they drift towards capturing various (spurious) correlations while being fine-tuned on a given dataset. We demonstrate that different from previous works, our method (i) can expose spurious correlations featured by a dataset even when they are not exposed by training or validation counterexamples, (ii) it works for multiple modalities such as image and text, and (iii) it can uncover previously untapped spurious correlations learned by ImageNet-1k classifiers.

arxiv情報

著者 Cristian Daniel Păduraru,Antonio Bărbălau,Radu Filipescu,Andrei Liviu Nicolicioiu,Elena Burceanu
発行日 2025-02-13 17:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | WASP: A Weight-Space Approach to Detecting Learned Spuriousness はコメントを受け付けていません

VTutor: An Open-Source SDK for Generative AI-Powered Animated Pedagogical Agents with Multi-Media Output

要約

大規模な言語モデル(LLMS)の急速な進化は、ヒューマンコンピューターの相互作用(HCI)を変換しましたが、LLMとの相互作用は現在主にテキストベースの相互作用に焦点を当てていますが、他のマルチモデルアプローチは未調査のままです。
このペーパーでは、生成AIと高度なアニメーションテクノロジーを組み合わせたオープンソースソフトウェア開発キット(SDK)であるVtutorを紹介し、Human-AIマルチメディアの相互作用に魅力的で適応性のある現実的なAPAを作成します。
Vtutorは、リアルタイムのパーソナライズされたフィードバック、自然な音声アライメントのための高度なリップ同期、およびシームレスなWeb統合のためのWebGLレンダリングのためにLLMを活用します。
さまざまな2Dおよび3DキャラクターモデルをサポートするVtutorは、研究者と開発者が感情的に共鳴する、文脈的に適応性のある学習エージェントを設計できるようにします。
このツールキットは、教育における信頼できるAIの原則を促進しながら、学習者のエンゲージメント、フィードバック受容性、および人間との相互作用を強化します。
Vtutorは、次世代APAの新しい基準を設定し、意味のある没入感のある人間との相互作用体験を促進するためのアクセス可能でスケーラブルなソリューションを提供します。
Vtutorプロジェクトはオープンソースであり、コミュニティ主導の貢献とショーケースを歓迎します。

要約(オリジナル)

The rapid evolution of large language models (LLMs) has transformed human-computer interaction (HCI), but the interaction with LLMs is currently mainly focused on text-based interactions, while other multi-model approaches remain under-explored. This paper introduces VTutor, an open-source Software Development Kit (SDK) that combines generative AI with advanced animation technologies to create engaging, adaptable, and realistic APAs for human-AI multi-media interactions. VTutor leverages LLMs for real-time personalized feedback, advanced lip synchronization for natural speech alignment, and WebGL rendering for seamless web integration. Supporting various 2D and 3D character models, VTutor enables researchers and developers to design emotionally resonant, contextually adaptive learning agents. This toolkit enhances learner engagement, feedback receptivity, and human-AI interaction while promoting trustworthy AI principles in education. VTutor sets a new standard for next-generation APAs, offering an accessible, scalable solution for fostering meaningful and immersive human-AI interaction experiences. The VTutor project is open-sourced and welcomes community-driven contributions and showcases.

arxiv情報

著者 Eason Chen,Chenyu Lin,Xinyi Tang,Aprille Xi,Canwen Wang,Jionghao Lin,Kenneth R Koedinger
発行日 2025-02-13 17:57:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.SE | VTutor: An Open-Source SDK for Generative AI-Powered Animated Pedagogical Agents with Multi-Media Output はコメントを受け付けていません

Hello Again! LLM-powered Personalized Agent for Long-term Dialogue

要約

オープンドメインダイアログシステムでは、大規模な言語モデル(LLMS)の開発により顕著な進歩が見られました。
それにもかかわらず、ほとんどの既存のダイアログシステムは、主に短期間のセッションの相互作用に焦点を当てており、チャットボットとの長期的な交際とパーソナライズされた相互作用に対する現実世界の要求を無視しています。
この現実世界のニーズに対処するために重要なのは、イベントの概要とペルソナ管理です。これにより、適切な長期的な対話応答の推論が可能です。
LLMSの人間のような認知および推論能力の最近の進歩は、LLMベースのエージェントが自動化された認識、意思決定、および問題解決を大幅に強化できることを示唆しています。
この可能性に応じて、モデルと存在するフレームワークである長期ダイアログエージェント(LD-Agent)を紹介します。これには、イベント認識、ペルソナ抽出、および応答生成専用の3つの独立した調整可能なモジュールが組み込まれています。
イベントメモリモジュールでは、長期および短期のメモリバンクが歴史的および継続的なセッションに個別に焦点を当てるために採用されていますが、トピックベースの検索メカニズムが導入され、メモリ検索の精度が向上します。
さらに、ペルソナモジュールは、ユーザーとエージェントの両方に対して動的なペルソナモデリングを実施しています。
取得された記憶と抽出されたペルソナの統合は、その後発電機に供給され、適切な応答を誘導します。
LD-Agentの有効性、一般性、およびクロスドメイン機能は、さまざまな例示的なベンチマーク、モデル、およびタスクにわたって経験的に実証されています。
コードはhttps://github.com/leolee99/ld-agentでリリースされます。

要約(オリジナル)

Open-domain dialogue systems have seen remarkable advancements with the development of large language models (LLMs). Nonetheless, most existing dialogue systems predominantly focus on brief single-session interactions, neglecting the real-world demands for long-term companionship and personalized interactions with chatbots. Crucial to addressing this real-world need are event summary and persona management, which enable reasoning for appropriate long-term dialogue responses. Recent progress in the human-like cognitive and reasoning capabilities of LLMs suggests that LLM-based agents could significantly enhance automated perception, decision-making, and problem-solving. In response to this potential, we introduce a model-agnostic framework, the Long-term Dialogue Agent (LD-Agent), which incorporates three independently tunable modules dedicated to event perception, persona extraction, and response generation. For the event memory module, long and short-term memory banks are employed to separately focus on historical and ongoing sessions, while a topic-based retrieval mechanism is introduced to enhance the accuracy of memory retrieval. Furthermore, the persona module conducts dynamic persona modeling for both users and agents. The integration of retrieved memories and extracted personas is subsequently fed into the generator to induce appropriate responses. The effectiveness, generality, and cross-domain capabilities of LD-Agent are empirically demonstrated across various illustrative benchmarks, models, and tasks. The code is released at https://github.com/leolee99/LD-Agent.

arxiv情報

著者 Hao Li,Chenghao Yang,An Zhang,Yang Deng,Xiang Wang,Tat-Seng Chua
発行日 2025-02-13 18:02:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Hello Again! LLM-powered Personalized Agent for Long-term Dialogue はコメントを受け付けていません

TransMLA: Multi-Head Latent Attention Is All You Need

要約

最新の大規模な言語モデル(LLM)は、純粋に計算上の制約ではなく、現在のハードウェアで通信ボトルネックに遭遇することがよくあります。
マルチヘッド潜在的注意(MLA)は、キー値(kV)層で低ランクマトリックスを使用してこの課題に取り組んでおり、それにより、圧縮された潜在的なKV状態をキャッシュします。
このアプローチは、従来のマルチヘッドの注意と比較してKVキャッシュサイズを大幅に削減し、より速い推論につながります。
さらに、MLAはアッププロジェクションマトリックスを採用して表現力を高め、通信を削減するために追加の計算を取引します。
MLAはDeepSeek V2/V3/R1で効率と有効性を実証していますが、多くの主要なモデルプロバイダーは依然としてグループクエリの注意(GQA)に依存しており、MLAを採用する計画を発表していません。
この論文では、同じKVキャッシュオーバーヘッドを維持しながらGQAを常にMLAで表現できることを示しますが、コンバースは保持されません。
MLAのより広範な使用を促進するために、GQAベースの事前訓練モデル(Llama、Qwen、Mixtralなど)をMLAベースのモデルに変換するトレーニング後の方法であるTransMLAを紹介します。
変換後、モデルはKVキャッシュサイズを増やすことなく表現力を高めるために追加のトレーニングを受けることができます。
さらに、変換されたモデルの低遅延を維持するために、MLA固有の推論加速技術を開発し、DeepSeek R1のより効率的な蒸留を可能にする予定です。

要約(オリジナル)

Modern large language models (LLMs) often encounter communication bottlenecks on current hardware, rather than purely computational constraints. Multi-head Latent Attention (MLA) tackles this challenge by using low-rank matrices in the key-value (KV) layers, thereby allowing compressed latent KV states to be cached. This approach significantly reduces the KV cache size relative to traditional multi-head attention, leading to faster inference. Moreover, MLA employs an up-projection matrix to increase expressiveness, trading additional computation for reduced communication overhead. Although MLA has demonstrated efficiency and effectiveness in Deepseek V2/V3/R1, many major model providers still rely on Group Query Attention (GQA) and have not announced any plans to adopt MLA. In this paper, we show that GQA can always be represented by MLA while maintaining the same KV cache overhead, but the converse does not hold. To encourage broader use of MLA, we introduce TransMLA, a post-training method that converts widely used GQA-based pre-trained models (e.g., LLaMA, Qwen, Mixtral) into MLA-based models. After conversion, the model can undergo additional training to boost expressiveness without increasing the KV cache size. Furthermore, we plan to develop MLA-specific inference acceleration techniques to preserve low latency in transformed models, thus enabling more efficient distillation of Deepseek R1.

arxiv情報

著者 Fanxu Meng,Zengwei Yao,Muhan Zhang
発行日 2025-02-13 18:07:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | TransMLA: Multi-Head Latent Attention Is All You Need はコメントを受け付けていません

MDCrow: Automating Molecular Dynamics Workflows with Large Language Models

要約

分子動力学(MD)シミュレーションは、生体分子システムを理解するために不可欠ですが、自動化するのは困難なままです。
大規模な言語モデル(LLM)の最近の進歩は、LLMベースのエージェントを使用して複雑な科学タスクを自動化することに成功を示しています。
この論文では、MDワークフローを自動化できるエージェントLLMアシスタントであるMDCrowを紹介します。
MDCrowは、ファイルを処理および処理するために、40を超えるエキスパートが設計したツールを使用し、シミュレーションの設定、シミュレーションの分析、文献やデータベースから関連情報の取得を使用します。
さまざまな必要なサブタスクと難易度の25のタスクにわたるMDCrowのパフォーマンスを評価し、エージェントの堅牢性を難易度と迅速なスタイルの両方に評価します。
\ texttt {gpt-4o}は、分散が低い複雑なタスクを完了することができ、\ texttt {llama3-405b}、魅力的なオープンソースモデルが続きます。
プロンプトスタイルは最高のモデルのパフォーマンスに影響を与えませんが、小さなモデルに大きな影響を与えます。

要約(オリジナル)

Molecular dynamics (MD) simulations are essential for understanding biomolecular systems but remain challenging to automate. Recent advances in large language models (LLM) have demonstrated success in automating complex scientific tasks using LLM-based agents. In this paper, we introduce MDCrow, an agentic LLM assistant capable of automating MD workflows. MDCrow uses chain-of-thought over 40 expert-designed tools for handling and processing files, setting up simulations, analyzing the simulation outputs, and retrieving relevant information from literature and databases. We assess MDCrow’s performance across 25 tasks of varying required subtasks and difficulty, and we evaluate the agent’s robustness to both difficulty and prompt style. \texttt{gpt-4o} is able to complete complex tasks with low variance, followed closely by \texttt{llama3-405b}, a compelling open-source model. While prompt style does not influence the best models’ performance, it has significant effects on smaller models.

arxiv情報

著者 Quintina Campbell,Sam Cox,Jorge Medina,Brittany Watterson,Andrew D. White
発行日 2025-02-13 18:19:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, physics.chem-ph | MDCrow: Automating Molecular Dynamics Workflows with Large Language Models はコメントを受け付けていません

MorphNLI: A Stepwise Approach to Natural Language Inference Using Text Morphing

要約

自然言語推論(NLI)に対するモジュール式のステップバイステップアプローチであるMorphnliを紹介します。
Premise-hypothesisのペアを{entainment、矛盾、ニュートラル}に分類する場合、言語モデルを使用して必要な編集を生成して、前提を仮説に漸進的に変換(つまり、モーフ)します。
次に、既製のNLIモデルを使用して、これらの原子変化との誘惑がどのように進行するかを追跡し、これらの中間ラベルを最終出力に集約します。
特に現実的なクロスドメイン設定で提案された方法の利点を実証します。この方法では、最大12.6%(相対)の改善がある強力なベースラインよりも常に優れています。
さらに、Atomic Editsを使用してNLIラベル全体を理解できるため、提案されたアプローチが説明可能です。

要約(オリジナル)

We introduce MorphNLI, a modular step-by-step approach to natural language inference (NLI). When classifying the premise-hypothesis pairs into {entailment, contradiction, neutral}, we use a language model to generate the necessary edits to incrementally transform (i.e., morph) the premise into the hypothesis. Then, using an off-the-shelf NLI model we track how the entailment progresses with these atomic changes, aggregating these intermediate labels into a final output. We demonstrate the advantages of our proposed method particularly in realistic cross-domain settings, where our method always outperforms strong baselines with improvements up to 12.6% (relative). Further, our proposed approach is explainable as the atomic edits can be used to understand the overall NLI label.

arxiv情報

著者 Vlad Andrei Negru,Robert Vacareanu,Camelia Lemnaru,Mihai Surdeanu,Rodica Potolea
発行日 2025-02-13 18:22:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MorphNLI: A Stepwise Approach to Natural Language Inference Using Text Morphing はコメントを受け付けていません

OGBench: Benchmarking Offline Goal-Conditioned RL

要約

オフラインの目標条件補強学習(GCRL)は、報酬なしで無効なデータから多様な行動と表現を獲得するためのシンプルで監視されていない、ドメインに依存しない方法を提供するため、強化学習(RL)の大きな問題です。
この設定の重要性にもかかわらず、オフラインGCRLアルゴリズムの機能を体系的に評価できる標準ベンチマークがありません。
この作業では、オフラインの目標条件付きRLでのアルゴリズム研究のための新しい高品質のベンチマークであるOgbenchを提案します。
OGBenchは、8種類の環境、85のデータセット、および6つの代表的なオフラインGCRLアルゴリズムの参照実装で構成されています。
これらの挑戦的で現実的な環境とデータセットを設計し、ステッチ、長期の推論、高次元の入力と確率性を処理する能力など、さまざまな機能のさまざまな機能を直接調査しています。
代表的なアルゴリズムは以前のベンチマークで同様にランク付けされる可能性がありますが、実験はこれらの異なる機能の厳しい長所と短所を明らかにし、新しいアルゴリズムを構築するための強力な基盤を提供します。
プロジェクトページ:https://seohong.me/projects/ogbench

要約(オリジナル)

Offline goal-conditioned reinforcement learning (GCRL) is a major problem in reinforcement learning (RL) because it provides a simple, unsupervised, and domain-agnostic way to acquire diverse behaviors and representations from unlabeled data without rewards. Despite the importance of this setting, we lack a standard benchmark that can systematically evaluate the capabilities of offline GCRL algorithms. In this work, we propose OGBench, a new, high-quality benchmark for algorithms research in offline goal-conditioned RL. OGBench consists of 8 types of environments, 85 datasets, and reference implementations of 6 representative offline GCRL algorithms. We have designed these challenging and realistic environments and datasets to directly probe different capabilities of algorithms, such as stitching, long-horizon reasoning, and the ability to handle high-dimensional inputs and stochasticity. While representative algorithms may rank similarly on prior benchmarks, our experiments reveal stark strengths and weaknesses in these different capabilities, providing a strong foundation for building new algorithms. Project page: https://seohong.me/projects/ogbench

arxiv情報

著者 Seohong Park,Kevin Frans,Benjamin Eysenbach,Sergey Levine
発行日 2025-02-13 18:38:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | OGBench: Benchmarking Offline Goal-Conditioned RL はコメントを受け付けていません

KIMAs: A Configurable Knowledge Integrated Multi-Agent System

要約

大規模な言語モデル(LLM)によってサポートされている知識集約型の会話は、さまざまな面で人々を支援できる最も人気のある役立つアプリケーションの1つになりました。
現在の知識集約型アプリケーションの多くは、検索された生成(RAG)技術に集中しています。
多くのオープンソースのRAGフレームワークは、RAGベースのアプリケーションの開発を促進しますが、トピックと形式、会話コンテキスト管理、低遅延の応答時間の要件の不均一なデータによって複雑になる実用的なシナリオの処理に不足していることがよくあります。
このテクニカルレポートは、これらの課題に対処するために、構成可能な知識統合マルチエージェントシステムであるKimasを提示します。
Kimasは、多様な知識ソースを1)コンテキスト管理とクエリの書き換えメカニズムと検索の精度とマルチターン会話コヒーレンシーを改善するための柔軟で構成可能なシステムを備えています。
、および4)最適化された並列化可能なマルチエージェントパイプライン実行。
私たちの仕事は、実際の設定でLLMの展開を進めるためのスケーラブルなフレームワークを提供します。
Kimasが開発者がさまざまなスケールと強調で知識集約型アプリケーションを構築するのに役立つ方法を示すために、信頼できるパフォーマンスで実際に実行されている3つのアプリケーションにシステムを構成する方法を示します。

要約(オリジナル)

Knowledge-intensive conversations supported by large language models (LLMs) have become one of the most popular and helpful applications that can assist people in different aspects. Many current knowledge-intensive applications are centered on retrieval-augmented generation (RAG) techniques. While many open-source RAG frameworks facilitate the development of RAG-based applications, they often fall short in handling practical scenarios complicated by heterogeneous data in topics and formats, conversational context management, and the requirement of low-latency response times. This technical report presents a configurable knowledge integrated multi-agent system, KIMAs, to address these challenges. KIMAs features a flexible and configurable system for integrating diverse knowledge sources with 1) context management and query rewrite mechanisms to improve retrieval accuracy and multi-turn conversational coherency, 2) efficient knowledge routing and retrieval, 3) simple but effective filter and reference generation mechanisms, and 4) optimized parallelizable multi-agent pipeline execution. Our work provides a scalable framework for advancing the deployment of LLMs in real-world settings. To show how KIMAs can help developers build knowledge-intensive applications with different scales and emphases, we demonstrate how we configure the system to three applications already running in practice with reliable performance.

arxiv情報

著者 Zitao Li,Fei Wei,Yuexiang Xie,Dawei Gao,Weirui Kuang,Zhijian Ma,Bingchen Qian,Yaliang Li,Bolin Ding
発行日 2025-02-13 18:51:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | KIMAs: A Configurable Knowledge Integrated Multi-Agent System はコメントを受け付けていません

CoT-Valve: Length-Compressible Chain-of-Thought Tuning

要約

考え方は、モデルの推論能力を大幅に向上させますが、長いチェーンによる推論コストの大幅な増加も伴います。
推論パスは簡単なタスクの下で簡単に圧縮できますが、ハードタスクで苦労することができるという観察により、1つのモデルのみで推論パスの長さを弾力的に制御する可能性を探り、それにより、タスクの難易度に基づいて推論モデルの推論オーバーヘッドを動的に削減します。

モデルがさまざまな長さの推論チェーンを生成できるように設計されたCot-Valveという名前の新しいチューニングおよび推論戦略を紹介します。
これを達成するために、操作すると生成されたCOTの長さを効果的に制御できるパラメーター空間の方向を特定することを提案します。
さらに、このプロパティが推論チェーンを圧縮するのに役立つことを示しています。
同じ質問に対して長い範囲からショートまでチェーンを使用してデータセットを構築し、COTバルブの2つの強化された戦略を調査します。
私たちの実験は、COTバルブがチェーンの制御可能性と圧縮性を正常に有効にし、プロンプトベースの制御よりも優れたパフォーマンスを示すことを示しています。
この方法をQWQ-32B-PREVIEWに適用し、GSM8Kの741から225トークンにマイナーパフォーマンスの低下(95.07%から94.92%)と6827から4629トークンまでの推論チェーンを削減し、さらに1つの誤った回答がありました。

要約(オリジナル)

Chain-of-Thought significantly enhances a model’s reasoning capability, but it also comes with a considerable increase in inference costs due to long chains. With the observation that the reasoning path can be easily compressed under easy tasks but struggle on hard tasks, we explore the feasibility of elastically controlling the length of reasoning paths with only one model, thereby reducing the inference overhead of reasoning models dynamically based on task difficulty. We introduce a new tuning and inference strategy named CoT-Valve, designed to allow models to generate reasoning chains of varying lengths. To achieve this, we propose to identify a direction in the parameter space that, when manipulated, can effectively control the length of generated CoT. Moreover, we show that this property is valuable for compressing the reasoning chain. We construct datasets with chains from long to short for the same questions and explore two enhanced strategies for CoT-Valve: (1) a precise length-compressible CoT tuning method, and (2) a progressive chain length compression approach. Our experiments show that CoT-Valve successfully enables controllability and compressibility of the chain and shows better performance than the prompt-based control. We applied this method to QwQ-32B-Preview, reducing reasoning chains on GSM8K from 741 to 225 tokens with a minor performance drop (95.07% to 94.92%) and on AIME from 6827 to 4629 tokens, with only one additional incorrect answer.

arxiv情報

著者 Xinyin Ma,Guangnian Wan,Runpeng Yu,Gongfan Fang,Xinchao Wang
発行日 2025-02-13 18:52:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | CoT-Valve: Length-Compressible Chain-of-Thought Tuning はコメントを受け付けていません

SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models

要約

LLMSを調整して、生成された応答のステートメントの高品質で微調整された文レベルの引用を生成する斬新な自己監視アプローチであるSelfciteを紹介します。
コストと労働集約型の注釈にのみ依存するのではなく、セルフキャイトは、コンテキストアブレーションを通じてLLM自体によって提供される報酬信号を活用します。引用が必要な場合、引用されたテキストをコンテキストから削除する必要があります。
十分な場合は、引用されたテキストだけを保持することで、同じ応答が維持されるはずです。
この報酬は、推論時間のベストアンドサンプリング戦略を導き、引用の品質を大幅に改善するだけでなく、優れた引用を生成するためにモデルを直接微調整するために優先最適化に使用します。
セルフキャイトの有効性は、5つのロングフォームの質問回答タスクにわたってロングベンチキャイトベンチマークで最大5.3ポイントに引用F1を増やすことで実証されています。

要約(オリジナル)

We introduce SelfCite, a novel self-supervised approach that aligns LLMs to generate high-quality, fine-grained, sentence-level citations for the statements in their generated responses. Instead of only relying on costly and labor-intensive annotations, SelfCite leverages a reward signal provided by the LLM itself through context ablation: If a citation is necessary, removing the cited text from the context should prevent the same response; if sufficient, retaining the cited text alone should preserve the same response. This reward can guide the inference-time best-of-N sampling strategy to improve citation quality significantly, as well as be used in preference optimization to directly fine-tune the models for generating better citations. The effectiveness of SelfCite is demonstrated by increasing citation F1 up to 5.3 points on the LongBench-Cite benchmark across five long-form question answering tasks.

arxiv情報

著者 Yung-Sung Chuang,Benjamin Cohen-Wang,Shannon Zejiang Shen,Zhaofeng Wu,Hu Xu,Xi Victoria Lin,James Glass,Shang-Wen Li,Wen-tau Yih
発行日 2025-02-13 18:55:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models はコメントを受け付けていません