ForAug: Recombining Foregrounds and Backgrounds to Improve Vision Transformer Training with Bias Mitigation

要約

トランス、特にビジョントランス(VITS)は、大規模な画像分類で最先端のパフォーマンスを達成しています。
ただし、多くの場合、大量のデータが必要であり、堅牢性と一般化可能性を制限するバイアスを示すことができます。
このペーパーでは、これらの課題に対処し、一般にニューラルネットワークアーキテクチャの一部である誘導バイアスをトレーニングデータに明示的に含む、新しいデータ増強スキームであるForaugを紹介します。
FORAUGは、前処理された基礎モデルを使用して、さまざまな背景を持つ前景オブジェクトを分離および再結合することにより構築され、トレーニング中の画像構成を細かく制御できるようにします。
したがって、データの多様性と効果的なトレーニングサンプル数が増加します。
ImagenetへのForaugの適用であるFornetに関するトレーニングにより、Imagenetで最大4.5パーセントポイント(p.p.)、7.3 p.p.
ダウンストリームタスク。
重要なことに、FORAUGは、モデルの動作を分析し、バイアスを定量化する新しい方法を可能にします。
つまり、バックグラウンドの堅牢性、前景焦点、センターバイアス、サイズバイアスのメトリックを導入し、FornetのトレーニングがImagenetのトレーニングと比較してこれらのバイアスを大幅に削減することを示します。
要約すると、FORAUGはバイアスを分析および緩和するための貴重なツールを提供し、より堅牢で信頼性の高いコンピュータービジョンモデルの開発を可能にします。
コードとデータセットは、https://github.com/tobna/foraugで公開されています。

要約(オリジナル)

Transformers, particularly Vision Transformers (ViTs), have achieved state-of-the-art performance in large-scale image classification. However, they often require large amounts of data and can exhibit biases that limit their robustness and generalizability. This paper introduces ForAug, a novel data augmentation scheme that addresses these challenges and explicitly includes inductive biases, which commonly are part of the neural network architecture, into the training data. ForAug is constructed by using pretrained foundation models to separate and recombine foreground objects with different backgrounds, enabling fine-grained control over image composition during training. It thus increases the data diversity and effective number of training samples. We demonstrate that training on ForNet, the application of ForAug to ImageNet, significantly improves the accuracy of ViTs and other architectures by up to 4.5 percentage points (p.p.) on ImageNet and 7.3 p.p. on downstream tasks. Importantly, ForAug enables novel ways of analyzing model behavior and quantifying biases. Namely, we introduce metrics for background robustness, foreground focus, center bias, and size bias and show that training on ForNet substantially reduces these biases compared to training on ImageNet. In summary, ForAug provides a valuable tool for analyzing and mitigating biases, enabling the development of more robust and reliable computer vision models. Our code and dataset are publicly available at https://github.com/tobna/ForAug.

arxiv情報

著者 Tobias Christian Nauen,Brian Moser,Federico Raue,Stanislav Frolov,Andreas Dengel
発行日 2025-03-12 13:49:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.AI, cs.CV, cs.LG, I.2.10 | ForAug: Recombining Foregrounds and Backgrounds to Improve Vision Transformer Training with Bias Mitigation はコメントを受け付けていません

Object-Centric World Model for Language-Guided Manipulation

要約

エージェントが自律運転やロボット工学などのドメインで将来を予測し、計画することが不可欠です。
これを達成するために、最近の進歩はビデオ生成に焦点を当てており、拡散モデルの印象的な成功により大きな注目を集めています。
ただし、これらのモデルにはかなりの計算リソースが必要です。
これらの課題に対処するために、言語の指示に導かれたスロットの注意を使用して、オブジェクト中心の表現スペースを活用する世界モデルを提案します。
私たちのモデルは、現在の状態をオブジェクト中心の表現として認識し、自然言語の指示を条件とするこの表現空間で将来の状態を予測します。
このアプローチは、拡散ベースの生成的代替と比較して、よりコンパクトで計算効率の高いモデルになります。
さらに、言語の指示に基づいて将来の状態を柔軟に予測し、オブジェクトの認識が重要な操作タスクに大きな利点を提供します。
この論文では、私たちの潜在的な予測世界モデルが、視覚岩胞子モーター制御タスクの生成世界モデルを上回り、優れたサンプルと計算効率を達成することを実証します。
また、提案された方法の一般化パフォーマンスを調査し、オブジェクト中心の表現を使用してアクションを予測するためのさまざまな戦略を調査します。

要約(オリジナル)

A world model is essential for an agent to predict the future and plan in domains such as autonomous driving and robotics. To achieve this, recent advancements have focused on video generation, which has gained significant attention due to the impressive success of diffusion models. However, these models require substantial computational resources. To address these challenges, we propose a world model leveraging object-centric representation space using slot attention, guided by language instructions. Our model perceives the current state as an object-centric representation and predicts future states in this representation space conditioned on natural language instructions. This approach results in a more compact and computationally efficient model compared to diffusion-based generative alternatives. Furthermore, it flexibly predicts future states based on language instructions, and offers a significant advantage in manipulation tasks where object recognition is crucial. In this paper, we demonstrate that our latent predictive world model surpasses generative world models in visuo-linguo-motor control tasks, achieving superior sample and computation efficiency. We also investigate the generalization performance of the proposed method and explore various strategies for predicting actions using object-centric representations.

arxiv情報

著者 Youngjoon Jeong,Junha Chun,Soonwoo Cha,Taesup Kim
発行日 2025-03-12 13:52:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Object-Centric World Model for Language-Guided Manipulation はコメントを受け付けていません

Multi-Agent Image Restoration

要約

画像修復(IR)は、実際の劣化の複雑さのために困難です。
多くの専門的でオールインワンのIRモデルが開発されていますが、複雑で混合分解を効果的に処理することができません。
最近のエージェントメソッドの回復的およびエージェントメソッドは、この問題を軽減するためにインテリジェントで自律的なワークフローを活用していますが、リソース集約的な微調整と、満足のいく成果のための効果的な検索とツール実行トライアルによる非効率性に苦しんでいます。
この論文では、複雑なIR問題のための新しいマルチエージェントアプローチであるMairを提案します。
(1)シーン、(2)イメージング、および(3)圧縮の3つのタイプに分類され、現実世界で順番に発生することが観察され、反対の順序でそれらを逆転させる3つのタイプに分類され、実際の劣化を導入します。
この3段階の修復フレームワークの上に構築されたMairは、全体的な計画の「スケジューラ」や特定の劣化に専念する複数の「専門家」を含む、共同の人間の専門家のチームをエミュレートします。
この設計により、検索スペースと試行の取り組みが最小限に抑えられ、画質が向上し、推論コストが削減されます。
さらに、新しいツールの簡単な統合を可能にするために、レジストリメカニズムが導入されています。
合成データセットと現実世界の両方のデータセットの両方での実験は、提案されたMAIRが以前のエージェントIRシステムで競争力のあるパフォーマンスと効率を向上させることを示しています。
コードとモデルが利用可能になります。

要約(オリジナル)

Image restoration (IR) is challenging due to the complexity of real-world degradations. While many specialized and all-in-one IR models have been developed, they fail to effectively handle complex, mixed degradations. Recent agentic methods RestoreAgent and AgenticIR leverage intelligent, autonomous workflows to alleviate this issue, yet they suffer from suboptimal results and inefficiency due to their resource-intensive finetunings, and ineffective searches and tool execution trials for satisfactory outputs. In this paper, we propose MAIR, a novel Multi-Agent approach for complex IR problems. We introduce a real-world degradation prior, categorizing degradations into three types: (1) scene, (2) imaging, and (3) compression, which are observed to occur sequentially in real world, and reverse them in the opposite order. Built upon this three-stage restoration framework, MAIR emulates a team of collaborative human specialists, including a ‘scheduler’ for overall planning and multiple ‘experts’ dedicated to specific degradations. This design minimizes search space and trial efforts, improving image quality while reducing inference costs. In addition, a registry mechanism is introduced to enable easy integration of new tools. Experiments on both synthetic and real-world datasets show that proposed MAIR achieves competitive performance and improved efficiency over the previous agentic IR system. Code and models will be made available.

arxiv情報

著者 Xu Jiang,Gehui Li,Bin Chen,Jian Zhang
発行日 2025-03-12 13:53:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Multi-Agent Image Restoration はコメントを受け付けていません

AI-based Framework for Robust Model-Based Connector Mating in Robotic Wire Harness Installation

要約

自動車アセンブリにおける産業ロボットが広く採用されているにもかかわらず、正確で柔軟な操作が必要であるため、ワイヤーハーネスの設置は主に手動プロセスのままです。
この課題に対処するために、フォースコントロールと深い視覚操作学習を統合することにより、ケーブルコネクタの交尾を自動化する新しいAIベースのフレームワークを設計します。
当社のシステムは、視覚、触覚、および固有受容データでトレーニングされたマルチモーダルトランスアーキテクチャにおける一次最適化を使用して、検索と挿入戦略を最適化します。
さらに、機械学習の専門知識の必要性を最小限に抑える、新しい自動化されたデータ収集と最適化パイプラインを設計します。
このフレームワークは、標準的な産業コントローラーをネイティブに実行するロボットプログラムを最適化し、人間の専門家が監査および認定を許可します。
センターコンソールアセンブリタスクの実験的検証は、従来のロボットプログラミングアプローチと比較して、サイクル時間と堅牢性の大幅な改善を示しています。
ビデオはhttps://claudius-kienle.github.io/appmuttで入手できます。

要約(オリジナル)

Despite the widespread adoption of industrial robots in automotive assembly, wire harness installation remains a largely manual process, as it requires precise and flexible manipulation. To address this challenge, we design a novel AI-based framework that automates cable connector mating by integrating force control with deep visuotactile learning. Our system optimizes search-and-insertion strategies using first-order optimization over a multimodal transformer architecture trained on visual, tactile, and proprioceptive data. Additionally, we design a novel automated data collection and optimization pipeline that minimizes the need for machine learning expertise. The framework optimizes robot programs that run natively on standard industrial controllers, permitting human experts to audit and certify them. Experimental validations on a center console assembly task demonstrate significant improvements in cycle times and robustness compared to conventional robot programming approaches. Videos are available under https://claudius-kienle.github.io/AppMuTT.

arxiv情報

著者 Claudius Kienle,Benjamin Alt,Finn Schneider,Tobias Pertlwieser,Rainer Jäkel,Rania Rayyes
発行日 2025-03-12 13:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.AI, cs.CE, cs.LG, cs.RO, I.2 | AI-based Framework for Robust Model-Based Connector Mating in Robotic Wire Harness Installation はコメントを受け付けていません

A Survey on Spoken Italian Datasets and Corpora

要約

話し言葉データセットは、言語研究、自然言語処理、および音声技術を進めるために不可欠です。
ただし、言語的に豊かで多様なロマンス言語であるイタリア語に捧げられたリソースは、英語やマンダリンなどの主要な言語と比較して、露出度の低いままです。
この調査では、66の音声イタリアのデータセットの包括的な分析を提供し、その特性、方法論、およびアプリケーションを強調しています。
データセットは、音声の種類、ソース、コンテキスト、および人口統計学的および言語的特徴によって分類され、自動音声認識、感情検出、教育などのフィールドでの有用性に焦点を当てています。
データセットの作成と利用を強化するための推奨事項とともに、データセットの希少性、代表性、およびアクセシビリティに関連する課題について説明します。
完全なデータセットインベントリはGithubを介して公開され、Zenodoでアーカイブされ、研究者と開発者にとって貴重なリソースとして機能します。
現在のギャップに対処し、将来の方向性を提案することにより、この作業は、イタリアの音声技術と言語研究の進歩をサポートすることを目的としています。

要約(オリジナル)

Spoken language datasets are vital for advancing linguistic research, Natural Language Processing, and speech technology. However, resources dedicated to Italian, a linguistically rich and diverse Romance language, remain underexplored compared to major languages like English or Mandarin. This survey provides a comprehensive analysis of 66 spoken Italian datasets, highlighting their characteristics, methodologies, and applications. The datasets are categorized by speech type, source and context, and demographic and linguistic features, with a focus on their utility in fields such as Automatic Speech Recognition, emotion detection, and education. Challenges related to dataset scarcity, representativeness, and accessibility are discussed alongside recommendations for enhancing dataset creation and utilization. The full dataset inventory is publicly accessible via GitHub and archived on Zenodo, serving as a valuable resource for researchers and developers. By addressing current gaps and proposing future directions, this work aims to support the advancement of Italian speech technologies and linguistic research.

arxiv情報

著者 Marco Giordano,Claudia Rinaldi
発行日 2025-03-12 13:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: A.1, cs.AI, cs.CL, cs.DL | A Survey on Spoken Italian Datasets and Corpora はコメントを受け付けていません

Multimodal Language Modeling for High-Accuracy Single Cell Transcriptomics Analysis and Generation

要約

事前に訓練された言語モデル(PLM)は科学的研究に革命をもたらしましたが、単一細胞分析への適用は依然として限られています。
テキストPLMSは単一セルRNAシーケンスデータを処理することはできませんが、セルPLMは無料のテキストを処理する能力がなく、マルチモーダルタスクでの使用を制限します。
これらのモダリティを埋めるための既存の努力は、多くの場合、情報の損失や不十分なシングルモーダルのトレーニングに苦しみ、最適ではないパフォーマンスにつながります。
これらの課題に対処するために、ジョイントセルおよびテキストモデリング用の統一PLMであるシングルセルマルチモーダル生成事前訓練トランス(SCMMGPT)を提案します。
SCMMGPTは、最先端のセルとテキストPLMを効果的に統合し、パフォーマンスを向上させるためにモーダルな知識共有を促進します。
テキストセルモダリティギャップを埋めるために、SCMMGPTは専用のクロスモーダルプロジェクターを活用し、これまでにマルチモーダルセルテキストPLMの最大のデータセットである2700万セルで広範なトレーニングを受けます。
この大規模な事前トレーニングにより、SCMMGPTはジョイントセルテキストタスクで優れており、細胞記述生成のためのテキストの矛盾の84 \%の相対的改善、細胞型注釈のための20.5%の精度、およびテキストの条件付けされた小包生成のための$ k $ -NN精度の4 \%改善を実現できます。

要約(オリジナル)

Pre-trained language models (PLMs) have revolutionized scientific research, yet their application to single-cell analysis remains limited. Text PLMs cannot process single-cell RNA sequencing data, while cell PLMs lack the ability to handle free text, restricting their use in multimodal tasks. Existing efforts to bridge these modalities often suffer from information loss or inadequate single-modal pre-training, leading to suboptimal performances. To address these challenges, we propose Single-Cell MultiModal Generative Pre-trained Transformer (scMMGPT), a unified PLM for joint cell and text modeling. scMMGPT effectively integrates the state-of-the-art cell and text PLMs, facilitating cross-modal knowledge sharing for improved performance. To bridge the text-cell modality gap, scMMGPT leverages dedicated cross-modal projectors, and undergoes extensive pre-training on 27 million cells — the largest dataset for multimodal cell-text PLMs to date. This large-scale pre-training enables scMMGPT to excel in joint cell-text tasks, achieving an 84\% relative improvement of textual discrepancy for cell description generation, 20.5\% higher accuracy for cell type annotation, and 4\% improvement in $k$-NN accuracy for text-conditioned pseudo-cell generation, outperforming baselines.

arxiv情報

著者 Yaorui Shi,Jiaqi Yang,Sihang Li,Junfeng Fang,Xiang Wang,Zhiyuan Liu,Yang Zhang
発行日 2025-03-12 14:26:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Multimodal Language Modeling for High-Accuracy Single Cell Transcriptomics Analysis and Generation はコメントを受け付けていません

CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection

要約

特に重要なソフトウェアコンポーネントでは、ソースコードの脆弱性を特定することが重要です。
静的分析、動的分析、正式な検証、最近の大規模な言語モデルなどの既存の方法は、セキュリティの欠陥を検出するために広く使用されています。
このペーパーでは、さまざまな方法の脆弱性検出機能を評価するためのベンチマークフレームワークであるCastle(CWE Automated Securityテストと低レベルの評価)を紹介します。
25の一般的なCWEをカバーする250のマイクロベンチマークプログラムの手作りのデータセットを使用して、13の静的分析ツール、10 LLM、および2つの正式な検証ツールを評価します。
公正な比較を確保するための新しい評価メトリックであるCastle Scoreを提案します。
私たちの結果は重要な違いを明らかにします。ESBMC(正式な検証ツール)は、誤検知を最小限に抑えますが、暗号化やSQL注入などのモデルチェックを超えた脆弱性と闘っています。
静的アナライザーは、誤検知が高く、開発者の手動検証努力の増加に悩まされています。
LLMSは、小さなコードスニペットの脆弱性を識別するときに、Castle Datasetで非常によく機能します。
ただし、それらの精度は低下し、コードサイズが大きくなるにつれて幻覚が増加します。
これらの結果は、LLMが将来のセキュリティソリューション、特にコード完了フレームワーク内で極めて重要な役割を果たすことができることを示唆しています。ここでは、脆弱性を防ぐためのリアルタイムガイダンスを提供できます。
データセットにはhttps://github.com/castle-benchmarkにアクセスできます。

要約(オリジナル)

Identifying vulnerabilities in source code is crucial, especially in critical software components. Existing methods such as static analysis, dynamic analysis, formal verification, and recently Large Language Models are widely used to detect security flaws. This paper introduces CASTLE (CWE Automated Security Testing and Low-Level Evaluation), a benchmarking framework for evaluating the vulnerability detection capabilities of different methods. We assess 13 static analysis tools, 10 LLMs, and 2 formal verification tools using a hand-crafted dataset of 250 micro-benchmark programs covering 25 common CWEs. We propose the CASTLE Score, a novel evaluation metric to ensure fair comparison. Our results reveal key differences: ESBMC (a formal verification tool) minimizes false positives but struggles with vulnerabilities beyond model checking, such as weak cryptography or SQL injection. Static analyzers suffer from high false positives, increasing manual validation efforts for developers. LLMs perform exceptionally well in the CASTLE dataset when identifying vulnerabilities in small code snippets. However, their accuracy declines, and hallucinations increase as the code size grows. These results suggest that LLMs could play a pivotal role in future security solutions, particularly within code completion frameworks, where they can provide real-time guidance to prevent vulnerabilities. The dataset is accessible at https://github.com/CASTLE-Benchmark.

arxiv情報

著者 Richard A. Dubniczky,Krisztofer Zoltán Horvát,Tamás Bisztray,Mohamed Amine Ferrag,Lucas C. Cordeiro,Norbert Tihanyi
発行日 2025-03-12 14:30:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.SE | CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection はコメントを受け付けていません

PromptMap: An Alternative Interaction Style for AI-Based Image Generation

要約

最近の技術の進歩により、一般大衆の間での画像生成の使用が普及しました。
ただし、効果的なプロンプトを作成することは、初心者ユーザーにとっては困難です。
この課題に取り組むために、ユーザーがセマンティックズームを使用して地図のようなビューを通して合成プロンプトの膨大なコレクションを自由に探索できるようにするテキスト間AIの新しいインタラクションスタイルであるProsptMapを開発しました。
プロンプトマップグループは、セマンティックな類似性によって視覚的に画像をグループ化し、ユーザーが関連する例を発見できるようにします。
被験者間のオンライン調査($ n = 60 $)および定性的な被験者内研究($ n = 12 $)でPromptMapを評価しました。
PromptMapは、例を提供することにより、プロンプトの作成をサポートしていることがわかりました。
また、LLMを使用して膨大な例コレクションを作成する可能性を実証しました。
私たちの仕事は、満足のいく画像出力を達成するために促すことに不慣れなユーザーをサポートする新しい相互作用スタイルに貢献しています。

要約(オリジナル)

Recent technological advances popularized the use of image generation among the general public. Crafting effective prompts can, however, be difficult for novice users. To tackle this challenge, we developed PromptMap, a new interaction style for text-to-image AI that allows users to freely explore a vast collection of synthetic prompts through a map-like view with semantic zoom. PromptMap groups images visually by their semantic similarity, allowing users to discover relevant examples. We evaluated PromptMap in a between-subject online study ($n=60$) and a qualitative within-subject study ($n=12$). We found that PromptMap supported users in crafting prompts by providing them with examples. We also demonstrated the feasibility of using LLMs to create vast example collections. Our work contributes a new interaction style that supports users unfamiliar with prompting in achieving a satisfactory image output.

arxiv情報

著者 Krzysztof Adamkiewicz,Paweł W. Woźniak,Julia Dominiak,Andrzej Romanowski,Jakob Karolus,Stanislav Frolov
発行日 2025-03-12 14:31:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | PromptMap: An Alternative Interaction Style for AI-Based Image Generation はコメントを受け付けていません

A Finite-Sample Analysis of an Actor-Critic Algorithm for Mean-Variance Optimization in a Discounted MDP

要約

リスクに敏感な補強学習のアプリケーションに動機付けられ、割引報酬マルコフ決定プロセス(MDP)で平均分散最適化を研究します。
具体的には、ポリシー評価のために、線形関数近似(LFA)を使用して、時間差(TD)学習アルゴリズムを分析します。
(i)平均二乗意味で保持する有限サンプルの境界を導き出し、(ii)正則化の有無にかかわらず、尾の繰り返し平均化の下で高い確率で導き出します。
私たちの境界は、$ t $ iterations後の初期誤差と$ o(1/t)$の収束率に対する指数関数的に減衰する依存性を示します。
さらに、正規化されたTDバリアントの場合、バウンドはユニバーサルステップサイズを保持します。
次に、同時摂動確率的近似(SPSA)ベースのアクターアップデートをLFA評論家と統合し、$ o(n^{-1/4})$収束保証を確立します。
これらの結果は、リスク測定としての分散に焦点を当てて、強化学習におけるリスクに敏感なアクター批判的な方法の有限サンプルの理論的保証を確立します。

要約(オリジナル)

Motivated by applications in risk-sensitive reinforcement learning, we study mean-variance optimization in a discounted reward Markov Decision Process (MDP). Specifically, we analyze a Temporal Difference (TD) learning algorithm with linear function approximation (LFA) for policy evaluation. We derive finite-sample bounds that hold (i) in the mean-squared sense and (ii) with high probability under tail iterate averaging, both with and without regularization. Our bounds exhibit an exponentially decaying dependence on the initial error and a convergence rate of $O(1/t)$ after $t$ iterations. Moreover, for the regularized TD variant, our bound holds for a universal step size. Next, we integrate a Simultaneous Perturbation Stochastic Approximation (SPSA)-based actor update with an LFA critic and establish an $O(n^{-1/4})$ convergence guarantee, where $n$ denotes the iterations of the SPSA-based actor-critic algorithm. These results establish finite-sample theoretical guarantees for risk-sensitive actor-critic methods in reinforcement learning, with a focus on variance as a risk measure.

arxiv情報

著者 Tejaram Sangadi,L. A. Prashanth,Krishna Jagannathan
発行日 2025-03-12 14:32:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A Finite-Sample Analysis of an Actor-Critic Algorithm for Mean-Variance Optimization in a Discounted MDP はコメントを受け付けていません

Ext2Gen: Alignment through Unified Extraction and Generation for Robust Retrieval-Augmented Generation

要約

検索された生成(RAG)は、外部の知識を統合することによりLLMを強化しますが、関連するチャンクの不確実な配置と検索誘発情報過負荷の不確実な配置により、生成は脆弱なままであり、幻覚につながります。
回答を生成する前にクエリ関連の文を最初に抽出することにより、ぼろきれの堅牢性を高める新しい抽出物から系統のモデルであるExt2Genを提案します。
このモデルを最適化するために、ペアワイズフィードバック学習を通じて優先順位アラインメントを採用し、検索結果のバリエーションに関係なく、モデルが堅牢な回答を生成できるようにします。
広範な実験は、Ext2Genが高精度とリコールでクエリ関連の文を効果的に特定し、非常に信頼性の高い答えにつながることを示しています。
さらに、ラグ環境にモデルを展開すると、ベースLLMのパフォーマンスが向上するだけでなく、クエリ拡張などの高度な検索戦略と相乗的になることが明らかになります。
このモデルは、https://huggingface.co/dislab/ext2gen-8b-r2で入手できます。

要約(オリジナル)

Retrieval-augmented generation (RAG) enhances LLMs by integrating external knowledge, but generation remains fragile due to the uncertain placement of relevant chunks and retrieval-induced information overload, leading to hallucinations. We propose Ext2Gen, a novel extract-then-generate model that enhances RAG robustness by first extracting query-relevant sentences before generating answers. To optimize this model, we employ preference alignment through pairwise feedback learning, enabling the model to generate robust answers regardless of variations in retrieval results. Extensive experiments demonstrate that Ext2Gen effectively identifies query-relevant sentences with high precision and recall, leading to highly reliable answers. Furthermore, deploying our model in a RAG environment reveals that it not only boosts the performance of the base LLM but also synergizes with advanced retrieval strategies like query expansion. The model is available at https://huggingface.co/DISLab/Ext2Gen-8B-R2.

arxiv情報

著者 Hwanjun Song,Jeonghwan Choi,Minseok Kim
発行日 2025-03-12 14:42:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Ext2Gen: Alignment through Unified Extraction and Generation for Robust Retrieval-Augmented Generation はコメントを受け付けていません