NExT-Search: Rebuilding User Feedback Ecosystem for Generative AI Search

要約

生成AI検索は、複雑なクエリに対するエンドツーエンドの回答を提供し、複数のWebページの手動でユーザーの依存を減らすことにより、情報の検索を再構築しています。
ただし、このパラダイムは利便性を高めますが、従来のWeb検索の進化を歴史的に動作させたフィードバック駆動型の改善ループを混乱させます。
Web検索では、ドキュメントレベルで大規模で微調整されたユーザーフィードバック(クリック、滞留時間など)を収集することにより、ランキングモデルを継続的に改善できます。
対照的に、生成AI検索は、クエリ分解、ドキュメント検索、および回答生成にまたがるはるかに長い検索パイプラインを介して動作しますが、通常、最終回答に関する粗粒のフィードバックのみを受け取ります。
これにより、最終出力のユーザーフィードバックを特定のシステムコンポーネントに効果的にマッピングできないため、各中間ステージを改善してフィードバックループを維持することが困難になるため、フィードバックループの切断が導入されます。
この論文では、次世代の次世代パラダイムである次世代のパラダイムである次世代のパラダイムである次世代のパラダイムである次世代のパラダイムは、生成的なAI検索への細かいプロセスレベルのフィードバックを再導入することを想定しています。
Next-Searchは、2つの補完的なモードを統合します。ユーザーデバッグモードでは、エンゲージしたユーザーが重要な段階に介入できます。
Shadowユーザーモード。パーソナライズされたユーザーエージェントがユーザーの好みをシミュレートし、インタラクティブの少ないユーザーにAIアシストフィードバックを提供します。
さらに、これらのフィードバックシグナルをオンライン適応を通じてどのように活用できるかを想定しています。これにより、現在の検索出力がリアルタイムで洗練され、オフラインアップデートがあり、相互作用ログを定期的にクエリ分解、検索、および生成モデルに集約します。
生成AI検索パイプラインの重要な段階に対する人間の制御を回復することにより、Next-Searchは、人間のフィードバックとともに継続的に進化できるフィードバックが豊富なAI検索システムを構築するための有望な方向性を提供すると考えています。

要約(オリジナル)

Generative AI search is reshaping information retrieval by offering end-to-end answers to complex queries, reducing users’ reliance on manually browsing and summarizing multiple web pages. However, while this paradigm enhances convenience, it disrupts the feedback-driven improvement loop that has historically powered the evolution of traditional Web search. Web search can continuously improve their ranking models by collecting large-scale, fine-grained user feedback (e.g., clicks, dwell time) at the document level. In contrast, generative AI search operates through a much longer search pipeline, spanning query decomposition, document retrieval, and answer generation, yet typically receives only coarse-grained feedback on the final answer. This introduces a feedback loop disconnect, where user feedback for the final output cannot be effectively mapped back to specific system components, making it difficult to improve each intermediate stage and sustain the feedback loop. In this paper, we envision NExT-Search, a next-generation paradigm designed to reintroduce fine-grained, process-level feedback into generative AI search. NExT-Search integrates two complementary modes: User Debug Mode, which allows engaged users to intervene at key stages; and Shadow User Mode, where a personalized user agent simulates user preferences and provides AI-assisted feedback for less interactive users. Furthermore, we envision how these feedback signals can be leveraged through online adaptation, which refines current search outputs in real-time, and offline update, which aggregates interaction logs to periodically fine-tune query decomposition, retrieval, and generation models. By restoring human control over key stages of the generative AI search pipeline, we believe NExT-Search offers a promising direction for building feedback-rich AI search systems that can evolve continuously alongside human feedback.

arxiv情報

著者 Sunhao Dai,Wenjie Wang,Liang Pang,Jun Xu,See-Kiong Ng,Ji-Rong Wen,Tat-Seng Chua
発行日 2025-05-20 17:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.IR | NExT-Search: Rebuilding User Feedback Ecosystem for Generative AI Search はコメントを受け付けていません

Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

要約

大規模な言語モデル(LLMS)は、チェーンオブシャート(COT)の推論を通じて、数学カルタスクで顕著な進歩を遂げています。
ただし、既存の数学COTデータセットは、モデルの学習と一般化に悪影響を与える中間のステップを省略している専門家のために、思考の飛躍に苦しむことがよくあります。
私たちは、コットの完全性と一貫性を復元するために、飛躍を自動的に検出し、欠落している中間推論手順を生成することを目的とするCOTの思考Leap Bridgeタスクを提案します。
これを容易にするために、構造化されたScaleQuestmathデータセットに基づいて、ScaleQM+と呼ばれる専門的なトレーニングデータセットを構築し、トレーニングされたCOT-BRIDGEを使用して思考の飛躍を橋渡ししました。
数学的推論ベンチマークに関する包括的な実験を通じて、ブリッジ付きデータセットで微調整されたモデルは、元のデータセットでトレーニングされたものを一貫して上回ることを実証します。
当社のアプローチは、蒸留データ(+3.02%)を効果的に強化し(+3.02%)、強化学習のためのより良い出発点(+3.1%)を提供し、既存の最適化技術と互換性のあるプラグアンドプレイモジュールとして機能します。
さらに、Cot-Bridgeは、ドメイン外の論理的推論タスクに対する一般化の改善を示しており、推論の完全性を高めることで広く適用される利点が得られることを確認します。

要約(オリジナル)

Large language models (LLMs) have achieved remarkable progress on mathemati-cal tasks through Chain-of-Thought (CoT) reasoning. However, existing mathematical CoT datasets often suffer from Thought Leaps due to experts omitting intermediate steps, which negatively impacts model learning and generalization. We propose the CoT Thought Leap Bridge Task, which aims to automatically detect leaps and generate missing intermediate reasoning steps to restore the completeness and coherence of CoT. To facilitate this, we constructed a specialized training dataset called ScaleQM+, based on the structured ScaleQuestMath dataset, and trained CoT-Bridge to bridge thought leaps. Through comprehensive experiments on mathematical reasoning benchmarks, we demonstrate that models fine-tuned on bridged datasets consistently outperform those trained on original datasets, with improvements of up to +5.87% on NuminaMath. Our approach effectively enhances distilled data (+3.02%) and provides better starting points for reinforcement learning (+3.1%), functioning as a plug-and-play module compatible with existing optimization techniques. Furthermore, CoT-Bridge demonstrate improved generalization to out-of-domain logical reasoning tasks, confirming that enhancing reasoning completeness yields broadly applicable benefits.

arxiv情報

著者 Haolei Xu,Yuchen Yan,Yongliang Shen,Wenqi Zhang,Guiyang Hou,Shengpei Jiang,Kaitao Song,Weiming Lu,Jun Xiao,Yueting Zhuang
発行日 2025-05-20 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning はコメントを受け付けていません

Does Acceleration Cause Hidden Instability in Vision Language Models? Uncovering Instance-Level Divergence Through a Large-Scale Empirical Study

要約

Vision-Language Models(VLMS)は、広範囲にわたる実用的な展開のために強力でありながら計算的に集中しています。
費用のかかる再トレーニングなしでこのような課題に対処するために、量子化やトークン削減などのトレーニング後の加速技術が広範囲に調査されています。
ただし、現在の加速評価は、主に最小限の全体的なパフォーマンス劣化をターゲットにしており、重要な質問を見下ろしています。加速モデルは、加速前と同じ質問に同じ答えを与えていますか?
これは、AIベースの疾患診断など、特定の既知の状況に対して一貫して回答が最も重要である安定性中心の産業用途にとって不可欠です。
加速VLMSについてこれを体系的に調査し、10のマルチモーダルベンチマークで8つの加速方法で4つの主要なモデル(Llava-1.5、Llava-Next、QWEN2-VL、QWEN2.5-VL)をテストします。
私たちの調査結果は厳しいものです。最小限の集計パフォーマンスの低下にもかかわらず、加速モデルは元の答えを20%の時間まで変更しました。
重大なことに、これらの変更の最大6.5%は正解を誤って変換しました。
入力の摂動により、これらの矛盾が拡大され、この傾向は医療VLM Llava-Medによるケーススタディによって確認されています。
この研究は、VLM加速における重大な監視を明らかにし、信頼できる現実世界の展開を確保するために、例えばレベルの安定性チェックの緊急のニーズを強調しています。

要約(オリジナル)

Vision-Language Models (VLMs) are powerful yet computationally intensive for widespread practical deployments. To address such challenge without costly re-training, post-training acceleration techniques like quantization and token reduction are extensively explored. However, current acceleration evaluations primarily target minimal overall performance degradation, overlooking a crucial question: does the accelerated model still give the same answers to the same questions as it did before acceleration? This is vital for stability-centered industrial applications where consistently correct answers for specific, known situations are paramount, such as in AI-based disease diagnosis. We systematically investigate this for accelerated VLMs, testing four leading models (LLaVA-1.5, LLaVA-Next, Qwen2-VL, Qwen2.5-VL) with eight acceleration methods on ten multi-modal benchmarks. Our findings are stark: despite minimal aggregate performance drops, accelerated models changed original answers up to 20% of the time. Critically, up to 6.5% of these changes converted correct answers to incorrect. Input perturbations magnified these inconsistencies, and the trend is confirmed by case studies with the medical VLM LLaVA-Med. This research reveals a significant oversight in VLM acceleration, stressing an urgent need for instance-level stability checks to ensure trustworthy real-world deployment.

arxiv情報

著者 Yizheng Sun,Hao Li,Chang Xu,Hongpeng Zhou,Chenghua Lin,Riza Batista-Navarro,Jingyuan Sun
発行日 2025-05-20 14:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Does Acceleration Cause Hidden Instability in Vision Language Models? Uncovering Instance-Level Divergence Through a Large-Scale Empirical Study はコメントを受け付けていません

IP-Prompter: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting

要約

私たちが成長するにつれて私たちを魅了する物語とキャラクターは、ユニークなファンタジーの世界を形作り、これらの領域を視覚的に体験するための主要な媒体として機能します。
テーマ固有のデータを使用して微調整を通じて生成モデルをパーソナライズすることは、テキストから画像の生成において一般的なアプローチになりました。
ただし、特定のオブジェクトの学習に焦点を当てたオブジェクトのカスタマイズとは異なり、テーマ固有の生成には、文字、シーン、オブジェクトなどの多様な要素が含まれます。
このような多様性は、マルチキャラクター、マルチコンセプト、および連続テーマ固有の画像(TSI)を適応的に生成する方法という重要な課題も紹介します。
さらに、微調整されたアプローチには、多くの場合、大幅な計算オーバーヘッド、時間コスト、過剰適合のリスクが伴います。
このペーパーでは、基本的な質問について説明します。画像生成モデルは、文脈モデルがテキストとしてテキストを使用する方法と同様に、画像生成モデルをコンテキスト入力として直接活用できますか?
これに対処するために、新しいトレーニングなしのTSI生成方法であるIPプロンプターを提示します。
IPプロンプターは、参照画像を生成モデルに統合し、追加のトレーニングを必要とせずにターゲットテーマをシームレスに指定できるようにする視覚的なプロンプトを導入します。
このプロセスをさらに強化するために、動的な視覚プロンプト(DVP)メカニズムを提案します。これにより、視覚的なプロンプトを最適化して生成された画像の精度と品質を向上させます。
私たちのアプローチにより、一貫したストーリー生成、キャラクターデザイン、現実的なキャラクター生成、スタイルガイド付きの画像生成など、多様なアプリケーションが可能になります。
最先端のパーソナライズ方法との比較評価は、IPプロンプターが大幅に優れた結果を達成し、キャラクターのアイデンティティの保存、スタイルの一貫性、テキストの調整を維持し、テーマ固有の画像生成に堅牢で柔軟なソリューションを提供することを示しています。

要約(オリジナル)

The stories and characters that captivate us as we grow up shape unique fantasy worlds, with images serving as the primary medium for visually experiencing these realms. Personalizing generative models through fine-tuning with theme-specific data has become a prevalent approach in text-to-image generation. However, unlike object customization, which focuses on learning specific objects, theme-specific generation encompasses diverse elements such as characters, scenes, and objects. Such diversity also introduces a key challenge: how to adaptively generate multi-character, multi-concept, and continuous theme-specific images (TSI). Moreover, fine-tuning approaches often come with significant computational overhead, time costs, and risks of overfitting. This paper explores a fundamental question: Can image generation models directly leverage images as contextual input, similarly to how large language models use text as context? To address this, we present IP-Prompter, a novel training-free TSI generation method. IP-Prompter introduces visual prompting, a mechanism that integrates reference images into generative models, allowing users to seamlessly specify the target theme without requiring additional training. To further enhance this process, we propose a Dynamic Visual Prompting (DVP) mechanism, which iteratively optimizes visual prompts to improve the accuracy and quality of generated images. Our approach enables diverse applications, including consistent story generation, character design, realistic character generation, and style-guided image generation. Comparative evaluations against state-of-the-art personalization methods demonstrate that IP-Prompter achieves significantly better results and excels in maintaining character identity preserving, style consistency and text alignment, offering a robust and flexible solution for theme-specific image generation.

arxiv情報

著者 Yuxin Zhang,Minyan Luo,Weiming Dong,Xiao Yang,Haibin Huang,Chongyang Ma,Oliver Deussen,Tong-Yee Lee,Changsheng Xu
発行日 2025-05-20 14:39:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | IP-Prompter: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting はコメントを受け付けていません

Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model

要約

一般化された少数のショット3Dポイントクラウドセグメンテーション(GFS-PCS)は、ベースクラスのセグメンテーションを保持しながら、サポートサンプルがほとんどない新しいクラスにモデルを適応させます。
既存のGFS-PCSメソッドは、サポート機能やクエリ機能との対話を介してプロトタイプを強化しますが、少ないショットサンプルからのまばらな知識によって制限されたままです。
一方、オープンワールドの小説クラス全体に一般化する3Dビジョン言語モデル(3D VLMS)には、豊かではあるが騒々しい斬新なクラスの知識が含まれています。
この作業では、GFS-VLという名前の両方の強度を最大化するために、正確でありながらまばらな少数のサンプルを使用して、3D VLMSから密集したが騒々しい擬似ラベルを相乗的にするGFS-PCSフレームワークを導入します。
具体的には、低品質の領域をフィルタリングするためにプロトタイプ誘導の擬似ラベル選択を提示し、それに続いて、擬似ラベルのコンテキストと少数のショットサンプルからの知識を組み合わせて、フィルター処理された非標識領域に適応的にラベルを付ける適応浸透戦略が続きます。
さらに、少数のショットサンプルをトレーニングシーンに埋め込むための新しいベースミックス戦略を設計し、改善された新しいクラス学習のための本質的なコンテキストを維持します。
さらに、現在のGFS-PCSベンチマークの限られた多様性を認識して、包括的な一般化評価のために多様な新しいクラスを備えた2つの挑戦的なベンチマークを導入します。
実験では、モデルとデータセット全体のフレームワークの有効性を検証します。
私たちのアプローチとベンチマークは、現実の世界でGFS-PCSを前進させるための強固な基盤を提供します。
コードはhttps://github.com/zhaochongan/gfs-vlにあります

要約(オリジナル)

Generalized few-shot 3D point cloud segmentation (GFS-PCS) adapts models to new classes with few support samples while retaining base class segmentation. Existing GFS-PCS methods enhance prototypes via interacting with support or query features but remain limited by sparse knowledge from few-shot samples. Meanwhile, 3D vision-language models (3D VLMs), generalizing across open-world novel classes, contain rich but noisy novel class knowledge. In this work, we introduce a GFS-PCS framework that synergizes dense but noisy pseudo-labels from 3D VLMs with precise yet sparse few-shot samples to maximize the strengths of both, named GFS-VL. Specifically, we present a prototype-guided pseudo-label selection to filter low-quality regions, followed by an adaptive infilling strategy that combines knowledge from pseudo-label contexts and few-shot samples to adaptively label the filtered, unlabeled areas. Additionally, we design a novel-base mix strategy to embed few-shot samples into training scenes, preserving essential context for improved novel class learning. Moreover, recognizing the limited diversity in current GFS-PCS benchmarks, we introduce two challenging benchmarks with diverse novel classes for comprehensive generalization evaluation. Experiments validate the effectiveness of our framework across models and datasets. Our approach and benchmarks provide a solid foundation for advancing GFS-PCS in the real world. The code is at https://github.com/ZhaochongAn/GFS-VL

arxiv情報

著者 Zhaochong An,Guolei Sun,Yun Liu,Runjia Li,Junlin Han,Ender Konukoglu,Serge Belongie
発行日 2025-05-20 14:45:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model はコメントを受け付けていません

Online Iterative Self-Alignment for Radiology Report Generation

要約

Radiology Report Generation(RRG)は、放射線科医の重いワークロードを緩和するための重要な研究トピックです。
既存のRRGモデルは、主に、放射線画像のデータペアと対応する放射線科医と発音されたレポートを使用したさまざまなモデルアーキテクチャに基づいて、監視された微調整(SFT)に依存しています。
最近の研究により、焦点はトレーニング後の改善にシフトし、RRGモデルの出力を強化学習(RL)を使用した人間の好みと調整しました。
ただし、高品質の注釈付きデータの限られたデータカバレッジは、過剰適合と一般化のリスクをもたらします。
このペーパーでは、4つの段階で構成されるRRGの新しいオンライン反復自己調整(OISA)メソッドを提案します:多様なデータの自己生成、多目的選好データの自己評価、多目的最適化のための自己調整、さらなる改善のための自己評価。
私たちのアプローチにより、特定の臨床目標に合わせて調整されたさまざまなレポートを生成し、RRGモデルの全体的なパフォーマンスを繰り返し向上させることができます。
既存の方法とは異なり、フレームワークはデータ品質を大幅に向上させ、反復的な多目的最適化によりパフォーマンスを最適化します。
実験結果は、私たちの方法が以前のアプローチを上回り、複数の評価メトリックにわたって最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Radiology Report Generation (RRG) is an important research topic for relieving radiologist’ heavy workload. Existing RRG models mainly rely on supervised fine-tuning (SFT) based on different model architectures using data pairs of radiological images and corresponding radiologist-annotated reports. Recent research has shifted focus to post-training improvements, aligning RRG model outputs with human preferences using reinforcement learning (RL). However, the limited data coverage of high-quality annotated data poses risks of overfitting and generalization. This paper proposes a novel Online Iterative Self-Alignment (OISA) method for RRG that consists of four stages: self-generation of diverse data, self-evaluation for multi-objective preference data,self-alignment for multi-objective optimization and self-iteration for further improvement. Our approach allows for generating varied reports tailored to specific clinical objectives, enhancing the overall performance of the RRG model iteratively. Unlike existing methods, our frame-work significantly increases data quality and optimizes performance through iterative multi-objective optimization. Experimental results demonstrate that our method surpasses previous approaches, achieving state-of-the-art performance across multiple evaluation metrics.

arxiv情報

著者 Ting Xiao,Lei Shi,Yang Zhang,HaoFeng Yang,Zhe Wang,Chenjia Bai
発行日 2025-05-20 14:49:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Online Iterative Self-Alignment for Radiology Report Generation はコメントを受け付けていません

MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents

要約

Multimodal Document検索は、広範なドキュメントからの図、表、チャート、レイアウト情報など、さまざまな形式のマルチモーダルコンテンツを特定して取得することを目的としています。
人気が高まっているにもかかわらず、このようなタスクでのシステムのパフォーマンスを効果的に評価するための包括的で堅牢なベンチマークが顕著に欠けています。
このギャップに対処するために、この作業は、Mmdocirという名前の新しいベンチマークを紹介します。これには、ページレベルとレイアウトレベルの検索という2つの異なるタスクが含まれます。
前者は、長いドキュメント内で最も関連性の高いページを識別するパフォーマンスを評価しますが、後者は特定のレイアウトを検出する能力を評価し、ページ全体の分析よりも微細な尺度を提供します。
レイアウトとは、テキストの段落、方程式、図、表、またはチャートなど、さまざまな要素を指します。
MMDOCIRベンチマークは、専門家から注釈が付けられた1,685の質問とブートストラップラベルの173,843の質問を特徴とする豊富なデータセットで構成されており、トレーニングと評価の両方にマルチモーダルドキュメント取得の貴重なリソースとなっています。
厳密な実験を通じて、(i)視覚レトリバーがテキストの対応物を大幅に上回ることを実証します。(ii)MMDOCIRトレーニングセットは、マルチモーダルドキュメント取得のパフォーマンスを効果的に向上させ、(iii)テキストレトリバーをレバレッジ化するテキストレトリバーは、OCRテキストでのレリーバーを大幅に上回ります。
データセットはhttps://mmdocrag.github.io/mmdocir/で入手できます。

要約(オリジナル)

Multimodal document retrieval aims to identify and retrieve various forms of multimodal content, such as figures, tables, charts, and layout information from extensive documents. Despite its increasing popularity, there is a notable lack of a comprehensive and robust benchmark to effectively evaluate the performance of systems in such tasks. To address this gap, this work introduces a new benchmark, named MMDocIR, that encompasses two distinct tasks: page-level and layout-level retrieval. The former evaluates the performance of identifying the most relevant pages within a long document, while the later assesses the ability of detecting specific layouts, providing a more fine-grained measure than whole-page analysis. A layout refers to a variety of elements, including textual paragraphs, equations, figures, tables, or charts. The MMDocIR benchmark comprises a rich dataset featuring 1,685 questions annotated by experts and 173,843 questions with bootstrapped labels, making it a valuable resource in multimodal document retrieval for both training and evaluation. Through rigorous experiments, we demonstrate that (i) visual retrievers significantly outperform their text counterparts, (ii) MMDocIR training set effectively enhances the performance of multimodal document retrieval and (iii) text retrievers leveraging VLM-text significantly outperforms retrievers relying on OCR-text. Our dataset is available at https://mmdocrag.github.io/MMDocIR/.

arxiv情報

著者 Kuicai Dong,Yujing Chang,Xin Deik Goh,Dexun Li,Ruiming Tang,Yong Liu
発行日 2025-05-20 14:49:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR | MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents はコメントを受け付けていません

Video Compression Commander: Plug-and-Play Inference Acceleration for Video Large Language Models

要約

ビデオ大規模な言語モデル(Videollm)はビデオ理解に優れていますが、豊富な視覚トークンの二次複雑さのために効率の課題に直面します。
Videollmsのトークン圧縮方法の体系的な分析により、2つの重要な問題が明らかになります。(i)フレーム全体で独特の視覚信号を見落とし、情報の損失につながる。
(ii)実装の制約に苦しみ、現代のアーキテクチャまたは効率的なオペレーターとの互換性を引き起こします。
これらの課題に対処するために、Videollmトークン圧縮の3つの設計原則を蒸留し、プラグアンドプレイ推論の加速フレームワーク「Video Compression Commander」(VIDCOM2)を提案します。
各フレームの一意性を定量化することにより、VIDCOM2はフレーム間の圧縮強度を適応的に調整し、ビデオシーケンスの冗長性を低減しながら、重要な情報を効果的に保存します。
さまざまなVideollmsやベンチマークにわたる広範な実験は、VIDCOM2の優れた性能と効率性を示しています。
Vidcom2は25%のビジュアルトークンで、LLAVA-OVの元のパフォーマンスの99.6%を達成し、LLMの発電レイテンシの70.8%を削減します。
特に、フレーム圧縮調整戦略は、パフォーマンスをさらに向上させるために、他のトークン圧縮方法と互換性があります。
私たちのコードは、https://github.com/xuyang-liu16/vidcom2で入手できます。

要約(オリジナル)

Video large language models (VideoLLM) excel at video understanding, but face efficiency challenges due to the quadratic complexity of abundant visual tokens. Our systematic analysis of token compression methods for VideoLLMs reveals two critical issues: (i) overlooking distinctive visual signals across frames, leading to information loss; (ii) suffering from implementation constraints, causing incompatibility with modern architectures or efficient operators. To address these challenges, we distill three design principles for VideoLLM token compression and propose a plug-and-play inference acceleration framework ‘Video Compression Commander’ (VidCom2). By quantifying each frame’s uniqueness, VidCom2 adaptively adjusts compression intensity across frames, effectively preserving essential information while reducing redundancy in video sequences. Extensive experiments across various VideoLLMs and benchmarks demonstrate the superior performance and efficiency of our VidCom2. With only 25% visual tokens, VidCom2 achieves 99.6% of the original performance on LLaVA-OV while reducing 70.8% of the LLM generation latency. Notably, our Frame Compression Adjustment strategy is compatible with other token compression methods to further improve their performance. Our code is available at https://github.com/xuyang-liu16/VidCom2.

arxiv情報

著者 Xuyang Liu,Yiyu Wang,Junpeng Ma,Linfeng Zhang
発行日 2025-05-20 14:52:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Video Compression Commander: Plug-and-Play Inference Acceleration for Video Large Language Models はコメントを受け付けていません

VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank

要約

DeepSeek-R1は、強化学習を通じて、大きな言語モデル(LLMS)の推論と一般化能力を奨励する際に顕著な有効性を実証しています。
それにもかかわらず、推論による計算モデリングの可能性は、視覚的推論に大きく依存するタスクである画質評価(IQA)のコンテキストでは徹底的に調査されていません。
このホワイトペーパーでは、推論誘発された非参照IQA(NR-IQA)モデルであるVisualQuality-R1を紹介し、視覚的品質の本質的に相対的な性質に合わせた学習アルゴリズムであるランク付けの補強学習で訓練します。
具体的には、画像のペアについては、グループの相対的なポリシーの最適化を採用して、各画像の複数の品質スコアを生成します。
これらの推定値は、サーストーンモデルの下で他の画像よりも高い品質を持つ1つの画像の比較確率を計算するために使用されます。
各品質推定に対する報酬は、離散化されたバイナリラベルではなく、連続忠実度の測定を使用して定義されます。
広範な実験は、提案された視覚品質R1が差別的な深い学習ベースのNR-IQAモデルと最近の推論誘発性品質回帰法を常に上回ることを示しています。
さらに、視覚品質R1は、文脈的に豊富で人間に整合した品質の説明を生成することができ、知覚スケールの再編成を必要とせずにマルチダタセットトレーニングをサポートします。
これらの機能により、Super-ResolutionやImage Generationなどの幅広い画像処理タスクの進捗状況を確実に測定するのに特に適しています。

要約(オリジナル)

DeepSeek-R1 has demonstrated remarkable effectiveness in incentivizing reasoning and generalization capabilities of large language models (LLMs) through reinforcement learning. Nevertheless, the potential of reasoning-induced computational modeling has not been thoroughly explored in the context of image quality assessment (IQA), a task critically dependent on visual reasoning. In this paper, we introduce VisualQuality-R1, a reasoning-induced no-reference IQA (NR-IQA) model, and we train it with reinforcement learning to rank, a learning algorithm tailored to the intrinsically relative nature of visual quality. Specifically, for a pair of images, we employ group relative policy optimization to generate multiple quality scores for each image. These estimates are then used to compute comparative probabilities of one image having higher quality than the other under the Thurstone model. Rewards for each quality estimate are defined using continuous fidelity measures rather than discretized binary labels. Extensive experiments show that the proposed VisualQuality-R1 consistently outperforms discriminative deep learning-based NR-IQA models as well as a recent reasoning-induced quality regression method. Moreover, VisualQuality-R1 is capable of generating contextually rich, human-aligned quality descriptions, and supports multi-dataset training without requiring perceptual scale realignment. These features make VisualQuality-R1 especially well-suited for reliably measuring progress in a wide range of image processing tasks like super-resolution and image generation.

arxiv情報

著者 Tianhe Wu,Jian Zou,Jie Liang,Lei Zhang,Kede Ma
発行日 2025-05-20 14:56:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank はコメントを受け付けていません

RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding

要約

ビジョン言語モデル(VLM)が日常生活にますます統合されるようになるにつれて、正確な視覚文化の理解の必要性が重要になっています。
しかし、これらのモデルは、文化的ニュアンスを効果的に解釈するのに頻繁に不足しています。
以前の研究では、テキストのみの設定での文化的理解を高める上で、検索された生成(RAG)の有効性が実証されていますが、マルチモーダルシナリオへの適用は未脱カタリングのままです。
このギャップを埋めるために、Ravenea(検索された視覚文化の理解)を紹介します。これは、検索を通じて視覚文化の理解を進めるために設計された新しいベンチマークであり、2つのタスクに焦点を当てています。文化に焦点を当てた視覚的質問(CVQA)と文化に基づいた画像キャプション(CIC)です。
Raveneaは、キュレーションされ、人間のアノテーターによってランク付けされた10,000を超えるウィキペディアドキュメントを統合することにより、既存のデータセットを拡張します。
Raveneaを使用すると、各画像クエリに対して7つのマルチモーダルレトリバーをトレーニングおよび評価し、14の最先端のVLMにわたる検索された入力の下流の影響を測定します。
我々の結果は、軽量のVLMが培養認識の検索で増強されたときに、非活性化されたカウンターパートよりも優れていることを示しています(CVQAでは少なくとも3.2%、CICで6.2%絶対)。
これは、検索されたメソッドの価値と、マルチモーダル理解のための文化的に包括的なベンチマークの価値を強調しています。

要約(オリジナル)

As vision-language models (VLMs) become increasingly integrated into daily life, the need for accurate visual culture understanding is becoming critical. Yet, these models frequently fall short in interpreting cultural nuances effectively. Prior work has demonstrated the effectiveness of retrieval-augmented generation (RAG) in enhancing cultural understanding in text-only settings, while its application in multimodal scenarios remains underexplored. To bridge this gap, we introduce RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding), a new benchmark designed to advance visual culture understanding through retrieval, focusing on two tasks: culture-focused visual question answering (cVQA) and culture-informed image captioning (cIC). RAVENEA extends existing datasets by integrating over 10,000 Wikipedia documents curated and ranked by human annotators. With RAVENEA, we train and evaluate seven multimodal retrievers for each image query, and measure the downstream impact of retrieval-augmented inputs across fourteen state-of-the-art VLMs. Our results show that lightweight VLMs, when augmented with culture-aware retrieval, outperform their non-augmented counterparts (by at least 3.2% absolute on cVQA and 6.2% absolute on cIC). This highlights the value of retrieval-augmented methods and culturally inclusive benchmarks for multimodal understanding.

arxiv情報

著者 Jiaang Li,Yifei Yuan,Wenyan Li,Mohammad Aliannejadi,Daniel Hershcovich,Anders Søgaard,Ivan Vulić,Wenxuan Zhang,Paul Pu Liang,Yang Deng,Serge Belongie
発行日 2025-05-20 14:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding はコメントを受け付けていません