Generative AI Act II: Test Time Scaling Drives Cognition Engineering

要約

生成AI(2020-2023)の「Act I」と呼ばれる可能性のある大規模な言語モデルの第1世代は、大規模なパラメーターとデータスケーリングを通じて顕著な成功を達成しましたが、知識の潜在性、浅い推論、および制約された認知プロセスの基本的な制限を示しました。
この時代に、AIとの主要なインターフェースとして迅速なエンジニアリングが登場し、自然言語による対話レベルのコミュニケーションを可能にしました。
現在、モデルがテストタイムスケーリング技術を通じて知識網状システム(潜在空間)から思考建設エンジンに移行している「Act II」(2024-Present)の出現を目撃しています。
この新しいパラダイムは、言語ベースの思考を通じてAIとのマインドレベルのつながりを確立します。
この論文では、認知工学の概念的基盤を明確にし、この瞬間がその発展に重要である理由を説明します。
包括的なチュートリアルと最適化された実装を通じて、これらの高度なアプローチを体系的に分解し、認知工学へのアクセスを民主化し、すべての開業医がAIの第2法に参加できるようにします。
githubリポジトリのテスト時間スケーリングに関する定期的に更新された論文コレクション:https://github.com/gair-nlp/cognition-engineering

要約(オリジナル)

The first generation of Large Language Models – what might be called ‘Act I’ of generative AI (2020-2023) – achieved remarkable success through massive parameter and data scaling, yet exhibited fundamental limitations in knowledge latency, shallow reasoning, and constrained cognitive processes. During this era, prompt engineering emerged as our primary interface with AI, enabling dialogue-level communication through natural language. We now witness the emergence of ‘Act II’ (2024-present), where models are transitioning from knowledge-retrieval systems (in latent space) to thought-construction engines through test-time scaling techniques. This new paradigm establishes a mind-level connection with AI through language-based thoughts. In this paper, we clarify the conceptual foundations of cognition engineering and explain why this moment is critical for its development. We systematically break down these advanced approaches through comprehensive tutorials and optimized implementations, democratizing access to cognition engineering and enabling every practitioner to participate in AI’s second act. We provide a regularly updated collection of papers on test-time scaling in the GitHub Repository: https://github.com/GAIR-NLP/cognition-engineering

arxiv情報

著者 Shijie Xia,Yiwei Qin,Xuefeng Li,Yan Ma,Run-Ze Fan,Steffi Chern,Haoyang Zou,Fan Zhou,Xiangkun Hu,Jiahe Jin,Yanheng He,Yixin Ye,Yixiu Liu,Pengfei Liu
発行日 2025-04-18 17:55:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space

要約

データの品質と多様性は、効果的な命令調整データセットの構築の鍵です。
%オープンソース命令調整データセットの可用性が向上すると、膨大な量のデータから高品質で多様なサブセットを自動的に選択することが有利です。
%既存の方法は通常、インスタンスの品質に優先順位を付け、ヒューリスティックルールを使用して多様性を維持します。
%ただし、コレクション全体の包括的なビューがないこの存在は、しばしば最適ではない結果につながります。
%さらに、ヒューリスティックルールは一般に、埋め込みスペース内の距離またはクラスタリングに焦点を当てており、セマンティックスペースの複雑な指示の意図を正確にキャプチャできません。
%このギャップを埋めるために、データセットの情報コンテンツを定量化するための統一された方法を提案します。
この方法は、ラベルグラフを構築することによりセマンティックスペースをモデル化し、グラフ内の情報の分布に基づいて多様性を定量化します。
%このような測定に基づいて、セマンティックスペースで\ textbf {i} nformation \ textbf {g} ain(mig)を\ textbf {m}に\ textbf {m}に繰り返し選択する効率的なサンプリング方法を導入します。
さまざまなデータセットとベースモデルでの%実験は、MIGが一貫して最先端の方法を上回ることを示しています。
%顕著なのは、MIGによってサンプリングされた5 \%TULU3データで微調整されたモデルは、完全なデータセットでトレーニングされた公式のSFTモデルに匹敵するパフォーマンスを達成し、Alpacaevalで+5.73 \%、WildBenchで+6.89 \%の改善を実現します。

要約(オリジナル)

Data quality and diversity are key to the construction of effective instruction-tuning datasets. % With the increasing availability of open-source instruction-tuning datasets, it is advantageous to automatically select high-quality and diverse subsets from a vast amount of data. % Existing methods typically prioritize instance quality and use heuristic rules to maintain diversity. % However, this absence of a comprehensive view of the entire collection often leads to suboptimal results. % Moreover, heuristic rules generally focus on distance or clustering within the embedding space, which fails to accurately capture the intent of complex instructions in the semantic space. % To bridge this gap, we propose a unified method for quantifying the information content of datasets. This method models the semantic space by constructing a label graph and quantifies diversity based on the distribution of information within the graph. % Based on such a measurement, we further introduce an efficient sampling method that selects data samples iteratively to \textbf{M}aximize the \textbf{I}nformation \textbf{G}ain (MIG) in semantic space. % Experiments on various datasets and base models demonstrate that MIG consistently outperforms state-of-the-art methods. % Notably, the model fine-tuned with 5\% Tulu3 data sampled by MIG achieves comparable performance to the official SFT model trained on the full dataset, with improvements of +5.73\% on AlpacaEval and +6.89\% on Wildbench.

arxiv情報

著者 Yicheng Chen,Yining Li,Kai Hu,Zerun Ma,Haochen Ye,Kai Chen
発行日 2025-04-18 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

FocusNet: Transformer-enhanced Polyp Segmentation with Local and Pooling Attention

要約

大腸内視鏡検査は、結腸直腸ポリープの早期診断に不可欠です。
定期的なスクリーニングは、良性のポリープがCRCに進行するのを効果的に防ぐことができます。
ディープラーニングはポリープのセグメンテーションで印象的な進歩を遂げていますが、ほとんどの既存のモデルは単一モダリティと単一中心のデータで訓練されており、実際の臨床環境では効果が低下しています。
これらの制限を克服するために、ポリープのセグメンテーションを改善するために設計されたトランス強化フォーカス注意ネットワークであるFocusNetを提案します。
FocusNetには、3つの重要なモジュールが組み込まれています。粗いセグメンテーションマップを生成するためのセマンチックな相互作用デコーダーモジュール(CIDM)、浅い機能を改良するための詳細エンハンスメントモジュール(DEM)、およびローカルの詳細とグローバルなコンテキストのバランスをとるフォーカス注意モジュール(FAM)。
より信頼性の高いセグメンテーション方法を構築するためのマルチモダリティとマルチセンターデータを備えた新しく導入されたデータセットであるPolyPDBでモデルを評価します。
広範な実験により、FocusNetは、BLIモダリティで82.47%、LCIで92.04%、NBIで82.04%、NBIで82.09%、WLIモダリティで93.42%を5.42%で5.42%で、FICEで88.04%、WLIモダリティとロビーモデアを示すことで、FocusNetが既存の最先端のアプローチを常に上回ることが示されました。
FocusNetのソースコードは、https://github.com/junzengz/focusnetで入手できます。

要約(オリジナル)

Colonoscopy is vital in the early diagnosis of colorectal polyps. Regular screenings can effectively prevent benign polyps from progressing to CRC. While deep learning has made impressive strides in polyp segmentation, most existing models are trained on single-modality and single-center data, making them less effective in real-world clinical environments. To overcome these limitations, we propose FocusNet, a Transformer-enhanced focus attention network designed to improve polyp segmentation. FocusNet incorporates three essential modules: the Cross-semantic Interaction Decoder Module (CIDM) for generating coarse segmentation maps, the Detail Enhancement Module (DEM) for refining shallow features, and the Focus Attention Module (FAM), to balance local detail and global context through local and pooling attention mechanisms. We evaluate our model on PolypDB, a newly introduced dataset with multi-modality and multi-center data for building more reliable segmentation methods. Extensive experiments showed that FocusNet consistently outperforms existing state-of-the-art approaches with a high dice coefficients of 82.47% on the BLI modality, 88.46% on FICE, 92.04% on LCI, 82.09% on the NBI and 93.42% on WLI modality, demonstrating its accuracy and robustness across five different modalities. The source code for FocusNet is available at https://github.com/JunZengz/FocusNet.

arxiv情報

著者 Jun Zeng,KC Santosh,Deepak Rajan Nayak,Thomas de Lange,Jonas Varkey,Tyler Berzin,Debesh Jha
発行日 2025-04-18 09:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | コメントする

Unleashing the Power of CNN and Transformer for Balanced RGB-Event Video Recognition

要約

RGB-Eventデータに基づいたパターン認識は、新たに発生する研究トピックであり、以前の作品は通常、CNNまたはトランスを使用して機能を学習します。
私たちが知っているように、CNNはローカルの特徴をよくキャプチャし、カスケードされた自己触媒メカニズムは、長距離のグローバルな関係を抽出するのに優れています。
図〜\ ref {firstImage}に示すように、高性能のRGBイベントベースのビデオ認識のためにそれらを組み合わせることは直感的ですが、既存の作業は精度とモデルパラメーターの間の良好なバランスを達成できません。
この作業では、TSCFormerと呼ばれる新しいRGBイベントベースの認識フレームワークを提案します。これは、比較的軽量のCNNトランスフォーカーモデルです。
具体的には、主にCNNをバックボーンネットワークとして採用して、最初にRGBデータとイベントデータの両方をエンコードします。
一方、グローバルトークンを入力として初期化し、BridgeFormerモジュールを使用してRGBおよびイベント機能でそれらを融合させます。
両方のモダリティ間のグローバルな長距離関係をよく捉え、モデルアーキテクチャ全体の単純さを同時に維持します。
拡張機能は、F2EおよびF2Vモジュールを使用して、それぞれRGBおよびイベントCNNブロックに融合し、それぞれインタラクティブな方法で融合します。
他のCNNブロックに対して同様の操作が実施され、異なる解像度の下で適応融合と局所グロバル特徴の強化を実現します。
最後に、これらの3つの機能を連結し、パターン認識のためにそれらを分類ヘッドに供給します。
2つの大規模なRGBイベントベンチマークデータセット(PokereventおよびHardV)に関する広範な実験により、提案されたTSCFormerの有効性が完全に検証されました。
ソースコードと事前に訓練されたモデルは、https://github.com/event-ahu/tscformerでリリースされます。

要約(オリジナル)

Pattern recognition based on RGB-Event data is a newly arising research topic and previous works usually learn their features using CNN or Transformer. As we know, CNN captures the local features well and the cascaded self-attention mechanisms are good at extracting the long-range global relations. It is intuitive to combine them for high-performance RGB-Event based video recognition, however, existing works fail to achieve a good balance between the accuracy and model parameters, as shown in Fig.~\ref{firstimage}. In this work, we propose a novel RGB-Event based recognition framework termed TSCFormer, which is a relatively lightweight CNN-Transformer model. Specifically, we mainly adopt the CNN as the backbone network to first encode both RGB and Event data. Meanwhile, we initialize global tokens as the input and fuse them with RGB and Event features using the BridgeFormer module. It captures the global long-range relations well between both modalities and maintains the simplicity of the whole model architecture at the same time. The enhanced features will be projected and fused into the RGB and Event CNN blocks, respectively, in an interactive manner using F2E and F2V modules. Similar operations are conducted for other CNN blocks to achieve adaptive fusion and local-global feature enhancement under different resolutions. Finally, we concatenate these three features and feed them into the classification head for pattern recognition. Extensive experiments on two large-scale RGB-Event benchmark datasets (PokerEvent and HARDVS) fully validated the effectiveness of our proposed TSCFormer. The source code and pre-trained models will be released at https://github.com/Event-AHU/TSCFormer.

arxiv情報

著者 Xiao Wang,Yao Rong,Shiao Wang,Yuan Chen,Zhe Wu,Bo Jiang,Yonghong Tian,Jin Tang
発行日 2025-04-18 10:03:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

ViG3D-UNet: Volumetric Vascular Connectivity-Aware Segmentation via 3D Vision Graph Representation

要約

正確な血管セグメンテーションは、冠動脈視覚化と冠動脈性心疾患の診断に不可欠です。
このタスクには、体積空間からのまばらな木のような血管枝の抽出が含まれます。
ただし、既存の方法は、不連続な血管のセグメンテーションとエンドポイントの欠落により、大きな課題に直面しています。
この問題に対処するために、VIG3D-UNETという名前の3D Vision Graph Neural Network Frameworkが導入されました。
この方法は、U字型アーキテクチャ内の3Dグラフ表現と集約を統合して、継続的な血管セグメンテーションを促進します。
VIG3Dモジュールは体積血管の接続とトポロジーをキャプチャし、畳み込みモジュールは細かい血管の詳細を抽出します。
これらの2つのブランチは、チャネルの注意を組み合わせてエンコーダー機能を形成します。
その後、紙布型のオフセットデコーダーは、スパース機能空間での冗長計算を最小限に抑え、機能マップサイズを元の入力寸法に合わせて復元します。
継続的な血管セグメンテーションのために提案されたアプローチの有効性を評価するために、AsocaとImagecasの2つのパブリックデータセットで評価が実行されました。
セグメンテーションの結果は、VIG3D-UNETが、高いセグメンテーションの精度を達成しながら、血管セグメンテーションの接続性を維持する際の競合方法を上回ったことを示しています。
私たちのコードはまもなく利用可能になります。

要約(オリジナル)

Accurate vascular segmentation is essential for coronary visualization and the diagnosis of coronary heart disease. This task involves the extraction of sparse tree-like vascular branches from the volumetric space. However, existing methods have faced significant challenges due to discontinuous vascular segmentation and missing endpoints. To address this issue, a 3D vision graph neural network framework, named ViG3D-UNet, was introduced. This method integrates 3D graph representation and aggregation within a U-shaped architecture to facilitate continuous vascular segmentation. The ViG3D module captures volumetric vascular connectivity and topology, while the convolutional module extracts fine vascular details. These two branches are combined through channel attention to form the encoder feature. Subsequently, a paperclip-shaped offset decoder minimizes redundant computations in the sparse feature space and restores the feature map size to match the original input dimensions. To evaluate the effectiveness of the proposed approach for continuous vascular segmentation, evaluations were performed on two public datasets, ASOCA and ImageCAS. The segmentation results show that the ViG3D-UNet surpassed competing methods in maintaining vascular segmentation connectivity while achieving high segmentation accuracy. Our code will be available soon.

arxiv情報

著者 Bowen Liu,Chunlei Meng,Wei Lin,Hongda Zhang,Ziqing Zhou,Zhongxue Gan,Chun Ouyang
発行日 2025-04-18 10:06:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | コメントする

FocusTrack: A Self-Adaptive Local Sampling Algorithm for Efficient Anti-UAV Tracking

要約

Anti-UAV追跡は、ターゲットサイズの小さなサイズ、急激なカメラの動き、散らかった赤外線の背景など、重大な課題をもたらします。
既存の追跡パラダイムは、グローバルおよびローカルベースの方法に広く分類できます。
SIAMDTなどのグローバルベースのトラッカーは、視野全体をスキャンすることにより高い精度を達成しますが、過度の計算オーバーヘッドに苦しみ、実際の展開が制限されます。
対照的に、OstrackやRomtrackを含むローカルベースの方法は、検索領域を効率的に制限しますが、ターゲットがカメラの動きが急激になったために大きな変位を受ける場合に闘争します。
予備的な実験を通じて、ローカルトラッカーは、適応型検索領域の調整と組み合わせた場合、トラッキングの精度を大幅に向上させ、ローカルトラッカーとグローバルトラッカーの間のギャップを狭めることができることが明らかです。
この課題に対処するために、検索領域を動的に洗練し、特徴表現を強化する新しいフレームワークであるFocustrackを提案し、計算効率と追跡精度の間の最適なバランスを達成します。
具体的には、検索領域調整(SRA)戦略は、ターゲットの存在確率を推定し、視野を適応的に調整し、ターゲットが焦点を維持することを保証します。
さらに、さまざまな検索領域によって引き起こされる機能の劣化に対抗するために、マスク(ATM)モジュールが提案されています。
このモジュールは、階層情報を統合し、ターゲット表現を細かい詳細で濃縮します。
実験結果は、Focustrackが最先端のパフォーマンスを達成し、AntIUAVで67.7%AUC、AntiUAV410で62.8%AUCを獲得し、それぞれベースライントラッカーを8.5%および9.1%AUCよりも上回ることを示しています。
効率の観点から、Focustrackはグローバルベースのトラッカーを超えており、30gのMacのみを必要とし、Focustrack(SRA)で143 FPSとフルバージョンで44 FPSを達成し、どちらもリアルタイム追跡を可能にします。

要約(オリジナル)

Anti-UAV tracking poses significant challenges, including small target sizes, abrupt camera motion, and cluttered infrared backgrounds. Existing tracking paradigms can be broadly categorized into global- and local-based methods. Global-based trackers, such as SiamDT, achieve high accuracy by scanning the entire field of view but suffer from excessive computational overhead, limiting real-world deployment. In contrast, local-based methods, including OSTrack and ROMTrack, efficiently restrict the search region but struggle when targets undergo significant displacements due to abrupt camera motion. Through preliminary experiments, it is evident that a local tracker, when paired with adaptive search region adjustment, can significantly enhance tracking accuracy, narrowing the gap between local and global trackers. To address this challenge, we propose FocusTrack, a novel framework that dynamically refines the search region and strengthens feature representations, achieving an optimal balance between computational efficiency and tracking accuracy. Specifically, our Search Region Adjustment (SRA) strategy estimates the target presence probability and adaptively adjusts the field of view, ensuring the target remains within focus. Furthermore, to counteract feature degradation caused by varying search regions, the Attention-to-Mask (ATM) module is proposed. This module integrates hierarchical information, enriching the target representations with fine-grained details. Experimental results demonstrate that FocusTrack achieves state-of-the-art performance, obtaining 67.7% AUC on AntiUAV and 62.8% AUC on AntiUAV410, outperforming the baseline tracker by 8.5% and 9.1% AUC, respectively. In terms of efficiency, FocusTrack surpasses global-based trackers, requiring only 30G MACs and achieving 143 fps with FocusTrack (SRA) and 44 fps with the full version, both enabling real-time tracking.

arxiv情報

著者 Ying Wang,Tingfa Xu,Jianan Li
発行日 2025-04-18 10:18:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Cross-Hierarchical Bidirectional Consistency Learning for Fine-Grained Visual Classification

要約

Fine-Grained Visual分類(FGVC)は、密接に関連するサブクラスを分類することを目的としています。これは、最小限のクラス間の違いとクラス内の有意な分散によって複雑なタスクです。
既存の方法は、多くの場合、画像分類のための追加の注釈に依存しており、階層ラベルの関係を描いたツリー階層に埋め込まれた貴重な情報を見落としています。
この知識を活用して分類の精度と一貫性を改善するために、新しい階層間双方向の一貫性学習(CHBC)フレームワークを提案します。
CHBCフレームワークは、特別に設計されたモジュールを使用して、注意マスクと機能を分解および強化するさまざまな階層全体で識別機能を抽出します。
双方向の一貫性の損失を使用して、異なる階層にわたって分類の結果を調節し、ラベル予測の一貫性を確保し、誤分類を削減します。
広く使用されている3つのFGVCデータセットでの実験は、CHBCフレームワークの有効性を検証します。
アブレーション研究では、提案されたモジュールの重要な貢献を強調し、機能の強化と一貫性の制約のアプリケーション戦略をさらに調査します。

要約(オリジナル)

Fine-Grained Visual Classification (FGVC) aims to categorize closely related subclasses, a task complicated by minimal inter-class differences and significant intra-class variance. Existing methods often rely on additional annotations for image classification, overlooking the valuable information embedded in Tree Hierarchies that depict hierarchical label relationships. To leverage this knowledge to improve classification accuracy and consistency, we propose a novel Cross-Hierarchical Bidirectional Consistency Learning (CHBC) framework. The CHBC framework extracts discriminative features across various hierarchies using a specially designed module to decompose and enhance attention masks and features. We employ bidirectional consistency loss to regulate the classification outcomes across different hierarchies, ensuring label prediction consistency and reducing misclassification. Experiments on three widely used FGVC datasets validate the effectiveness of the CHBC framework. Ablation studies further investigate the application strategies of feature enhancement and consistency constraints, underscoring the significant contributions of the proposed modules.

arxiv情報

著者 Pengxiang Gao,Yihao Liang,Yanzhi Song,Zhouwang Yang
発行日 2025-04-18 10:30:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Compile Scene Graphs with Reinforcement Learning

要約

次のトークン予測は、大規模な言語モデル(LLMS)をトレーニングするための基本原則であり、強化学習(RL)は推論パフォーマンスをさらに向上させます。
言語、画像、ビデオ、およびその他のモダリティをモデル化する効果的な方法として、シーングラフなどの構造化された視覚表現のエンドツーエンドの抽出にLLMを使用することは、既知のままです。
トークンによるテキストトークンを生成するのではなく、モデルがオブジェクトと関係トリプレットのセットを正確に生成する必要があります。
これを達成するために、シーングラフデータセットで監視された微調整(SFT)を介して最初にトレーニングされたマルチモーダルLLM(M-LLM)であるR1-SGGを紹介し、その後、強化学習を使用して洗練され、エンドツーエンドの方法でシーングラフを生成する能力を強化します。
SFTは従来の迅速な応答パラダイムに従いますが、RLには効果的な報酬信号の設計が必要です。
シーングラフの構造化された性質を考えると、ノードレベルの報酬、エッジレベルの報酬、および形式の一貫性報酬を統合するグラフ中心の報酬関数を設計します。
私たちの実験は、ルールベースのRLがSGGタスクのモデルパフォーマンスを大幅に向上させ、ゼロの故障率を達成することを示しています。
私たちのコードは、https://github.com/gpt4vision/r1-sggで入手できます。

要約(オリジナル)

Next token prediction is the fundamental principle for training large language models (LLMs), and reinforcement learning (RL) further enhances their reasoning performance. As an effective way to model language, image, video, and other modalities, the use of LLMs for end-to-end extraction of structured visual representations, such as scene graphs, remains underexplored. It requires the model to accurately produce a set of objects and relationship triplets, rather than generating text token by token. To achieve this, we introduce R1-SGG, a multimodal LLM (M-LLM) initially trained via supervised fine-tuning (SFT) on the scene graph dataset and subsequently refined using reinforcement learning to enhance its ability to generate scene graphs in an end-to-end manner. The SFT follows a conventional prompt-response paradigm, while RL requires the design of effective reward signals. Given the structured nature of scene graphs, we design a graph-centric reward function that integrates node-level rewards, edge-level rewards, and a format consistency reward. Our experiments demonstrate that rule-based RL substantially enhances model performance in the SGG task, achieving a zero failure rate–unlike supervised fine-tuning (SFT), which struggles to generalize effectively. Our code is available at https://github.com/gpt4vision/R1-SGG.

arxiv情報

著者 Zuyao Chen,Jinlin Wu,Zhen Lei,Marc Pollefeys,Chang Wen Chen
発行日 2025-04-18 10:46:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Visual Intention Grounding for Egocentric Assistants

要約

Visual Groundingは、テキストの説明を画像内のオブジェクトと関連付けます。
従来の方法は、サードパーソン画像入力と名前付きオブジェクトクエリをターゲットにします。
AIアシスタントなどのアプリケーションでは、視点シフト – 入力はエゴセントリックであり、オブジェクトはニーズと意図を通じて暗黙的に参照される場合があります。
このギャップを埋めるために、エゴセントリックな視覚意図の接地のための最初のデータセットである等張性を導入します。
Gointentionは、1)意図しないコンテキストオブジェクトを理解して無視するマルチモーダルLLMSに課題を課し、2)珍しいオブジェクト機能についての理由。
ベンチマークの結果は、現在のモデルがコンテキストオブジェクトを誤認し、エゴセントリックビューでアフォーダンスの理解を欠いていることを示しています。
また、理由から地面(ROG)の指示の調整を提案します。
これにより、通常の説明とエゴセントリックな意図を備えたハイブリッドトレーニングが、鎖でつながれた意図の推論とオブジェクト接地メカニズムを備えています。
ROGは、素朴な説明の接地を維持またはわずかに改善しながら、等しく微調整されたトレーニングとハイブリッドトレーニングを大幅に上回ります。
この進歩により、明示的なオブジェクトクエリと暗黙の人間の意図を処理しながら、エゴセントリックおよびエキソセントリックの視覚入力の統一された視覚的接地が可能になります。

要約(オリジナル)

Visual grounding associates textual descriptions with objects in an image. Conventional methods target third-person image inputs and named object queries. In applications such as AI assistants, the perspective shifts — inputs are egocentric, and objects may be referred to implicitly through needs and intentions. To bridge this gap, we introduce EgoIntention, the first dataset for egocentric visual intention grounding. EgoIntention challenges multimodal LLMs to 1) understand and ignore unintended contextual objects and 2) reason about uncommon object functionalities. Benchmark results show that current models misidentify context objects and lack affordance understanding in egocentric views. We also propose Reason-to-Ground (RoG) instruction tuning; it enables hybrid training with normal descriptions and egocentric intentions with a chained intention reasoning and object grounding mechanism. RoG significantly outperforms naive finetuning and hybrid training on EgoIntention, while maintaining or slightly improving naive description grounding. This advancement enables unified visual grounding for egocentric and exocentric visual inputs while handling explicit object queries and implicit human intentions.

arxiv情報

著者 Pengzhan Sun,Junbin Xiao,Tze Ho Elden Tse,Yicong Li,Arjun Akula,Angela Yao
発行日 2025-04-18 10:54:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

SupResDiffGAN a new approach for the Super-Resolution task

要約

この作業では、超解像度タスクの生成的敵対ネットワーク(GANS)と拡散モデルの強みを組み合わせた新しいハイブリッドアーキテクチャであるSupresdiffganを紹介します。
潜在的な空間表現を活用し、拡散ステップの数を減らすことにより、競争力のある知覚品質を維持しながら、他の拡散ベースの超解像度モデルよりも拡散性の推論時間が大幅に速くなります。
差別装置の過剰適合を防ぐために、適応型ノイズの腐敗を提案し、トレーニング中に発電機と判別器の間の安定したバランスを確保します。
ベンチマークデータセットでの広範な実験は、私たちのアプローチが、効率と画質のI $^2 $ SBなどの従来の拡散モデルよりも優れていることを示しています。
この作業は、拡散とGANベースの方法のパフォーマンスギャップを埋め、高解像度の画像生成における拡散モデルのリアルタイムアプリケーションの基礎を築きます。

要約(オリジナル)

In this work, we present SupResDiffGAN, a novel hybrid architecture that combines the strengths of Generative Adversarial Networks (GANs) and diffusion models for super-resolution tasks. By leveraging latent space representations and reducing the number of diffusion steps, SupResDiffGAN achieves significantly faster inference times than other diffusion-based super-resolution models while maintaining competitive perceptual quality. To prevent discriminator overfitting, we propose adaptive noise corruption, ensuring a stable balance between the generator and the discriminator during training. Extensive experiments on benchmark datasets show that our approach outperforms traditional diffusion models such as SR3 and I$^2$SB in efficiency and image quality. This work bridges the performance gap between diffusion- and GAN-based methods, laying the foundation for real-time applications of diffusion models in high-resolution image generation.

arxiv情報

著者 Dawid Kopeć,Wojciech Kozłowski,Maciej Wizerkaniuk,Dawid Krutul,Jan Kocoń,Maciej Zięba
発行日 2025-04-18 10:55:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | コメントする