TriDi: Trilateral Diffusion of 3D Humans, Objects, and Interactions

要約

3D Human-Object Interaction(HOI)のモデリングは、コンピュータービジョンにとって非常に興味深い問題であり、仮想および混合現実アプリケーションの重要なイネーブラーです。
既存の方法は一方向で動作します:一部の人は、3Dオブジェクトに条件付けられたもっともらしい人間の相互作用を回復します。
他の人は、人間のポーズを調整したオブジェクトポーズを回復します。
代わりに、任意の方向に動作する最初の統一モデルであるTridiを提供します。
具体的には、新しい3方向拡散プロセスと同時にヒト、オブジェクト、および相互作用のモダリティを生成し、1つのネットワークで7つの分布をモデル化できます。
私たちは、さまざまなモダリティのトークンに参加するトランスとしてTridiを実装し、それによってそれらの間の条件付き関係を発見します。
ユーザーは、HOIのテキスト説明または連絡先マップのいずれかとして相互作用を制御できます。
これらの2つの表現を共有潜在空間に埋め込み、テキストの説明の実用性と接触マップの表現力を組み合わせました。
単一のネットワークを使用して、Tridiは以前の作業のすべての特別なケースを統合し、新しいものに拡張し、7つの分布のファミリをモデル化します。
驚くべきことに、単一のモデルを使用しているにもかかわらず、Tridi生成サンプルは、定性的および定量的メトリックの両方の観点から、グラブと振る舞いの一元配置特殊ベースラインを上回り、より良い多様性を実証します。
シーンの人口へのTridiの適用性、人間接触データセットのオブジェクトの生成、および目に見えないオブジェクトのジオメトリへの一般化を示します。
プロジェクトページは、https://virtualhumans.mpi-inf.mpg.de/tridiで入手できます。

要約(オリジナル)

Modeling 3D human-object interaction (HOI) is a problem of great interest for computer vision and a key enabler for virtual and mixed-reality applications. Existing methods work in a one-way direction: some recover plausible human interactions conditioned on a 3D object; others recover the object pose conditioned on a human pose. Instead, we provide the first unified model – TriDi which works in any direction. Concretely, we generate Human, Object, and Interaction modalities simultaneously with a new three-way diffusion process, allowing to model seven distributions with one network. We implement TriDi as a transformer attending to the various modalities’ tokens, thereby discovering conditional relations between them. The user can control the interaction either as a text description of HOI or a contact map. We embed these two representations into a shared latent space, combining the practicality of text descriptions with the expressiveness of contact maps. Using a single network, TriDi unifies all the special cases of prior work and extends to new ones, modeling a family of seven distributions. Remarkably, despite using a single model, TriDi generated samples surpass one-way specialized baselines on GRAB and BEHAVE in terms of both qualitative and quantitative metrics, and demonstrating better diversity. We show the applicability of TriDi to scene population, generating objects for human-contact datasets, and generalization to unseen object geometry. The project page is available at: https://virtualhumans.mpi-inf.mpg.de/tridi.

arxiv情報

著者 Ilya A. Petrov,Riccardo Marin,Julian Chibane,Gerard Pons-Moll
発行日 2025-03-10 15:19:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TriDi: Trilateral Diffusion of 3D Humans, Objects, and Interactions はコメントを受け付けていません

Personalized Generative Low-light Image Denoising and Enhancement

要約

今日のスマートフォンカメラは驚くほど良い写真を生成することができますが、光子ショットノイズとセンサーの読み取りノイズの基本的な制限のため、低光でのパフォーマンスはまだ完全に満足のいくものではありません。
生成画像の修復方法は、従来の方法と比較して有望な結果を示していますが、信号対雑音比(SNR)が低い場合、幻覚のコンテンツ生成に悩まされています。
ユーザーのスマートフォンでパーソナライズされたフォトギャラリーの可用性を認識して、さまざまなユーザー向けにカスタマイズされた拡散モデルを構築することにより、パーソナライズされた生成除化(PGD)を提案します。
私たちのコアイノベーションは、ギャラリーから人の物理的な属性を抽出するアイデンティティ一貫性のある物理バッファーです。
このID無意味の物理バッファーは、微調整を必要とせずに、劣化した画像を復元するために拡散モデルと統合できる強力な事前を提供します。
幅広い低照度テストシナリオにおいて、PGDは、既存の拡散ベースの除去アプローチと比較して、優れた画像の除去および強化パフォーマンスを達成することを示しています。

要約(オリジナル)

While smartphone cameras today can produce astonishingly good photos, their performance in low light is still not completely satisfactory because of the fundamental limits in photon shot noise and sensor read noise. Generative image restoration methods have demonstrated promising results compared to traditional methods, but they suffer from hallucinatory content generation when the signal-to-noise ratio (SNR) is low. Recognizing the availability of personalized photo galleries on users’ smartphones, we propose Personalized Generative Denoising (PGD) by building a diffusion model customized for different users. Our core innovation is an identity-consistent physical buffer that extracts the physical attributes of the person from the gallery. This ID-consistent physical buffer provides a strong prior that can be integrated with the diffusion model to restore the degraded images, without the need of fine-tuning. Over a wide range of low-light testing scenarios, we show that PGD achieves superior image denoising and enhancement performance compared to existing diffusion-based denoising approaches.

arxiv情報

著者 Xijun Wang,Prateek Chennuri,Yu Yuan,Bole Ma,Xingguang Zhang,Stanley Chan
発行日 2025-03-10 15:25:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Personalized Generative Low-light Image Denoising and Enhancement はコメントを受け付けていません

Look Inside for More: Internal Spatial Modality Perception for 3D Anomaly Detection

要約

3D異常検出は最近、コンピュータービジョンに大きな焦点となっています。
いくつかの高度な方法が、満足のいく異常検出パフォーマンスを達成しました。
ただし、通常、3Dサンプルの外部構造に集中し、サンプル内に埋め込まれた内部情報を活用するのに苦労しています。
なぜもっと多くを見るのではないという基本的な直観に触発されて、内部ビューから機能表現を完全に探求するために、内部空間モダリティ知覚〜(ISMP)という名前の簡単な方法を紹介します。
具体的には、提案されているISMPは、重要な知覚モジュールである空間洞察エンジン〜(SIE)で構成されています。
また、構造情報をポイントデータとより適切に調整するために、空間構造の特徴表現を増幅するための拡張キーポイント特徴抽出モジュールを提案します。
同時に、正確な空間構造をさらに調整するために、ノイズと冗長機能を減らすために、新しい機能フィルタリングモジュールが組み込まれています。
広範な実験では、提案された方法の有効性を検証し、それぞれReal3D-ADベンチマークで3.2 \%と13.1 \%のオブジェクトレベルおよびピクセルレベルのAUROC改善を達成します。
SIEの強力な一般化能力は理論的に証明されており、分類タスクとセグメンテーションタスクの両方で検証されていることに注意してください。

要約(オリジナル)

3D anomaly detection has recently become a significant focus in computer vision. Several advanced methods have achieved satisfying anomaly detection performance. However, they typically concentrate on the external structure of 3D samples and struggle to leverage the internal information embedded within samples. Inspired by the basic intuition of why not look inside for more, we introduce a straightforward method named Internal Spatial Modality Perception~(ISMP) to explore the feature representation from internal views fully. Specifically, our proposed ISMP consists of a critical perception module, Spatial Insight Engine~(SIE), which abstracts complex internal information of point clouds into essential global features. Besides, to better align structural information with point data, we propose an enhanced key point feature extraction module for amplifying spatial structure feature representation. Simultaneously, a novel feature filtering module is incorporated to reduce noise and redundant features for further aligning precise spatial structure. Extensive experiments validate the effectiveness of our proposed method, achieving object-level and pixel-level AUROC improvements of 3.2\% and 13.1\%, respectively, on the Real3D-AD benchmarks. Note that the strong generalization ability of SIE has been theoretically proven and is verified in both classification and segmentation tasks.

arxiv情報

著者 Hanzhe Liang,Guoyang Xie,Chengbin Hou,Bingshu Wang,Can Gao,Jinbao Wang
発行日 2025-03-10 15:25:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Look Inside for More: Internal Spatial Modality Perception for 3D Anomaly Detection はコメントを受け付けていません

MGNiceNet: Unified Monocular Geometric Scene Understanding

要約

単眼の幾何学的シーンの理解は、パノプティックセグメンテーションと自己監視の深さ推定を組み合わせて、自律型車両でのリアルタイムアプリケーションに焦点を当てています。
Panopticセグメンテーションと自己補助深度推定にリンクされたカーネル定式化を使用する統一されたアプローチであるMgnicenetを紹介します。
MGNICENETは、最先端のリアルタイムパノプティックセグメンテーション法RT-K-NETに基づいており、パノプティックセグメンテーションと自己補助的な単眼深度推定の両方をカバーするためにアーキテクチャを拡張します。
この目的のために、深さ予測のためにパノプティックパスからの情報を明示的に使用する密接に結合した自己監視深度推定予測子を導入します。
さらに、ビデオパノプティックセグメンテーションの注釈に依存せずに深さ推定を改善するためのパノプティック誘導モーションマスキング法を導入します。
2つの一般的な自動運転データセット、CityscapesとKittiでの方法を評価します。
私たちのモデルは、他のリアルタイムの方法と比較して最先端の結果を示し、計算的により要求の厳しい方法とのギャップを閉じます。
ソースコードと訓練されたモデルは、https://github.com/markusschoen/mgnicenetで入手できます。

要約(オリジナル)

Monocular geometric scene understanding combines panoptic segmentation and self-supervised depth estimation, focusing on real-time application in autonomous vehicles. We introduce MGNiceNet, a unified approach that uses a linked kernel formulation for panoptic segmentation and self-supervised depth estimation. MGNiceNet is based on the state-of-the-art real-time panoptic segmentation method RT-K-Net and extends the architecture to cover both panoptic segmentation and self-supervised monocular depth estimation. To this end, we introduce a tightly coupled self-supervised depth estimation predictor that explicitly uses information from the panoptic path for depth prediction. Furthermore, we introduce a panoptic-guided motion masking method to improve depth estimation without relying on video panoptic segmentation annotations. We evaluate our method on two popular autonomous driving datasets, Cityscapes and KITTI. Our model shows state-of-the-art results compared to other real-time methods and closes the gap to computationally more demanding methods. Source code and trained models are available at https://github.com/markusschoen/MGNiceNet.

arxiv情報

著者 Markus Schön,Michael Buchholz,Klaus Dietmayer
発行日 2025-03-10 15:37:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MGNiceNet: Unified Monocular Geometric Scene Understanding はコメントを受け付けていません

Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation

要約

近年、ビジョン理解ドメインにおけるマルチモーダル大手言語モデル(MLLM)の成功が目撃されています。
これらのモデルの成功は、主に支配的なスケーリング法則に起因する可能性があります。これは、より大きなパラメーターサイズとデータボリュームがパフォーマンスの向上に寄与すると述べています。
特に、データスケーリングは、主にLLMの自己構築を中心とする自動データパイプラインによって駆動されています。
パラダイムはかなり長い間当たり前と考えられてきましたが、これらのデータを使用したスケーリングの有効性の研究は長い間無視されてきました。
これに関連して、この作業は合成データを使用してスケーリングを再検討し、データ中心の観点からVideoLLMの開発に焦点を当てています。
私たちの主な研究アプローチは、ビデオデータを使用した事前訓練を受けた画像LLMを微調整し、データスケーリングを介した学習効率を調査することです。
予備実験の結果は、単にビデオデータサンプルをスケーリングするだけで、学習効率が低いことが明らかになりました。
この問題を目指して、純粋なテキスト命令データのビデオのようなサンプルを統合するSparrowと呼ばれるデータ増強方法を提案します。
これらの合成サンプルをビデオデータと混合すると、より効率的なトレーニングスキームが可能になります。
包括的な実験を通じて、提案された方法が、より多くのサンプルで訓練されたベースラインに匹敵する、またはさらに優れたパフォーマンスを達成することを実証します。
一方、これらの合成サンプルを組み込むと、長いビデオデータでトレーニングせずに長いビデオ理解のパフォーマンスが向上する可能性があることがわかります。
コードとデータの例は、https://github.com/vita-mllm/sparrowで入手できます。

要約(オリジナル)

Recent years have witnessed the success of Multimodal Large Language Models (MLLMs) in the vision understanding domain. The success of these models can largely be attributed to the dominant scaling law, which states that larger parameter sizes and data volumes contribute to better performance. Notably, data scaling has mainly been powered by automatic data pipelines, which center around the self-instruction of LLMs. The paradigm has been taken for granted for quite some time, but the study of the effectiveness of scaling with these data has been neglected for a long time. In this context, this work revisits scaling with synthetic data and focuses on developing video-LLMs from a data-centric perspective. Our main study approach is fine-tuning pre-trained image-LLMs with video data and investigating learning efficiency through data scaling. Results from our preliminary experiments reveal a low learning efficiency phenomenon when simply scaling up video data samples, which, through our probing, can be ascribed to a lack of instruction diversity. Aiming at this issue, we propose a data augmentation method called Sparrow, which synthesizes video-like samples from pure text instruction data. Mixing these synthetic samples with the video data enables a more efficient training scheme. Through comprehensive experiments, we demonstrate that our proposed method achieves performance comparable to or even superior to baselines trained with many more samples. Meanwhile, we find that incorporating these synthetic samples can boost the performance of long video understanding without training with long video data. The code and data examples are available at https://github.com/VITA-MLLM/Sparrow.

arxiv情報

著者 Shukang Yin,Chaoyou Fu,Sirui Zhao,Yunhang Shen,Chunjiang Ge,Yan Yang,Zuwei Long,Yuhan Dai,Yongdong Luo,Haoyu Cao,Tong Xu,Xing Sun,Caifeng Shan,Ran He,Enhong Chen
発行日 2025-03-10 15:44:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation はコメントを受け付けていません

NeAS: 3D Reconstruction from X-ray Images using Neural Attenuation Surface

要約

2次元(2D)X線画像からの3次元(3D)構造の再構築は、コンピューター断層撮影スキャンよりも少ない放射線曝露を必要とする医療用途での貴重で効率的な手法です。
暗黙の神経表現を使用する最近のアプローチにより、まばらなX線画像からの新しいビューの合成が可能になりました。
ただし、画像合成により精度が向上しましたが、表面形状の推定の精度は不十分なままです。
したがって、表面のジオメトリと減衰係数フィールドを同時にキャプチャする神経減衰面(NEA)を使用して3Dシーンを再構築するための新しいアプローチを提案します。
NEASには、署名された距離関数(SDF)が組み込まれています。これは、シーン内の3D表面を抽出する際に減衰フィールドを定義し、AIDSを支援します。
シミュレートされた本物のX線画像を使用して実験を行い、結果は、NEAが2D X線画像のみを使用してシーン内で3D表面を正確に抽出できることを実証しました。

要約(オリジナル)

Reconstructing three-dimensional (3D) structures from two-dimensional (2D) X-ray images is a valuable and efficient technique in medical applications that requires less radiation exposure than computed tomography scans. Recent approaches that use implicit neural representations have enabled the synthesis of novel views from sparse X-ray images. However, although image synthesis has improved the accuracy, the accuracy of surface shape estimation remains insufficient. Therefore, we propose a novel approach for reconstructing 3D scenes using a Neural Attenuation Surface (NeAS) that simultaneously captures the surface geometry and attenuation coefficient fields. NeAS incorporates a signed distance function (SDF), which defines the attenuation field and aids in extracting the 3D surface within the scene. We conducted experiments using simulated and authentic X-ray images, and the results demonstrated that NeAS could accurately extract 3D surfaces within a scene using only 2D X-ray images.

arxiv情報

著者 Chengrui Zhu,Ryoichi Ishikawa,Masataka Kagesawa,Tomohisa Yuzawa,Toru Watsuji,Takeshi Oishi
発行日 2025-03-10 16:11:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | NeAS: 3D Reconstruction from X-ray Images using Neural Attenuation Surface はコメントを受け付けていません

V2Flow: Unifying Visual Tokenization and Large Language Model Vocabularies for Autoregressive Image Generation

要約

V2Flowを提案します。これは、高忠実度の再構成が可能な離散視覚トークンを生成し、大規模な言語モデル(LLMS)の語彙空間と構造的および潜在的な分布の整合を確保します。
この緊密な視覚的なボキャブラリーカップリングを活用すると、V2Flowは既存のLLMの上に自己回帰視覚生成を可能にします。
私たちのアプローチは、LLMSの語彙空間内に埋め込まれたトークンシーケンスに条件付けられた連続画像分布の前に標準の通常からのマッピングを学習することを目的とした、フローマッチングの問題として視覚トークン化を定式化します。
V2Flowの有効性は、2つのコアデザインから生じます。
まず、視覚的なボキャブラリーの再サンプラーを提案します。これは、視覚データをコンパクトなトークンシーケンスに圧縮し、それぞれがLLMの語彙上のソフトカテゴリ分布として表されます。
これにより、視覚的なトークンを既存のLLMにシームレスに統合して、自己回帰の視覚生成が可能になります。
第二に、マスクされた自動脱体性の修正フローデコーダーを提示し、マスクされたトランスエンコーダーデコーダーを使用して、視覚的なトークンを文脈的に濃縮した埋め込みに洗練させます。
これらの埋め込みは、正確な再構成のために専用の速度フィールドを条件付けます。
さらに、自己回帰整流フローサンプリング戦略が組み込まれており、競争力のある再構築品質を維持しながら、柔軟なシーケンスの長さを確保します。
広範な実験では、V2Flowが主流のVQベースのトーナイザーを上回り、既存の上に自己回帰の視覚生成を促進することが示されています。
https://github.com/zhangguiwei610/v2flow

要約(オリジナル)

We propose V2Flow, a novel tokenizer that produces discrete visual tokens capable of high-fidelity reconstruction, while ensuring structural and latent distribution alignment with the vocabulary space of large language models (LLMs). Leveraging this tight visual-vocabulary coupling, V2Flow enables autoregressive visual generation on top of existing LLMs. Our approach formulates visual tokenization as a flow-matching problem, aiming to learn a mapping from a standard normal prior to the continuous image distribution, conditioned on token sequences embedded within the LLMs vocabulary space. The effectiveness of V2Flow stems from two core designs. First, we propose a Visual Vocabulary resampler, which compresses visual data into compact token sequences, with each represented as a soft categorical distribution over LLM’s vocabulary. This allows seamless integration of visual tokens into existing LLMs for autoregressive visual generation. Second, we present a masked autoregressive Rectified-Flow decoder, employing a masked transformer encoder-decoder to refine visual tokens into contextually enriched embeddings. These embeddings then condition a dedicated velocity field for precise reconstruction. Additionally, an autoregressive rectified-flow sampling strategy is incorporated, ensuring flexible sequence lengths while preserving competitive reconstruction quality. Extensive experiments show that V2Flow outperforms mainstream VQ-based tokenizers and facilitates autoregressive visual generation on top of existing. https://github.com/zhangguiwei610/V2Flow

arxiv情報

著者 Guiwei Zhang,Tianyu Zhang,Mohan Zhou,Yalong Bai,Biye Li
発行日 2025-03-10 16:12:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | V2Flow: Unifying Visual Tokenization and Large Language Model Vocabularies for Autoregressive Image Generation はコメントを受け付けていません

AthletePose3D: A Benchmark Dataset for 3D Human Pose Estimation and Kinematic Validation in Athletic Movements

要約

人間のポーズ推定は、スポーツ科学、リハビリテーション、および生体力学的研究にまたがるアプリケーションを備えたコンピュータービジョンとスポーツの生体力学における重要なタスクです。
単眼3Dポーズ推定では大きな進歩がありましたが、現在のデータセットは、競争力のあるスポーツに典型的な複雑で高加速運動をキャプチャできないことがよくあります。
この作業では、このギャップに対処するために設計された新しいデータセットであるAthletepose3Dを紹介します。
Athletepose3Dには、さまざまな分野にわたる12種類のスポーツモーションが含まれており、約130万のフレームと165,000の個別の姿勢があり、特に高速で高加速運動運動を獲得しています。
データセット上の最先端の(SOTA)単眼2Dおよび3Dポーズ推定モデルを評価し、従来のデータセットでトレーニングされたモデルが運動式の動きでパフォーマンスが低いことを明らかにします。
ただし、Athletepose3Dでこれらのモデルを微調整すると、69%を超える69%を超える、214mm(MPJPE)あたりのSOTAモデル平均(MPJPE)が214mmから65mm-Aの減少を顕著に減少させます。
また、波形分析を通じて単眼のポーズ推定の運動学的精度を検証し、関節角の推定における強い相関関係を強調しますが、速度推定では制限を強調します。
私たちの仕事は、スポーツの文脈における単眼のポーズ推定モデルの包括的な評価を提供し、高性能スポーツ環境で単眼のポーズ推定技術を進めるための貴重な洞察を提供します。
データセット、コード、およびモデルチェックポイントは、https://github.com/calvinyeungck/athletepose3dで入手できます。

要約(オリジナル)

Human pose estimation is a critical task in computer vision and sports biomechanics, with applications spanning sports science, rehabilitation, and biomechanical research. While significant progress has been made in monocular 3D pose estimation, current datasets often fail to capture the complex, high-acceleration movements typical of competitive sports. In this work, we introduce AthletePose3D, a novel dataset designed to address this gap. AthletePose3D includes 12 types of sports motions across various disciplines, with approximately 1.3 million frames and 165 thousand individual postures, specifically capturing high-speed, high-acceleration athletic movements. We evaluate state-of-the-art (SOTA) monocular 2D and 3D pose estimation models on the dataset, revealing that models trained on conventional datasets perform poorly on athletic motions. However, fine-tuning these models on AthletePose3D notably reduces the SOTA model mean per joint position error (MPJPE) from 214mm to 65mm-a reduction of over 69%. We also validate the kinematic accuracy of monocular pose estimations through waveform analysis, highlighting strong correlations in joint angle estimations but limitations in velocity estimation. Our work provides a comprehensive evaluation of monocular pose estimation models in the context of sports, contributing valuable insights for advancing monocular pose estimation techniques in high-performance sports environments. The dataset, code, and model checkpoints are available at: https://github.com/calvinyeungck/AthletePose3D

arxiv情報

著者 Calvin Yeung,Tomohiro Suzuki,Ryota Tanaka,Zhuoer Yin,Keisuke Fujii
発行日 2025-03-10 16:16:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AthletePose3D: A Benchmark Dataset for 3D Human Pose Estimation and Kinematic Validation in Athletic Movements はコメントを受け付けていません

Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts

要約

推論セグメンテーションは、複雑で暗黙的な、さらには非視覚クエリテキストに関して、セグメンテーションマスクを出力することを目的とする挑戦的なビジョン言語タスクです。
以前の作品は、困難な問題にアプローチするために、マルチモーダルラージランゲージモデル(MLLMS)をセグメンテーションモデルに組み込みました。
ただし、特に複雑な構造、ぼやけた境界、閉塞、または周囲との高い類似性を備えたドメイン外のオブジェクトを扱う場合、それらのセグメンテーションの品質はしばしば不足しています。
この論文では、これらの挑戦的なケースに対処するためにGPTの考え方を活用するトレーニングなしの推論セグメンテーションフレームワークであるThinkfirstを紹介します。
私たちのアプローチにより、GPT-4Oまたは他の強力なMLLMが画像の詳細なチェーンの説明を生成することができます。
次に、この要約された説明は、セグメンテーションプロセスを支援するために、言語にインストールされたセグメンテーションアシスタントに渡されます。
当社のフレームワークにより、ユーザーは、簡単なテキストや画像の落書きなどのマルチモーダル入力を使用して、連続した改良や通信を使用して、セグメンテーションエージェントと簡単に対話できます。
多様なオブジェクトのThinkFirstのパフォーマンスを評価します。
広範な実験によれば、このゼロショットコットアプローチは、最初に考えた後、ユーザーが提供するプロンプトに対して敏感または重要である一方で、定性的および定量的にバニラ推論セグメンテーションエージェントを大幅に改善することが示されています。

要約(オリジナル)

Reasoning segmentation is a challenging vision-language task that aims to output the segmentation mask with respect to a complex, implicit, and even non-visual query text. Previous works incorporated multimodal Large Language Models (MLLMs) with segmentation models to approach the difficult problem. However, their segmentation quality often falls short in complex cases, particularly when dealing with out-of-domain objects with intricate structures, blurry boundaries, occlusions, or high similarity with surroundings. In this paper, we introduce ThinkFirst, a training-free reasoning segmentation framework that leverages GPT’s chain of thought to address these challenging cases. Our approach allows GPT-4o or other powerful MLLMs to generate a detailed, chain-of-thought description of an image. This summarized description is then passed to a language-instructed segmentation assistant to aid the segmentation process. Our framework allows users to easily interact with the segmentation agent using multimodal inputs, such as easy text and image scribbles, for successive refinement or communication. We evaluate the performance of ThinkFirst on diverse objects. Extensive experiments show that, this zero-shot-CoT approach significantly improves the vanilla reasoning segmentation agent, both qualitatively and quantitatively, while being less sensitive or critical to user-supplied prompts after Thinking First.

arxiv情報

著者 Shiu-hong Kao,Yu-Wing Tai,Chi-Keung Tang
発行日 2025-03-10 16:26:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts はコメントを受け付けていません

ADROIT: A Self-Supervised Framework for Learning Robust Representations for Active Learning

要約

Active Learningは、ラベル付けに最適なサンプルを選択し、注釈コストを最小限に抑えることを目的としています。
このペーパーでは、タスク認識を備えたアクティブ学習に合わせた統一された表現学習フレームワークを紹介します。
再建、敵対的、自己監視、知識の抵抗、および分類損失を統合されたVAEベースのアドロイトアプローチに含む多様なソースを統合します。
提案されたアプローチは、3つの重要なコンポーネントで構成されています。統一表現ジェネレーター(VAE)、状態識別器、および(プロキシ)タスク学習者または分類器です。
Adroitは、ラベル付きデータと非標識データの両方を使用して潜在コードを学習し、ラベル付きデータをプロキシ分類子と活用することにより、タスク認識を組み込みます。
以前のアプローチとは異なり、Proxy分類器はさらに、ラベル付けされていないデータで自己監視された損失を採用し、ターゲットタスク学習者と整合するために知識の蒸留を利用します。
状態識別者は、ラベル付きデータと非標識データを区別し、有益な非標識サンプルの選択を促進します。
VAEと国家差別因子の間の動的な相互作用は、VAEが差別者を欺こうとする競争環境を作成し、州の判別者は、ラベル付きの入力と非標識入力を区別することを学びます。
多様なデータセットとアブレーション分析に関する広範な評価は、提案されたモデルの有効性を確認します。

要約(オリジナル)

Active learning aims to select optimal samples for labeling, minimizing annotation costs. This paper introduces a unified representation learning framework tailored for active learning with task awareness. It integrates diverse sources, comprising reconstruction, adversarial, self-supervised, knowledge-distillation, and classification losses into a unified VAE-based ADROIT approach. The proposed approach comprises three key components – a unified representation generator (VAE), a state discriminator, and a (proxy) task-learner or classifier. ADROIT learns a latent code using both labeled and unlabeled data, incorporating task-awareness by leveraging labeled data with the proxy classifier. Unlike previous approaches, the proxy classifier additionally employs a self-supervised loss on unlabeled data and utilizes knowledge distillation to align with the target task-learner. The state discriminator distinguishes between labeled and unlabeled data, facilitating the selection of informative unlabeled samples. The dynamic interaction between VAE and the state discriminator creates a competitive environment, with the VAE attempting to deceive the discriminator, while the state discriminator learns to differentiate between labeled and unlabeled inputs. Extensive evaluations on diverse datasets and ablation analysis affirm the effectiveness of the proposed model.

arxiv情報

著者 Soumya Banerjee,Vinay Kumar Verma
発行日 2025-03-10 16:28:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | ADROIT: A Self-Supervised Framework for Learning Robust Representations for Active Learning はコメントを受け付けていません