VIViT: Variable-Input Vision Transformer Framework for 3D MR Image Segmentation

要約

自己監視された前のテクニックは、ダウンストリームタスクのパフォーマンスを改善するために広く使用されています。
ただし、現実世界の磁気共鳴(MR)研究は通常、さまざまな取得プロトコルによる異なるコントラストのセットで構成されており、これらの方法は通常、入力モダリティの固定セットまたはコントラストを必要とするため、大規模な前からの異なるダウンストリームタスクの現在の深い学習方法と異なる入力要件の異なる下流タスクの課題をもたらします。
この課題に対処するために、各研究でさまざまなコントラストのために自己監視前の事前削減とセグメンテーションの微調整のために設計された変圧器ベースのフレームワークである可変入力VIT(VIVIT)を提案します。
この能力により、当社のアプローチは、プレレインのデータの可用性を最大化することができ、入力要件のばらつきにもかかわらず、学習した知識をプレレインから下流のタスクに転送できます。
脳の梗塞と脳腫瘍のセグメンテーションに関する方法を検証します。ここでは、それぞれ平均DICEスコアが0.624と0.883の現在のCNNおよびVITベースのモデルよりも優れています。
これらの結果は、実際の不均一なMRデータを使用したタスクでの適応性とパフォーマンスを向上させるための設計の有効性を強調しています。

要約(オリジナル)

Self-supervised pretrain techniques have been widely used to improve the downstream tasks’ performance. However, real-world magnetic resonance (MR) studies usually consist of different sets of contrasts due to different acquisition protocols, which poses challenges for the current deep learning methods on large-scale pretrain and different downstream tasks with different input requirements, since these methods typically require a fixed set of input modalities or, contrasts. To address this challenge, we propose variable-input ViT (VIViT), a transformer-based framework designed for self-supervised pretraining and segmentation finetuning for variable contrasts in each study. With this ability, our approach can maximize the data availability in pretrain, and can transfer the learned knowledge from pretrain to downstream tasks despite variations in input requirements. We validate our method on brain infarct and brain tumor segmentation, where our method outperforms current CNN and ViT-based models with a mean Dice score of 0.624 and 0.883 respectively. These results highlight the efficacy of our design for better adaptability and performance on tasks with real-world heterogeneous MR data.

arxiv情報

著者 Badhan Kumar Das,Ajay Singh,Gengyan Zhao,Han Liu,Thomas J. Re,Dorin Comaniciu,Eli Gibson,Andreas Maier
発行日 2025-05-13 15:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | VIViT: Variable-Input Vision Transformer Framework for 3D MR Image Segmentation はコメントを受け付けていません

SPAST: Arbitrary Style Transfer with Style Priors via Pre-trained Large-scale Model

要約

任意のコンテンツとスタイルのイメージを考えると、任意のスタイルの転送は、コンテンツ画像の構造を保持し、スタイルのイメージのスタイルを所有する新しい様式化された画像をレンダリングすることを目的としています。
既存の任意のスタイル転送方法は、小さなモデルまたは事前に訓練された大規模モデルのいずれかに基づいています。
小さなモデルベースの方法は、高品質の様式化された画像を生成できず、アーティファクトと不調和なパターンをもたらします。
事前に訓練された大規模なモデルベースの方法は、高品質の様式化された画像を生成できますが、コンテンツ構造を維持し、長い推論時間を維持するのに苦労します。
この目的のために、スパストと呼ばれる新しいフレームワークを提案して、推論時間が短い高品質の様式化された画像を生成します。
具体的には、新しいローカルグローバルウィンドウサイズのスタイリライゼーションモジュール(LGWSSM)の騒々しいスタイルの機能をコンテンツ機能に設計します。
それに加えて、私たちは、事前に訓練された大規模なモデルからスパストにスタイルのプライアーを掘り下げ、短い推論時間で高品質の様式化された画像を生成するように動機づけることができる新しいスタイルの事前損失を導入します。私たちの提案された方法が高品質の様式化された画像を生成することができることを確認するために、豊富な実験を実施します。

要約(オリジナル)

Given an arbitrary content and style image, arbitrary style transfer aims to render a new stylized image which preserves the content image’s structure and possesses the style image’s style. Existing arbitrary style transfer methods are based on either small models or pre-trained large-scale models. The small model-based methods fail to generate high-quality stylized images, bringing artifacts and disharmonious patterns. The pre-trained large-scale model-based methods can generate high-quality stylized images but struggle to preserve the content structure and cost long inference time. To this end, we propose a new framework, called SPAST, to generate high-quality stylized images with less inference time. Specifically, we design a novel Local-global Window Size Stylization Module (LGWSSM)tofuse style features into content features. Besides, we introduce a novel style prior loss, which can dig out the style priors from a pre-trained large-scale model into the SPAST and motivate the SPAST to generate high-quality stylized images with short inference time.We conduct abundant experiments to verify that our proposed method can generate high-quality stylized images and less inference time compared with the SOTA arbitrary style transfer methods.

arxiv情報

著者 Zhanjie Zhang,Quanwei Zhang,Junsheng Luan,Mengyuan Yang,Yun Wang,Lei Zhao
発行日 2025-05-13 15:54:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SPAST: Arbitrary Style Transfer with Style Priors via Pre-trained Large-scale Model はコメントを受け付けていません

Controllable Image Colorization with Instance-aware Texts and Masks

要約

最近、画像色に深い学習を適用することは、広範囲にわたる注目を集めています。
拡散モデルの成熟により、画像色付けモデルの開発がさらに進歩しました。
ただし、現在の主流の画像色付けモデルは、色の出血や色結合エラーなどの問題に依然として問題に直面しており、インスタンスレベルで画像を色付けすることはできません。
この論文では、使用されたガイダンスを使用して正確なインスタンスを意識した色付けを実現するために、拡散ベースの色彩法mt色を提案します。
色の出血の問題に取り組むために、潜在的な特徴と条件付き灰色の画像の特徴を横断的な出来事で統合するピクセルレベルのマスク注意メカニズムを設計します。
セグメンテーションマスクを使用して横断マスクを構築し、ピクセル情報が異なるインスタンス間で交換するのを防ぎます。
また、各インスタンスのインスタンスマスクとテキスト表現を抽出するインスタンスマスクとテキストガイダンスモジュールを紹介します。これらは、自己触媒を通じて潜在的な特徴と融合し、インスタンスマスクを利用して自己触媒マスクを形成して、インスタンステキストが他の領域の色を導くのを防ぎ、色拘束誤差を軽減します。
さらに、各インスタンス領域を個別にサンプリングしてから結果を融合するマルチインスタンスサンプリング戦略を適用します。
さらに、既存の画像データセットで大きな視覚言語モデルを活用することにより、たとえばレベルの色素化タスクであるGPT-Colorの専門データセットを作成しました。
定性的および定量的実験は、モデルとデータセットが以前の方法とデータセットを上回ることを示しています。

要約(オリジナル)

Recently, the application of deep learning in image colorization has received widespread attention. The maturation of diffusion models has further advanced the development of image colorization models. However, current mainstream image colorization models still face issues such as color bleeding and color binding errors, and cannot colorize images at the instance level. In this paper, we propose a diffusion-based colorization method MT-Color to achieve precise instance-aware colorization with use-provided guidance. To tackle color bleeding issue, we design a pixel-level mask attention mechanism that integrates latent features and conditional gray image features through cross-attention. We use segmentation masks to construct cross-attention masks, preventing pixel information from exchanging between different instances. We also introduce an instance mask and text guidance module that extracts instance masks and text representations of each instance, which are then fused with latent features through self-attention, utilizing instance masks to form self-attention masks to prevent instance texts from guiding the colorization of other areas, thus mitigating color binding errors. Furthermore, we apply a multi-instance sampling strategy, which involves sampling each instance region separately and then fusing the results. Additionally, we have created a specialized dataset for instance-level colorization tasks, GPT-color, by leveraging large visual language models on existing image datasets. Qualitative and quantitative experiments show that our model and dataset outperform previous methods and datasets.

arxiv情報

著者 Yanru An,Ling Gui,Qiang Hu,Chunlei Cai,Tianxiao Ye,Xiaoyun Zhang,Yanfeng Wang
発行日 2025-05-13 16:13:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Controllable Image Colorization with Instance-aware Texts and Masks はコメントを受け付けていません

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

要約

画像テキストペアデータと比較して、インターリーブコーポラは、ビジョン言語モデル(VLM)を可能にし、人間のように世界をより自然に理解できます。
ただし、このような既存のデータセットは、Webページからrawいされ、知識の密度が低く、画像テキストの関係が緩んだ、画像間の論理的一貫性が低いなどの課題に直面しています。
一方、インターネットは、人間が基本的な主題を学ぶために広く使用されている膨大な教育ビデオ(オンラインジオメトリコースなど)をホストしていますが、これらの貴重なリソースはVLMトレーニングでは採用されていないままです。
このホワイトペーパーでは、VLM事前化の豊富な基礎知識を持つ高品質の\ TextBF {Multimodal Textbook}コーパスを紹介します。
2。5年以上の教育ビデオを収集し、合計22,000時間の授業時間です。
最初にLLMプロポーション分類法を使用して、教育ビデオを体系的に収集します。
次に、ビデオから視覚(キーフレーム)、オーディオ(ASR)、およびテキスト知識(OCR)を徐々に抽出および改良し、時間的順序に基づいて画像テキストインターリーブコーパスとして整理します。
カウンターパートと比較して、私たちのビデオ中心の教科書は、より首尾一貫したコンテキスト、より豊かな知識、より良い画像テキストのアラインメントを提供します。
実験は、特にScienceQAやMathvistaなどの知識と推論集約型のタスクにおいて、その素晴らしい事前トレーニングパフォーマンスを示しています。
さらに、私たちの教科書で事前に訓練されたVLMは、タスク解決のための少数のショットコンテキストで視覚的およびテキストの手がかりを活用して、傑出したインターリーブコンテキストの認識を示しています。
当社のコードは、https://github.com/damo-nlp-sg/multimodal_textbookで入手できます。

要約(オリジナル)

Compared to image-text pair data, interleaved corpora enable Vision-Language Models (VLMs) to understand the world more naturally like humans. However, such existing datasets are crawled from webpage, facing challenges like low knowledge density, loose image-text relations, and poor logical coherence between images. On the other hand, the internet hosts vast instructional videos (e.g., online geometry courses) that are widely used by humans to learn foundational subjects, yet these valuable resources remain underexplored in VLM training. In this paper, we introduce a high-quality \textbf{multimodal textbook} corpus with richer foundational knowledge for VLM pretraining. It collects over 2.5 years of instructional videos, totaling 22,000 class hours. We first use an LLM-proposed taxonomy to systematically gather instructional videos. Then we progressively extract and refine visual (keyframes), audio (ASR), and textual knowledge (OCR) from the videos, and organize as an image-text interleaved corpus based on temporal order. Compared to its counterparts, our video-centric textbook offers more coherent context, richer knowledge, and better image-text alignment. Experiments demonstrate its superb pretraining performance, particularly in knowledge- and reasoning-intensive tasks like ScienceQA and MathVista. Moreover, VLMs pre-trained on our textbook exhibit outstanding interleaved context awareness, leveraging visual and textual cues in their few-shot context for task solving. Our code are available at https://github.com/DAMO-NLP-SG/multimodal_textbook.

arxiv情報

著者 Wenqi Zhang,Hang Zhang,Xin Li,Jiashuo Sun,Yongliang Shen,Weiming Lu,Deli Zhao,Yueting Zhuang,Lidong Bing
発行日 2025-05-13 16:29:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | 2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining はコメントを受け付けていません

Unsupervised Urban Land Use Mapping with Street View Contrastive Clustering and a Geographical Prior

要約

都市の土地利用の分類とマッピングは、都市計画、資源管理、環境監視に不可欠です。
既存のリモートセンシング技術は、地上レベルの詳細がないため、複雑な都市環境の精度を欠いていることがよくあります。
空中の視点とは異なり、ストリートビュー画像は、複雑な都市シーンでの土地利用に関連するより人間的および社会的活動を捉える地上レベルのビューを提供します。
既存のストリートビューベースの方法は、主に監視された分類に依存しています。これは、高品質のラベル付きデータの希少性と、多様な都市景観全体に一般化することの難しさに挑戦しています。
この研究では、クラスタリングパフォーマンスを向上させるために、地理的な事前に組み込まれたストリートビュー画像の監視されていないコントラストクラスタリングモデルを紹介します。
クラスターの単純な視覚的割り当てと組み合わせると、このアプローチは、都市計画者の特定のニーズに合わせた土地利用マッピングに対する柔軟でカスタマイズ可能なソリューションを提供します。
私たちの方法は、2つの都市のジオタグ付きストリートビュー画像データセットから土地利用地図を生成できることを実験的に示します。
私たちの方法論は、地理空間データの普遍的な空間的一貫性(「Tobler’s Law」)に依存しているため、Street View画像が利用可能なさまざまな設定に適合させることができ、スケーラブルで監視されていない土地使用マッピングと更新を可能にします。
コードはhttps://github.com/lin102/ccgpで入手できます。

要約(オリジナル)

Urban land use classification and mapping are critical for urban planning, resource management, and environmental monitoring. Existing remote sensing techniques often lack precision in complex urban environments due to the absence of ground-level details. Unlike aerial perspectives, street view images provide a ground-level view that captures more human and social activities relevant to land use in complex urban scenes. Existing street view-based methods primarily rely on supervised classification, which is challenged by the scarcity of high-quality labeled data and the difficulty of generalizing across diverse urban landscapes. This study introduces an unsupervised contrastive clustering model for street view images with a built-in geographical prior, to enhance clustering performance. When combined with a simple visual assignment of the clusters, our approach offers a flexible and customizable solution to land use mapping, tailored to the specific needs of urban planners. We experimentally show that our method can generate land use maps from geotagged street view image datasets of two cities. As our methodology relies on the universal spatial coherence of geospatial data (‘Tobler’s law’), it can be adapted to various settings where street view images are available, to enable scalable, unsupervised land use mapping and updating. The code will be available at https://github.com/lin102/CCGP.

arxiv情報

著者 Lin Che,Yizi Chen,Tanhua Jin,Martin Raubal,Konrad Schindler,Peter Kiefer
発行日 2025-05-13 16:31:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Unsupervised Urban Land Use Mapping with Street View Contrastive Clustering and a Geographical Prior はコメントを受け付けていません

RT-GAN: Recurrent Temporal GAN for Adding Lightweight Temporal Consistency to Frame-Based Domain Translation Approaches

要約

米国では毎年1,400万件の大腸内視鏡検査が行われていますが、これらの大腸内視鏡検査のビデオは、ストレージの制約のために保存されていません(高解像度大腸内視鏡カメラの各ビデオは数十ギガバイトである可能性があります)。
代わりに、いくつかの関連する個々のフレームがドキュメント/レポートの目的で保存され、これらは現在の大腸内視鏡検査AIモデルがトレーニングされているフレームです。
大腸内視鏡検査のための新しい監視されていないドメイン翻訳方法を開発している間(例えば、実際の光学と仮想/CT大腸内視鏡検査を翻訳するため)、一時的な一貫性なしに個々のフレームに対して最初に機能するアプローチから始めることが典型的です。
個別フレームモデルが完成すると、追加の連続的なフレームが変更されたディープラーニングアーキテクチャを追加して、一時的な一貫性のために新しいモデルをゼロからトレーニングします。
ただし、一時的に一貫性のある深い学習モデルへのこの移行には、トレーニングのために大幅に多くの計算リソースとメモリリソースが必要です。
このホワイトペーパーでは、調整可能な時間パラメーターであるRT-GAN(Recurrent時間GAN)を備えた軽量ソリューションを提示します。これにより、個々のフレームベースのアプローチに時間的一貫性を追加して、トレーニング要件を5倍に削減します。結腸鏡検査での2つの挑戦的なユースケースでのアプローチの有効性を実証します。
また、上記のユースケースの大腸内視鏡検査用の最初の種類の時間データセットをリリースします。
データセット、付随するコード、および事前に処理されたモデルは、計算内視鏡検査プラットフォームGithub(https://github.com/nadeemlab/cep)で利用可能になります。
補足ビデオは、https://youtu.be/umvp-uixwwkで入手できます。

要約(オリジナル)

Fourteen million colonoscopies are performed annually just in the U.S. However, the videos from these colonoscopies are not saved due to storage constraints (each video from a high-definition colonoscope camera can be in tens of gigabytes). Instead, a few relevant individual frames are saved for documentation/reporting purposes and these are the frames on which most current colonoscopy AI models are trained on. While developing new unsupervised domain translation methods for colonoscopy (e.g. to translate between real optical and virtual/CT colonoscopy), it is thus typical to start with approaches that initially work for individual frames without temporal consistency. Once an individual-frame model has been finalized, additional contiguous frames are added with a modified deep learning architecture to train a new model from scratch for temporal consistency. This transition to temporally-consistent deep learning models, however, requires significantly more computational and memory resources for training. In this paper, we present a lightweight solution with a tunable temporal parameter, RT-GAN (Recurrent Temporal GAN), for adding temporal consistency to individual frame-based approaches that reduces training requirements by a factor of 5. We demonstrate the effectiveness of our approach on two challenging use cases in colonoscopy: haustral fold segmentation (indicative of missed surface) and realistic colonoscopy simulator video generation. We also release a first-of-its kind temporal dataset for colonoscopy for the above use cases. The datasets, accompanying code, and pretrained models will be made available on our Computational Endoscopy Platform GitHub (https://github.com/nadeemlab/CEP). The supplementary video is available at https://youtu.be/UMVP-uIXwWk.

arxiv情報

著者 Shawn Mathew,Saad Nadeem,Alvin C. Goh,Arie Kaufman
発行日 2025-05-13 16:31:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | RT-GAN: Recurrent Temporal GAN for Adding Lightweight Temporal Consistency to Frame-Based Domain Translation Approaches はコメントを受け付けていません

TiMo: Spatiotemporal Foundation Model for Satellite Image Time Series

要約

衛星画像の時系列(SITS)は、地球の表面の継続的な観測を提供し、環境管理や災害評価などの用途に不可欠です。
ただし、既存の空間的基礎モデルは、土地オブジェクト間のマルチスケール空間的関係を明示的にキャプチャすることなく、一時的なシーケンス全体をエンコードするプレーンビジョン変圧器に依存しています。
この制限は、ダウンストリームタスクでの有効性を妨げます。
この課題を克服するために、SITS分析に合わせて調整された新しい階層Vision Transformer FoundationモデルであるTimoを提案します。
そのコアでは、時間と空間の両方で進化するマルチスケールパターンを動的にキャプチャする空間的ジャイロスコープの注意メカニズムを導入します。
トレーニング前の場合、100,000の地理的場所から100万の画像の大規模なデータセットであるMillionstをキュレートします。それぞれが5年間で10の時間段階にわたってキャプチャされ、多様な地理空間の変化と季節変動を網羅しています。
このデータセットを活用して、マスクされた画像モデリングをトレイン前のティモに適応させ、一般化可能な空間的表現を効果的に学習してエンコードできるようにします。複数の空間的タスクにわたって拡張された実験 – 森林被覆のセグメンテーション、作物タイプの分類、および洪水検出を妨害する乱れを除く。
コード、モデル、およびデータセットは、https://github.com/mililab/timoでリリースされます。

要約(オリジナル)

Satellite image time series (SITS) provide continuous observations of the Earth’s surface, making them essential for applications such as environmental management and disaster assessment. However, existing spatiotemporal foundation models rely on plain vision transformers, which encode entire temporal sequences without explicitly capturing multiscale spatiotemporal relationships between land objects. This limitation hinders their effectiveness in downstream tasks. To overcome this challenge, we propose TiMo, a novel hierarchical vision transformer foundation model tailored for SITS analysis. At its core, we introduce a spatiotemporal gyroscope attention mechanism that dynamically captures evolving multiscale patterns across both time and space. For pre-training, we curate MillionST, a large-scale dataset of one million images from 100,000 geographic locations, each captured across 10 temporal phases over five years, encompassing diverse geospatial changes and seasonal variations. Leveraging this dataset, we adapt masked image modeling to pre-train TiMo, enabling it to effectively learn and encode generalizable spatiotemporal representations.Extensive experiments across multiple spatiotemporal tasks-including deforestation monitoring, land cover segmentation, crop type classification, and flood detection-demonstrate TiMo’s superiority over state-of-the-art methods. Code, model, and dataset will be released at https://github.com/MiliLab/TiMo.

arxiv情報

著者 Xiaolei Qin,Di Wang,Jing Zhang,Fengxiang Wang,Xin Su,Bo Du,Liangpei Zhang
発行日 2025-05-13 16:35:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TiMo: Spatiotemporal Foundation Model for Satellite Image Time Series はコメントを受け付けていません

Hierarchical and Multimodal Data for Daily Activity Understanding

要約

人工知能の毎日の活動記録(ダライ、「ダーリー」と発音)は、現実世界の設定で人間の活動を理解するために構築されたマルチモーダルの階層的に注釈付きのデータセットです。
Daraiは、10の異なる環境で50人の参加者を対象とした連続スクリプト化されたスクリプト化されていない録画で構成されており、複数のカメラビュー、深さおよびレーダーセンサー、ウェアラブル慣性測定単位(IMU)、株式撮影(EMG)、インソール圧力センサー、バイオモニターセンサー、および視線トラッカーを含む20のセンサーからの合計200時間以上のデータがあります。
人間の活動の複雑さを捉えるために、ダライは3つのレベルの階層で注釈が付けられています。(i)独立したタスクである高レベルの活動(L1)、(ii)アクティビティ間で共有されるパターンである低レベルのアクション(L2)、および(iii)アクションの正確な実行ステップを詳述する微細に粒度の手順(L3)。
データセットの注釈と記録は、L2アクションの22.7%がL1アクティビティ間で共有され、L3手順の14.2%がL2アクション間で共有されるように設計されています。
Daraiのオーバーラップとスクリプトの性質により、データセット内の反事実的なアクティビティが可能になります。
さまざまな機械学習モデルを使用した実験では、人間中心のアプリケーションにおける重要な課題を明らかにする際のダライの価値を示しています。
具体的には、すべての階層的な注釈レベルで認識、時間的局在、および将来のアクション予測のために、単峰性およびマルチモーダルセンサー融合実験を実施します。
個々のセンサーの制限を強調するために、Daraiのマルチセンサーおよび反事実的なアクティビティ設計の設計によって有効になっているドメイン変数実験も実施します。
コード、ドキュメンテーション、およびデータセットは、専用のDarai Webサイト(https://alregib.ece.gatech.edu/software-and-datasets/darai-daily-activity-recordings-for-tilificial-intelligence-and-machine-learning/

要約(オリジナル)

Daily Activity Recordings for Artificial Intelligence (DARai, pronounced ‘Dahr-ree’) is a multimodal, hierarchically annotated dataset constructed to understand human activities in real-world settings. DARai consists of continuous scripted and unscripted recordings of 50 participants in 10 different environments, totaling over 200 hours of data from 20 sensors including multiple camera views, depth and radar sensors, wearable inertial measurement units (IMUs), electromyography (EMG), insole pressure sensors, biomonitor sensors, and gaze tracker. To capture the complexity in human activities, DARai is annotated at three levels of hierarchy: (i) high-level activities (L1) that are independent tasks, (ii) lower-level actions (L2) that are patterns shared between activities, and (iii) fine-grained procedures (L3) that detail the exact execution steps for actions. The dataset annotations and recordings are designed so that 22.7% of L2 actions are shared between L1 activities and 14.2% of L3 procedures are shared between L2 actions. The overlap and unscripted nature of DARai allows counterfactual activities in the dataset. Experiments with various machine learning models showcase the value of DARai in uncovering important challenges in human-centered applications. Specifically, we conduct unimodal and multimodal sensor fusion experiments for recognition, temporal localization, and future action anticipation across all hierarchical annotation levels. To highlight the limitations of individual sensors, we also conduct domain-variant experiments that are enabled by DARai’s multi-sensor and counterfactual activity design setup. The code, documentation, and dataset are available at the dedicated DARai website: https://alregib.ece.gatech.edu/software-and-datasets/darai-daily-activity-recordings-for-artificial-intelligence-and-machine-learning/

arxiv情報

著者 Ghazal Kaviani,Yavuz Yarici,Seulgi Kim,Mohit Prabhushankar,Ghassan AlRegib,Mashhour Solh,Ameya Patil
発行日 2025-05-13 16:36:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Hierarchical and Multimodal Data for Daily Activity Understanding はコメントを受け付けていません

Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving

要約

大規模な視覚言語モデル(LVLMS)は、画像の理解が大幅に進歩しています。
彼らの理解と推論能力により、自律運転シナリオで有望なアプリケーションが可能になります。
ただし、既存の研究は通常、シーン内のフロントビューの視点と部分的なオブジェクトに焦点を当てており、包括的なシーンの理解を達成するのに苦労しています。
一方、既存のLVLMは、2Dと3Dの間のマッピング関係の欠如と、3Dオブジェクトのローカリゼーションと命令の理解の不十分な統合に悩まされています。
これらの制限に取り組むために、最初に、密なシーンキャプションと多様なインタラクティブなタスクにまたがる1.5mを超えるマルチビュー画像言語ペアを備えた大規模なデータセットであるNuinteractを導入します。
さらに、一連の学習可能なクエリを使用してLVLMSを空間プロセッサとシームレスに統合するシンプルで効果的なフレームワークであるDrivemonKeyを提案します。
プラグアンドプレイコンポーネントとして設計された空間プロセッサは、3D認識を改善するために事前に訓練された3D検出器で初期化できます。
私たちの実験は、Drivemonkeyが一般的なLVLMSを上回ること、特に3D視覚接地タスクで9.86%の顕著な改善を達成することを示しています。
データセットとコードはhttps://github.com/zc-zhao/drivemonkeyでリリースされます。

要約(オリジナル)

The Large Visual-Language Models (LVLMs) have significantly advanced image understanding. Their comprehension and reasoning capabilities enable promising applications in autonomous driving scenarios. However, existing research typically focuses on front-view perspectives and partial objects within scenes, struggling to achieve comprehensive scene understanding. Meanwhile, existing LVLMs suffer from the lack of mapping relationship between 2D and 3D and insufficient integration of 3D object localization and instruction understanding. To tackle these limitations, we first introduce NuInteract, a large-scale dataset with over 1.5M multi-view image language pairs spanning dense scene captions and diverse interactive tasks. Furthermore, we propose DriveMonkey, a simple yet effective framework that seamlessly integrates LVLMs with a spatial processor using a series of learnable queries. The spatial processor, designed as a plug-and-play component, can be initialized with pre-trained 3D detectors to improve 3D perception. Our experiments show that DriveMonkey outperforms general LVLMs, especially achieving a 9.86% notable improvement on the 3D visual grounding task. The dataset and code will be released at https://github.com/zc-zhao/DriveMonkey.

arxiv情報

著者 Zongchuang Zhao,Haoyu Fu,Dingkang Liang,Xin Zhou,Dingyuan Zhang,Hongwei Xie,Bing Wang,Xiang Bai
発行日 2025-05-13 16:36:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving はコメントを受け付けていません

No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves

要約

最近の研究では、意味のある内部表現を学ぶことで、生成トレーニングを加速し、拡散変圧器の生成品質を向上させることができることが実証されています。
ただし、既存のアプローチでは、外部および複雑な表現トレーニングフレームワークを導入するか、元の生成トレーニングプロセス中に表現ガイダンスを提供するために、大規模で事前に訓練された表現基盤モデルに依存する必要があります。
この研究では、拡散変圧器に固有の固有の識別プロセスにより、外部表現コンポーネントを必要とせずにそのようなガイダンスを提供できると仮定します。
したがって、私たちは、自己決定的な方法で表現ガイダンスを取得するシンプルでありながら簡単な方法である自己表現アラインメント(SRA)を提案します。
具体的には、SRAは、以前の層の拡散トランスの出力潜在表現を整列させ、後の層の拡散トランスの潜在的な表現を、生成トレーニングプロセスのみの間の全体的な表現学習を徐々に強化するために、低いノイズの低いノイズのノイズの潜在的な表現を整列させます。
実験結果は、SRAをDITSとSITに適用すると、一貫したパフォーマンスの改善が得られることを示しています。
さらに、SRAは、補助的で複雑な表現トレーニングフレームワークに依存するアプローチを大幅に上回るだけでなく、強力な外部表現前のプライアーに大きく依存する方法に匹敵するパフォーマンスを実現します。

要約(オリジナル)

Recent studies have demonstrated that learning a meaningful internal representation can both accelerate generative training and enhance the generation quality of diffusion transformers. However, existing approaches necessitate to either introduce an external and complex representation training framework or rely on a large-scale, pre-trained representation foundation model to provide representation guidance during the original generative training process. In this study, we posit that the unique discriminative process inherent to diffusion transformers enables them to offer such guidance without requiring external representation components. We therefore propose Self-Representation Alignment (SRA), a simple yet straightforward method that obtains representation guidance through a self-distillation manner. Specifically, SRA aligns the output latent representation of the diffusion transformer in the earlier layer with higher noise to that in the later layer with lower noise to progressively enhance the overall representation learning during only the generative training process. Experimental results indicate that applying SRA to DiTs and SiTs yields consistent performance improvements. Moreover, SRA not only significantly outperforms approaches relying on auxiliary, complex representation training frameworks but also achieves performance comparable to methods that are heavily dependent on powerful external representation priors.

arxiv情報

著者 Dengyang Jiang,Mengmeng Wang,Liuzhuozheng Li,Lei Zhang,Haoyu Wang,Wei Wei,Guang Dai,Yanning Zhang,Jingdong Wang
発行日 2025-05-13 16:45:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves はコメントを受け付けていません