DECO: Unleashing the Potential of ConvNets for Query-based Detection and Segmentation

要約

トランスとそのバリアントは、画像分類、オブジェクトの検出、セグメンテーションなど、近年、さまざまなビジョンタスクの大きな可能性を示しています。
一方、最近の研究では、適切なアーキテクチャ設計により、畳み込みネットワーク(コンボネット)もトランスで競争力のあるパフォーマンスを達成することが明らかになりました。
ただし、純粋な畳み込みを利用してトランススタイルのデコーダーモジュールを構築するための事前の方法はありません。これは、検出トランス(DETR)などのエンコーダデコーダーアーキテクチャに不可欠です。
この目的のために、この論文では、洗練されたトランスアーキテクチャの代わりに、Convnetsを使用してクエリベースの検出とセグメンテーションフレームワークを構築できるかどうかを調査します。
畳み込みレイヤーを介してオブジェクトクエリと画像機能間の相互作用を実行するために、InterCONVと呼ばれる新しいメカニズムを提案します。
提案されているInterCONVを装備し、バックボーンおよび畳み込みエンコーダーデコーダーアーキテクチャで構成される検出コンボネット(DECO)を構築します。
挑戦的なココベンチマークで、提案されたデコを以前の検出器と比較します。
そのシンプルさにもかかわらず、私たちのデコは、検出精度とランニング速度の点で競争力のあるパフォーマンスを達成します。
具体的には、ResNet-18およびResNet-50バックボーンを使用して、DECOはそれぞれ66ドルと$ 34 $ FPSで40.5ドル\%$と47.8 \%$ APを達成します。
提案された方法は、セグメントのあらゆるタスクでも評価され、同様のパフォーマンスとより高い効率を示します。
提案された方法が、ビジョンタスクのアーキテクチャを設計するための別の視点をもたらすことを願っています。
コードはhttps://github.com/xinghaochen/decoおよびhttps://github.com/mindspore-lab/models/tree/master/research/huawei-noah/decoで入手できます。

要約(オリジナル)

Transformer and its variants have shown great potential for various vision tasks in recent years, including image classification, object detection and segmentation. Meanwhile, recent studies also reveal that with proper architecture design, convolutional networks (ConvNets) also achieve competitive performance with transformers. However, no prior methods have explored to utilize pure convolution to build a Transformer-style Decoder module, which is essential for Encoder-Decoder architecture like Detection Transformer (DETR). To this end, in this paper we explore whether we could build query-based detection and segmentation framework with ConvNets instead of sophisticated transformer architecture. We propose a novel mechanism dubbed InterConv to perform interaction between object queries and image features via convolutional layers. Equipped with the proposed InterConv, we build Detection ConvNet (DECO), which is composed of a backbone and convolutional encoder-decoder architecture. We compare the proposed DECO against prior detectors on the challenging COCO benchmark. Despite its simplicity, our DECO achieves competitive performance in terms of detection accuracy and running speed. Specifically, with the ResNet-18 and ResNet-50 backbone, our DECO achieves $40.5\%$ and $47.8\%$ AP with $66$ and $34$ FPS, respectively. The proposed method is also evaluated on the segment anything task, demonstrating similar performance and higher efficiency. We hope the proposed method brings another perspective for designing architectures for vision tasks. Codes are available at https://github.com/xinghaochen/DECO and https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/DECO.

arxiv情報

著者 Xinghao Chen,Siwei Li,Yijing Yang,Yunhe Wang
発行日 2025-02-27 14:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DECO: Unleashing the Potential of ConvNets for Query-based Detection and Segmentation はコメントを受け付けていません

Balanced Rate-Distortion Optimization in Learned Image Compression

要約

学習した画像圧縮(LIC)深い学習アーキテクチャを使用すると、大きな進歩が見られますが、標準のレート耐性(R-D)最適化は、レートと歪みの目標の多様な勾配により、不均衡な更新に遭遇することがよくあります。
この不均衡は、1つの目的が支配する最適ではない最適化につながる可能性があり、それにより全体的な圧縮効率が低下します。
この課題に対処するために、R-Dの最適化を多目的最適化(MOO)問題として再定式化し、勾配更新を適応的に調整してレートと歪みの両方でより公平な改善を実現する2つのバランスのとれたR-D最適化戦略を導入します。
最初に提案された戦略は、標準のR-D最適化軌跡に沿って粗から洗練された勾配降下アプローチを利用しているため、LICモデルをゼロからトレーニングするのに特に適しています。
2番目の提案された戦略は、既存のモデルを微調整するのに理想的な、平等制約を備えた2次プログラミングの問題として、再定式化された最適化を分析的に対処します。
実験結果は、両方の提案された方法がLICモデルのR-Dパフォーマンスを強化し、許容可能な追加トレーニングコストで約2 \%BDレート削減を達成し、よりバランスのとれた効率的な最適化プロセスにつながることを示しています。
コードは公開されます。

要約(オリジナル)

Learned image compression (LIC) using deep learning architectures has seen significant advancements, yet standard rate-distortion (R-D) optimization often encounters imbalanced updates due to diverse gradients of the rate and distortion objectives. This imbalance can lead to suboptimal optimization, where one objective dominates, thereby reducing overall compression efficiency. To address this challenge, we reformulate R-D optimization as a multi-objective optimization (MOO) problem and introduce two balanced R-D optimization strategies that adaptively adjust gradient updates to achieve more equitable improvements in both rate and distortion. The first proposed strategy utilizes a coarse-to-fine gradient descent approach along standard R-D optimization trajectories, making it particularly suitable for training LIC models from scratch. The second proposed strategy analytically addresses the reformulated optimization as a quadratic programming problem with an equality constraint, which is ideal for fine-tuning existing models. Experimental results demonstrate that both proposed methods enhance the R-D performance of LIC models, achieving around a 2\% BD-Rate reduction with acceptable additional training cost, leading to a more balanced and efficient optimization process. The code will be made publicly available.

arxiv情報

著者 Yichi Zhang,Zhihao Duan,Yuning Huang,Fengqing Zhu
発行日 2025-02-27 15:00:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Balanced Rate-Distortion Optimization in Learned Image Compression はコメントを受け付けていません

Representing Signs as Signs: One-Shot ISLR to Facilitate Functional Sign Language Technologies

要約

孤立した手話認識(ISLR)は、スケーラブルな手話技術にとって重要ですが、言語固有のアプローチは現在のモデルを制限します。
これに対処するために、言語間で一般化し、語彙を進化させるワンショット学習アプローチを提案します。
私たちの方法では、本質的な特徴に基づいて標識を埋め込み、目に見えない兆候の迅速で正確な認識を求めて密なベクトル検索を使用するモデルを前処理することが含まれます。
トレーニングセットとは異なる言語からの10,235のユニークな標識を含む大きな辞書で50.8%のワンショットMRRを含む、最新の結果を達成します。
私たちのアプローチは、言語とサポートセット間で堅牢であり、ISLRにスケーラブルで適応性のあるソリューションを提供します。
聴覚障害のある聴覚(DHH)コミュニティと共同作成されたこの方法は、実際のニーズと整合し、スケーラブルな手話認識を進めます。

要約(オリジナル)

Isolated Sign Language Recognition (ISLR) is crucial for scalable sign language technology, yet language-specific approaches limit current models. To address this, we propose a one-shot learning approach that generalises across languages and evolving vocabularies. Our method involves pretraining a model to embed signs based on essential features and using a dense vector search for rapid, accurate recognition of unseen signs. We achieve state-of-the-art results, including 50.8% one-shot MRR on a large dictionary containing 10,235 unique signs from a different language than the training set. Our approach is robust across languages and support sets, offering a scalable, adaptable solution for ISLR. Co-created with the Deaf and Hard of Hearing (DHH) community, this method aligns with real-world needs, and advances scalable sign language recognition.

arxiv情報

著者 Toon Vandendriessche,Mathieu De Coster,Annelies Lejon,Joni Dambre
発行日 2025-02-27 15:07:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Representing Signs as Signs: One-Shot ISLR to Facilitate Functional Sign Language Technologies はコメントを受け付けていません

Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think

要約

高度なテキストからイメージの生成の分野は、拡散トランスバックボーンを使用して、クリップやT5などの強力なテキストエンコーダーを統合する統合されたフレームワークの出現を目撃しています。
Cannyや深度マップなどの追加の条件で出力画像を制御する努力がありましたが、任意のテキストイメージインターリーブ制御の包括的なフレームワークはまだ不足しています。
このギャップは、生成プロセスで複数の画像から概念または視覚要素をマージしようとする場合に特に明白です。
ギャップを緩和するために、大規模なマルチモーダルモデル(LMM)が効果的な共有表現スペースを提供することを示す予備実験を実施しました。ここでは、外部拡散モデルの条件として画像とテキストを適切に調整できます。
この発見に基づいて、画像生成モデルで任意のテキストイメージインターリーブ制御のために設計された効率的で統一されたフレームワークであるDream Engineを提案します。
SD3.5などの強力なテキストからイメージモデルに基づいて、QWENVLなどの汎用性の高いマルチモーダル情報エンコーダを組み込むことにより、元のテキストのみのエンコーダーを置き換えます。
私たちのアプローチは、共同のテキストイメージのアライメントとマルチモーダルインターリーブ命令の調整で構成される2段階のトレーニングパラダイムを利用しています。
私たちの実験は、このトレーニング方法が効果的であり、遺伝的ベンチマークで0.69の総合スコアを達成し、SD3.5やフラックスなどの最先端のテキストから画像モデルのパフォーマンスに一致することを示しています。

要約(オリジナル)

The field of advanced text-to-image generation is witnessing the emergence of unified frameworks that integrate powerful text encoders, such as CLIP and T5, with Diffusion Transformer backbones. Although there have been efforts to control output images with additional conditions, like canny and depth map, a comprehensive framework for arbitrary text-image interleaved control is still lacking. This gap is especially evident when attempting to merge concepts or visual elements from multiple images in the generation process. To mitigate the gap, we conducted preliminary experiments showing that large multimodal models (LMMs) offer an effective shared representation space, where image and text can be well-aligned to serve as a condition for external diffusion models. Based on this discovery, we propose Dream Engine, an efficient and unified framework designed for arbitrary text-image interleaved control in image generation models. Building on powerful text-to-image models like SD3.5, we replace the original text-only encoders by incorporating versatile multimodal information encoders such as QwenVL. Our approach utilizes a two-stage training paradigm, consisting of joint text-image alignment and multimodal interleaved instruction tuning. Our experiments demonstrate that this training method is effective, achieving a 0.69 overall score on the GenEval benchmark, and matching the performance of state-of-the-art text-to-image models like SD3.5 and FLUX.

arxiv情報

著者 Liang Chen,Shuai Bai,Wenhao Chai,Weichu Xie,Haozhe Zhao,Leon Vinci,Junyang Lin,Baobao Chang
発行日 2025-02-27 15:08:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think はコメントを受け付けていません

Do generative video models understand physical principles?

要約

AIビデオ生成は革命を起こしており、品質とリアリズムが急速に進歩しています。
これらの進歩は、情熱的な科学的議論につながりました。ビデオモデルは物理学の法則を発見する「世界モデル」を学びますか、それとも、現実の物理的原則を理解せずに視覚的リアリズムを達成する洗練されたピクセル予測因子ですか?
この質問に対処し、物理学-IQを開発します。これは、流体のダイナミクス、光学、固体力学、磁気、熱力学など、さまざまな物理的原理を深く理解することによってのみ解決できる包括的なベンチマークデータセットです。
さまざまな現在のモデル(Sora、Runway、Pika、Lumiere、Stable Video Diffusion、videopoet)にわたって、身体的理解は厳しく制限されており、視覚的リアリズムとは無関係であることがわかります。
同時に、一部のテストケースはすでに正常に解決できます。
これは、観察だけで特定の物理的原則を獲得することが可能であることを示していますが、重要な課題が残っています。
私たちの仕事は、急速な進歩を期待していますが、私たちの仕事は視覚的リアリズムが肉体的理解を暗示していないことを示しています。
プロジェクトページはhttps://physics-iq.github.ioにあります。
https://github.com/google-deepmind/physics-iq-benchmarkのコード。

要約(オリジナル)

AI video generation is undergoing a revolution, with quality and realism advancing rapidly. These advances have led to a passionate scientific debate: Do video models learn ‘world models’ that discover laws of physics — or, alternatively, are they merely sophisticated pixel predictors that achieve visual realism without understanding the physical principles of reality? We address this question by developing Physics-IQ, a comprehensive benchmark dataset that can only be solved by acquiring a deep understanding of various physical principles, like fluid dynamics, optics, solid mechanics, magnetism and thermodynamics. We find that across a range of current models (Sora, Runway, Pika, Lumiere, Stable Video Diffusion, and VideoPoet), physical understanding is severely limited, and unrelated to visual realism. At the same time, some test cases can already be successfully solved. This indicates that acquiring certain physical principles from observation alone may be possible, but significant challenges remain. While we expect rapid advances ahead, our work demonstrates that visual realism does not imply physical understanding. Our project page is at https://physics-iq.github.io; code at https://github.com/google-deepmind/physics-IQ-benchmark.

arxiv情報

著者 Saman Motamed,Laura Culp,Kevin Swersky,Priyank Jaini,Robert Geirhos
発行日 2025-02-27 15:10:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | Do generative video models understand physical principles? はコメントを受け付けていません

MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation

要約

大規模なマルチモーダルモデル(LMMS)は、画像、質問、いくつかのオプションを含む多肢選択式の質問(MCQ)を通じてしばしば評価される印象的なクロスモーダルの理解と推論能力を示します。
ただし、このような評価に使用される多くのベンチマークは、体系的なバイアスに悩まされています。
驚くべきことに、視覚的な知覚能力のない大規模な言語モデル(LLM)は、これらの評価の信頼性を損ない、自明でないパフォーマンスを達成します。
MCQ評価の効率を維持しながらこの問題に対処するために、3部作の評価パイプラインとより厳格なメトリックを通じてタイプIエラーを回避するために設計されたベンチマークであるMmevalproを提案します。
既存のベンチマークからの元の質問ごとに、人間のアノテーターは、1つの知覚質問と1つの知識アンカーの質問を細心の注釈プロセスを通じて作成することにより、それを増強します。
Mmevalproは2,138ドルの質問トリプレットで構成されており、合計6,414ドルの異なる質問があります。
これらの質問の3分の2は、人間の専門家によって手動でラベル付けされていますが、残りは既存のベンチマーク(MMMU、ScienceQA、およびMathvista)から調達されています。
既存のベンチマークと比較して、最新のLLMSおよびLMMSでの実験は、Mmevalproがより挑戦的であることを示しています(以前のベンチマークでの平均$ 8.03 \%$の平均ギャップと比較して、人間のパフォーマンスの背後に31.73%\%$ $ $ 31.73 \%$)と、より信頼できるLMM Best Prevers by $ 23.09の最高のLMM Trails for $ 23.09の最適
わずか14.64 \%$)です。
私たちの詳細な分析は、大きなパフォーマンスギャップの理由を説明し、評価の信頼性を正当化し、将来の研究を進めるための重要な可能性を強調しています。

要約(オリジナル)

Large Multimodal Models (LMMs) exhibit impressive cross-modal understanding and reasoning abilities, often assessed through multiple-choice questions (MCQs) that include an image, a question, and several options. However, many benchmarks used for such evaluations suffer from systematic biases. Remarkably, Large Language Models (LLMs) without any visual perception capabilities achieve non-trivial performance, undermining the credibility of these evaluations. To address this issue while maintaining the efficiency of MCQ evaluations, we propose MMEvalPro, a benchmark designed to avoid Type-I errors through a trilogy evaluation pipeline and more rigorous metrics. For each original question from existing benchmarks, human annotators augment it by creating one perception question and one knowledge anchor question through a meticulous annotation process. MMEvalPro comprises $2,138$ question triplets, totaling $6,414$ distinct questions. Two-thirds of these questions are manually labeled by human experts, while the rest are sourced from existing benchmarks (MMMU, ScienceQA, and MathVista). Compared with the existing benchmarks, our experiments with the latest LLMs and LMMs demonstrate that MMEvalPro is more challenging (the best LMM lags behind human performance by $31.73\%$, compared to an average gap of $8.03\%$ in previous benchmarks) and more trustworthy (the best LLM trails the best LMM by $23.09\%$, whereas the gap for previous benchmarks is just $14.64\%$). Our in-depth analysis explains the reason for the large performance gap and justifies the trustworthiness of evaluation, underscoring its significant potential for advancing future research.

arxiv情報

著者 Jinsheng Huang,Liang Chen,Taian Guo,Fu Zeng,Yusheng Zhao,Bohan Wu,Ye Yuan,Haozhe Zhao,Zhihui Guo,Yichi Zhang,Jingyang Yuan,Wei Ju,Luchen Liu,Tianyu Liu,Baobao Chang,Ming Zhang
発行日 2025-02-27 15:10:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation はコメントを受け付けていません

Preconditioned Score-based Generative Models

要約

スコアベースの生成モデル(SGM)は、最近、有望なクラスの生成モデルとして浮上しています。
ただし、基本的な制限は、多くの(たとえば、2000年)順次計算の反復が必要なため、サンプリングプロセスが遅いことです。
直感的な加速方法は、サンプリングの反復を減らすことであり、これにより、パフォーマンスの重度の劣化を引き起こすことがあります。
私たちは、この問題を、ランジュバンのダイナミクスの条件の不条理な問題とサンプリングプロセスにおける逆拡散に暴行します。
この洞察の下で、前述の問題を軽減するためにマトリックスの前処理を活用する新しい前処理拡散サンプリング(PDS)メソッドを提案します。
PDSは、バニラSGMのサンプリングプロセスを、わずかな追加の計算コストでモデル再訓練なしで変化させます。
理論的には、PDSがSGMの出力分布を保存することを証明し、元のサンプリングプロセスに体系的なバイアスを誘導するリスクはありません。
さらに理論的には、PDSのパラメーターとサンプリング反復との関係を明らかにし、さまざまなサンプリング反復の下でパラメーター推定を緩和します。
さまざまな解像度と多様性を備えたさまざまな画像データセットでの広範な実験では、PDが合成品質を維持しながら、既製のSGMSを一貫して加速することを検証します。
特に、PDは、より困難な高解像度(1024×1024)の画像生成で最大28倍まで加速できます。
最新の生成モデル(CLD-SGMや分析DDIMなど)と比較して、PDSはFIDスコア1.99でCIFAR-10で最高のサンプリング品質を達成できます。
私たちのコードは、さらなる調査https://github.com/fudan-zvg/pdsを促進するために公開されています。

要約(オリジナル)

Score-based generative models (SGMs) have recently emerged as a promising class of generative models. However, a fundamental limitation is that their sampling process is slow due to a need for many (e.g., 2000) iterations of sequential computations. An intuitive acceleration method is to reduce the sampling iterations which however causes severe performance degradation. We assault this problem to the ill-conditioned issues of the Langevin dynamics and reverse diffusion in the sampling process. Under this insight, we propose a novel preconditioned diffusion sampling (PDS) method that leverages matrix preconditioning to alleviate the aforementioned problem. PDS alters the sampling process of a vanilla SGM at marginal extra computation cost and without model retraining. Theoretically, we prove that PDS preserves the output distribution of the SGM, with no risk of inducing systematical bias to the original sampling process. We further theoretically reveal a relation between the parameter of PDS and the sampling iterations, easing the parameter estimation under varying sampling iterations. Extensive experiments on various image datasets with a variety of resolutions and diversity validate that our PDS consistently accelerates off-the-shelf SGMs whilst maintaining the synthesis quality. In particular, PDS can accelerate by up to 28x on more challenging high-resolution (1024×1024) image generation. Compared with the latest generative models (e.g., CLD-SGM and Analytic-DDIM), PDS can achieve the best sampling quality on CIFAR-10 at an FID score of 1.99. Our code is publicly available to foster any further research https://github.com/fudan-zvg/PDS.

arxiv情報

著者 Hengyuan Ma,Xiatian Zhu,Jianfeng Feng,Li Zhang
発行日 2025-02-27 15:14:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Preconditioned Score-based Generative Models はコメントを受け付けていません

DiagramQG: A Dataset for Generating Concept-Focused Questions from Diagrams

要約

視覚的な質問生成(VQG)は、教育アプリケーションの可能性により、大きな注目を集めています。
ただし、VQGは主に自然な画像に焦点を当てており、学生の概念的理解を評価するために使用される教育資料の図を無視しています。
このギャップに対処するために、Digagramqg、8,372の図とさまざまな科目における19,475の質問を含むデータセットを紹介します。
diagramagramqgは、概念とターゲットのテキストの制約を導入し、モデルを指導して、教育目的で概念に焦点を当てた質問を生成します。
一方、図の質問生成(HKI-DQG)の階層知識統合フレームワークを強力なベースラインとして提示します。
このフレームワークは、図のマルチスケールパッチを取得し、凍結パラメーターを使用した視覚言語モデルを使用して知識を取得します。
次に、知識、テキストの制約、パッチを統合して、概念に焦点を当てた質問を生成します。
既存のVQGモデル、オープンソース、クローズドソースビジョン言語モデル、およびDiagramQGデータセットでHKI-DQGのパフォーマンスを評価します。
HKI-DQGは既存の方法よりも優れており、強力なベースラインとして機能することを示しています。
さらに、HKI-DQGを自然画像の他の4つのVQGデータセット、つまりVQG-Coco、K-VQG、OK-VQA、A-OKVQAに適用し、最先端のパフォーマンスを達成します。
データセットとコードは、https://dxzxy12138.github.io/diagramqg-homeで入手できます。

要約(オリジナル)

Visual Question Generation (VQG) has gained significant attention due to its potential in educational applications. However, VQG researches mainly focus on natural images, neglecting diagrams in educational materials used to assess students’ conceptual understanding. To address this gap, we introduce DiagramQG, a dataset containing 8,372 diagrams and 19,475 questions across various subjects. DiagramQG introduces concept and target text constraints, guiding the model to generate concept-focused questions for educational purposes. Meanwhile, we present the Hierarchical Knowledge Integration framework for Diagram Question Generation (HKI-DQG) as a strong baseline. This framework obtains multi-scale patches of diagrams and acquires knowledge using a visual language model with frozen parameters. It then integrates knowledge, text constraints and patches to generate concept-focused questions. We evaluate the performance of existing VQG models, open-source and closed-source vision-language models, and HKI-DQG on the DiagramQG dataset. Our HKI-DQG outperform existing methods, demonstrating that it serves as a strong baseline. Furthermore, we apply HKI-DQG to four other VQG datasets of natural images, namely VQG-COCO, K-VQG, OK-VQA and A-OKVQA, achieving state-of-the-art performance. The dataset and code are available at https://dxzxy12138.github.io/diagramqg-home.

arxiv情報

著者 Xinyu Zhang,Lingling Zhang,Yanrui Wu,Muye Huang,Wenjun Wu,Bo Li,Shaowei Wang,Jun Liu
発行日 2025-02-27 15:16:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DiagramQG: A Dataset for Generating Concept-Focused Questions from Diagrams はコメントを受け付けていません

SmartPretrain: Model-Agnostic and Dataset-Agnostic Representation Learning for Motion Prediction

要約

周囲のエージェントの将来の動きを予測することは、自動運転車(AVS)が動的で人間のロボット混合環境で安全に動作するために不可欠です。
ただし、大規模な運転データセットの希少性により、堅牢で一般化可能なモーション予測モデルの開発が妨げられ、複雑な相互作用と道路幾何学をキャプチャする能力が制限されています。
自然言語処理(NLP)とコンピュータービジョン(CV)の最近の進歩に触発された自己監視学習(SSL)は、豊かで移転可能なシーン表現を学習するために、モーション予測コミュニティで大きな注目を集めています。
それにもかかわらず、モーション予測のための既存のトレーニング前の方法は、特定のモデルアーキテクチャと単一のデータセットに主に焦点を当てており、スケーラビリティと一般化可能性を制限しています。
これらの課題に対処するために、モデルに依存していないデータセットに依存しないモーション予測の一般的かつスケーラブルなSSLフレームワークであるSmartPretrainを提案します。
私たちのアプローチは、コントラストと再建のSSLを統合し、生成パラダイムと識別パラダイムの両方の強さを活用して、建築的制約を課すことなく時空間の進化と相互作用を効果的に表します。
さらに、SmartPretrainは、複数のデータセットを統合し、データのボリューム、多様性、堅牢性を統合するデータセットに依存しないシナリオサンプリング戦略を採用しています。
複数のデータセットでの広範な実験は、SmartPretrainがデータセット、データスプリット、メインメトリック全体の最先端の予測モデルのパフォーマンスを一貫して改善することを示しています。
たとえば、SmartPretrainは、Forecast-MAEのMissrateを10.6%削減します。
これらの結果は、SmartPretrainのモーション予測のための統一されたスケーラブルなソリューションとしての有効性を強調し、小型体制の制限から解放されます。
コードはhttps://github.com/youngzhou1999/smartpretrainで入手できます

要約(オリジナル)

Predicting the future motion of surrounding agents is essential for autonomous vehicles (AVs) to operate safely in dynamic, human-robot-mixed environments. However, the scarcity of large-scale driving datasets has hindered the development of robust and generalizable motion prediction models, limiting their ability to capture complex interactions and road geometries. Inspired by recent advances in natural language processing (NLP) and computer vision (CV), self-supervised learning (SSL) has gained significant attention in the motion prediction community for learning rich and transferable scene representations. Nonetheless, existing pre-training methods for motion prediction have largely focused on specific model architectures and single dataset, limiting their scalability and generalizability. To address these challenges, we propose SmartPretrain, a general and scalable SSL framework for motion prediction that is both model-agnostic and dataset-agnostic. Our approach integrates contrastive and reconstructive SSL, leveraging the strengths of both generative and discriminative paradigms to effectively represent spatiotemporal evolution and interactions without imposing architectural constraints. Additionally, SmartPretrain employs a dataset-agnostic scenario sampling strategy that integrates multiple datasets, enhancing data volume, diversity, and robustness. Extensive experiments on multiple datasets demonstrate that SmartPretrain consistently improves the performance of state-of-the-art prediction models across datasets, data splits and main metrics. For instance, SmartPretrain significantly reduces the MissRate of Forecast-MAE by 10.6%. These results highlight SmartPretrain’s effectiveness as a unified, scalable solution for motion prediction, breaking free from the limitations of the small-data regime. Codes are available at https://github.com/youngzhou1999/SmartPretrain

arxiv情報

著者 Yang Zhou,Hao Shao,Letian Wang,Steven L. Waslander,Hongsheng Li,Yu Liu
発行日 2025-02-27 15:20:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | SmartPretrain: Model-Agnostic and Dataset-Agnostic Representation Learning for Motion Prediction はコメントを受け付けていません

Improved Baselines with Synchronized Encoding for Universal Medical Image Segmentation

要約

強力なゼロショット一般化機能で知られる大規模な基礎モデルは、広範囲のダウンストリームタスクに適用できます。
ただし、医療画像セグメンテーションの基礎モデルの開発は、自然画像と医療画像の間のドメインギャップにより、重要な課題をもたらします。
セグメントに基づく微調整技術は、モデル(SAM)が調査されているものですが、主にドメイン固有のアーキテクチャデザインを組み込むことなく、データのスケーリングまたは洗練された推論戦略に焦点を当て、ゼロショットパフォーマンスを制限します。
標準的な推論設定でのセグメンテーションパフォーマンスを最適化し、将来の研究のための強力なベースラインを提供するために、Syncsamを導入します。Syncsamは、畳み込みと変圧器の特徴を同期方法で統合する同期されたデュアルブランチエンコーダーを採用し、医療画像エンコードを強化し、マルチスケールのデュアルブランチの装飾を強化します。
SyncSamは、SA-MED2D-20MとIMED-361Mの2つの最大の医療画像セグメンテーションデータセットでトレーニングされているため、ユニバーサル医療画像セグメンテーションのための一連の事前に訓練されたモデルが生じます。
実験結果は、Syncsamがテストセットで最先端のパフォーマンスを達成するだけでなく、目に見えないデータセットで強力なゼロショット機能を示すことを示しています。
コードとモデルの重みは、https://github.com/hhankyangg/syncsamで入手できます。

要約(オリジナル)

Large foundation models, known for their strong zero-shot generalization capabilities, can be applied to a wide range of downstream tasks. However, developing foundation models for medical image segmentation poses a significant challenge due to the domain gap between natural and medical images. While fine-tuning techniques based on the Segment Anything Model (SAM) have been explored, they primarily focus on scaling up data or refining inference strategies without incorporating domain-specific architectural designs, limiting their zero-shot performance. To optimize segmentation performance under standard inference settings and provide a strong baseline for future research, we introduce SyncSAM, which employs a synchronized dual-branch encoder that integrates convolution and Transformer features in a synchronized manner to enhance medical image encoding, and a multi-scale dual-branch decoder to preserve image details. SyncSAM is trained on two of the largest medical image segmentation datasets, SA-Med2D-20M and IMed-361M, resulting in a series of pre-trained models for universal medical image segmentation. Experimental results demonstrate that SyncSAM not only achieves state-of-the-art performance on test sets but also exhibits strong zero-shot capabilities on unseen datasets. The code and model weights are available at https://github.com/Hhankyangg/SyncSAM.

arxiv情報

著者 Sihan Yang,Xuande Mi,Jiadong Feng,Haixia Bi,Hai Zhang,Jian Sun
発行日 2025-02-27 15:24:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Improved Baselines with Synchronized Encoding for Universal Medical Image Segmentation はコメントを受け付けていません