VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

要約

破損したビデオコンテンツを復元することを目的としたビデオInpaintingは、かなりの進歩を経験しています。
これらの進歩にもかかわらず、既存の方法は、光の流れと受容フィールドプライアーを通じてマスクされていない領域ピクセルを伝播するか、画像を拡張するモデルを一時的に拡張するかどうかにかかわらず、完全にマスクされたオブジェクトを生成する際の課題に直面するか、それぞれ1つのモデルでのバックグラウンドコンテキストの保存と前景生成の競合する目的のバランスを取ります。
これらの制限に対処するために、効率的なコンテキストエンコーダー(バックボーンパラメーターの6%のみを含む)を組み込んだ新しいデュアルストリームパラダイムVideoPainterを提案し、マスクされたビデオを処理し、バックボーンを認識したバックグラウンドコンテキストキューを任意の訓練を受けたビデオに注入します。
このアーキテクチャの分離は、重要な背景コンテキストの微妙な統合を可能にしながら、モデルの学習の複雑さを大幅に削減します。
また、あらゆる長さのビデオが開始され、実用的な適用性を大幅に向上させる、新しいターゲット領域IDの再サンプリング手法を紹介します。
さらに、現在のビジョン理解モデルを活用するスケーラブルなデータセットパイプラインを確立し、VPDATAとVPBenchを提供して、セグメンテーションベースのトレーニングと評価を促進し、390Kを超えるダイバーシップクリップでデートする最大のビデオであるデータセットとベンチマークを入力します。
パイプラインベースとしての開拓を使用して、ビデオ編集やビデオ編集ペアデータ生成など、競争力のあるパフォーマンス、および実用的な可能性を実証する下流アプリケーションも調査します。
広範な実験では、ビデオ品質、マスク地域の保存、テキストの一貫性など、8つの主要なメトリックにわたる、任意の長さのビデオの編集と編集の両方でVideoPainterの優れたパフォーマンスを示しています。

要約(オリジナル)

Video inpainting, which aims to restore corrupted video content, has experienced substantial progress. Despite these advances, existing methods, whether propagating unmasked region pixels through optical flow and receptive field priors, or extending image-inpainting models temporally, face challenges in generating fully masked objects or balancing the competing objectives of background context preservation and foreground generation in one model, respectively. To address these limitations, we propose a novel dual-stream paradigm VideoPainter that incorporates an efficient context encoder (comprising only 6% of the backbone parameters) to process masked videos and inject backbone-aware background contextual cues to any pre-trained video DiT, producing semantically consistent content in a plug-and-play manner. This architectural separation significantly reduces the model’s learning complexity while enabling nuanced integration of crucial background context. We also introduce a novel target region ID resampling technique that enables any-length video inpainting, greatly enhancing our practical applicability. Additionally, we establish a scalable dataset pipeline leveraging current vision understanding models, contributing VPData and VPBench to facilitate segmentation-based inpainting training and assessment, the largest video inpainting dataset and benchmark to date with over 390K diverse clips. Using inpainting as a pipeline basis, we also explore downstream applications including video editing and video editing pair data generation, demonstrating competitive performance and significant practical potential. Extensive experiments demonstrate VideoPainter’s superior performance in both any-length video inpainting and editing, across eight key metrics, including video quality, mask region preservation, and textual coherence.

arxiv情報

著者 Yuxuan Bian,Zhaoyang Zhang,Xuan Ju,Mingdeng Cao,Liangbin Xie,Ying Shan,Qiang Xu
発行日 2025-03-07 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control はコメントを受け付けていません

BEHAVIOR Robot Suite: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities

要約

現実世界の家庭用タスクは、モバイル操作ロボットに大きな課題をもたらします。
既存のロボットベンチマークの分析により、成功したタスクパフォ​​ーマンスが3つの重要な全身制御機能、つまりバイマニュアル調整、安定した正確なナビゲーション、および広範なエンドエフェクターの到達可能性にかかっていることが明らかになりました。
これらの機能を達成するには、慎重なハードウェア設計が必要ですが、結果として生じるシステムの複雑さにより、視覚運動のポリシー学習がさらに複雑になります。
これらの課題に対処するために、多様な家庭用タスクにおける全身操作のための包括的なフレームワークであるBehavior Robot Suite(BRS)を紹介します。
BRSは、4ドーフの胴体を備えた、両手の車輪付きロボットの上に構築されており、データ収集のための費用対効果の高い全身テレオ操作インターフェイスと、全身視覚運動ポリシーを学習するための新しいアルゴリズムを統合します。
3つのコア機能を強調するだけでなく、長距離ナビゲーション、明確化および変形可能なオブジェクトとの相互作用、限定空間での操作などの追加の複雑さを導入する5つの挑戦的な家庭用タスクでBRSを評価します。
BRSの統合されたロボットの具体化、データ収集インターフェイス、および学習フレームワークは、日常の家庭用タスクの実世界の全身操作を可能にするための重要なステップをマークしていると考えています。
BRSはhttps://behavior-robot-suite.github.io/でオープンソーシングされています

要約(オリジナル)

Real-world household tasks present significant challenges for mobile manipulation robots. An analysis of existing robotics benchmarks reveals that successful task performance hinges on three key whole-body control capabilities: bimanual coordination, stable and precise navigation, and extensive end-effector reachability. Achieving these capabilities requires careful hardware design, but the resulting system complexity further complicates visuomotor policy learning. To address these challenges, we introduce the BEHAVIOR Robot Suite (BRS), a comprehensive framework for whole-body manipulation in diverse household tasks. Built on a bimanual, wheeled robot with a 4-DoF torso, BRS integrates a cost-effective whole-body teleoperation interface for data collection and a novel algorithm for learning whole-body visuomotor policies. We evaluate BRS on five challenging household tasks that not only emphasize the three core capabilities but also introduce additional complexities, such as long-range navigation, interaction with articulated and deformable objects, and manipulation in confined spaces. We believe that BRS’s integrated robotic embodiment, data collection interface, and learning framework mark a significant step toward enabling real-world whole-body manipulation for everyday household tasks. BRS is open-sourced at https://behavior-robot-suite.github.io/

arxiv情報

著者 Yunfan Jiang,Ruohan Zhang,Josiah Wong,Chen Wang,Yanjie Ze,Hang Yin,Cem Gokmen,Shuran Song,Jiajun Wu,Li Fei-Fei
発行日 2025-03-07 18:15:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | BEHAVIOR Robot Suite: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities はコメントを受け付けていません

NoT: Federated Unlearning via Weight Negation

要約

Federated Ulderning(FU)は、訓練されたフェデレーションラーニング(FL)モデルから参加者のデータ貢献を削除し、プライバシーと規制のコンプライアンスを確保することを目指しています。
従来のFUメソッドは、多くの場合、クライアント側またはサーバー側の補助ストレージに依存しているか、データが使用できなくなった場合に実行不可能な依存関係をターゲットにしたデータに直接アクセスする必要があります。
これらの制限を克服するために、重量否定(-1を掛ける)に基づく斬新で効率的なFUアルゴリズムを提案します。
私たちは、最適なパラメーターのセットから離れたモデルパラメーターを摂動することで、効果的かつ効率的な未学習を達成できるが、迅速な再最適化のために適切に配置されることにより、達成できると主張します。
この手法は、一見矛盾しているように見えますが、理論的には接地されています。体重否定の摂動が効果的に層間の同時捕獲を破壊し、おおよその最適性特性を保存しながら学習を誘導し、それによって迅速な回復を可能にすることを証明します。
3つのデータセットと3つのモデルアーキテクチャにわたる実験結果は、既存のベースラインを学習していない有効性と通信および計算効率において、既存のベースラインを大幅に上回っていないことを示しています。

要約(オリジナル)

Federated unlearning (FU) aims to remove a participant’s data contributions from a trained federated learning (FL) model, ensuring privacy and regulatory compliance. Traditional FU methods often depend on auxiliary storage on either the client or server side or require direct access to the data targeted for removal-a dependency that may not be feasible if the data is no longer available. To overcome these limitations, we propose NoT, a novel and efficient FU algorithm based on weight negation (multiplying by -1), which circumvents the need for additional storage and access to the target data. We argue that effective and efficient unlearning can be achieved by perturbing model parameters away from the set of optimal parameters, yet being well-positioned for quick re-optimization. This technique, though seemingly contradictory, is theoretically grounded: we prove that the weight negation perturbation effectively disrupts inter-layer co-adaptation, inducing unlearning while preserving an approximate optimality property, thereby enabling rapid recovery. Experimental results across three datasets and three model architectures demonstrate that NoT significantly outperforms existing baselines in unlearning efficacy as well as in communication and computational efficiency.

arxiv情報

著者 Yasser H. Khalil,Leo Brunswic,Soufiane Lamghari,Xu Li,Mahdi Beitollahi,Xi Chen
発行日 2025-03-07 18:19:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | NoT: Federated Unlearning via Weight Negation はコメントを受け付けていません

NeRF-Aug: Data Augmentation for Robotics with Neural Radiance Fields

要約

不明なオブジェクトに一般化できるポリシーをトレーニングすることは、ロボット工学の分野で長年の課題です。
ポリシーのパフォーマンスは、トレーニング中にシーン内のオブジェクトが見られなかった状況で大幅に低下することがよくあります。
この問題を解決するために、データセットに存在しないオブジェクトと対話するためのポリシーを教えることができる新しい方法であるnerf-augを提示します。
このアプローチは、増強のための神経放射輝度フィールドの速度、フォトリアリズム、および3D一貫性を活用することにより、既存のアプローチとは異なります。
NERF-AUGはどちらもより多くのフォトリアリスティックデータを作成し、既存の方法よりも63%速く実行されます。
専門家のデモに存在しない9つの新しいオブジェクトを備えた5つのタスクでの方法の有効性を実証します。
メソッドを次の最良の方法と比較すると、平均パフォーマンスが55.6%を達成します。
https://nerf-aug.github.ioでビデオの結果を見ることができます。

要約(オリジナル)

Training a policy that can generalize to unknown objects is a long standing challenge within the field of robotics. The performance of a policy often drops significantly in situations where an object in the scene was not seen during training. To solve this problem, we present NeRF-Aug, a novel method that is capable of teaching a policy to interact with objects that are not present in the dataset. This approach differs from existing approaches by leveraging the speed, photorealism, and 3D consistency of a neural radiance field for augmentation. NeRF-Aug both creates more photorealistic data and runs 63% faster than existing methods. We demonstrate the effectiveness of our method on 5 tasks with 9 novel objects that are not present in the expert demonstrations. We achieve an average performance boost of 55.6% when comparing our method to the next best method. You can see video results at https://nerf-aug.github.io.

arxiv情報

著者 Eric Zhu,Mara Levy,Matthew Gwilliam,Abhinav Shrivastava
発行日 2025-03-07 18:20:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | NeRF-Aug: Data Augmentation for Robotics with Neural Radiance Fields はコメントを受け付けていません

AIM-Fair: Advancing Algorithmic Fairness via Selectively Fine-Tuning Biased Models with Contextual Synthetic Data

要約

生成モデルの最近の進歩により、AIが生成されたデータによるモデルの公平性の改善に関する研究が促進されました。
ただし、既存の方法は、合成データの多様性と品質の制限に直面していることが多く、公平性と全体的なモデルの精度が低下します。
さらに、多くのアプローチは、人口統計グループラベルの可用性に依存しています。
このペーパーでは、これらの制限を克服し、アルゴリズムの公平性を促進する最先端の生成モデルの可能性を活用することを目指して、AIM-FAIRを提案します。
人口統計の注釈なしで、実際のデータで最初に訓練された偏ったモデルから始まる微調整パラダイムを調査します。
このモデルは、最先端の拡散モデルによって生成された偏りのない合成データを使用して、その公平性を向上させるために微調整されます。
この微調整パラダイムでは、2つの重要な課題が特定されています。1)高度な生成モデルでも発生する可能性のある合成データの低品質、および2)実際のデータと合成データの間のドメインとバイアスのギャップ。
合成データの品質の制限に対処するために、コンテキスト合成データ生成(CSDG)を提案して、コンテキスト対応LLMによって生成されたプロンプトを使用してテキストから画像拡散モデル(T2I)を使用してデータを生成し、合成データのバイアスのデータの多様性と制御の両方を確保します。
ドメインとバイアスのシフトを解決するために、バイアスに対してより敏感でドメインシフトに敏感でないモデルパラメーターのみが更新される新しい選択的微調整スキームを導入します。
CelebaおよびUtkfaceデータセットでの実験は、私たちのAIM-FAIRが有用性を維持しながらモデルの公平性を改善し、モデルの公平性への完全かつ部分的に微調整されたアプローチの両方を上回ることを示しています。

要約(オリジナル)

Recent advances in generative models have sparked research on improving model fairness with AI-generated data. However, existing methods often face limitations in the diversity and quality of synthetic data, leading to compromised fairness and overall model accuracy. Moreover, many approaches rely on the availability of demographic group labels, which are often costly to annotate. This paper proposes AIM-Fair, aiming to overcome these limitations and harness the potential of cutting-edge generative models in promoting algorithmic fairness. We investigate a fine-tuning paradigm starting from a biased model initially trained on real-world data without demographic annotations. This model is then fine-tuned using unbiased synthetic data generated by a state-of-the-art diffusion model to improve its fairness. Two key challenges are identified in this fine-tuning paradigm, 1) the low quality of synthetic data, which can still happen even with advanced generative models, and 2) the domain and bias gap between real and synthetic data. To address the limitation of synthetic data quality, we propose Contextual Synthetic Data Generation (CSDG) to generate data using a text-to-image diffusion model (T2I) with prompts generated by a context-aware LLM, ensuring both data diversity and control of bias in synthetic data. To resolve domain and bias shifts, we introduce a novel selective fine-tuning scheme in which only model parameters more sensitive to bias and less sensitive to domain shift are updated. Experiments on CelebA and UTKFace datasets show that our AIM-Fair improves model fairness while maintaining utility, outperforming both fully and partially fine-tuned approaches to model fairness.

arxiv情報

著者 Zengqun Zhao,Ziquan Liu,Yu Cao,Shaogang Gong,Ioannis Patras
発行日 2025-03-07 18:26:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | AIM-Fair: Advancing Algorithmic Fairness via Selectively Fine-Tuning Biased Models with Contextual Synthetic Data はコメントを受け付けていません

Task-oriented Uncertainty Collaborative Learning for Label-Efficient Brain Tumor Segmentation

要約

マルチコントラスト磁気共鳴イメージング(MRI)は、異なるコントラストから補完的な情報を活用することにより、脳腫瘍のセグメンテーションと診断に重要な役割を果たします。
それぞれのコントラストは、特定の腫瘍特性を強調し、腫瘍の形態、浮腫、および病理学的不均一性を包括的に理解することを可能にします。
ただし、既存の方法は、特に注釈が限られている場合、さまざまなコントラストにわたるマルチレベルの特異性の知覚の課題に依然として直面しています。
これらの課題には、データの不均一性、粒度の違い、および冗長な情報からの干渉が含まれます。
これらの制限に対処するために、マルチコントラストMRIセグメンテーションのためのタスク指向の不確実性共同学習(TUCL)フレームワークを提案します。
TUCLは、コントラストとタスク全体で特徴の相互作用を動的にモデル化するために、侵入内およびクロスプロンプトの注意メカニズムを備えたタスク指向の迅速な注意(TPA)モジュールを導入します。
さらに、循環プロセスは、予測をプロンプトにマッピングするように設計されており、プロンプトが効果的に利用されるようにします。
デコード段階では、TUCLフレームワークは、予測を繰り返し改善することにより堅牢なセグメンテーションを保証するデュアルパス不確実性洗練(DUR)戦略を提案します。
限られた標識データの広範な実験結果は、TUCLがセグメンテーションの精度を大幅に改善することを示しています(サイコロで88.2 \%、HD95で10.853 mm)。
TUCLには、マルチコントラスト情報を抽出し、広範な注釈への依存を減らす可能性があることを示しています。
このコードは、https://github.com/zhenxuan-zhang/tucl_brainsegで入手できます。

要約(オリジナル)

Multi-contrast magnetic resonance imaging (MRI) plays a vital role in brain tumor segmentation and diagnosis by leveraging complementary information from different contrasts. Each contrast highlights specific tumor characteristics, enabling a comprehensive understanding of tumor morphology, edema, and pathological heterogeneity. However, existing methods still face the challenges of multi-level specificity perception across different contrasts, especially with limited annotations. These challenges include data heterogeneity, granularity differences, and interference from redundant information. To address these limitations, we propose a Task-oriented Uncertainty Collaborative Learning (TUCL) framework for multi-contrast MRI segmentation. TUCL introduces a task-oriented prompt attention (TPA) module with intra-prompt and cross-prompt attention mechanisms to dynamically model feature interactions across contrasts and tasks. Additionally, a cyclic process is designed to map the predictions back to the prompt to ensure that the prompts are effectively utilized. In the decoding stage, the TUCL framework proposes a dual-path uncertainty refinement (DUR) strategy which ensures robust segmentation by refining predictions iteratively. Extensive experimental results on limited labeled data demonstrate that TUCL significantly improves segmentation accuracy (88.2\% in Dice and 10.853 mm in HD95). It shows that TUCL has the potential to extract multi-contrast information and reduce the reliance on extensive annotations. The code is available at: https://github.com/Zhenxuan-Zhang/TUCL_BrainSeg.

arxiv情報

著者 Zhenxuan Zhang,Hongjie Wu,Jiahao Huang,Baihong Xie,Zhifan Gao,Junxian Du,Pete Lally,Guang Yang
発行日 2025-03-07 18:44:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Task-oriented Uncertainty Collaborative Learning for Label-Efficient Brain Tumor Segmentation はコメントを受け付けていません

Motion by Queries: Identity-Motion Trade-offs in Text-to-Video Generation

要約

テキスト間拡散モデルは、テキストの説明からコヒーレントなビデオクリップを生成する際に顕著な進歩を示しています。
ただし、これらのモデルの動き、構造、およびアイデンティティ表現の相互作用は、未調査のままです。
ここでは、自己関節クエリ機能(別名Q機能)が動き、構造、アイデンティティを同時に管理し、これらの表現が相互作用したときに発生する課題をどのように統治するかを調査します。
我々の分析では、Qはレイアウトだけでなく、除去中にQが被験者のアイデンティティにも強い影響を与え、アイデンティティを転送する副作用なしに動きを転送することを困難にしていることが明らかになりました。
この二重の役割を理解することで、クエリフィーチャインジェクション(Qインジェクション)を制御し、2つのアプリケーションを実証することができました。(1)既存のアプローチよりも20倍効率的なゼロショットモーション転送方法、(2)Qインジェクションがモーションフィデルさを促進する一貫したマルチショットビデオ生成のトレーニングフリーテクニック。

要約(オリジナル)

Text-to-video diffusion models have shown remarkable progress in generating coherent video clips from textual descriptions. However, the interplay between motion, structure, and identity representations in these models remains under-explored. Here, we investigate how self-attention query features (a.k.a. Q features) simultaneously govern motion, structure, and identity and examine the challenges arising when these representations interact. Our analysis reveals that Q affects not only layout, but that during denoising Q also has a strong effect on subject identity, making it hard to transfer motion without the side-effect of transferring identity. Understanding this dual role enabled us to control query feature injection (Q injection) and demonstrate two applications: (1) a zero-shot motion transfer method that is 20 times more efficient than existing approaches, and (2) a training-free technique for consistent multi-shot video generation, where characters maintain identity across multiple video shots while Q injection enhances motion fidelity.

arxiv情報

著者 Yuval Atzmon,Rinon Gal,Yoad Tewel,Yoni Kasten,Gal Chechik
発行日 2025-03-07 18:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Motion by Queries: Identity-Motion Trade-offs in Text-to-Video Generation はコメントを受け付けていません

Fairness-Aware Low-Rank Adaptation Under Demographic Privacy Constraints

要約

事前に訓練された基礎モデルは、低ランク適応(LORA)を使用した特定のタスクに適合させることができます。
ただし、これらの適応された分類器の公平性の特性は、採用されていないままです。
既存の公平な微調整方法は、機密属性またはその予測因子への直接アクセスに依存していますが、実際には、これらの敏感な属性はしばしば厳格な消費者プライバシー制御の下で保持され、属性もその予測因子もモデル開発者が利用できず、公正なモデルの開発を妨げます。
この問題に対処するために、モデル開発者と公平性監査人が機密属性や予測因子を共有せずに協力する分散ファッションでトレーニングできる一連のLORAベースの微調整方法を紹介します。
このホワイトペーパーでは、イメージネットの事前訓練を受けたVITベースモデルを使用したセレバとUTKフェイスデータセットの実験を使用して、公平性とアウェアのベースラインに対して、敏感な未学習、敵対的訓練、直交訓練、直交の損失 – 3つのそのような方法を評価します。
正義の損失は、有用性を維持または改善しながら一貫してバイアスを軽減しますが、敵対的なトレーニングは場合によっては偽陽性率のパリティと人口統計のパリティを改善し、デリケートな解除は明確な利益をもたらさないことがわかります。
重要なバイアスが存在するタスクでは、分散された公正された微調整方法は、消費者のプライバシーを損なうことなくバイアスを効果的に排除し、ほとんどの場合、モデルの有用性を向上させることができます。

要約(オリジナル)

Pre-trained foundation models can be adapted for specific tasks using Low-Rank Adaptation (LoRA). However, the fairness properties of these adapted classifiers remain underexplored. Existing fairness-aware fine-tuning methods rely on direct access to sensitive attributes or their predictors, but in practice, these sensitive attributes are often held under strict consumer privacy controls, and neither the attributes nor their predictors are available to model developers, hampering the development of fair models. To address this issue, we introduce a set of LoRA-based fine-tuning methods that can be trained in a distributed fashion, where model developers and fairness auditors collaborate without sharing sensitive attributes or predictors. In this paper, we evaluate three such methods – sensitive unlearning, adversarial training, and orthogonality loss – against a fairness-unaware baseline, using experiments on the CelebA and UTK-Face datasets with an ImageNet pre-trained ViT-Base model. We find that orthogonality loss consistently reduces bias while maintaining or improving utility, whereas adversarial training improves False Positive Rate Parity and Demographic Parity in some cases, and sensitive unlearning provides no clear benefit. In tasks where significant biases are present, distributed fairness-aware fine-tuning methods can effectively eliminate bias without compromising consumer privacy and, in most cases, improve model utility.

arxiv情報

著者 Parameswaran Kamalaruban,Mark Anderson,Stuart Burrell,Maeve Madigan,Piotr Skalski,David Sutton
発行日 2025-03-07 18:49:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Fairness-Aware Low-Rank Adaptation Under Demographic Privacy Constraints はコメントを受け付けていません

Tell Me What to Track: Infusing Robust Language Guidance for Enhanced Referring Multi-Object Tracking

要約

参照マルチオブジェクト追跡(RMOT)は、言語表現に基づいて任意の数のターゲットをローカライズし、ビデオで継続的に追跡することを目的とする新たなクロスモーダルタスクです。
この複雑なタスクには、マルチモーダルデータの推論と、時間的関連性との正確なターゲットローカリゼーションが含まれます。
ただし、以前の研究では、タスクの性質により、新生児のターゲットと既存のターゲットとの間の不均衡なデータ分布を見落としています。
さらに、それらは間接的にマルチモーダル機能を融合し、新生児のターゲット検出に関する明確なガイダンスを提供するのに苦労しています。
上記の問題を解決するために、私たちは不均衡の影響を軽減するために共同マッチング戦略を実施し、追跡パフォーマンスを維持しながら新生児のターゲットを検出する能力を高めます。
エンコーダーでは、クロスモーダルとマルチスケールの融合を統合および強化し、以前の作業でボトルネックを克服します。
デコーダーでは、クエリトークンを介して明示的な参照ガイダンスを提供する参照浸透適応も開発します。
この実験では、以前の作品と比較してモデルの優れた性能(+3.42%)を示しており、設計の有効性を示しています。

要約(オリジナル)

Referring multi-object tracking (RMOT) is an emerging cross-modal task that aims to localize an arbitrary number of targets based on a language expression and continuously track them in a video. This intricate task involves reasoning on multi-modal data and precise target localization with temporal association. However, prior studies overlook the imbalanced data distribution between newborn targets and existing targets due to the nature of the task. In addition, they only indirectly fuse multi-modal features, struggling to deliver clear guidance on newborn target detection. To solve the above issues, we conduct a collaborative matching strategy to alleviate the impact of the imbalance, boosting the ability to detect newborn targets while maintaining tracking performance. In the encoder, we integrate and enhance the cross-modal and multi-scale fusion, overcoming the bottlenecks in previous work, where limited multi-modal information is shared and interacted between feature maps. In the decoder, we also develop a referring-infused adaptation that provides explicit referring guidance through the query tokens. The experiments showcase the superior performance of our model (+3.42%) compared to prior works, demonstrating the effectiveness of our designs.

arxiv情報

著者 Wenjun Huang,Yang Ni,Hanning Chen,Yirui He,Ian Bryant,Yezi Liu,Mohsen Imani
発行日 2025-03-07 18:51:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Tell Me What to Track: Infusing Robust Language Guidance for Enhanced Referring Multi-Object Tracking はコメントを受け付けていません

GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving

要約

高品質のマルチモーダル軌道を生成するためのエンドツーエンドの自律運転方法であるGoalFlowを提案します。
自律運転シナリオでは、適切な軌跡が1つあることはめったにありません。
最近の方法は、マルチモーダル軌道分布のモデリングにますます焦点を当てています。
しかし、彼らは、軌道の多様性とガイダンスとシーン情報の間の矛盾のために、軌道選択の複雑さと軌跡の質の低下に苦しんでいます。
これらの問題に対処するために、高品質のマルチモーダル軌跡を生成するために生成プロセスを効果的に制約する新しい方法であるGoalFlowを導入します。
拡散ベースの方法に固有の軌跡の発散問題を解決するために、GoalFlowは、ゴールポイントを導入することにより、生成された軌跡を制約します。
GoalFlowは、シーン情報に基づいて候補ポイントから最も適切なゴールポイントを選択する新しいスコアリングメカニズムを確立します。
さらに、GoalFlowは効率的な生成方法であるフローマッチングを採用してマルチモーダル軌道を生成し、洗練されたスコアリングメカニズムを組み込んで、候補者から最適な軌道を選択します。
NAVSIM \ Cite {Dauner2024_Navsim}で検証された実験結果は、GoalFlowが最先端のパフォーマンスを達成し、自律運転のための堅牢なマルチモーダル軌跡を提供することを示しています。
GoalFlowは90.3のPDMSを達成し、他の方法を大幅に超えました。
他の拡散ポリシーベースの方法と比較して、私たちのアプローチでは、優れたパフォーマンスを得るために単一の除去ステップのみが必要です。
このコードはhttps://github.com/yvanyin/goalflowで入手できます。

要約(オリジナル)

We propose GoalFlow, an end-to-end autonomous driving method for generating high-quality multimodal trajectories. In autonomous driving scenarios, there is rarely a single suitable trajectory. Recent methods have increasingly focused on modeling multimodal trajectory distributions. However, they suffer from trajectory selection complexity and reduced trajectory quality due to high trajectory divergence and inconsistencies between guidance and scene information. To address these issues, we introduce GoalFlow, a novel method that effectively constrains the generative process to produce high-quality, multimodal trajectories. To resolve the trajectory divergence problem inherent in diffusion-based methods, GoalFlow constrains the generated trajectories by introducing a goal point. GoalFlow establishes a novel scoring mechanism that selects the most appropriate goal point from the candidate points based on scene information. Furthermore, GoalFlow employs an efficient generative method, Flow Matching, to generate multimodal trajectories, and incorporates a refined scoring mechanism to select the optimal trajectory from the candidates. Our experimental results, validated on the Navsim\cite{Dauner2024_navsim}, demonstrate that GoalFlow achieves state-of-the-art performance, delivering robust multimodal trajectories for autonomous driving. GoalFlow achieved PDMS of 90.3, significantly surpassing other methods. Compared with other diffusion-policy-based methods, our approach requires only a single denoising step to obtain excellent performance. The code is available at https://github.com/YvanYin/GoalFlow.

arxiv情報

著者 Zebin Xing,Xingyu Zhang,Yang Hu,Bo Jiang,Tong He,Qian Zhang,Xiaoxiao Long,Wei Yin
発行日 2025-03-07 18:52:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving はコメントを受け付けていません