PhysGen3D: Crafting a Miniature Interactive World from a Single Image

要約

単一の画像から物理的にもっともらしい結果を想像するには、世界のダイナミクスを深く理解する必要があります。
これに対処するために、単一の画像をアモダルのカメラ中心のインタラクティブな3Dシーンに変換する新しいフレームワークであるPhysGen3Dを紹介します。
高度な画像ベースの幾何学的およびセマンティック理解と物理ベースのシミュレーションを組み合わせることにより、PhysGen3Dは静的画像からインタラクティブな3Dワールドを作成し、ユーザーの入力に基づいて将来のシナリオを「想像」してシミュレートすることができます。
そのコアでは、PhysGen3Dは3D形状、ポーズ、物理的および照明特性をオブジェクトの物理的および照明特性と推定し、それにより、現実的なオブジェクトの相互作用を駆動する重要な物理的属性をキャプチャします。
このフレームワークにより、ユーザーは、生成されたビデオ成果を強化するために、オブジェクト速度や材料プロパティなどの正確な初期条件を指定できます。
Pika、Kling、Gen-3を含むクローズドソースの最先端の(SOTA)画像からビデオへのパフォーマンスを評価し、PhysGen3Dのリアルな物理学でビデオを生成しながら、より柔軟性と微細なコントロールを提供する能力を示しています。
我々の結果は、PhysGen3Dがフォトリアリズム、身体的妥当性、ユーザー駆動型のインタラクティブ性のユニークなバランスを達成し、画像から動的な物理学的なビデオを生成するための新しい可能性を開くことを示しています。

要約(オリジナル)

Envisioning physically plausible outcomes from a single image requires a deep understanding of the world’s dynamics. To address this, we introduce PhysGen3D, a novel framework that transforms a single image into an amodal, camera-centric, interactive 3D scene. By combining advanced image-based geometric and semantic understanding with physics-based simulation, PhysGen3D creates an interactive 3D world from a static image, enabling us to ‘imagine’ and simulate future scenarios based on user input. At its core, PhysGen3D estimates 3D shapes, poses, physical and lighting properties of objects, thereby capturing essential physical attributes that drive realistic object interactions. This framework allows users to specify precise initial conditions, such as object speed or material properties, for enhanced control over generated video outcomes. We evaluate PhysGen3D’s performance against closed-source state-of-the-art (SOTA) image-to-video models, including Pika, Kling, and Gen-3, showing PhysGen3D’s capacity to generate videos with realistic physics while offering greater flexibility and fine-grained control. Our results show that PhysGen3D achieves a unique balance of photorealism, physical plausibility, and user-driven interactivity, opening new possibilities for generating dynamic, physics-grounded video from an image.

arxiv情報

著者 Boyuan Chen,Hanxiao Jiang,Shaowei Liu,Saurabh Gupta,Yunzhu Li,Hao Zhao,Shenlong Wang
発行日 2025-03-26 17:31:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PhysGen3D: Crafting a Miniature Interactive World from a Single Image はコメントを受け付けていません

UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines

要約

従来の空間的モデルは一般に、ドメイン固有の設計要件により、多様なタスク全体の一般化可能性とスケーラビリティを制限するタスク固有のアーキテクチャに依存しています。
このホワイトペーパーでは、2段階の前提条件で採用パラダイムを備えた最近の基礎モデルの進歩に触発された、空間的モデリングの統一された変圧器ベースのフレームワークである\ textBf {UnistD}を紹介します。
具体的には、我々の研究は、2Dビジョンとビジョンテキストデータセットのタスクに依存しない事前供給が、時空間学習のための一般化可能なモデル基盤を構築し、その後、タスク固有の適応性を高めるための空間的データセットに関する特殊な共同トレーニングが続くことを示しています。
ドメイン全体の学習機能を改善するために、私たちのフレームワークは、分数補間を使用して個別の変数を緩和して連続空間で最適化できるランクに適応する専門家の適応を採用しています。
さらに、時間的ダイナミクスを明示的に組み込むための時間モジュールを導入します。
4つの分野にわたる10のタスクをカバーする大規模なデータセットでアプローチを評価し、統一された空間モデルがスケーラブルなクロスタスク学習を実現し、1つのモデル内で最大10のタスクを同時にサポートしながら、マルチドメインアプリケーションのトレーニングコストを削減できることを実証します。
コードはhttps://github.com/1hunters/unistdで入手できます。

要約(オリジナル)

Traditional spatiotemporal models generally rely on task-specific architectures, which limit their generalizability and scalability across diverse tasks due to domain-specific design requirements. In this paper, we introduce \textbf{UniSTD}, a unified Transformer-based framework for spatiotemporal modeling, which is inspired by advances in recent foundation models with the two-stage pretraining-then-adaption paradigm. Specifically, our work demonstrates that task-agnostic pretraining on 2D vision and vision-text datasets can build a generalizable model foundation for spatiotemporal learning, followed by specialized joint training on spatiotemporal datasets to enhance task-specific adaptability. To improve the learning capabilities across domains, our framework employs a rank-adaptive mixture-of-expert adaptation by using fractional interpolation to relax the discrete variables so that can be optimized in the continuous space. Additionally, we introduce a temporal module to incorporate temporal dynamics explicitly. We evaluate our approach on a large-scale dataset covering 10 tasks across 4 disciplines, demonstrating that a unified spatiotemporal model can achieve scalable, cross-task learning and support up to 10 tasks simultaneously within one model while reducing training costs in multi-domain applications. Code will be available at https://github.com/1hunters/UniSTD.

arxiv情報

著者 Chen Tang,Xinzhu Ma,Encheng Su,Xiufeng Song,Xiaohong Liu,Wei-Hong Li,Lei Bai,Wanli Ouyang,Xiangyu Yue
発行日 2025-03-26 17:33:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines はコメントを受け付けていません

Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning

要約

視覚的推論能力は、複雑なマルチモーダルデータを理解する上で重要な役割を果たし、ドメイン固有のアプリケーションと人工的な一般情報(AGI)の両方を進めます。
既存の方法は、視覚的な推論機能を強化するために細心の注意を払って注釈付きトレーニングデータを使用して、チェーンオブ思考(COT)の監視微調整を介してVLMの推論を改善します。
ただし、このトレーニングパラダイムは、過剰適合および認知的剛性につながり、視覚的推論スキルをドメイン間で転送する能力を制限し、実際の適用性を制限する可能性があります。
これらの制限に対処するために、Reason-RFTを提案します。これは、視覚的推論タスクの一般化能力を大幅に強化する新しい強化微調整フレームワークです。
REASON-RFTは、視覚的推論のための2フェーズトレーニングフレームワークを導入します:(1)キュレーションされたチェーン(COT)データを使用した監視付き微調整(SFT)は、視覚言語モデル(VLMS)の推論の可能性をアクティブにし、その後、(2)グループ相対政策最適化(GRPO)ベースの補強学習が視覚化の視覚化を拡大する視覚化を促進する補強学習を生成します。
Reason-RFTの視覚的推論機能を評価するために、視覚的カウント、構造認識、および空間変換にまたがる包括的なデータセットを再構築しました。CEXPatialTransformationを再構築しました。
(2)一般化の優位性:多様なタスクとドメイン全体で堅牢なパフォーマンスを一貫して維持し、代替トレーニングパラダイムを上回る。
(3)データ効率:フルデータセットSFTベースラインを上回りながら、少数のショット学習シナリオで優れています。

要約(オリジナル)

Visual reasoning abilities play a crucial role in understanding complex multimodal data, advancing both domain-specific applications and artificial general intelligence (AGI). Existing methods improve VLM reasoning via Chain-of-Thought (CoT) supervised fine-tuning, using meticulously annotated training data to enhance visual reasoning capabilities. However, this training paradigm may lead to overfitting and cognitive rigidity, restricting the model’s ability to transfer visual reasoning skills across domains and limiting its real-world applicability. To address these limitations, we propose Reason-RFT, a novel reinforcement fine-tuning framework that significantly enhances generalization capabilities in visual reasoning tasks. Reason-RFT introduces a two-phase training framework for visual reasoning: (1) Supervised Fine-Tuning (SFT) with curated Chain-of-Thought (CoT) data activates the reasoning potential of Vision-Language Models (VLMs), followed by (2) Group Relative Policy Optimization (GRPO)-based reinforcement learning that generates multiple reasoning-response pairs, significantly enhancing generalization in visual reasoning tasks. To evaluate Reason-RFT’s visual reasoning capabilities, we reconstructed a comprehensive dataset spanning visual counting, structure perception, and spatial transformation.cExperimental results demonstrate Reasoning-RFT’s three key advantages: (1) Performance Enhancement: achieving state-of-the-art results across multiple tasks, outperforming most mainstream open-source and proprietary models; (2) Generalization Superiority: consistently maintaining robust performance across diverse tasks and domains, outperforming alternative training paradigms; (3) Data Efficiency: excelling in few-shot learning scenarios while surpassing full-dataset SFT baselines.

arxiv情報

著者 Huajie Tan,Yuheng Ji,Xiaoshuai Hao,Minglan Lin,Pengwei Wang,Zhongyuan Wang,Shanghang Zhang
発行日 2025-03-26 17:38:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning はコメントを受け付けていません

R-LiViT: A LiDAR-Visual-Thermal Dataset Enabling Vulnerable Road User Focused Roadside Perception

要約

自律運転では、閉塞の課題を克服し、脆弱な道路利用者(VRUS)の安全性を高めるためには、路傍認識システムの統合が不可欠です。
LidarおよびVisual(RGB)センサーが一般的に使用されていますが、極端な照明条件でのVRU検出の利点が認められているにもかかわらず、熱イメージングは​​データセットでは過小評価されています。
このホワイトペーパーでは、r-livitを、Lidar、RGB、および熱イメージングを道端の観点から組み合わせた最初のデータセットで、VRUに重点を置いています。
R-Livitは、昼と夜の両方で3つの交差点をキャプチャし、多様なデータセットを確保します。
10,000のLIDARフレームと2,400の時間的および空間的に整列したRGBおよび150を超えるトラフィックシナリオにわたって、熱画像がそれぞれ6と8の注釈付きクラスが含まれており、オブジェクトの検出や追跡などのタスクの包括的なリソースを提供します。
評価結果を再現するためのデータセットとコードは、公開されています。

要約(オリジナル)

In autonomous driving, the integration of roadside perception systems is essential for overcoming occlusion challenges and enhancing the safety of Vulnerable Road Users (VRUs). While LiDAR and visual (RGB) sensors are commonly used, thermal imaging remains underrepresented in datasets, despite its acknowledged advantages for VRU detection in extreme lighting conditions. In this paper, we present R-LiViT, the first dataset to combine LiDAR, RGB, and thermal imaging from a roadside perspective, with a strong focus on VRUs. R-LiViT captures three intersections during both day and night, ensuring a diverse dataset. It includes 10,000 LiDAR frames and 2,400 temporally and spatially aligned RGB and thermal images across over 150 traffic scenarios, with 6 and 8 annotated classes respectively, providing a comprehensive resource for tasks such as object detection and tracking. The dataset and the code for reproducing our evaluation results are made publicly available.

arxiv情報

著者 Jonas Mirlach,Lei Wan,Andreas Wiedholz,Hannan Ejaz Keen,Andreas Eich
発行日 2025-03-26 17:38:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | R-LiViT: A LiDAR-Visual-Thermal Dataset Enabling Vulnerable Road User Focused Roadside Perception はコメントを受け付けていません

ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems

要約

大規模なマルチモーダルモデル(LMM)の最近の進歩は、自律運転システム(ADS)で有望であることを示しています。
ただし、広告への直接の適用は、交通知識の誤解、複雑な道路状況、車両の多様な状態などの課題によって妨げられています。
これらの課題に対処するために、完全な再試行を必要とせずに、モデルの動作をターゲットにした変更を可能にする知識編集の使用を提案します。
一方、さまざまな現実世界のシナリオ、複数のデータ型、包括的な評価メトリックを含む広告向けに特別に設計されたマルチモーダルナレッジ編集データセットであるADS-EDITを紹介します。
包括的な実験を実施し、いくつかの興味深い結論を導き出します。
私たちの仕事が、自律運転の分野でアプリケーションを編集する知識のさらなる進歩に貢献することを願っています。
コードとデータはhttps://github.com/zjunlp/easyeditで入手できます。

要約(オリジナル)

Recent advancements in Large Multimodal Models (LMMs) have shown promise in Autonomous Driving Systems (ADS). However, their direct application to ADS is hindered by challenges such as misunderstanding of traffic knowledge, complex road conditions, and diverse states of vehicle. To address these challenges, we propose the use of Knowledge Editing, which enables targeted modifications to a model’s behavior without the need for full retraining. Meanwhile, we introduce ADS-Edit, a multimodal knowledge editing dataset specifically designed for ADS, which includes various real-world scenarios, multiple data types, and comprehensive evaluation metrics. We conduct comprehensive experiments and derive several interesting conclusions. We hope that our work will contribute to the further advancement of knowledge editing applications in the field of autonomous driving. Code and data are available in https://github.com/zjunlp/EasyEdit.

arxiv情報

著者 Chenxi Wang,Jizhan Fang,Xiang Chen,Bozhong Tian,Ziwen Xu,Huajun Chen,Ningyu Zhang
発行日 2025-03-26 17:45:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems はコメントを受け付けていません

Disentangled Source-Free Personalization for Facial Expression Recognition with Neutral Target Data

要約

ビデオからの表情表現認識(FER)は、ヒューマンコンピューターの相互作用や健康監視(痛み、うつ病、疲労、ストレスなど)など、さまざまなアプリケーション分野で重要なタスクです。
微妙な感情的または健康状態を認識することの課題を超えて、ディープFERモデルの有効性は、被験者間の表現のかなりの変動性によってしばしば妨げられます。
ソースフリードメイン適応(SFDA)メソッドが採用されており、非標識ターゲットドメインデータのみを使用して事前に訓練されたソースモデルを適応させ、データプライバシーとストレージの問題を回避します。
通常、SFDAメソッドは、集団全体に対応するターゲットドメインデータセットに適応し、すべての認識クラスのデータが含まれていると想定しています。
ただし、このような包括的なターゲットデータを収集することは、ヘルスケアアプリケーションではFERにとって困難または不可能です。
多くの実際のシナリオでは、展開前にターゲット被験者の短いニュートラル制御ビデオ(ニュートラル式のみを表示)を収集することが可能です。
これらのビデオを使用して、被験者間の表現の変動性をよりよく処理するためにモデルを適応させることができます。
このホワイトペーパーでは、ターゲット式データの欠落によってもたらされるSFDAチャレンジに対処するために、解き込められたソースフリードメイン適応(DSFDA)メソッドを紹介します。
DSFDAは、非中立データが欠落しているターゲットデータのエンドツーエンドの生成と適応のためのニュートラルターゲット制御ビデオのデータを活用します。
私たちの方法は、欠落している非中立ターゲットデータを生成しながら、表現とアイデンティティに関連する機能を解くことを学び、それによりモデルの精度が向上します。
さらに、私たちの自己監督戦略は、同じアイデンティティとソースの表現を維持するターゲット画像を再構築することにより、モデルの適応を改善します。

要約(オリジナル)

Facial Expression Recognition (FER) from videos is a crucial task in various application areas, such as human-computer interaction and health monitoring (e.g., pain, depression, fatigue, and stress). Beyond the challenges of recognizing subtle emotional or health states, the effectiveness of deep FER models is often hindered by the considerable variability of expressions among subjects. Source-free domain adaptation (SFDA) methods are employed to adapt a pre-trained source model using only unlabeled target domain data, thereby avoiding data privacy and storage issues. Typically, SFDA methods adapt to a target domain dataset corresponding to an entire population and assume it includes data from all recognition classes. However, collecting such comprehensive target data can be difficult or even impossible for FER in healthcare applications. In many real-world scenarios, it may be feasible to collect a short neutral control video (displaying only neutral expressions) for target subjects before deployment. These videos can be used to adapt a model to better handle the variability of expressions among subjects. This paper introduces the Disentangled Source-Free Domain Adaptation (DSFDA) method to address the SFDA challenge posed by missing target expression data. DSFDA leverages data from a neutral target control video for end-to-end generation and adaptation of target data with missing non-neutral data. Our method learns to disentangle features related to expressions and identity while generating the missing non-neutral target data, thereby enhancing model accuracy. Additionally, our self-supervision strategy improves model adaptation by reconstructing target images that maintain the same identity and source expression.

arxiv情報

著者 Masoumeh Sharafi,Emma Ollivier,Muhammad Osama Zeeshan,Soufiane Belharbi,Marco Pedersoli,Alessandro Lameiras Koerich,Simon Bacon,Eric~Granger
発行日 2025-03-26 17:53:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Disentangled Source-Free Personalization for Facial Expression Recognition with Neutral Target Data はコメントを受け付けていません

OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

要約

Vision-Language-action(VLA)モデルは、視覚的な観察と言語の指示に基づいてロボットアクションを予測することを目的としています。
既存のアプローチでは、視覚的および言語機能が独立してダウンストリームポリシーに供給され、事前に訓練されたセマンティックアラインメントを分解するため、微調整前のVisionLanguageモデル(VLM)が必要です。
Otterを提案します。Cotterは、明示的でテキスト認識の視覚機能抽出を通じて、これらの既存のアライメントを活用する新しいVLAアーキテクチャです。
すべての視覚的機能を処理する代わりに、カワウソは、ポリシートランスの言語命令と意味的に整列したタスク関連の視覚的特徴のみを選択的に抽出および渡します。
これにより、Otterは事前に訓練されたビジョン言語エンコーダーを冷凍し続けることができます。
これにより、Otterは大規模なスケールの事前トレーニングから学んだ豊富なセマンティック理解を保存および利用し、強力なゼロショット一般化機能を可能にします。
シミュレーションおよび実際の実験では、カワウソは既存のVLAモデルを大幅に上回り、新しいオブジェクトと環境に強力なゼロショットの一般化を実証しています。
ビデオ、コード、チェックポイント、およびデータセット:https://ottervla.github.io/。

要約(オリジナル)

Vision-Language-Action (VLA) models aim to predict robotic actions based on visual observations and language instructions. Existing approaches require fine-tuning pre-trained visionlanguage models (VLMs) as visual and language features are independently fed into downstream policies, degrading the pre-trained semantic alignments. We propose OTTER, a novel VLA architecture that leverages these existing alignments through explicit, text-aware visual feature extraction. Instead of processing all visual features, OTTER selectively extracts and passes only task-relevant visual features that are semantically aligned with the language instruction to the policy transformer. This allows OTTER to keep the pre-trained vision-language encoders frozen. Thereby, OTTER preserves and utilizes the rich semantic understanding learned from large-scale pre-training, enabling strong zero-shot generalization capabilities. In simulation and real-world experiments, OTTER significantly outperforms existing VLA models, demonstrating strong zeroshot generalization to novel objects and environments. Video, code, checkpoints, and dataset: https://ottervla.github.io/.

arxiv情報

著者 Huang Huang,Fangchen Liu,Letian Fu,Tingfan Wu,Mustafa Mukadam,Jitendra Malik,Ken Goldberg,Pieter Abbeel
発行日 2025-03-26 17:55:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction はコメントを受け付けていません

Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

要約

2Dおよびマルチモーダルモデルの最近の進歩は、広範なデータセットでの大規模なトレーニングを活用することにより、驚くべき成功を収めています。
ただし、これらの成果を拡張して、複雑な3D/4Dシーンで自由形式の相互作用と高レベルのセマンティック操作を可能にします。
この難しさは、一般化可能なビジョンや迅速なセグメンテーション、言語誘導編集、視覚的質問(VQA)などの一般化可能なビジョンと言語タスクに不可欠な、大規模な注釈付き3D/4Dまたはマルチビューデータセットの利用可能性が限られています。
このホワイトペーパーでは、ユーザー生成コンテンツから広く入手できる単眼ビデオ入力のみを使用して、任意の機能を2D Vision Foundationモデルから4D領域に拡張するように設計されたUniversal Frameworkであるfeature4xを紹介します。
feature4xの「x」は汎用性を表し、適応可能なモデル条件付けされた4D機能フィールド蒸留を通じてタスクを可能にします。
フレームワークの中核は、複数のモデル機能を単一の表現に統合する動的な最適化戦略です。
さらに、私たちの知る限り、feature4xは、ビデオファンデーションモデル(sam2、internvideo2など)の機能をガウスのスプラッティングを使用して明示的な4D機能フィールドに蒸留および持ち上げる最初の方法です。
私たちの実験は、新しいビューセグメントであらゆるもの、幾何学的および外観シーンの編集、およびすべてのタイムステップにわたって自由形式のVQAを紹介します。
これらの進歩は、没入型ダイナミック4Dシーンインタラクションが可能なスケーラブル、コンテキスト、および空間的に認識しているシステムの基礎を提供することにより、エージェントAIアプリケーションの範囲を広げます。

要約(オリジナル)

Recent advancements in 2D and multimodal models have achieved remarkable success by leveraging large-scale training on extensive datasets. However, extending these achievements to enable free-form interactions and high-level semantic operations with complex 3D/4D scenes remains challenging. This difficulty stems from the limited availability of large-scale, annotated 3D/4D or multi-view datasets, which are crucial for generalizable vision and language tasks such as open-vocabulary and prompt-based segmentation, language-guided editing, and visual question answering (VQA). In this paper, we introduce Feature4X, a universal framework designed to extend any functionality from 2D vision foundation model into the 4D realm, using only monocular video input, which is widely available from user-generated content. The ‘X’ in Feature4X represents its versatility, enabling any task through adaptable, model-conditioned 4D feature field distillation. At the core of our framework is a dynamic optimization strategy that unifies multiple model capabilities into a single representation. Additionally, to the best of our knowledge, Feature4X is the first method to distill and lift the features of video foundation models (e.g. SAM2, InternVideo2) into an explicit 4D feature field using Gaussian Splatting. Our experiments showcase novel view segment anything, geometric and appearance scene editing, and free-form VQA across all time steps, empowered by LLMs in feedback loops. These advancements broaden the scope of agentic AI applications by providing a foundation for scalable, contextually and spatiotemporally aware systems capable of immersive dynamic 4D scene interaction.

arxiv情報

著者 Shijie Zhou,Hui Ren,Yijia Weng,Shuwang Zhang,Zhen Wang,Dejia Xu,Zhiwen Fan,Suya You,Zhangyang Wang,Leonidas Guibas,Achuta Kadambi
発行日 2025-03-26 17:56:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields はコメントを受け付けていません

BASKET: A Large-Scale Video Dataset for Fine-Grained Skill Estimation

要約

きめの細かいスキル推定のために、大規模なバスケットボールビデオデータセットであるバスケットを紹介します。
バスケットには、世界中の32,232人のバスケットボール選手をキャプチャする4,477時間のビデオが含まれています。
以前のスキル推定データセットと比較して、当社のデータセットには、性別、年齢、スキルレベル、地理的位置などの観点から前例のない多様性を持つ膨大な数の熟練した参加者が含まれています。バスケットには、20の微調整されたバスケットボールスキルが含まれ、現代のビデオ認識モデルに挑戦して、密集したビデオ分析を通じてプレーヤーのスキルの複雑なニュアンスを獲得します。
特定のプレーヤーの長いハイライトビデオ(8〜10分)を考えると、モデルは20のバスケットボールスキルのそれぞれについてスキルレベル(優れた、良好、平均、公正、貧弱)を予測する必要があります。
私たちの経験的分析は、現在の最先端のビデオモデルがこのタスクに苦しんでおり、人間のベースラインの後ろに大幅に遅れていることを明らかにしています。
バスケットは、高度な長距離で微細な認識能力を備えた新しいビデオモデルを開発するための有用なリソースになる可能性があると考えています。
さらに、当社のデータセットが、公正なバスケットボールスカウト、パーソナライズされたプレーヤーの開発など、ドメイン固有のアプリケーションに役立つことを願っています。
データセットとコードはhttps://github.com/yulupan00/basketで入手できます。

要約(オリジナル)

We present BASKET, a large-scale basketball video dataset for fine-grained skill estimation. BASKET contains 4,477 hours of video capturing 32,232 basketball players from all over the world. Compared to prior skill estimation datasets, our dataset includes a massive number of skilled participants with unprecedented diversity in terms of gender, age, skill level, geographical location, etc. BASKET includes 20 fine-grained basketball skills, challenging modern video recognition models to capture the intricate nuances of player skill through in-depth video analysis. Given a long highlight video (8-10 minutes) of a particular player, the model needs to predict the skill level (e.g., excellent, good, average, fair, poor) for each of the 20 basketball skills. Our empirical analysis reveals that the current state-of-the-art video models struggle with this task, significantly lagging behind the human baseline. We believe that BASKET could be a useful resource for developing new video models with advanced long-range, fine-grained recognition capabilities. In addition, we hope that our dataset will be useful for domain-specific applications such as fair basketball scouting, personalized player development, and many others. Dataset and code are available at https://github.com/yulupan00/BASKET.

arxiv情報

著者 Yulu Pan,Ce Zhang,Gedas Bertasius
発行日 2025-03-26 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BASKET: A Large-Scale Video Dataset for Fine-Grained Skill Estimation はコメントを受け付けていません

Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising

要約

このペーパーでは、ゼロショットオーディオビデオ編集を紹介します。これは、追加のモデルトレーニングなしで指定されたテキストプロンプトと整合するためにオリジナルのオーディオビジュアルコンテンツを変換する必要がある新しいタスクです。
このタスクを評価するために、ゼロショットオーディオビデオ編集のために明示的に設計されたベンチマークデータセットであるベンチベンチをキュレートします。
Aved-Benchには110のビデオが含まれており、それぞれがVggsoundから11のカテゴリにまたがる10秒間の期間があります。
聴覚要素と視覚要素の間の正確なアライメントを必要とする多様なプロンプトとシナリオを提供し、堅牢な評価を可能にします。
既存のゼロショットオーディオおよびビデオ編集方法、特に同期とモダリティ間の一貫性の制限を特定します。
これらの課題に対処するために、オーディオビデオインタラクションを活用して同期されたコヒーレントな編集を実現するゼロショットクロスモーダルデルタ除去フレームワークであるAvedを提案します。
Avedは、Aved-Benchと最近のOaveデータセットの両方で優れた結果を示し、その一般化機能を検証します。
結果はhttps://genjib.github.io/project_page/aved/index.htmlで入手できます

要約(オリジナル)

In this paper, we introduce zero-shot audio-video editing, a novel task that requires transforming original audio-visual content to align with a specified textual prompt without additional model training. To evaluate this task, we curate a benchmark dataset, AvED-Bench, designed explicitly for zero-shot audio-video editing. AvED-Bench includes 110 videos, each with a 10-second duration, spanning 11 categories from VGGSound. It offers diverse prompts and scenarios that require precise alignment between auditory and visual elements, enabling robust evaluation. We identify limitations in existing zero-shot audio and video editing methods, particularly in synchronization and coherence between modalities, which often result in inconsistent outcomes. To address these challenges, we propose AvED, a zero-shot cross-modal delta denoising framework that leverages audio-video interactions to achieve synchronized and coherent edits. AvED demonstrates superior results on both AvED-Bench and the recent OAVE dataset to validate its generalization capabilities. Results are available at https://genjib.github.io/project_page/AVED/index.html

arxiv情報

著者 Yan-Bo Lin,Kevin Lin,Zhengyuan Yang,Linjie Li,Jianfeng Wang,Chung-Ching Lin,Xiaofei Wang,Gedas Bertasius,Lijuan Wang
発行日 2025-03-26 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising はコメントを受け付けていません