OpenTAD: A Unified Framework and Comprehensive Study of Temporal Action Detection

要約

時間的アクション検出(TAD)は、人間の行動を特定し、ビデオ内の時間的境界をローカライズすることを目的とする基本的なビデオ理解タスクです。
この分野は近年顕著な進歩を遂げていますが、さらなる進歩と現実世界のアプリケーションは、標準化されたフレームワークがないことによって妨げられています。
現在、さまざまな実装設定、評価プロトコルなどで異なる方法が比較されているため、特定の手法の実際の有効性を評価することが困難です。
この問題に対処するために、16の異なるTADメソッドと9つの標準データセットをモジュラーコードベースに統合する統合されたTADフレームワークである\ textbf {opentad}を提案します。
Opentadでは、1つのモジュールを異なる設計に置き換える、エンドツーエンドモードで機能ベースのTADモデルをトレーニングするか、2つの間に切り替えるために最小限の労力が必要です。
また、Opentadは、さまざまなデータセット全体で簡単なベンチマークを促進し、さまざまな方法で公正かつ詳細な比較を可能にします。
Opentadを使用すると、さまざまなネットワークコンポーネントの革新が検出パフォーマンスにどのように影響し、広範な実験を通じて最も効果的な設計の選択肢を特定するかを包括的に研究します。
この研究は、各コンポーネントの既存の手法に基づいて構築された新しい最先端のTADメソッドにつながりました。
https://github.com/sming256/opentadでコードとモデルを利用できるようにしました。

要約(オリジナル)

Temporal action detection (TAD) is a fundamental video understanding task that aims to identify human actions and localize their temporal boundaries in videos. Although this field has achieved remarkable progress in recent years, further progress and real-world applications are impeded by the absence of a standardized framework. Currently, different methods are compared under different implementation settings, evaluation protocols, etc., making it difficult to assess the real effectiveness of a specific technique. To address this issue, we propose \textbf{OpenTAD}, a unified TAD framework consolidating 16 different TAD methods and 9 standard datasets into a modular codebase. In OpenTAD, minimal effort is required to replace one module with a different design, train a feature-based TAD model in end-to-end mode, or switch between the two. OpenTAD also facilitates straightforward benchmarking across various datasets and enables fair and in-depth comparisons among different methods. With OpenTAD, we comprehensively study how innovations in different network components affect detection performance and identify the most effective design choices through extensive experiments. This study has led to a new state-of-the-art TAD method built upon existing techniques for each component. We have made our code and models available at https://github.com/sming256/OpenTAD.

arxiv情報

著者 Shuming Liu,Chen Zhao,Fatimah Zohra,Mattia Soldan,Alejandro Pardo,Mengmeng Xu,Lama Alssum,Merey Ramazanova,Juan León Alcázar,Anthony Cioppa,Silvio Giancola,Carlos Hinojosa,Bernard Ghanem
発行日 2025-02-27 18:32:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OpenTAD: A Unified Framework and Comprehensive Study of Temporal Action Detection はコメントを受け付けていません

Ready-to-React: Online Reaction Policy for Two-Character Interaction Generation

要約

このペーパーでは、2文字のオンラインインタラクションを生成するタスクに対処します。
以前は、2文字の相互作用の生成には2つの主要な設定が存在していました。(1)対応物の完全な動きシーケンスに基づいて動きを生成し、(2)特定の条件に基づいて2文字の動きを共同で生成しました。
これらの設定は、人間がリアルタイムでカウンターパートに反応し、独立した個人として行動する現実の2文字相互作用のプロセスをモデル化できないと主張します。
対照的に、過去の観察された動きに基づいて次のキャラクターポーズを生成するために、すぐに反応できるように呼ばれるオンライン反応ポリシーを提案します。
各キャラクターには、「脳」として独自の反応ポリシーがあり、ストリーミング方法で実際の人間のように相互作用することができます。
当社のポリシーは、拡散ヘッドを自動回帰モデルに組み込むことにより実装されています。これにより、生成プロセス全体でエラーの蓄積を効果的に軽減しながら、対応物の動きに動的に応答できます。
挑戦的なボクシングタスクを使用して、包括的な実験を実施します。
実験結果は、我々の方法が既存のベースラインよりも優れており、拡張運動シーケンスを生成できることを示しています。
さらに、アプローチはスパース信号によって制御できることを示し、VRやその他のオンラインインタラクティブ環境に適していることを示しています。

要約(オリジナル)

This paper addresses the task of generating two-character online interactions. Previously, two main settings existed for two-character interaction generation: (1) generating one’s motions based on the counterpart’s complete motion sequence, and (2) jointly generating two-character motions based on specific conditions. We argue that these settings fail to model the process of real-life two-character interactions, where humans will react to their counterparts in real time and act as independent individuals. In contrast, we propose an online reaction policy, called Ready-to-React, to generate the next character pose based on past observed motions. Each character has its own reaction policy as its ‘brain’, enabling them to interact like real humans in a streaming manner. Our policy is implemented by incorporating a diffusion head into an auto-regressive model, which can dynamically respond to the counterpart’s motions while effectively mitigating the error accumulation throughout the generation process. We conduct comprehensive experiments using the challenging boxing task. Experimental results demonstrate that our method outperforms existing baselines and can generate extended motion sequences. Additionally, we show that our approach can be controlled by sparse signals, making it well-suited for VR and other online interactive environments.

arxiv情報

著者 Zhi Cen,Huaijin Pi,Sida Peng,Qing Shuai,Yujun Shen,Hujun Bao,Xiaowei Zhou,Ruizhen Hu
発行日 2025-02-27 18:40:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Ready-to-React: Online Reaction Policy for Two-Character Interaction Generation はコメントを受け付けていません

Tight Inversion: Image-Conditioned Inversion for Real Image Editing

要約

テキストから画像への拡散モデルは、強力な画像編集機能を提供します。
実際の画像を編集するために、多くの方法がイメージの反転に依存してガウスノイズに依存しています。
画像を反転する一般的なアプローチは、サンプリング方程式を逆にすることでノイズが決定される画像に徐々にノイズを追加することです。
このプロセスには、再構築と編集可能性の間に固有のトレードオフがあり、高度に表現された画像などの挑戦的な画像の編集が制限されています。
テキスト条件でのテキストから画像へのモデルの反転の依存を認識して、この作業は状態の選択の重要性を探ります。
入力画像と正確に整合する条件が反転の品質を大幅に改善することを示します。
調査結果に基づいて、最も可能な正確な条件である入力画像自体を利用する反転法であるTight Inversionを紹介します。
このタイトな状態は、モデルの出力の分布を狭め、再構築と編集可能性の両方を強化します。
広範な実験を通じて既存の反転法と組み合わせると、再構成の精度とさまざまな編集方法との統合を評価する場合、アプローチの有効性を実証します。

要約(オリジナル)

Text-to-image diffusion models offer powerful image editing capabilities. To edit real images, many methods rely on the inversion of the image into Gaussian noise. A common approach to invert an image is to gradually add noise to the image, where the noise is determined by reversing the sampling equation. This process has an inherent tradeoff between reconstruction and editability, limiting the editing of challenging images such as highly-detailed ones. Recognizing the reliance of text-to-image models inversion on a text condition, this work explores the importance of the condition choice. We show that a condition that precisely aligns with the input image significantly improves the inversion quality. Based on our findings, we introduce Tight Inversion, an inversion method that utilizes the most possible precise condition — the input image itself. This tight condition narrows the distribution of the model’s output and enhances both reconstruction and editability. We demonstrate the effectiveness of our approach when combined with existing inversion methods through extensive experiments, evaluating the reconstruction accuracy as well as the integration with various editing methods.

arxiv情報

著者 Edo Kadosh,Nir Goren,Or Patashnik,Daniel Garibi,Daniel Cohen-Or
発行日 2025-02-27 18:51:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | Tight Inversion: Image-Conditioned Inversion for Real Image Editing はコメントを受け付けていません

Efficient Gaussian Splatting for Monocular Dynamic Scene Rendering via Sparse Time-Variant Attribute Modeling

要約

単眼ビデオから動的なシーンをレンダリングすることは、重要でありながら挑戦的な作業です。
最近の変形可能なガウスの飛び散は、実際の動的シーンを表すための堅牢なソリューションとして浮上しています。
しかし、それはしばしば非常に冗長なガウス人につながり、すべてのトレーニングビューをさまざまな時刻ステップで適合させようとし、レンダリング速度が遅くなります。
さらに、静的領域のガウス人の属性は時間不変であるため、静的領域で不安を引き起こす可能性のあるすべてのガウスをモデル化する必要はありません。
実際には、動的なシーンのレンダリング速度の主要なボトルネックは、ガウスの数です。
これに応じて、スパースタイムバリアント属性モデリングを介した動的シーンを表す効率的な動的ガウススプラッティング(EDGS)を導入します。
私たちのアプローチは、古典的なカーネル表現を介して計算される密なガウスの動きを使用して、スパースアンカーグリッド表現を使用して動的シーンを定式化します。
さらに、静的領域に対応するアンカーを効率的に除外する監視されていない戦略を提案します。
変形可能なオブジェクトに関連付けられたアンカーのみがMLPに入力され、時間変化属性を照会します。
2つの実際のデータセットでの実験は、EDGが以前の最先端の方法と比較して優れたレンダリング品質でレンダリング速度を大幅に改善することを示しています。

要約(オリジナル)

Rendering dynamic scenes from monocular videos is a crucial yet challenging task. The recent deformable Gaussian Splatting has emerged as a robust solution to represent real-world dynamic scenes. However, it often leads to heavily redundant Gaussians, attempting to fit every training view at various time steps, leading to slower rendering speeds. Additionally, the attributes of Gaussians in static areas are time-invariant, making it unnecessary to model every Gaussian, which can cause jittering in static regions. In practice, the primary bottleneck in rendering speed for dynamic scenes is the number of Gaussians. In response, we introduce Efficient Dynamic Gaussian Splatting (EDGS), which represents dynamic scenes via sparse time-variant attribute modeling. Our approach formulates dynamic scenes using a sparse anchor-grid representation, with the motion flow of dense Gaussians calculated via a classical kernel representation. Furthermore, we propose an unsupervised strategy to efficiently filter out anchors corresponding to static areas. Only anchors associated with deformable objects are input into MLPs to query time-variant attributes. Experiments on two real-world datasets demonstrate that our EDGS significantly improves the rendering speed with superior rendering quality compared to previous state-of-the-art methods.

arxiv情報

著者 Hanyang Kong,Xingyi Yang,Xinchao Wang
発行日 2025-02-27 18:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Efficient Gaussian Splatting for Monocular Dynamic Scene Rendering via Sparse Time-Variant Attribute Modeling はコメントを受け付けていません

InsTaG: Learning Personalized 3D Talking Head from Few-Second Video

要約

リアルなパーソナライズされた3Dトーキングヘッドを合成する際に印象的なパフォーマンスを示しているにもかかわらず、輝きフィールドに基づいた一般的な方法は、新しいアイデンティティのトレーニングデータと時間の高い要求に苦しんでいます。
このペーパーでは、少数のトレーニングデータから現実的なパーソナライズされた3Dトーキングヘッドの迅速な学習を可能にする3Dトーキングヘッド合成フレームワークであるInstagを紹介します。
普遍的なモーションプライアーを備えた軽量の3DGSの人固有のシンセサイザーに基づいて、Instagは高レベルのパーソナライズと効率を維持しながら、高品質で迅速な適応を実現します。
準備として、最初に、個人固有のモデルの事前トレーニングを可能にし、長いビデオデータコーパスからのユニバーサルモーションプライエアの収集を奨励するアイデンティティのないトレーニング前戦略を提案します。
Universal Motion Priorsを完全に活用して目に見えない新しいアイデンティティを学習するために、ターゲットヘッドを事前に訓練したフィールドに適応的に調整し、少数のトレーニングデータの下で堅牢な動的ヘッド構造を制約するためのモーション整列適応戦略を提示します。
実験は、高品質のパーソナライズされたトーキングヘッドをレンダリングするために、さまざまなデータシナリオで優れたパフォーマンスと効率性を示しています。

要約(オリジナル)

Despite exhibiting impressive performance in synthesizing lifelike personalized 3D talking heads, prevailing methods based on radiance fields suffer from high demands for training data and time for each new identity. This paper introduces InsTaG, a 3D talking head synthesis framework that allows a fast learning of realistic personalized 3D talking head from few training data. Built upon a lightweight 3DGS person-specific synthesizer with universal motion priors, InsTaG achieves high-quality and fast adaptation while preserving high-level personalization and efficiency. As preparation, we first propose an Identity-Free Pre-training strategy that enables the pre-training of the person-specific model and encourages the collection of universal motion priors from long-video data corpus. To fully exploit the universal motion priors to learn an unseen new identity, we then present a Motion-Aligned Adaptation strategy to adaptively align the target head to the pre-trained field, and constrain a robust dynamic head structure under few training data. Experiments demonstrate our outstanding performance and efficiency under various data scenarios to render high-quality personalized talking heads.

arxiv情報

著者 Jiahe Li,Jiawei Zhang,Xiao Bai,Jin Zheng,Jun Zhou,Lin Gu
発行日 2025-02-27 18:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | InsTaG: Learning Personalized 3D Talking Head from Few-Second Video はコメントを受け付けていません

Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation

要約

次のトークン予測パラダイムで知られているオートレーフレフ(AR)モデリングは、最先端の言語と視覚的な生成モデルを支えています。
伝統的に、「トークン」は最小の予測ユニットとして扱われます。多くの場合、言語の個別のシンボルまたは視力の量子化されたパッチです。
ただし、2D画像構造の最適なトークン定義は未解決の問題のままです。
さらに、ARモデルは暴露バイアスに悩まされます。このモデルでは、トレーニング中に教師が強制すると推論でのエラーの蓄積につながります。
この論文では、トークンの概念をエンティティXに拡張する一般化されたARフレームワークであるXARを提案します。エンティティXは、個々のパッチトークン、セル(A $ k \ Times K $隣接パッチのグループ化)、サブサンプル(遠隔パッチの非局所グループ)、スケール(coalse-fine-fine Resolution)、さらには画像全体を表すことができます。
さらに、\ textBf {連続エンティティ回帰}として離散トークン分類を再定式化し、各ARステップでフローマッチングメソッドを活用します。
このアプローチは、グラウンドトゥルーストークンの代わりに騒々しいエンティティでのトレーニングを条件とし、騒々しいコンテキスト学習につながり、露出バイアスを効果的に軽減します。
その結果、XARは2つの重要な利点を提供します。(1)さまざまなコンテキストの粒度と空間構造をキャプチャする柔軟な予測単位を有効にし、(2)教師の強制への依存を回避することにより曝露バイアスを軽減します。
Imagenet-256の生成ベンチマークでは、ベースモデルであるXAR-B(172M)が、20 $ \ Times $ $ $の推論を達成しながら、DIT-XL/SIT-XL(675M)を上回ります。
一方、XAR-Hは、Vision Foundationモジュール(\ eg、Dinov2)または高度なガイダンス間隔サンプリングに依存することなく、以前のベストパフォーマンスモデルよりも2.2 $ \ Times $を速く実行し、1.24のFIDで新しい最先端を設定します。

要約(オリジナル)

Autoregressive (AR) modeling, known for its next-token prediction paradigm, underpins state-of-the-art language and visual generative models. Traditionally, a “token” is treated as the smallest prediction unit, often a discrete symbol in language or a quantized patch in vision. However, the optimal token definition for 2D image structures remains an open question. Moreover, AR models suffer from exposure bias, where teacher forcing during training leads to error accumulation at inference. In this paper, we propose xAR, a generalized AR framework that extends the notion of a token to an entity X, which can represent an individual patch token, a cell (a $k\times k$ grouping of neighboring patches), a subsample (a non-local grouping of distant patches), a scale (coarse-to-fine resolution), or even a whole image. Additionally, we reformulate discrete token classification as \textbf{continuous entity regression}, leveraging flow-matching methods at each AR step. This approach conditions training on noisy entities instead of ground truth tokens, leading to Noisy Context Learning, which effectively alleviates exposure bias. As a result, xAR offers two key advantages: (1) it enables flexible prediction units that capture different contextual granularity and spatial structures, and (2) it mitigates exposure bias by avoiding reliance on teacher forcing. On ImageNet-256 generation benchmark, our base model, xAR-B (172M), outperforms DiT-XL/SiT-XL (675M) while achieving 20$\times$ faster inference. Meanwhile, xAR-H sets a new state-of-the-art with an FID of 1.24, running 2.2$\times$ faster than the previous best-performing model without relying on vision foundation modules (\eg, DINOv2) or advanced guidance interval sampling.

arxiv情報

著者 Sucheng Ren,Qihang Yu,Ju He,Xiaohui Shen,Alan Yuille,Liang-Chieh Chen
発行日 2025-02-27 18:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation はコメントを受け付けていません

LIFT-GS: Cross-Scene Render-Supervised Distillation for 3D Language Grounding

要約

3Dビジョンと言語の理解モデルをトレーニングするためのアプローチは、3Dで予測を行うが、3Dラベルを必要とすることはなく、2D損失と微分レンダリングを使用して2Dでのみ監視されることはないフィードフォワードモデルをトレーニングすることです。
このアプローチは、ビジョン言語の理解のために新しいものです。
再構成を「潜在変数」として扱うことにより、ネットワークアーキテクチャに不必要な制約を配置せずに出力をレンダリングできます(たとえば、デコーダーのみのモデルで使用できます)。
トレーニングには、画像とカメラのポーズと2Dラベルのみが必要です。
前処理された2Dモデルから擬似ラベルを使用して、2Dラベルの必要性を削除できることさえ示しています。
これを実証し、ネットワークを取得し、3Dビジョン言語理解タスクのために微調整します。
このアプローチは、3Dビジョン言語の接地のベースライン/SOTAを上回ることを示し、他の3D事前トレーニング技術よりも優れています。
プロジェクトページ:https://liftgs.github.io。

要約(オリジナル)

Our approach to training 3D vision-language understanding models is to train a feedforward model that makes predictions in 3D, but never requires 3D labels and is supervised only in 2D, using 2D losses and differentiable rendering. The approach is new for vision-language understanding. By treating the reconstruction as a “latent variable”, we can render the outputs without placing unnecessary constraints on the network architecture (e.g. can be used with decoder-only models). For training, only need images and camera pose, and 2D labels. We show that we can even remove the need for 2D labels by using pseudo-labels from pretrained 2D models. We demonstrate this to pretrain a network, and we finetune it for 3D vision-language understanding tasks. We show this approach outperforms baselines/sota for 3D vision-language grounding, and also outperforms other 3D pretraining techniques. Project page: https://liftgs.github.io.

arxiv情報

著者 Ang Cao,Sergio Arnaud,Oleksandr Maksymets,Jianing Yang,Ayush Jain,Sriram Yenamandra,Ada Martin,Vincent-Pierre Berges,Paul McVay,Ruslan Partsey,Aravind Rajeswaran,Franziska Meier,Justin Johnson,Jeong Joon Park,Alexander Sax
発行日 2025-02-27 18:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LIFT-GS: Cross-Scene Render-Supervised Distillation for 3D Language Grounding はコメントを受け付けていません

InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions

要約

広範囲のオブジェクトと相互作用する人間の現実的なシミュレーションを達成することは、長い間基本的な目標でした。
複雑なヒトとオブジェクトの相互作用(HOI)への物理ベースの運動模倣を拡張することは、複雑なヒトオブジェクトの結合、オブジェクトジオメトリの変動性、および不正確な接触や限られた手の詳細などのモーションキャプチャデータのアーティファクトのために困難です。
Intermimicを導入します。これは、単一のポリシーが、動的および多様なオブジェクトとの多様なフルボディの相互作用をカバーする不完全なMOCAPデータから堅牢に学習することを可能にするフレームワークを導入します。
私たちの重要な洞察は、カリキュラム戦略を採用することです。最初に完璧に、次にスケールアップします。
まず、被写体固有の教師ポリシーを模倣し、リターゲット、およびモーションキャプチャデータを洗練し、洗練させます。
次に、これらの教師を学生ポリシーに蒸留します。教師は、オンライン専門家として直接監督を提供し、高品質の参照を提供します。
特に、RLの微調整を学生ポリシーに組み込み、単なるデモンストレーションの複製を超え、高品質のソリューションを実現します。
我々の実験は、相互微小なものが複数のHOIデータセットにわたって現実的で多様な相互作用を生成することを示しています。
学習したポリシーは、ゼロショットの方法で一般化され、運動学的発電機とシームレスに統合され、フレームワークを単なる模倣から複雑なヒトオブジェクト相互作用の生成モデリングに引き上げます。

要約(オリジナル)

Achieving realistic simulations of humans interacting with a wide range of objects has long been a fundamental goal. Extending physics-based motion imitation to complex human-object interactions (HOIs) is challenging due to intricate human-object coupling, variability in object geometries, and artifacts in motion capture data, such as inaccurate contacts and limited hand detail. We introduce InterMimic, a framework that enables a single policy to robustly learn from hours of imperfect MoCap data covering diverse full-body interactions with dynamic and varied objects. Our key insight is to employ a curriculum strategy — perfect first, then scale up. We first train subject-specific teacher policies to mimic, retarget, and refine motion capture data. Next, we distill these teachers into a student policy, with the teachers acting as online experts providing direct supervision, as well as high-quality references. Notably, we incorporate RL fine-tuning on the student policy to surpass mere demonstration replication and achieve higher-quality solutions. Our experiments demonstrate that InterMimic produces realistic and diverse interactions across multiple HOI datasets. The learned policy generalizes in a zero-shot manner and seamlessly integrates with kinematic generators, elevating the framework from mere imitation to generative modeling of complex human-object interactions.

arxiv情報

著者 Sirui Xu,Hung Yu Ling,Yu-Xiong Wang,Liang-Yan Gui
発行日 2025-02-27 18:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.RO | InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions はコメントを受け付けていません

Walking the Web of Concept-Class Relationships in Incrementally Trained Interpretable Models

要約

概念ベースの方法は、標準的な監視設定で解釈可能なニューラルネットワークを開発するための有望な方向として浮上しています。
ただし、インクリメンタル設定でそれらを研究するほとんどの作品は、すべての経験にわたって静的概念を想定しているか、各エクスペリエンスが明確な概念に依存していると仮定します。
この作業では、新しい概念を導入することに加えて、新しいクラスが古い概念に依存する可能性のある、より現実的でダイナミックな設定でコンセプトベースのモデルを研究します。
私たちは、概念とクラスが複雑な関係の網を形成していることを示しています。
新しいメトリックを導入して、既存の概念ベースのモデルは、壊滅的な忘却を防ぐための方法を使用して訓練された場合でもこれらの関係を維持できないことを示します。
これらの問題に対処するために、マルチモーダルの概念を使用して、エクスペリエンス全体でトレーニング可能なパラメーターの数を増やすことなく分類を実行する新しい方法を提案します。
マルチモーダルの概念は、自然言語で提供される概念に合わせて、設計によって解釈可能になります。
広範な実験を通じて、私たちのアプローチは、他の概念ベースのモデルと比較して最先端の分類パフォーマンスを取得し、場合によっては分類パフォーマンスを2 $ \ Times $を達成することを示します。
また、モデルの概念に関する介入を実行する能力を研究し、入力画像の視覚的概念をローカライズし、事後解釈を提供できることを示します。

要約(オリジナル)

Concept-based methods have emerged as a promising direction to develop interpretable neural networks in standard supervised settings. However, most works that study them in incremental settings assume either a static concept set across all experiences or assume that each experience relies on a distinct set of concepts. In this work, we study concept-based models in a more realistic, dynamic setting where new classes may rely on older concepts in addition to introducing new concepts themselves. We show that concepts and classes form a complex web of relationships, which is susceptible to degradation and needs to be preserved and augmented across experiences. We introduce new metrics to show that existing concept-based models cannot preserve these relationships even when trained using methods to prevent catastrophic forgetting, since they cannot handle forgetting at concept, class, and concept-class relationship levels simultaneously. To address these issues, we propose a novel method – MuCIL – that uses multimodal concepts to perform classification without increasing the number of trainable parameters across experiences. The multimodal concepts are aligned to concepts provided in natural language, making them interpretable by design. Through extensive experimentation, we show that our approach obtains state-of-the-art classification performance compared to other concept-based models, achieving over 2$\times$ the classification performance in some cases. We also study the ability of our model to perform interventions on concepts, and show that it can localize visual concepts in input images, providing post-hoc interpretations.

arxiv情報

著者 Susmit Agrawal,Deepika Vemuri,Sri Siddarth Chakaravarthy P,Vineeth N. Balasubramanian
発行日 2025-02-27 18:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Walking the Web of Concept-Class Relationships in Incrementally Trained Interpretable Models はコメントを受け付けていません

Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids

要約

強化学習は、多様な問題ドメイン全体で人間または超人レベルの能力を達成するための有望な結果をもたらしましたが、器用なロボット操作の成功は依然として限られています。
この研究では、補強学習を適用して、ヒューマノイドの実施形態に関する接触豊富な操作タスクのコレクションを解決するための重要な課題を調査します。
実証的検証で特定された課題を克服するための新しいテクニックを紹介します。
私たちの主な貢献には、シミュレートされた環境を現実の世界に近づける自動化された実質からSIMからSIMからSIMからSIMまでのチューニングモジュールが含まれます。これは、長老の接触豊富な操作タスクの報酬エンジニアリングを簡素化する一般化された報酬設計スキームです。
各手法に関するアブレーション研究で、3つのヒューマノイド器用な操作タスクで有望な結果を示します。
私たちの作品は、SIM-to-Real強化学習を使用して、人間のデモを必要とせずに堅牢な一般化と高性能を達成することを使用して、ヒューマノイドの器用な操作を学習するための成功したアプローチを提示します。

要約(オリジナル)

Reinforcement learning has delivered promising results in achieving human- or even superhuman-level capabilities across diverse problem domains, but success in dexterous robot manipulation remains limited. This work investigates the key challenges in applying reinforcement learning to solve a collection of contact-rich manipulation tasks on a humanoid embodiment. We introduce novel techniques to overcome the identified challenges with empirical validation. Our main contributions include an automated real-to-sim tuning module that brings the simulated environment closer to the real world, a generalized reward design scheme that simplifies reward engineering for long-horizon contact-rich manipulation tasks, a divide-and-conquer distillation process that improves the sample efficiency of hard-exploration problems while maintaining sim-to-real performance, and a mixture of sparse and dense object representations to bridge the sim-to-real perception gap. We show promising results on three humanoid dexterous manipulation tasks, with ablation studies on each technique. Our work presents a successful approach to learning humanoid dexterous manipulation using sim-to-real reinforcement learning, achieving robust generalization and high performance without the need for human demonstration.

arxiv情報

著者 Toru Lin,Kartik Sachdev,Linxi Fan,Jitendra Malik,Yuke Zhu
発行日 2025-02-27 18:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY | Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids はコメントを受け付けていません