月別アーカイブ: 2025年2月

OpenTAD: A Unified Framework and Comprehensive Study of Temporal Action Detection

投稿日: 2025年2月28日作成者: jarxiv

要約時間的アクション検出（TAD）は、人間の行動を特定し、ビデオ内の時間的境界 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Ready-to-React: Online Reaction Policy for Two-Character Interaction Generation

投稿日: 2025年2月28日作成者: jarxiv

要約このペーパーでは、2文字のオンラインインタラクションを生成するタスクに対処 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Tight Inversion: Image-Conditioned Inversion for Real Image Editing

投稿日: 2025年2月28日作成者: jarxiv

要約テキストから画像への拡散モデルは、強力な画像編集機能を提供します。実際の … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.LG | コメントを受け付けていません

Efficient Gaussian Splatting for Monocular Dynamic Scene Rendering via Sparse Time-Variant Attribute Modeling

投稿日: 2025年2月28日作成者: jarxiv

要約単眼ビデオから動的なシーンをレンダリングすることは、重要でありながら挑戦的 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

InsTaG: Learning Personalized 3D Talking Head from Few-Second Video

投稿日: 2025年2月28日作成者: jarxiv

要約リアルなパーソナライズされた3Dトーキングヘッドを合成する際に印象的なパフ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation

投稿日: 2025年2月28日作成者: jarxiv

要約次のトークン予測パラダイムで知られているオートレーフレフ（AR）モデリング … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LIFT-GS: Cross-Scene Render-Supervised Distillation for 3D Language Grounding

投稿日: 2025年2月28日作成者: jarxiv

要約 3Dビジョンと言語の理解モデルをトレーニングするためのアプローチは、3Dで … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions

投稿日: 2025年2月28日作成者: jarxiv

要約広範囲のオブジェクトと相互作用する人間の現実的なシミュレーションを達成する … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.RO | コメントを受け付けていません

Walking the Web of Concept-Class Relationships in Incrementally Trained Interpretable Models

投稿日: 2025年2月28日作成者: jarxiv

要約概念ベースの方法は、標準的な監視設定で解釈可能なニューラルネットワークを開 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids

投稿日: 2025年2月28日作成者: jarxiv

要約強化学習は、多様な問題ドメイン全体で人間または超人レベルの能力を達成するた … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY | コメントを受け付けていません

月別アーカイブ: 2025年2月

OpenTAD: A Unified Framework and Comprehensive Study of Temporal Action Detection

Ready-to-React: Online Reaction Policy for Two-Character Interaction Generation

Tight Inversion: Image-Conditioned Inversion for Real Image Editing

Efficient Gaussian Splatting for Monocular Dynamic Scene Rendering via Sparse Time-Variant Attribute Modeling

InsTaG: Learning Personalized 3D Talking Head from Few-Second Video

Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation

LIFT-GS: Cross-Scene Render-Supervised Distillation for 3D Language Grounding

InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions

Walking the Web of Concept-Class Relationships in Incrementally Trained Interpretable Models

Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids

最近の投稿

最近のコメント

アーカイブ

カテゴリー