-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年2月
OpenTAD: A Unified Framework and Comprehensive Study of Temporal Action Detection
要約 時間的アクション検出(TAD)は、人間の行動を特定し、ビデオ内の時間的境界 … 続きを読む
カテゴリー: cs.CV
OpenTAD: A Unified Framework and Comprehensive Study of Temporal Action Detection はコメントを受け付けていません
Ready-to-React: Online Reaction Policy for Two-Character Interaction Generation
要約 このペーパーでは、2文字のオンラインインタラクションを生成するタスクに対処 … 続きを読む
カテゴリー: cs.CV
Ready-to-React: Online Reaction Policy for Two-Character Interaction Generation はコメントを受け付けていません
Tight Inversion: Image-Conditioned Inversion for Real Image Editing
要約 テキストから画像への拡散モデルは、強力な画像編集機能を提供します。 実際の … 続きを読む
Efficient Gaussian Splatting for Monocular Dynamic Scene Rendering via Sparse Time-Variant Attribute Modeling
要約 単眼ビデオから動的なシーンをレンダリングすることは、重要でありながら挑戦的 … 続きを読む
カテゴリー: cs.CV
Efficient Gaussian Splatting for Monocular Dynamic Scene Rendering via Sparse Time-Variant Attribute Modeling はコメントを受け付けていません
InsTaG: Learning Personalized 3D Talking Head from Few-Second Video
要約 リアルなパーソナライズされた3Dトーキングヘッドを合成する際に印象的なパフ … 続きを読む
カテゴリー: cs.CV
InsTaG: Learning Personalized 3D Talking Head from Few-Second Video はコメントを受け付けていません
Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation
要約 次のトークン予測パラダイムで知られているオートレーフレフ(AR)モデリング … 続きを読む
カテゴリー: cs.CV
Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation はコメントを受け付けていません
LIFT-GS: Cross-Scene Render-Supervised Distillation for 3D Language Grounding
要約 3Dビジョンと言語の理解モデルをトレーニングするためのアプローチは、3Dで … 続きを読む
カテゴリー: cs.CV
LIFT-GS: Cross-Scene Render-Supervised Distillation for 3D Language Grounding はコメントを受け付けていません
InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions
要約 広範囲のオブジェクトと相互作用する人間の現実的なシミュレーションを達成する … 続きを読む
Walking the Web of Concept-Class Relationships in Incrementally Trained Interpretable Models
要約 概念ベースの方法は、標準的な監視設定で解釈可能なニューラルネットワークを開 … 続きを読む