-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Recovering Sign Bits of DCT Coefficients in Digital Images as an Optimization Problem
要約 DCT 係数内の不明、欠落、損傷、歪み、または損失した情報を回復することは … 続きを読む
A Survey on 3D Gaussian Splatting
要約 3D ガウス スプラッティング (3D GS) は、明示的な放射輝度フィー … 続きを読む
Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification
要約 近年、研究者は音声信号とビデオ信号の両方を組み合わせて、アクションが視覚的 … 続きを読む
TPC-ViT: Token Propagation Controller for Efficient Vision Transformer
要約 ビジョン トランスフォーマー (ViT) は、さまざまなコンピューター ビ … 続きを読む
Retrieval-Augmented Text-to-Audio Generation
要約 Text-to-Audio (TTA) 生成における最近の進歩にも関わらず … 続きを読む
CrisisViT: A Robust Vision Transformer for Crisis Image Classification
要約 緊急時には、危機対応機関は、関連するサービスやリソースを展開するために、現 … 続きを読む
TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection
要約 自然言語クエリに基づくビデオ モーメント検索 (MR) とハイライト検出 … 続きを読む
Hierarchical Aligned Multimodal Learning for NER on Tweet Posts
要約 名前付きエンティティ認識(NER)を用いてツイートから構造化された知識をマ … 続きを読む
TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection
要約 自然言語クエリに基づくビデオモーメント検索(MR)とハイライト検出(HD) … 続きを読む
EmotionGesture: Audio-Driven Diverse Emotional Co-Speech 3D Gesture Generation
要約 生き生きとした多様な3D共同音声ジェスチャを生成することは、バーチャルアバ … 続きを読む