-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Vision, Deduction and Alignment: An Empirical Study on Multi-modal Knowledge Graph Alignment
要約 ナレッジ グラフ (KG) のエンティティ アライメント (EA) は、ナ … 続きを読む
Revisiting Pre-training in Audio-Visual Learning
要約 事前トレーニング手法は、さまざまなタスクでモデルのパフォーマンスを向上させ … 続きを読む
Lip-to-Speech Synthesis in the Wild with Multi-task Learning
要約 最近の研究では、視覚情報のみから音声を再構築することを目的とした口語合成で … 続きを読む
Audio-Visual Segmentation
要約 オーディオ ビジュアル セグメンテーション (AVS) と呼ばれる新しい問 … 続きを読む
CK-Transformer: Commonsense Knowledge Enhanced Transformers for Referring Expression Comprehension
要約 自然言語表現によって記述された画像領域のローカライズを目的としたマルチモー … 続きを読む
T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models
要約 大規模な text-to-image (T2I) モデルの信じられないほど … 続きを読む
On the Importance of Noise Scheduling for Diffusion Models
要約 拡散生成モデルのノイズを除去するためのノイズスケジューリング戦略の効果を経 … 続きを読む
Protein Representation Learning via Knowledge Enhanced Primary Structure Modeling
要約 タンパク質表現学習は、主に言語モデル (LM) の目覚ましい発展の恩恵を受 … 続きを読む
Deepfake Detection: A Comprehensive Study from the Reliability Perspective
要約 インターネット上で流通しているディープフェイクの合成素材は、政治家、有名人 … 続きを読む
3D-VFD: A Victim-free Detector against 3D Adversarial Point Clouds
要約 点群を使用する 3D ディープ モデルは、コンピューター ビジョンで優れた … 続きを読む