-
最近の投稿
- Physical Reservoir Computing in Hook-Shaped Rover Wheel Spokes for Real-Time Terrain Identification
- Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models
- Multi-Sensor Fusion-Based Mobile Manipulator Remote Control for Intelligent Smart Home Assistance
- Integration of a Graph-Based Path Planner and Mixed-Integer MPC for Robot Navigation in Cluttered Environments
- Demonstrating CavePI: Autonomous Exploration of Underwater Caves by Semantic Guidance
-
最近のコメント
表示できるコメントはありません。 cs.AI (36829) cs.CL (27883) cs.CV (42623) cs.HC (2814) cs.LG (41781) cs.RO (21795) cs.SY (3320) eess.IV (4979) eess.SY (3312) stat.ML (5469)
「cs.MM」カテゴリーアーカイブ
DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter
要約 Imagenや安定した拡散モデルなどの最先端のテキストからイメージからイメ … 続きを読む
Inkspire: Supporting Design Exploration with Generative AI through Analogical Sketching
要約 テキストツーイメージ(T2I)AIモデルの能力に最近の進歩により、製品設計 … 続きを読む
When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding
要約 既存のコーデックは、固有の冗長性を排除して、圧縮のためのコンパクトな表現を … 続きを読む
MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition
要約 コンピューター支援の音楽構成ワークフロー向けに設計された変圧器アーキテクチ … 続きを読む
Audio-Visual Deepfake Detection With Local Temporal Inconsistencies
要約 このペーパーでは、オーディオと視覚モダリティの間のきめの細かい時間的矛盾を … 続きを読む
MetaDecorator: Generating Immersive Virtual Tours through Multimodality
要約 Metadecoratorは、ユーザーが仮想スペースをパーソナライズできる … 続きを読む
Mitigating GenAI-powered Evidence Pollution for Out-of-Context Multimodal Misinformation Detection
要約 大規模な生成的人工知能(Genai)モデルは大幅に成功しましたが、欺cep … 続きを読む
Tune In, Act Up: Exploring the Impact of Audio Modality-Specific Edits on Large Audio Language Models in Jailbreak
要約 大規模言語モデル (LLM) は、さまざまな自然言語処理タスクにわたって優 … 続きを読む
Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks
要約 この論文では、テーブルトップ ロール プレイング ゲーム (TRPG) の … 続きを読む
Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training
要約 自己監視型事前トレーニングの使用は、さまざまな視覚タスクのパフォーマンスを … 続きを読む