-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Pseudo-triplet Guided Few-shot Composed Image Retrieval
要約 合成画像検索 (CIR) は、マルチモーダル クエリ (参照画像とそれに対 … 続きを読む
EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture
要約 本稿では、トランスフォーマ・アーキテクチャのパワーを活用し、高性能な成果を … 続きを読む
VCoME: Verbal Video Composition with Multimodal Editing Effects
要約 ボイスオーバーやテキストオーバーレイを特徴とする言葉によるビデオは、価値あ … 続きを読む
MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation
要約 生成的AIと人間の芸術的プロセスが交錯する中、本研究では、人間中心の自動作 … 続きを読む
カテゴリー: 68Txx(Primary)14F05, 91Fxx(Secondary), cs.AI, cs.MM, cs.SD, eess.AS, I.2.7
MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation はコメントを受け付けていません
KeyVideoLLM: Towards Large-scale Video Keyframe Selection
要約 近年、Web動画の増加に伴い、大規模な動画データセットの管理と理解がますま … 続きを読む
Relating CNN-Transformer Fusion Network for Change Detection
要約 ディープラーニング、特に畳み込みニューラルネットワーク(CNN)は、リモー … 続きを読む
Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs
要約 動画ベースの大規模言語モデル(LLM)の登場は、動画理解を著しく向上させた … 続きを読む
SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition
要約 オーディオビジュアル音声認識 (AVSR) は、自動音声認識 (ASR) … 続きを読む
SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation
要約 参照表現セグメンテーション (RES) は、テキストによって参照される画像 … 続きを読む
Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs
要約 ビデオベースの大規模言語モデル (LLM) の出現により、ビデオの理解が大 … 続きを読む