-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む
Inspire creativity with ORIBA: Transform Artists’ Original Characters into Chatbots through Large Language Model
要約 この研究は、イラストレーターがオリジナルのキャラクター (OC) を体現す … 続きを読む
カテゴリー: 14J26 (Secondary), 14J60 (Primary) 14F05, cs.AI, cs.HC, cs.MM, F.2.2
Inspire creativity with ORIBA: Transform Artists’ Original Characters into Chatbots through Large Language Model はコメントを受け付けていません
COSA: Concatenated Sample Pretrained Vision-Language Foundation Model
要約 ビデオテキストトレーニングコーパスの規模と品質が限られているため、ほとんど … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 Contrastive Language-Audio Pretrainin … 続きを読む
Enhanced Multimodal Representation Learning with Cross-modal KD
要約 この論文では、クロスモーダル知識蒸留 (KD) を通じてマルチモーダル表現 … 続きを読む
Localization of Just Noticeable Difference for Image Compression
要約 可感差異 (JND) は、人が検出できる刺激間の最小差異です。 特定の参照 … 続きを読む
GeneCIS: A Benchmark for General Conditional Image Similarity
要約 私たちは、「類似性」には多くの概念があり、人間と同様にモデルもこれらの概念 … 続きを読む
Video-to-Music Recommendation using Temporal Alignment of Segments
要約 私たちは、ビデオのサウンドトラックとして使用される音楽トラックのクロスモー … 続きを読む
LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On
要約 電子商取引とメタバースの急速に進化する分野では、消費者エクスペリエンスを向 … 続きを読む