-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient Partially Relevant Video Retrieval
要約 テキストクエリが与えられた場合、部分関連ビデオ検索(PRVR)は、適切な瞬 … 続きを読む
WordArt Designer API: User-Driven Artistic Typography Synthesis with Large Language Models on ModelScope
要約 本稿では、ModelScope上の大規模言語モデル(Large Langu … 続きを読む
VGA: Vision and Graph Fused Attention Network for Rumor Detection
要約 ソーシャルメディアの発達に伴い、噂はソーシャルメディア上で広く拡散され、社 … 続きを読む
New Job, New Gender? Measuring the Social Bias in Image Generation Models
要約 画像生成モデルは、指定されたテキストから画像を生成または編集できます。 D … 続きを読む
NU-Class Net: A Novel Deep Learning-based Approach for Video Quality Enhancement
要約 ビデオ コンテンツの人気は急増しており、インターネット トラフィックやモノ … 続きを読む
RS5M and GeoRSCLIP: A Large Scale Vision-Language Dataset and A Large Vision-Language Model for Remote Sensing
要約 広範な画像とテキストのペアデータを利用した事前トレーニング済み視覚言語モデ … 続きを読む
A Survey on Super Resolution for video Enhancement Using GAN
要約 さまざまな研究論文のハイライトをまとめたこの本は、敵対的生成ネットワークな … 続きを読む
Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision
要約 マルチモダリティ大規模言語モデル (MLLM) の急速な進化により、コンピ … 続きを読む
AQUALLM: Audio Question Answering Data Generation Using Large Language Models
要約 音声質問応答 (AQA) は、機械が音声信号と自然言語の質問の両方を分析し … 続きを読む
CARAT: Contrastive Feature Reconstruction and Aggregation for Multi-modal Multi-label Emotion Recognition
要約 マルチモーダル マルチラベル感情認識 (MMER) は、複数のモダリティか … 続きを読む