-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
MSLIQA: Enhancing Learning Representations for Image Quality Assessment through Multi-Scale Learning
要約 非参照画像品質評価 (NR-IQA) は、歪みの多様性と注釈付きの大規模な … 続きを読む
SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing
要約 オーディオ駆動の話し顔生成は、入力オーディオに同期した唇の動きを伴うビデオ … 続きを読む
PoseTalk: Text-and-Audio-based Pose Control and Motion Refinement for One-Shot Talking Head Generation
要約 以前のオーディオ駆動型トーキングヘッド生成 (THG) 方法は、駆動オーデ … 続きを読む
ExpLLM: Towards Chain of Thought for Facial Expression Recognition
要約 表情認識 (FER) は、さまざまなドメインに重大な影響を与えるマルチメデ … 続きを読む
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture
要約 マルチモーダル大規模言語モデル (MLLM) のロングコンテキスト機能を拡 … 続きを読む
Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation
要約 本研究では、シーンテキストをソース言語(例えばヒンディー語)からターゲット … 続きを読む
Inter-Frame Compression for Dynamic Point Cloud Geometry Coding
要約 効率的な点群圧縮は、仮想現実や複合現実、自律走行、文化遺産などのアプリケー … 続きを読む
TALDS-Net: Task-Aware Adaptive Local Descriptors Selection for Few-shot Image Classification
要約 数ショットの画像分類は、少ないサンプルで未知の新規クラスから画像を分類する … 続きを読む
Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)
要約 Explainable AI for the Arts (XAIxArts … 続きを読む
Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion
要約 キャラクターを認識し、会話の話者を予測することは、音声生成や翻訳などのコミ … 続きを読む