-
最近の投稿
- Learn With Imagination: Safe Set Guided State-wise Constrained Policy Optimization
- Effects of Muscle Synergy during Overhead Work with a Passive Shoulder Exoskeleton: A Case Study
- Development of a Low-Cost Prosthetic Hand Using Electromyography and Machine Learning
- Teaching Shortest Path Algorithms With a Robot and Overlaid Projections
- Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly
-
最近のコメント
表示できるコメントはありません。 cs.AI (30124) cs.CL (22755) cs.CR (2336) cs.CV (36490) cs.LG (34945) cs.RO (17504) cs.SY (2689) eess.IV (4444) eess.SY (2683) stat.ML (4656)
「cs.MM」カテゴリーアーカイブ
Question-Answering Dense Video Events
要約 マルチモーダル大規模言語モデル (MLLM) は、単一イベント ビデオの質 … 続きを読む
Question-Answering Dense Video Events
要約 マルチモーダル大規模言語モデル (MLLM) は、単一イベント ビデオの質 … 続きを読む
HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR
要約 大規模な屋内と屋外のシーン、多様な人間の動き、豊かな人間と人間の相互作用、 … 続きを読む
LAR-IQA: A Lightweight, Accurate, and Robust No-Reference Image Quality Assessment Model
要約 深層学習技術を使用した非参照画像品質評価 (NR-IQA) 分野の最近の進 … 続きを読む
MSLIQA: Enhancing Learning Representations for Image Quality Assessment through Multi-Scale Learning
要約 非参照画像品質評価 (NR-IQA) は、歪みの多様性と注釈付きの大規模な … 続きを読む
SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing
要約 オーディオ駆動の話し顔生成は、入力オーディオに同期した唇の動きを伴うビデオ … 続きを読む
PoseTalk: Text-and-Audio-based Pose Control and Motion Refinement for One-Shot Talking Head Generation
要約 以前のオーディオ駆動型トーキングヘッド生成 (THG) 方法は、駆動オーデ … 続きを読む
ExpLLM: Towards Chain of Thought for Facial Expression Recognition
要約 表情認識 (FER) は、さまざまなドメインに重大な影響を与えるマルチメデ … 続きを読む
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture
要約 マルチモーダル大規模言語モデル (MLLM) のロングコンテキスト機能を拡 … 続きを読む
Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation
要約 本研究では、シーンテキストをソース言語(例えばヒンディー語)からターゲット … 続きを読む