-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding
要約 最近、多くの研究で、OCR から派生したテキストと空間レイアウトを大規模言 … 続きを読む
Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation
要約 テキストから画像への取得は、意味的に関連するクロスモーダル コンテンツを取 … 続きを読む
MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues
要約 マルチモーダル大規模言語モデル (MLLM) は、ビデオ内の視覚、音響、言 … 続きを読む
Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation
要約 このペーパーでは、特定のポートレート画像の顔の表情とカメラビューを制御でき … 続きを読む
QPT V2: Masked Image Modeling Advances Visual Scoring
要約 品質評価と美的評価は、視覚コンテンツの知覚された品質と美的感覚を評価するこ … 続きを読む
MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues
要約 マルチモーダル大規模言語モデル (MLLM) は、ビデオ内の視覚、音響、言 … 続きを読む
Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization
要約 最近、新しい形式の音声部分偽造がフォレンジックに課題をもたらしており、長時 … 続きを読む
FakingRecipe: Detecting Fake News on Short Video Platforms from the Perspective of Creative Process
要約 ショートビデオ共有プラットフォームがニュース消費の重要なチャネルになるにつ … 続きを読む
360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation
要約 VR関連技術の発展により、視聴者はヘッドマウントディスプレイを通じてリアル … 続きを読む