-
最近の投稿
- Learn With Imagination: Safe Set Guided State-wise Constrained Policy Optimization
- Effects of Muscle Synergy during Overhead Work with a Passive Shoulder Exoskeleton: A Case Study
- Development of a Low-Cost Prosthetic Hand Using Electromyography and Machine Learning
- Teaching Shortest Path Algorithms With a Robot and Overlaid Projections
- Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly
-
最近のコメント
表示できるコメントはありません。 cs.AI (30124) cs.CL (22755) cs.CR (2336) cs.CV (36490) cs.LG (34945) cs.RO (17504) cs.SY (2689) eess.IV (4444) eess.SY (2683) stat.ML (4656)
「cs.MM」カテゴリーアーカイブ
Palantir: Towards Efficient Super Resolution for Ultra-high-definition Live Streaming
要約 超解像度ディープ ニューラル ネットワークによるニューラルの強化により、既 … 続きを読む
Rethinking Video with a Universal Event-Based Representation
要約 従来、ビデオは一連の個別の画像フレームとして構造化されていました。 しかし … 続きを読む
Benchmarking Conventional and Learned Video Codecs with a Low-Delay Configuration
要約 最近のビデオ圧縮の進歩により、新しい標準と学習ベースのビデオ コーデックの … 続きを読む
Loc4Plan: Locating Before Planning for Outdoor Vision and Language Navigation
要約 視覚と言語ナビゲーション (VLN) は、エージェントが指示を理解し、視覚 … 続きを読む
Learning Domain-Invariant Features for Out-of-Context News Detection
要約 文脈を無視したニュースは、オンライン メディア プラットフォームでよく見ら … 続きを読む
MM-Forecast: A Multimodal Approach to Temporal Event Forecasting with Large Language Models
要約 私たちは、大規模な言語モデルを使用したマルチモーダル時間イベント予測という … 続きを読む
Edit As You Wish: Video Caption Editing with Multi-grained User Control
要約 ユーザーのリクエストに応じて自然言語でビデオを自動的にナレーションすること … 続きを読む
SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses
要約 ビデオ グラウンディングは、マルチモーダル コンテンツの理解における基本的 … 続きを読む
Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis
要約 テキストから画像へのモデルのカスタマイズは大幅に進歩しましたが、複数のパー … 続きを読む
HiQuE: Hierarchical Question Embedding Network for Multimodal Depression Detection
要約 自動うつ病検出を利用すると、うつ病を経験している人に対する早期介入が大幅に … 続きを読む