- 
最近の投稿- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
 
- 
最近のコメント表示できるコメントはありません。
- cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830) 
「cs.MM」カテゴリーアーカイブ
Deep Shape-Texture Statistics for Completely Blind Image Quality Evaluation
要約 Opinion-Unaware Blind Image Quality A … 続きを読む
E2HQV: High-Quality Video Generation from Event Camera via Theory-Inspired Model-Aided Deep Learning
要約 生物からインスピレーションを得たイベント カメラまたはダイナミック ビジョ … 続きを読む
End-to-End Optimized Image Compression with the Frequency-Oriented Transform
要約 画像圧縮は、情報爆発の時代の中で重要な課題となっています。 深層学習手法を … 続きを読む
Learning Temporal Resolution in Spectrogram for Audio Classification
要約 オーディオ スペクトログラムは、オーディオの分類に広く使用されている時間と … 続きを読む
Elevating Skeleton-Based Action Recognition with Efficient Multi-Modality Self-Supervision
要約 人間の行動認識のための自己教師あり表現学習は、近年急速に発展しています。 … 続きを読む
Learning Audio Concepts from Counterfactual Natural Language
要約 従来の音声分類は事前定義されたクラスに依存しており、自由形式のテキストから … 続きを読む
mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model
要約 最近、ラージ言語モデル (LLM) の強力なテキスト作成能力により、論文の … 続きを読む
Optimal Transcoding Resolution Prediction for Efficient Per-Title Bitrate Ladder Estimation
要約 アダプティブ ビデオ ストリーミングでは、異種ネットワークの条件とエンドユ … 続きを読む
VKIE: The Application of Key Information Extraction on Video Text
要約 ビデオから構造化情報を抽出することは、業界の多数の下流アプリケーションにと … 続きを読む
Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media
要約 Reddit ディスカッションなどのオンライン ソーシャル ネットワークで … 続きを読む
