-
最近の投稿
- Grasp EveryThing (GET): 1-DoF, 3-Fingered Gripper with Tactile Sensing for Robust Grasping
- Neural Inertial Odometry from Lie Events
- Physical synchronization of soft self-oscillating limbs for fast and autonomous locomotion
- CRADMap: Applied Distributed Volumetric Mapping with 5G-Connected Multi-Robots and 4D Radar Perception
- Learning Rock Pushability on Rough Planetary Terrain
-
最近のコメント
表示できるコメントはありません。 cs.AI (38176) cs.CL (28850) cs.CV (43741) cs.HC (2915) cs.LG (43106) cs.RO (22722) cs.SY (3490) eess.IV (5071) eess.SY (3482) stat.ML (5612)
「cs.MM」カテゴリーアーカイブ
Benchmarking Large Multimodal Models against Common Corruptions
要約 この技術レポートは、一般的な破損にさらされた場合の出力の自己一貫性を特に調 … 続きを読む
Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning
要約 大規模言語モデル (LLM) の成功に続き、Flamingo モデルやその … 続きを読む
M2ORT: Many-To-One Regression Transformer for Spatial Transcriptomics Prediction from Histopathology Images
要約 空間トランスクリプトミクス (ST) の進歩により、組織病理学画像に基づい … 続きを読む
On the Audio Hallucinations in Large Audio-Video Language Models
要約 大規模なオーディオビデオ言語モデルは、ビデオとオーディオの両方の説明を生成 … 続きを読む
MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter
要約 言語モデル (LM) は、さまざまな 1D テキスト関連タスクにおいて優れ … 続きを読む
Vlogger: Make Your Dream A Vlog
要約 この研究では、ユーザー説明の分レベルのビデオ ブログ (つまり、vlog) … 続きを読む
Deep Shape-Texture Statistics for Completely Blind Image Quality Evaluation
要約 Opinion-Unaware Blind Image Quality A … 続きを読む
E2HQV: High-Quality Video Generation from Event Camera via Theory-Inspired Model-Aided Deep Learning
要約 生物からインスピレーションを得たイベント カメラまたはダイナミック ビジョ … 続きを読む
End-to-End Optimized Image Compression with the Frequency-Oriented Transform
要約 画像圧縮は、情報爆発の時代の中で重要な課題となっています。 深層学習手法を … 続きを読む