-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「cs.CV」カテゴリーアーカイブ
From Pixels to Words: Leveraging Explainability in Face Recognition through Interactive Natural Language Processing
要約 顔認識 (FR) はディープラーニングの発展により大幅に進歩し、いくつかの … 続きを読む
Neuromorphic Drone Detection: an Event-RGB Multimodal Approach
要約 近年、ドローンの検出が急速に大きな関心を集めています。封じ込められた大きさ … 続きを読む
CloudTrack: Scalable UAV Tracking with Cloud Semantics
要約 現在、無人航空機 (UAV) は、捜索エリア内の情報を収集するために捜索救 … 続きを読む
Deep Multimodal Collaborative Learning for Polyp Re-Identification
要約 結腸鏡ポリープ再識別は、大規模なギャラリーからの同じポリープを、さまざまな … 続きを読む
カテゴリー: cs.CV
Deep Multimodal Collaborative Learning for Polyp Re-Identification はコメントを受け付けていません
VisioPhysioENet: Multimodal Engagement Detection using Visual and Physiological Signals
要約 この論文では、視覚的な合図と生理学的信号を活用して学習者の関与を検出する新 … 続きを読む
カテゴリー: cs.CV
VisioPhysioENet: Multimodal Engagement Detection using Visual and Physiological Signals はコメントを受け付けていません
HA-FGOVD: Highlighting Fine-grained Attributes via Explicit Linear Composition for Open-Vocabulary Object Detection
要約 オープン語彙オブジェクト検出 (OVD) モデルは、その広範なトレーニング … 続きを読む
GGHead: Fast and Generalizable 3D Gaussian Heads
要約 大規模な 2D 画像コレクションから 3D 頭部事前分布を学習することは、 … 続きを読む
カテゴリー: cs.CV
GGHead: Fast and Generalizable 3D Gaussian Heads はコメントを受け付けていません
Seeing Faces in Things: A Model and Dataset for Pareidolia
要約 人間の視覚システムは、あらゆる形や大きさの顔を検出できるようにうまく調整さ … 続きを読む
Efficient Motion Prediction: A Lightweight & Accurate Trajectory Prediction Model With Fast Training and Inference Speed
要約 効率的かつ安全な自動運転のためには、自動運転車両が他の交通エージェントの動 … 続きを読む
Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding
要約 現在のマルチモーダル大規模言語モデル (MLLM) はビデオ理解において有 … 続きを読む
カテゴリー: cs.CV
Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding はコメントを受け付けていません