cs.CV」カテゴリーアーカイブ

SlotLifter: Slot-guided Feature Lifting for Learning Object-centric Radiance Fields

要約 複雑な視覚シーンからオブジェクト中心の抽象化を抽出する能力は、人間レベルの … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | SlotLifter: Slot-guided Feature Lifting for Learning Object-centric Radiance Fields はコメントを受け付けていません

Automatic Spatial Calibration of Near-Field MIMO Radar With Respect to Optical Depth Sensors

要約 MIMO レーダーへの関心が高まっているにもかかわらず、光学式深度センサー … 続きを読む

カテゴリー: cs.CV, cs.RO | Automatic Spatial Calibration of Near-Field MIMO Radar With Respect to Optical Depth Sensors はコメントを受け付けていません

Exploring Domain Shift on Radar-Based 3D Object Detection Amidst Diverse Environmental Conditions

要約 ディープラーニングの急速な進化と自動運転システムとの統合により、マルチモー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Exploring Domain Shift on Radar-Based 3D Object Detection Amidst Diverse Environmental Conditions はコメントを受け付けていません

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

要約 マルチモーダル大規模言語モデル (MLLM) は、さまざまな単一イメージ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models はコメントを受け付けていません

Enhancing Visual Dialog State Tracking through Iterative Object-Entity Alignment in Multi-Round Conversations

要約 ビジュアル ダイアログ (VD) は、エージェントが複数ラウンドのダイアロ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Enhancing Visual Dialog State Tracking through Iterative Object-Entity Alignment in Multi-Round Conversations はコメントを受け付けていません

Sumotosima: A Framework and Dataset for Classifying and Summarizing Otoscopic Images

要約 耳鏡検査は、耳鏡を使用して外耳道と鼓膜を検査する診断手順です。 感染症、異 … 続きを読む

カテゴリー: cs.CL, cs.CV | Sumotosima: A Framework and Dataset for Classifying and Summarizing Otoscopic Images はコメントを受け付けていません

InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection

要約 テキストと画像の組み合わせを通じて伝えられるソーシャル メディアでの皮肉の … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection はコメントを受け付けていません

Visual Neural Decoding via Improved Visual-EEG Semantic Consistency

要約 視覚神経デコーディングは、人間の脳活動から元の視覚体験を抽出して解釈するプ … 続きを読む

カテゴリー: cs.CV, cs.HC | Visual Neural Decoding via Improved Visual-EEG Semantic Consistency はコメントを受け付けていません

DA-BEV: Unsupervised Domain Adaptation for Bird’s Eye View Perception

要約 カメラのみの鳥瞰図 (BEV) は、3D 空間での環境認識において大きな可 … 続きを読む

カテゴリー: cs.CV | DA-BEV: Unsupervised Domain Adaptation for Bird’s Eye View Perception はコメントを受け付けていません

Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning

要約 トークン圧縮は、不注意なトークンを削除したり、類似のトークンをマージしたり … 続きを読む

カテゴリー: cs.CV | Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning はコメントを受け付けていません