cs.CV」カテゴリーアーカイブ

From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding

要約 最近、ラージ言語モデル (LLM) とビジュアル エンコーダーの統合により … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

Spectral Wavelet Dropout: Regularization in the Wavelet Domain

要約 正則化技術は過学習を防止するのに役立ち、畳み込みニューラル ネットワーク … 続きを読む

カテゴリー: cs.CV, cs.LG | コメントする

UniCal: Unified Neural Sensor Calibration

要約 自動運転車 (SDV) では、自動運転のためにセンサー データを正確に融合 … 続きを読む

カテゴリー: cs.CV, cs.RO | コメントする

ProMerge: Prompt and Merge for Unsupervised Instance Segmentation

要約 教師なしインスタンスのセグメンテーションは、人間がラベル付けしたデータに依 … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

Exploring Token Pruning in Vision State Space Models

要約 状態空間モデル (SSM) には、トランスフォーマーのアテンション モジュ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation

要約 我々は、単一の画像と入力条件 (画像内のオブジェクトに加えられる力やトルク … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

InterNet: Unsupervised Cross-modal Homography Estimation Based on Interleaved Modality Transfer and Self-supervised Homography Prediction

要約 我々は、インターリーブモダリティ転送と自己教師付きホモグラフィー予測に基づ … 続きを読む

カテゴリー: cs.CV | コメントする

Recursive Distillation for Open-Set Distributed Robot Localization

要約 最先端の自己位置推定モデルにおける一般的な仮定は、注釈付きのトレーニング … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

Event-based Stereo Depth Estimation: A Survey

要約 立体視は、生物が 3D 世界をナビゲートするために奥行きを認識する主な方法 … 続きを読む

カテゴリー: cs.CV, cs.RO | コメントする

Scene Understanding in Pick-and-Place Tasks: Analyzing Transformations Between Initial and Final Scenes

要約 日常業務においてロボットが人間と協働することが増えているため、環境を理解で … 続きを読む

カテゴリー: cs.CV, cs.RO, cs.SY, eess.SY | コメントする