cs.CV」カテゴリーアーカイブ

Localizing Memorization in SSL Vision Encoders

要約 自己教師あり学習 (SSL) における記憶に関する研究に関する最近の研究で … 続きを読む

カテゴリー: cs.CV, cs.LG | Localizing Memorization in SSL Vision Encoders はコメントを受け付けていません

FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction

要約 既存のスパースビュー再構成モデ​​ルは、正確な既知のカメラのポーズに大きく … 続きを読む

カテゴリー: cs.CV | FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction はコメントを受け付けていません

Neptune: The Long Orbit to Benchmarking Long Video Understanding

要約 このペーパーでは、長いビデオを理解するための難しい質問、回答、おとりのセッ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Neptune: The Long Orbit to Benchmarking Long Video Understanding はコメントを受け付けていません

OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation

要約 現代の MLLM を開発するための標準的な手法は、ビジョン エンコーダから … 続きを読む

カテゴリー: cs.CV | OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation はコメントを受け付けていません

Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders

要約 シーン内のどこを見ているのかを予測することを目的とした視線ターゲット推定の … 続きを読む

カテゴリー: cs.CV | Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders はコメントを受け付けていません

Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion

要約 単一の画像からオブジェクトのジオメトリとマテリアルを復元することは、制約が … 続きを読む

カテゴリー: cs.CV | Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion はコメントを受け付けていません

InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

要約 人間の認知と同様に、長期間にわたって環境と対話できる AI システムを作成 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions はコメントを受け付けていません

LLAVIDAL: A Large LAnguage VIsion Model for Daily Activities of Living

要約 Web ビデオでトレーニングされた現在の大規模言語視覚モデル (LLVM) … 続きを読む

カテゴリー: cs.CV, cs.LG | LLAVIDAL: A Large LAnguage VIsion Model for Daily Activities of Living はコメントを受け付けていません

LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors

要約 単一画像の 3D 再構成は、固有の幾何学的な曖昧さと限られた視点情報により … 続きを読む

カテゴリー: cs.CV, cs.GR | LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors はコメントを受け付けていません

RatBodyFormer: Rodent Body Surface from Keypoints

要約 ラットの行動モデリングは多くの科学研究の中心となっているが、テクスチャーの … 続きを読む

カテゴリー: cs.CV | RatBodyFormer: Rodent Body Surface from Keypoints はコメントを受け付けていません