月別アーカイブ: 2025年1月

ScVLM: Enhancing Vision-Language Model for Safety-Critical Event Understanding

要約 衝突、タイヤ衝突、衝突寸前などの交通安全上重要なイベント (SCE) を正 … 続きを読む

カテゴリー: cs.CV | ScVLM: Enhancing Vision-Language Model for Safety-Critical Event Understanding はコメントを受け付けていません

Rethinking Decoders for Transformer-based Semantic Segmentation: A Compression Perspective

要約 Transformer ベースのセマンティック セグメンテーションの最先端 … 続きを読む

カテゴリー: cs.CV, cs.LG | Rethinking Decoders for Transformer-based Semantic Segmentation: A Compression Perspective はコメントを受け付けていません

3DGS-to-PC: Convert a 3D Gaussian Splatting Scene into a Dense Point Cloud or Mesh

要約 3D ガウス スプラッティング (3DGS) は、非常に詳細な 3D 再構 … 続きを読む

カテゴリー: cs.CV, cs.GR, I.2.10 | 3DGS-to-PC: Convert a 3D Gaussian Splatting Scene into a Dense Point Cloud or Mesh はコメントを受け付けていません

Agentic Copyright Watermarking against Adversarial Evidence Forgery with Purification-Agnostic Curriculum Proxy Learning

要約 さまざまなドメインで AI エージェントが急増するにつれて、AI モデルの … 続きを読む

カテゴリー: cs.CR, cs.CV | Agentic Copyright Watermarking against Adversarial Evidence Forgery with Purification-Agnostic Curriculum Proxy Learning はコメントを受け付けていません

Aligning First, Then Fusing: A Novel Weakly Supervised Multimodal Violence Detection Method

要約 弱く監視された暴力検出とは、ビデオレベルのラベルのみを使用してビデオ内の暴 … 続きを読む

カテゴリー: cs.CV | Aligning First, Then Fusing: A Novel Weakly Supervised Multimodal Violence Detection Method はコメントを受け付けていません

RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text Supervision

要約 言語教師付き事前トレーニングは、画像から意味的に意味のある特徴を抽出するた … 続きを読む

カテゴリー: cs.CV | RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text Supervision はコメントを受け付けていません

Three-view Focal Length Recovery From Homographies

要約 この論文では、3 視点ホモグラフィーから焦点距離を回復するための新しいアプ … 続きを読む

カテゴリー: cs.CV | Three-view Focal Length Recovery From Homographies はコメントを受け付けていません

Arc2Avatar: Generating Expressive 3D Avatars from a Single Image via ID Guidance

要約 マルチビュー設定内で詳細な 3D シーンを再構成する 3D ガウス スプラ … 続きを読む

カテゴリー: cs.CV | Arc2Avatar: Generating Expressive 3D Avatars from a Single Image via ID Guidance はコメントを受け付けていません

CMAR-Net: Accurate Cross-Modal 3D SAR Reconstruction of Vehicle Targets with Sparse Multi-Baseline Data

要約 マルチベースライン合成開口レーダー (SAR) 三次元 (3D) 断層撮影 … 続きを読む

カテゴリー: cs.CV, eess.IV | CMAR-Net: Accurate Cross-Modal 3D SAR Reconstruction of Vehicle Targets with Sparse Multi-Baseline Data はコメントを受け付けていません

RGB-D Indiscernible Object Counting in Underwater Scenes

要約 最近、識別できない/カモフラージュされたシーンの理解が、視覚コミュニティで … 続きを読む

カテゴリー: cs.CV | RGB-D Indiscernible Object Counting in Underwater Scenes はコメントを受け付けていません