月別アーカイブ: 2025年1月

ScVLM: Enhancing Vision-Language Model for Safety-Critical Event Understanding

投稿日: 2025年1月14日作成者: jarxiv

要約衝突、タイヤ衝突、衝突寸前などの交通安全上重要なイベント (SCE) を正 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Rethinking Decoders for Transformer-based Semantic Segmentation: A Compression Perspective

投稿日: 2025年1月14日作成者: jarxiv

要約 Transformer ベースのセマンティックセグメンテーションの最先端 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

3DGS-to-PC: Convert a 3D Gaussian Splatting Scene into a Dense Point Cloud or Mesh

投稿日: 2025年1月14日作成者: jarxiv

要約 3D ガウススプラッティング (3DGS) は、非常に詳細な 3D 再構 … 続きを読む →

カテゴリー: cs.CV, cs.GR, I.2.10 | コメントを受け付けていません

Agentic Copyright Watermarking against Adversarial Evidence Forgery with Purification-Agnostic Curriculum Proxy Learning

投稿日: 2025年1月14日作成者: jarxiv

要約さまざまなドメインで AI エージェントが急増するにつれて、AI モデルの … 続きを読む →

カテゴリー: cs.CR, cs.CV | コメントを受け付けていません

Aligning First, Then Fusing: A Novel Weakly Supervised Multimodal Violence Detection Method

投稿日: 2025年1月14日作成者: jarxiv

要約弱く監視された暴力検出とは、ビデオレベルのラベルのみを使用してビデオ内の暴 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text Supervision

投稿日: 2025年1月14日作成者: jarxiv

要約言語教師付き事前トレーニングは、画像から意味的に意味のある特徴を抽出するた … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Three-view Focal Length Recovery From Homographies

投稿日: 2025年1月14日作成者: jarxiv

要約この論文では、3 視点ホモグラフィーから焦点距離を回復するための新しいアプ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Arc2Avatar: Generating Expressive 3D Avatars from a Single Image via ID Guidance

投稿日: 2025年1月14日作成者: jarxiv

要約マルチビュー設定内で詳細な 3D シーンを再構成する 3D ガウススプラ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CMAR-Net: Accurate Cross-Modal 3D SAR Reconstruction of Vehicle Targets with Sparse Multi-Baseline Data

投稿日: 2025年1月14日作成者: jarxiv

要約マルチベースライン合成開口レーダー (SAR) 三次元 (3D) 断層撮影 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

RGB-D Indiscernible Object Counting in Underwater Scenes

投稿日: 2025年1月14日作成者: jarxiv

要約最近、識別できない/カモフラージュされたシーンの理解が、視覚コミュニティで … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年1月

ScVLM: Enhancing Vision-Language Model for Safety-Critical Event Understanding

Rethinking Decoders for Transformer-based Semantic Segmentation: A Compression Perspective

3DGS-to-PC: Convert a 3D Gaussian Splatting Scene into a Dense Point Cloud or Mesh

Agentic Copyright Watermarking against Adversarial Evidence Forgery with Purification-Agnostic Curriculum Proxy Learning

Aligning First, Then Fusing: A Novel Weakly Supervised Multimodal Violence Detection Method

RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text Supervision

Three-view Focal Length Recovery From Homographies

Arc2Avatar: Generating Expressive 3D Avatars from a Single Image via ID Guidance

CMAR-Net: Accurate Cross-Modal 3D SAR Reconstruction of Vehicle Targets with Sparse Multi-Baseline Data

RGB-D Indiscernible Object Counting in Underwater Scenes

最近の投稿

最近のコメント

アーカイブ

カテゴリー