月別アーカイブ: 2024年6月

A Sparse Graph Formulation for Efficient Spectral Image Segmentation

要約 スペクトル クラスタリングは、セグメンテーションの問題を解決するための最も … 続きを読む

カテゴリー: cs.CV | A Sparse Graph Formulation for Efficient Spectral Image Segmentation はコメントを受け付けていません

LLavaGuard: VLM-based Safeguards for Vision Dataset Curation and Safety Assessment

要約 VLM ベースのセーフガード モデル ファミリである LlavaGuard … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | LLavaGuard: VLM-based Safeguards for Vision Dataset Curation and Safety Assessment はコメントを受け付けていません

The Expanding Scope of the Stability Gap: Unveiling its Presence in Joint Incremental Learning of Homogeneous Tasks

要約 最近の研究では、以前に学習したタスクが新しいタスクに移行する際にパフォーマ … 続きを読む

カテゴリー: cs.CV, cs.LG | The Expanding Scope of the Stability Gap: Unveiling its Presence in Joint Incremental Learning of Homogeneous Tasks はコメントを受け付けていません

Compositional Curvature Bounds for Deep Neural Networks

要約 安全性が重要なアプリケーションにおけるニューラル ネットワークの広範な使用 … 続きを読む

カテゴリー: cs.CV, cs.LG | Compositional Curvature Bounds for Deep Neural Networks はコメントを受け付けていません

Contextual fusion enhances robustness to image blurring

要約 哺乳類の脳は、特定の感覚様式に特化した脳領域全体の情報を統合することで、複 … 続きを読む

カテゴリー: cs.CV | Contextual fusion enhances robustness to image blurring はコメントを受け付けていません

Energy Propagation in Scattering Convolution Networks Can Be Arbitrarily Slow

要約 マラーのウェーブレット散乱変換などの特徴抽出器として使用される深層畳み込み … 続きを読む

カテゴリー: (Primary), 42C15, cs.CV, I.4.6, math.FA, secondary | Energy Propagation in Scattering Convolution Networks Can Be Arbitrarily Slow はコメントを受け付けていません

Towards Semantic Equivalence of Tokenization in Multimodal LLM

要約 マルチモーダル大規模言語モデル (MLLM) は、視覚言語タスクの処理にお … 続きを読む

カテゴリー: cs.CV | Towards Semantic Equivalence of Tokenization in Multimodal LLM はコメントを受け付けていません

PatchSVD: A Non-uniform SVD-based Image Compression Algorithm

要約 データの保存は、画像の解像度が高く複雑であるため、ファイル サイズが大きく … 続きを読む

カテゴリー: cs.CV | PatchSVD: A Non-uniform SVD-based Image Compression Algorithm はコメントを受け付けていません

DVOS: Self-Supervised Dense-Pattern Video Object Segmentation

要約 ビデオ オブジェクト セグメンテーションのアプローチは、モデル開発のために … 続きを読む

カテゴリー: cs.CV, eess.IV | DVOS: Self-Supervised Dense-Pattern Video Object Segmentation はコメントを受け付けていません

3D-GRAND: Towards Better Grounding and Less Hallucination for 3D-LLMs

要約 言語と 3D 認識の統合は、物理世界を理解し、相互作用する身体化されたエー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | 3D-GRAND: Towards Better Grounding and Less Hallucination for 3D-LLMs はコメントを受け付けていません