cs.CV」カテゴリーアーカイブ

Spline-based Transformers

要約 我々は、スプラインベースのトランスフォーマーを紹介する。スプラインベースの … 続きを読む

カテゴリー: cs.CV, cs.LG | Spline-based Transformers はコメントを受け付けていません

Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence

要約 大規模な視覚言語モデルは、AI主導の画像理解のための新しいパラダイムを提供 … 続きを読む

カテゴリー: cs.AI, cs.CV | Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence はコメントを受け付けていません

F-ViTA: Foundation Model Guided Visible to Thermal Translation

要約 赤外線画像は、特に低照度や夜間の状況把握に欠かせない。しかし、赤外線画像の … 続きを読む

カテゴリー: cs.CV | F-ViTA: Foundation Model Guided Visible to Thermal Translation はコメントを受け付けていません

BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation

要約 BOPチャレンジ2024の評価方法、データセット、結果について発表する。B … 続きを読む

カテゴリー: cs.CV | BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation はコメントを受け付けていません

HATFormer: Historic Handwritten Arabic Text Recognition with Transformers

要約 アラビア語の手書きテキスト認識(HTR)は、多様な書き方やアラビア文字固有 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | HATFormer: Historic Handwritten Arabic Text Recognition with Transformers はコメントを受け付けていません

Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization

要約 多くの3D生成モデルは、コンパクトな形状表現を学習するために変分オートエン … 続きを読む

カテゴリー: cs.CV | Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization はコメントを受け付けていません

GMR-Conv: An Efficient Rotation and Reflection Equivariant Convolution Kernel Using Gaussian Mixture Rings

要約 ある特徴が幾何学的な変換の下でも不変である対称性は、畳み込みニューラルネッ … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV, eess.SP | GMR-Conv: An Efficient Rotation and Reflection Equivariant Convolution Kernel Using Gaussian Mixture Rings はコメントを受け付けていません

Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models

要約 スパースオートエンコーダ(SAE)は近年、大規模言語モデル(LLM)におけ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models はコメントを受け付けていません

STING-BEE: Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection

要約 コンピュータ支援スクリーニング(CAS)システムの進歩は、X線手荷物検査に … 続きを読む

カテゴリー: cs.CV, eess.IV | STING-BEE: Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection はコメントを受け付けていません

THRONE: An Object-based Hallucination Benchmark for the Free-form Generations of Large Vision-Language Models

要約 大規模視覚言語モデル(LVLM)における幻覚の軽減は、依然として未解決の問 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | THRONE: An Object-based Hallucination Benchmark for the Free-form Generations of Large Vision-Language Models はコメントを受け付けていません