月別アーカイブ: 2025年4月

Multi-Head Adaptive Graph Convolution Network for Sparse Point Cloud-Based Human Activity Recognition

要約 特に高齢者や介助が必要な人の自立した生活を支えるために、人の行動認識はます … 続きを読む

カテゴリー: cs.AI, cs.CV | Multi-Head Adaptive Graph Convolution Network for Sparse Point Cloud-Based Human Activity Recognition はコメントを受け付けていません

GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation

要約 OpenAIのGPT4oモデルにおける最近のブレークスルーは、画像生成と編 … 続きを読む

カテゴリー: cs.CV | GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation はコメントを受け付けていません

Spline-based Transformers

要約 我々は、スプラインベースのトランスフォーマーを紹介する。スプラインベースの … 続きを読む

カテゴリー: cs.CV, cs.LG | Spline-based Transformers はコメントを受け付けていません

Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence

要約 大規模な視覚言語モデルは、AI主導の画像理解のための新しいパラダイムを提供 … 続きを読む

カテゴリー: cs.AI, cs.CV | Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence はコメントを受け付けていません

F-ViTA: Foundation Model Guided Visible to Thermal Translation

要約 赤外線画像は、特に低照度や夜間の状況把握に欠かせない。しかし、赤外線画像の … 続きを読む

カテゴリー: cs.CV | F-ViTA: Foundation Model Guided Visible to Thermal Translation はコメントを受け付けていません

BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation

要約 BOPチャレンジ2024の評価方法、データセット、結果について発表する。B … 続きを読む

カテゴリー: cs.CV | BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation はコメントを受け付けていません

HATFormer: Historic Handwritten Arabic Text Recognition with Transformers

要約 アラビア語の手書きテキスト認識(HTR)は、多様な書き方やアラビア文字固有 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | HATFormer: Historic Handwritten Arabic Text Recognition with Transformers はコメントを受け付けていません

Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization

要約 多くの3D生成モデルは、コンパクトな形状表現を学習するために変分オートエン … 続きを読む

カテゴリー: cs.CV | Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization はコメントを受け付けていません

GMR-Conv: An Efficient Rotation and Reflection Equivariant Convolution Kernel Using Gaussian Mixture Rings

要約 ある特徴が幾何学的な変換の下でも不変である対称性は、畳み込みニューラルネッ … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV, eess.SP | GMR-Conv: An Efficient Rotation and Reflection Equivariant Convolution Kernel Using Gaussian Mixture Rings はコメントを受け付けていません

Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models

要約 スパースオートエンコーダ(SAE)は近年、大規模言語モデル(LLM)におけ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models はコメントを受け付けていません