投稿者「jarxiv」のアーカイブ

CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays

投稿日: 2025年5月26日作成者: jarxiv

要約大規模な視覚言語モデル（LVLMS）の最近の進捗により、レポート生成や視覚 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations

投稿日: 2025年5月26日作成者: jarxiv

要約対面での会話では、個人はスピーキングとリスニングの役割を切り替える必要があ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Towards more transferable adversarial attack in black-box manner

投稿日: 2025年5月26日作成者: jarxiv

要約敵対的な攻撃は十分に標準のドメインになり、モデルの堅牢性の評価ベースライン … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

F-ANcGAN: An Attention-Enhanced Cycle Consistent Generative Adversarial Architecture for Synthetic Image Generation of Nanoparticles

投稿日: 2025年5月26日作成者: jarxiv

要約ナノ材料研究は、エネルギー、医学、材料科学にとって重要な分野になりつつあり … 続きを読む →

カテゴリー: cond-mat.mtrl-sci, cs.CV, cs.LG, eess.IV | コメントを受け付けていません

ViFOR: A Fourier-Enhanced Vision Transformer for Multi-Image Super-Resolution in Earth System

投稿日: 2025年5月26日作成者: jarxiv

要約スーパー解像度（SR）技術は、地球システムモデル（ESM）データの空間解像 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Accelerating Learned Image Compression Through Modeling Neural Training Dynamics

投稿日: 2025年5月26日作成者: jarxiv

要約学習した画像圧縮（LIC）メソッドがますます計算的に要求が厳しくなるにつれ … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

A Clinician-Friendly Platform for Ophthalmic Image Analysis Without Technical Barriers

投稿日: 2025年5月26日作成者: jarxiv

要約人工知能（AI）は、医療イメージング診断において顕著な可能性を示しています … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Adapting SAM 2 for Visual Object Tracking: 1st Place Solution for MMVPR Challenge Multi-Modal Tracking

投稿日: 2025年5月26日作成者: jarxiv

要約モデル2（SAM2）を視覚オブジェクト追跡（投票）タスクにセグメントに適応 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MMXU: A Multi-Modal and Multi-X-ray Understanding Dataset for Disease Progression

投稿日: 2025年5月26日作成者: jarxiv

要約大規模な視覚言語モデル（LVLMS）は、特に視覚的な質問応答（MEDVQA … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Instructify: Demystifying Metadata to Visual Instruction Tuning Data Conversion

投稿日: 2025年5月26日作成者: jarxiv

要約視覚指導の調整（訪問）データは、一般的に人間のターンでインターリーブされた … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays

DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations

Towards more transferable adversarial attack in black-box manner

F-ANcGAN: An Attention-Enhanced Cycle Consistent Generative Adversarial Architecture for Synthetic Image Generation of Nanoparticles

ViFOR: A Fourier-Enhanced Vision Transformer for Multi-Image Super-Resolution in Earth System

Accelerating Learned Image Compression Through Modeling Neural Training Dynamics

A Clinician-Friendly Platform for Ophthalmic Image Analysis Without Technical Barriers

Adapting SAM 2 for Visual Object Tracking: 1st Place Solution for MMVPR Challenge Multi-Modal Tracking

MMXU: A Multi-Modal and Multi-X-ray Understanding Dataset for Disease Progression

Instructify: Demystifying Metadata to Visual Instruction Tuning Data Conversion

最近の投稿

最近のコメント

アーカイブ

カテゴリー