cs.AI」カテゴリーアーカイブ

Adaptive Layer Selection for Efficient Vision Transformer Fine-Tuning

要約 最近、ビジョン トランスフォーマー (ViT) に基づく基礎モデルが広く利 … 続きを読む

カテゴリー: cs.AI, cs.CV | Adaptive Layer Selection for Efficient Vision Transformer Fine-Tuning はコメントを受け付けていません

LLM-PCGC: Large Language Model-based Point Cloud Geometry Compression

要約 効果的な点群圧縮の鍵は、複雑な 3D データ構造と一致する堅牢なコンテキス … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | LLM-PCGC: Large Language Model-based Point Cloud Geometry Compression はコメントを受け付けていません

MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness

要約 ビジョン トランスフォーマー (ViT) は、さまざまなタスクで優れたパフ … 続きを読む

カテゴリー: cs.AI, cs.CV | MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness はコメントを受け付けていません

Beyond the Hype: A dispassionate look at vision-language models in medical scenario

要約 Large Vision-Language Model (LVLM) の最 … 続きを読む

カテゴリー: cs.AI, cs.CV | Beyond the Hype: A dispassionate look at vision-language models in medical scenario はコメントを受け付けていません

A Medical Data-Effective Learning Benchmark for Highly Efficient Pre-training of Foundation Models

要約 大規模なデータセットで事前トレーニングされた基盤モデルは、前例のない一般化 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | A Medical Data-Effective Learning Benchmark for Highly Efficient Pre-training of Foundation Models はコメントを受け付けていません

Correspondence-Guided SfM-Free 3D Gaussian Splatting for NVS

要約 Structure-from-Motion (SfM) 前処理カメラ ポー … 続きを読む

カテゴリー: cs.AI, cs.CV | Correspondence-Guided SfM-Free 3D Gaussian Splatting for NVS はコメントを受け付けていません

A Disease-Specific Foundation Model Using Over 100K Fundus Images: Release and Validation for Abnormality and Multi-Disease Classification on Downstream Tasks

要約 網膜画像に適用された人工知能は、網膜の状態の兆候や症状を認識し、眼疾患や全 … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | A Disease-Specific Foundation Model Using Over 100K Fundus Images: Release and Validation for Abnormality and Multi-Disease Classification on Downstream Tasks はコメントを受け付けていません

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

要約 このレポートでは、大規模マルチモーダル モデル (LMM) を開発するため … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | xGen-MM (BLIP-3): A Family of Open Large Multimodal Models はコメントを受け付けていません

MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability

要約 数学ビデオの字幕など、テキストベースの文書における数式の可読性を向上させる … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability はコメントを受け付けていません

MAG-SQL: Multi-Agent Generative Approach with Soft Schema Linking and Iterative Sub-SQL Refinement for Text-to-SQL

要約 最近のインコンテキスト学習ベースの手法は、Text-to-SQL タスクで … 続きを読む

カテゴリー: cs.AI, cs.CL | MAG-SQL: Multi-Agent Generative Approach with Soft Schema Linking and Iterative Sub-SQL Refinement for Text-to-SQL はコメントを受け付けていません