月別アーカイブ: 2024年4月

RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis

要約 ジェネラリスト基盤モデルの開発は、最近、医療用 AI (AI4Medici … 続きを読む

カテゴリー: cs.CV | RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis はコメントを受け付けていません

ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving

要約 拡散ベースのテクノロジーは、特にパーソナライズおよびカスタマイズされた顔の … 続きを読む

カテゴリー: cs.AI, cs.CV | ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving はコメントを受け付けていません

ConKeD++ — Improving descriptor learning for retinal image registration: A comprehensive study of contrastive losses

要約 自己教師あり対照学習は、最も成功した深層学習パラダイムの 1 つとして浮上 … 続きを読む

カテゴリー: cs.CV | ConKeD++ — Improving descriptor learning for retinal image registration: A comprehensive study of contrastive losses はコメントを受け付けていません

Confidence-Triggered Detection: Accelerating Real-time Tracking-by-detection Systems

要約 リアルタイムのオブジェクト追跡には、速度と精度の間の微妙なバランスが必要で … 続きを読む

カテゴリー: cs.CV | Confidence-Triggered Detection: Accelerating Real-time Tracking-by-detection Systems はコメントを受け付けていません

Registration by Regression (RbR): a framework for interpretable and flexible atlas registration

要約 人間の神経画像研究では、アトラス登録により、MRI スキャンを共通の座標フ … 続きを読む

カテゴリー: cs.CV | Registration by Regression (RbR): a framework for interpretable and flexible atlas registration はコメントを受け付けていません

SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension

要約 マルチモーダル大規模言語モデル (MLLM) を実際に適用するには、テキス … 続きを読む

カテゴリー: cs.CV | SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension はコメントを受け付けていません

GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing

要約 我々は、3D ガウス スプラッティング (3DGS) によって再構成された … 続きを読む

カテゴリー: cs.CV | GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing はコメントを受け付けていません

Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals

要約 教師なしセマンティック セグメンテーションは、いかなる形式の注釈も付けずに … 続きを読む

カテゴリー: cs.CV | Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals はコメントを受け付けていません

Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings

要約 Text-to-Image (T2I) 生成モデルは広く普及していますが、 … 続きを読む

カテゴリー: cs.CV | Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings はコメントを受け付けていません

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

要約 このレポートでは、マルチモーダル理解におけるオープンソースと独自の商用モデ … 続きを読む

カテゴリー: cs.CV | How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites はコメントを受け付けていません