月別アーカイブ: 2024年4月

RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis

投稿日: 2024年4月26日作成者: jarxiv

要約ジェネラリスト基盤モデルの開発は、最近、医療用 AI (AI4Medici … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving

投稿日: 2024年4月26日作成者: jarxiv

要約拡散ベースのテクノロジーは、特にパーソナライズおよびカスタマイズされた顔の … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

ConKeD++ — Improving descriptor learning for retinal image registration: A comprehensive study of contrastive losses

投稿日: 2024年4月26日作成者: jarxiv

要約自己教師あり対照学習は、最も成功した深層学習パラダイムの 1 つとして浮上 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Confidence-Triggered Detection: Accelerating Real-time Tracking-by-detection Systems

投稿日: 2024年4月26日作成者: jarxiv

要約リアルタイムのオブジェクト追跡には、速度と精度の間の微妙なバランスが必要で … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Registration by Regression (RbR): a framework for interpretable and flexible atlas registration

投稿日: 2024年4月26日作成者: jarxiv

要約人間の神経画像研究では、アトラス登録により、MRI スキャンを共通の座標フ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension

投稿日: 2024年4月26日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) を実際に適用するには、テキス … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing

投稿日: 2024年4月26日作成者: jarxiv

要約我々は、3D ガウススプラッティング (3DGS) によって再構成された … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals

投稿日: 2024年4月26日作成者: jarxiv

要約教師なしセマンティックセグメンテーションは、いかなる形式の注釈も付けずに … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings

投稿日: 2024年4月26日作成者: jarxiv

要約 Text-to-Image (T2I) 生成モデルは広く普及していますが、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

投稿日: 2024年4月26日作成者: jarxiv

要約このレポートでは、マルチモーダル理解におけるオープンソースと独自の商用モデ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年4月

RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis

ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving

ConKeD++ — Improving descriptor learning for retinal image registration: A comprehensive study of contrastive losses

Confidence-Triggered Detection: Accelerating Real-time Tracking-by-detection Systems

Registration by Regression (RbR): a framework for interpretable and flexible atlas registration

SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension

GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing

Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals

Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

最近の投稿

最近のコメント

アーカイブ

カテゴリー