月別アーカイブ: 2024年4月

ChatPose: Chatting about 3D Human Pose

要約 ChatPose は、画像やテキストの説明から 3D 人間のポーズを理解し … 続きを読む

カテゴリー: cs.CV | ChatPose: Chatting about 3D Human Pose はコメントを受け付けていません

Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs

要約 マルチモーダル LLM は LLM の自然な進化であり、純粋なテキスト モ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs はコメントを受け付けていません

Iterative Cluster Harvesting for Wafer Map Defect Patterns

要約 特定の欠陥パターンの外観は大きく異なるため、ウェーハマップ欠陥パターンの教 … 続きを読む

カテゴリー: cs.CV | Iterative Cluster Harvesting for Wafer Map Defect Patterns はコメントを受け付けていません

Deep multi-prototype capsule networks

要約 カプセル ネットワークは、画像の部分を識別し、全体のインスタンス化パラメー … 続きを読む

カテゴリー: cs.CV, cs.NE | Deep multi-prototype capsule networks はコメントを受け付けていません

GLoD: Composing Global Contexts and Local Details in Image Generation

要約 拡散モデルは、テキストのプロンプトから高品質で多様な画像を合成する機能を実 … 続きを読む

カテゴリー: cs.AI, cs.CV | GLoD: Composing Global Contexts and Local Details in Image Generation はコメントを受け付けていません

ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning

要約 普及モデルの急速な発展により、さまざまな用途が生まれました。 アイデンティ … 続きを読む

カテゴリー: cs.AI, cs.CV | ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning はコメントを受け付けていません

Tackling Structural Hallucination in Image Translation with Local Diffusion

要約 拡散モデルの最近の開発により、条件付き画像の生成は進歩しましたが、医療画像 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Tackling Structural Hallucination in Image Translation with Local Diffusion はコメントを受け付けていません

PCNN: Probable-Class Nearest-Neighbor Explanations Improve Fine-Grained Image Classification Accuracy for AIs and Humans

要約 最近傍 (NN) は、サポート ベクター マシンや k-NN 分類器などで … 続きを読む

カテゴリー: cs.CV, cs.HC | PCNN: Probable-Class Nearest-Neighbor Explanations Improve Fine-Grained Image Classification Accuracy for AIs and Humans はコメントを受け付けていません

CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection

要約 特徴ピラミッドは、医療画像のセグメンテーションや物体検出などのタスクのため … 続きを読む

カテゴリー: cs.CV | CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection はコメントを受け付けていません

IDD-X: A Multi-View Dataset for Ego-relative Important Object Localization and Explanation in Dense and Unstructured Traffic

要約 インテリジェント車両システムでは、安全で効率的なナビゲーションのために、道 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | IDD-X: A Multi-View Dataset for Ego-relative Important Object Localization and Explanation in Dense and Unstructured Traffic はコメントを受け付けていません