月別アーカイブ: 2024年4月

ChatPose: Chatting about 3D Human Pose

投稿日: 2024年4月25日作成者: jarxiv

要約 ChatPose は、画像やテキストの説明から 3D 人間のポーズを理解し … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs

投稿日: 2024年4月25日作成者: jarxiv

要約マルチモーダル LLM は LLM の自然な進化であり、純粋なテキストモ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Iterative Cluster Harvesting for Wafer Map Defect Patterns

投稿日: 2024年4月25日作成者: jarxiv

要約特定の欠陥パターンの外観は大きく異なるため、ウェーハマップ欠陥パターンの教 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Deep multi-prototype capsule networks

投稿日: 2024年4月25日作成者: jarxiv

要約カプセルネットワークは、画像の部分を識別し、全体のインスタンス化パラメー … 続きを読む →

カテゴリー: cs.CV, cs.NE | コメントを受け付けていません

GLoD: Composing Global Contexts and Local Details in Image Generation

投稿日: 2024年4月25日作成者: jarxiv

要約拡散モデルは、テキストのプロンプトから高品質で多様な画像を合成する機能を実 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning

投稿日: 2024年4月25日作成者: jarxiv

要約普及モデルの急速な発展により、さまざまな用途が生まれました。アイデンティ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Tackling Structural Hallucination in Image Translation with Local Diffusion

投稿日: 2024年4月25日作成者: jarxiv

要約拡散モデルの最近の開発により、条件付き画像の生成は進歩しましたが、医療画像 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

PCNN: Probable-Class Nearest-Neighbor Explanations Improve Fine-Grained Image Classification Accuracy for AIs and Humans

投稿日: 2024年4月25日作成者: jarxiv

要約最近傍 (NN) は、サポートベクターマシンや k-NN 分類器などで … 続きを読む →

カテゴリー: cs.CV, cs.HC | コメントを受け付けていません

CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection

投稿日: 2024年4月25日作成者: jarxiv

要約特徴ピラミッドは、医療画像のセグメンテーションや物体検出などのタスクのため … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

IDD-X: A Multi-View Dataset for Ego-relative Important Object Localization and Explanation in Dense and Unstructured Traffic

投稿日: 2024年4月25日作成者: jarxiv

要約インテリジェント車両システムでは、安全で効率的なナビゲーションのために、道 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

月別アーカイブ: 2024年4月

ChatPose: Chatting about 3D Human Pose

Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs

Iterative Cluster Harvesting for Wafer Map Defect Patterns

Deep multi-prototype capsule networks

GLoD: Composing Global Contexts and Local Details in Image Generation

ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning

Tackling Structural Hallucination in Image Translation with Local Diffusion

PCNN: Probable-Class Nearest-Neighbor Explanations Improve Fine-Grained Image Classification Accuracy for AIs and Humans

CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection

IDD-X: A Multi-View Dataset for Ego-relative Important Object Localization and Explanation in Dense and Unstructured Traffic

最近の投稿

最近のコメント

アーカイブ

カテゴリー