cs.CV」カテゴリーアーカイブ

Fine-Grained Retrieval-Augmented Generation for Visual Question Answering

要約 視覚的な質問回答(VQA)は、画像からの情報を利用することにより、自然言語 … 続きを読む

カテゴリー: cs.AI, cs.CV | Fine-Grained Retrieval-Augmented Generation for Visual Question Answering はコメントを受け付けていません

X2BR: High-Fidelity 3D Bone Reconstruction from a Planar X-Ray Image with Hybrid Neural Implicit Methods

要約 単一の平面X線からの正確な3D骨再建は、解剖学的複雑さと限られた入力データ … 続きを読む

カテゴリー: cs.CV | X2BR: High-Fidelity 3D Bone Reconstruction from a Planar X-Ray Image with Hybrid Neural Implicit Methods はコメントを受け付けていません

HRDecoder: High-Resolution Decoder Network for Fundus Image Lesion Segmentation

要約 Fundus画像の正確なセグメンテーションには高解像度が重要ですが、高解像 … 続きを読む

カテゴリー: cs.CV | HRDecoder: High-Resolution Decoder Network for Fundus Image Lesion Segmentation はコメントを受け付けていません

UNEM: UNrolled Generalized EM for Transductive Few-Shot Learning

要約 トランスダクトの少数のショット学習は、最近、コンピュータービジョンにおいて … 続きを読む

カテゴリー: cs.CV | UNEM: UNrolled Generalized EM for Transductive Few-Shot Learning はコメントを受け付けていません

Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

要約 このテクニカルレポートは、ビデオジェネレーションファンデーションモデルをト … 続きを読む

カテゴリー: cs.AI, cs.CV | Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model はコメントを受け付けていません

Hypergraph Vision Transformers: Images are More than Nodes, More than Edges

要約 コンピュータービジョンの最近の進歩により、さまざまなタスクにわたる視覚変圧 … 続きを読む

カテゴリー: cs.CV | Hypergraph Vision Transformers: Images are More than Nodes, More than Edges はコメントを受け付けていません

Generating Fine Details of Entity Interactions

要約 画像は、オブジェクトを描写するだけでなく、それらの間の豊富な相互作用もカプ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Generating Fine Details of Entity Interactions はコメントを受け付けていません

EMO-X: Efficient Multi-Person Pose and Shape Estimation in One-Stage

要約 表現力豊かな人間のポーズおよび形状推定(EHPS)は、単眼画像からの人間の … 続きを読む

カテゴリー: cs.CV | EMO-X: Efficient Multi-Person Pose and Shape Estimation in One-Stage はコメントを受け付けていません

Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images

要約 マルチモーダルLLMS(MLLM)を使用してシステムを提示して、時間的変化 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.CY | Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images はコメントを受け付けていません

Steering CLIP’s vision transformer with sparse autoencoders

要約 ビジョンモデルは非常に有能ですが、内部メカニズムはよく理解されていません。 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Steering CLIP’s vision transformer with sparse autoencoders はコメントを受け付けていません