月別アーカイブ: 2024年7月

CIC-BART-SSA: Controllable Image Captioning with Structured Semantic Augmentation

要約 Controllable Image Captioning (CIC) は … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | CIC-BART-SSA: Controllable Image Captioning with Structured Semantic Augmentation はコメントを受け付けていません

An Evaluation of Continual Learning for Advanced Node Semiconductor Defect Inspection

要約 ディープラーニングベースの半導体欠陥検査は近年注目を集めており、ナノスケー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | An Evaluation of Continual Learning for Advanced Node Semiconductor Defect Inspection はコメントを受け付けていません

NL2Contact: Natural Language Guided 3D Hand-Object Contact Modeling with Diffusion Model

要約 手と物体の物理的接触のモデル化は、不正確な手のポーズを修正し、3D 手と物 … 続きを読む

カテゴリー: cs.CV | NL2Contact: Natural Language Guided 3D Hand-Object Contact Modeling with Diffusion Model はコメントを受け付けていません

RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models

要約 大規模マルチモーダル モデル (LMM) は、さまざまな視覚言語タスクを大 … 続きを読む

カテゴリー: cs.AI, cs.CV | RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models はコメントを受け付けていません

Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image

要約 オープンボキャブラリー 3D オブジェクト検出 (OV-3DDet) は、 … 続きを読む

カテゴリー: cs.AI, cs.CV | Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image はコメントを受け付けていません

EchoSight: Advancing Visual-Language Models with Wiki Knowledge

要約 知識ベースのビジュアル質問応答 (KVQA) タスクでは、広範な背景知識を … 続きを読む

カテゴリー: cs.CV | EchoSight: Advancing Visual-Language Models with Wiki Knowledge はコメントを受け付けていません

CHOSEN: Compilation to Hardware Optimization Stack for Efficient Vision Transformer Inference

要約 ビジョン トランスフォーマー (ViT) は、コンピューター ビジョンへの … 続きを読む

カテゴリー: cs.AI, cs.AR, cs.CV | CHOSEN: Compilation to Hardware Optimization Stack for Efficient Vision Transformer Inference はコメントを受け付けていません

GroundUp: Rapid Sketch-Based 3D City Massing

要約 私たちは、都市部の 3D 都市集合体のための初のスケッチベースのアイデア作 … 続きを読む

カテゴリー: cs.CV, cs.HC | GroundUp: Rapid Sketch-Based 3D City Massing はコメントを受け付けていません

DiverseDream: Diverse Text-to-3D Synthesis with Augmented Text Embedding

要約 テキストから 3D への合成は、事前トレーニング済みのテキストから画像への … 続きを読む

カテゴリー: cs.CV | DiverseDream: Diverse Text-to-3D Synthesis with Augmented Text Embedding はコメントを受け付けていません

LookupViT: Compressing visual information to a limited number of tokens

要約 ビジョン トランスフォーマー (ViT) は、数多くの業界グレードのビジョ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | LookupViT: Compressing visual information to a limited number of tokens はコメントを受け付けていません