cs.AI」カテゴリーアーカイブ

IntegratedPIFu: Integrated Pixel Aligned Implicit Function for Single-view Human Reconstruction

要約 私たちは、PIFuHD によって設定された基盤上に構築される新しいピクセル … 続きを読む

カテゴリー: cs.AI, cs.CV | IntegratedPIFu: Integrated Pixel Aligned Implicit Function for Single-view Human Reconstruction はコメントを受け付けていません

Unified Lexical Representation for Interpretable Visual-Language Alignment

要約 Visual-Language Alignment (VLA) は、CLI … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Unified Lexical Representation for Interpretable Visual-Language Alignment はコメントを受け付けていません

MixMask: Revisiting Masking Strategy for Siamese ConvNets

要約 自己教師あり学習の最近の進歩により、マスクド イメージ モデリング (MI … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | MixMask: Revisiting Masking Strategy for Siamese ConvNets はコメントを受け付けていません

Fine Structure-Aware Sampling: A New Sampling Training Scheme for Pixel-Aligned Implicit Models in Single-View Human Reconstruction

要約 PIFu、PIFuHD、ICON などのピクセル位置合わせされた暗黙的モデ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Fine Structure-Aware Sampling: A New Sampling Training Scheme for Pixel-Aligned Implicit Models in Single-View Human Reconstruction はコメントを受け付けていません

MAN TruckScenes: A multimodal dataset for autonomous trucking in diverse conditions

要約 自動運転トラック輸送は、現代の物流と環境に大きな影響を与える可能性がある有 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | MAN TruckScenes: A multimodal dataset for autonomous trucking in diverse conditions はコメントを受け付けていません

ZAHA: Introducing the Level of Facade Generalization and the Large-Scale Point Cloud Facade Semantic Segmentation Benchmark Dataset

要約 ファサードのセマンティック セグメンテーションは、写真測量とコンピュータ … 続きを読む

カテゴリー: cs.AI, cs.CV | ZAHA: Introducing the Level of Facade Generalization and the Large-Scale Point Cloud Facade Semantic Segmentation Benchmark Dataset はコメントを受け付けていません

An Interpretable X-ray Style Transfer via Trainable Local Laplacian Filter

要約 放射線科医は、診断パフォーマンスをサポートするためにニーズに合わせて手動で … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | An Interpretable X-ray Style Transfer via Trainable Local Laplacian Filter はコメントを受け付けていません

StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification

要約 既存の大規模ビジョン言語モデル (LVLM) は、数秒程度の短いビデオの処 … 続きを読む

カテゴリー: cs.AI, cs.CV | StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification はコメントを受け付けていません

Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis

要約 text-to-image (T2I) モデルは優れた生成機能を示しますが … 続きを読む

カテゴリー: cs.AI, cs.CV | Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis はコメントを受け付けていません

Edify 3D: Scalable High-Quality 3D Asset Generation

要約 高品質の 3D アセット生成のために設計された高度なソリューションである … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | Edify 3D: Scalable High-Quality 3D Asset Generation はコメントを受け付けていません