Cost-Optimal Grouped-Query Attention for Long-Context LLMs

要約

効果的かつ効率的な変圧器ベースの大手言語モデル(LLMS)の構築は最近、モデル言語機能を最大化し、トレーニングと展開コストを最小限に抑える必要がある研究の焦点となりました。
既存の取り組みは、主にモデルのパフォーマンス、パラメーターサイズ、データサイズの複雑な関係を説明し、LLMSをトレーニングするための最適な計算割り当てを検索しました。
ただし、トレーニングと推論に対するコンテキストの長さと注意ヘッドの構成(グループ化されたクエリの注意の数とキー価値ヘッドの数)の影響を見落としています。
このホワイトペーパーでは、モデルのパフォーマンス、計算コスト、およびメモリコストの観点から、モデルを異なるパラメーターサイズ、コンテキストの長さ、および注意ヘッド構成と体系的に比較します。
次に、トレーニングと推論の両方でコスト最適LLMの構築を導くために、パラメーターサイズとトレーニングコンピューティングのみに基づいた既存のスケーリング方法を拡張します。
私たちの定量的スケーリング研究は、十分に長いシーケンスを処理すると、注意ヘッドが少ない大きなモデルが低い損失を達成しながら、計算コストとメモリコストが低いことが示されています。
私たちの調査結果は、特に長いコンテスト処理シナリオで、実用的なLLMを開発するための貴重な洞察を提供します。
コードとデータを公開します。

要約(オリジナル)

Building effective and efficient Transformer-based large language models (LLMs) has recently become a research focus, requiring maximizing model language capabilities and minimizing training and deployment costs. Existing efforts have primarily described complex relationships among model performance, parameter size, and data size, as well as searched for the optimal compute allocation to train LLMs. However, they overlook the impacts of context length and attention head configuration (the number of query and key-value heads in grouped-query attention) on training and inference. In this paper, we systematically compare models with different parameter sizes, context lengths, and attention head configurations in terms of model performance, computational cost, and memory cost. Then, we extend the existing scaling methods, which are based solely on parameter size and training compute, to guide the construction of cost-optimal LLMs during both training and inference. Our quantitative scaling studies show that, when processing sufficiently long sequences, a larger model with fewer attention heads can achieve a lower loss while incurring lower computational and memory costs. Our findings provide valuable insights for developing practical LLMs, especially in long-context processing scenarios. We will publicly release our code and data.

arxiv情報

著者 Yingfa Chen,Yutong Wu,Xu Han,Zhiyuan Liu,Maosong Sun
発行日 2025-03-12 17:50:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Cost-Optimal Grouped-Query Attention for Long-Context LLMs はコメントを受け付けていません

Auspex: Building Threat Modeling Tradecraft into an Artificial Intelligence-based Copilot

要約

Auspexを提示します – 脅威モデリングの商業をキャプチャする生成的人工知能ベースの方法の専門コレクションを使用して構築された脅威モデリングシステムです。
TradeCraft Prommissingと呼ばれるこの新しいアプローチは、生成AIベースの脅威モデリングシステムを促進するプロンプト内の脅威モデラーの地上知識をエンコードすることに集中しています。
Auspexは、2つの処理段階でTradecraftプロンプトを採用しています。
最初の段階は、システムの分解と説明に関連する脅威のモデル化の知識をエンコードするプロンプトを使用して、システムアーキテクチャ情報の摂取と処理を中心にしています。
第2段階は、脅威の識別、分類、および緩和に関する商標知識をエンコードするプロンプトのコレクションを通じて、結果として得られるシステム分析をチェーンすることに焦点を当てています。
2段階のプロセスは、脅威シナリオ、脅威タイプ、情報セキュリティの分類、潜在的な緩和を指定するシステムの脅威マトリックスを生成します。
Auspexは、手動プロセスが必要な週または数か月に比べて、数分で正式な脅威モデル出力を生成します。
さらに広く言えば、微調整またはエージェントベースのアドオンとは対照的に、オーダーメイドの商業プロンプトに焦点を当てることは、既存のマニュアルおよび自動化された脅威モデリングプロセスの両方の複雑さ、リソース、および標準化の制限に対処できる軽量で柔軟な、モジュラー、および拡張可能な基礎システムになります。
これに関連して、実際の銀行システムでAuspexによって生成された脅威モデルの品質と有用性を測定するサイバーセキュリティの主題から収集されたフィードバックに基づいた評価手順を通じて、脅威モデラーに対するAuspexのベースライン値を確立します。
締めくくり、Auspexの強化の計画についての議論で締めくくります。

要約(オリジナル)

We present Auspex – a threat modeling system built using a specialized collection of generative artificial intelligence-based methods that capture threat modeling tradecraft. This new approach, called tradecraft prompting, centers on encoding the on-the-ground knowledge of threat modelers within the prompts that drive a generative AI-based threat modeling system. Auspex employs tradecraft prompts in two processing stages. The first stage centers on ingesting and processing system architecture information using prompts that encode threat modeling tradecraft knowledge pertaining to system decomposition and description. The second stage centers on chaining the resulting system analysis through a collection of prompts that encode tradecraft knowledge on threat identification, classification, and mitigation. The two-stage process yields a threat matrix for a system that specifies threat scenarios, threat types, information security categorizations and potential mitigations. Auspex produces formalized threat model output in minutes, relative to the weeks or months a manual process takes. More broadly, the focus on bespoke tradecraft prompting, as opposed to fine-tuning or agent-based add-ons, makes Auspex a lightweight, flexible, modular, and extensible foundational system capable of addressing the complexity, resource, and standardization limitations of both existing manual and automated threat modeling processes. In this connection, we establish the baseline value of Auspex to threat modelers through an evaluation procedure based on feedback collected from cybersecurity subject matter experts measuring the quality and utility of threat models generated by Auspex on real banking systems. We conclude with a discussion of system performance and plans for enhancements to Auspex.

arxiv情報

著者 Andrew Crossman,Andrew R. Plummer,Chandra Sekharudu,Deepak Warrier,Mohammad Yekrangian
発行日 2025-03-12 17:54:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Auspex: Building Threat Modeling Tradecraft into an Artificial Intelligence-based Copilot はコメントを受け付けていません

How to Protect Yourself from 5G Radiation? Investigating LLM Responses to Implicit Misinformation

要約

大規模な言語モデル(LLM)は多様なシナリオに広く展開されているため、誤った情報を暗黙のうちに広めることができる程度は、重大な安全性の懸念として浮上します。
現在の研究は、主に明示的な虚偽の陳述でLLMを評価し、誤報が現実世界のユーザーインタラクションで挑戦されていない施設として微妙に微妙に現れることがあることを見落としています。
暗黙の誤った情報のための最初の包括的なベンチマークであるエコム主義者をキュレーションしました。そこでは、誤った情報の仮定がLLMSのユーザークエリに組み込まれています。
エコー主義者は、実世界の人間との会話やソーシャルメディアの相互作用など、多様な情報源からの厳密な選択基準と慎重にキュレーションされたデータに基づいています。
また、LLMSがユーザーの誤解を増幅するのではなく、誤った情報を認識して対抗できるかどうかを測定するための新しい評価メトリックを導入します。
GPT-4、Claude、Llamaを含む幅広いLLMに関する広範な経験的研究を通じて、現在のモデルはこのタスクで驚くほど不十分に機能し、しばしば誤った前提を検出し、誤解を招く説明を生み出すことができます。
私たちの調査結果は、LLM安全研究における暗黙の誤った情報に焦点を合わせることの重要な必要性を強調しています。

要約(オリジナル)

As Large Language Models (LLMs) are widely deployed in diverse scenarios, the extent to which they could tacitly spread misinformation emerges as a critical safety concern. Current research primarily evaluates LLMs on explicit false statements, overlooking how misinformation often manifests subtly as unchallenged premises in real-world user interactions. We curated ECHOMIST, the first comprehensive benchmark for implicit misinformation, where the misinformed assumptions are embedded in a user query to LLMs. ECHOMIST is based on rigorous selection criteria and carefully curated data from diverse sources, including real-world human-AI conversations and social media interactions. We also introduce a new evaluation metric to measure whether LLMs can recognize and counter false information rather than amplify users’ misconceptions. Through an extensive empirical study on a wide range of LLMs, including GPT-4, Claude, and Llama, we find that current models perform alarmingly poorly on this task, often failing to detect false premises and generating misleading explanations. Our findings underscore the critical need for an increased focus on implicit misinformation in LLM safety research.

arxiv情報

著者 Ruohao Guo,Wei Xu,Alan Ritter
発行日 2025-03-12 17:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | How to Protect Yourself from 5G Radiation? Investigating LLM Responses to Implicit Misinformation はコメントを受け付けていません

PRISM: Efficient Long-Range Reasoning With Short-Context LLMs

要約

長距離タスクには、長い入力にわたって推論が必要です。
現在のソリューションでは、大規模な計算予算、トレーニングデータ、モデルの重量アクセス、または複雑なタスク固有の設計が必要です。
プリズムを紹介します。これは、型式の階層スキーマで指定された構造化されたコンテキストメモリを維持しながら、チャンクのストリームとして情報を処理します。
プリズムは、長いコンテキストモデルよりも少なくとも4倍短いコンテキストを使用しながら、多様なタスクのベースラインを上回ります。
このアプローチはトークン効率が高く、簡潔な出力を生成し、キー価値(kV)キャッシュを効率的に活用して、代替の短いコンテキストメソッドと比較してコストを最大54%削減します。
プリズムは、エンコードコストを増やしたり犠牲にしたりすることなく、小さなチャンク(<500トークン)に縮小し、タスクの説明からスキーマを自動的に生成することにより、最小限の労力で新しいタスクに一般化します。

要約(オリジナル)

Long-range tasks demand reasoning over long inputs. Current solutions require large compute budgets, training data, model weight access, or complex task-specific designs. We introduce PRISM, which processes information as a stream of chunks while maintaining a structured in-context memory specified with a typed hierarchical schema. PRISM outperforms baselines on diverse tasks while using at least 4x shorter contexts than long-context models. This approach is token-efficient, producing concise outputs and efficiently leveraging key-value (KV) caches to reduce costs by up to 54% compared to alternative short-context methods. PRISM scales down to tiny chunks (<500 tokens) without increasing encoding costs or sacrificing quality, and generalizes to new tasks with minimal effort by automatically generating schemas from task descriptions.

arxiv情報

著者 Dulhan Jayalath,James Bradley Wendt,Nicholas Monath,Sandeep Tata,Beliz Gunel
発行日 2025-03-12 17:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | PRISM: Efficient Long-Range Reasoning With Short-Context LLMs はコメントを受け付けていません

Probabilistic Language-Image Pre-Training

要約

ビジョン言語モデル(VLM)は、アライメントされた画像テキストペアをジョイント空間に埋め込みますが、多くの場合、画像とテキストの間に1対1の対応を想定して、決定論的な埋め込みに依存します。
これは、本質的に多くの人から多数の現実世界の関係を単純化しすぎており、複数のキャプションが単一の画像を記述し、その逆も同様です。
確率的な目標のみを使用して10億スケールの画像テキストデータセットで事前に訓練された最初の確率的VLMである確率的言語イメージ前訓練(PROLIP)を紹介し、強力なゼロショット機能を達成します(たとえば、VIT-B/16で74.6%のImagenet Zero-Shot精度)。
ProLipは、追加のパラメーターなしで「不確実性トークン」によって不確実性を効率的に推定します。
また、画像テキストペア間および元の入力とマスクされた入力間の分布包有関係を強制する新しいインクルージョン損失を導入します。
実験は、不確実性の推定値を活用することにより、ProLipが下流のタスクに利益をもたらし、不確実性の直感的な概念と一致することを示しています。
テキストの不確実性を利用して、イメージネットの精度をさらに74.6%から75.8%(いくつかのショット設定で)に改善し、確率的アプローチの実際的な利点をサポートします。
このコードは、https://github.com/naver-ai/prolipで入手できます

要約(オリジナル)

Vision-language models (VLMs) embed aligned image-text pairs into a joint space but often rely on deterministic embeddings, assuming a one-to-one correspondence between images and texts. This oversimplifies real-world relationships, which are inherently many-to-many, with multiple captions describing a single image and vice versa. We introduce Probabilistic Language-Image Pre-training (ProLIP), the first probabilistic VLM pre-trained on a billion-scale image-text dataset using only probabilistic objectives, achieving a strong zero-shot capability (e.g., 74.6% ImageNet zero-shot accuracy with ViT-B/16). ProLIP efficiently estimates uncertainty by an ‘uncertainty token’ without extra parameters. We also introduce a novel inclusion loss that enforces distributional inclusion relationships between image-text pairs and between original and masked inputs. Experiments demonstrate that, by leveraging uncertainty estimates, ProLIP benefits downstream tasks and aligns with intuitive notions of uncertainty, e.g., shorter texts being more uncertain and more general inputs including specific ones. Utilizing text uncertainties, we further improve ImageNet accuracy from 74.6% to 75.8% (under a few-shot setting), supporting the practical advantages of our probabilistic approach. The code is available at https://github.com/naver-ai/prolip

arxiv情報

著者 Sanghyuk Chun,Wonjae Kim,Song Park,Sangdoo Yun
発行日 2025-03-12 14:03:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Probabilistic Language-Image Pre-Training はコメントを受け付けていません

Text-to-3D Generation by 2D Editing

要約

ゲーム、フィルム、インテリアデザイン全体の3Dクリエイティブアプリケーションには、前処理された2D拡散モデルから3D表現を蒸留することが不可欠です。
現在のSDSベースの方法は、拡散モデルからの非効率的な情報蒸留によって妨げられており、これにより、フォトリアリスティックな3D含有量の作成が妨げられています。
この論文では、最初にSDSアプローチを再評価して、その基本的な性質を基本的な画像編集プロセスとして分析し、一般に過飽和、過剰な滑らか、豊富なコンテンツの欠如、および品質の低いシングルステップ除去による多様性をもたらします。
これに照らして、編集(GE3D)により3D Generationという新しい方法を提案します。
GE3Dの各反復は、テキスト誘導の除去軌跡とともに、入力画像の情報を保持するためにノイズの軌跡を組み合わせた2D編集フレームワークを使用します。
両方の軌跡に潜在性を調整することにより、プロセスを最適化します。
このアプローチは、事前に拡散した拡散モデルを完全に活用して、複数の除去ステップを通じて多粒度情報を蒸留するため、フォトリアリスティックな3D出力をもたらします。
理論的結果と実験結果の両方が、3D生成テクノロジーを進歩させるだけでなく、3D生成と2D編集の間の新しいつながりを確立するアプローチの有効性を確認します。
これは、この分野でのさらなる研究を促進する可能性があります。
コードとデモはhttps://jahnsonblack.github.io/ge3d/でリリースされます。

要約(オリジナル)

Distilling 3D representations from pretrained 2D diffusion models is essential for 3D creative applications across gaming, film, and interior design. Current SDS-based methods are hindered by inefficient information distillation from diffusion models, which prevents the creation of photorealistic 3D contents. In this paper, we first reevaluate the SDS approach by analyzing its fundamental nature as a basic image editing process that commonly results in over-saturation, over-smoothing, lack of rich content and diversity due to the poor-quality single-step denoising. In light of this, we then propose a novel method called 3D Generation by Editing (GE3D). Each iteration of GE3D utilizes a 2D editing framework that combines a noising trajectory to preserve the information of the input image, alongside a text-guided denoising trajectory. We optimize the process by aligning the latents across both trajectories. This approach fully exploits pretrained diffusion models to distill multi-granularity information through multiple denoising steps, resulting in photorealistic 3D outputs. Both theoretical and experimental results confirm the effectiveness of our approach, which not only advances 3D generation technology but also establishes a novel connection between 3D generation and 2D editing. This could potentially inspire further research in the field. Code and demos are released at https://jahnsonblack.github.io/GE3D/.

arxiv情報

著者 Haoran Li,Yuli Tian,Yonghui Wang,Yong Liao,Lin Wang,Yuyang Wang,Peng Yuan Zhou
発行日 2025-03-12 14:05:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Text-to-3D Generation by 2D Editing はコメントを受け付けていません

OpenVidVRD: Open-Vocabulary Video Visual Relation Detection via Prompt-Driven Semantic Space Alignment

要約

ビデオ視覚関係検出(VIDVRD)タスクは、動的なコンテンツ、高い注釈コスト、および関係の長期尾の分布のために挑戦的なビデオでオブジェクトとその関係を識別することです。
Visual Language Models(VLMS)は、オープンボキャブラリーの視覚関係検出タスクを探索するのに役立ちますが、多くの場合、さまざまな視覚領域とその関係の間のつながりを見落としています。
さらに、VLMを使用してビデオの視覚関係を直接識別することは、画像とビデオの間に大きな格差が大きいため、重要な課題をもたらします。
したがって、OpenVidVrdと呼ばれる新しいオープンボキャブラリーVIDVRDフレームワークを提案します。これは、VLMの豊富な知識と強力な能力を迅速な学習を通じて改善する強力な能力を転送します。
具体的には、VLMを使用して、ビデオの領域に基づいて自動的に生成された領域キャプションからテキスト表現を抽出します。
次に、クロスモーダルの時空間的補完情報を統合することにより、ビデオのオブジェクトレベルの関係表現を導出するための時空間的なリファイナーモジュールを開発します。
さらに、意味空間を調整するための迅速な駆動型戦略が採用され、VLMSの意味的理解を活用して、OpenVidVrdの全体的な一般化能力を高めます。
VIDVRDおよびVIDORパブリックデータセットで実施された広範な実験は、提案されたモデルが既存の方法よりも優れていることを示しています。

要約(オリジナル)

The video visual relation detection (VidVRD) task is to identify objects and their relationships in videos, which is challenging due to the dynamic content, high annotation costs, and long-tailed distribution of relations. Visual language models (VLMs) help explore open-vocabulary visual relation detection tasks, yet often overlook the connections between various visual regions and their relations. Moreover, using VLMs to directly identify visual relations in videos poses significant challenges because of the large disparity between images and videos. Therefore, we propose a novel open-vocabulary VidVRD framework, termed OpenVidVRD, which transfers VLMs’ rich knowledge and powerful capabilities to improve VidVRD tasks through prompt learning. Specificall y, We use VLM to extract text representations from automatically generated region captions based on the video’s regions. Next, we develop a spatiotemporal refiner module to derive object-level relationship representations in the video by integrating cross-modal spatiotemporal complementary information. Furthermore, a prompt-driven strategy to align semantic spaces is employed to harness the semantic understanding of VLMs, enhancing the overall generalization ability of OpenVidVRD. Extensive experiments conducted on the VidVRD and VidOR public datasets show that the proposed model outperforms existing methods.

arxiv情報

著者 Qi Liu,Weiying Xue,Yuxiao Wang,Zhenao Wei
発行日 2025-03-12 14:13:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OpenVidVRD: Open-Vocabulary Video Visual Relation Detection via Prompt-Driven Semantic Space Alignment はコメントを受け付けていません

P3P: Pseudo-3D Pre-training for Scaling 3D Masked Autoencoders

要約

3Dの事前トレーニングは、3D認識タスクを進めるために極めて重要です。
ただし、クリーンな3Dデータの希少性は、3Dプリトレーニングの取り組みをスケーリングするために大きな課題をもたらします。
限られたラベル付きデータと豊富な非標識データを効果的に組み合わせた半監視学習からインスピレーションを得て、革新的な自己監視前のトレーニング前のフレームワークを導入します。
このフレームワークは、堅牢な深度推定モデルを使用して画像から生成された本物の3Dデータと擬似3Dデータの両方を活用しています。
もう1つの重要な課題は、トレーニング前のプロセスの効率です。
Point-BertやPoint-Maeなどの既存のアプローチは、3Dトークン埋め込みにK-nearest Neighborsを利用して、2次時間の複雑さをもたらします。
これに対処するために、トレーニング効率の良い2D再構成ターゲットと相まって、線形時間の複雑さを備えた新しいトークン埋め込み戦略を提案します。
私たちの方法は、3D分類、検出、少数の学習で最先端のパフォーマンスを達成するだけでなく、トレーニング前および下流の微調整プロセスの両方で高い効率を保証します。

要約(オリジナル)

Pre-training in 3D is pivotal for advancing 3D perception tasks. However, the scarcity of clean 3D data poses significant challenges for scaling 3D pre-training efforts. Drawing inspiration from semi-supervised learning, which effectively combines limited labeled data with abundant unlabeled data, we introduce an innovative self-supervised pre-training framework. This framework leverages both authentic 3D data and pseudo-3D data generated from images using a robust depth estimation model. Another critical challenge is the efficiency of the pre-training process. Existing approaches, such as Point-BERT and Point-MAE, utilize k-nearest neighbors for 3D token embedding, resulting in quadratic time complexity. To address this, we propose a novel token embedding strategy with linear time complexity, coupled with a training-efficient 2D reconstruction target. Our method not only achieves state-of-the-art performance in 3D classification, detection, and few-shot learning but also ensures high efficiency in both pre-training and downstream fine-tuning processes.

arxiv情報

著者 Xuechao Chen,Ying Chen,Jialin Li,Qiang Nie,Hanqiu Deng,Yong Liu,Qixing Huang,Yang Li
発行日 2025-03-12 14:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | P3P: Pseudo-3D Pre-training for Scaling 3D Masked Autoencoders はコメントを受け付けていません

Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space

要約

潜在的な拡散モデル(LDMS)は、不安定な生成プロセスを持つことが知られています。このプロセスでは、入力ノイズの小さな摂動やシフトでさえ、出力が大幅に異なる可能性があります。
これにより、一貫した結果が必要なアプリケーションでの適用性が妨げられます。
この作業では、LDMSを再設計して、シフトエクイバリントにすることで一貫性を高めます。
アンチエイリアシング操作を導入することは、シフトの識別を部分的に改善する可能性がありますが、1)VAEトレーニングと複数のU-NET推論、および2)シフトエクイバリアンスを本質的に欠く自己触媒モジュールを含む、LDMSの独自の課題により、重要なエイリアシングと矛盾が持続します。
これらの問題に対処するために、注意モジュールを再設計して、シフトエクイバリアントになり、連続ドメイン内の特徴の周波数帯域幅を効果的に抑制する等拡大損失を提案します。
結果として得られるエイリアスフリーのLDM(AF-LDM)は、強力なシフト識別を実現し、不規則な反りに対しても堅牢です。
広範な実験は、AF-LDMが、ビデオ編集や画像間翻訳など、さまざまなアプリケーションでバニラLDMよりも大幅に一貫した結果を生成することを示しています。
コードは、https://github.com/singlezombie/afldmで入手できます

要約(オリジナル)

Latent Diffusion Models (LDMs) are known to have an unstable generation process, where even small perturbations or shifts in the input noise can lead to significantly different outputs. This hinders their applicability in applications requiring consistent results. In this work, we redesign LDMs to enhance consistency by making them shift-equivariant. While introducing anti-aliasing operations can partially improve shift-equivariance, significant aliasing and inconsistency persist due to the unique challenges in LDMs, including 1) aliasing amplification during VAE training and multiple U-Net inferences, and 2) self-attention modules that inherently lack shift-equivariance. To address these issues, we redesign the attention modules to be shift-equivariant and propose an equivariance loss that effectively suppresses the frequency bandwidth of the features in the continuous domain. The resulting alias-free LDM (AF-LDM) achieves strong shift-equivariance and is also robust to irregular warping. Extensive experiments demonstrate that AF-LDM produces significantly more consistent results than vanilla LDM across various applications, including video editing and image-to-image translation. Code is available at: https://github.com/SingleZombie/AFLDM

arxiv情報

著者 Yifan Zhou,Zeqi Xiao,Shuai Yang,Xingang Pan
発行日 2025-03-12 14:16:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space はコメントを受け付けていません

WildAvatar: Learning In-the-wild 3D Avatars from the Web

要約

アバターの作成に関する既存の研究は、通常、実験室データセットに限定されており、スケーラビリティに対する高いコストが必要であり、現実世界の表現が不十分です。
一方、ウェブには既製の実世界の人間のビデオがたくさんありますが、これらのビデオは品質が異なり、アバターの作成に正確な注釈が必要です。
この目的のために、これらの人間をWebからキュレートするためのフィルタリングプロトコルを使用した自動注釈パイプラインを提案します。
当社のパイプラインは、EMDBベンチマークで最先端の方法を上回り、フィルタリングプロトコルはWebビデオの検証メトリックを高めます。
次に、YouTubeから抽出されたWebスケールの野生の人間のアバター作成データセットであるWildavatarをキュレートします。
Wildavatarは、3Dヒトアバター作成の以前のデータセットよりも少なくとも10ドル\ Times $豊富で、現実の世界に近いです。
その可能性を調査するために、Wildavatarでのアバター作成方法の品質と一般化可能性を示します。
コード、データソースリンク、アノテーションを公開して、3Dヒトアバター作成および実際のアプリケーション用のその他の関連フィールドを推進します。

要約(オリジナル)

Existing research on avatar creation is typically limited to laboratory datasets, which require high costs against scalability and exhibit insufficient representation of the real world. On the other hand, the web abounds with off-the-shelf real-world human videos, but these videos vary in quality and require accurate annotations for avatar creation. To this end, we propose an automatic annotating pipeline with filtering protocols to curate these humans from the web. Our pipeline surpasses state-of-the-art methods on the EMDB benchmark, and the filtering protocols boost verification metrics on web videos. We then curate WildAvatar, a web-scale in-the-wild human avatar creation dataset extracted from YouTube, with $10000+$ different human subjects and scenes. WildAvatar is at least $10\times$ richer than previous datasets for 3D human avatar creation and closer to the real world. To explore its potential, we demonstrate the quality and generalizability of avatar creation methods on WildAvatar. We will publicly release our code, data source links and annotations to push forward 3D human avatar creation and other related fields for real-world applications.

arxiv情報

著者 Zihao Huang,Shoukang Hu,Guangcong Wang,Tianqi Liu,Yuhang Zang,Zhiguo Cao,Wei Li,Ziwei Liu
発行日 2025-03-12 14:19:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | WildAvatar: Learning In-the-wild 3D Avatars from the Web はコメントを受け付けていません