Resource Heterogeneity-Aware and Utilization-Enhanced Scheduling for Deep Learning Clusters

要約

GPUやTPUなどのアクセラレータを備えた強力なクラスターをトレーニングするためのディープラーニング(DL)モデルのスケジューリングは、現在不足しており、細粒の不均一性の認識がないか、リソースを実質的に利用できないままにしています。
このギャップを埋めるために、リソースの使用率を高めることができる最適化フレームワークに基づいて、タスクレベルの異質性を意識したスケジューラであるHadarの新しいデザインを提案します。
Hadarは、不均一なDLクラスター上のDLジョブのパフォーマンス特性を活用し、最適化問題のタスクレベルのパフォーマンスの不均一性を特徴付け、空間的および時間的次元の両方でスケジュールを決定します。
最適化の問題を解決し、スケジューリング設計を導くために、デュアルサブルーチンを採用するプライマルデュアルフレームワークが含まれます。
代表的なDLモデルトレーニングワークロードを使用したトレース駆動型シミュレーションは、Hadarが最先端の不均一性対応のGavelと比較した場合、総期間を1.20倍に加速することを示しています。
さらに、Hadarスケジューラは、各ジョブを複数のコピーに分岐させることにより、Hadareに強化され、不均一なGPUでジョブトレーニングがリソース利用の強化のために別の利用可能なノード(つまり、マシンまたはサーバー)に居住しています。
Hadareは、HadarとGavelとの比較のために、物理的なDLクラスターで広く評価されています。
クラスターリソースの利用が大幅に向上した(1.45倍)、HadareはDLモデルトレーニングでかなりのスピードアップを示し、AmazonのAWS(またはラボ)クラスターで合計時間の期間を50%(または80%)削減し、Hadarがトレーニングしたものよりも一貫して優れた推論品質を備えたトレーニングDLモデルを生成します。

要約(オリジナル)

Scheduling deep learning (DL) models to train on powerful clusters with accelerators like GPUs and TPUs, presently falls short, either lacking fine-grained heterogeneity awareness or leaving resources substantially under-utilized. To fill this gap, we propose a novel design of a task-level heterogeneity-aware scheduler, Hadar, based on an optimization framework that can boost resource utilization. Hadar leverages the performance traits of DL jobs on a heterogeneous DL cluster, characterizes the task-level performance heterogeneity in the optimization problem, and makes scheduling decisions across both spatial and temporal dimensions. It involves the primal-dual framework employing a dual subroutine, to solve the optimization problem and guide the scheduling design. Our trace-driven simulation with representative DL model training workloads demonstrates that Hadar accelerates the total time duration by 1.20x when compared with its state-of-the-art heterogeneity-aware counterpart, Gavel. Further, our Hadar scheduler is enhanced to HadarE by forking each job into multiple copies to let a job train concurrently on heterogeneous GPUs resided on separate available nodes (i.e., machines or servers) for resource utilization enhancement. HadarE is evaluated extensively on physical DL clusters for comparison with Hadar and Gavel. With substantial enhancement in cluster resource utilization (by 1.45x), HadarE exhibits considerable speed-ups in DL model training, reducing the total time duration by 50% (or 80%) on an Amazon’s AWS (or our lab) cluster, while producing trained DL models with consistently better inference quality than those trained by Hadar.

arxiv情報

著者 Abeda Sultana,Nabin Pakka,Fei Xu,Xu Yuan,Li Chen,Nian-Feng Tzeng
発行日 2025-05-21 17:39:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG, I.2.11 | Resource Heterogeneity-Aware and Utilization-Enhanced Scheduling for Deep Learning Clusters はコメントを受け付けていません

Exploring the Innovation Opportunities for Pre-trained Models

要約

イノベーターは、サービスが顧客のニーズを正常に満たしている場所を理解し、この知識を使用して失敗の機会を識別することにより、世界を変革します。
事前に訓練されたモデルは、AIイノベーションの状況を変更し、新しいAI製品とサービスをより速く簡単に作成できるようになりました。
事前に訓練されたモデルが成功する場所を理解することは、AIのイノベーションをサポートするために重要です。
残念ながら、事前に訓練されたモデルを取り巻く誇大広告サイクルにより、AIが本当に成功する場所を知ることは困難です。
これに対処するために、HCI研究者が商業的に成功したアプリケーションのプロキシとして開発した事前に訓練されたモデルアプリケーションを調査しました。
研究アプリケーションは、技術的能力を実証し、実際のユーザーのニーズに対処し、倫理的課題を回避します。
アーティファクト分析アプローチを使用して、機能、機会ドメイン、データ型、および新たな相互作用設計パターンを分類し、事前に訓練されたモデルでイノベーションの機会スペースの一部を明らかにしました。

要約(オリジナル)

Innovators transform the world by understanding where services are successfully meeting customers’ needs and then using this knowledge to identify failsafe opportunities for innovation. Pre-trained models have changed the AI innovation landscape, making it faster and easier to create new AI products and services. Understanding where pre-trained models are successful is critical for supporting AI innovation. Unfortunately, the hype cycle surrounding pre-trained models makes it hard to know where AI can really be successful. To address this, we investigated pre-trained model applications developed by HCI researchers as a proxy for commercially successful applications. The research applications demonstrate technical capabilities, address real user needs, and avoid ethical challenges. Using an artifact analysis approach, we categorized capabilities, opportunity domains, data types, and emerging interaction design patterns, uncovering some of the opportunity space for innovation with pre-trained models.

arxiv情報

著者 Minjung Park,Jodi Forlizzi,John Zimmerman
発行日 2025-05-21 17:43:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Exploring the Innovation Opportunities for Pre-trained Models はコメントを受け付けていません

Long-Form Information Alignment Evaluation Beyond Atomic Facts

要約

情報の調整評価者は、さまざまなNLG評価タスクと信頼できるLLMの展開に不可欠であり、幻覚を削減し、ユーザーの信頼を高めます。
FactScoreなどの現在のきめの細かい方法は、ファクトを個別に検証しますが、微妙な脆弱性を可能にします。
この作業では、明示的な幻覚を導入せずに真実の声明を「モンターにする」ことによって欺cept的な物語を構築する挑戦的なベンチマークであるモンタゲリーを紹介します。
粗粒のLLMベースの評価者と現在の細粒フレームワークの両方がこの攻撃の影響を受けやすく、AUC-ROCスコアが65%を下回ることを実証します。
より堅牢な微細な評価を可能にするために、事実上の正確性とイベント秩序の一貫性を共同で検証する新しいフレームワークであるDovescoreを提案します。
ファクト間の関係をモデル化することにより、Dovescoreは既存の細粒化方法を8%以上上回り、長い形式のテキストアライメント評価のためのより堅牢なソリューションを提供します。
コードとデータセットはhttps://github.com/dannalily/dovescoreで入手できます。

要約(オリジナル)

Information alignment evaluators are vital for various NLG evaluation tasks and trustworthy LLM deployment, reducing hallucinations and enhancing user trust. Current fine-grained methods, like FactScore, verify facts individually but neglect inter-fact dependencies, enabling subtle vulnerabilities. In this work, we introduce MontageLie, a challenging benchmark that constructs deceptive narratives by ‘montaging’ truthful statements without introducing explicit hallucinations. We demonstrate that both coarse-grained LLM-based evaluators and current fine-grained frameworks are susceptible to this attack, with AUC-ROC scores falling below 65%. To enable more robust fine-grained evaluation, we propose DoveScore, a novel framework that jointly verifies factual accuracy and event-order consistency. By modeling inter-fact relationships, DoveScore outperforms existing fine-grained methods by over 8%, providing a more robust solution for long-form text alignment evaluation. Our code and datasets are available at https://github.com/dannalily/DoveScore.

arxiv情報

著者 Danna Zheng,Mirella Lapata,Jeff Z. Pan
発行日 2025-05-21 17:46:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Long-Form Information Alignment Evaluation Beyond Atomic Facts はコメントを受け付けていません

BARE: Leveraging Base Language Models for Few-Shot Synthetic Data Generation

要約

モデルトレーニングにおける高品質のデータの需要が高まるにつれて、研究者と開発者は、LLMを調整および訓練するための合成データをますます生成しています。
ただし、現在のデータ生成方法は、数万の例を含むシードセットに依存して、命令チューニングモデルを促しています。
この信頼は、高品質の例のキュレーションが高価または困難な場合に特に問題があります。
このペーパーでは、いくつかの例から高品質のデータセットを生成する、新しい少数のショット合成データ生成の設定を探ります。
いくつかの種子例のみを使用して作業する場合、現在の合成データ方法で使用されている命令チューニングモデルは、下流タスクに不十分な多様性を生成することを示しています。
対照的に、トレーニング後のベースモデルは、合成データ生成のために大部分が未開発のものであり、能力が低いにもかかわらず、大幅に大きい出力の多様性を提供することを示しています。
この洞察を活用して、ベースモデルの多様性と命令チューニングモデルの品質保証を組み合わせた新しい2段階の方法であるベースリファイン(BARE)を提案します。
Bareは少ないショットの合成データ生成に優れています:3つのシード例のみを使用して、下流のタスクパフォ​​ーマンスを大幅に改善する多様で高品質のデータセットを生成します。
1,000個のベア生成サンプルを備えた微調整されたLlama 3.1 8bが、LiveCodebenchタスクの同様のサイズのモデルに匹敵するパフォーマンスを実現することを示します。
さらに、ベアで生成されたデータにより、命令モデルのみによって生成されたデータよりも微調整されたllama 3.2 1bの101%の改善が可能になり、RAGデータ生成の最先端のいかだ方法よりも微調整されたllama 3.1 8bの18.4%の改善が可能になります。

要約(オリジナル)

As the demand for high-quality data in model training grows, researchers and developers are increasingly generating synthetic data to tune and train LLMs. However, current data generation methods rely on seed sets containing tens of thousands of examples to prompt instruction-tuned models. This reliance can be especially problematic when the curation of high-quality examples is expensive or difficult. In this paper we explore the novel few-shot synthetic data generation setting — generating a high-quality dataset from a few examples. We show that when working with only a few seed examples, instruction-tuned models used in current synthetic data methods produce insufficient diversity for downstream tasks. In contrast, we show that base models without post-training, largely untapped for synthetic data generation, offer substantially greater output diversity, albeit with lower instruction following abilities. Leveraging this insight, we propose Base-Refine (BARE), a novel two-stage method that combines the diversity of base models with the quality assurance of instruction-tuned models. BARE excels in few-shot synthetic data generation: using only 3 seed examples it generates diverse, high-quality datasets that significantly improve downstream task performance. We show that fine-tuning Llama 3.1 8B with 1,000 BARE-generated samples achieves performance comparable to state-of-the-art similarly sized models on LiveCodeBench tasks. Furthermore, data generated with BARE enables a 101% improvement for a fine-tuned Llama 3.2 1B on GSM8K over data generated by only instruction-models, and an 18.4% improvement for a fine-tuned Llama 3.1 8B over the state-of-the-art RAFT method for RAG data generation.

arxiv情報

著者 Alan Zhu,Parth Asawa,Jared Quincy Davis,Lingjiao Chen,Boris Hanin,Ion Stoica,Joseph E. Gonzalez,Matei Zaharia
発行日 2025-05-21 17:50:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | BARE: Leveraging Base Language Models for Few-Shot Synthetic Data Generation はコメントを受け付けていません

Effectively Controlling Reasoning Models through Thinking Intervention

要約

推論強化された大手言語モデル(LLMS)は、最終回答を生成する前に中間推論ステップを明示的に生成し、モデルが複雑な問題解決に優れているのを助けます。
この論文では、この新たな世代フレームワークがモデルの動作をより細かく制御するためのユニークな機会を提供することを実証します。
特定の思考トークンを戦略的に挿入または改訂することにより、LLMの内部推論プロセスを明示的に導くように設計された新しいパラダイムであるThinking Interventionを提案します。
思考介入のパラダイムは、Ifval and Oversinkingの指示、SEPの命令階層、XSTESTおよびSRORYBENCHでの安全アライメントなど、幅広いタスクにわたって推論モデルの能力を強化することがわかります。
我々の結果は、思考介入がベースラインのプロンプトアプローチを大幅に上回ることを示しています。アプローチの促進、命令フォローのシナリオで最大6.7%の精度の向上、命令階層に関する推論の15.4%の改善、およびオープンソースディープシークR1モデルを使用した不安定なプロンプトの拒否率の40.0%の増加が得られます。
全体として、私たちの仕事は、LLMSを推論するための有望な新しい研究手段を開きます。

要約(オリジナル)

Reasoning-enhanced large language models (LLMs) explicitly generate intermediate reasoning steps prior to generating final answers, helping the model excel in complex problem-solving. In this paper, we demonstrate that this emerging generation framework offers a unique opportunity for more fine-grained control over model behavior. We propose Thinking Intervention, a novel paradigm designed to explicitly guide the internal reasoning processes of LLMs by strategically inserting or revising specific thinking tokens. We find that the Thinking Intervention paradigm enhances the capabilities of reasoning models across a wide range of tasks, including instruction following on IFEval and Overthinking, instruction hierarchy on SEP, and safety alignment on XSTest and SorryBench. Our results demonstrate that Thinking Intervention significantly outperforms baseline prompting approaches, achieving up to 6.7% accuracy gains in instruction-following scenarios, 15.4% improvements in reasoning about instruction hierarchies, and a 40.0% increase in refusal rates for unsafe prompts using open-source DeepSeek R1 models. Overall, our work opens a promising new research avenue for controlling reasoning LLMs.

arxiv情報

著者 Tong Wu,Chong Xiang,Jiachen T. Wang,G. Edward Suh,Prateek Mittal
発行日 2025-05-21 17:51:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Effectively Controlling Reasoning Models through Thinking Intervention はコメントを受け付けていません

VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models

要約

Openai O1やDeepseek-R1などの大規模な推論モデルは、推論の領域で顕著なパフォーマンスを達成しています。
彼らのトレーニングの重要な要素は、強化学習(RL)に検証可能な報酬を組み込むことです。
ただし、既存の報酬ベンチマークでは、参照ベースの報酬システムを評価しないため、研究者はRLで使用される検証剤の精度を理解しています。
このホワイトペーパーでは、参照ベースの報酬システムのパフォーマンスを評価するために設計された2つのベンチマーク、VerifyBenchとVerifyififyBenchハードを紹介します。
これらのベンチマークは、細心のデータ収集とキュレーションによって構築され、その後、高品質を確保するために慎重な人間の注釈が続きます。
現在のモデルは、検証ベンチと検証ベンチハード、特に小規模なモデルの両方で改善のかなりの余地を示しています。
さらに、評価結果の徹底的かつ包括的な分析を実施し、参照ベースの報酬システムを理解および開発するための洞察を提供します。
提案されているベンチマークは、Verifierの精度の開発と、RLを介してRLを介してトレーニングされたモデルの推論機能の開発をガイドするための効果的なツールとして機能します。

要約(オリジナル)

Large reasoning models such as OpenAI o1 and DeepSeek-R1 have achieved remarkable performance in the domain of reasoning. A key component of their training is the incorporation of verifiable rewards within reinforcement learning (RL). However, existing reward benchmarks do not evaluate reference-based reward systems, leaving researchers with limited understanding of the accuracy of verifiers used in RL. In this paper, we introduce two benchmarks, VerifyBench and VerifyBench-Hard, designed to assess the performance of reference-based reward systems. These benchmarks are constructed through meticulous data collection and curation, followed by careful human annotation to ensure high quality. Current models still show considerable room for improvement on both VerifyBench and VerifyBench-Hard, especially smaller-scale models. Furthermore, we conduct a thorough and comprehensive analysis of evaluation results, offering insights for understanding and developing reference-based reward systems. Our proposed benchmarks serve as effective tools for guiding the development of verifier accuracy and the reasoning capabilities of models trained via RL in reasoning tasks.

arxiv情報

著者 Yuchen Yan,Jin Jiang,Zhenbang Ren,Yijun Li,Xudong Cai,Yang Liu,Xin Xu,Mengdi Zhang,Jian Shao,Yongliang Shen,Jun Xiao,Yueting Zhuang
発行日 2025-05-21 17:54:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models はコメントを受け付けていません

An In-Depth Investigation of Data Collection in LLM App Ecosystems

要約

LLMアプリ(ツール)エコシステムは急速に進化して、広範なユーザーデータ収集が必要な洗練されたユースケースをサポートしています。
LLMアプリは、第三者とLLMプラットフォームによるポリシーの一貫性のない施行を示す逸話的な証拠によって開発されていることを考えると、これらのアプリとユーザーデータを共有すると、大きなプライバシーリスクがあります。
この論文では、LLMアプリエコシステムのデータプラクティスに透明性をもたらすことを目指しています。
OpenaiのGPTアプリエコシステムをケーススタディとして調べます。
GPTアクション(カスタムツール)の自然言語仕様を分析し、データ収集の実践を評価するためのLLMベースのフレームワークを提案します。
私たちの分析により、アクションは24のカテゴリと145のデータ型にわたって過剰なデータを収集し、サードパーティのアクションが平均で6.03%のデータを収集することが明らかになりました。
いくつかのアクションは、OpenAIによって明示的に禁止されているパスワードなどの機密情報を収集することにより、OpenAIのポリシーに違反していることがわかります。
最後に、LLMベースのプライバシーポリシー分析フレームワークを開発して、プライバシーポリシーの開示を使用したアクションによるデータ収集の一貫性を自動的に確認します。
私たちの測定では、収集されたデータ型のほとんどの開示が省略されており、アクションの5.8%のみがデータ収集慣行を明らかに開示していることを示しています。

要約(オリジナル)

LLM app (tool) ecosystems are rapidly evolving to support sophisticated use cases that often require extensive user data collection. Given that LLM apps are developed by third parties and anecdotal evidence indicating inconsistent enforcement of policies by LLM platforms, sharing user data with these apps presents significant privacy risks. In this paper, we aim to bring transparency in data practices of LLM app ecosystems. We examine OpenAI’s GPT app ecosystem as a case study. We propose an LLM-based framework to analyze the natural language specifications of GPT Actions (custom tools) and assess their data collection practices. Our analysis reveals that Actions collect excessive data across 24 categories and 145 data types, with third-party Actions collecting 6.03% more data on average. We find that several Actions violate OpenAI’s policies by collecting sensitive information, such as passwords, which is explicitly prohibited by OpenAI. Lastly, we develop an LLM-based privacy policy analysis framework to automatically check the consistency of data collection by Actions with disclosures in their privacy policies. Our measurements indicate that the disclosures for most of the collected data types are omitted, with only 5.8% of Actions clearly disclosing their data collection practices.

arxiv情報

著者 Yuhao Wu,Evin Jaff,Ke Yang,Ning Zhang,Umar Iqbal
発行日 2025-05-21 17:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CY, cs.LG | An In-Depth Investigation of Data Collection in LLM App Ecosystems はコメントを受け付けていません

Lifelong Knowledge Editing requires Better Regularization

要約

知識の編集は、大規模な言語モデルの事実性を改善する有望な方法ですが、最近の研究では、順次編集中に重要なモデルの分解が示されています。
この論文では、人気のあるLocate-Then-Editメソッドを2段階の微調整プロセスとして形式化し、この劣化の根本原因を正確に特定できるようにします。
(1)内部活性化の過剰最適化と(2)編集されたマトリックスの連続的な成長により、モデルの分解が発生することを示します。
これらの問題を軽減するために、2つの正規化手法を紹介します。(1)最も推定可能な早期停止(MPES)と(2)明示的なFrobenius Norm-Constraintを紹介します。
編集プロセスのキーポイントでこれらのシンプルで効果的な正則化手法を適用すると、モデルの劣化を大幅に軽減できることを実証します。
これらの正規化方法を組み合わせることで、編集時間を42〜61%削減しながら、ロケートツェンエディットメソッドを10,000の編集にスケーリングすることができます。
これらの結果は、ターゲットを絞った正則化が生涯にわたる知識編集に不可欠であることを示しています。

要約(オリジナル)

Knowledge editing is a promising way to improve factuality in large language models, but recent studies have shown significant model degradation during sequential editing. In this paper, we formalize the popular locate-then-edit methods as a two-step fine-tuning process, allowing us to precisely identify the root cause of this degradation. We show that model degradation occurs due to (1) over-optimization of internal activations and (2) continuous norm-growth of edited matrices. To mitigate these issues, we introduce two regularization techniques: (1) Most-Probable Early Stopping (MPES) and (2) explicit Frobenius norm-constraint. We demonstrate that applying these simple yet effective regularization techniques at key points in the editing process can substantially mitigate model degradation. Combining these regularization methods enables scaling locate-then-edit methods to 10,000 edits while reducing editing time by 42-61%. These results show that targeted regularization is essential for lifelong knowledge editing.

arxiv情報

著者 Akshat Gupta,Phudish Prateepamornkul,Maochuan Lu,Ahmed Alaa,Thomas Hartvigsen,Gopala Anumanchipalli
発行日 2025-05-21 17:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Lifelong Knowledge Editing requires Better Regularization はコメントを受け付けていません

Neural Conditional Transport Maps

要約

確率分布間で条件付き最適輸送(OT)マップを学習するための神経フレームワークを提示します。
私たちのアプローチでは、カテゴリと連続的な条件付け変数の両方を同時に処理できるコンディショニングメカニズムを紹介します。
この方法の中核には、これらの入力に基づいて輸送層パラメーターを生成するハイパーネットワークがあり、より単純な条件付け方法を上回る適応マッピングを作成します。
包括的なアブレーション研究は、ベースライン構成よりもメソッドの優れた性能を示しています。
さらに、グローバルな感度分析へのアプリケーションを紹介し、OTベースの感度インデックスを計算する際の高性能を提供します。
この作業は、条件付き最適輸送で最先端の最適な輸送を進め、生成モデリングやブラックボックスモデルの説明などの複雑で高次元のドメインに最適な輸送原理をより広く適用できるようにします。

要約(オリジナル)

We present a neural framework for learning conditional optimal transport (OT) maps between probability distributions. Our approach introduces a conditioning mechanism capable of processing both categorical and continuous conditioning variables simultaneously. At the core of our method lies a hypernetwork that generates transport layer parameters based on these inputs, creating adaptive mappings that outperform simpler conditioning methods. Comprehensive ablation studies demonstrate the superior performance of our method over baseline configurations. Furthermore, we showcase an application to global sensitivity analysis, offering high performance in computing OT-based sensitivity indices. This work advances the state-of-the-art in conditional optimal transport, enabling broader application of optimal transport principles to complex, high-dimensional domains such as generative modeling and black-box model explainability.

arxiv情報

著者 Carlos Rodriguez-Pardo,Leonardo Chiani,Emanuele Borgonovo,Massimo Tavoni
発行日 2025-05-21 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), cs.AI, cs.LG, G.3, math.PR, stat.AP, stat.ML | Neural Conditional Transport Maps はコメントを受け付けていません

HV-BEV: Decoupling Horizontal and Vertical Feature Sampling for Multi-View 3D Object Detection

要約

ビジョンベースのマルチビュー環境認識システムの適用は、自律運転技術、特にBEVベースのモデルでますます認識されています。
現在の最先端のソリューションは、明示的または暗黙的な深さ予測を通じて、各カメラビューからBEV空間に画像機能を主にエンコードします。
ただし、これらの方法は、3D空間のオブジェクトのさまざまな部分間の構造化された相関関係と、異なるカテゴリのオブジェクトがしばしば異なる局所高範囲を占めるという事実を見落としていることがよくあります。
たとえば、トラックはより高い標高で現れますが、交通コーンは地面の近くにあります。
この作業では、\ textbf {bev}グリッドクエリの特徴サンプリングを\ textbf {h} orizo​​ntal feature Aggationと\ textbf {v} eartical Adaptive Height-Aware Reference Point Point Sampling(HV-BEV)、アグリレージの両方のオブジェクトのオブジェクトの両方のオブジェクトを改善することを目的としています。
分布。
具体的には、関連する隣接点のセットは、地上整列された水平面上の各3D基準点に対して動的に構築され、特にインスタンスが車両の周りの複数の画像ビューにまたがる場合、異なるBEVグリッドにまたがる同じインスタンスの関連性を高めます。
さらに、固定された高さの範囲内で均一なサンプリングに依存する代わりに、履歴情報を組み込んだ高さの認識モジュールを導入し、参照ポイントが異なるシーンでオブジェクトが表示されるさまざまな高さに適応的に焦点を合わせることができます。
広範な実験では、提案された方法の有効性を検証し、ヌスセンデータセット全体のベースラインよりも優れた性能を示します。
さらに、当社の最高のパフォーマンスモデルは、Nuscenesテストセットで顕著な50.5 \%マップと59.8 \%NDSを実現します。
このコードは、https://github.com/uddd821/hv-bevで入手できます。

要約(オリジナル)

The application of vision-based multi-view environmental perception system has been increasingly recognized in autonomous driving technology, especially the BEV-based models. Current state-of-the-art solutions primarily encode image features from each camera view into the BEV space through explicit or implicit depth prediction. However, these methods often overlook the structured correlations among different parts of objects in 3D space and the fact that different categories of objects often occupy distinct local height ranges. For example, trucks appear at higher elevations, whereas traffic cones are near the ground. In this work, we propose a novel approach that decouples feature sampling in the \textbf{BEV} grid queries paradigm into \textbf{H}orizontal feature aggregation and \textbf{V}ertical adaptive height-aware reference point sampling (HV-BEV), aiming to improve both the aggregation of objects’ complete information and awareness of diverse objects’ height distribution. Specifically, a set of relevant neighboring points is dynamically constructed for each 3D reference point on the ground-aligned horizontal plane, enhancing the association of the same instance across different BEV grids, especially when the instance spans multiple image views around the vehicle. Additionally, instead of relying on uniform sampling within a fixed height range, we introduce a height-aware module that incorporates historical information, enabling the reference points to adaptively focus on the varying heights at which objects appear in different scenes. Extensive experiments validate the effectiveness of our proposed method, demonstrating its superior performance over the baseline across the nuScenes dataset. Moreover, our best-performing model achieves a remarkable 50.5\% mAP and 59.8\% NDS on the nuScenes testing set. The code is available at https://github.com/Uddd821/HV-BEV.

arxiv情報

著者 Di Wu,Feng Yang,Benlian Xu,Pan Liao,Wenhui Zhao,Dingwen Zhang
発行日 2025-05-21 13:35:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HV-BEV: Decoupling Horizontal and Vertical Feature Sampling for Multi-View 3D Object Detection はコメントを受け付けていません