Hogwild! Inference: Parallel LLM Generation via Concurrent Attention

要約

大規模な言語モデル(LLMS)は、高度な推論、長型のコンテンツ生成、およびツールの使用を通じて、ますます複雑なタスクに取り組む能力を実証しています。
これらのタスクを解決するには、多くの場合、長い推論時間計算が含まれます。
人間の問題解決では、作業を促進する一般的な戦略はコラボレーションです。問題をサブタスクに分割する、同時にさまざまな戦略を探求するなど。最近の研究では、LLMが投票メカニズムや並行して実行できる独立したサブタスクの明示的な作成など、明示的な協力フレームワークを実装することで並行して動作できることが示されています。
ただし、これらの各フレームワークは、すべてのタイプのタスクに適していない場合があり、適用性を妨げる可能性があります。
この作業では、別の設計アプローチを提案します。LLM「ワーカー」を並行して実行し、同時にアップデートされた注意キャッシュを介して同期することができ、これらのワーカーに協力の最善の方法を決定するように促します。
私たちのアプローチにより、インスタンスは、手元の問題のための独自のコラボレーション戦略を考え出すことができます。
HogWildを介してこのアプローチを実装します!
推論:同じ注意キャッシュと同じLLMの複数のインスタンスが並列で実行され、互いの生成されたトークンへの「インスタント」アクセスを伴う並列LLM推論エンジン。
ホグリド!
推論では、回転位置の埋め込み(ロープ)を利用して、並列ハードウェアの使用率を改善しながら再計算を避けます。
現代の推論対応LLMは、追加の微調整なしで、共有キー価値キャッシュを箱から出して推測を実行できることがわかります。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated the ability to tackle increasingly complex tasks through advanced reasoning, long-form content generation, and tool use. Solving these tasks often involves long inference-time computations. In human problem solving, a common strategy to expedite work is collaboration: by dividing the problem into sub-tasks, exploring different strategies concurrently, etc. Recent research has shown that LLMs can also operate in parallel by implementing explicit cooperation frameworks, such as voting mechanisms or the explicit creation of independent sub-tasks that can be executed in parallel. However, each of these frameworks may not be suitable for all types of tasks, which can hinder their applicability. In this work, we propose a different design approach: we run LLM ‘workers’ in parallel , allowing them to synchronize via a concurrently-updated attention cache and prompt these workers to decide how best to collaborate. Our approach allows the instances to come up with their own collaboration strategy for the problem at hand, all the while ‘seeing’ each other’s partial progress in the concurrent cache. We implement this approach via Hogwild! Inference: a parallel LLM inference engine where multiple instances of the same LLM run in parallel with the same attention cache, with ‘instant’ access to each other’s generated tokens. Hogwild! inference takes advantage of Rotary Position Embeddings (RoPE) to avoid recomputation while improving parallel hardware utilization. We find that modern reasoning-capable LLMs can perform inference with shared Key-Value cache out of the box, without additional fine-tuning.

arxiv情報

著者 Gleb Rodionov,Roman Garipov,Alina Shutova,George Yakushev,Vage Egiazarian,Anton Sinitsin,Denis Kuznedelev,Dan Alistarh
発行日 2025-04-09 17:56:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Hogwild! Inference: Parallel LLM Generation via Concurrent Attention はコメントを受け付けていません

TabRep: a Simple and Effective Continuous Representation for Training Tabular Diffusion Models

要約

拡散モデルは、表形式データ生成の主要な生成モデルです。
ただし、統一されたデータ表現と統一されたデータ表現の下で、モデリングの難問に直面しています。
前者は、1つのモデルで表形式データのすべてのマルチモーダル分布を共同でモデル化するという課題に遭遇します。
後者は、すべての機能の単一の表現を学習することでこれを軽減しますが、現在、ヒューリスティックを除いてまばらな下位エンコードを活用し、追加の計算コストを必要とします。
この作業では、統一された連続表現で訓練された表形式の拡散アーキテクチャであるTabrepを提示することにより、後者に対処します。
表現の設計を動機付けるために、データマニホールドが拡散モデルにどのように影響するかについての幾何学的な洞察を提供します。
私たちの表現の重要な属性は、その密度、名目上の特徴に十分な分離性を提供する柔軟性、および固有の関係を維持する能力で構成されています。
最終的に、Tabrepは、連続データマニホールドの下で表形式拡散モデルをトレーニングするためのシンプルで効果的なアプローチを提供します。
私たちの結果は、Tabrepが幅広い評価スイートで優れたパフォーマンスを達成することを示しています。
プライバシーを維持し、計算上効率を残している間、元のデータセットの下流の品質を超える表形式データを合成する最初のものです。

要約(オリジナル)

Diffusion models have been the predominant generative model for tabular data generation. However, they face the conundrum of modeling under a separate versus a unified data representation. The former encounters the challenge of jointly modeling all multi-modal distributions of tabular data in one model. While the latter alleviates this by learning a single representation for all features, it currently leverages sparse suboptimal encoding heuristics and necessitates additional computation costs. In this work, we address the latter by presenting TabRep, a tabular diffusion architecture trained with a unified continuous representation. To motivate the design of our representation, we provide geometric insights into how the data manifold affects diffusion models. The key attributes of our representation are composed of its density, flexibility to provide ample separability for nominal features, and ability to preserve intrinsic relationships. Ultimately, TabRep provides a simple yet effective approach for training tabular diffusion models under a continuous data manifold. Our results showcase that TabRep achieves superior performance across a broad suite of evaluations. It is the first to synthesize tabular data that exceeds the downstream quality of the original datasets while preserving privacy and remaining computationally efficient.

arxiv情報

著者 Jacob Si,Zijing Ou,Mike Qu,Zhengrui Xiang,Yingzhen Li
発行日 2025-04-09 15:38:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | TabRep: a Simple and Effective Continuous Representation for Training Tabular Diffusion Models はコメントを受け付けていません

Privacy Attacks on Image AutoRegressive Models

要約

画像の自己回帰生成は、画像の自己回帰モデル(IAR)が画像品質(FID:1.48対1.58)の最先端の拡散モデル(DMS)と一致しながら、より高い世代速度を可能にし、強力な新しいパラダイムとして浮上しています。
ただし、IARに関連するプライバシーのリスクは未開拓のままであり、責任ある展開について懸念を引き起こします。
このギャップに対処するために、IARの包括的なプライバシー分析を実施し、プライバシーリスクを基準点としてDMSのリスクと比較します。
具体的には、トレーニング画像の検出で非常に高い成功率を達成する新しいメンバーシップ推論攻撃(MIA)を開発します。これは、同等の攻撃を使用したDMSのわずか6.38%に対して、偽陽性率= 1%(TPR@fpr = 1%)で86.38%の真の陽性率であります。
新しいMIAを活用して、IARに対してデータセット推論(DI)を実行し、DMSのDIの200のサンプルと比較して、データセットメンバーシップを検出するためにわずか6つのサンプルが必要であることを示しています。
これにより、IARのより高いレベルの情報漏れが確認されます。
最後に、IARから何百ものトレーニングデータポイントを抽出することができます(例:Var-D30から698)。
我々の結果は、基本的なプライバシーと有効性のトレードオフを示唆しています。IARSは画像生成の品質と速度に優れていますが、同様のパフォーマンスを達成するDMと比較して、プライバシー攻撃に対して経験的に脆弱です。
この傾向は、拡散手順を使用してトークンあたりの確率分布をモデル化するなど、DMSからの技術をIARに組み込むことが、プライバシー攻撃に対するIARの脆弱性を軽減するのに役立つ可能性があることを示唆しています。
https://github.com/sprintml/privacy_attacks_against_iarsでコードを利用できるようにします

要約(オリジナル)

Image autoregressive generation has emerged as a powerful new paradigm, with image autoregressive models (IARs) matching state-of-the-art diffusion models (DMs) in image quality (FID: 1.48 vs. 1.58) while allowing for higher generation speed. However, the privacy risks associated with IARs remain unexplored, raising concerns about their responsible deployment. To address this gap, we conduct a comprehensive privacy analysis of IARs, comparing their privacy risks to those of DMs as a reference point. Specifically, we develop a novel membership inference attack (MIA) that achieves a remarkably high success rate in detecting training images, with a True Positive Rate at False Positive Rate = 1% (TPR@FPR=1%) of 86.38%, compared to just 6.38% for DMs using comparable attacks. We leverage our novel MIA to perform dataset inference (DI) for IARs and show that it requires as few as 6 samples to detect dataset membership, compared to 200 samples for DI in DMs. This confirms a higher level of information leakage in IARs. Finally, we are able to extract hundreds of training data points from an IAR (e.g., 698 from VAR-d30). Our results suggest a fundamental privacy-utility trade-off: while IARs excel in image generation quality and speed, they are empirically significantly more vulnerable to privacy attacks compared to DMs that achieve similar performance. This trend suggests that incorporating techniques from DMs into IARs, such as modeling the per-token probability distribution using a diffusion procedure, could help mitigate IARs’ vulnerability to privacy attacks. We make our code available at: https://github.com/sprintml/privacy_attacks_against_iars

arxiv情報

著者 Antoni Kowalczuk,Jan Dubiński,Franziska Boenisch,Adam Dziedzic
発行日 2025-04-09 08:33:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Privacy Attacks on Image AutoRegressive Models はコメントを受け付けていません

Robo-taxi Fleet Coordination at Scale via Reinforcement Learning

要約

一般的に自律的なモビリティオンデマンド(AMOD)システムとして知られているオンデマンド輸送サービスを提供するロボ税の艦隊は、汚染、エネルギー消費、都市の混雑の削減など、社会的利益に大きな約束を抱えています。
ただし、これらのシステムを大規模に調整することは重要な課題であり、既存の調整アルゴリズムがシステムの最大限の可能性を活用できないことが多いためです。
この作業では、数学的モデリングをデータ駆動型の手法と統合する新しい意思決定フレームワークを紹介します。
特に、強化学習のレンズを通じてAMOD調整の問題を提示し、グラフ表現学習、強化学習、および古典的な運用研究ツールの主な強みを活用するグラフネットワークベースのフレームワークを提案します。
多様なシミュレーションの忠実度とシナリオ全体の広範な評価は、アプローチの柔軟性を示しており、以前の方法と比較して優れたシステムパフォーマンス、計算効率、および一般化可能性を実現します。
最後に、この分野での研究努力を民主化する必要性に動機付けられ、アクセス可能なシミュレーションプラットフォームを提供し、方法論を比較するための標準化された検証プロセスを確立するように設計されたオープンソースコードベースとともに、ネットワークレベルの調整のための公開されたベンチマーク、データセット、およびシミュレーターをリリースします。
https://github.com/stanfordasl/rl4amodで利用可能なコード

要約(オリジナル)

Fleets of robo-taxis offering on-demand transportation services, commonly known as Autonomous Mobility-on-Demand (AMoD) systems, hold significant promise for societal benefits, such as reducing pollution, energy consumption, and urban congestion. However, orchestrating these systems at scale remains a critical challenge, with existing coordination algorithms often failing to exploit the systems’ full potential. This work introduces a novel decision-making framework that unites mathematical modeling with data-driven techniques. In particular, we present the AMoD coordination problem through the lens of reinforcement learning and propose a graph network-based framework that exploits the main strengths of graph representation learning, reinforcement learning, and classical operations research tools. Extensive evaluations across diverse simulation fidelities and scenarios demonstrate the flexibility of our approach, achieving superior system performance, computational efficiency, and generalizability compared to prior methods. Finally, motivated by the need to democratize research efforts in this area, we release publicly available benchmarks, datasets, and simulators for network-level coordination alongside an open-source codebase designed to provide accessible simulation platforms and establish a standardized validation process for comparing methodologies. Code available at: https://github.com/StanfordASL/RL4AMOD

arxiv情報

著者 Luigi Tresca,Carolin Schmidt,James Harrison,Filipe Rodrigues,Gioele Zardini,Daniele Gammelli,Marco Pavone
発行日 2025-04-09 07:54:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY | Robo-taxi Fleet Coordination at Scale via Reinforcement Learning はコメントを受け付けていません

Confidence Regularized Masked Language Modeling using Text Length

要約

マスクされた言語モデリングは、言語表現を学習するために広く使用されている方法であり、モデルは各入力でランダムにマスクされた単語を予測します。
ただし、このアプローチは通常、トレーニング中に単一の正解のみを考慮し、人間が選択する可能性のあるさまざまなもっともらしい代替案を無視します。
この問題は、入力テキストが短い場合により顕著になります。単語分布の可能性が高いエントロピーを持つ傾向があり、モデルが予測で過剰に自信になる可能性があるためです。
これを緩和するために、入力長に基づいて正規化強度を適応的に調整する新しい自信の正規者を提案します。
接着剤と分隊のベンチマークでの実験は、私たちの方法が精度と予想されるキャリブレーションエラーの両方を改善することを示しています

要約(オリジナル)

Masked language modeling is a widely used method for learning language representations, where the model predicts a randomly masked word in each input. However, this approach typically considers only a single correct answer during training, ignoring the variety of plausible alternatives that humans might choose. This issue becomes more pronounced when the input text is short, as the possible word distribution tends to have higher entropy, potentially causing the model to become overconfident in its predictions. To mitigate this, we propose a novel confidence regularizer that adaptively adjusts the regularization strength based on the input length. Experiments on the GLUE and SQuAD benchmarks show that our method improves both accuracy and expected calibration error

arxiv情報

著者 Seunghyun Ji,Soowon Lee
発行日 2025-04-09 02:32:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Confidence Regularized Masked Language Modeling using Text Length はコメントを受け付けていません

Leanabell-Prover: Posttraining Scaling in Formal Reasoning

要約

LLMSを通じて自動化された定理証明(ATP)の最近の進歩は、LEAN 4コードを使用した正式な推論の可能性を強調しています。
ただし、ATPは、Open AI O1/O3およびDeepSeek R1によって実証されているように、最近のトレーニング後のスケーリングによってまだ革命されていません。
この作業では、ATPのポストトレーニング全体を調査し、自然言語の推論モデルのブレークスルーと整合することを目指しています。
まず、ハイブリッドデータセットを使用して現在のATPモデルを継続的に訓練します。これは、多数のステートメント防止ペアで構成され、人間の推論と仮説の改良をエミュレートする認知行動を組み込むことを目的とした追加データを継続的に訓練します。
次に、Lean 4 Compilerによって返された結果報酬を使用して、補強学習を検討します。
設計された継続的なトレーニングと強化学習プロセスを通じて、DeepSeek-Prover-V1.5とGoedel-Proverの両方を含む既存の正式なプロバーを成功裏に改善し、全装飾の分野で最先端のパフォーマンスを達成しました。
たとえば、MINIF2Fで59.8%の合格率(Pass@32)を達成します。
これは進行中のプロジェクトであり、調査結果を徐々に更新し、データとトレーニングの詳細を公開します。

要約(オリジナル)

Recent advances in automated theorem proving (ATP) through LLMs have highlighted the potential of formal reasoning with Lean 4 codes. However, ATP has not yet be revolutionized by the recent posttraining scaling as demonstrated by Open AI O1/O3 and Deepseek R1. In this work, we investigate the entire posttraining of ATP, aiming to align it with breakthroughs in reasoning models in natural languages. To begin, we continual train current ATP models with a hybrid dataset, which consists of numerous statement-proof pairs, and additional data aimed at incorporating cognitive behaviors that emulate human reasoning and hypothesis refinement. Next, we explore reinforcement learning with the use of outcome reward returned by Lean 4 compiler. Through our designed continual training and reinforcement learning processes, we have successfully improved existing formal provers, including both DeepSeek-Prover-v1.5 and Goedel-Prover, achieving state-of-the-art performance in the field of whole-proof generation. For example, we achieve a 59.8% pass rate (pass@32) on MiniF2F. This is an on-going project and we will progressively update our findings, release our data and training details.

arxiv情報

著者 Jingyuan Zhang,Qi Wang,Xingguang Ji,Yahui Liu,Yang Yue,Fuzheng Zhang,Di Zhang,Guorui Zhou,Kun Gai
発行日 2025-04-09 04:03:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Leanabell-Prover: Posttraining Scaling in Formal Reasoning はコメントを受け付けていません

Navigating the Rabbit Hole: Emergent Biases in LLM-Generated Attack Narratives Targeting Mental Health Groups

要約

大規模な言語モデル(LLM)は、特定のグループに対する不均衡なバイアスを示すことが示されています。
ただし、リスクのある集団に対するLLMによる挑発されていない標的攻撃の研究は、露出度が低いままです。
私たちの論文は、3つの新しい貢献を示しています。(1)高度に脆弱なメンタルヘルスグループに対するLLM生成攻撃の明示的な評価。
(2)相対バイアスの伝播を研究するためのネットワークベースのフレームワーク。
(3)これらの攻撃から生じるスティグマ化の相対的な程度の評価。
最近リリースされた大規模なバイアス監査データセットの分析により、メンタルヘルスエンティティは、攻撃の物語ネットワーク内の中心的な位置を占めることが明らかになりました。
スティグマ化理論の社会学的基盤から導き出して、私たちのスティグマ化分析は、生成チェーンの初期ターゲットと比較して、メンタルヘルス障害関連のターゲットの標識成分の増加を示しています。
まとめると、これらの洞察は、有害な言説を高め、緩和に適したアプローチの必要性を強調するために、大きな言語モデルの構造的偏見に光を当てています。

要約(オリジナル)

Large Language Models (LLMs) have been shown to demonstrate imbalanced biases against certain groups. However, the study of unprovoked targeted attacks by LLMs towards at-risk populations remains underexplored. Our paper presents three novel contributions: (1) the explicit evaluation of LLM-generated attacks on highly vulnerable mental health groups; (2) a network-based framework to study the propagation of relative biases; and (3) an assessment of the relative degree of stigmatization that emerges from these attacks. Our analysis of a recently released large-scale bias audit dataset reveals that mental health entities occupy central positions within attack narrative networks, as revealed by a significantly higher mean centrality of closeness (p-value = 4.06e-10) and dense clustering (Gini coefficient = 0.7). Drawing from sociological foundations of stigmatization theory, our stigmatization analysis indicates increased labeling components for mental health disorder-related targets relative to initial targets in generation chains. Taken together, these insights shed light on the structural predilections of large language models to heighten harmful discourse and highlight the need for suitable approaches for mitigation.

arxiv情報

著者 Rijul Magu,Arka Dutta,Sean Kim,Ashiqur R. KhudaBukhsh,Munmun De Choudhury
発行日 2025-04-09 04:24:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG, cs.SI, J.4 | Navigating the Rabbit Hole: Emergent Biases in LLM-Generated Attack Narratives Targeting Mental Health Groups はコメントを受け付けていません

Earth-Adapter: Bridge the Geospatial Domain Gaps with Mixture of Frequency Adaptation

要約

パラメーター効率の高い微調整(PEFT)は、固有の機能を維持および解き放ちながら、強力な基礎モデル(FMS)を多様なダウンストリームタスクに適応させることができる手法です。
ただし、自然な画像を念頭に置いて設計されていることが多い既存のPEFTメソッドは、リモートセンシング(RS)シナリオに適用すると闘うことがあることが観察されています。
これは主に、アーティファクトの影響を処理できないためです。これは、RS画像機能で特に深刻な問題です。
この課題に取り組むために、RSアーティファクト征服用に特別に設計された最初のPEFTメソッドであるEarth-Adapterを紹介します。
Earth-Adapterは、アダプター(MOA)の混合と離散フーリエ変換(DFT)を組み合わせた周波数適応プロセスの新しい混合物を導入します。
DFTを利用することにより、アースアダプターは機能を異なる周波数コンポーネントに分解し、アーティファクトを元の機能から正確に分離できます。
その後、MOAは各アダプターの専門家に重みを動的に割り当て、さまざまな周波数ドメインにわたって機能の組み合わせを可能にします。
これらのシンプルな効果的なアプローチにより、アースアダプターは以前のPEFTメソッドよりもアーティファクトによって引き起こされる乱れをより効率的に克服でき、RSシナリオでのFMSのパフォーマンスを大幅に向上させることができます。
ドメイン適応(DA)およびドメイン一般化(DG)セマンティックセグメンテーションベンチマークに関する実験は、地球適用性の有効性を紹介します。
ベースラインREINと比較して、アースアダプターはDAで9.0%MIOU、DGベンチマークで3.1%MIOUを大幅に改善します。
コードはhttps://github.com/visionxlab/earth-adapterでリリースされます。

要約(オリジナル)

Parameter-Efficient Fine-Tuning (PEFT) is a technique that allows us to adapt powerful Foundation Models (FMs) to diverse downstream tasks while preserving and unleashing their inherent capabilities. However, we have observed that existing PEFT methods, which are often designed with natural imagery in mind, struggle when applied to Remote Sensing (RS) scenarios. This is primarily due to their inability to handle artifact influences, a problem particularly severe in RS image features. To tackle this challenge, we introduce Earth-Adapter, the first PEFT method specifically designed for RS artifacts conquering. Earth-Adapter introduces a novel Mixture of Frequency Adaptation process that combines a Mixture of Adapter (MoA) with Discrete Fourier Transformation (DFT). By utilizing DFT, Earth-Adapter can decompose features into different frequency components, precisely separating artifacts from original features. The MoA then dynamically assigns weights to each adapter expert, allowing for the combination of features across various frequency domains. These simple-yet-effective approaches enable Earth-Adapter to more efficiently overcome the disturbances caused by artifacts than previous PEFT methods, significantly enhancing the FMs’ performance on RS scenarios. Experiments on Domain Adaptation (DA), and Domain Generalization (DG) semantic segmentation benchmarks showcase the Earth-Adapter’s effectiveness. Compared with baseline Rein, Earth-Adapter significantly improves 9.0% mIoU in DA and 3.1% mIoU in DG benchmarks. Our code will be released at https://github.com/VisionXLab/Earth-Adapter.

arxiv情報

著者 Xiaoxing Hu,Ziyang Gong,Yupei Wang,Yuru Jia,Gen Luo,Xue Yang
発行日 2025-04-09 07:36:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Earth-Adapter: Bridge the Geospatial Domain Gaps with Mixture of Frequency Adaptation はコメントを受け付けていません

DuoSpaceNet: Leveraging Both Bird’s-Eye-View and Perspective View Representations for 3D Object Detection

要約

マルチビューカメラのみの3Dオブジェクトの検出は、主に2つの主要なパラダイムに従っています。鳥瞰図(BEV)表現を利用するか、それぞれに明確な利点があるパースペクティブビュー(PV)機能に焦点を当てています。
いくつかの最近のアプローチでは、BEVとPVを組み合わせて検討していますが、多くは部分的な融合に依存しているか、別々の検出ヘッドを維持しています。
この論文では、包括的な3D認識のために単一の検出パイプライン内のBEVおよびPV機能スペースを完全に統合する新しいフレームワークであるDuospaceNetを提案します。
当社の設計には、BEVとPV機能を統合された検出クエリに統合するデコーダーと、さまざまな機能表現を濃縮する機能強化戦略が含まれています。
さらに、Duospacenetを拡張してマルチフレーム入力を処理し、より堅牢な時間分析を可能にします。
Nuscenes Datasetでの広範な実験は、Duospacenetが3Dオブジェクト検出およびBEVマップセグメンテーションにおけるBEVベースのベースライン(例:Bevformer)とPVベースのベースライン(例:Sparse4D)の両方を上回り、提案された設計の有効性を検証することを示しています。

要約(オリジナル)

Multi-view camera-only 3D object detection largely follows two primary paradigms: exploiting bird’s-eye-view (BEV) representations or focusing on perspective-view (PV) features, each with distinct advantages. Although several recent approaches explore combining BEV and PV, many rely on partial fusion or maintain separate detection heads. In this paper, we propose DuoSpaceNet, a novel framework that fully unifies BEV and PV feature spaces within a single detection pipeline for comprehensive 3D perception. Our design includes a decoder to integrate BEV and PV features into unified detection queries, as well as a feature enhancement strategy that enriches different feature representations. In addition, DuoSpaceNet can be extended to handle multi-frame inputs, enabling more robust temporal analysis. Extensive experiments on nuScenes dataset show that DuoSpaceNet surpasses both BEV-based baselines (e.g., BEVFormer) and PV-based baselines (e.g., Sparse4D) in 3D object detection and BEV map segmentation, verifying the effectiveness of our proposed design.

arxiv情報

著者 Zhe Huang,Yizhe Zhao,Hao Xiao,Chenyan Wu,Lingting Ge
発行日 2025-04-07 18:00:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | DuoSpaceNet: Leveraging Both Bird’s-Eye-View and Perspective View Representations for 3D Object Detection はコメントを受け付けていません

TRATSS: Transformer-Based Task Scheduling System for Autonomous Vehicles

要約

効率的なスケジューリングは依然としてさまざまなドメインで重要な課題であり、最適なリソース割り当てを達成し、生産性を最大化するために、複雑なNPハード最適化問題に対するソリューションが必要です。
このペーパーでは、グラフベースの環境での単一エージェントスケジューリングの複雑さに対処するために設計された、トランスベースのタスクスケジューリングシステム(TRATS)というフレームワークを紹介します。
補強学習と変圧器アーキテクチャの最新の進歩を統合することにより、Tratssは、進化するタスク要件とリソースの可用性に動的に適応しながら、最適化されたタスクスケジューリングの決定を出力する新しいシステムを提供します。
トランスの自己関節メカニズムを活用して、TRATSSは複雑なタスク依存関係を効果的にキャプチャし、それにより、リソースの利用とタスクの完了効率が強化されたソリューションを提供します。
ベンチマークデータセットでの実験的評価は、複数のアクションプロファイルを含むスケジューリング問題に対する高品質のソリューションを提供する際のTRATSSの有効性を示しています。

要約(オリジナル)

Efficient scheduling remains a critical challenge in various domains, requiring solutions to complex NP-hard optimization problems to achieve optimal resource allocation and maximize productivity. In this paper, we introduce a framework called Transformer-Based Task Scheduling System (TRATSS), designed to address the intricacies of single agent scheduling in graph-based environments. By integrating the latest advancements in reinforcement learning and transformer architecture, TRATSS provides a novel system that outputs optimized task scheduling decisions while dynamically adapting to evolving task requirements and resource availability. Leveraging the self-attention mechanism in transformers, TRATSS effectively captures complex task dependencies, thereby providing solutions with enhanced resource utilization and task completion efficiency. Experimental evaluations on benchmark datasets demonstrate TRATSS’s effectiveness in providing high-quality solutions to scheduling problems that involve multiple action profiles.

arxiv情報

著者 Yazan Youssef,Paulo Ricardo Marques de Araujo,Aboelmagd Noureldin,Sidney Givigi
発行日 2025-04-07 18:23:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | TRATSS: Transformer-Based Task Scheduling System for Autonomous Vehicles はコメントを受け付けていません