Para-Lane: Multi-Lane Dataset Registering Parallel Scans for Benchmarking Novel View Synthesis

要約

エンドツーエンドの自律駆動システムを評価するには、特に架空のシナリオで、以前に記録されたシーケンスの写真と現実的な画像とポイントクラウドを合成する、新しいビュー合成(NVS)技術に基づくシミュレーション環境が不可欠です。

したがって、マルチレーンデータセットとベンチマークの開発が必要です。
最近の合成シーンベースのNVSデータセットは、クロスレーンベンチマークのために準備されていますが、キャプチャされた画像とポイントクラウドのリアリズムがまだ欠けています。
NERFと3DGSに基づいた既存のメソッドのパフォーマンスをさらに評価するために、16,000のフロントシーケンスを含む25のグループの関連するシーケンスを含む25のグループのグループを含む、実世界のスキャンから派生した新しい運転ビュー合成データセットのために特に並列スキャンを登録する最初のマルチレーンデータセットを登録する最初のマルチレーンデータセットを紹介します。
画像、64,000のサラウンドビュー画像、および16,000のライダーフレームを表示します。
すべてのフレームには、移動するオブジェクトを静的要素から区別するためにラベルが付けられています。
このデータセットを使用して、さまざまなレーンと距離でさまざまなテストシナリオで既存のアプローチのパフォーマンスを評価します。
さらに、この方法は、現実世界でこのようなデータセットをキュレーションするためのマルチモーダルデータアライメントのマルチセンサーポーズの品質を解決および評価するためのソリューションを提供します。
さまざまなシナリオで既存のメソッドの一般化をテストするために、新しいシーケンスを継続的に追加する予定です。
データセットは、プロジェクトページhttps://nizqleo.github.io/paralane-dataset/で公開されています。

要約(オリジナル)

To evaluate end-to-end autonomous driving systems, a simulation environment based on Novel View Synthesis (NVS) techniques is essential, which synthesizes photo-realistic images and point clouds from previously recorded sequences under new vehicle poses, particularly in cross-lane scenarios. Therefore, the development of a multi-lane dataset and benchmark is necessary. While recent synthetic scene-based NVS datasets have been prepared for cross-lane benchmarking, they still lack the realism of captured images and point clouds. To further assess the performance of existing methods based on NeRF and 3DGS, we present the first multi-lane dataset registering parallel scans specifically for novel driving view synthesis dataset derived from real-world scans, comprising 25 groups of associated sequences, including 16,000 front-view images, 64,000 surround-view images, and 16,000 LiDAR frames. All frames are labeled to differentiate moving objects from static elements. Using this dataset, we evaluate the performance of existing approaches in various testing scenarios at different lanes and distances. Additionally, our method provides the solution for solving and assessing the quality of multi-sensor poses for multi-modal data alignment for curating such a dataset in real-world. We plan to continually add new sequences to test the generalization of existing methods across different scenarios. The dataset is released publicly at the project page: https://nizqleo.github.io/paralane-dataset/.

arxiv情報

著者 Ziqian Ni,Sicong Du,Zhenghua Hou,Chenming Wu,Sheng Yang
発行日 2025-02-21 18:03:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Para-Lane: Multi-Lane Dataset Registering Parallel Scans for Benchmarking Novel View Synthesis はコメントを受け付けていません

Logit Disagreement: OoD Detection with Bayesian Neural Networks

要約

モデルパラメーターに対する完全な後部分布を推定するベイジアンニューラルネットワーク(BNN)は、不確実性の定量化における役割と、分散除外検出(OOD)におけるその有望な応用でよく知られています。
他の不確実性測定の中でも、BNNは、相互情報の合計と予想されるエントロピーの合計として分解できる予測エントロピー(完全な不確実性)の最先端の推定を提供します。
OOD検出のコンテキストでは、予測エントロピースコアの形式での予測不確実性の推定は、同性愛および認識論の不確実性を混乱させ、後者はOODポイントの高いと仮定されています。
これらの正当化にもかかわらず、相互情報スコアは、予測エントロピーよりも悪いパフォーマンスを発揮することが示されています。
ベイジアンバリエーションオートエンコーダー(BVAE)の文献からインスピレーションを得て、この作業は、平均フィールド変動推論下でのベイジアンNNの認識論的不確実性の推定として、ロジットと呼ばれている、修正されたバージョン(ロジッツとも呼ばれます)の不一致を測定することを提案しています。
提案されている3つの認識論的不確実性スコアは、さまざまなOOD実験に関する相互情報よりも顕著な改善を示しています。
さらに、認識論的不確実性スコアは、さまざまなMNISTおよびCIFAR10実験のベイジアンベンチマーク予測エントロピーと同等の機能で機能します。

要約(オリジナル)

Bayesian neural networks (BNNs), which estimate the full posterior distribution over model parameters, are well-known for their role in uncertainty quantification and its promising application in out-of-distribution detection (OoD). Amongst other uncertainty measures, BNNs provide a state-of-the art estimation of predictive entropy (total uncertainty) which can be decomposed as the sum of mutual information and expected entropy. In the context of OoD detection the estimation of predictive uncertainty in the form of the predictive entropy score confounds aleatoric and epistemic uncertainty, the latter being hypothesized to be high for OoD points. Despite these justifications, the mutual information score has been shown to perform worse than predictive entropy. Taking inspiration from Bayesian variational autoencoder (BVAE) literature, this work proposes to measure the disagreement between a corrected version of the pre-softmax quantities, otherwise known as logits, as an estimate of epistemic uncertainty for Bayesian NNs under mean field variational inference. The three proposed epistemic uncertainty scores demonstrate marked improvements over mutual information on a range of OoD experiments, with equal performance otherwise. Moreover, the epistemic uncertainty scores perform on par with the Bayesian benchmark predictive entropy on a range of MNIST and CIFAR10 experiments.

arxiv情報

著者 Kevin Raina
発行日 2025-02-21 18:15:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML | Logit Disagreement: OoD Detection with Bayesian Neural Networks はコメントを受け付けていません

VaViM and VaVAM: Autonomous Driving through Video Generative Modeling

要約

自動運転のための大規模な生成ビデオモデルの可能性を探り、オープンソースの自動回帰ビデオモデル(Vavim)とそのコンパニオンビデオアクションモデル(Vavam)を導入して、ビデオの事前トレーニングが実際の世界に転送する方法を調査します。
運転。
Vavimは、時空間トークンシーケンスを使用してフレームを予測する単純な自動再帰ビデオモデルです。
運転シーンのセマンティクスとダイナミクスをキャプチャすることを示します。
ビデオアクションモデルであるVavamは、Vavimの学んだ表現を活用して、模倣学習を通じて駆動軌道を生成します。
一緒に、モデルは完全な知覚から行動へのパイプラインを形成します。
オープンループおよび閉ループの運転シナリオでモデルを評価し、ビデオベースのプリトレーニングが自律運転の約束を保持していることを明らかにしています。
重要な洞察には、学習した表現の意味的な豊かさ、ビデオ統合のためのスケーリングの利点、閉ループ評価におけるモデルサイズ、データ、および安全性指標の複雑な関係が含まれます。
https://github.com/valeoai/videoactionModelでコードとモデルの重みをリリースします

要約(オリジナル)

We explore the potential of large-scale generative video models for autonomous driving, introducing an open-source auto-regressive video model (VaViM) and its companion video-action model (VaVAM) to investigate how video pre-training transfers to real-world driving. VaViM is a simple auto-regressive video model that predicts frames using spatio-temporal token sequences. We show that it captures the semantics and dynamics of driving scenes. VaVAM, the video-action model, leverages the learned representations of VaViM to generate driving trajectories through imitation learning. Together, the models form a complete perception-to-action pipeline. We evaluate our models in open- and closed-loop driving scenarios, revealing that video-based pre-training holds promise for autonomous driving. Key insights include the semantic richness of the learned representations, the benefits of scaling for video synthesis, and the complex relationship between model size, data, and safety metrics in closed-loop evaluations. We release code and model weights at https://github.com/valeoai/VideoActionModel

arxiv情報

著者 Florent Bartoccioni,Elias Ramzi,Victor Besnier,Shashanka Venkataramanan,Tuan-Hung Vu,Yihong Xu,Loick Chambon,Spyros Gidaris,Serkan Odabas,David Hurych,Renaud Marlet,Alexandre Boulch,Mickael Chen,Éloi Zablocki,Andrei Bursuc,Eduardo Valle,Matthieu Cord
発行日 2025-02-21 18:56:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | VaViM and VaVAM: Autonomous Driving through Video Generative Modeling はコメントを受け付けていません

BOSS: Benchmark for Observation Space Shift in Long-Horizon Task

要約

ロボット工学は、以前は目に見えなかった長距離タスクを完了することができる視覚的なサービスロボットを開発することを長い間求めてきました。
階層的アプローチは、特定の模倣学習(IL)アルゴリズムを使用して事前に訓練された各視覚運動スキルを使用して、タスクプランナーによって配置されたスキルの組み合わせを実行することにより、この目標を達成するための経路を提供します。
ただし、スキルチェーンなどの単純な長距離タスクでさえ、階層的アプローチは、先行スキルの連続的な実行が観測空間のシフトを引き起こし、後続のパフォーマンスを混乱させる観測空間シフト(OSS)として識別する問題のために苦労することがよくあります。
個別に訓練されたスキルポリシー。
OSSを検証し、長老のタスクへの影響を評価するために、Boss(観測スペースシフトのベンチマーク)を紹介します。
ボスは、「単一の述語シフト」、「蓄積された述語シフト」、および「スキルチェーン」の3つの異なる課題で構成されており、それぞれがOSSのマイナス効果の異なる側面を評価するように設計されています。
3つの行動クローニング方法と視覚言語アクションモデルOpenVLAを含む、ボスに関する最近の人気のあるILアルゴリズムをいくつか評価しました。
最も単純な課題でさえ、スキルパフォーマンスをOSSと比較した場合、それぞれ67%、35%、34%、および54%の平均パフォーマンス低下が観察されました。
さらに、各スキルのトレーニングデータを大きく視覚的に多様なデモのセットで拡大するOSSの潜在的なソリューションを調査し、OSSを解決するには十分ではないことを示しています。
プロジェクトページは次のとおりです:https://boss-benchmark.github.io/

要約(オリジナル)

Robotics has long sought to develop visual-servoing robots capable of completing previously unseen long-horizon tasks. Hierarchical approaches offer a pathway for achieving this goal by executing skill combinations arranged by a task planner, with each visuomotor skill pre-trained using a specific imitation learning (IL) algorithm. However, even in simple long-horizon tasks like skill chaining, hierarchical approaches often struggle due to a problem we identify as Observation Space Shift (OSS), where the sequential execution of preceding skills causes shifts in the observation space, disrupting the performance of subsequent individually trained skill policies. To validate OSS and evaluate its impact on long-horizon tasks, we introduce BOSS (a Benchmark for Observation Space Shift). BOSS comprises three distinct challenges: ‘Single Predicate Shift’, ‘Accumulated Predicate Shift’, and ‘Skill Chaining’, each designed to assess a different aspect of OSS’s negative effect. We evaluated several recent popular IL algorithms on BOSS, including three Behavioral Cloning methods and the Visual Language Action model OpenVLA. Even on the simplest challenge, we observed average performance drops of 67%, 35%, 34%, and 54%, respectively, when comparing skill performance with and without OSS. Additionally, we investigate a potential solution to OSS that scales up the training data for each skill with a larger and more visually diverse set of demonstrations, with our results showing it is not sufficient to resolve OSS. The project page is: https://boss-benchmark.github.io/

arxiv情報

著者 Yue Yang,Linfeng Zhao,Mingyu Ding,Gedas Bertasius,Daniel Szafir
発行日 2025-02-21 18:58:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | BOSS: Benchmark for Observation Space Shift in Long-Horizon Task はコメントを受け付けていません

One-step Diffusion Models with $f$-Divergence Distribution Matching

要約

拡散モデルからのサンプリングには、特にインタラクティブなアプリケーションのための実際の展開を妨げる遅い反復プロセスが含まれます。
生成速度を加速するために、最近のアプローチでは、マルチステップ拡散モデルを単一ステップスコアジェネレーターに蒸留し、変分スコアの蒸留により、生成されたサンプルの分布と教師の分布に一致します。
ただし、これらのアプローチでは、モードを求めていることが知られている分布マッチングのために、逆カルバック – leibler(kl)発散を使用します。
このホワイトペーパーでは、モードカバレッジとトレーニングの差異に関して異なるトレードオフとの異なる相違をカバーする、$ f $ -distillと呼ばれる新しい$ f $ -divergence最小化フレームワークを使用して、分布マッチングアプローチを一般化します。
教師と生徒の分布の間の$ f $ divergenceの勾配を導き出し、スコアの違いの積と密度比で決定される重み関数として表されていることを示します。
この重み付け関数は、より少ないモードを求める発散を使用する場合、教師の分布の密度が高いサンプルを自然に強調します。
逆KLの発散を使用した一般的な変分スコア蒸留アプローチは、私たちのフレームワーク内の特別なケースであることを観察します。
経験的には、フォワードKLやジェンセンシャノンの発散などの代替$ f $ divergencesが、画像生成タスク全体で現在の最高の変動スコア蒸留方法を上回ることを実証します。
特に、Jensen-Shannon Divergenceを使用する場合、$ F $ -DISTILLは、MS-COCOで現在の最先端の1ステップ生成パフォーマンスとMS-CoCOでテキストからイメージまでゼロからイメージまでの生成を達成します。
プロジェクトページ:https://research.nvidia.com/labs/genair/f-distill

要約(オリジナル)

Sampling from diffusion models involves a slow iterative process that hinders their practical deployment, especially for interactive applications. To accelerate generation speed, recent approaches distill a multi-step diffusion model into a single-step student generator via variational score distillation, which matches the distribution of samples generated by the student to the teacher’s distribution. However, these approaches use the reverse Kullback-Leibler (KL) divergence for distribution matching which is known to be mode seeking. In this paper, we generalize the distribution matching approach using a novel $f$-divergence minimization framework, termed $f$-distill, that covers different divergences with different trade-offs in terms of mode coverage and training variance. We derive the gradient of the $f$-divergence between the teacher and student distributions and show that it is expressed as the product of their score differences and a weighting function determined by their density ratio. This weighting function naturally emphasizes samples with higher density in the teacher distribution, when using a less mode-seeking divergence. We observe that the popular variational score distillation approach using the reverse-KL divergence is a special case within our framework. Empirically, we demonstrate that alternative $f$-divergences, such as forward-KL and Jensen-Shannon divergences, outperform the current best variational score distillation methods across image generation tasks. In particular, when using Jensen-Shannon divergence, $f$-distill achieves current state-of-the-art one-step generation performance on ImageNet64 and zero-shot text-to-image generation on MS-COCO. Project page: https://research.nvidia.com/labs/genair/f-distill

arxiv情報

著者 Yilun Xu,Weili Nie,Arash Vahdat
発行日 2025-02-21 18:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | One-step Diffusion Models with $f$-Divergence Distribution Matching はコメントを受け付けていません

Sparse Voxels Rasterization: Real-time High-fidelity Radiance Field Rendering

要約

ニューラルネットワークや3Dガウスのない適応スパースボクセルにラスター化プロセスを組み込んだ効率的なラディアンスフィールドレンダリングアルゴリズムを提案します。
提案されたシステムと相まって、2つの重要な貢献があります。
1つ目は、シーン内でスパースボクセルをさまざまなレベルの詳細に適応的かつ明示的に割り当てることであり、シーンの詳細を65536^3 $のグリッド解像度で忠実に再現し、高いレンダリングフレームレートを達成します。
第二に、効率的な適応スパースボクセルレンダリングのためにラスターザーをカスタマイズします。
レイの方向依存性モートン順序を使用して、正しい深さの順序でボクセルをレンダリングします。これは、ガウスのスプラッティングに見られるよく知られているポップアーティファクトを回避します。
私たちの方法は、以前のニューラルフリーのボクセルモデルを4dBを超えるPSNRおよび10倍以上のスピードアップだけで改善し、最先端の同等の新規ビュー合成結果を達成します。
さらに、当社のボクセル表現は、ボリュームフュージョン、ボクセルプーリング、行進キューブなどのグリッドベースの3D処理技術とシームレスに互換性があり、幅広い将来の拡張とアプリケーションを可能にします。

要約(オリジナル)

We propose an efficient radiance field rendering algorithm that incorporates a rasterization process on adaptive sparse voxels without neural networks or 3D Gaussians. There are two key contributions coupled with the proposed system. The first is to adaptively and explicitly allocate sparse voxels to different levels of detail within scenes, faithfully reproducing scene details with $65536^3$ grid resolution while achieving high rendering frame rates. Second, we customize a rasterizer for efficient adaptive sparse voxels rendering. We render voxels in the correct depth order by using ray direction-dependent Morton ordering, which avoids the well-known popping artifact found in Gaussian splatting. Our method improves the previous neural-free voxel model by over 4db PSNR and more than 10x FPS speedup, achieving state-of-the-art comparable novel-view synthesis results. Additionally, our voxel representation is seamlessly compatible with grid-based 3D processing techniques such as Volume Fusion, Voxel Pooling, and Marching Cubes, enabling a wide range of future extensions and applications.

arxiv情報

著者 Cheng Sun,Jaesung Choe,Charles Loop,Wei-Chiu Ma,Yu-Chiang Frank Wang
発行日 2025-02-21 18:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Sparse Voxels Rasterization: Real-time High-fidelity Radiance Field Rendering はコメントを受け付けていません

ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval

要約

このペーパーの目的は、テキストから画像の検索のパフォーマンスを改善することです。
この目的のために、テキストからイメージへの再ランキングに使用できるように、大規模な事前訓練を受けたビジョン言語モデルのパフォーマンスを高めることができる新しいフレームワークを紹介します。
このアプローチである言語イメージの拡張前トレーニング(ELIP)は、テキストクエリを使用して、視覚プロンプトのセットを予測してVIT画像エンコードを条件付けます。
ELIPは、一般的に使用されるClip/Siglipおよび最先端のBlip-2アーキテクチャに簡単に適用できます。
限られたコンピューティングリソースでアーキテクチャをトレーニングするために、グローバルなハードサンプルマイニング、および大規模なデータセットの選択とキュレーションを含む「学生に優しい」ベストプラクティスを開発します。
評価面では、2つの新しい分散式ベンチマークであるオクルドココとイメージネットRを設定して、モデルの異なるドメインへのゼロショット一般化を評価しました。
新しいアーキテクチャとデータキュレーションの恩恵を受けると、実験は、強化されたネットワークがクリップ/シグリップのパフォーマンスを大幅に向上させ、テキストから画像の検索に関する最先端のBLIP-2モデルを上回ることを示しています。

要約(オリジナル)

The objective in this paper is to improve the performance of text-to-image retrieval. To this end, we introduce a new framework that can boost the performance of large-scale pre-trained vision-language models, so that they can be used for text-to-image re-ranking. The approach, Enhanced Language-Image Pre-training (ELIP), uses the text query to predict a set of visual prompts to condition the ViT image encoding. ELIP can easily be applied to the commonly used CLIP/SigLIP and the state-of-the-art BLIP-2 architectures. To train the architecture with limited computing resources, we develop a ‘student friendly’ best practice involving global hard sample mining, and selection and curation of a large-scale dataset. On the evaluation side, we set up two new out-of-distribution benchmarks, Occluded COCO and ImageNet-R, to assess the zero-shot generalisation of the models to different domains. Benefiting from the novel architecture and data curation, experiments show our enhanced network significantly boosts CLIP/SigLIP performance and outperforms the state-of-the-art BLIP-2 model on text-to-image retrieval.

arxiv情報

著者 Guanqi Zhan,Yuanpei Liu,Kai Han,Weidi Xie,Andrew Zisserman
発行日 2025-02-21 18:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval はコメントを受け付けていません

An Adversarial Analysis of Thompson Sampling for Full-information Online Learning: from Finite to Infinite Action Spaces

要約

専門家の空間ではなく、敵の将来の行動の空間で学習者の事前が定義されている場合、専門家のアドバイスを含む予測としても知られている完全なフィードバックの下で、オンライン学習のためのトンプソンサンプリングの分析を開発します。
後悔を示して、学習者が先験的に期待した後悔に加えて、過剰な後悔と呼ぶ前の堅実さ型の用語を期待しています。
古典的な有限のエクスペルの設定では、これは最適なレートを回復します。
潜在的に不均一な数の専門家を持つ設定での実践的なオンライン学習への最初のステップとして、ベイズの最適化文献で広く使用されていた特定のガウスプロセスでトンプソンのサンプリングが$ \ mathcal {o}(\)があることを示します。
beta \ sqrt {t \ log(1+ \ lambda)})$ \ beta $ boundedに対してレート
$ \ lambda $ -lipschitz敵。

要約(オリジナル)

We develop an analysis of Thompson sampling for online learning under full feedback – also known as prediction with expert advice – where the learner’s prior is defined over the space of an adversary’s future actions, rather than the space of experts. We show regret decomposes into regret the learner expected a priori, plus a prior-robustness-type term we call excess regret. In the classical finite-expert setting, this recovers optimal rates. As an initial step towards practical online learning in settings with a potentially-uncountably-infinite number of experts, we show that Thompson sampling with a certain Gaussian process prior widely-used in the Bayesian optimization literature has a $\mathcal{O}(\beta\sqrt{T\log(1+\lambda)})$ rate against a $\beta$-bounded $\lambda$-Lipschitz adversary.

arxiv情報

著者 Alexander Terenin,Jeffrey Negrea
発行日 2025-02-21 14:40:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, math.ST, stat.ML, stat.TH | An Adversarial Analysis of Thompson Sampling for Full-information Online Learning: from Finite to Infinite Action Spaces はコメントを受け付けていません

Data-Constrained Synthesis of Training Data for De-Identification

要約

臨床ドメインなどの多くの機密ドメインは、プライバシーリスクのために広く利用可能なデータセットを欠いています。
大規模な言語モデル(LLM)の生成能力の向上により、合成データセットは実行可能なパスを前進させました。
この研究では、臨床ドメインにLLMをドメインに適応させ、有能なエンコーダーベースのNERモデルを使用して個人を識別できる情報のために機械加算された合成臨床テキストを生成します。
合成コーパスは、合成NERモデルをトレーニングするために使用されます。
結果は、合成コーポラを使用したTraining NERモデルが予測パフォーマンスのわずかな低下のみが発生することを示しています。
このプロセスの限界は、スウェーデンとスペインの両方のデータを使用して、体系的なアブレーション研究で調査されています。
私たちの分析は、データ統合のためにLLMをドメインに適応させるのに小さなデータセットで十分であることを示しています。
代わりに、このプロセスの有効性は、元のデータを使用してトレーニングされた機械消費NERモデルのパフォーマンスをほぼ完全に条件としています。

要約(オリジナル)

Many sensitive domains — such as the clinical domain — lack widely available datasets due to privacy risks. The increasing generative capabilities of large language models (LLMs) have made synthetic datasets a viable path forward. In this study, we domain-adapt LLMs to the clinical domain and generate synthetic clinical texts that are machine-annotated with tags for personally identifiable information using capable encoder-based NER models. The synthetic corpora are then used to train synthetic NER models. The results show that training NER models using synthetic corpora incurs only a small drop in predictive performance. The limits of this process are investigated in a systematic ablation study — using both Swedish and Spanish data. Our analysis shows that smaller datasets can be sufficient for domain-adapting LLMs for data synthesis. Instead, the effectiveness of this process is almost entirely contingent on the performance of the machine-annotating NER models trained using the original data.

arxiv情報

著者 Thomas Vakili,Aron Henriksson,Hercules Dalianis
発行日 2025-02-21 16:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Data-Constrained Synthesis of Training Data for De-Identification はコメントを受け付けていません

AlphaMaze: Enhancing Large Language Models’ Spatial Intelligence via GRPO

要約

大規模な言語モデル(LLM)は、言語処理における印象的な能力を実証していますが、多くの場合、本物の視覚的空間推論を必要とするタスクに苦労しています。
このペーパーでは、ゼロナビゲーションの視覚的推論能力を標準LLMに装備するために設計された新しい2段階トレーニングフレームワークを紹介します。
まず、トークン化された迷路表現のキュレーションされたデータセットに監視された微調整(SFT)を活用して、段階的な動きのコマンドを予測するようモデルに教えます。
次に、グループ相対ポリシー最適化(GRPO)を適用します。これは、モデルのシーケンシャルな意思決定を改良し、緊急のチェーンオブサブの行動を促進するために、慎重に作成された報酬機能を備えたdeepseekr1で使用される手法です。
合成的に生成された迷路での実験結果は、ベースラインモデルが迷路のナビゲートに失敗する一方で、SFTトレーニングモデルは86%の精度を達成し、GRPOの微調整が精度を93%に増やすことを示しています。
定性的分析により、GRPOはより堅牢で自己保護された推論を促進し、言語モデルと視覚的な空間タスクのギャップを埋めるアプローチの可能性を強調しています。
これらの調査結果は、統合された視覚的および順次推論を必要とするロボット工学、自律ナビゲーション、およびその他のドメインにおけるアプリケーションに有望な意味を提供します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated impressive capabilities in language processing, yet they often struggle with tasks requiring genuine visual spatial reasoning. In this paper, we introduce a novel two-stage training framework designed to equip standard LLMs with visual reasoning abilities for maze navigation. First, we leverage Supervised Fine Tuning (SFT) on a curated dataset of tokenized maze representations to teach the model to predict step-by-step movement commands. Next, we apply Group Relative Policy Optimization (GRPO)-a technique used in DeepSeekR1-with a carefully crafted reward function to refine the model’s sequential decision-making and encourage emergent chain-of-thought behaviors. Experimental results on synthetically generated mazes show that while a baseline model fails to navigate the maze, the SFT-trained model achieves 86% accuracy, and further GRPO fine-tuning boosts accuracy to 93%. Qualitative analyses reveal that GRPO fosters more robust and self-corrective reasoning, highlighting the potential of our approach to bridge the gap between language models and visual spatial tasks. These findings offer promising implications for applications in robotics, autonomous navigation, and other domains that require integrated visual and sequential reasoning.

arxiv情報

著者 Alan Dao,Dinh Bach Vu
発行日 2025-02-21 10:27:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | AlphaMaze: Enhancing Large Language Models’ Spatial Intelligence via GRPO はコメントを受け付けていません