RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

要約

既存のエンドツーエンドの自律運転(AD)アルゴリズムは通常、模倣学習(IL)パラダイムに従います。これは、因果的混乱やオープンループギャップなどの課題に直面しています。
この作業では、3DGSベースの閉ループ補強学習(RL)トレーニングパラダイムを確立します。
3DGSテクニックを活用することにより、実際の物理的世界のフォトリアリックなデジタルレプリカを構築し、ADポリシーが国家空間を広範囲に探索し、大規模な試行とエラーを通じて分散シナリオを処理することを学ぶことができます。
安全性を高めるために、安全性が批判的なイベントに効果的に対応し、現実世界の因果関係を理解するためのポリシーを導く専門の報酬を設計します。
人間の運転行動とのより良い整合のために、ILは正規化項としてRLトレーニングに組み込まれます。
多様で、以前は見えなかった3DGS環境で構成される閉ループ評価ベンチマークを紹介します。
ILベースの方法と比較して、RADはほとんどの閉ループメトリック、特に3倍低い衝突率でより強力なパフォーマンスを達成します。
豊富な閉ループの結果は、https://hgao-cv.github.io/radに表示されます。

要約(オリジナル)

Existing end-to-end autonomous driving (AD) algorithms typically follow the Imitation Learning (IL) paradigm, which faces challenges such as causal confusion and the open-loop gap. In this work, we establish a 3DGS-based closed-loop Reinforcement Learning (RL) training paradigm. By leveraging 3DGS techniques, we construct a photorealistic digital replica of the real physical world, enabling the AD policy to extensively explore the state space and learn to handle out-of-distribution scenarios through large-scale trial and error. To enhance safety, we design specialized rewards that guide the policy to effectively respond to safety-critical events and understand real-world causal relationships. For better alignment with human driving behavior, IL is incorporated into RL training as a regularization term. We introduce a closed-loop evaluation benchmark consisting of diverse, previously unseen 3DGS environments. Compared to IL-based methods, RAD achieves stronger performance in most closed-loop metrics, especially 3x lower collision rate. Abundant closed-loop results are presented at https://hgao-cv.github.io/RAD.

arxiv情報

著者 Hao Gao,Shaoyu Chen,Bo Jiang,Bencheng Liao,Yiang Shi,Xiaoyang Guo,Yuechuan Pu,Haoran Yin,Xiangyu Li,Xinbang Zhang,Ying Zhang,Wenyu Liu,Qian Zhang,Xinggang Wang
発行日 2025-02-18 18:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning はコメントを受け付けていません

Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization

要約

大型ビジョン言語モデル(VLMS)の出現により、視覚的モダリティを統合することにより、シングルモーダルの大手言語モデル(LLM)の範囲と機能が拡大し、さまざまな現実世界のシナリオで変換されるクロスモーダルアプリケーションを解き放ちました。
彼らの印象的なパフォーマンスにもかかわらず、VLMは、特にクロスモーダルの矛盾の形で、重要な幻覚を起こしやすいです。
LLMSの調整における人間のフィードバック(RLHF)からの強化学習の成功に基づいて、最近の進歩は、これらの問題を軽減するために慎重にキュレーションされたデータセットに直接優先最適化(DPO)を適用することに焦点を当てています。
しかし、そのようなアプローチは通常、視覚式信号をブルートフォースで導入し、アラインメントプロセスにおける視覚情報の重要な役割を無視します。
このホワイトペーパーでは、画像検索を活用してデュアルプレーファレンスデータセットを構築する新しいアライメントフレームワークであるReAlignを紹介し、テキストと視覚の両方の嗜好信号を効果的に組み込んでいます。
さらに、微調整中に追加の視覚選好目標を組み込んだ標準の直接優先最適化の拡張であるRDPOを紹介します。
私たちの実験結果は、再調整が以前の方法よりも効果的に幻覚を軽減するだけでなく、一般的な視覚的質問(VQA)タスクで大幅なパフォーマンスの向上をもたらすことを示しています。
さらに、幅広いVLMサイズとアーキテクチャにわたって再整合が堅牢性とスケーラビリティを維持することを示します。
この作業は、マルチモーダルLLMSを調整する際の重要な前進を表し、より信頼性が高く効果的なクロスモーダルアプリケーションへの道を開きます。
すべてのコードをhttps://github.com/taco-group/re-alignでリリースします。

要約(オリジナル)

The emergence of large Vision Language Models (VLMs) has broadened the scope and capabilities of single-modal Large Language Models (LLMs) by integrating visual modalities, thereby unlocking transformative cross-modal applications in a variety of real-world scenarios. Despite their impressive performance, VLMs are prone to significant hallucinations, particularly in the form of cross-modal inconsistencies. Building on the success of Reinforcement Learning from Human Feedback (RLHF) in aligning LLMs, recent advancements have focused on applying direct preference optimization (DPO) on carefully curated datasets to mitigate these issues. Yet, such approaches typically introduce preference signals in a brute-force manner, neglecting the crucial role of visual information in the alignment process. In this paper, we introduce Re-Align, a novel alignment framework that leverages image retrieval to construct a dual-preference dataset, effectively incorporating both textual and visual preference signals. We further introduce rDPO, an extension of the standard direct preference optimization that incorporates an additional visual preference objective during fine-tuning. Our experimental results demonstrate that Re-Align not only mitigates hallucinations more effectively than previous methods but also yields significant performance gains in general visual question-answering (VQA) tasks. Moreover, we show that Re-Align maintains robustness and scalability across a wide range of VLM sizes and architectures. This work represents a significant step forward in aligning multimodal LLMs, paving the way for more reliable and effective cross-modal applications. We release all the code in https://github.com/taco-group/Re-Align.

arxiv情報

著者 Shuo Xing,Yuping Wang,Peiran Li,Ruizheng Bai,Yueqi Wang,Chengxuan Qian,Huaxiu Yao,Zhengzhong Tu
発行日 2025-02-18 18:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization はコメントを受け付けていません

Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation

要約

最近のマルチモーダル大手言語モデル(MLLM)は驚くべきパフォーマンスを達成しましたが、2次計算の複雑さ、キー価値のキャッシュ要件の増加、および個別のビジョンエンコーダーへの依存により、展開の課題に直面しています。
中程度のアカデミック計算リソースを使用して、既存のMLLMからの進行性蒸留により、線形複数のネイティブマルチモーダル状態空間モデルを開発するためのフレームワークであるMmmambaを提案します。
当社のアプローチにより、訓練されたデコーダーのみのMLLMを、事前に訓練したRNNベースのLLMまたはビジョンエンコーダーを必要とせずに、線形複雑さアーキテクチャに直接変換することができます。
訓練されたトランスからマンバを彫るための播種戦略と3段階の蒸留レシピを提案します。これにより、マルチモーダル機能を保存しながら、トランスからマンバに知識を効果的に転送できます。
この方法は、カスタマイズ可能な効率パフォーマンスのトレードオフのために、変圧器とMamba層を組み合わせた柔軟なハイブリッドアーキテクチャもサポートしています。
変圧器ベースのデコーダーのみのホーブから蒸留されたMmmamba-Linearは、既存の線形および二次的複雑度VLMに対して競争力のあるパフォーマンスを達成し、Mmmamba-HybridはHovleの能力に近づき、パフォーマンスをさらに大幅に向上させます。
103kトークンでは、Mmmamba-LinearはHovleと比較して20.6 $ \ Times $ speedupと75.8%のGPUメモリ削減を示しますが、Mmmamba-Hybridは13.5 $ \ Times $ speedUpと60.2%のメモリの節約を達成します。
コードとモデルはhttps://github.com/hustvl/mmmambaでリリースされます

要約(オリジナル)

Recent Multimodal Large Language Models (MLLMs) have achieved remarkable performance but face deployment challenges due to their quadratic computational complexity, growing Key-Value cache requirements, and reliance on separate vision encoders. We propose mmMamba, a framework for developing linear-complexity native multimodal state space models through progressive distillation from existing MLLMs using moderate academic computational resources. Our approach enables the direct conversion of trained decoder-only MLLMs to linear-complexity architectures without requiring pre-trained RNN-based LLM or vision encoders. We propose an seeding strategy to carve Mamba from trained Transformer and a three-stage distillation recipe, which can effectively transfer the knowledge from Transformer to Mamba while preserving multimodal capabilities. Our method also supports flexible hybrid architectures that combine Transformer and Mamba layers for customizable efficiency-performance trade-offs. Distilled from the Transformer-based decoder-only HoVLE, mmMamba-linear achieves competitive performance against existing linear and quadratic-complexity VLMs, while mmMamba-hybrid further improves performance significantly, approaching HoVLE’s capabilities. At 103K tokens, mmMamba-linear demonstrates 20.6$\times$ speedup and 75.8% GPU memory reduction compared to HoVLE, while mmMamba-hybrid achieves 13.5$\times$ speedup and 60.2% memory savings. Code and models are released at https://github.com/hustvl/mmMamba

arxiv情報

著者 Bencheng Liao,Hongyuan Tao,Qian Zhang,Tianheng Cheng,Yingyue Li,Haoran Yin,Wenyu Liu,Xinggang Wang
発行日 2025-02-18 18:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation はコメントを受け付けていません

Scaling Test-Time Compute Without Verification or RL is Suboptimal

要約

テスト時間計算のスケーリングに大きな進歩にもかかわらず、コミュニティで継続的な議論は、スケーリングにより継続的かつ効率的な改善を可能にするために拡大する方法です。
主に2つのアプローチがあります。まず、成功した検索または思考の痕跡を蒸留することです。
第二に、強化学習(RL)と検索アルゴリズムを導くために、検証(0/1結果の報酬、報酬モデル、または検証剤)を使用します。
この論文では、RLまたは検索に基づいた検証剤ベースの(VB)メソッドを使用したFinetuning LLMSが、固定額のコンピューティング/データ予算を考慮して、検索トレースの蒸留またはクローニングに基づいた検証剤フリー(VF)アプローチよりもはるかに優れていることを証明します。

さらに、テスト時間計算(出力トークンの長さとして測定)とトレーニングデータをスケーリングする際に、ベースの事前訓練を受けたLLMが正しい溶液トレースよりも不均一な分布を提示する場合、VFメソッドのサブオプティマリティはVBと比較して不十分であることを示します(例えば
、異なる長さ、スタイルなど)、およびそれからサンプリングされたトレースの報酬よりも非鋭い分布を認めます。
抗濃縮[erd \ h {o} s、1945]を使用してこの状態を正式にします。
これは、VBメソッドがより漸近的にスケールし、VBとVFメソッドのパフォーマンスギャップがテスト時間の予算が増加するにつれて拡大するという強い結果を意味します。
3/8/32Bサイズの事前訓練を受けたLLMの教訓的および数学推論の両方の問題について、理論を実証的に裏付けています。テスト時間計算のスケーリングには検証が重要であることがわかります。

要約(オリジナル)

Despite substantial advances in scaling test-time compute, an ongoing debate in the community is how it should be scaled up to enable continued and efficient improvements with scaling. There are largely two approaches: first, distilling successful search or thinking traces; and second, using verification (e.g., 0/1 outcome rewards, reward models, or verifiers) to guide reinforcement learning (RL) and search algorithms. In this paper, we prove that finetuning LLMs with verifier-based (VB) methods based on RL or search is far superior to verifier-free (VF) approaches based on distilling or cloning search traces, given a fixed amount of compute/data budget. Further, we show that as we scale test-time compute (measured as the output token length) and training data, suboptimality of VF methods scales poorly compared to VB when the base pre-trained LLM presents a heterogeneous distribution over correct solution traces (e.g., different lengths, styles, etc.) and admits a non-sharp distribution over rewards on traces sampled from it. We formalize this condition using anti-concentration [Erd\H{o}s, 1945]. This implies a stronger result that VB methods scale better asymptotically, with the performance gap between VB and VF methods widening as test-time budget grows. We corroborate our theory empirically on both didactic and math reasoning problems with 3/8/32B-sized pre-trained LLMs, where we find verification is crucial for scaling test-time compute.

arxiv情報

著者 Amrith Setlur,Nived Rajaraman,Sergey Levine,Aviral Kumar
発行日 2025-02-18 18:54:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Scaling Test-Time Compute Without Verification or RL is Suboptimal はコメントを受け付けていません

Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SciCap Challenge 2023

要約

SCICAPデータセットが2021年に開始されて以来、研究コミュニティは学術記事の科学者のキャプションを生成することに大きな進歩を遂げてきました。
2023年、最初のSCICAPチャレンジが行われ、グローバルチームが拡張されたSCICAPデータセットを使用して、さまざまな学術分野で多様なフィギュアタイプをキャプションするためのモデルを開発するよう招待しました。
同時に、テキスト生成モデルは迅速に進歩し、さまざまなビジョンと言語のタスクで印象的な機能を示した多くの強力な事前訓練を受けた大規模マルチモーダルモデル(LMM)が出現しました。
このペーパーでは、最初のScicap Challengeの概要を示し、データ上のさまざまなモデルのパフォーマンスを詳細に説明し、Fields Stateのスナップショットをキャプチャします。
プロの編集者は、他のすべてのモデルや著者が書いた元のキャプションよりもGPT-4Vによって生成されたフィギュアキャプションを圧倒的に好むことがわかりました。
この重要な発見に続いて、この質問に答えるために詳細な分析を実施しました。高度なLMMSは、科学者のキャプションを生成するタスクを解決しましたか?

要約(オリジナル)

Since the SciCap datasets launch in 2021, the research community has made significant progress in generating captions for scientific figures in scholarly articles. In 2023, the first SciCap Challenge took place, inviting global teams to use an expanded SciCap dataset to develop models for captioning diverse figure types across various academic fields. At the same time, text generation models advanced quickly, with many powerful pre-trained large multimodal models (LMMs) emerging that showed impressive capabilities in various vision-and-language tasks. This paper presents an overview of the first SciCap Challenge and details the performance of various models on its data, capturing a snapshot of the fields state. We found that professional editors overwhelmingly preferred figure captions generated by GPT-4V over those from all other models and even the original captions written by authors. Following this key finding, we conducted detailed analyses to answer this question: Have advanced LMMs solved the task of generating captions for scientific figures?

arxiv情報

著者 Ting-Yao E. Hsu,Yi-Li Hsu,Shaurya Rohatgi,Chieh-Yang Huang,Ho Yin Sam Ng,Ryan Rossi,Sungchul Kim,Tong Yu,Lun-Wei Ku,C. Lee Giles,Ting-Hao K. Huang
発行日 2025-02-18 18:07:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SciCap Challenge 2023 はコメントを受け付けていません

A formal implementation of Behavior Trees to act in robotics

要約

行動ツリー(BT)は、自律的なロボットシステムの作用コンポーネントとして非常に人気があります。
これらのBTが実行される間にランタイム検証と同様に、BTで書かれたプログラムの検証を実行できるようにする正式な言語にそれらを変換することにより、BTに正式なセマンティクスを定義することを提案します。
これにより、BTプログラマーが正式な言語を習得することを要求することなく、モジュール性、柔軟性、および再利用性などの最も貴重な機能を侵害することなく、BT正確性を正式に検証できます。
使用する正式なフレームワークを紹介します。
Tina、そのモデルチェックツールとHippo、ランタイム検証エンジン。
次に、BTからFiacreへの翻訳が自動的にどのように行われるか、オフラインで確認できる正式なLTLおよびCTLプロパティのタイプ、および通常のBTエンジンの代わりにオンラインで正式なモデルを実行する方法を示します。
2つのRoboticsアプリケーションでアプローチを説明し、FAIARの正式なフレームワーク(状態変数、時間など)で利用可能な他の機能にBTがどのように利益をもたらすことができるかを示します。

要約(オリジナル)

Behavior Trees (BT) are becoming quite popular as an Acting component of autonomous robotic systems. We propose to define a formal semantics to BT by translating them to a formal language which enables us to perform verification of programs written with BT, as well as runtime verification while these BT execute. This allows us to formally verify BT correctness without requiring BT programmers to master formal language and without compromising BT most valuable features: modularity, flexibility and reusability. We present the formal framework we use: Fiacre, its langage and the produced TTS model; Tina, its model checking tools and Hippo, its runtime verification engine. We then show how the translation from BT to Fiacre is automatically done, the type of formal LTL and CTL properties we can check offline and how to execute the formal model online in place of a regular BT engine. We illustrate our approach on two robotics applications, and show how BT could benefit of other features available in the Fiacre formal framework (state variables, time, etc).

arxiv情報

著者 Felix Ingrand
発行日 2025-02-18 07:12:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A formal implementation of Behavior Trees to act in robotics はコメントを受け付けていません

MagicArticulate: Make Your 3D Models Articulation-Ready

要約

3Dコンテンツ作成の爆発的な成長により、静的3Dモデルを自動的に現実的なアニメーションをサポートするARTICULATION-READYバージョンに変換するという需要が増加しています。
従来のアプローチは、時間がかかり、労働集約的な手動注釈に大きく依存しています。
さらに、大規模なベンチマークの欠如は、学習ベースのソリューションの開発を妨げています。
この作業では、静的3Dモデルをアーティキュレーション対応資産に自動的に変換する効果的なフレームワークであるMagicArticulateを提示します。
私たちの重要な貢献は3つあります。
まず、Objaverse-XLから慎重にキュレーションされた高品質のアーティキュレーション注釈を備えた33Kを超える3Dモデルを含む大規模なベンチマークであるArticulation-XLを紹介します。
第二に、タスクをシーケンスモデリングの問題として定式化する新しいスケルトン生成方法を提案し、自動回帰トランスを活用して、スケルトン内のさまざまな数の骨またはジョイントと、異なる3Dモデルにわたって固有の依存関係を自然に処理します。
第三に、頂点とジョイントの間に体積測地線距離前の距離を組み込んだ機能的拡散プロセスを使用して、スキニングウェイトを予測します。
広範な実験は、Magicarticulationが多様なオブジェクトカテゴリ全体で既存の方法を大幅に上回ることを示しており、現実的なアニメーションを可能にする高品質の明確化を実現しています。
プロジェクトページ:https://chaoyuesong.github.io/magicarticulate。

要約(オリジナル)

With the explosive growth of 3D content creation, there is an increasing demand for automatically converting static 3D models into articulation-ready versions that support realistic animation. Traditional approaches rely heavily on manual annotation, which is both time-consuming and labor-intensive. Moreover, the lack of large-scale benchmarks has hindered the development of learning-based solutions. In this work, we present MagicArticulate, an effective framework that automatically transforms static 3D models into articulation-ready assets. Our key contributions are threefold. First, we introduce Articulation-XL, a large-scale benchmark containing over 33k 3D models with high-quality articulation annotations, carefully curated from Objaverse-XL. Second, we propose a novel skeleton generation method that formulates the task as a sequence modeling problem, leveraging an auto-regressive transformer to naturally handle varying numbers of bones or joints within skeletons and their inherent dependencies across different 3D models. Third, we predict skinning weights using a functional diffusion process that incorporates volumetric geodesic distance priors between vertices and joints. Extensive experiments demonstrate that MagicArticulate significantly outperforms existing methods across diverse object categories, achieving high-quality articulation that enables realistic animation. Project page: https://chaoyuesong.github.io/MagicArticulate.

arxiv情報

著者 Chaoyue Song,Jianfeng Zhang,Xiu Li,Fan Yang,Yiwen Chen,Zhongcong Xu,Jun Hao Liew,Xiaoyang Guo,Fayao Liu,Jiashi Feng,Guosheng Lin
発行日 2025-02-18 05:21:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | MagicArticulate: Make Your 3D Models Articulation-Ready はコメントを受け付けていません

Manifold Learning with Sparse Regularised Optimal Transport

要約

マニホールド学習は、現代の統計とデータサイエンスの中心的なタスクです。
多くのデータセット(セル、ドキュメント、画像、分子)は、高次元の周囲空間に埋め込まれた点雲として表すことができますが、データに固有の自由度は通常、周囲の寸法の数よりもはるかに少ないです。
データが埋め込まれている潜在的マニホールドを検出するタスクは、下流の分析の幅広いファミリの前提条件です。
実際のデータセットは騒々しい観察とサンプリングの対象となるため、基礎となるマニホールドに関する蒸留情報が大きな課題です。
私たちは、二星の核の正規化の一般化として解釈できる、まばらで適応的な親和性マトリックスを構築する二次正則化を使用して、最適な輸送の対称バージョンを利用する方法を提案します。
結果のカーネルが連続制限のラプラス型演算子と一致していることを証明し、ヘテロスケダスティックノイズに対する堅牢性を確立し、これらの結果を数値実験で示します。
離散データに対してこの最適な輸送を計算するための非常に効率的な計算スキームを特定し、一連の例で競合する方法よりも優れていることを示します。

要約(オリジナル)

Manifold learning is a central task in modern statistics and data science. Many datasets (cells, documents, images, molecules) can be represented as point clouds embedded in a high dimensional ambient space, however the degrees of freedom intrinsic to the data are usually far fewer than the number of ambient dimensions. The task of detecting a latent manifold along which the data are embedded is a prerequisite for a wide family of downstream analyses. Real-world datasets are subject to noisy observations and sampling, so that distilling information about the underlying manifold is a major challenge. We propose a method for manifold learning that utilises a symmetric version of optimal transport with a quadratic regularisation that constructs a sparse and adaptive affinity matrix, that can be interpreted as a generalisation of the bistochastic kernel normalisation. We prove that the resulting kernel is consistent with a Laplace-type operator in the continuous limit, establish robustness to heteroskedastic noise and exhibit these results in numerical experiments. We identify a highly efficient computational scheme for computing this optimal transport for discrete data and demonstrate that it outperforms competing methods in a set of examples.

arxiv情報

著者 Stephen Zhang,Gilles Mordant,Tetsuya Matsumoto,Geoffrey Schiebinger
発行日 2025-02-17 16:24:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62R30, 68T01, cs.LG, math.ST, stat.ML, stat.TH | Manifold Learning with Sparse Regularised Optimal Transport はコメントを受け付けていません

Metalearning Continual Learning Algorithms

要約

汎用学習システムは、絶えず変化する環境で、オープンエンドの方法で自分自身を改善する必要があります。
ただし、ニューラルネットワークの従来の学習アルゴリズムは、壊滅的な忘却(CF)に苦しんでいます。つまり、新しいタスクが学習されたときに以前に獲得したスキルは忘れられます。
CFを避けるための新しいアルゴリズムを手作りする代わりに、自己参照ニューラルネットワークをトレーニングするための自動化された継続的な学習(ACL)を提案します。
ACLは、継続的な学習(CL)Desiderata(古いタスクと新しいタスクの両方で優れたパフォーマンス)をメタレーニングの目標にエンコードします。
私たちの実験は、ACLが「コンテスト内の壊滅的な忘却」を効果的に解決することを示しています。
ACL学習アルゴリズムは、リプレイのない設定でのスプリットマニストベンチマークで、手作りの学習アルゴリズムと一般的なメタ通過学習方法の両方を上回り、複数の標準画像分類データセットで構成される多様なタスクの継続的な学習を可能にします。
また、ACLと事前訓練を受けたモデルを活用する最先端のCLメソッドと比較することにより、コンテキスト内CLの現在の制限についても説明します。
全体として、CLの長年の問題にいくつかの新しい視点をもたらします。

要約(オリジナル)

General-purpose learning systems should improve themselves in open-ended fashion in ever-changing environments. Conventional learning algorithms for neural networks, however, suffer from catastrophic forgetting (CF), i.e., previously acquired skills are forgotten when a new task is learned. Instead of hand-crafting new algorithms for avoiding CF, we propose Automated Continual Learning (ACL) to train self-referential neural networks to metalearn their own in-context continual (meta)learning algorithms. ACL encodes continual learning (CL) desiderata — good performance on both old and new tasks — into its metalearning objectives. Our experiments demonstrate that ACL effectively resolves ‘in-context catastrophic forgetting,’ a problem that naive in-context learning algorithms suffer from; ACL-learned algorithms outperform both hand-crafted learning algorithms and popular meta-continual learning methods on the Split-MNIST benchmark in the replay-free setting, and enables continual learning of diverse tasks consisting of multiple standard image classification datasets. We also discuss the current limitations of in-context CL by comparing ACL with state-of-the-art CL methods that leverage pre-trained models. Overall, we bring several novel perspectives into the long-standing problem of CL.

arxiv情報

著者 Kazuki Irie,Róbert Csordás,Jürgen Schmidhuber
発行日 2025-02-17 18:06:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Metalearning Continual Learning Algorithms はコメントを受け付けていません

On Temperature Scaling and Conformal Prediction of Deep Classifiers

要約

多くの分類アプリケーションでは、ディープニューラルネットワーク(DNN)ベースの分類器の予測には、ある程度の信頼性表示を伴う必要があります。
その目的の2つの一般的なアプローチは次のとおりです。1)キャリブレーション:最大値が正確性の確率をより良く推定するように分類器のソフトマックス値を変更します。
2)Conformal Prediction(CP):ユーザー指定の確率で真のラベルを含む候補ラベルの予測セットを作成し、限界カバレッジを保証しますが、たとえばクラスごとのカバレッジを保証します。
実際には、両方のタイプの適応症が望ましいですが、これまでのところ、それらの間の相互作用は調査されていません。
ユビキタス温度スケーリング(TS)キャリブレーションに焦点を当て、この論文を開始し、顕著なCPメソッドに対するその効果の広範な経験的研究を開始します。
TSキャリブレーションは、適応型CPメソッドのクラス条件付きカバレッジを改善するが、驚くべきことに、予測セットのサイズに悪影響を与えることを示しています。
この動作に動機付けられて、CPに対するTSのキャリブレーションアプリケーションを超えた効果を調査し、予測セットのサイズと適応型CPメソッドの条件付きカバレッジを取引できる興味深い傾向を明らかにします。
次に、非モノトニックな傾向全体を説明する数学的理論を確立します。
最後に、実験と理論に基づいて、適応型CPとキャリブレーションを効果的に組み合わせるための実務家向けの簡単なガイドラインを提供します。

要約(オリジナル)

In many classification applications, the prediction of a deep neural network (DNN) based classifier needs to be accompanied by some confidence indication. Two popular approaches for that aim are: 1) Calibration: modifies the classifier’s softmax values such that the maximal value better estimates the correctness probability; and 2) Conformal Prediction (CP): produces a prediction set of candidate labels that contains the true label with a user-specified probability, guaranteeing marginal coverage but not, e.g., per class coverage. In practice, both types of indications are desirable, yet, so far the interplay between them has not been investigated. Focusing on the ubiquitous Temperature Scaling (TS) calibration, we start this paper with an extensive empirical study of its effect on prominent CP methods. We show that while TS calibration improves the class-conditional coverage of adaptive CP methods, surprisingly, it negatively affects their prediction set sizes. Motivated by this behavior, we explore the effect of TS on CP beyond its calibration application and reveal an intriguing trend under which it allows to trade prediction set size and conditional coverage of adaptive CP methods. Then, we establish a mathematical theory that explains the entire non-monotonic trend. Finally, based on our experiments and theory, we offer simple guidelines for practitioners to effectively combine adaptive CP with calibration.

arxiv情報

著者 Lahav Dabah,Tom Tirer
発行日 2025-02-17 18:45:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | On Temperature Scaling and Conformal Prediction of Deep Classifiers はコメントを受け付けていません