Person Recognition at Altitude and Range: Fusion of Face, Body Shape and Gait

要約

制約のない環境における全身の人認識の問題に対処します。
この問題は、高度および範囲(BRIAR)プログラムでのIARPA生体認識と識別のような監視シナリオで発生します。ここでは、生体認証データが長いスタンドオフ距離、上昇した視聴角、および有害な大気条件(乱流や強風速度など)でキャプチャされます。
この目的のために、顔、歩行、身体形状のモダリティ全体に補完的な生体認証キューを統合する個人認識のための統一されたエンドツーエンドシステムであるFarsightを提案します。
Farsightには、マルチサブジェクトの検出と追跡、認識対象ビデオ修復、モダリティ固有の生体認証機能エンコーディング、品質誘導マルチモーダル融合の4つのコアモジュールに新しいアルゴリズムが組み込まれています。
これらのコンポーネントは、劣化した画像条件、大きなポーズとスケールのバリエーション、およびクロスドメインのギャップの下でまとまりに機能するように設計されています。
長距離のマルチモーダル生体認識のための最も包括的なベンチマークの1つであるBriarデータセットに関する広範な実験は、Farsightの有効性を示しています。
予備システムと比較して、このシステムは、1:1の検証精度(TAR@0.1% Far)で34.1%の絶対的な増加、クローズドセット識別の17.8%の増加(RANK-20)、およびオープンセット識別エラー(FNIR@1%FPIR)の34.3%の減少を達成します。
さらに、Briarデータセットで標準化された顔認識テストを実施するビデオ評価(5)の2025 NIST RTEフェイスでFarsightが評価されました。
これらの結果は、挑戦的な現実世界条件における運用上の生体認識のための最先端のソリューションとしてのFarSightを確立します。

要約(オリジナル)

We address the problem of whole-body person recognition in unconstrained environments. This problem arises in surveillance scenarios such as those in the IARPA Biometric Recognition and Identification at Altitude and Range (BRIAR) program, where biometric data is captured at long standoff distances, elevated viewing angles, and under adverse atmospheric conditions (e.g., turbulence and high wind velocity). To this end, we propose FarSight, a unified end-to-end system for person recognition that integrates complementary biometric cues across face, gait, and body shape modalities. FarSight incorporates novel algorithms across four core modules: multi-subject detection and tracking, recognition-aware video restoration, modality-specific biometric feature encoding, and quality-guided multi-modal fusion. These components are designed to work cohesively under degraded image conditions, large pose and scale variations, and cross-domain gaps. Extensive experiments on the BRIAR dataset, one of the most comprehensive benchmarks for long-range, multi-modal biometric recognition, demonstrate the effectiveness of FarSight. Compared to our preliminary system, this system achieves a 34.1% absolute gain in 1:1 verification accuracy (TAR@0.1% FAR), a 17.8% increase in closed-set identification (Rank-20), and a 34.3% reduction in open-set identification errors (FNIR@1% FPIR). Furthermore, FarSight was evaluated in the 2025 NIST RTE Face in Video Evaluation (FIVE), which conducts standardized face recognition testing on the BRIAR dataset. These results establish FarSight as a state-of-the-art solution for operational biometric recognition in challenging real-world conditions.

arxiv情報

著者 Feng Liu,Nicholas Chimitt,Lanqing Guo,Jitesh Jain,Aditya Kane,Minchul Kim,Wes Robbins,Yiyang Su,Dingqiang Ye,Xingguang Zhang,Jie Zhu,Siddharth Satyakam,Christopher Perry,Stanley H. Chan,Arun Ross,Humphrey Shi,Zhangyang Wang,Anil Jain,Xiaoming Liu
発行日 2025-05-07 17:58:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Person Recognition at Altitude and Range: Fusion of Face, Body Shape and Gait はコメントを受け付けていません

Merging and Disentangling Views in Visual Reinforcement Learning for Robotic Manipulation

要約

ビジョンは、特に視覚サーボを使用して、操作での使用でよく知られています。
それを堅牢にするには、視野を拡張するために複数のカメラが必要です。
それは計算的に挑戦的です。
複数のビューをマージし、Qラーニングを使用すると、より効果的な表現の設計とサンプル効率の最適化が可能になります。
このようなソリューションは、展開するのに費用がかかる場合があります。
これを緩和するために、ビューを効率的にマージしてサンプル効率を高めながら、シングルビュー機能で増加し、軽量の展開を可能にし、堅牢なポリシーを確保するために、ビューを効率的にマージしてサンプルの効率を高めるマージと解き分析(MAD)アルゴリズムを導入します。
Meta-WorldとManiskill3を使用して、アプローチの効率と堅牢性を示します。
プロジェクトのWebサイトとコードについては、https://aalmuzaire.github.io/madを参照してください

要約(オリジナル)

Vision is well-known for its use in manipulation, especially using visual servoing. To make it robust, multiple cameras are needed to expand the field of view. That is computationally challenging. Merging multiple views and using Q-learning allows the design of more effective representations and optimization of sample efficiency. Such a solution might be expensive to deploy. To mitigate this, we introduce a Merge And Disentanglement (MAD) algorithm that efficiently merges views to increase sample efficiency while augmenting with single-view features to allow lightweight deployment and ensure robust policies. We demonstrate the efficiency and robustness of our approach using Meta-World and ManiSkill3. For project website and code, see https://aalmuzairee.github.io/mad

arxiv情報

著者 Abdulaziz Almuzairee,Rohan Patil,Dwait Bhatt,Henrik I. Christensen
発行日 2025-05-07 17:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Merging and Disentangling Views in Visual Reinforcement Learning for Robotic Manipulation はコメントを受け付けていません

On Path to Multimodal Generalist: General-Level and General-Bench

要約

Multimodal Large Languageモデル(MLLM)は、LLMの高度な機能によって促進されており、現在、急速な成長を遂げています。
以前の専門家とは異なり、既存のMLLMはマルチモーダルジェネラリストのパラダイムに向かって進化しています。
当初、複数のモダリティの理解に限定されていたこれらのモデルは、理解するだけでなく、モダリティ全体で生成するように進歩しています。
それらの能力は、粗粒から微調整されたマルチモーダルの理解に拡大し、限られたモダリティを任意のモダリティにサポートしています。
MLLMSを評価するために多くのベンチマークが存在しますが、重要な疑問が生じます。タスク全体のパフォーマンスが高いとMLLM機能が強く、人間レベルのAIに近づくことができると単純に想定できますか?
答えは見た目ほど簡単ではないと主張します。
このプロジェクトでは、MLLMのパフォーマンスと一般性の5つのスケールレベルを定義する評価フレームワークである一般レベルを紹介します。MLLMを比較し、より堅牢なマルチモーダルジェネラリストへの既存のシステムの進捗を評価する方法を提供します。
フレームワークの核心は、モデルが理解と生成にわたって一貫した能力を維持し、複数のモダリティ全体で維持するかどうかを測定する相乗効果の概念です。
この評価をサポートするために、700を超えるタスクと325,800インスタンスを含む、より幅広いスキル、モダリティ、フォーマット、および機能を含む一般ベンチを提示します。
100を超える既存の最先端のMLLMが関与する評価結果は、一般主義者の能力ランキングを明らかにし、本物のAIに到達する際の課題を強調しています。
このプロジェクトは、AGIの実現を加速するための堅牢なインフラストラクチャを提供する次世代マルチモーダルファンデーションモデルに関する将来の研究への道を開くことを期待しています。
プロジェクトページ:https://generalist.top/

要約(オリジナル)

The Multimodal Large Language Model (MLLM) is currently experiencing rapid growth, driven by the advanced capabilities of LLMs. Unlike earlier specialists, existing MLLMs are evolving towards a Multimodal Generalist paradigm. Initially limited to understanding multiple modalities, these models have advanced to not only comprehend but also generate across modalities. Their capabilities have expanded from coarse-grained to fine-grained multimodal understanding and from supporting limited modalities to arbitrary ones. While many benchmarks exist to assess MLLMs, a critical question arises: Can we simply assume that higher performance across tasks indicates a stronger MLLM capability, bringing us closer to human-level AI? We argue that the answer is not as straightforward as it seems. This project introduces General-Level, an evaluation framework that defines 5-scale levels of MLLM performance and generality, offering a methodology to compare MLLMs and gauge the progress of existing systems towards more robust multimodal generalists and, ultimately, towards AGI. At the core of the framework is the concept of Synergy, which measures whether models maintain consistent capabilities across comprehension and generation, and across multiple modalities. To support this evaluation, we present General-Bench, which encompasses a broader spectrum of skills, modalities, formats, and capabilities, including over 700 tasks and 325,800 instances. The evaluation results that involve over 100 existing state-of-the-art MLLMs uncover the capability rankings of generalists, highlighting the challenges in reaching genuine AI. We expect this project to pave the way for future research on next-generation multimodal foundation models, providing a robust infrastructure to accelerate the realization of AGI. Project page: https://generalist.top/

arxiv情報

著者 Hao Fei,Yuan Zhou,Juncheng Li,Xiangtai Li,Qingshan Xu,Bobo Li,Shengqiong Wu,Yaoting Wang,Junbao Zhou,Jiahao Meng,Qingyu Shi,Zhiyuan Zhou,Liangtao Shi,Minghe Gao,Daoan Zhang,Zhiqi Ge,Weiming Wu,Siliang Tang,Kaihang Pan,Yaobo Ye,Haobo Yuan,Tao Zhang,Tianjie Ju,Zixiang Meng,Shilin Xu,Liyu Jia,Wentao Hu,Meng Luo,Jiebo Luo,Tat-Seng Chua,Shuicheng Yan,Hanwang Zhang
発行日 2025-05-07 17:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | On Path to Multimodal Generalist: General-Level and General-Bench はコメントを受け付けていません

PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer

要約

複雑な3D形状を単純な幾何学的要素に分解し、人間の視覚認知において重要な役割を果たし、コンピュータービジョンとグラフィックスに幅広いアプリケーションを持っている原始的な抽象化を形作ります。
3Dコンテンツ生成の最近の進歩は顕著な進歩を示していますが、既存の原始的な抽象化方法は、限られたセマンティック理解を伴う幾何学的最適化に依存しているか、小規模でカテゴリ固有のデータセットから学習し、多様な形状カテゴリ全体に一般化するのに苦労しています。
原始的なアセンブリ生成タスクとして形状の原始抽象化を再定式化する新しいフレームワークであるPrimitiveanythingを提示します。
Primitiveanythingには、自動回帰生成のための形状条件付きプリミティブトランスと、統一された方法で複数のタイプのプリミティブを表す曖昧さのないパラメーター化スキームが含まれています。
提案されたフレームワークは、大規模な人間が作成した抽象化から原始的なアセンブリのプロセスを直接学習し、人間が複雑な形状を原始要素に分解する方法をキャプチャできるようにします。
広範な実験を通じて、原始的なものが、多様な形状カテゴリ全体で幾何学的忠実度を維持しながら、人間の知覚とよりよく調整する高品質の原始アセンブリを生成できることを実証します。
さまざまな3Dアプリケーションに利益をもたらし、ゲームでプリミティブベースのユーザー生成コンテンツ(UGC)を有効にする可能性を示しています。
プロジェクトページ:https://primitiveanything.github.io

要約(オリジナル)

Shape primitive abstraction, which decomposes complex 3D shapes into simple geometric elements, plays a crucial role in human visual cognition and has broad applications in computer vision and graphics. While recent advances in 3D content generation have shown remarkable progress, existing primitive abstraction methods either rely on geometric optimization with limited semantic understanding or learn from small-scale, category-specific datasets, struggling to generalize across diverse shape categories. We present PrimitiveAnything, a novel framework that reformulates shape primitive abstraction as a primitive assembly generation task. PrimitiveAnything includes a shape-conditioned primitive transformer for auto-regressive generation and an ambiguity-free parameterization scheme to represent multiple types of primitives in a unified manner. The proposed framework directly learns the process of primitive assembly from large-scale human-crafted abstractions, enabling it to capture how humans decompose complex shapes into primitive elements. Through extensive experiments, we demonstrate that PrimitiveAnything can generate high-quality primitive assemblies that better align with human perception while maintaining geometric fidelity across diverse shape categories. It benefits various 3D applications and shows potential for enabling primitive-based user-generated content (UGC) in games. Project page: https://primitiveanything.github.io

arxiv情報

著者 Jingwen Ye,Yuze He,Yanning Zhou,Yiqin Zhu,Kaiwen Xiao,Yong-Jin Liu,Wei Yang,Xiao Han
発行日 2025-05-07 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer はコメントを受け付けていません

EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning

要約

マルチモーダル大手言語モデル(MLLM)は、テキスト、ビジョン、オーディオを越えて高度な認識を持っていますが、特にオーディオと視覚信号を統合する場合、構造化されたクロスモーダル推論に苦労することがよくあります。
MLLMのこのような推論を強化する強化学習フレームワークであるEchoink-R1を紹介します。
QWEN2.5-OMNI-7B Foundationに基づいて構築され、グループ相対ポリシー最適化(GRPO)で最適化されたEchoink-R1は、同期されたオーディオイメージペアをめぐる複数選択の質問に取り組んでいます。
これを有効にするために、AVQA-R1-6Kをキュレートします。これは、このようなオーディオイメージ入力をOmniinStruct-V1から派生した複数選択の質問とペアリングするデータセットです。
Echoink-R1-7Bは、検証セットで85.77%の精度を達成し、562の補強学習ステップのみを使用して、80.53%を獲得するベースモデルを上回ります。
Echoink-R1は、精度を超えて、曖昧なマルチモーダル入力に直面したときに初期解釈と反応を改善することにより、反射的推論を実証します。
これらの結果は、軽量の強化学習微調整がMLLMのクロスモーダル推論を強化することを示唆しています。
Echoink-R1は、補強学習を介した一般的なオープンワールド推論のオーディオ、視覚、およびテキストのモダリティを統合する最初のフレームワークです。
コードとデータは、さらなる研究を促進するために公開されています。

要約(オリジナル)

Multimodal large language models (MLLMs) have advanced perception across text, vision, and audio, yet they often struggle with structured cross-modal reasoning, particularly when integrating audio and visual signals. We introduce EchoInk-R1, a reinforcement learning framework that enhances such reasoning in MLLMs. Built upon the Qwen2.5-Omni-7B foundation and optimized with Group Relative Policy Optimization (GRPO), EchoInk-R1 tackles multiple-choice question answering over synchronized audio-image pairs. To enable this, we curate AVQA-R1-6K, a dataset pairing such audio-image inputs with multiple-choice questions derived from OmniInstruct-v1. EchoInk-R1-7B achieves 85.77% accuracy on the validation set, outperforming the base model, which scores 80.53%, using only 562 reinforcement learning steps. Beyond accuracy, EchoInk-R1 demonstrates reflective reasoning by revisiting initial interpretations and refining responses when facing ambiguous multimodal inputs. These results suggest that lightweight reinforcement learning fine-tuning enhances cross-modal reasoning in MLLMs. EchoInk-R1 is the first framework to unify audio, visual, and textual modalities for general open-world reasoning via reinforcement learning. Code and data are publicly released to facilitate further research.

arxiv情報

著者 Zhenghao Xing,Xiaowei Hu,Chi-Wing Fu,Wenhai Wang,Jifeng Dai,Pheng-Ann Heng
発行日 2025-05-07 17:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning はコメントを受け付けていません

Vision-Language Models Create Cross-Modal Task Representations

要約

自己回帰ビジョン言語モデル(VLM)は、単一のモデル内で多くのタスクを処理できますが、この機能を可能にする表現は不透明なままです。
VLMSは、概念的に同等の入力を共有タスクベクトルに調整します。これは、モダリティ(テキスト、画像)と形式(例、命令)に不変であり、VLM処理を簡素化する可能性があります。
さまざまなタスクとモデルアーキテクチャで、クロスモーダル転送(あるモダリティで導出されたタスクベクトルの能力)を介して測定します。
タスクベクトルは高度に圧縮されていますが、この単一のベクトルがこのクロスモーダルケースに固有の完全なタスク情報を使用してモデルを促していることがわかります。
さらに、タスクベクトルは、基本言語モデルから微調整されたビジョン言語のカウンターパートに転送できること、および例を必要とせずに指示からのみ導出できることを示します。
まとめると、私たちの調査結果は、VLMSがタスク情報を内部的に処理する方法と、それらが異なるモダリティを一般的なセマンティック表現にどのようにマッピングするかに光を当てています。
プロジェクトページ:https://vlm-cross-modal-reps.github.io。

要約(オリジナル)

Autoregressive vision-language models (VLMs) can handle many tasks within a single model, yet the representations that enable this capability remain opaque. We find that VLMs align conceptually equivalent inputs into a shared task vector, which is invariant to modality (text, image) and format (examples, instruction), and may simplify VLM processing. We measure this alignment via cross-modal transfer — the ability of a task vector derived in one modality to trigger the correct generation in another — on a range of tasks and model architectures. Although the task vector is highly compressed, we find that this single vector outperforms prompting the model with the full task information, unique to this cross-modal case. Furthermore, we show that task vectors can be transferred from a base language model to its fine-tuned vision-language counterpart, and that they can be derived solely from instructions without the need for examples. Taken together, our findings shed light on how VLMs internally process task information, and how they map different modalities into common semantic representations. Project page: https://vlm-cross-modal-reps.github.io.

arxiv情報

著者 Grace Luo,Trevor Darrell,Amir Bar
発行日 2025-05-07 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Vision-Language Models Create Cross-Modal Task Representations はコメントを受け付けていません

Anant-Net: Breaking the Curse of Dimensionality with Scalable and Interpretable Neural Surrogate for High-Dimensional PDEs

要約

高次元の部分微分方程式(PDE)は、多様な科学的および工学的アプリケーションで発生しますが、次元の呪いのために計算上扱いにくいままです。
従来の数値的手法は、特に必要なコロケーションポイントの数が次元とともに急速に増加する高圧ドメインで、計算の複雑さの指数関数的な成長と闘っています。
ここでは、この課題を克服する効率的なニューラル代理であるAnant-Netを紹介し、高次元でのPDEの解を可能にします。
寸法が増加するにつれて内部体積が減少する過球とは異なり、ハイパーキューブは体積を保持または拡張し(単位以上の長さ)、高次元計算を非常に厳しくします。
ANANT-NETは、高次元の境界条件を効率的に組み込み、高次元のコロケーションポイントでのPDE残差を最小限に抑えます。
解釈可能性を高めるために、Kolmogorov-ArnoldネットワークをAnant-Netアーキテクチャに統合します。
Poisson、Sine-Gordon、およびAllen-Cahn方程式を含むいくつかの線形および非線形の高次元方程式に関するAnant-Netのパフォーマンスをベンチマークし、高次元空間からランダムにサンプリングされたテストポイント全体で高い精度と堅牢性を示しています。
重要なことに、Anant-Netはこれらの結果を驚くほど効率的に達成し、数時間以内に単一のGPUで300次元の問題を解決します。
また、Anant-Netの結果を精度とランタイムと比較して、他の最先端の方法と比較します。
私たちの調査結果は、高次元のPDEを効率的に解くための正確で解釈可能なスケーラブルなフレームワークとしてAnant-Netを確立しています。

要約(オリジナル)

High-dimensional partial differential equations (PDEs) arise in diverse scientific and engineering applications but remain computationally intractable due to the curse of dimensionality. Traditional numerical methods struggle with the exponential growth in computational complexity, particularly on hypercubic domains, where the number of required collocation points increases rapidly with dimensionality. Here, we introduce Anant-Net, an efficient neural surrogate that overcomes this challenge, enabling the solution of PDEs in high dimensions. Unlike hyperspheres, where the internal volume diminishes as dimensionality increases, hypercubes retain or expand their volume (for unit or larger length), making high-dimensional computations significantly more demanding. Anant-Net efficiently incorporates high-dimensional boundary conditions and minimizes the PDE residual at high-dimensional collocation points. To enhance interpretability, we integrate Kolmogorov-Arnold networks into the Anant-Net architecture. We benchmark Anant-Net’s performance on several linear and nonlinear high-dimensional equations, including the Poisson, Sine-Gordon, and Allen-Cahn equations, demonstrating high accuracy and robustness across randomly sampled test points from high-dimensional space. Importantly, Anant-Net achieves these results with remarkable efficiency, solving 300-dimensional problems on a single GPU within a few hours. We also compare Anant-Net’s results for accuracy and runtime with other state-of-the-art methods. Our findings establish Anant-Net as an accurate, interpretable, and scalable framework for efficiently solving high-dimensional PDEs.

arxiv情報

著者 Sidharth S. Menon,Ameya D. Jagtap
発行日 2025-05-07 17:23:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Anant-Net: Breaking the Curse of Dimensionality with Scalable and Interpretable Neural Surrogate for High-Dimensional PDEs はコメントを受け付けていません

Learning Survival Distributions with the Asymmetric Laplace Distribution

要約

確率論的生存分析モデルは、一連の共変量を与えられたイベントの将来の発生(時間)の分布を推定しようとしています。
近年、これらのモデルは、離散化を介して生存分布を直接推定することを避ける非パラメトリック仕様を好む。
具体的には、監視された学習を使用して、固定時間に個別のイベントの確率または固定確率(分位)でイベントの時間を推定します。
分位回帰の文献からのアイデアを借用すると、非対称ラプラス分布(ALD)に基づいたパラメトリック生存分析方法を提案します。
この分布により、平均、中央値、モード、バリエーション、分位などの一般的なイベントの概要を閉じることができます。
このモデルは、ALD分布のパラメーター(位置、スケール、および非対称性)を個々のレベルで学習する可能性によって最適化されています。
合成および実世界のデータに関する広範な結果は、提案された方法が、精度、識別、およびキャリブレーションの観点からパラメトリックおよびノンパラメトリックアプローチを上回ることを示しています。

要約(オリジナル)

Probabilistic survival analysis models seek to estimate the distribution of the future occurrence (time) of an event given a set of covariates. In recent years, these models have preferred nonparametric specifications that avoid directly estimating survival distributions via discretization. Specifically, they estimate the probability of an individual event at fixed times or the time of an event at fixed probabilities (quantiles), using supervised learning. Borrowing ideas from the quantile regression literature, we propose a parametric survival analysis method based on the Asymmetric Laplace Distribution (ALD). This distribution allows for closed-form calculation of popular event summaries such as mean, median, mode, variation, and quantiles. The model is optimized by maximum likelihood to learn, at the individual level, the parameters (location, scale, and asymmetry) of the ALD distribution. Extensive results on synthetic and real-world data demonstrate that the proposed method outperforms parametric and nonparametric approaches in terms of accuracy, discrimination and calibration.

arxiv情報

著者 Deming Sheng,Ricardo Henao
発行日 2025-05-07 14:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.TH | Learning Survival Distributions with the Asymmetric Laplace Distribution はコメントを受け付けていません

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

要約

検証可能な報酬(RLVR)による強化学習は、結果ベースの報酬から直接学習することにより、大規模な言語モデルの推論能力を高めることに有望を示しています。
ゼロ設定の下で動作する最近のRLVRは、推論プロセスのラベル付けにおいて監督を避けていますが、トレーニングのための質問と回答の手動でキュレーションされたコレクションに依存しています。
高品質で人間が生成された例の希少性は、人間の監督に依存することの長期的なスケーラビリティについての懸念を引き起こします。これは、言語モデルの前削除の領域ですでに明らかな課題です。
さらに、AIが人間の知能を上回る仮説的な未来において、人間が提供するタスクは、緊密なシステムの学習の可能性が限られている可能性があります。
これらの懸念に対処するために、Absoluteゼロと呼ばれる新しいRLVRパラダイムを提案します。単一のモデルは、外部データに依存せずに、独自の学習の進歩を最大化し、それらを解決することで推論を改善するタスクを提案することを学びます。
このパラダイムの下で、コードエグゼクティブを使用してトレーニングカリキュラムと推論能力を自己進化させるシステムである絶対ゼロ推論(AZR)を紹介します。
AZRは、外部データなしで完全に訓練されているにもかかわらず、コーディングおよび数学的推論タスクで全体的なSOTAパフォーマンスを達成し、数万人のドメイン内でキュレーションされた例に依存する既存のゼロセッティングモデルよりも優れています。
さらに、AZRはさまざまなモデルスケールに効果的に適用できることを実証し、さまざまなモデルクラスと互換性があります。

要約(オリジナル)

Reinforcement learning with verifiable rewards (RLVR) has shown promise in enhancing the reasoning capabilities of large language models by learning directly from outcome-based rewards. Recent RLVR works that operate under the zero setting avoid supervision in labeling the reasoning process, but still depend on manually curated collections of questions and answers for training. The scarcity of high-quality, human-produced examples raises concerns about the long-term scalability of relying on human supervision, a challenge already evident in the domain of language model pretraining. Furthermore, in a hypothetical future where AI surpasses human intelligence, tasks provided by humans may offer limited learning potential for a superintelligent system. To address these concerns, we propose a new RLVR paradigm called Absolute Zero, in which a single model learns to propose tasks that maximize its own learning progress and improves reasoning by solving them, without relying on any external data. Under this paradigm, we introduce the Absolute Zero Reasoner (AZR), a system that self-evolves its training curriculum and reasoning ability by using a code executor to both validate proposed code reasoning tasks and verify answers, serving as an unified source of verifiable reward to guide open-ended yet grounded learning. Despite being trained entirely without external data, AZR achieves overall SOTA performance on coding and mathematical reasoning tasks, outperforming existing zero-setting models that rely on tens of thousands of in-domain human-curated examples. Furthermore, we demonstrate that AZR can be effectively applied across different model scales and is compatible with various model classes.

arxiv情報

著者 Andrew Zhao,Yiran Wu,Yang Yue,Tong Wu,Quentin Xu,Yang Yue,Matthieu Lin,Shenzhi Wang,Qingyun Wu,Zilong Zheng,Gao Huang
発行日 2025-05-07 13:01:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Absolute Zero: Reinforced Self-play Reasoning with Zero Data はコメントを受け付けていません

Enhancing Target-unspecific Tasks through a Features Matrix

要約

大規模なビジョン言語モデルの迅速な学習の最近の開発により、ターゲット固有のタスクのパフォーマンスが大幅に向上しました。
ただし、これらの迅速な最適化方法は、ターゲット非特異的または一般化可能なタスクに効果的に取り組むのに苦労しています。
これは、過剰適合トレーニングにより、モデルが一般的な知識がターゲット非特定のタスクを強く促進することを忘れさせるという事実に起因する可能性があります。
この問題を軽減するために、ターゲット非特定のタスクでこれらのモデルを強化するように設計された新しい機能マトリックス(FM)正規化アプローチを提案します。
私たちの方法は、一般的な知識を抽出して活用し、機能マトリックス(FM)を形作ります。
具体的には、FMは、深く細かい視点からの多様な入力のセマンティクスをキャプチャし、過剰適合のリスクを軽減する本質的な一般的な知識を維持します。
代表的な評価は、次のことを示しています。1)FMは既存のフレームワークと汎用的で柔軟なモジュールとして互換性があり、2)FMは、ターゲット非特定のタスクを強化し、最先端のパフォーマンスを達成する上でその有効性を大幅に示しています。

要約(オリジナル)

Recent developments in prompt learning of large vision-language models have significantly improved performance in target-specific tasks. However, these prompt optimizing methods often struggle to tackle the target-unspecific or generalizable tasks effectively. It may be attributed to the fact that overfitting training causes the model to forget its general knowledge having strong promotion on target-unspecific tasks. To alleviate this issue, we propose a novel Features Matrix (FM) regularization approach designed to enhance these models on target-unspecific tasks. Our method extracts and leverages general knowledge, shaping a Features Matrix (FM). Specifically, the FM captures the semantics of diverse inputs from a deep and fine perspective, preserving essential general knowledge, which mitigates the risk of overfitting. Representative evaluations demonstrate that: 1) the FM is compatible with existing frameworks as a generic and flexible module, and 2) the FM significantly showcases its effectiveness in enhancing target-unspecific tasks, achieving state-of-the-art performance.

arxiv情報

著者 Fangming Cui,Yonggang Zhang,Xuan Wang,Xinmei Tian,Jun Yu
発行日 2025-05-07 15:43:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Enhancing Target-unspecific Tasks through a Features Matrix はコメントを受け付けていません