TeleSparse: Practical Privacy-Preserving Verification of Deep Neural Networks

要約

深い学習推論の完全性の検証は、モデルが正しく適用されているかどうかを理解するために重要です。
ただし、このような検証には通常、モデルの重みと(潜在的に敏感またはプライベートな)トレーニングデータへのアクセスが必要です。
いわゆるゼロ知識の簡潔な知識の非対話的議論(ZK-snarks)は、そのような機密データにアクセスせずにモデル推論を検証する能力を提供するように見えます。
ただし、変圧器や大型ビジョンモデルなどの最新のニューラルネットワークにZK-SNARKを適用すると、重要な計算オーバーヘッドが導入されます。
この問題に対する実用的な解決策を生み出すために、ZKに優しい郵便後処理メカニズムであるTelesparseを提示します。
TelesParseは、ZK-SNARKを最新のニューラルネットワークに適用することに固有の2つの基本的な課題に取り組んでいます。(1)回路の制約を減らす:過剰パラメーター化されたモデルは、ZK-SNARK検証のために多数の制約をもたらし、記憶と証明の生成コストを駆り立てます。
これに対処し、神経ネットワークモデルにスパース化を適用し、精度やセキュリティを損なうことなく証明効率を高めます。
(2)活性化関数の範囲を絞り込むための新しい適応であるニューラルテレポーテーションを通じて活性化範囲を最適化することにより、非線形関数に必要なルックアップテーブルのサイズを最小化します。
Telesparseは、同じモデルでProverメモリの使用量を67%、証明生成時間を46%削減し、精度のトレードオフは約1%です。
HALO2証明システムを使用してフレームワークを実装し、複数のアーキテクチャ(Vision-Transformer、Resnet、MobileNet)およびデータセット(Imagenet、CIFAR-10、CIFAR-100)にわたってその有効性を実証します。
この作業は、ZKに優しいモデル設計の新しい方向性を開き、スケーラブルでリソース効率の良い検証可能な深い学習に向かって移動します。

要約(オリジナル)

Verification of the integrity of deep learning inference is crucial for understanding whether a model is being applied correctly. However, such verification typically requires access to model weights and (potentially sensitive or private) training data. So-called Zero-knowledge Succinct Non-Interactive Arguments of Knowledge (ZK-SNARKs) would appear to provide the capability to verify model inference without access to such sensitive data. However, applying ZK-SNARKs to modern neural networks, such as transformers and large vision models, introduces significant computational overhead. We present TeleSparse, a ZK-friendly post-processing mechanisms to produce practical solutions to this problem. TeleSparse tackles two fundamental challenges inherent in applying ZK-SNARKs to modern neural networks: (1) Reducing circuit constraints: Over-parameterized models result in numerous constraints for ZK-SNARK verification, driving up memory and proof generation costs. We address this by applying sparsification to neural network models, enhancing proof efficiency without compromising accuracy or security. (2) Minimizing the size of lookup tables required for non-linear functions, by optimizing activation ranges through neural teleportation, a novel adaptation for narrowing activation functions’ range. TeleSparse reduces prover memory usage by 67% and proof generation time by 46% on the same model, with an accuracy trade-off of approximately 1%. We implement our framework using the Halo2 proving system and demonstrate its effectiveness across multiple architectures (Vision-transformer, ResNet, MobileNet) and datasets (ImageNet,CIFAR-10,CIFAR-100). This work opens new directions for ZK-friendly model design, moving toward scalable, resource-efficient verifiable deep learning.

arxiv情報

著者 Mohammad M Maheri,Hamed Haddadi,Alex Davidson
発行日 2025-05-26 14:20:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | TeleSparse: Practical Privacy-Preserving Verification of Deep Neural Networks はコメントを受け付けていません

Which Demographic Features Are Relevant for Individual Fairness Evaluation of U.S. Recidivism Risk Assessment Tools?

要約

憲法上の関連性にもかかわらず、技術的な「個人の公平性」の基準は、米国の州または連邦法/規制で運用されていません。
このギャップに対処するために人間の被験者の実験を実施し、どの人口統計学的特徴が再犯リスク評価(RRA)ツールの個々の公正評価に関連するかを評価します。
私たちの分析では、個々の類似性関数は年齢と性別を考慮すべきであると結論付けていますが、人種を無視する必要があります。

要約(オリジナル)

Despite its constitutional relevance, the technical “individual fairness” criterion has not been operationalized in U.S. state or federal statutes/regulations. We conduct a human subjects experiment to address this gap, evaluating which demographic features are relevant for individual fairness evaluation of recidivism risk assessment (RRA) tools. Our analyses conclude that the individual similarity function should consider age and sex, but it should ignore race.

arxiv情報

著者 Tin Trung Nguyen,Jiannan Xu,Phuong-Anh Nguyen-Le,Jonathan Lazar,Donald Braman,Hal Daumé III,Zubin Jelveh
発行日 2025-05-26 14:41:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC | Which Demographic Features Are Relevant for Individual Fairness Evaluation of U.S. Recidivism Risk Assessment Tools? はコメントを受け付けていません

Automated data curation for self-supervised learning in underwater acoustic analysis

要約

海洋生態系の持続可能性は、健全な汚染のレベルの増加によって脅かされており、その変動性と影響を理解するために監視が重要になります。
パッシブアコースティックモニタリング(PAM)システムは、大量の水中サウンド録音を収集しますが、大量のデータにより手動分析が不可能になり、自動化が必要になります。
機械学習は潜在的なソリューションを提供しますが、ほとんどの水中音響録音は無効です。
自己教師の学習モデルは、コンピュータービジョン、自然言語処理、オーディオなどのさまざまなドメインの大規模な非標識データからの学習に成功しています。
ただし、これらのモデルには、適切に一般化するために、トレーニングのために大規模で多様でバランスの取れたデータセットが必要です。
これに対処するために、RAW PAMデータから多様でバランスの取れたデータセットを作成するために、完全に自動化された自己監視データキュレーションパイプラインが提案されています。
自動識別システム(AIS)データを、米国の水域のさまざまなハイドロフォンからの録音と統合します。
階層K-Meansクラスタリングを使用して、生のオーディオデータがサンプリングされ、AISサンプルと組み合わされて、バランスのとれた多様なデータセットが作成されます。
結果として生じるキュレーションされたデータセットにより、自己監視学習モデルの開発が可能になり、海洋哺乳類の監視や健全な汚染の評価などのさまざまなタスクが促進されます。

要約(オリジナル)

The sustainability of the ocean ecosystem is threatened by increased levels of sound pollution, making monitoring crucial to understand its variability and impact. Passive acoustic monitoring (PAM) systems collect a large amount of underwater sound recordings, but the large volume of data makes manual analysis impossible, creating the need for automation. Although machine learning offers a potential solution, most underwater acoustic recordings are unlabeled. Self-supervised learning models have demonstrated success in learning from large-scale unlabeled data in various domains like computer vision, Natural Language Processing, and audio. However, these models require large, diverse, and balanced datasets for training in order to generalize well. To address this, a fully automated self-supervised data curation pipeline is proposed to create a diverse and balanced dataset from raw PAM data. It integrates Automatic Identification System (AIS) data with recordings from various hydrophones in the U.S. waters. Using hierarchical k-means clustering, the raw audio data is sampled and then combined with AIS samples to create a balanced and diverse dataset. The resulting curated dataset enables the development of self-supervised learning models, facilitating various tasks such as monitoring marine mammals and assessing sound pollution.

arxiv情報

著者 Hilde I Hummel,Sandjai Bhulai,Burooj Ghani,Rob van der Mei
発行日 2025-05-26 14:50:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | Automated data curation for self-supervised learning in underwater acoustic analysis はコメントを受け付けていません

Community Moderation and the New Epistemology of Fact Checking on Social Media

要約

ソーシャルメディアプラットフォームは、伝統的に、内部の節度チームと独立した事実確認組織とのパートナーシップに依存しており、誤解を招くコンテンツを特定してフラグを立てていました。
ただし、最近、X(以前のTwitter)やMetaを含むプラットフォームは、クラウドソースのファクトチェックの独自のバージョンであるコミュニティノートを起動することにより、コミュニティ主導のコンテンツモデレートにシフトしました。
効果的に拡大して統治された場合、このような群衆をチェックするイニシアチブは、スパムで行ったように、コミュニティ主導の努力と同じくらいスケールとスピードを上げて誤った情報と戦う可能性があります。
それにもかかわらず、特に誤った情報のための一般的なコンテンツのモデレートは、本質的により複雑です。
真実の世論は、個人的な偏見、政治的傾向、文化的文脈によってしばしば形作られ、誤解を招く内容を構成するものに対するコンセンサスを複雑にします。
これは、コミュニティの努力は価値があるものの、専門的な事実確認者の不可欠な役割を置き換えることができないことを示唆しています。
ここでは、主要なプラットフォーム全体の誤った情報検出に対する現在のアプローチを体系的に検討し、コミュニティ主導の節度の新たな役割を調査し、大規模な群衆チェックの約束と課題の両方を批判的に評価します。

要約(オリジナル)

Social media platforms have traditionally relied on internal moderation teams and partnerships with independent fact-checking organizations to identify and flag misleading content. Recently, however, platforms including X (formerly Twitter) and Meta have shifted towards community-driven content moderation by launching their own versions of crowd-sourced fact-checking — Community Notes. If effectively scaled and governed, such crowd-checking initiatives have the potential to combat misinformation with increased scale and speed as successfully as community-driven efforts once did with spam. Nevertheless, general content moderation, especially for misinformation, is inherently more complex. Public perceptions of truth are often shaped by personal biases, political leanings, and cultural contexts, complicating consensus on what constitutes misleading content. This suggests that community efforts, while valuable, cannot replace the indispensable role of professional fact-checkers. Here we systemically examine the current approaches to misinformation detection across major platforms, explore the emerging role of community-driven moderation, and critically evaluate both the promises and challenges of crowd-checking at scale.

arxiv情報

著者 Isabelle Augenstein,Michiel Bakker,Tanmoy Chakraborty,David Corney,Emilio Ferrara,Iryna Gurevych,Scott Hale,Eduard Hovy,Heng Ji,Irene Larraz,Filippo Menczer,Preslav Nakov,Paolo Papotti,Dhruv Sahnan,Greta Warren,Giovanni Zagni
発行日 2025-05-26 14:50:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.SI | Community Moderation and the New Epistemology of Fact Checking on Social Media はコメントを受け付けていません

On the Same Page: Dimensions of Perceived Shared Understanding in Human-AI Interaction

要約

共有された理解は、人間の相互作用の効果的なコミュニケーションとパフォーマンスにおいて重要な役割を果たします。
AIが人間の文脈にますます一般的に統合されることにより、個人的および職場での相互作用の未来は、共有された理解の認識が重要である人間との相互作用(HAII)を見るでしょう。
既存の文献は、人間と人間の相互作用におけるPSUのプロセスと効果に対処していますが、解釈はHAIIでは露出不足のままです。
HAIIでPSUをよりよく理解するために、オンライン調査を実施して、状況を告げたときに大規模な言語モデルとのやり取りに関するユーザーの反射を収集し、参加者とは異なると考えられていました。
帰納的テーマ分析を通じて、人間との相互作用においてPSUを含む8つの次元を特定しました:流encyさ、整列操作、流動性、結果の満足度、文脈的認識、人間のような能力の欠如、計算制限、疑い。

要約(オリジナル)

Shared understanding plays a key role in the effective communication in and performance of human-human interactions. With the increasingly common integration of AI into human contexts, the future of personal and workplace interactions will likely see human-AI interaction (HAII) in which the perception of shared understanding is important. Existing literature has addressed the processes and effects of PSU in human-human interactions, but the construal remains underexplored in HAII. To better understand PSU in HAII, we conducted an online survey to collect user reflections on interactions with a large language model when it sunderstanding of a situation was thought to be similar to or different from the participant’s. Through inductive thematic analysis, we identified eight dimensions comprising PSU in human-AI interactions: Fluency, aligned operation, fluidity, outcome satisfaction, contextual awareness, lack of humanlike abilities, computational limits, and suspicion.

arxiv情報

著者 Qingyu Liang,Jaime Banks
発行日 2025-05-26 14:50:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | On the Same Page: Dimensions of Perceived Shared Understanding in Human-AI Interaction はコメントを受け付けていません

Curriculum-RLAIF: Curriculum Alignment with Reinforcement Learning from AI Feedback

要約

AIフィードバック(RLAIF)メソッドからの従来の強化学習で訓練された報酬モデルは、補強学習(RL)中のポリシーモデルのアライメントパフォーマンスを妨げる限られた一般化可能性に悩まされます。
この課題は、分布シフト、優先ラベルノイズ、過度に挑戦的なサンプルとモデル容量の間の不一致など、さまざまな問題に由来しています。
この論文では、これらの問題がデータの難易度の観点から本質的に絡み合っているという洞察によって推進されたデータ中心のアプローチを通じて、報酬モデルの一般化可能性を強化しようとします。
これに対処するために、新しいフレームワーク、$ \ textit {curriculum-rlaif} $を提案します。これは、さまざまな難易度レベルで優先ペアを構築し、報酬モデルトレーニングの難易度が高まる優先ペアを徐々に組み込むカリキュラムを生成します。
私たちの実験結果は、カリキュラム-RLAIFで訓練された報酬モデルが一般化の改善を実現し、さまざまな非カリキュラムベースラインと比較して追加の推論コストを帯びることなく、ポリシーモデルのアライメントパフォーマンスを大幅に増加させることを示唆しています。
外部の前提条件の報酬モデルまたは内部の自己選択メカニズムを介したデータ選択、およびその他のカリキュラム戦略を含む、代替アプローチとの詳細な分析と比較は、さらに、シンプルさ、効率性、および効果の観点からアプローチの優位性を示しています。

要約(オリジナル)

Reward models trained with conventional Reinforcement Learning from AI Feedback (RLAIF) methods suffer from limited generalizability, which hinders the alignment performance of the policy model during reinforcement learning (RL). This challenge stems from various issues, including distribution shift, preference label noise, and mismatches between overly challenging samples and model capacity. In this paper, we attempt to enhance the generalizability of reward models through a data-centric approach, driven by the insight that these issues are inherently intertwined from the perspective of data difficulty. To address this, we propose a novel framework, $\textit{Curriculum-RLAIF}$, which constructs preference pairs with varying difficulty levels and produces a curriculum that progressively incorporates preference pairs of increasing difficulty for reward model training. Our experimental results suggest that reward models trained with Curriculum-RLAIF achieve improved generalizability, significantly increasing the alignment performance of the policy model by a large margin without incurring additional inference costs compared to various non-curriculum baselines. Detailed analysis and comparisons with alternative approaches, including data selection via external pretrained reward models or internal self-selection mechanisms, as well as other curriculum strategies, further demonstrate the superiority of our approach in terms of simplicity, efficiency, and effectiveness.

arxiv情報

著者 Mengdi Li,Jiaye Lin,Xufeng Zhao,Wenhao Lu,Peilin Zhao,Stefan Wermter,Di Wang
発行日 2025-05-26 14:53:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Curriculum-RLAIF: Curriculum Alignment with Reinforcement Learning from AI Feedback はコメントを受け付けていません

Explanation User Interfaces: A Systematic Literature Review

要約

人工知能(AI)は、今世紀の主要な技術的進歩の1つであり、多くのドメインでAIを搭載したアプリケーションとツールを通じてユーザーにとって信じられないほどの可能性を抱えています。
多くの場合、ブラックボックス(つまり、意思決定プロセスは理解できません)であるため、開発者は通常、説明可能な人工知能(XAI)技術に頼り、AIモデルの動作を解釈して透明性、公正、信頼性、信頼できるシステムを生成します。
ただし、ユーザーに説明を提示することは些細なことではなく、多くの場合、システムの設計プロセスの二次的な側面として残され、エンドユーザーに役立たないAIシステムにつながります。
このペーパーでは、説明ユーザーインターフェイス(XUIS)に関する体系的な文献レビューを提示して、学術文献で採用されているソリューションと設計ガイドラインをより深く理解して、ユーザーに効果的に説明を提示します。
この調査の貢献と現実世界の影響を改善するために、XUIの設計と評価において開業医と学者を導くために、説明可能なユーザーインターフェイス(HERMES)の人間中心の開発のためのフレームワークも提示します。

要約(オリジナル)

Artificial Intelligence (AI) is one of the major technological advancements of this century, bearing incredible potential for users through AI-powered applications and tools in numerous domains. Being often black-box (i.e., its decision-making process is unintelligible), developers typically resort to eXplainable Artificial Intelligence (XAI) techniques to interpret the behaviour of AI models to produce systems that are transparent, fair, reliable, and trustworthy. However, presenting explanations to the user is not trivial and is often left as a secondary aspect of the system’s design process, leading to AI systems that are not useful to end-users. This paper presents a Systematic Literature Review on Explanation User Interfaces (XUIs) to gain a deeper understanding of the solutions and design guidelines employed in the academic literature to effectively present explanations to users. To improve the contribution and real-world impact of this survey, we also present a framework for Human-cEnteRed developMent of Explainable user interfaceS (HERMES) to guide practitioners and academics in the design and evaluation of XUIs.

arxiv情報

著者 Eleonora Cappuccio,Andrea Esposito,Francesco Greco,Giuseppe Desolda,Rosa Lanzilotti,Salvatore Rinzivillo
発行日 2025-05-26 15:00:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: A.1, cs.AI, cs.HC | Explanation User Interfaces: A Systematic Literature Review はコメントを受け付けていません

SaSi: A Self-augmented and Self-interpreted Deep Learning Approach for Few-shot Cryo-ET Particle Detection

要約

Cryo-Electron断層撮影(Cryo-ET)は、ネイティブに近い州の高分子複合体を画像化するための強力な手法として浮上しています。
ただし、細胞環境における3D粒子の局在は、信号対雑音の比率が低く、ウェッジアーティファクトの欠落により、依然として重要な課題を提示しています。
ディープラーニングアプローチは大きな可能性を示していますが、膨大な量のデータが必要です。これは、ラベル付きのデータがしばしば不足しているCRYO-ETシナリオでは課題となる可能性があります。
この論文では、3D cryo-et画像の少数の粒子検出に向けて、新しい自己熟成と自己解釈(SASI)の深い学習アプローチを提案します。
私たちの方法は、データの使用率をさらに高めるための自己摂取技術に基づいて構築され、ラベル付きデータへの依存を軽減するための自己解釈されたセグメンテーション戦略を導入し、一般化と堅牢性を改善します。
SASIアプローチは、シミュレートされたCryo-ETデータセットの両方で実施さ​​れた実験で実証されているように、粒子局在化のための既存の最先端の方法を大幅に上回っています。
この研究により、Cryo-ETのラベルが非常に少ない粒子を検出する方法の理解が高まり、したがって、構造生物学の少数の学習のための新しいベンチマークを設定します。

要約(オリジナル)

Cryo-electron tomography (cryo-ET) has emerged as a powerful technique for imaging macromolecular complexes in their near-native states. However, the localization of 3D particles in cellular environments still presents a significant challenge due to low signal-to-noise ratios and missing wedge artifacts. Deep learning approaches have shown great potential, but they need huge amounts of data, which can be a challenge in cryo-ET scenarios where labeled data is often scarce. In this paper, we propose a novel Self-augmented and Self-interpreted (SaSi) deep learning approach towards few-shot particle detection in 3D cryo-ET images. Our method builds upon self-augmentation techniques to further boost data utilization and introduces a self-interpreted segmentation strategy for alleviating dependency on labeled data, hence improving generalization and robustness. As demonstrated by experiments conducted on both simulated and real-world cryo-ET datasets, the SaSi approach significantly outperforms existing state-of-the-art methods for particle localization. This research increases understanding of how to detect particles with very few labels in cryo-ET and thus sets a new benchmark for few-shot learning in structural biology.

arxiv情報

著者 Gokul Adethya,Bhanu Pratyush Mantha,Tianyang Wang,Xingjian Li,Min Xu
発行日 2025-05-26 13:14:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | SaSi: A Self-augmented and Self-interpreted Deep Learning Approach for Few-shot Cryo-ET Particle Detection はコメントを受け付けていません

Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval

要約

Zero-Shot Composed Image Retrieval(ZS-CIR)は、注釈付きのトレーニングデータに依存することで、参照画像と修正テキストで構成される構成クエリを考慮して、ターゲット画像を取得することを目的としています。
既存のアプローチは、大規模な言語モデル(LLM)を使用して合成ターゲットテキストを生成し、構成クエリとターゲット画像の間の中間アンカーとして機能します。
次に、モデルをトレーニングして、構成クエリを生成されたテキストに合わせ、対応する学習を使用して対応するテキストと個別に画像を整列させます。
ただし、中間テキストへのこの依存は、クエリからテキストへの不正確さとテキスト間マッピングが蓄積し、最終的に検索パフォーマンスを低下させるため、エラーの伝播をもたらします。
これらの問題に対処するために、ZS-CIRにマルチモーダル推論エージェント(MRA)を採用することにより、新しいフレームワークを提案します。
MRAは、非標識画像データのみを使用して、トリプレット、<参照画像、変更テキスト、ターゲット画像>を直接構築することにより、テキスト仲介業者への依存を排除​​します。
これらの合成トリプレットをトレーニングすることにより、私たちのモデルは、構成クエリと候補画像の間の関係を直接キャプチャすることを学びます。
3つの標準CIRベンチマークでの広範な実験は、アプローチの有効性を示しています。
FashionIQデータセットでは、この方法は既存のベースラインで平均R@10×7.5 \%を改善します。
CIRRでは、R@1 x 9.6 \%を高めます。
CIRCOでは、MAP@5 x 9.5 \%を増やします。

要約(オリジナル)

Zero-Shot Composed Image Retrieval (ZS-CIR) aims to retrieve target images given a compositional query, consisting of a reference image and a modifying text-without relying on annotated training data. Existing approaches often generate a synthetic target text using large language models (LLMs) to serve as an intermediate anchor between the compositional query and the target image. Models are then trained to align the compositional query with the generated text, and separately align images with their corresponding texts using contrastive learning. However, this reliance on intermediate text introduces error propagation, as inaccuracies in query-to-text and text-to-image mappings accumulate, ultimately degrading retrieval performance. To address these problems, we propose a novel framework by employing a Multimodal Reasoning Agent (MRA) for ZS-CIR. MRA eliminates the dependence on textual intermediaries by directly constructing triplets, , using only unlabeled image data. By training on these synthetic triplets, our model learns to capture the relationships between compositional queries and candidate images directly. Extensive experiments on three standard CIR benchmarks demonstrate the effectiveness of our approach. On the FashionIQ dataset, our method improves Average R@10 by at least 7.5\% over existing baselines; on CIRR, it boosts R@1 by 9.6\%; and on CIRCO, it increases mAP@5 by 9.5\%.

arxiv情報

著者 Rong-Cheng Tu,Wenhao Sun,Hanzhe You,Yingjie Wang,Jiaxing Huang,Li Shen,Dacheng Tao
発行日 2025-05-26 13:17:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR | Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval はコメントを受け付けていません

DeepEyes: Incentivizing ‘Thinking with Images’ via Reinforcement Learning

要約

大規模なビジョン言語モデル(VLM)は、マルチモーダルの理解と推論に強力な能力を示していますが、主にテキストベースの推論プロセスによって制約されています。
ただし、人間の認知プロセスを反映する視覚的およびテキストの推論のシームレスな統合を達成することは、依然として重要な課題です。
特に、高度な視覚入力処理を推論メカニズムに効果的に組み込むことは、依然として未解決の問題です。
したがって、このホワイトペーパーでは、インターリーブマルチモーダル推論パラダイムを探索し、ディープエイズを導入します。これは、コールドスタートSFTを必要とせずにエンドツーエンドの強化学習を通じてインセンティブ化された「画像との思考」機能を備えたモデルです。
特に、この能力はモデル自体内でネイティブに出現し、個別の専門モデルに依存するのではなく、ツールとしての固有の接地能力を活用します。
具体的には、成功したツール支援の推論軌跡を促進するためのツール使用指向のデータ選択メカニズムと報酬戦略を提案します。
Deepeyesは、細かい知覚と推論ベンチマークで大きなパフォーマンスの向上を達成し、接地、幻覚、数学的推論のタスクの改善も示しています。
興味深いことに、初期探査から効率的かつ正確な搾取、および人間の視覚的推論プロセスを密接に反映する多様な思考パターンへのツールコール動作の明確な進化を観察します。
コードはhttps://github.com/visual-agent/deepeyesで入手できます。

要約(オリジナル)

Large Vision-Language Models (VLMs) have shown strong capabilities in multimodal understanding and reasoning, yet they are primarily constrained by text-based reasoning processes. However, achieving seamless integration of visual and textual reasoning which mirrors human cognitive processes remains a significant challenge. In particular, effectively incorporating advanced visual input processing into reasoning mechanisms is still an open question. Thus, in this paper, we explore the interleaved multimodal reasoning paradigm and introduce DeepEyes, a model with ‘thinking with images’ capabilities incentivized through end-to-end reinforcement learning without the need for cold-start SFT. Notably, this ability emerges natively within the model itself, leveraging its inherent grounding ability as a tool instead of depending on separate specialized models. Specifically, we propose a tool-use-oriented data selection mechanism and a reward strategy to encourage successful tool-assisted reasoning trajectories. DeepEyes achieves significant performance gains on fine-grained perception and reasoning benchmarks and also demonstrates improvement in grounding, hallucination, and mathematical reasoning tasks. Interestingly, we observe the distinct evolution of tool-calling behavior from initial exploration to efficient and accurate exploitation, and diverse thinking patterns that closely mirror human visual reasoning processes. Code is available at https://github.com/Visual-Agent/DeepEyes.

arxiv情報

著者 Ziwei Zheng,Michael Yang,Jack Hong,Chenxiao Zhao,Guohai Xu,Le Yang,Chao Shen,Xing Yu
発行日 2025-05-26 13:19:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DeepEyes: Incentivizing ‘Thinking with Images’ via Reinforcement Learning はコメントを受け付けていません