Federated Learning in Practice: Reflections and Projections

要約

Federated Learning (FL) は、複数のエンティティがローカル データを交換せずに共有モデルを共同で学習できるようにする機械学習手法です。
過去 10 年にわたり、FL システムは大幅な進歩を遂げ、さまざまな学習ドメインにわたって数百万台のデバイスに拡張しながら、意味のある差分プライバシー (DP) 保証を提供しました。
Google、Apple、Meta などの組織による運用システムは、FL の現実世界への適用可能性を実証しています。
ただし、サーバー側の DP 保証の検証や異種デバイス間でのトレーニングの調整など、重要な課題が残っており、広範な導入が制限されています。
さらに、大規模な (マルチモーダル) モデルやトレーニング、推論、パーソナライゼーションの間の曖昧な境界線などの新たなトレンドが、従来の FL フレームワークに課題をもたらしています。
これに応えて、私たちは厳格な定義ではなくプライバシー原則を優先する再定義された FL フレームワークを提案します。
また、信頼できる実行環境とオープンソース エコシステムを活用して、これらの課題に対処し、フロリダ州での将来の進歩を促進することで、今後の道筋を描きます。

要約(オリジナル)

Federated Learning (FL) is a machine learning technique that enables multiple entities to collaboratively learn a shared model without exchanging their local data. Over the past decade, FL systems have achieved substantial progress, scaling to millions of devices across various learning domains while offering meaningful differential privacy (DP) guarantees. Production systems from organizations like Google, Apple, and Meta demonstrate the real-world applicability of FL. However, key challenges remain, including verifying server-side DP guarantees and coordinating training across heterogeneous devices, limiting broader adoption. Additionally, emerging trends such as large (multi-modal) models and blurred lines between training, inference, and personalization challenge traditional FL frameworks. In response, we propose a redefined FL framework that prioritizes privacy principles rather than rigid definitions. We also chart a path forward by leveraging trusted execution environments and open-source ecosystems to address these challenges and facilitate future advancements in FL.

arxiv情報

著者 Katharine Daly,Hubert Eichner,Peter Kairouz,H. Brendan McMahan,Daniel Ramage,Zheng Xu
発行日 2024-10-11 15:10:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | Federated Learning in Practice: Reflections and Projections はコメントを受け付けていません

Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient

要約

モデルベースの強化学習 (RL) は、ほとんどのモデルフリー RL アルゴリズムを悩ませるデータの非効率性に対する解決策を提供します。
ただし、堅牢な世界モデルを学習するには、多くの場合、計算とトレーニングにコストがかかる、複雑で奥深いアーキテクチャが必要になります。
ワールド モデルの中で、ダイナミクス モデルは正確な予測に特に重要であり、それぞれに独自の課題を抱えたさまざまなダイナミクス モデル アーキテクチャが検討されてきました。
現在、リカレント ニューラル ネットワーク (RNN) ベースの世界モデルは、勾配の消失や長期的な依存関係を効果的に把握することが難しいなどの問題に直面しています。
対照的に、トランスフォーマーの使用には、メモリと計算の複雑さの両方が $O(n^2)$ ($n$ がシーケンス長を表す) としてスケールされるセルフ アテンション メカニズムのよく知られた問題があります。
これらの課題に対処するために、私たちは、長期的な依存関係を効果的にキャプチャし、より長いトレーニング シーケンスの効率的な使用を容易にしながら、$O(n)$ のメモリと計算の複雑さを達成する、特に Mamba に基づいた状態空間モデル (SSM) ベースのワールド モデルを提案します。

また、トレーニングの初期段階で不正確なワールド モデルによって引き起こされる準最適性を軽減する新しいサンプリング手法を導入し、前述の手法と組み合わせて、他の最先端のモデルベースの RL アルゴリズムに匹敵する正規化スコアを達成します。
700 万のトレーニング可能なパラメータの世界モデルのみを使用します。
このモデルはアクセス可能で、既製のラップトップでトレーニングできます。
私たちのコードは https://github.com/realwenlongwang/drama.git で入手できます。

要約(オリジナル)

Model-based reinforcement learning (RL) offers a solution to the data inefficiency that plagues most model-free RL algorithms. However, learning a robust world model often demands complex and deep architectures, which are expensive to compute and train. Within the world model, dynamics models are particularly crucial for accurate predictions, and various dynamics-model architectures have been explored, each with its own set of challenges. Currently, recurrent neural network (RNN) based world models face issues such as vanishing gradients and difficulty in capturing long-term dependencies effectively. In contrast, use of transformers suffers from the well-known issues of self-attention mechanisms, where both memory and computational complexity scale as $O(n^2)$, with $n$ representing the sequence length. To address these challenges we propose a state space model (SSM) based world model, specifically based on Mamba, that achieves $O(n)$ memory and computational complexity while effectively capturing long-term dependencies and facilitating the use of longer training sequences efficiently. We also introduce a novel sampling method to mitigate the suboptimality caused by an incorrect world model in the early stages of training, combining it with the aforementioned technique to achieve a normalised score comparable to other state-of-the-art model-based RL algorithms using only a 7 million trainable parameter world model. This model is accessible and can be trained on an off-the-shelf laptop. Our code is available at https://github.com/realwenlongwang/drama.git.

arxiv情報

著者 Wenlong Wang,Ivana Dusparic,Yucheng Shi,Ke Zhang,Vinny Cahill
発行日 2024-10-11 15:10:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient はコメントを受け付けていません

Conditional Generative Models for Contrast-Enhanced Synthesis of T1w and T1 Maps in Brain MRI

要約

ガドリニウムベースの造影剤 (GBCA) によるコントラスト増強は、神経放射線学における腫瘍診断に不可欠なツールです。
ガドリニウム投与前後の神経膠芽腫の脳 MRI スキャンに基づいて、2 つの新しい貢献を備えたニューラル ネットワークによる増強予測に取り組みます。
まず、仮想強化における不確実性の定量化のための生成モデル、より正確には条件付き拡散とフローマッチングの可能性を研究します。
次に、定量的 MRI による T1 スキャンと T1 強調スキャンのパフォーマンスを調べます。
T1 強調スキャンとは対照的に、これらのスキャンには物理的に意味があり、それにより同等のボクセル範囲という利点があります。
これら 2 つのモダリティのネットワーク予測パフォーマンスを互換性のないグレー値スケールで比較するために、Dice スコアと Jaccard スコアを使用してコントラスト強調された関心領域のセグメンテーションを評価することを提案します。
どのモデルでも、T1 強調スキャンよりも T1 スキャンの方が優れたセグメンテーションが観察されます。

要約(オリジナル)

Contrast enhancement by Gadolinium-based contrast agents (GBCAs) is a vital tool for tumor diagnosis in neuroradiology. Based on brain MRI scans of glioblastoma before and after Gadolinium administration, we address enhancement prediction by neural networks with two new contributions. Firstly, we study the potential of generative models, more precisely conditional diffusion and flow matching, for uncertainty quantification in virtual enhancement. Secondly, we examine the performance of T1 scans from quantitive MRI versus T1-weighted scans. In contrast to T1-weighted scans, these scans have the advantage of a physically meaningful and thereby comparable voxel range. To compare network prediction performance of these two modalities with incompatible gray-value scales, we propose to evaluate segmentations of contrast-enhanced regions of interest using Dice and Jaccard scores. Across models, we observe better segmentations with T1 scans than with T1-weighted scans.

arxiv情報

著者 Moritz Piening,Fabian Altekrüger,Gabriele Steidl,Elke Hattingen,Eike Steidl
発行日 2024-10-11 15:11:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.IV, q-bio.NC | Conditional Generative Models for Contrast-Enhanced Synthesis of T1w and T1 Maps in Brain MRI はコメントを受け付けていません

Utilizing ChatGPT in a Data Structures and Algorithms Course: A Teaching Assistant’s Perspective

要約

ChatGPT のような大規模言語モデル (LLM) の統合は、コンピューター サイエンス教育の分野に革命をもたらしています。
これらのモデルは、生徒の学習を充実させ、ティーチング アシスタント (TA) が迅速なフィードバックや補足学習リソースを提供できるようにサポートするための新たな可能性を提供します。
この研究では、データ構造とアルゴリズム (DSA) コースにおける ChatGPT の使用法、特に TA の監視と組み合わせた場合について詳しく掘り下げています。
この調査結果は、構造化されたプロンプトとアクティブな TA ガイダンスを ChatGPT に組み込むことで、複雑なアルゴリズムの概念に対する生徒の理解を強化し、学習意欲を高め、学業成績を向上させることを示しています。
しかし、学術的誠実さと、複雑な問題に取り組む際のLLMの限界に対処するには課題が存在します。
この研究は、AI が生成したコンテンツへの学生の依存を減らし、全体的な教育効果を拡大する上で、TA の積極的な関与の重要性を強調しています。
この結果は、LLM は教育にとって有利である一方で、その統合を成功させるには継続的な監視と、AI と人間の指導の間の思慮深いバランスが必要であることを示唆しています。

要約(オリジナル)

Integrating large language models (LLMs) like ChatGPT is revolutionizing the field of computer science education. These models offer new possibilities for enriching student learning and supporting teaching assistants (TAs) in providing prompt feedback and supplementary learning resources. This research delves into the use of ChatGPT in a data structures and algorithms (DSA) course, particularly when combined with TA supervision. The findings demonstrate that incorporating ChatGPT with structured prompts and active TA guidance enhances students’ understanding of intricate algorithmic concepts, boosts engagement, and elevates academic performance. However, challenges exist in addressing academic integrity and the limitations of LLMs in tackling complex problems. The study underscores the importance of active TA involvement in reducing students’ reliance on AI-generated content and amplifying the overall educational impact. The results suggest that while LLMs can be advantageous for education, their successful integration demands continuous oversight and a thoughtful balance between AI and human guidance.

arxiv情報

著者 Pooriya Jamie,Reyhaneh Hajihashemi,Sharareh Alipour
発行日 2024-10-11 15:18:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DS, cs.HC, I.2.6 | Utilizing ChatGPT in a Data Structures and Algorithms Course: A Teaching Assistant’s Perspective はコメントを受け付けていません

A Benchmark for Cross-Domain Argumentative Stance Classification on Social Media

要約

議論的スタンスの分類は、特定のトピックに関する著者の視点を特定する上で重要な役割を果たします。
ただし、さまざまな領域にわたって多様な議論文のペアを生成するのは困難です。
既存のベンチマークは、多くの場合、単一のドメインからのものであるか、限られたトピックに焦点を当てています。
さらに、正確なラベルを付けるための手動の注釈は時間と労力がかかります。
これらの課題に対処するために、私たちは、プラットフォーム ルール、すぐに利用できる専門家が厳選したコンテンツ、大規模な言語モデルを活用して人間による注釈の必要性を回避することを提案します。
私たちのアプローチは、21 のドメインにわたる 3 つの情報源からの 4,498 件の話題の主張と 30,961 件の議論で構成されるマルチドメイン ベンチマークを生成します。
完全に監視された、ゼロショット、および少数ショットの設定でデータセットのベンチマークを行い、さまざまな方法論の長所と限界を明らかにします。
この研究のデータセットとコードは、匿名性を確保するために非表示で公開します。

要約(オリジナル)

Argumentative stance classification plays a key role in identifying authors’ viewpoints on specific topics. However, generating diverse pairs of argumentative sentences across various domains is challenging. Existing benchmarks often come from a single domain or focus on a limited set of topics. Additionally, manual annotation for accurate labeling is time-consuming and labor-intensive. To address these challenges, we propose leveraging platform rules, readily available expert-curated content, and large language models to bypass the need for human annotation. Our approach produces a multidomain benchmark comprising 4,498 topical claims and 30,961 arguments from three sources, spanning 21 domains. We benchmark the dataset in fully supervised, zero-shot, and few-shot settings, shedding light on the strengths and limitations of different methodologies. We release the dataset and code in this study at hidden for anonymity.

arxiv情報

著者 Jiaqing Yuan,Ruijie Xi,Munindar P. Singh
発行日 2024-10-11 15:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A Benchmark for Cross-Domain Argumentative Stance Classification on Social Media はコメントを受け付けていません

Modular Multimodal Machine Learning for Extraction of Theorems and Proofs in Long Scientific Documents (Extended Version)

要約

私たちは、PDF のテキスト、フォントの特徴、および PDF のビットマップ画像レンダリングを別個のモダリティとして利用し、マルチモーダルな分類問題として学術 PDF 論文からの数学的ステートメントとその証明の抽出に取り組みます。
私たちは、定理のような環境と証明を抽出するために特別に設計されたモジュール式の逐次マルチモーダル機械学習アプローチを提案します。
これは、マルチモーダル段落埋め込みを生成するクロスモーダル アテンション メカニズムに基づいており、それが新しいマルチモーダル スライディング ウィンドウ トランスフォーマー アーキテクチャに供給されて、段落全体にわたる連続した情報がキャプチャされます。
当社のドキュメント AI 手法は、OCR 前処理、推論中の LaTeX ソース、クロスモダリティ関係を理解するための特殊な損失に関するカスタム事前トレーニングの必要性を排除する点で際立っています。
単一ページ レベルで動作する多くの従来のアプローチとは異なり、私たちのアプローチは複数ページの PDF に直接適用でき、長い科学数学文書でよく見られる改ページをシームレスに処理できます。
私たちのアプローチは、単峰性から多峰性への移行、そして最終的に段落にわたる逐次モデリングの組み込みによって得られるパフォーマンスの向上を示しています。

要約(オリジナル)

We address the extraction of mathematical statements and their proofs from scholarly PDF articles as a multimodal classification problem, utilizing text, font features, and bitmap image renderings of PDFs as distinct modalities. We propose a modular sequential multimodal machine learning approach specifically designed for extracting theorem-like environments and proofs. This is based on a cross-modal attention mechanism to generate multimodal paragraph embeddings, which are then fed into our novel multimodal sliding window transformer architecture to capture sequential information across paragraphs. Our document AI methodology stands out as it eliminates the need for OCR preprocessing, LaTeX sources during inference, or custom pre-training on specialized losses to understand cross-modality relationships. Unlike many conventional approaches that operate at a single-page level, ours can be directly applied to multi-page PDFs and seamlessly handles the page breaks often found in lengthy scientific mathematical documents. Our approach demonstrates performance improvements obtained by transitioning from unimodality to multimodality, and finally by incorporating sequential modeling over paragraphs.

arxiv情報

著者 Shrey Mishra,Antoine Gauquier,Pierre Senellart
発行日 2024-10-11 15:26:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Modular Multimodal Machine Learning for Extraction of Theorems and Proofs in Long Scientific Documents (Extended Version) はコメントを受け付けていません

Test-driven Software Experimentation with LASSO: an LLM Benchmarking Example

要約

経験的ソフトウェア エンジニアリングは、重大なギャップに直面しています。それは、テスト駆動ソフトウェア実験 (TDSE) の迅速な開発と実行、つまり、ソフトウェア サブジェクトの実行とその「事実上の」観察と分析を伴う実験のための標準化されたツールの欠如です。
実行時の動作。
このペーパーでは、TDSE を実行するためのドメイン固有の言語とデータ構造の最小限のセットを提供する LASSO と呼ばれる汎用分析プラットフォームを紹介します。
LASSO は、ユーザーが実行可能なスクリプト言語を使用して TDSE を設計および実行できるようにすることで、静的に決定されるプロパティに加えて、実行時のセマンティクスと実行特性を効率的に評価できるようにします。
自己完結型で再利用可能で拡張可能なスタディ スクリプトを使用して、コード生成のための LLM の信頼性を評価するための LASSO のスクリプト機能の実際的な利点を示す TDSE の例を示します。
LASSO プラットフォームは https://softwareobservatorium.github.io/ で無料で入手できます。デモ ビデオは YouTube で入手できます: https://youtu.be/tzY9oNTWXzw

要約(オリジナル)

Empirical software engineering faces a critical gap: the lack of standardized tools for rapid development and execution of Test-Driven Software Experiments (TDSEs) – that is, experiments that involve the execution of software subjects and the observation and analysis of their ‘de facto’ run-time behavior. In this paper we present a general-purpose analysis platform called LASSO that provides a minimal set of domain-specific languages and data structures to conduct TDSEs. By empowering users with an executable scripting language to design and execute TDSEs, LASSO enables efficient evaluation of run-time semantics and execution characteristics in addition to statically determined properties. We present an example TDSE that demonstrates the practical benefits of LASSO’s scripting capabilities for assessing the reliability of LLMs for code generation by means of a self-contained, reusable and extensible study script. The LASSO platform is freely available at: https://softwareobservatorium.github.io/, and a demo video is available on YouTube: https://youtu.be/tzY9oNTWXzw

arxiv情報

著者 Marcus Kessel
発行日 2024-10-11 15:32:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE, D.2.1 | Test-driven Software Experimentation with LASSO: an LLM Benchmarking Example はコメントを受け付けていません

SOAP-RL: Sequential Option Advantage Propagation for Reinforcement Learning in POMDP Environments

要約

この研究では、オプションを使用して強化学習アルゴリズムを部分観察マルコフ決定プロセス (POMDP) に拡張する方法を比較します。
オプションの 1 つのビューは、一時的に拡張されたアクションであり、エージェントがポリシーのコンテキスト ウィンドウを超えて履歴情報を保持できるようにするメモリとして実現できます。
オプションの割り当てはヒューリスティックと手作りの目標を使用して処理できますが、時間的に一貫したオプションと関連するサブポリシーを明示的な監視なしで学習するのは困難です。
この問題に対処するために、PPOEM と SOAP という 2 つのアルゴリズムが提案され、徹底的に研究されています。
PPOEM は、前方後方アルゴリズム (隠れマルコフ モデル用) を適用して、オプション拡張政策の期待収益を最適化します。
ただし、この学習アプローチは、ポリシーに基づいたロールアウト中は不安定です。
また、オプションの割り当てはエピソード全体が利用可能なオフライン シーケンス向けに最適化されているため、将来の軌跡を知らずに因果関係のポリシーを学習するのにも適していません。
代替アプローチとして、SOAP は最適なオプション割り当てのポリシー勾配を評価します。
これは、一般化利点推定 (GAE) の概念を拡張して、オプションの利点を時間を通じて伝播します。これは、オプション政策勾配の時間的逆伝播を実行することと分析的に同等です。
このオプション ポリシーは、エージェントの履歴にのみ条件があり、将来のアクションには条件がありません。
競合するベースラインと比較して評価した場合、SOAP は最も堅牢なパフォーマンスを示し、POMDP コリドー環境のオプションを正しく検出し、Atari や MuJoCo などの標準ベンチマークでも PPOEM や LSTM および Option-Critic ベースラインを上回りました。
オープンソースのコードは https://github.com/shuishida/SoapRL で入手できます。

要約(オリジナル)

This work compares ways of extending Reinforcement Learning algorithms to Partially Observed Markov Decision Processes (POMDPs) with options. One view of options is as temporally extended action, which can be realized as a memory that allows the agent to retain historical information beyond the policy’s context window. While option assignment could be handled using heuristics and hand-crafted objectives, learning temporally consistent options and associated sub-policies without explicit supervision is a challenge. Two algorithms, PPOEM and SOAP, are proposed and studied in depth to address this problem. PPOEM applies the forward-backward algorithm (for Hidden Markov Models) to optimize the expected returns for an option-augmented policy. However, this learning approach is unstable during on-policy rollouts. It is also unsuited for learning causal policies without the knowledge of future trajectories, since option assignments are optimized for offline sequences where the entire episode is available. As an alternative approach, SOAP evaluates the policy gradient for an optimal option assignment. It extends the concept of the generalized advantage estimation (GAE) to propagate option advantages through time, which is an analytical equivalent to performing temporal back-propagation of option policy gradients. This option policy is only conditional on the history of the agent, not future actions. Evaluated against competing baselines, SOAP exhibited the most robust performance, correctly discovering options for POMDP corridor environments, as well as on standard benchmarks including Atari and MuJoCo, outperforming PPOEM, as well as LSTM and Option-Critic baselines. The open-sourced code is available at https://github.com/shuishida/SoapRL.

arxiv情報

著者 Shu Ishida,João F. Henriques
発行日 2024-10-11 15:35:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | SOAP-RL: Sequential Option Advantage Propagation for Reinforcement Learning in POMDP Environments はコメントを受け付けていません

Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own

要約

強化学習 (RL) は、ロボット操作タスクを解決するための有望なアプローチです。
ただし、RL アルゴリズムを現実世界に直接適用することは困難です。
まず、RL はデータ集約的であり、通常は環境との何百万もの対話を必要としますが、これは実際のシナリオでは非現実的です。
もう 1 つは、報酬関数を手動で設計するために多大なエンジニアリング作業を行う必要があることです。
これらの問題に対処するために、このペーパーでは基礎モデルを活用します。
私たちは、ポリシー、価値、成功報酬基盤モデルからのガイダンスとフィードバックを活用するために、基盤事前学習による強化学習 (RLFP) を提案します。
このフレームワーク内で、財団主導のアクター・クリティック (FAC) アルゴリズムを導入します。これにより、身体化されたエージェントが自動報酬機能を使用してより効率的に探索できるようになります。
私たちのフレームワークには次の 3 つの利点があります: (1) \textit{サンプル効率};
(2) \textit{最小限かつ効果的な報酬エンジニアリング};
(3) \textit{基礎モデルの形式に依存せず、ノイズの多い事前分布に対して堅牢}。
私たちの手法は、実際のロボットとシミュレーションの両方でさまざまな操作タスクにおいて顕著なパフォーマンスを達成します。
実際のロボットを使用した 5 つの器用なタスクにわたって、FAC は 1 時間のリアルタイム学習後に平均 86\% の成功率を達成しました。
シミュレートされたメタワールドの 8 つのタスクにわたって、FAC は 100,000 フレーム未満 (約 1 時間のトレーニング) で 7/8 タスクで 100\% の成功率を達成し、100 万フレームで手動で設計された報酬を伴うベースライン手法を上回りました。
私たちは、RLFP フレームワークにより、将来のロボットがより多くのタスクのために物理世界で自律的に探索および学習できるようになると信じています。
ビジュアライゼーションとコードは \url{https://yewr.github.io/rlfp} で入手できます。

要約(オリジナル)

Reinforcement learning (RL) is a promising approach for solving robotic manipulation tasks. However, it is challenging to apply the RL algorithms directly in the real world. For one thing, RL is data-intensive and typically requires millions of interactions with environments, which are impractical in real scenarios. For another, it is necessary to make heavy engineering efforts to design reward functions manually. To address these issues, we leverage foundation models in this paper. We propose Reinforcement Learning with Foundation Priors (RLFP) to utilize guidance and feedback from policy, value, and success-reward foundation models. Within this framework, we introduce the Foundation-guided Actor-Critic (FAC) algorithm, which enables embodied agents to explore more efficiently with automatic reward functions. The benefits of our framework are threefold: (1) \textit{sample efficient}; (2) \textit{minimal and effective reward engineering}; (3) \textit{agnostic to foundation model forms and robust to noisy priors}. Our method achieves remarkable performances in various manipulation tasks on both real robots and in simulation. Across 5 dexterous tasks with real robots, FAC achieves an average success rate of 86\% after one hour of real-time learning. Across 8 tasks in the simulated Meta-world, FAC achieves 100\% success rates in 7/8 tasks under less than 100k frames (about 1-hour training), outperforming baseline methods with manual-designed rewards in 1M frames. We believe the RLFP framework can enable future robots to explore and learn autonomously in the physical world for more tasks. Visualizations and code are available at \url{https://yewr.github.io/rlfp}.

arxiv情報

著者 Weirui Ye,Yunsheng Zhang,Haoyang Weng,Xianfan Gu,Shengjie Wang,Tong Zhang,Mengchen Wang,Pieter Abbeel,Yang Gao
発行日 2024-10-11 15:36:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own はコメントを受け付けていません

From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis

要約

ビジョン言語モデル (VLM) における複数ステップの推論を探索します。
視覚処理と言語処理の複数のステップからなる推論データがほとんど入手できないため、この問題は困難です。
この課題を克服するために、まず、質問をサブ質問に分解し、サブ質問を解決するための外部ツールを呼び出すステップをインターリーブする、最小から最大への視覚推論パラダイムを導入します。
このパラダイムに基づいて、ボトムアップ方式で画像に対する質問と複数ステップの推論パスを自動的に作成できる新しいデータ合成アプローチをさらに提案します。
私たちのアプローチでは、複雑な合成タスクをいくつかの単純なサブタスクに分割し、(ほぼ完全に) オープンソース モデルに依存してサブタスクを実行します。
したがって、合成プロセス全体が再現可能でコスト効率が高く、合成データの品質が保証されます。
このアプローチにより、$50$k の視覚的推論の例を構築します。
次に、教師あり微調整を通じて、プラグアンドプレイ方式で既存のさまざまな VLM の推論能力を全般的に強化できるビジュアル推論器を開発します。
広範な実験により、ビジュアル リーズナーが 4 つの VQA ベンチマークで 4 つの VLM を一貫して大幅に改善できることが示されました。
コードとデータセットは https://github.com/steven-ccq/VisualReasoner で入手できます。

要約(オリジナル)

We explore multi-step reasoning in vision-language models (VLMs). The problem is challenging, as reasoning data consisting of multiple steps of visual and language processing are barely available. To overcome the challenge, we first introduce a least-to-most visual reasoning paradigm, which interleaves steps of decomposing a question into sub-questions and invoking external tools for resolving sub-questions. Based on the paradigm, we further propose a novel data synthesis approach that can automatically create questions and multi-step reasoning paths for an image in a bottom-up manner. Our approach divides the complex synthesis task into a few simple sub-tasks, and (almost entirely) relies on open-sourced models to accomplish the sub-tasks. Therefore, the entire synthesis process is reproducible and cost-efficient, and the synthesized data is quality guaranteed. With the approach, we construct $50$k visual reasoning examples. Then, we develop a visual reasoner through supervised fine-tuning, which is capable of generally enhancing the reasoning abilities of a wide range of existing VLMs in a plug-and-play fashion. Extensive experiments indicate that the visual reasoner can consistently and significantly improve four VLMs on four VQA benchmarks. Our code and dataset are available at https://github.com/steven-ccq/VisualReasoner.

arxiv情報

著者 Chuanqi Cheng,Jian Guan,Wei Wu,Rui Yan
発行日 2024-10-11 15:41:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis はコメントを受け付けていません