Modular Multimodal Machine Learning for Extraction of Theorems and Proofs in Long Scientific Documents (Extended Version)

要約

私たちは、PDF のテキスト、フォントの特徴、および PDF のビットマップ画像レンダリングを別個のモダリティとして利用し、マルチモーダルな分類問題として学術 PDF 論文からの数学的ステートメントとその証明の抽出に取り組みます。
私たちは、定理のような環境と証明を抽出するために特別に設計されたモジュール式の逐次マルチモーダル機械学習アプローチを提案します。
これは、マルチモーダル段落埋め込みを生成するクロスモーダル アテンション メカニズムに基づいており、それが新しいマルチモーダル スライディング ウィンドウ トランスフォーマー アーキテクチャに供給されて、段落全体にわたる連続した情報がキャプチャされます。
当社のドキュメント AI 手法は、OCR 前処理、推論中の LaTeX ソース、クロスモダリティ関係を理解するための特殊な損失に関するカスタム事前トレーニングの必要性を排除する点で際立っています。
単一ページ レベルで動作する多くの従来のアプローチとは異なり、私たちのアプローチは複数ページの PDF に直接適用でき、長い科学数学文書でよく見られる改ページをシームレスに処理できます。
私たちのアプローチは、単峰性から多峰性への移行、そして最終的に段落にわたる逐次モデリングの組み込みによって得られるパフォーマンスの向上を示しています。

要約(オリジナル)

We address the extraction of mathematical statements and their proofs from scholarly PDF articles as a multimodal classification problem, utilizing text, font features, and bitmap image renderings of PDFs as distinct modalities. We propose a modular sequential multimodal machine learning approach specifically designed for extracting theorem-like environments and proofs. This is based on a cross-modal attention mechanism to generate multimodal paragraph embeddings, which are then fed into our novel multimodal sliding window transformer architecture to capture sequential information across paragraphs. Our document AI methodology stands out as it eliminates the need for OCR preprocessing, LaTeX sources during inference, or custom pre-training on specialized losses to understand cross-modality relationships. Unlike many conventional approaches that operate at a single-page level, ours can be directly applied to multi-page PDFs and seamlessly handles the page breaks often found in lengthy scientific mathematical documents. Our approach demonstrates performance improvements obtained by transitioning from unimodality to multimodality, and finally by incorporating sequential modeling over paragraphs.

arxiv情報

著者 Shrey Mishra,Antoine Gauquier,Pierre Senellart
発行日 2024-10-11 15:26:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Modular Multimodal Machine Learning for Extraction of Theorems and Proofs in Long Scientific Documents (Extended Version) はコメントを受け付けていません

Test-driven Software Experimentation with LASSO: an LLM Benchmarking Example

要約

経験的ソフトウェア エンジニアリングは、重大なギャップに直面しています。それは、テスト駆動ソフトウェア実験 (TDSE) の迅速な開発と実行、つまり、ソフトウェア サブジェクトの実行とその「事実上の」観察と分析を伴う実験のための標準化されたツールの欠如です。
実行時の動作。
このペーパーでは、TDSE を実行するためのドメイン固有の言語とデータ構造の最小限のセットを提供する LASSO と呼ばれる汎用分析プラットフォームを紹介します。
LASSO は、ユーザーが実行可能なスクリプト言語を使用して TDSE を設計および実行できるようにすることで、静的に決定されるプロパティに加えて、実行時のセマンティクスと実行特性を効率的に評価できるようにします。
自己完結型で再利用可能で拡張可能なスタディ スクリプトを使用して、コード生成のための LLM の信頼性を評価するための LASSO のスクリプト機能の実際的な利点を示す TDSE の例を示します。
LASSO プラットフォームは https://softwareobservatorium.github.io/ で無料で入手できます。デモ ビデオは YouTube で入手できます: https://youtu.be/tzY9oNTWXzw

要約(オリジナル)

Empirical software engineering faces a critical gap: the lack of standardized tools for rapid development and execution of Test-Driven Software Experiments (TDSEs) – that is, experiments that involve the execution of software subjects and the observation and analysis of their ‘de facto’ run-time behavior. In this paper we present a general-purpose analysis platform called LASSO that provides a minimal set of domain-specific languages and data structures to conduct TDSEs. By empowering users with an executable scripting language to design and execute TDSEs, LASSO enables efficient evaluation of run-time semantics and execution characteristics in addition to statically determined properties. We present an example TDSE that demonstrates the practical benefits of LASSO’s scripting capabilities for assessing the reliability of LLMs for code generation by means of a self-contained, reusable and extensible study script. The LASSO platform is freely available at: https://softwareobservatorium.github.io/, and a demo video is available on YouTube: https://youtu.be/tzY9oNTWXzw

arxiv情報

著者 Marcus Kessel
発行日 2024-10-11 15:32:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE, D.2.1 | Test-driven Software Experimentation with LASSO: an LLM Benchmarking Example はコメントを受け付けていません

SOAP-RL: Sequential Option Advantage Propagation for Reinforcement Learning in POMDP Environments

要約

この研究では、オプションを使用して強化学習アルゴリズムを部分観察マルコフ決定プロセス (POMDP) に拡張する方法を比較します。
オプションの 1 つのビューは、一時的に拡張されたアクションであり、エージェントがポリシーのコンテキスト ウィンドウを超えて履歴情報を保持できるようにするメモリとして実現できます。
オプションの割り当てはヒューリスティックと手作りの目標を使用して処理できますが、時間的に一貫したオプションと関連するサブポリシーを明示的な監視なしで学習するのは困難です。
この問題に対処するために、PPOEM と SOAP という 2 つのアルゴリズムが提案され、徹底的に研究されています。
PPOEM は、前方後方アルゴリズム (隠れマルコフ モデル用) を適用して、オプション拡張政策の期待収益を最適化します。
ただし、この学習アプローチは、ポリシーに基づいたロールアウト中は不安定です。
また、オプションの割り当てはエピソード全体が利用可能なオフライン シーケンス向けに最適化されているため、将来の軌跡を知らずに因果関係のポリシーを学習するのにも適していません。
代替アプローチとして、SOAP は最適なオプション割り当てのポリシー勾配を評価します。
これは、一般化利点推定 (GAE) の概念を拡張して、オプションの利点を時間を通じて伝播します。これは、オプション政策勾配の時間的逆伝播を実行することと分析的に同等です。
このオプション ポリシーは、エージェントの履歴にのみ条件があり、将来のアクションには条件がありません。
競合するベースラインと比較して評価した場合、SOAP は最も堅牢なパフォーマンスを示し、POMDP コリドー環境のオプションを正しく検出し、Atari や MuJoCo などの標準ベンチマークでも PPOEM や LSTM および Option-Critic ベースラインを上回りました。
オープンソースのコードは https://github.com/shuishida/SoapRL で入手できます。

要約(オリジナル)

This work compares ways of extending Reinforcement Learning algorithms to Partially Observed Markov Decision Processes (POMDPs) with options. One view of options is as temporally extended action, which can be realized as a memory that allows the agent to retain historical information beyond the policy’s context window. While option assignment could be handled using heuristics and hand-crafted objectives, learning temporally consistent options and associated sub-policies without explicit supervision is a challenge. Two algorithms, PPOEM and SOAP, are proposed and studied in depth to address this problem. PPOEM applies the forward-backward algorithm (for Hidden Markov Models) to optimize the expected returns for an option-augmented policy. However, this learning approach is unstable during on-policy rollouts. It is also unsuited for learning causal policies without the knowledge of future trajectories, since option assignments are optimized for offline sequences where the entire episode is available. As an alternative approach, SOAP evaluates the policy gradient for an optimal option assignment. It extends the concept of the generalized advantage estimation (GAE) to propagate option advantages through time, which is an analytical equivalent to performing temporal back-propagation of option policy gradients. This option policy is only conditional on the history of the agent, not future actions. Evaluated against competing baselines, SOAP exhibited the most robust performance, correctly discovering options for POMDP corridor environments, as well as on standard benchmarks including Atari and MuJoCo, outperforming PPOEM, as well as LSTM and Option-Critic baselines. The open-sourced code is available at https://github.com/shuishida/SoapRL.

arxiv情報

著者 Shu Ishida,João F. Henriques
発行日 2024-10-11 15:35:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | SOAP-RL: Sequential Option Advantage Propagation for Reinforcement Learning in POMDP Environments はコメントを受け付けていません

Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own

要約

強化学習 (RL) は、ロボット操作タスクを解決するための有望なアプローチです。
ただし、RL アルゴリズムを現実世界に直接適用することは困難です。
まず、RL はデータ集約的であり、通常は環境との何百万もの対話を必要としますが、これは実際のシナリオでは非現実的です。
もう 1 つは、報酬関数を手動で設計するために多大なエンジニアリング作業を行う必要があることです。
これらの問題に対処するために、このペーパーでは基礎モデルを活用します。
私たちは、ポリシー、価値、成功報酬基盤モデルからのガイダンスとフィードバックを活用するために、基盤事前学習による強化学習 (RLFP) を提案します。
このフレームワーク内で、財団主導のアクター・クリティック (FAC) アルゴリズムを導入します。これにより、身体化されたエージェントが自動報酬機能を使用してより効率的に探索できるようになります。
私たちのフレームワークには次の 3 つの利点があります: (1) \textit{サンプル効率};
(2) \textit{最小限かつ効果的な報酬エンジニアリング};
(3) \textit{基礎モデルの形式に依存せず、ノイズの多い事前分布に対して堅牢}。
私たちの手法は、実際のロボットとシミュレーションの両方でさまざまな操作タスクにおいて顕著なパフォーマンスを達成します。
実際のロボットを使用した 5 つの器用なタスクにわたって、FAC は 1 時間のリアルタイム学習後に平均 86\% の成功率を達成しました。
シミュレートされたメタワールドの 8 つのタスクにわたって、FAC は 100,000 フレーム未満 (約 1 時間のトレーニング) で 7/8 タスクで 100\% の成功率を達成し、100 万フレームで手動で設計された報酬を伴うベースライン手法を上回りました。
私たちは、RLFP フレームワークにより、将来のロボットがより多くのタスクのために物理世界で自律的に探索および学習できるようになると信じています。
ビジュアライゼーションとコードは \url{https://yewr.github.io/rlfp} で入手できます。

要約(オリジナル)

Reinforcement learning (RL) is a promising approach for solving robotic manipulation tasks. However, it is challenging to apply the RL algorithms directly in the real world. For one thing, RL is data-intensive and typically requires millions of interactions with environments, which are impractical in real scenarios. For another, it is necessary to make heavy engineering efforts to design reward functions manually. To address these issues, we leverage foundation models in this paper. We propose Reinforcement Learning with Foundation Priors (RLFP) to utilize guidance and feedback from policy, value, and success-reward foundation models. Within this framework, we introduce the Foundation-guided Actor-Critic (FAC) algorithm, which enables embodied agents to explore more efficiently with automatic reward functions. The benefits of our framework are threefold: (1) \textit{sample efficient}; (2) \textit{minimal and effective reward engineering}; (3) \textit{agnostic to foundation model forms and robust to noisy priors}. Our method achieves remarkable performances in various manipulation tasks on both real robots and in simulation. Across 5 dexterous tasks with real robots, FAC achieves an average success rate of 86\% after one hour of real-time learning. Across 8 tasks in the simulated Meta-world, FAC achieves 100\% success rates in 7/8 tasks under less than 100k frames (about 1-hour training), outperforming baseline methods with manual-designed rewards in 1M frames. We believe the RLFP framework can enable future robots to explore and learn autonomously in the physical world for more tasks. Visualizations and code are available at \url{https://yewr.github.io/rlfp}.

arxiv情報

著者 Weirui Ye,Yunsheng Zhang,Haoyang Weng,Xianfan Gu,Shengjie Wang,Tong Zhang,Mengchen Wang,Pieter Abbeel,Yang Gao
発行日 2024-10-11 15:36:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own はコメントを受け付けていません

From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis

要約

ビジョン言語モデル (VLM) における複数ステップの推論を探索します。
視覚処理と言語処理の複数のステップからなる推論データがほとんど入手できないため、この問題は困難です。
この課題を克服するために、まず、質問をサブ質問に分解し、サブ質問を解決するための外部ツールを呼び出すステップをインターリーブする、最小から最大への視覚推論パラダイムを導入します。
このパラダイムに基づいて、ボトムアップ方式で画像に対する質問と複数ステップの推論パスを自動的に作成できる新しいデータ合成アプローチをさらに提案します。
私たちのアプローチでは、複雑な合成タスクをいくつかの単純なサブタスクに分割し、(ほぼ完全に) オープンソース モデルに依存してサブタスクを実行します。
したがって、合成プロセス全体が再現可能でコスト効率が高く、合成データの品質が保証されます。
このアプローチにより、$50$k の視覚的推論の例を構築します。
次に、教師あり微調整を通じて、プラグアンドプレイ方式で既存のさまざまな VLM の推論能力を全般的に強化できるビジュアル推論器を開発します。
広範な実験により、ビジュアル リーズナーが 4 つの VQA ベンチマークで 4 つの VLM を一貫して大幅に改善できることが示されました。
コードとデータセットは https://github.com/steven-ccq/VisualReasoner で入手できます。

要約(オリジナル)

We explore multi-step reasoning in vision-language models (VLMs). The problem is challenging, as reasoning data consisting of multiple steps of visual and language processing are barely available. To overcome the challenge, we first introduce a least-to-most visual reasoning paradigm, which interleaves steps of decomposing a question into sub-questions and invoking external tools for resolving sub-questions. Based on the paradigm, we further propose a novel data synthesis approach that can automatically create questions and multi-step reasoning paths for an image in a bottom-up manner. Our approach divides the complex synthesis task into a few simple sub-tasks, and (almost entirely) relies on open-sourced models to accomplish the sub-tasks. Therefore, the entire synthesis process is reproducible and cost-efficient, and the synthesized data is quality guaranteed. With the approach, we construct $50$k visual reasoning examples. Then, we develop a visual reasoner through supervised fine-tuning, which is capable of generally enhancing the reasoning abilities of a wide range of existing VLMs in a plug-and-play fashion. Extensive experiments indicate that the visual reasoner can consistently and significantly improve four VLMs on four VQA benchmarks. Our code and dataset are available at https://github.com/steven-ccq/VisualReasoner.

arxiv情報

著者 Chuanqi Cheng,Jian Guan,Wei Wu,Rui Yan
発行日 2024-10-11 15:41:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis はコメントを受け付けていません

Multimodal Auto Validation For Self-Refinement in Web Agents

要約

世界がデジタル化するにつれ、複雑で単調なタスクを自動化できる Web エージェントは、ワークフローを合理化するために不可欠なものになりつつあります。
このペーパーでは、マルチモーダル検証と自己調整を通じて Web エージェントのパフォーマンスを向上させるアプローチを紹介します。
最先端の Agent-E Web 自動化フレームワークに基づいて、Web エージェントの自動検証に関するさまざまなモダリティ (テキスト、ビジョン) と階層の効果に関する包括的な研究を紹介します。
また、開発された自動検証ツールを使用した Web オートメーションの自己調整メカニズムも導入し、Web エージェントがワークフローの失敗を検出して自己修正できるようにします。
私たちの結果は、Agent-E (SOTA Web エージェント) の以前の最先端のパフォーマンスが大幅に向上し、WebVoyager ベンチマークのサブセットでタスク完了率が 76.2\% から 81.24\% に向上したことを示しています。
このホワイトペーパーで紹介したアプローチは、複雑な現実世界のシナリオにおいて、より信頼性の高いデジタル アシスタントへの道を開きます。

要約(オリジナル)

As our world digitizes, web agents that can automate complex and monotonous tasks are becoming essential in streamlining workflows. This paper introduces an approach to improving web agent performance through multi-modal validation and self-refinement. We present a comprehensive study of different modalities (text, vision) and the effect of hierarchy for the automatic validation of web agents, building upon the state-of-the-art Agent-E web automation framework. We also introduce a self-refinement mechanism for web automation, using the developed auto-validator, that enables web agents to detect and self-correct workflow failures. Our results show significant gains on Agent-E’s (a SOTA web agent) prior state-of-art performance, boosting task-completion rates from 76.2\% to 81.24\% on the subset of the WebVoyager benchmark. The approach presented in this paper paves the way for more reliable digital assistants in complex, real-world scenarios.

arxiv情報

著者 Ruhana Azam,Tamer Abuelsaad,Aditya Vempaty,Ashish Jagmohan
発行日 2024-10-11 15:42:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Multimodal Auto Validation For Self-Refinement in Web Agents はコメントを受け付けていません

Exploring the Design Space of Cognitive Engagement Techniques with AI-Generated Code for Enhanced Learning

要約

初心者プログラマーは、プログラミングの概念を学習するためのコードを生成するために大規模言語モデル (LLM) に依存することが増えています。
ただし、この相互作用は表面的な取り組みにつながり、学習者に学習しているかのような錯覚を与え、スキルの向上を妨げる可能性があります。
この問題に対処するために、私たちは体系的な設計調査を実施し、AI 生成コードとのより深い関与を促進することを目的とした 7 つの認知関与手法を開発しました。
この論文では、設計プロセス、最初の 7 つのテクニック、および被験者間研究 (N=82) の結果について説明します。
次に、上位のテクニックを繰り返し改良し、被験者内研究を通じてそれらをさらに評価しました (N=42)。
各手法によって生じる摩擦、学習者が AI 支援なしで同型タスクに概念を適用するのに役立つ有効性、学習者の認識されたコーディング能力と実際のコーディング能力を一致させる成功率を評価します。
最終的に、私たちの結果は最も効果的な手法を浮き彫りにしました。学習者を段階的な問題解決プロセスに導き、学習者が AI と対話的に対話し、対応するコードが明らかになる前に各段階で何をする必要があるかを指示するというものです。

要約(オリジナル)

Novice programmers are increasingly relying on Large Language Models (LLMs) to generate code for learning programming concepts. However, this interaction can lead to superficial engagement, giving learners an illusion of learning and hindering skill development. To address this issue, we conducted a systematic design exploration to develop seven cognitive engagement techniques aimed at promoting deeper engagement with AI-generated code. In this paper, we describe our design process, the initial seven techniques and results from a between-subjects study (N=82). We then iteratively refined the top techniques and further evaluated them through a within-subjects study (N=42). We evaluate the friction each technique introduces, their effectiveness in helping learners apply concepts to isomorphic tasks without AI assistance, and their success in aligning learners’ perceived and actual coding abilities. Ultimately, our results highlight the most effective technique: guiding learners through the step-by-step problem-solving process, where they engage in an interactive dialog with the AI, prompting what needs to be done at each stage before the corresponding code is revealed.

arxiv情報

著者 Majeed Kazemitabaar,Oliver Huang,Sangho Suh,Austin Z. Henley,Tovi Grossman
発行日 2024-10-11 15:49:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Exploring the Design Space of Cognitive Engagement Techniques with AI-Generated Code for Enhanced Learning はコメントを受け付けていません

Towards Cross-Lingual LLM Evaluation for European Languages

要約

大規模言語モデル (LLM) の台頭により、多数の言語やタスクにわたって自然言語処理に革命が起こりました。
ただし、複数のヨーロッパ言語にわたって一貫した意味のある方法で LLM のパフォーマンスを評価することは、特に多言語ベンチマークが不足しているため、依然として困難です。
ヨーロッパ言語に合わせた多言語評価アプローチを導入します。
当社では、広く使用されている 5 つのベンチマークの翻訳版を使用して、21 のヨーロッパ言語にわたる 40 の LLM の機能を評価しています。
私たちの貢献には、翻訳されたベンチマークの有効性の調査、さまざまな翻訳サービスの影響の評価、新しく作成されたデータセット (EU20-MMLU、EU20-HellaSwag、EU20-ARC、EU20-TruthfulQA、および EU20) を含む LLM の多言語評価フレームワークの提供が含まれます。
-GSM8K。
ベンチマークと結果は、多言語 LLM 評価におけるさらなる研究を促進するために一般に公開されます。

要約(オリジナル)

The rise of Large Language Models (LLMs) has revolutionized natural language processing across numerous languages and tasks. However, evaluating LLM performance in a consistent and meaningful way across multiple European languages remains challenging, especially due to the scarcity of multilingual benchmarks. We introduce a cross-lingual evaluation approach tailored for European languages. We employ translated versions of five widely-used benchmarks to assess the capabilities of 40 LLMs across 21 European languages. Our contributions include examining the effectiveness of translated benchmarks, assessing the impact of different translation services, and offering a multilingual evaluation framework for LLMs that includes newly created datasets: EU20-MMLU, EU20-HellaSwag, EU20-ARC, EU20-TruthfulQA, and EU20-GSM8K. The benchmarks and results are made publicly available to encourage further research in multilingual LLM evaluation.

arxiv情報

著者 Klaudia Thellmann,Bernhard Stadler,Michael Fromm,Jasper Schulze Buschhoff,Alex Jude,Fabio Barth,Johannes Leveling,Nicolas Flores-Herr,Joachim Köhler,René Jäkel,Mehdi Ali
発行日 2024-10-11 15:53:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Towards Cross-Lingual LLM Evaluation for European Languages はコメントを受け付けていません

Streaming Diffusion Policy: Fast Policy Synthesis with Variable Noise Diffusion Models

要約

普及モデルはロボットの模倣学習に急速に採用され、複雑な器用なタスクの自律的な実行を可能にします。
ただし、アクションの合成は遅くなることが多く、反復的なノイズ除去の多くのステップが必要となるため、高速な反応性ポリシーを必要とするタスクでモデルを使用できる範囲が制限されます。
これを回避するために、最近の研究では、政策の合成を加速するために拡散プロセスの蒸留をどのように使用できるかを調査しました。
ただし、蒸留は計算コストが高く、合成されたアクションの精度と多様性の両方に悪影響を与える可能性があります。
私たちは、部分的にノイズ除去されたアクション軌跡を生成する方が、完全な出力アクション軌跡よりも大幅に高速であるという洞察を活用して、ポリシー合成を加速する代替方法である SDP (ストリーミング拡散ポリシー) を提案します。
観測ごとに、私たちのアプローチは、さまざまなレベルのノイズ破損を伴う部分的にノイズが除去されたアクション軌跡を出力します。ここで、すぐに実行されるアクションにはノイズがありませんが、後続のアクションではノイズと不確実性のレベルが増加します。
以前に予測されたノイズの多い行動軌跡 (1 タイムステップずつロールオーバー) にノイズ除去のいくつかのステップを適用することで、新しい観測に対する部分的にノイズ除去された行動軌跡を迅速に生成できます。
シミュレーション設定と現実世界の設定の両方でパフォーマンスを維持しながら、ポリシー合成を劇的に高速化するこのアプローチの有効性を説明します。

要約(オリジナル)

Diffusion models have seen rapid adoption in robotic imitation learning, enabling autonomous execution of complex dexterous tasks. However, action synthesis is often slow, requiring many steps of iterative denoising, limiting the extent to which models can be used in tasks that require fast reactive policies. To sidestep this, recent works have explored how the distillation of the diffusion process can be used to accelerate policy synthesis. However, distillation is computationally expensive and can hurt both the accuracy and diversity of synthesized actions. We propose SDP (Streaming Diffusion Policy), an alternative method to accelerate policy synthesis, leveraging the insight that generating a partially denoised action trajectory is substantially faster than a full output action trajectory. At each observation, our approach outputs a partially denoised action trajectory with variable levels of noise corruption, where the immediate action to execute is noise-free, with subsequent actions having increasing levels of noise and uncertainty. The partially denoised action trajectory for a new observation can then be quickly generated by applying a few steps of denoising to the previously predicted noisy action trajectory (rolled over by one timestep). We illustrate the efficacy of this approach, dramatically speeding up policy synthesis while preserving performance across both simulated and real-world settings.

arxiv情報

著者 Sigmund H. Høeg,Yilun Du,Olav Egeland
発行日 2024-10-11 16:04:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Streaming Diffusion Policy: Fast Policy Synthesis with Variable Noise Diffusion Models はコメントを受け付けていません

Maximizing the Potential of Synthetic Data: Insights from Random Matrix Theory

要約

合成データは大規模な言語モデルをトレーニングするために注目を集めていますが、低品質のデータはパフォーマンスに悪影響を及ぼす可能性があります (例: Shumailov et al. (2023); Seddik et al. (2024) を参照)。
潜在的な解決策は、スコア関数 (人間または機械のフィードバック) に基づいて高品質のデータのみを保持するデータ プルーニングです。
前の研究 Feng et al。
(2024) サンプルサイズが増加するにつれて、合成データでトレーニングされたモデルを分析しました。
ランダム行列理論を使用してこれを拡張し、高次元設定で実際のデータとプルーニングされた合成データの混合でトレーニングされたバイナリ分類器のパフォーマンスを導き出します。
私たちの調査結果では、生成モデルと検証戦略の品質に焦点を当て、合成データがパフォーマンスを向上させる可能性がある条件を特定しました。
また、無限のサンプル制限における以前の鋭い動作とは対照的に、合成ラベル ノイズにおける滑らかな位相遷移も示します。
おもちゃのモデルと大規模な言語モデルを使った実験により、理論的な結果が検証されます。

要約(オリジナル)

Synthetic data has gained attention for training large language models, but poor-quality data can harm performance (see, e.g., Shumailov et al. (2023); Seddik et al. (2024)). A potential solution is data pruning, which retains only high-quality data based on a score function (human or machine feedback). Previous work Feng et al. (2024) analyzed models trained on synthetic data as sample size increases. We extend this by using random matrix theory to derive the performance of a binary classifier trained on a mix of real and pruned synthetic data in a high dimensional setting. Our findings identify conditions where synthetic data could improve performance, focusing on the quality of the generative model and verification strategy. We also show a smooth phase transition in synthetic label noise, contrasting with prior sharp behavior in infinite sample limits. Experiments with toy models and large language models validate our theoretical results.

arxiv情報

著者 Aymane El Firdoussi,Mohamed El Amine Seddik,Soufiane Hayou,Reda Alami,Ahmed Alzubaidi,Hakim Hacid
発行日 2024-10-11 16:09:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.ST, stat.TH | Maximizing the Potential of Synthetic Data: Insights from Random Matrix Theory はコメントを受け付けていません