Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning

要約

大規模言語モデル (LLM) を使用した正確な数学的推論は、そのような推論に大きく依存するドメインに革命を起こす上で極めて重要です。
ただし、LLM は数学的推論の特定の側面で困難に遭遇することが多く、推論に欠陥が生じたり、誤った結果が生じたりします。
これらの問題を軽減するために、LLM に固有の能力として自己修正を組み込むように特別に設計された新しいメカニズムである自己修正チェーン (CoSC) を導入し、LLM が自身の結果を検証して修正できるようにします。
CoSC メカニズムは、一連の自己修正段階を通じて動作します。
各段階で、LLM は特定の問題に対処するプログラムを生成し、プログラムベースのツールを使用してこのプログラムを実行して出力を取得し、その後この出力を検証します。
検証に基づいて、LLM は次の修正段階に進むか、回答を最終的に決定します。
この反復的な自己修正プロセスにより、LLM は推論ステップを改良し、数学的推論の精度を向上させることができます。
CoSC メカニズムを低コストで実現するために、2 段階の微調整アプローチを採用しています。
最初のフェーズでは、GPT-4 から生成された比較的少量のシーディング データを使用して LLM がトレーニングされ、初期 CoSC 機能が確立されます。
第 2 フェーズでは、有料の GPT-4 に依存せず、第 1 フェーズでトレーニングされたモデルを使用して、より大量の自己生成データでトレーニングすることにより、CoSC 機能がさらに強化されます。
私たちの包括的な実験では、CoSC が既存のオープンソース LLM の中で従来の数学的データセットのパフォーマンスを大幅に向上させることを実証しています。
特に、当社の CoSC-Code-34B モデルは、パブリック ドメインで最も困難な数学的推論データセットである MATH で 53.5% のスコアを達成し、ChatGPT、GPT-4、さらにはマルチモーダル LLM などの確立されたモデルのパフォーマンスを上回りました。
GPT-4V、Gemini-1.0 Pro、Gemini-1.0 Ultraなど。

要約(オリジナル)

Accurate mathematical reasoning with Large Language Models (LLMs) is crucial in revolutionizing domains that heavily rely on such reasoning. However, LLMs often encounter difficulties in certain aspects of mathematical reasoning, leading to flawed reasoning and erroneous results. To mitigate these issues, we introduce a novel mechanism, the Chain of Self-Correction (CoSC), specifically designed to embed self-correction as an inherent ability in LLMs, enabling them to validate and rectify their own results. The CoSC mechanism operates through a sequence of self-correction stages. In each stage, the LLMs generate a program to address a given problem, execute this program using program-based tools to obtain an output, subsequently verify this output. Based on the verification, the LLMs either proceed to the next correction stage or finalize the answer. This iterative self-correction process allows the LLMs to refine their reasoning steps and improve the accuracy of their mathematical reasoning. To enable the CoSC mechanism at a low cost, we employ a two-phase finetuning approach. In the first phase, the LLMs are trained with a relatively small volume of seeding data generated from GPT-4, establishing an initial CoSC capability. In the second phase, the CoSC capability is further enhanced by training with a larger volume of self-generated data using the trained model in the first phase, without relying on the paid GPT-4. Our comprehensive experiments demonstrate that CoSC significantly improves performance on traditional mathematical datasets among existing open-source LLMs. Notably, our CoSC-Code-34B model achieved a 53.5% score on MATH, the most challenging mathematical reasoning dataset in the public domain, surpassing the performance of well-established models such as ChatGPT, GPT-4, and even multi-modal LLMs like GPT-4V, Gemini-1.0 Pro, and Gemini-1.0 Ultra.

arxiv情報

著者 Kuofeng Gao,Huanqia Cai,Qingyao Shuai,Dihong Gong,Zhifeng Li
発行日 2024-10-14 17:16:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning はコメントを受け付けていません

SensorBench: Benchmarking LLMs in Coding-Based Sensor Processing

要約

センサーデータの効果的な処理、解釈、管理は、サイバーフィジカルシステムの重要なコンポーネントとして浮上しています。
従来、センサー データの処理には、深い理論的知識と信号処理ツールの熟練度が必要でした。
しかし、最近の研究では、大規模言語モデル (LLM) が感覚データの処理において有望な機能を備えていることが示されており、感覚システム開発の副操縦士としての可能性が示唆されています。
この可能性を探るため、包括的なベンチマークである SensorBench を構築し、定量化可能な目標を確立しました。
このベンチマークには、さまざまなタスク用の多様な現実世界のセンサー データセットが組み込まれています。
結果は、LLM は単純なタスクではかなりの熟練度を示しますが、エンジニアリングの専門家と比較して、パラメーターを選択する構成タスクを処理する際に固有の課題に直面していることを示しています。
さらに、センサー処理のための 4 つのプロンプト戦略を調査し、自己検証がタスクの 48% で他のすべてのベースラインを上回るパフォーマンスを発揮できることを示しました。
私たちの調査は、包括的なベンチマークと将来の開発に向けた分析を提供し、LLM ベースのセンサー処理コパイロットへの道を開きます。

要約(オリジナル)

Effective processing, interpretation, and management of sensor data have emerged as a critical component of cyber-physical systems. Traditionally, processing sensor data requires profound theoretical knowledge and proficiency in signal-processing tools. However, recent works show that Large Language Models (LLMs) have promising capabilities in processing sensory data, suggesting their potential as copilots for developing sensing systems. To explore this potential, we construct a comprehensive benchmark, SensorBench, to establish a quantifiable objective. The benchmark incorporates diverse real-world sensor datasets for various tasks. The results show that while LLMs exhibit considerable proficiency in simpler tasks, they face inherent challenges in processing compositional tasks with parameter selections compared to engineering experts. Additionally, we investigate four prompting strategies for sensor processing and show that self-verification can outperform all other baselines in 48% of tasks. Our study provides a comprehensive benchmark and prompting analysis for future developments, paving the way toward an LLM-based sensor processing copilot.

arxiv情報

著者 Pengrui Quan,Xiaomin Ouyang,Jeya Vikranth Jeyakumar,Ziqi Wang,Yang Xing,Mani Srivastava
発行日 2024-10-14 17:21:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.SP | SensorBench: Benchmarking LLMs in Coding-Based Sensor Processing はコメントを受け付けていません

NT-LLM: A Novel Node Tokenizer for Integrating Graph Structure into Large Language Models

要約

グラフは、現実世界のシナリオにおける関係を表すための基本的なデータ構造です。
さまざまな自然言語処理 (NLP) タスクにわたる大規模言語モデル (LLM) の成功により、グラフ学習に LLM を統合することへの関心が高まっています。
ただし、LLM をグラフ関連のタスクに適用すると、これらのモデルは本質的にグラフに存在する複雑な構造情報を捕捉するように設計されていないため、大きな課題が生じます。
既存のアプローチは、2 つの戦略を通じてこの課題に対処しています。1 つはタスク連鎖アプローチで、グラフ ニューラル ネットワーク (GNN) を使用してグラフ構造をエンコードし、LLM が空間位置を理解することから解放されます。
グラフからテキストへの変換。グラフ構造を、LLM が処理できるセマンティック テキスト表現に変換します。
これらの手法は進歩しているにもかかわらず、多くの場合、グラフの位相情報を完全に保存するのに苦労したり、膨大な計算リソースを必要としたりして、実際の適用性が制限されています。
この研究では、キー ノードをアンカーとして選択し、これらのアンカーまでの相対距離に基づいて各ノードを表すことにより、グラフ構造を効率的にエンコードする新しいフレームワークである Node Tokenizer for Large Language Models (NT-LLM) を紹介します。
この位置アンカー エンコーディングはグラフ トポロジを効果的にキャプチャし、グラフ データに対する LLM の推論機能の強化を可能にします。
さらに、LLM 内の構造の理解をさらに向上させるために、タスク固有の調整手順を実装します。
広範な実証的評価を通じて、NT-LLM はさまざまなグラフ関連タスクにわたってパフォーマンスが大幅に向上することを実証しています。

要約(オリジナル)

Graphs are a fundamental data structure for representing relationships in real-world scenarios. With the success of Large Language Models (LLMs) across various natural language processing (NLP) tasks, there has been growing interest in integrating LLMs for graph learning. However, applying LLMs to graph-related tasks poses significant challenges, as these models are not inherently designed to capture the complex structural information present in graphs. Existing approaches address this challenge through two strategies: the chain of tasks approach, which uses Graph Neural Networks (GNNs) to encode the graph structure so that LLMs are relieved from understanding spatial positions; and Graph-to-Text Conversion, which translates graph structures into semantic text representations that LLMs can process. Despite their progress, these methods often struggle to fully preserve the topological information of graphs or require extensive computational resources, limiting their practical applicability. In this work, we introduce Node Tokenizer for Large Language Models (NT-LLM), a novel framework that efficiently encodes graph structures by selecting key nodes as anchors and representing each node based on its relative distance to these anchors. This position-anchored encoding effectively captures the graph topology, enabling enhanced reasoning capabilities in LLMs over graph data. Additionally, we implement a task-specific tuning procedure to further improve structural understanding within LLMs. Through extensive empirical evaluations, NT-LLM demonstrates significant performance improvements across a variety of graph-related tasks.

arxiv情報

著者 Yanbiao Ji,Chang Liu,Xin Chen,Yue Ding,Dan Luo,Mei Li,Wenqing Lin,Hongtao Lu
発行日 2024-10-14 17:21:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | NT-LLM: A Novel Node Tokenizer for Integrating Graph Structure into Large Language Models はコメントを受け付けていません

Arrhythmia Classification Using Graph Neural Networks Based on Correlation Matrix

要約

グラフ ニューラル ネットワークの進歩に伴い、このネットワークを ECG 信号分析に適用することへの関心が高まっています。
本研究では、抽出した特徴の相関行列を用いて隣接行列を生成し、グラフニューラルネットワークを適用して不整脈を分類した。
提案されたモデルは、文献からの既存のアプローチと比較されました。
結果は、すべての不整脈クラスの精度と再現率が 50% を超えていることを示し、この方法が不整脈分類のアプローチとみなせることを示唆しています。

要約(オリジナル)

With the advancements in graph neural network, there has been increasing interest in applying this network to ECG signal analysis. In this study, we generated an adjacency matrix using correlation matrix of extracted features and applied a graph neural network to classify arrhythmias. The proposed model was compared with existing approaches from the literature. The results demonstrated that precision and recall for all arrhythmia classes exceeded 50%, suggesting that this method can be considered an approach for arrhythmia classification.

arxiv情報

著者 Seungwoo Han
発行日 2024-10-14 17:38:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.SP | Arrhythmia Classification Using Graph Neural Networks Based on Correlation Matrix はコメントを受け付けていません

AFlow: Automating Agentic Workflow Generation

要約

大規模言語モデル (LLM) は、通常、詳細な指示と操作シーケンスに従うエージェント ワークフローを採​​用することにより、さまざまなドメインにわたる複雑なタスクを解決する際に顕著な可能性を示しています。
ただし、これらのワークフローの構築には多大な人間の労力が必要であり、スケーラビリティと汎用性が制限されます。
最近の研究では、これらのワークフローの生成と最適化を自動化することが試みられていますが、既存の方法は依然として初期の手動セットアップに依存しており、完全に自動化された効果的なワークフロー生成を達成するには至っていません。
この課題に対処するために、LLM を呼び出すノードがエッジによって接続される、コードで表現されたワークフローに対する検索問題としてワークフローの最適化を再定式化します。
AFlow は、モンテカルロ ツリー検索を使用してこの領域を効率的に探索し、コード変更、ツリー構造のエクスペリエンス、および実行フィードバックを通じてワークフローを反復的に改良する自動フレームワークです。
6 つのベンチマーク データセットにわたる経験的評価により、AFlow の有効性が実証され、最先端のベースラインと比較して平均 5.7% の改善が得られました。
さらに、AFlow を使用すると、小規模なモデルがドル単位の推論コストの 4.55% で、特定のタスクにおいて GPT-4o を上回るパフォーマンスを実現できます。
コードは https://github.com/geekan/MetaGPT で入手できます。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable potential in solving complex tasks across diverse domains, typically by employing agentic workflows that follow detailed instructions and operational sequences. However, constructing these workflows requires significant human effort, limiting scalability and generalizability. Recent research has sought to automate the generation and optimization of these workflows, but existing methods still rely on initial manual setup and fall short of achieving fully automated and effective workflow generation. To address this challenge, we reformulate workflow optimization as a search problem over code-represented workflows, where LLM-invoking nodes are connected by edges. We introduce AFlow, an automated framework that efficiently explores this space using Monte Carlo Tree Search, iteratively refining workflows through code modification, tree-structured experience, and execution feedback. Empirical evaluations across six benchmark datasets demonstrate AFlow’s efficacy, yielding a 5.7% average improvement over state-of-the-art baselines. Furthermore, AFlow enables smaller models to outperform GPT-4o on specific tasks at 4.55% of its inference cost in dollars. The code will be available at https://github.com/geekan/MetaGPT.

arxiv情報

著者 Jiayi Zhang,Jinyu Xiang,Zhaoyang Yu,Fengwei Teng,Xionghui Chen,Jiaqi Chen,Mingchen Zhuge,Xin Cheng,Sirui Hong,Jinlin Wang,Bingnan Zheng,Bang Liu,Yuyu Luo,Chenglin Wu
発行日 2024-10-14 17:40:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | AFlow: Automating Agentic Workflow Generation はコメントを受け付けていません

Designing a Dashboard for Transparency and Control of Conversational AI

要約

会話型 LLM はブラック ボックス システムとして機能し、ユーザーはその出力がなぜ表示されるのか推測したままになります。
この透明性の欠如は、特に偏見と真実性に関する懸念を考慮すると、潜在的に問題となる可能性があります。
この問題に対処するために、チャットボットの透明性を高めることを目的とした、エンドツーエンドのプロトタイプ、つまりユーザー エクスペリエンス デザインと接続された解釈可能性テクニックを紹介します。
まず、著名なオープンソース LLM が「ユーザー モデル」を持っているという証拠を示すことから始めます。システムの内部状態を調べると、ユーザーの年齢、性別、教育レベル、社会経済的地位に関連するデータを抽出できます。
次に、このユーザー モデルをリアルタイムで表示する、チャットボット インターフェイスに付随するダッシュボードの設計について説明します。
ダッシュボードを使用して、ユーザー モデルとシステムの動作を制御することもできます。
最後に、ユーザーが計測システムと会話した研究について説明します。
私たちの結果は、ユーザーが内部状態を見ることを高く評価しており、それが偏った行動を明らかにし、コントロールの感覚を高めるのに役立つことを示唆しています。
参加者はまた、設計と機械学習の研究の両方の将来の方向性を示す貴重な提案を行いました。
TalkTuner システムのプロジェクト ページとビデオ デモは、https://bit.ly/talktuner-project-page から入手できます。

要約(オリジナル)

Conversational LLMs function as black box systems, leaving users guessing about why they see the output they do. This lack of transparency is potentially problematic, especially given concerns around bias and truthfulness. To address this issue, we present an end-to-end prototype-connecting interpretability techniques with user experience design-that seeks to make chatbots more transparent. We begin by showing evidence that a prominent open-source LLM has a ‘user model’: examining the internal state of the system, we can extract data related to a user’s age, gender, educational level, and socioeconomic status. Next, we describe the design of a dashboard that accompanies the chatbot interface, displaying this user model in real time. The dashboard can also be used to control the user model and the system’s behavior. Finally, we discuss a study in which users conversed with the instrumented system. Our results suggest that users appreciate seeing internal states, which helped them expose biased behavior and increased their sense of control. Participants also made valuable suggestions that point to future directions for both design and machine learning research. The project page and video demo of our TalkTuner system are available at https://bit.ly/talktuner-project-page

arxiv情報

著者 Yida Chen,Aoyu Wu,Trevor DePodesta,Catherine Yeh,Kenneth Li,Nicholas Castillo Marin,Oam Patel,Jan Riecke,Shivam Raval,Olivia Seow,Martin Wattenberg,Fernanda Viégas
発行日 2024-10-14 17:46:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | Designing a Dashboard for Transparency and Control of Conversational AI はコメントを受け付けていません

Focused ReAct: Improving ReAct through Reiterate and Early Stop

要約

ReAct などのメソッドに見られるように、大規模言語モデル (LLM) は推論および意思決定の能力を大幅に向上させました。
しかし、ReAct は複雑なタスクに取り組む上では有効であるにもかかわらず、元の質問に焦点を合わせられなくなることと、アクション ループに陥ることという 2 つの主な課題に直面しています。
これらの問題に対処するために、反復と早期停止メカニズムを組み込んだ ReAct パラダイムの拡張バージョンである Focused ReAct を導入します。
これらの改善により、モデルは元のクエリに集中し続け、反復的な動作を回避することができます。
実験結果では、元の ReAct メソッドと比較して精度が 18% ~ 530% 向上し、実行時間が最大 34% 短縮されたことが示されています。

要約(オリジナル)

Large language models (LLMs) have significantly improved their reasoning and decision-making capabilities, as seen in methods like ReAct. However, despite its effectiveness in tackling complex tasks, ReAct faces two main challenges: losing focus on the original question and becoming stuck in action loops. To address these issues, we introduce Focused ReAct, an enhanced version of the ReAct paradigm that incorporates reiteration and early stop mechanisms. These improvements help the model stay focused on the original query and avoid repetitive behaviors. Experimental results show accuracy gains of 18% to 530% and a runtime reduction of up to 34% compared to the original ReAct method.

arxiv情報

著者 Shuoqiu Li,Han Xu,Haipeng Chen
発行日 2024-10-14 17:49:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Focused ReAct: Improving ReAct through Reiterate and Early Stop はコメントを受け付けていません

When Attention Sink Emerges in Language Models: An Empirical View

要約

言語モデル (LM) は、たとえ意味的に重要でなくても、最初のトークンに重要な注意を割り当てます。これはアテンション シンクとして知られています。
この現象は、ストリーミング/ロング コンテキストの生成、KV キャッシュの最適化、推論の高速化、モデルの量子化などのアプリケーションで広く採用されています。
広く使用されているにもかかわらず、LM における注意の低下についての深い理解はまだ不足しています。
この研究では、小さなモデルであっても、さまざまな入力を持つ LM にアテンション シンクが普遍的に存在することを初めて実証します。
さらに、LM 事前トレーニング中にアテンション シンクが出現することが観察されており、LM 事前トレーニングにおける最適化、データ分散、損失関数、モデル アーキテクチャがその出現にどのように影響するかを調査する動機となります。
十分なトレーニング データに対する効果的な最適化の後にアテンション シンクが現れることを強調します。
シンクの位置は、損失関数およびデータ分布と高い相関があります。
最も重要なことは、アテンション シンクはキー バイアスのように機能し、有益ではなく価値の計算に寄与しない可能性がある追加の注意スコアを保存することがわかりました。
また、この現象は (少なくとも部分的には) ソフトマックス正規化の結果としての注意スコアに対するトークンの内部依存に起因することも観察されています。
ソフトマックス アテンションを他のアテンション操作 (正規化なしのシグモイド アテンションなど) に置き換えることによってそのような依存性を緩和した後、1B パラメーターまでの LM ではアテンション シンクは出現しません。
コードは https://github.com/sail-sg/Attendance-Sink で入手できます。

要約(オリジナル)

Language Models (LMs) assign significant attention to the first token, even if it is not semantically important, which is known as attention sink. This phenomenon has been widely adopted in applications such as streaming/long context generation, KV cache optimization, inference acceleration, model quantization, and others. Despite its widespread use, a deep understanding of attention sink in LMs is still lacking. In this work, we first demonstrate that attention sinks exist universally in LMs with various inputs, even in small models. Furthermore, attention sink is observed to emerge during the LM pre-training, motivating us to investigate how optimization, data distribution, loss function, and model architecture in LM pre-training influence its emergence. We highlight that attention sink emerges after effective optimization on sufficient training data. The sink position is highly correlated with the loss function and data distribution. Most importantly, we find that attention sink acts more like key biases, storing extra attention scores, which could be non-informative and not contribute to the value computation. We also observe that this phenomenon (at least partially) stems from tokens’ inner dependence on attention scores as a result of softmax normalization. After relaxing such dependence by replacing softmax attention with other attention operations, such as sigmoid attention without normalization, attention sinks do not emerge in LMs up to 1B parameters. The code is available at https://github.com/sail-sg/Attention-Sink.

arxiv情報

著者 Xiangming Gu,Tianyu Pang,Chao Du,Qian Liu,Fengzhuo Zhang,Cunxiao Du,Ye Wang,Min Lin
発行日 2024-10-14 17:50:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | When Attention Sink Emerges in Language Models: An Empirical View はコメントを受け付けていません

On Information-Theoretic Measures of Predictive Uncertainty

要約

予測の不確実性の信頼性の高い推定は、機械学習アプリケーションにとって、特にリスクヘッジが不可欠な一か八かのシナリオにおいて非常に重要です。
その重要性にもかかわらず、予測の不確実性の正しい測定についてのコンセンサスは依然として得られていません。
この研究では、情報理論による予測不確実性測定の基本的な枠組みを開発するために第一原理に戻ります。
私たちが提案するフレームワークは、次の 2 つの要素に従って予測不確実性の尺度を分類します。(I) 予測モデル (II) 真の予測分布の近似。
これら 2 つの要因の考えられるすべての組み合わせを検討し、既知のものと新たに導入されたものの両方を含む一連の予測不確実性尺度を導き出します。
これらの尺度は、誤分類検出、選択的予測、分布外検出などの典型的な不確実性推定設定で経験的に評価されます。
結果は、単一の対策は普遍的ではなく、有効性は特定の設定に依存することを示しています。
したがって、私たちの研究は、暗黙の仮定と関係を明確にすることによって、予測不確実性尺度の適合性を明確にします。

要約(オリジナル)

Reliable estimation of predictive uncertainty is crucial for machine learning applications, particularly in high-stakes scenarios where hedging against risks is essential. Despite its significance, a consensus on the correct measurement of predictive uncertainty remains elusive. In this work, we return to first principles to develop a fundamental framework of information-theoretic predictive uncertainty measures. Our proposed framework categorizes predictive uncertainty measures according to two factors: (I) The predicting model (II) The approximation of the true predictive distribution. Examining all possible combinations of these two factors, we derive a set of predictive uncertainty measures that includes both known and newly introduced ones. We empirically evaluate these measures in typical uncertainty estimation settings, such as misclassification detection, selective prediction, and out-of-distribution detection. The results show that no single measure is universal, but the effectiveness depends on the specific setting. Thus, our work provides clarity about the suitability of predictive uncertainty measures by clarifying their implicit assumptions and relationships.

arxiv情報

著者 Kajetan Schweighofer,Lukas Aichberger,Mykyta Ielanskyi,Sepp Hochreiter
発行日 2024-10-14 17:52:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | On Information-Theoretic Measures of Predictive Uncertainty はコメントを受け付けていません

Learning Quadruped Locomotion Using Differentiable Simulation

要約

この研究では、四足歩行の学習に微分可能なシミュレーションを使用する可能性を探ります。
微分可能なシミュレーションは、ロボット ダイナミクスを使用して分散の低い一次勾配を計算することで、高速な収束と安定したトレーニングを約束します。
ただし、脚式ロボットの用途は依然としてシミュレーションに限定されています。
主な課題は、不連続なダイナミクスによるロボット タスクの複雑な最適化環境にあります。
この研究は、これらの課題を克服するための新しい微分可能なシミュレーション フレームワークを提案します。
私たちのアプローチは、順ダイナミクス用の高忠実度の非微分可能シミュレーターと、勾配逆伝播用の簡略化されたサロゲート モデルを組み合わせています。
このアプローチでは、サロゲート モデルのロボットの状態を正確な微分不可能なシミュレーターの状態と調整することで、シミュレーションの精度を維持します。
私たちのフレームワークでは、並列化を行わずにシミュレーションで四足歩行を数分で学習できます。
私たちのアプローチを GPU 並列化で強化すると、四足ロボットは困難な地形での多様な移動スキルを数分で習得できるようになります。
私たちは、微分可能シミュレーションが、大規模環境の処理における有効性を維持しながら、大幅に優れたサンプル効率を達成することにより、強化学習アルゴリズム (PPO) よりも優れたパフォーマンスを発揮することを実証します。
私たちの手法は、現実世界の四足歩行への微分可能シミュレーションの最初の成功した応用の 1 つであり、従来の RL 手法に代わる魅力的な手法を提供します。

要約(オリジナル)

This work explores the potential of using differentiable simulation for learning quadruped locomotion. Differentiable simulation promises fast convergence and stable training by computing low-variance first-order gradients using robot dynamics. However, its usage for legged robots is still limited to simulation. The main challenge lies in the complex optimization landscape of robotic tasks due to discontinuous dynamics. This work proposes a new differentiable simulation framework to overcome these challenges. Our approach combines a high-fidelity, non-differentiable simulator for forward dynamics with a simplified surrogate model for gradient backpropagation. This approach maintains simulation accuracy by aligning the robot states from the surrogate model with those of the precise, non-differentiable simulator. Our framework enables learning quadruped walking in simulation in minutes without parallelization. When augmented with GPU parallelization, our approach allows the quadruped robot to master diverse locomotion skills on challenging terrains in minutes. We demonstrate that differentiable simulation outperforms a reinforcement learning algorithm (PPO) by achieving significantly better sample efficiency while maintaining its effectiveness in handling large-scale environments. Our method represents one of the first successful applications of differentiable simulation to real-world quadruped locomotion, offering a compelling alternative to traditional RL methods.

arxiv情報

著者 Yunlong Song,Sangbae Kim,Davide Scaramuzza
発行日 2024-10-14 17:57:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Learning Quadruped Locomotion Using Differentiable Simulation はコメントを受け付けていません