MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

要約

大規模言語モデル (LLM) に基づくエージェントの社会を通じて、自動化された問題解決に関して目覚ましい進歩が見られました。
既存の LLM ベースのマルチエージェント システムは、単純な対話タスクをすでに解決できます。
ただし、より複雑なタスクの解決策は、単純に連鎖する LLM によって引き起こされるカスケード幻覚による論理の不一致により複雑になります。
ここでは、LLM ベースのマルチエージェント コラボレーションに効率的なヒューマン ワークフローを組み込んだ革新的なメタプログラミング フレームワークである MetaGPT を紹介します。
MetaGPT は、標準化操作手順 (SOP) をプロンプト シーケンスにエンコードして、より合理化されたワークフローを実現するため、人間のような専門知識を持つエージェントが中間結果を検証してエラーを削減できるようにします。
MetaGPT は組立ライン パラダイムを利用して、さまざまなエージェントに多様な役割を割り当て、複雑なタスクを多くのエージェントが連携するサブタスクに効率的に分割します。
協調的なソフトウェア エンジニアリングのベンチマークでは、MetaGPT は以前のチャットベースのマルチエージェント システムよりも一貫したソリューションを生成します。
私たちのプロジェクトは https://github.com/geekan/MetaGPT にあります。

要約(オリジナル)

Remarkable progress has been made on automated problem solving through societies of agents based on large language models (LLMs). Existing LLM-based multi-agent systems can already solve simple dialogue tasks. Solutions to more complex tasks, however, are complicated through logic inconsistencies due to cascading hallucinations caused by naively chaining LLMs. Here we introduce MetaGPT, an innovative meta-programming framework incorporating efficient human workflows into LLM-based multi-agent collaborations. MetaGPT encodes Standardized Operating Procedures (SOPs) into prompt sequences for more streamlined workflows, thus allowing agents with human-like domain expertise to verify intermediate results and reduce errors. MetaGPT utilizes an assembly line paradigm to assign diverse roles to various agents, efficiently breaking down complex tasks into subtasks involving many agents working together. On collaborative software engineering benchmarks, MetaGPT generates more coherent solutions than previous chat-based multi-agent systems. Our project can be found at https://github.com/geekan/MetaGPT

arxiv情報

著者 Sirui Hong,Mingchen Zhuge,Jonathan Chen,Xiawu Zheng,Yuheng Cheng,Ceyao Zhang,Jinlin Wang,Zili Wang,Steven Ka Shing Yau,Zijuan Lin,Liyang Zhou,Chenyu Ran,Lingfeng Xiao,Chenglin Wu,Jürgen Schmidhuber
発行日 2024-10-21 17:22:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework はコメントを受け付けていません

SLLEN: Semantic-aware Low-light Image Enhancement Network

要約

セマンティック特徴を効果的に探索する方法は、低照度画像強調 (LLE) にとって不可欠です。
既存の方法は通常、高レベルのセマンティック セグメンテーション (SS) ネットワークによって生成された出力からのみ抽出されるセマンティック機能を利用します。
ただし、出力が正確に推定されない場合は、高レベル セマンティック特徴 (HSF) 抽出に影響し、LLE に干渉します。
この目的を達成するために、LLE メイン ネットワーク (LLEmN) と SS 補助ネットワーク (SSaN) で構成されるシンプルで効果的なセマンティック認識 LLE ネットワーク (SSLEN) を開発します。
SLLEN では、LLEmN は、ランダム中間埋め込み機能 (IEF)、つまり SSaN の中間層から抽出された情報を、HSF とともに、より良い LLE を実現するための統一フレームワークに統合します。
SSaN は、HSF と IEF を提供する SS の役割として機能するように設計されています。
さらに、LLEmN と SSaN 間の共有エンコーダのおかげで、それらの間のコラボレーションを促進する交互トレーニング メカニズムをさらに提案します。
現在利用可能なアプローチとは異なり、提案された SLLEN は、IEF、HSF、SS データセットなどのセマンティック情報を完全に活用して LLE を支援することができ、それによってより有望な拡張パフォーマンスにつながります。
提案された SLLEN と他の最先端の技術を比較すると、LLE の品質に関して、同等のすべての代替技術よりも SLLEN が優れていることがわかります。

要約(オリジナル)

How to effectively explore semantic feature is vital for low-light image enhancement (LLE). Existing methods usually utilize the semantic feature that is only drawn from the output produced by high-level semantic segmentation (SS) network. However, if the output is not accurately estimated, it would affect the high-level semantic feature (HSF) extraction, which accordingly interferes with LLE. To this end, we develop a simple and effective semantic-aware LLE network (SSLEN) composed of a LLE main-network (LLEmN) and a SS auxiliary-network (SSaN). In SLLEN, LLEmN integrates the random intermediate embedding feature (IEF), i.e., the information extracted from the intermediate layer of SSaN, together with the HSF into a unified framework for better LLE. SSaN is designed to act as a SS role to provide HSF and IEF. Moreover, thanks to a shared encoder between LLEmN and SSaN, we further propose an alternating training mechanism to facilitate the collaboration between them. Unlike currently available approaches, the proposed SLLEN is able to fully lever the semantic information, e.g., IEF, HSF, and SS dataset, to assist LLE, thereby leading to a more promising enhancement performance. Comparisons between the proposed SLLEN and other state-of-the-art techniques demonstrate the superiority of SLLEN with respect to LLE quality over all the comparable alternatives.

arxiv情報

著者 Mingye Ju,Chuheng Chen,Charles A. Guo,Jinshan Pan,Jinhui Tang,Dacheng Tao
発行日 2024-10-21 13:12:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SLLEN: Semantic-aware Low-light Image Enhancement Network はコメントを受け付けていません

TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks

要約

表形式の分類は従来、最初からのトレーニングに依存していましたが、事前データ適合ネットワーク (PFN) と呼ばれる最近の画期的な進歩により、このアプローチに挑戦が生まれました。
大規模な言語モデルと同様に、PFN は事前トレーニングとコンテキスト内学習を利用して、単一の前方パスで新しいタスクで優れたパフォーマンスを達成します。
ただし、現在の PFN には、広範な採用を妨げる制限があります。
特に、TabPFN は小さな表形式のデータセットで非常に優れたパフォーマンスを実現しますが、1000 を超えるサイズのデータ​​セットを予測するように設計されていません。この作業では、これらの制限を克服し、コンテキストの最適化によって PFN のパフォーマンスを大幅に向上させます。
大規模なデータセットをより小さな学習済みコンテキストに圧縮する、PFN 向けのパラメーター効率の高い微調整戦略である TuneTables を紹介します。
私たちは 98 のデータセットにわたる 19 のアルゴリズムで広範な実験を行った結果、TuneTables が平均して最高のパフォーマンスを達成し、TabPFN のパラメーターの 5% 未満を最適化しながら、CatBoost などのブーストされたツリーを上回っていることがわかりました。
さらに、TuneTables が解釈可能性ツールとして使用でき、公平性の目標を最適化することでバイアスを軽減するためにも使用できることを示します。
コードと生の結果は https://github.com/penfever/TuneTables でオープンソース化されています。

要約(オリジナル)

While tabular classification has traditionally relied on from-scratch training, a recent breakthrough called prior-data fitted networks (PFNs) challenges this approach. Similar to large language models, PFNs make use of pretraining and in-context learning to achieve strong performance on new tasks in a single forward pass. However, current PFNs have limitations that prohibit their widespread adoption. Notably, TabPFN achieves very strong performance on small tabular datasets but is not designed to make predictions for datasets of size larger than 1000. In this work, we overcome these limitations and substantially improve the performance of PFNs via context optimization. We introduce TuneTables, a parameter-efficient fine-tuning strategy for PFNs that compresses large datasets into a smaller learned context. We conduct extensive experiments on 19 algorithms over 98 datasets and find that TuneTables achieves the best performance on average, outperforming boosted trees such as CatBoost, while optimizing fewer than 5% of TabPFN’s parameters. Furthermore, we show that TuneTables can be used as an interpretability tool and can even be used to mitigate biases by optimizing a fairness objective. We open-source our code and raw results at https://github.com/penfever/TuneTables.

arxiv情報

著者 Benjamin Feuer,Robin Tibor Schirrmeister,Valeriia Cherepanova,Chinmay Hegde,Frank Hutter,Micah Goldblum,Niv Cohen,Colin White
発行日 2024-10-21 16:48:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks はコメントを受け付けていません

Impact of Dataset Properties on Membership Inference Vulnerability of Deep Transfer Learning

要約

微調整されたニューラル ネットワークに 2 つの最先端のメンバーシップ推論攻撃 (MIA) を適用する際に、プライバシーの脆弱性とデータセットのプロパティ (クラスごとの例やクラス数など) との関係を分析します。
シャドウ モデルから計算されたスコア分布と統計の観点から、例ごとの MIA 脆弱性を導き出します。
メンバーシップ推論の簡略化されたモデルを導入し、このモデルでは、真陽性率と偽陽性率の差の対数がクラスごとの例の数の対数に線形に依存することを証明します。
私たちは、微調整された大規模画像分類モデルの実際的なプライバシー脆弱性を系統的にテストすることにより、理論的分析を実証的分析で補完し、データ内のクラスごとの例の数と MIA 脆弱性の間で以前に導出されたべき乗則依存性を取得します。
低い偽陽性率での攻撃の陽性率。
最後に、以前に導出した形式のパラメトリック モデルを適合させて、データセットのプロパティに基づいて真陽性率を予測し、目に見えない微調整シナリオで MIA の脆弱性が適切に適合していることを観察します。

要約(オリジナル)

We analyse the relationship between privacy vulnerability and dataset properties, such as examples per class and number of classes, when applying two state-of-the-art membership inference attacks (MIAs) to fine-tuned neural networks. We derive per-example MIA vulnerability in terms of score distributions and statistics computed from shadow models. We introduce a simplified model of membership inference and prove that in this model, the logarithm of the difference of true and false positive rates depends linearly on the logarithm of the number of examples per class. We complement the theoretical analysis with empirical analysis by systematically testing the practical privacy vulnerability of fine-tuning large image classification models and obtain the previously derived power law dependence between the number of examples per class in the data and the MIA vulnerability, as measured by true positive rate of the attack at a low false positive rate. Finally, we fit a parametric model of the previously derived form to predict true positive rate based on dataset properties and observe good fit for MIA vulnerability on unseen fine-tuning scenarios.

arxiv情報

著者 Marlon Tobaben,Hibiki Ito,Joonas Jälkö,Gauri Pradhan,Yuan He,Antti Honkela
発行日 2024-10-21 17:19:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Impact of Dataset Properties on Membership Inference Vulnerability of Deep Transfer Learning はコメントを受け付けていません

Joint Sensing and Semantic Communications with Multi-Task Deep Learning

要約

この論文では、セマンティック通信への拡張を伴う、共同センシングと通信のための深層学習技術の統合について検討します。
統合システムは、ノイズやフェージングの影響を受ける無線チャネル上で動作する送信機と受信機で構成されます。
送信機は、ソース コーディング、チャネル コーディング、および変調の共同操作にディープ ニューラル ネットワーク (DNN)、つまりエンコーダを使用します。一方、受信機は、復調、チャネル デコーディング、およびソースの共同操作に別の DNN、つまりデコーダを利用します。
デコードしてデータサンプルを再構築します。
送信された信号は、受信機との通信をサポートし、センシングを可能にするという 2 つの目的を果たします。
ターゲットが存在する場合、反射信号が受信され、別の DNN デコーダがセンシングに利用されます。
このデコーダは、ターゲットの存在を検出し、その範囲を決定する役割を果たします。
1 つのエンコーダーと 2 つのデコーダーを含むこれらすべての DNN は、データとチャネルの特性を考慮したマルチタスク学習を通じて共同トレーニングを受けます。
この論文は、タスク分類器として動作する受信側の別のデコーダである追加の DNN を導入することにより、セマンティック通信を組み込むように拡張されています。
このデコーダは、受信信号のラベル分類の忠実度を評価し、通信プロセス内でのセマンティクスの統合を強化します。
この研究では、入力データとして CIFAR-10 を使用し、加法性白色ガウス ノイズ (AWGN) やレイリー フェージングなどのチャネル効果を考慮した結果を示しています。
この結果は、高忠実度の共同センシングとセマンティック通信の実現におけるマルチタスク深層学習の有効性を強調しています。

要約(オリジナル)

This paper explores the integration of deep learning techniques for joint sensing and communications, with an extension to semantic communications. The integrated system comprises a transmitter and receiver operating over a wireless channel, subject to noise and fading. The transmitter employs a deep neural network (DNN), namely an encoder, for joint operations of source coding, channel coding, and modulation, while the receiver utilizes another DNN, namely a decoder, for joint operations of demodulation, channel decoding, and source decoding to reconstruct the data samples. The transmitted signal serves a dual purpose, supporting communication with the receiver and enabling sensing. When a target is present, the reflected signal is received, and another DNN decoder is utilized for sensing. This decoder is responsible for detecting the target’s presence and determining its range. All these DNNs, including one encoder and two decoders, undergo joint training through multi-task learning, considering data and channel characteristics. This paper extends to incorporate semantic communications by introducing an additional DNN, another decoder at the receiver, operating as a task classifier. This decoder evaluates the fidelity of label classification for received signals, enhancing the integration of semantics within the communication process. The study presents results based on using the CIFAR-10 as the input data and accounting for channel effects like Additive White Gaussian Noise (AWGN) and Rayleigh fading. The results underscore the effectiveness of multi-task deep learning in achieving high-fidelity joint sensing and semantic communications.

arxiv情報

著者 Yalin E. Sagduyu,Tugba Erpek,Aylin Yener,Sennur Ulukus
発行日 2024-10-21 16:30:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.LG, cs.NI, eess.SP, math.IT | Joint Sensing and Semantic Communications with Multi-Task Deep Learning はコメントを受け付けていません

Toxicity Detection is NOT all you Need: Measuring the Gaps to Supporting Volunteer Content Moderators

要約

コンテンツモデレーションの自動化アプローチにおける広範な取り組みは、モデレーターの負担を軽減することを目的として、有害、攻撃的、憎悪に満ちたコンテンツを特定するモデルの開発に焦点を当ててきました。
しかし、これらのタスクの改善によって、モデレーターが仕事を遂行する際のニーズに本当に応えられたかどうかは依然として不透明です。
この論文では、さまざまなモデレーション ルールの違反の特定に関して、コンテンツ モデレーションの側面を自動化することを目的とした過去の研究活動とボランティアのコンテンツ モデレーターのニーズとの間のギャップを明らかにします。
そのために、私たちは Hugging Face のモデル レビューを実施し、3 つの模範フォーラムからのさまざまなモデレーション ルールとガイドラインをカバーするモデルの利用可能性を明らかにします。
さらに、最先端の LLM をテストし、特定のフォーラムからのプラットフォーム ルール違反のフラグを立てる際にこれらのモデルがどの程度うまく機能するかを評価しました。
最後に、ボランティアのモデレーターとユーザー調査を実施し、有用なモデレーター モデルに関する彼らの見解を洞察します。
全体として、不足している開発モデルと LLM がルールの重要な部分で中程度から低いパフォーマンスを示しているため、重大なギャップが観察されます。
モデレーターのレポートは、モデレーター アシスタント モデルの開発に関する将来の作業のためのガイドを提供します。

要約(オリジナル)

Extensive efforts in automated approaches for content moderation have been focused on developing models to identify toxic, offensive, and hateful content with the aim of lightening the load for moderators. Yet, it remains uncertain whether improvements on those tasks have truly addressed moderators’ needs in accomplishing their work. In this paper, we surface gaps between past research efforts that have aimed to provide automation for aspects of content moderation and the needs of volunteer content moderators, regarding identifying violations of various moderation rules. To do so, we conduct a model review on Hugging Face to reveal the availability of models to cover various moderation rules and guidelines from three exemplar forums. We further put state-of-the-art LLMs to the test, evaluating how well these models perform in flagging violations of platform rules from one particular forum. Finally, we conduct a user survey study with volunteer moderators to gain insight into their perspectives on useful moderation models. Overall, we observe a non-trivial gap, as missing developed models and LLMs exhibit moderate to low performance on a significant portion of the rules. Moderators’ reports provide guides for future work on developing moderation assistant models.

arxiv情報

著者 Yang Trista Cao,Lovely-Frances Domingo,Sarah Ann Gilbert,Michelle Mazurek,Katie Shilton,Hal Daumé III
発行日 2024-10-21 16:48:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Toxicity Detection is NOT all you Need: Measuring the Gaps to Supporting Volunteer Content Moderators はコメントを受け付けていません

Reinforced Imitative Trajectory Planning for Urban Automated Driving

要約

強化学習 (RL) は、RL の収束性の低さと報酬関数の設計の難しさにより、都市自動運転の軌道計画において課題に直面しています。
収束の問題は、RL と教師あり学習を組み合わせることで軽減されます。
しかし、既存のアプローチのほとんどは 1 ステップ先を推論するだけで、将来の複数のステップを計画する機能がありません。
さらに、逆強化学習は報酬関数の設計問題を解決する可能性を秘めていますが、既存の自動運転手法は報酬関数に線形構造の仮定を課しているため、都市部の自動運転に適用するのは困難です。
これらの課題を考慮して、この論文では、RL と模倣学習を統合してマルチステップ計画を可能にする、新しい RL ベースの軌道計画方法を提案します。
さらに、トランスフォーマーベースのベイジアン報酬関数が開発され、都市シナリオにおける RL に効果的な報酬信号を提供します。
さらに、安全性と解釈可能性を高めるために、ハイブリッド駆動の軌道計画フレームワークが提案されています。
提案された手法は、大規模な現実世界の都市自動運転 nuPlan データセットで検証されました。
結果は、閉ループメトリクスの点で、提案された方法がベースラインよりも大幅に優れていることを実証しました。
コードは https://github.com/Zigned/nuplan_zigned で入手できます。

要約(オリジナル)

Reinforcement learning (RL) faces challenges in trajectory planning for urban automated driving due to the poor convergence of RL and the difficulty in designing reward functions. The convergence problem is alleviated by combining RL with supervised learning. However, most existing approaches only reason one step ahead and lack the capability to plan for multiple future steps. Besides, although inverse reinforcement learning holds promise for solving the reward function design issue, existing methods for automated driving impose a linear structure assumption on reward functions, making them difficult to apply to urban automated driving. In light of these challenges, this paper proposes a novel RL-based trajectory planning method that integrates RL with imitation learning to enable multi-step planning. Furthermore, a transformer-based Bayesian reward function is developed, providing effective reward signals for RL in urban scenarios. Moreover, a hybrid-driven trajectory planning framework is proposed to enhance safety and interpretability. The proposed methods were validated on the large-scale real-world urban automated driving nuPlan dataset. The results demonstrated the significant superiority of the proposed methods over the baselines in terms of the closed-loop metrics. The code is available at https://github.com/Zigned/nuplan_zigned.

arxiv情報

著者 Di Zeng,Ling Zheng,Xiantong Yang,Yinong Li
発行日 2024-10-21 03:04:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Reinforced Imitative Trajectory Planning for Urban Automated Driving はコメントを受け付けていません

MAL: Motion-Aware Loss with Temporal and Distillation Hints for Self-Supervised Depth Estimation

要約

奥行き認識は、幅広いロボット アプリケーションにとって重要です。
マルチフレームの自己教師あり深度推定手法は、大規模でラベルのない実世界のデータを活用できるため、研究の関心を集めています。
ただし、自己教師あり手法は静的なシーンの仮定に依存することが多く、動的な環境ではパフォーマンスが低下する傾向があります。
この問題に対処するために、我々は、連続入力フレーム間の時間的関係と、マルチフレームの自己教師あり深度推定方法における教師と生徒のネットワーク間の新しい蒸留スキームを活用するモーションアウェアロスを提案します。
具体的には、移動オブジェクトの空間的位置を入力フレームの時間的順序と関連付けて、オブジェクトの動きによって引き起こされるエラーを排除します。
一方で、教師ネットワークからの知識をより有効に活用するために、マルチフレーム手法で元の蒸留スキームを強化します。
MAL は、マルチフレームの自己監視型単眼深度推定方法にシームレスに統合できるように設計された、新しいプラグ アンド プレイ モジュールです。
以前の最先端の手法に MAL を追加すると、KITTI ベンチマークと CityScapes ベンチマークで深度推定誤差がそれぞれ最大 4.2% と 10.8% 減少します。

要約(オリジナル)

Depth perception is crucial for a wide range of robotic applications. Multi-frame self-supervised depth estimation methods have gained research interest due to their ability to leverage large-scale, unlabeled real-world data. However, the self-supervised methods often rely on the assumption of a static scene and their performance tends to degrade in dynamic environments. To address this issue, we present Motion-Aware Loss, which leverages the temporal relation among consecutive input frames and a novel distillation scheme between the teacher and student networks in the multi-frame self-supervised depth estimation methods. Specifically, we associate the spatial locations of moving objects with the temporal order of input frames to eliminate errors induced by object motion. Meanwhile, we enhance the original distillation scheme in multi-frame methods to better exploit the knowledge from a teacher network. MAL is a novel, plug-and-play module designed for seamless integration into multi-frame self-supervised monocular depth estimation methods. Adding MAL into previous state-of-the-art methods leads to a reduction in depth estimation errors by up to 4.2% and 10.8% on KITTI and CityScapes benchmarks, respectively.

arxiv情報

著者 Yue-Jiang Dong,Fang-Lue Zhang,Song-Hai Zhang
発行日 2024-10-21 03:13:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | MAL: Motion-Aware Loss with Temporal and Distillation Hints for Self-Supervised Depth Estimation はコメントを受け付けていません

Uncovering the Secrets of Human-Like Movement: A Fresh Perspective on Motion Planning

要約

この記事では、動作計画に関する新たな視点から人間に似た動作を探求します。
人体の協調的・柔軟な運動メカニズムをバイオメカニクスの観点から解析します。
これらのメカニズムに基づいて、準拠した制御ダイナミクスを統合し、応答時間マトリックスを通じてロボット アームの動作を最適化する最適な制御フレームワークを提案します。
このマトリックスは関節の動きのタイミング パラメーターを設定し、システムを時間パラメーター化された最適な制御問題に変換します。
このモデルは、外乱下での能動関節と受動関節間の相互作用に焦点を当て、適応性とコンプライアンスを向上させます。
この方法により、最適な軌道の生成が実現され、精度とコンプライアンスのバランスが保たれます。
マニピュレーターと人型ロボットの両方での実験結果により、このアプローチが検証されました。

要約(オリジナル)

This article explores human-like movement from a fresh perspective on motion planning. We analyze the coordinated and compliant movement mechanisms of the human body from the perspective of biomechanics. Based on these mechanisms, we propose an optimal control framework that integrates compliant control dynamics, optimizing robotic arm motion through a response time matrix. This matrix sets the timing parameters for joint movements, turning the system into a time-parameterized optimal control problem. The model focuses on the interaction between active and passive joints under external disturbances, improving adaptability and compliance. This method achieves optimal trajectory generation and balances precision and compliance. Experimental results on both a manipulator and a humanoid robot validate the approach.

arxiv情報

著者 Lei Shi,Qichao Liu,Cheng Zhou,Wentao Gao,Haotian Wu,Yu Zheng,Xiong Li
発行日 2024-10-21 04:06:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Uncovering the Secrets of Human-Like Movement: A Fresh Perspective on Motion Planning はコメントを受け付けていません

Data-Driven Dynamics Modeling of Miniature Robotic Blimps Using Neural ODEs With Parameter Auto-Tuning

要約

空気より軽い航空機の一種である小型ロボット飛行船は、クアッドローターと比較して安全性が向上し、耐久性が向上し、動作が静かであるため、科学および工学界でますます注目を集めています。
これらのロボット飛行船のダイナミクスを正確にモデル化することは、その大きな揚力体から生じる複雑な空気力学のため、大きな課題となります。
従来の第一原理モデルでは、正確な空気力学パラメータを取得することが難しく、高次の非線形性を見落とすことが多いため、小型ロボット飛行船の運動力学をモデル化するのは限界に達しています。
この課題に取り組むために、このレターでは、第一原理とニューラル ネットワーク モデリングを統合したデータ駆動型アプローチである自動チューニング飛行船指向ニューラル常微分方程式法 (ABNODE) を提案します。
ロボット飛行船の螺旋運動実験が行われ、ABNODE を第一原理およびその他のデータ駆動型ベンチマーク モデルと比較し、その結果は提案された方法の有効性を実証します。

要約(オリジナル)

Miniature robotic blimps, as one type of lighter-than-air aerial vehicles, have attracted increasing attention in the science and engineering community for their enhanced safety, extended endurance, and quieter operation compared to quadrotors. Accurately modeling the dynamics of these robotic blimps poses a significant challenge due to the complex aerodynamics stemming from their large lifting bodies. Traditional first-principle models have difficulty obtaining accurate aerodynamic parameters and often overlook high-order nonlinearities, thus coming to its limit in modeling the motion dynamics of miniature robotic blimps. To tackle this challenge, this letter proposes the Auto-tuning Blimp-oriented Neural Ordinary Differential Equation method (ABNODE), a data-driven approach that integrates first-principle and neural network modeling. Spiraling motion experiments of robotic blimps are conducted, comparing the ABNODE with first-principle and other data-driven benchmark models, the results of which demonstrate the effectiveness of the proposed method.

arxiv情報

著者 Yongjian Zhu,Hao Cheng,Feitian Zhang
発行日 2024-10-21 06:25:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Data-Driven Dynamics Modeling of Miniature Robotic Blimps Using Neural ODEs With Parameter Auto-Tuning はコメントを受け付けていません