Mental Disorders Detection in the Era of Large Language Models

要約

この論文では、うつ病と不安を検出するタスクにおける、従来の機械学習手法、エンコーダーベースのモデル、および大規模言語モデル (LLM) の有効性を比較します。
対象となる病理学クラスを定義するために使用される形式と方法がそれぞれ異なる 5 つのデータセットが検討されました。
私たちは、言語特徴に基づいた AutoML モデル、BERT などのエンコーダベースの Transformer のいくつかのバリエーション、および病理学分類モデルとしての最先端の LLM をテストしました。
その結果、LLM は、特にトレーニング サンプルのテキストの長さやジャンルが大幅に異なるノイズの多い小規模なデータセットにおいて、従来の方法よりも優れたパフォーマンスを発揮することが実証されました。
しかし、心理言語学的特徴とエンコーダーベースのモデルは、臨床的にうつ病と確認された個人からのテキストでトレーニングされた場合、言語モデルに匹敵するパフォーマンスを達成することができ、対象を絞った臨床応用における潜在的な有効性が強調されています。

要約(オリジナル)

This paper compares the effectiveness of traditional machine learning methods, encoder-based models, and large language models (LLMs) on the task of detecting depression and anxiety. Five datasets were considered, each differing in format and the method used to define the target pathology class. We tested AutoML models based on linguistic features, several variations of encoder-based Transformers such as BERT, and state-of-the-art LLMs as pathology classification models. The results demonstrated that LLMs outperform traditional methods, particularly on noisy and small datasets where training examples vary significantly in text length and genre. However, psycholinguistic features and encoder-based models can achieve performance comparable to language models when trained on texts from individuals with clinically confirmed depression, highlighting their potential effectiveness in targeted clinical applications.

arxiv情報

著者 Gleb Kuzmin,Petr Strepetov,Maksim Stankevich,Ivan Smirnov,Artem Shelmanov
発行日 2024-10-09 17:51:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates

要約

AlpacaEval 2.0、Arena-Hard-Auto、MT-Bench などの自動 LLM ベンチマークは、人間による評価と比較した費用対効果とスケーラビリティにより、言語モデルの評価に人気が高まっています。
これらのベンチマークで高い勝率を達成すると、新しくリリースされた言語モデルのプロモーション効果を大幅に高めることができます。
ゲーム性を低下させるために長さやスタイルのもつれを解くためにいくつかのメカニズムが開発されているにもかかわらず、このプロモーション上の利点は、モデルの出力の長さやスタイルをゲームの勝率に合わせて操作するなどのトリックを動機付ける可能性があります。
それにもかかわらず、常に一定の応答 (入力命令とは無関係) を出力する「ヌル モデル」であっても、自動ベンチマークを欺き、トップランクの勝率を達成できることを示しました。AlpacaEval 2.0 では 86.5% の LC 勝率。
Arena-Hard-Auto のスコアは 83.0。
MT-Bench のスコアは 9.55 でした。
さらに、これらのベンチマークの命令 (AlpacaEval 2.0 の 805 サンプルなど) はプライベートであり、アクセスできないと想定しているため、細工された不正行為の出力は転送可能です。
私たちの実験は主に概念実証ですが、敵は LLM を使用して、より知覚できない不正行為の応答を生成し、高い勝率とプロモーション効果から非倫理的な利益を得る可能性があります。
私たちの調査結果では、信頼性の高い自動ベンチマークのための不正行為防止メカニズムの開発が必要です。
コードは https://github.com/sail-sg/Cheating-LLM-Benchmarks で入手できます。

要約(オリジナル)

Automatic LLM benchmarks, such as AlpacaEval 2.0, Arena-Hard-Auto, and MT-Bench, have become popular for evaluating language models due to their cost-effectiveness and scalability compared to human evaluation. Achieving high win rates on these benchmarks can significantly boost the promotional impact of newly released language models. This promotional benefit may motivate tricks, such as manipulating model output length or style to game win rates, even though several mechanisms have been developed to control length and disentangle style to reduce gameability. Nonetheless, we show that even a ‘null model’ that always outputs a constant response (irrelevant to input instructions) can cheat automatic benchmarks and achieve top-ranked win rates: an 86.5% LC win rate on AlpacaEval 2.0; an 83.0 score on Arena-Hard-Auto; and a 9.55 score on MT-Bench. Moreover, the crafted cheating outputs are transferable because we assume that the instructions of these benchmarks (e.g., 805 samples of AlpacaEval 2.0) are private and cannot be accessed. While our experiments are primarily proof-of-concept, an adversary could use LLMs to generate more imperceptible cheating responses, unethically benefiting from high win rates and promotional impact. Our findings call for the development of anti-cheating mechanisms for reliable automatic benchmarks. The code is available at https://github.com/sail-sg/Cheating-LLM-Benchmarks.

arxiv情報

著者 Xiaosen Zheng,Tianyu Pang,Chao Du,Qian Liu,Jing Jiang,Min Lin
発行日 2024-10-09 17:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | コメントする

Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling

要約

トランスフォーマーベースの言語モデルに対するリカレント ニューラル ネットワーク (RNN) の重要な利点の 1 つは、シーケンスの長さに関する線形計算の複雑さです。これにより、推論中の長いシーケンスの処理が大幅に高速になります。
しかし、ほとんどの公的に利用可能な RNN (Mamba や RWKV など) は 10,000 トークン未満のシーケンスでトレーニングされており、より長いコンテキストでの有効性は今のところほとんど満足のいくものではありません。
このペーパーでは、RNN の長いコンテキストを処理できない原因を調査し、重要な緩和策を提案します。
最先端の RNN を長いコンテキストに適用する場合の 2 つの実際的な懸念事項を検討します。(1) トレーニング長よりも長い入力を外挿できないこと、および (2) メモリ容量の上限です。
最初の懸念事項に対処するには、まず、トレーニング中に発生しないシーケンス長で重大なパフォーマンス低下を引き起こす現象である *状態崩壊* (SC) を調査します。
制御された実験では、トレーニングの長さに対して反復状態が過剰にパラメータ化されているため、これは過剰適合であると考えられます。
2 番目の懸念事項については、言語モデリングとパスキー取得における反復状態容量を経験的に推定するために、長い文書で一連の Mamba-2 モデルをトレーニングします。
次に、Mamba-2 の長さの一般化性を改善するために 3 つの SC 緩和方法が提案され、モデルが SC なしで 100 万を超えるトークンを処理できるようになります。
また、パスキー取得における反復状態容量が状態サイズに指数関数的にスケールすることもわかり、256K コンテキスト長でほぼ完璧なパスキー取得精度で Mamba-2 370M を経験的にトレーニングしました。
これは、RNN ベースのロングコンテキスト モデリングの有望な将来を示唆しています。

要約(オリジナル)

One essential advantage of recurrent neural networks (RNNs) over transformer-based language models is their linear computational complexity concerning the sequence length, which makes them much faster in handling long sequences during inference. However, most publicly available RNNs (e.g., Mamba and RWKV) are trained on sequences with less than 10K tokens, and their effectiveness in longer contexts remains largely unsatisfying so far. In this paper, we study the cause of the inability to process long context for RNNs and suggest critical mitigations. We examine two practical concerns when applying state-of-the-art RNNs to long contexts: (1) the inability to extrapolate to inputs longer than the training length and (2) the upper bound of memory capacity. Addressing the first concern, we first investigate *state collapse* (SC), a phenomenon that causes severe performance degradation on sequence lengths not encountered during training. With controlled experiments, we attribute this to overfitting due to the recurrent state being overparameterized for the training length. For the second concern, we train a series of Mamba-2 models on long documents to empirically estimate the recurrent state capacity in language modeling and passkey retrieval. Then, three SC mitigation methods are proposed to improve Mamba-2’s length generalizability, allowing the model to process more than 1M tokens without SC. We also find that the recurrent state capacity in passkey retrieval scales exponentially to the state size, and we empirically train a Mamba-2 370M with near-perfect passkey retrieval accuracy on 256K context length. This suggests a promising future for RNN-based long-context modeling.

arxiv情報

著者 Yingfa Chen,Xinrong Zhang,Shengding Hu,Xu Han,Zhiyuan Liu,Maosong Sun
発行日 2024-10-09 17:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Taking a turn for the better: Conversation redirection throughout the course of mental-health therapy

要約

メンタルヘルス療法には、患者と治療者が次に何を話すべきかを継続的に交渉する複雑な会話の流れが含まれます。
たとえば、治療者は治療プロセスを軌道に乗せて停滞を避けるために会話の方向を変えようとしたり、患者が焦点を当てたい問題に向けて議論を進めたりするかもしれません。
このような患者と治療者の方向転換は、彼らの関係の発展と質にどのように関係するのでしょうか?
この質問に答えるために、特定の発話が会話の流れを即座にリダイレクトする程度を確率的に測定し、そのような変化の意図と実際の実現の両方を説明します。
私たちはこの新しい尺度を適用して、非常に大規模で広く使用されているオンライン治療プラットフォームにおける複数のセッションにわたる患者と治療者の関係の発展を特徴づけます。
私たちの分析により、(1) 一般に、患者の会話の方向性のコントロールは、関係が進むにつれてセラピストのコントロールに比べて増加することが明らかになりました。
(2) 最初の数回のセッションであまりコントロールできない患者は、最終的にセラピストに不満を表明し、関係を終了する可能性が大幅に高くなります。

要約(オリジナル)

Mental-health therapy involves a complex conversation flow in which patients and therapists continuously negotiate what should be talked about next. For example, therapists might try to shift the conversation’s direction to keep the therapeutic process on track and avoid stagnation, or patients might push the discussion towards issues they want to focus on. How do such patient and therapist redirections relate to the development and quality of their relationship? To answer this question, we introduce a probabilistic measure of the extent to which a certain utterance immediately redirects the flow of the conversation, accounting for both the intention and the actual realization of such a change. We apply this new measure to characterize the development of patient-therapist relationships over multiple sessions in a very large, widely-used online therapy platform. Our analysis reveals that (1) patient control of the conversation’s direction generally increases relative to that of the therapist as their relationship progresses; and (2) patients who have less control in the first few sessions are significantly more likely to eventually express dissatisfaction with their therapist and terminate the relationship.

arxiv情報

著者 Vivian Nguyen,Sang Min Jung,Lillian Lee,Thomas D. Hull,Cristian Danescu-Niculescu-Mizil
発行日 2024-10-09 17:54:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | コメントする

Quanda: An Interpretability Toolkit for Training Data Attribution Evaluation and Beyond

要約

近年、トレーニング データ アトリビューション (TDA) 手法が、ニューラル ネットワークの解釈可能性の有望な方向性として浮上しています。
TDA に関する研究は盛んですが、帰属の評価には限られた労力が費やされています。
従来の特徴帰属アプローチの評価指標の開発と同様に、さまざまなコンテキストにわたる TDA 手法の品質を評価するために、いくつかの独立した指標が提案されています。
しかし、体系的な比較を可能にする統一フレームワークの欠如により、TDA 手法への信頼が制限され、その広範な採用が妨げられています。
この研究ギャップに対処するために、TDA 手法の評価を容易にするために設計された Python ツールキットである Quanda を紹介します。
Quanda は、包括的な評価メトリクスのセットを提供するだけでなく、さまざまなリポジトリにわたる既存の TDA 実装とシームレスに統合するための統一インターフェイスを提供し、体系的なベンチマークを可能にします。
このツールキットはユーザーフレンドリーで、徹底的にテストされ、十分に文書化されており、PyPi および https://github.com/dilyabareeva/quanda でオープンソース ライブラリとして利用できます。

要約(オリジナル)

In recent years, training data attribution (TDA) methods have emerged as a promising direction for the interpretability of neural networks. While research around TDA is thriving, limited effort has been dedicated to the evaluation of attributions. Similar to the development of evaluation metrics for traditional feature attribution approaches, several standalone metrics have been proposed to evaluate the quality of TDA methods across various contexts. However, the lack of a unified framework that allows for systematic comparison limits trust in TDA methods and stunts their widespread adoption. To address this research gap, we introduce Quanda, a Python toolkit designed to facilitate the evaluation of TDA methods. Beyond offering a comprehensive set of evaluation metrics, Quanda provides a uniform interface for seamless integration with existing TDA implementations across different repositories, thus enabling systematic benchmarking. The toolkit is user-friendly, thoroughly tested, well-documented, and available as an open-source library on PyPi and under https://github.com/dilyabareeva/quanda.

arxiv情報

著者 Dilyara Bareeva,Galip Ümit Yolcu,Anna Hedström,Niklas Schmolenski,Thomas Wiegand,Wojciech Samek,Sebastian Lapuschkin
発行日 2024-10-09 17:56:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy

要約

外交は人間社会における最も高度な活動の一つです。
複数の関係者/エージェント間の複雑なやり取りには、社会的推論、交渉術、長期戦略計画などのさまざまな能力が必要となります。
これまでの AI エージェントは、複数のエージェントが関与するタスクでマルチステップ ゲームやより大きなアクション スペースを処理できる能力を証明してきました。
しかし、外交には、特に必要な交渉段階を考慮すると、驚くほど広範な意思決定の余地が伴います。
最近、LLM エージェントは、いくつかのアプリケーションで以前のエージェントの境界を拡張する可能性を示していますが、複雑なマルチエージェント環境で非常に長い計画期間を処理するにはまだ十分ではありません。
最先端の LLM テクノロジーを活用した私たちは、より強力な LLM ベースの社会エージェントのための 3 つの核となる重要な機能を組み合わせることにより、このような高度に包括的なマルチエージェントのミッションにおいて、人間のようなエージェントに向けた AI の上限を探索する最初の試みを行います。
記憶と反省を備えた戦略的プランナー。
2) 社会的推論に基づいて目標指向で交渉する。
3) 自動プレイ ゲームによって記憶を増強し、人間が関与することなく自己進化します。

要約(オリジナル)

Diplomacy is one of the most sophisticated activities in human society. The complex interactions among multiple parties/ agents involve various abilities like social reasoning, negotiation arts, and long-term strategy planning. Previous AI agents surely have proved their capability of handling multi-step games and larger action spaces on tasks involving multiple agents. However, diplomacy involves a staggering magnitude of decision spaces, especially considering the negotiation stage required. Recently, LLM agents have shown their potential for extending the boundary of previous agents on a couple of applications, however, it is still not enough to handle a very long planning period in a complex multi-agent environment. Empowered with cutting-edge LLM technology, we make the first stab to explore AI’s upper bound towards a human-like agent for such a highly comprehensive multi-agent mission by combining three core and essential capabilities for stronger LLM-based societal agents: 1) strategic planner with memory and reflection; 2) goal-oriented negotiate with social reasoning; 3) augmenting memory by self-play games to self-evolving without any human in the loop.

arxiv情報

著者 Zhenyu Guan,Xiangyu Kong,Fangwei Zhong,Yizhou Wang
発行日 2024-10-09 17:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.SI | コメントする

Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning

要約

この研究では、大規模言語モデル (LLM) の未学習の問題に対処し、最初から再トレーニングすることなく、重要なモデル ユーティリティを維持しながら、不要なデータの影響と関連するモデル機能 (著作権で保護されたデータや有害なコンテンツの生成など) を除去することを目指しています。

LLM アンラーニングの必要性が高まっているにもかかわらず、原則に基づいた最適化フレームワークが依然として不足しています。
この目的を達成するために、我々は最先端のアプローチである負の選好最適化 (NPO) を再考し、特にさまざまな難易度のデータを忘れて学習しない場合に、NPO の有効性を損なう可能性がある参照モデルのバイアスの問題を特定します。
それを踏まえて、我々は SimNPO と呼ばれるシンプルだが効果的な非学習最適化フレームワークを提案し、(単純な優先最適化のレンズを通して) 参照モデルへの依存を取り除く「単純さ」が非学習に利益をもたらすことを示します。
また、マルコフ連鎖の混合を使用した分析によって裏付けられた、SimNPO の利点についてのより深い洞察も提供します。
さらに、TOFU や MUSE などのベンチマークにおける既存の非学習ベースラインに対する SimNPO の優位性と、再学習攻撃に対する堅牢性を検証する広範な実験を紹介します。
コードは https://github.com/OPTML-Group/Unlearn-Simple で入手できます。

要約(オリジナル)

In this work, we address the problem of large language model (LLM) unlearning, aiming to remove unwanted data influences and associated model capabilities (e.g., copyrighted data or harmful content generation) while preserving essential model utilities, without the need for retraining from scratch. Despite the growing need for LLM unlearning, a principled optimization framework remains lacking. To this end, we revisit the state-of-the-art approach, negative preference optimization (NPO), and identify the issue of reference model bias, which could undermine NPO’s effectiveness, particularly when unlearning forget data of varying difficulty. Given that, we propose a simple yet effective unlearning optimization framework, called SimNPO, showing that ‘simplicity’ in removing the reliance on a reference model (through the lens of simple preference optimization) benefits unlearning. We also provide deeper insights into SimNPO’s advantages, supported by analysis using mixtures of Markov chains. Furthermore, we present extensive experiments validating SimNPO’s superiority over existing unlearning baselines in benchmarks like TOFU and MUSE, and robustness against relearning attacks. Codes are available at https://github.com/OPTML-Group/Unlearn-Simple.

arxiv情報

著者 Chongyu Fan,Jiancheng Liu,Licong Lin,Jinghan Jia,Ruiqi Zhang,Song Mei,Sijia Liu
発行日 2024-10-09 17:58:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making

要約

私たちは、具体化された意思決定のために大規模言語モデル (LLM) を評価することを目指しています。
多くの研究では、具体化された環境での意思決定に LLM を活用してきましたが、LLM は通常、さまざまなドメイン、さまざまな目的に適用され、さまざまな入力と出力に基づいて構築されるため、そのパフォーマンスについて体系的な理解がまだ不足しています。
さらに、既存の評価は最終的な成功率のみに依存する傾向があり、LLM にどのような能力が欠けているのか、どこに問題があるのか​​を特定することが困難になり、その結果、身体化されたエージェントが LLM を効果的かつ選択的に活用することが妨げられています。
これらの制限に対処するために、さまざまなタイプのタスクと LLM ベースのモジュールの入出力仕様の形式化をサポートする一般化されたインターフェイス (エンボディド エージェント インターフェイス) を提案します。
具体的には、1) 状態目標と時間的に拡張された目標の両方を含む、具体化された意思決定タスクの広範なセット、2) 意思決定に一般的に使用される 4 つの LLM ベースのモジュール (目標解釈、サブ目標分解、アクション シーケンス、および
移行モデリング、および 3) 幻覚エラー、アフォーダンス エラー、さまざまなタイプの計画エラーなど、評価をさまざまなタイプのエラーに分類するきめ細かい指標のコレクション。全体として、私たちのベンチマークは、LLM の包括的な評価を提供します。
さまざまなサブタスクのパフォーマンスを確認し、LLM を利用した組み込み型 AI システムの長所と短所を正確に特定し、組み込み型の意思決定において LLM を効果的かつ選択的に使用するための洞察を提供します。

要約(オリジナル)

We aim to evaluate Large Language Models (LLMs) for embodied decision making. While a significant body of work has been leveraging LLMs for decision making in embodied environments, we still lack a systematic understanding of their performance because they are usually applied in different domains, for different purposes, and built based on different inputs and outputs. Furthermore, existing evaluations tend to rely solely on a final success rate, making it difficult to pinpoint what ability is missing in LLMs and where the problem lies, which in turn blocks embodied agents from leveraging LLMs effectively and selectively. To address these limitations, we propose a generalized interface (Embodied Agent Interface) that supports the formalization of various types of tasks and input-output specifications of LLM-based modules. Specifically, it allows us to unify 1) a broad set of embodied decision-making tasks involving both state and temporally extended goals, 2) four commonly-used LLM-based modules for decision making: goal interpretation, subgoal decomposition, action sequencing, and transition modeling, and 3) a collection of fine-grained metrics which break down evaluation into various types of errors, such as hallucination errors, affordance errors, various types of planning errors, etc. Overall, our benchmark offers a comprehensive assessment of LLMs’ performance for different subtasks, pinpointing the strengths and weaknesses in LLM-powered embodied AI systems, and providing insights for effective and selective use of LLMs in embodied decision making.

arxiv情報

著者 Manling Li,Shiyu Zhao,Qineng Wang,Kangrui Wang,Yu Zhou,Sanjana Srivastava,Cem Gokmen,Tony Lee,Li Erran Li,Ruohan Zhang,Weiyu Liu,Percy Liang,Li Fei-Fei,Jiayuan Mao,Jiajun Wu
発行日 2024-10-09 17:59:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO | コメントする

One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation

要約

基盤モデル (FM) は大規模なデータセットで事前トレーニングされ、特定のアプリケーションの下流タスクで微調整されます。
最も成功し、最も一般的に使用される微調整方法は、低ランク適応 (LoRA) を介して事前トレーニングされた重みを更新することです。
LoRA では、通常、モデルの重み全体に均一なランク分布を使用してランダムに初期化される新しい重み行列が導入されています。
最近の研究は、トレーニング中の重み主導の初期化または適応ランクの学習に焦点を当てています。
どちらのアプローチも単独でしか調査されていないため、収束が遅くなったり、均一なランク分布が生じたりして、次善のパフォーマンスにつながります。
活性化ベクトルのミニバッチで特異値分解を計算することにより、データ駆動型の方法で新しい重みを初期化することにより、LoRA を強化することを提案します。
次に、取得した右特異ベクトルで LoRA 行列を初期化し、すべての重み行列間でランクを再配分して分散の最大量を説明し、標準的な LoRA 微調整手順を続行します。
これにより、新しい手法である Explained Variance Adaptation (EVA) が誕生しました。
私たちは EVA を、言語の生成や理解から画像分類や強化学習に至るまで、さまざまな微調整タスクに適用します。
EVA は競合他社よりも速い収束を示し、ドメインごとの多数のタスクにわたって最高の平均スコアを達成します。

要約(オリジナル)

Foundation models (FMs) are pre-trained on large-scale datasets and then fine-tuned on a downstream task for a specific application. The most successful and most commonly used fine-tuning method is to update the pre-trained weights via a low-rank adaptation (LoRA). LoRA introduces new weight matrices that are usually initialized at random with a uniform rank distribution across model weights. Recent works focus on weight-driven initialization or learning of adaptive ranks during training. Both approaches have only been investigated in isolation, resulting in slow convergence or a uniform rank distribution, in turn leading to sub-optimal performance. We propose to enhance LoRA by initializing the new weights in a data-driven manner by computing singular value decomposition on minibatches of activation vectors. Then, we initialize the LoRA matrices with the obtained right-singular vectors and re-distribute ranks among all weight matrices to explain the maximal amount of variance and continue the standard LoRA fine-tuning procedure. This results in our new method Explained Variance Adaptation (EVA). We apply EVA to a variety of fine-tuning tasks ranging from language generation and understanding to image classification and reinforcement learning. EVA exhibits faster convergence than competitors and attains the highest average score across a multitude of tasks per domain.

arxiv情報

著者 Fabian Paischer,Lukas Hauzenberger,Thomas Schmied,Benedikt Alkin,Marc Peter Deisenroth,Sepp Hochreiter
発行日 2024-10-09 17:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | コメントする

Neural Circuit Architectural Priors for Quadruped Locomotion

要約

四足歩行への学習ベースのアプローチでは、完全接続 MLP などの汎用ポリシー アーキテクチャが一般的に採用されています。
このようなアーキテクチャには帰納的バイアスがほとんど含まれないため、実際には、報酬、トレーニング カリキュラム、模倣データ、または軌道ジェネレーターの形で事前分布を組み込むのが一般的です。
自然界では、動物は神経系の構造という形で先天性を持って生まれます。これは、生来の能力と効率的な学習を与えるために進化によって形作られてきました。
たとえば、馬は生まれてから数時間以内に歩くことができ、練習すればすぐに上達します。
このようなアーキテクチャ事前分布は、AI の ANN アーキテクチャでも役立ちます。
この研究では、哺乳類の四肢と脊髄の神経回路に基づいた、四足歩行のための生物学的にインスピレーションを受けた ANN アーキテクチャの利点を調査します。
私たちのアーキテクチャは、使用するデータとパラメーターを桁違いに減らしながら、優れた初期パフォーマンスと MLP に匹敵する最終パフォーマンスを実現します。
また、私たちのアーキテクチャは、タスクのバリエーションに対するより優れた一般化を示し、標準的なシミュレーションからリアルへの手法を使用せずに物理ロボットへの展開も可能にします。
この研究は、神経回路が運動のための貴重な構造的事前情報を提供できることを示し、他の感覚運動スキルにおける将来の研究を奨励します。

要約(オリジナル)

Learning-based approaches to quadruped locomotion commonly adopt generic policy architectures like fully connected MLPs. As such architectures contain few inductive biases, it is common in practice to incorporate priors in the form of rewards, training curricula, imitation data, or trajectory generators. In nature, animals are born with priors in the form of their nervous system’s architecture, which has been shaped by evolution to confer innate ability and efficient learning. For instance, a horse can walk within hours of birth and can quickly improve with practice. Such architectural priors can also be useful in ANN architectures for AI. In this work, we explore the advantages of a biologically inspired ANN architecture for quadruped locomotion based on neural circuits in the limbs and spinal cord of mammals. Our architecture achieves good initial performance and comparable final performance to MLPs, while using less data and orders of magnitude fewer parameters. Our architecture also exhibits better generalization to task variations, even admitting deployment on a physical robot without standard sim-to-real methods. This work shows that neural circuits can provide valuable architectural priors for locomotion and encourages future work in other sensorimotor skills.

arxiv情報

著者 Nikhil X. Bhattasali,Venkatesh Pattabiraman,Lerrel Pinto,Grace W. Lindsay
発行日 2024-10-09 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, cs.RO, q-bio.NC | コメントする