BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning

要約

さまざまな生物学的領域における大規模な言語モデル(LLM)の応用が最近検討されていますが、経路などの複雑な生物学的システムでの推論能力は、生物学的現象の予測、仮説の策定、実験の設計に重要なものではありません。
この研究では、経路推論におけるLLMの可能性を探ります。
自然な動的変化、妨害、追加の介入条件、マルチスケールの研究ターゲットなどのさまざまな生物学的コンテキストをカバーする、実際の研究から派生した5.1K複合経路の問題を抱えるデータセットであるBiomazeを紹介します。
COTやグラフの高度推論などの方法の評価は、LLMが特に乱れたシステムでの経路推論と闘っていることを示しています。
これに対処するために、インタラクティブなサブグラフベースのナビゲーションを通じて推論を強化するLLMエージェントであるPathseekerを提案し、科学的に整合した方法で生物学的システムの複雑さを処理するためのより効果的なアプローチを可能にします。
データセットとコードはhttps://github.com/zhao-ht/biomazeで入手できます。

要約(オリジナル)

The applications of large language models (LLMs) in various biological domains have been explored recently, but their reasoning ability in complex biological systems, such as pathways, remains underexplored, which is crucial for predicting biological phenomena, formulating hypotheses, and designing experiments. This work explores the potential of LLMs in pathway reasoning. We introduce BioMaze, a dataset with 5.1K complex pathway problems derived from real research, covering various biological contexts including natural dynamic changes, disturbances, additional intervention conditions, and multi-scale research targets. Our evaluation of methods such as CoT and graph-augmented reasoning, shows that LLMs struggle with pathway reasoning, especially in perturbed systems. To address this, we propose PathSeeker, an LLM agent that enhances reasoning through interactive subgraph-based navigation, enabling a more effective approach to handling the complexities of biological systems in a scientifically aligned manner. The dataset and code are available at https://github.com/zhao-ht/BioMaze.

arxiv情報

著者 Haiteng Zhao,Chang Ma,Fangzhi Xu,Lingpeng Kong,Zhi-Hong Deng
発行日 2025-02-27 17:17:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM | BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning はコメントを受け付けていません

LeanProgress: Guiding Search for Neural Theorem Proving via Proof Progress Prediction

要約

数学的推論は、幻覚のために大規模な言語モデル(LLMS)にとって重要な課題のままです。
リーンのような正式な証明アシスタントと組み合わせると、これらの幻覚は厳密な検証によって排除され、定理が信頼できることを証明することができます。
しかし、正式な検証があっても、LLMは依然として長い証拠と複雑な数学的な形式化に苦労しています。
LENMSを使用してLLMSは、補題の取得、戦術の生成、さらには完全な証拠にさえ貴重な支援を提供しますが、重要な能力が欠けています。証明の進歩の感覚を提供します。
この制限は、特に大規模な形式化プロジェクトの全体的な開発効率に影響を与えます。
LeanProgressを紹介します。これは、証明の進捗を予測する方法です。
Lean Workbook PlusとMathlib4からのリーンプルーフの大規模なコーパスで作成されたモデルのトレーニングと評価、およびそれを完了するためのステップ数は、データの前処理とバランスのテクニックを使用して、歪んだ長さの分布を処理します。
私たちの実験は、LeanProgressが進行量、したがって残りのステップ数を予測する際に75.1 \%の全体的な予測精度を達成することを示しています。
リプバーを使用して最良の検索フレームワークに統合すると、特に長い証拠の場合、41.2 \%のベースライン性能と比較して、Mathlib4の3.8 \%の改善が示されています。
これらの結果は、証明進行の予測が自動化されたインタラクティブ定理とインタラクティブな定理の両方を強化する方法を示しており、ユーザーが証明戦略についてより多くの情報に基づいた決定を下すことができるようにします。

要約(オリジナル)

Mathematical reasoning remains a significant challenge for Large Language Models (LLMs) due to hallucinations. When combined with formal proof assistants like Lean, these hallucinations can be eliminated through rigorous verification, making theorem proving reliable. However, even with formal verification, LLMs still struggle with long proofs and complex mathematical formalizations. While Lean with LLMs offers valuable assistance with retrieving lemmas, generating tactics, or even complete proofs, it lacks a crucial capability: providing a sense of proof progress. This limitation particularly impacts the overall development efficiency in large formalization projects. We introduce LeanProgress, a method that predicts the progress in the proof. Training and evaluating our models made on a large corpus of Lean proofs from Lean Workbook Plus and Mathlib4 and how many steps remain to complete it, we employ data preprocessing and balancing techniques to handle the skewed distribution of proof lengths. Our experiments show that LeanProgress achieves an overall prediction accuracy of 75.1\% in predicting the amount of progress and, hence, the remaining number of steps. When integrated into a best-first search framework using Reprover, our method shows a 3.8\% improvement on Mathlib4 compared to baseline performances of 41.2\%, particularly for longer proofs. These results demonstrate how proof progress prediction can enhance both automated and interactive theorem proving, enabling users to make more informed decisions about proof strategies.

arxiv情報

著者 Suozhi Huang,Peiyang Song,Robert Joseph George,Anima Anandkumar
発行日 2025-02-27 17:26:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | LeanProgress: Guiding Search for Neural Theorem Proving via Proof Progress Prediction はコメントを受け付けていません

An exploration of features to improve the generalisability of fake news detection models

要約

偽のニュースは、選挙に影響を与え、誤った情報を広め、検出を重要にすることにより、世界的なリスクをもたらします。
既存のNLPと監視された機械学習方法は、相互検証下でうまく機能しますが、同じドメイン内であっても、データセット全体で一般化するのに苦労しています。
この問題は、記事が出版社に基づいてラベル付けされている粗くラベル付けされたトレーニングデータに由来しており、TF-IDFやBertなどのトークンベースのモデルが敏感であるバイアスを導入しています。
大規模な言語モデル(LLM)は約束を提供しますが、偽のニュース検出への適用はまだ限られています。
この研究は、現実世界の堅牢性を改善するために、意味のある機能を粗くラベル付けされたデータから抽出できることを示しています。
データセットバイアスに対する感度が低下しているため、文体的特徴、屈電的、構文、およびセマンティックが調査されています。
さらに、新しいソーシャルモネシテーション機能が導入され、広告、外部リンク、ソーシャルメディア要素など、偽のニュースの背後にある経済的インセンティブを捉えています。
この調査では、粗くラベル付けされたNELA 2020-21データセットでトレーニングを行い、一般化のためのゴールドスタンダードである手動でラベル付けされたFacebook URLSデータセットを使用して評価します。
結果は、偏ったデータで訓練されたトークンベースのモデルの制限を強調し、この分野のLLAMAのようなLLMの希少な証拠に貢献します。
調査結果は、トークンベースのメソッドやLLMよりも、文体的および社会的融解機能がより一般化可能な予測を提供することを示しています。
統計的および順列の特徴の重要性分析により、パフォーマンスを向上させ、データセットバイアスを緩和する可能性がさらに明らかになり、偽のニュース検出を改善するための前進を提供します。

要約(オリジナル)

Fake news poses global risks by influencing elections and spreading misinformation, making detection critical. Existing NLP and supervised Machine Learning methods perform well under cross-validation but struggle to generalise across datasets, even within the same domain. This issue stems from coarsely labelled training data, where articles are labelled based on their publisher, introducing biases that token-based models like TF-IDF and BERT are sensitive to. While Large Language Models (LLMs) offer promise, their application in fake news detection remains limited. This study demonstrates that meaningful features can still be extracted from coarsely labelled data to improve real-world robustness. Stylistic features-lexical, syntactic, and semantic-are explored due to their reduced sensitivity to dataset biases. Additionally, novel social-monetisation features are introduced, capturing economic incentives behind fake news, such as advertisements, external links, and social media elements. The study trains on the coarsely labelled NELA 2020-21 dataset and evaluates using the manually labelled Facebook URLs dataset, a gold standard for generalisability. Results highlight the limitations of token-based models trained on biased data and contribute to the scarce evidence on LLMs like LLaMa in this field. Findings indicate that stylistic and social-monetisation features offer more generalisable predictions than token-based methods and LLMs. Statistical and permutation feature importance analyses further reveal their potential to enhance performance and mitigate dataset biases, providing a path forward for improving fake news detection.

arxiv情報

著者 Nathaniel Hoy,Theodora Koulouri
発行日 2025-02-27 17:26:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | An exploration of features to improve the generalisability of fake news detection models はコメントを受け付けていません

EAIRA: Establishing a Methodology for Evaluating AI Models as Scientific Research Assistants

要約

最近の進歩により、AI、特に大規模な言語モデル(LLMS)が科学的研究のための変革的ツールとして位置付けられており、推論、問題解決、意思決定を必要とする複雑なタスクに対処できます。
彼らの卓越した能力は、科学研究助手としての可能性を示唆していますが、実際の科学的アプリケーションの有効性を評価するための全体的で厳格な、ドメイン固有の評価の必要性を強調しています。
この論文では、Argonne National Laboratoryで開発された科学研究助手(EAIRA)としてAIモデルを評価するための多面的な方法論について説明します。
この方法論には、4つの主要なクラスの評価が組み込まれています。
1)事実のリコールを評価するための複数選択の質問。
2)高度な推論と問題解決スキルを評価するためのオープンな対応。
3)制御された環境の研究助手としての能力の詳細な分析を含むラボスタイルの実験。
4)幅広い科学的領域と用途で規模の研究者とLMの相互作用をキャプチャするフィールドスタイルの実験。
これらの補完的な方法により、科学的知識、推論能力、および適応性に関して、LLMの長所と短所の包括的な分析が可能になります。
LLMの進歩の急速なペースを認識して、継続的な関連性と適用性を確保するために進化および適応する方法を設計しました。
このホワイトペーパーでは、2025年2月末の方法論状態について説明します。科学的領域のサブセット内で開発されましたが、方法論は広範囲の科学ドメインに一般化できるように設計されています。

要約(オリジナル)

Recent advancements have positioned AI, and particularly Large Language Models (LLMs), as transformative tools for scientific research, capable of addressing complex tasks that require reasoning, problem-solving, and decision-making. Their exceptional capabilities suggest their potential as scientific research assistants but also highlight the need for holistic, rigorous, and domain-specific evaluation to assess effectiveness in real-world scientific applications. This paper describes a multifaceted methodology for Evaluating AI models as scientific Research Assistants (EAIRA) developed at Argonne National Laboratory. This methodology incorporates four primary classes of evaluations. 1) Multiple Choice Questions to assess factual recall; 2) Open Response to evaluate advanced reasoning and problem-solving skills; 3) Lab-Style Experiments involving detailed analysis of capabilities as research assistants in controlled environments; and 4) Field-Style Experiments to capture researcher-LLM interactions at scale in a wide range of scientific domains and applications. These complementary methods enable a comprehensive analysis of LLM strengths and weaknesses with respect to their scientific knowledge, reasoning abilities, and adaptability. Recognizing the rapid pace of LLM advancements, we designed the methodology to evolve and adapt so as to ensure its continued relevance and applicability. This paper describes the methodology state at the end of February 2025. Although developed within a subset of scientific domains, the methodology is designed to be generalizable to a wide range of scientific domains.

arxiv情報

著者 Franck Cappello,Sandeep Madireddy,Robert Underwood,Neil Getty,Nicholas Lee-Ping Chia,Nesar Ramachandra,Josh Nguyen,Murat Keceli,Tanwi Mallick,Zilinghan Li,Marieme Ngom,Chenhui Zhang,Angel Yanguas-Gil,Evan Antoniuk,Bhavya Kailkhura,Minyang Tian,Yufeng Du,Yuan-Sen Ting,Azton Wells,Bogdan Nicolae,Avinash Maurya,M. Mustafa Rafique,Eliu Huerta,Bo Li,Ian Foster,Rick Stevens
発行日 2025-02-27 17:35:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | EAIRA: Establishing a Methodology for Evaluating AI Models as Scientific Research Assistants はコメントを受け付けていません

Building reliable sim driving agents by scaling self-play

要約

シミュレーションエージェントは、自律車両(AVS)などの人間と相互作用するシステムを設計およびテストするために不可欠です。
これらのエージェントは、AVパフォーマンスのベンチマークからストレステストシステムの制限まで、さまざまな目的を果たしますが、すべてのアプリケーションは1つの重要な要件である信頼性を共有しています。
体系的な実験を可能にするには、シミュレーションエージェントが意図したとおりに動作する必要があります。
分析の信号対雑音比を歪める可能性のある衝突など、望ましくない結果につながる可能性のあるアクションを最小限に抑える必要があります。
信頼性の高いSIMエージェントの基盤として、人間の知覚と制御に関する半現実的な制限の下で、WAYMOオープンモーションデータセットの数千のシナリオにスケーリングの自己プレイを提案します。
単一のGPUでのゼロからのトレーニング、当社のエージェントは1日以内に完全なトレーニングセットをほぼ解決します。
彼らは、目に見えないテストシーンに効果的に一般化し、10,000の保有シナリオで0.8%未満の衝突およびオフロード事件で99.8%の目標完了率を達成します。
分配内の一般化を超えて、私たちのエージェントは分散型シーンに対する部分的な堅牢性を示し、そのような場合にほぼ完璧なパフォーマンスに達するために数分で微調整できます。
事前に訓練されたエージェントをオープンソースし、それらをバッチ付きマルチエージェントシミュレーターと統合します。
エージェント行動のデモンストレーションは、https://sites.google.com/view/reliable-sim-agentsで見つけることができます。

要約(オリジナル)

Simulation agents are essential for designing and testing systems that interact with humans, such as autonomous vehicles (AVs). These agents serve various purposes, from benchmarking AV performance to stress-testing system limits, but all applications share one key requirement: reliability. To enable systematic experimentation, a simulation agent must behave as intended. It should minimize actions that may lead to undesired outcomes, such as collisions, which can distort the signal-to-noise ratio in analyses. As a foundation for reliable sim agents, we propose scaling self-play to thousands of scenarios on the Waymo Open Motion Dataset under semi-realistic limits on human perception and control. Training from scratch on a single GPU, our agents nearly solve the full training set within a day. They generalize effectively to unseen test scenes, achieving a 99.8% goal completion rate with less than 0.8% combined collision and off-road incidents across 10,000 held-out scenarios. Beyond in-distribution generalization, our agents show partial robustness to out-of-distribution scenes and can be fine-tuned in minutes to reach near-perfect performance in those cases. We open-source the pre-trained agents and integrate them with a batched multi-agent simulator. Demonstrations of agent behaviors can be found at https://sites.google.com/view/reliable-sim-agents.

arxiv情報

著者 Daphne Cornelisse,Aarav Pandya,Kevin Joseph,Joseph Suárez,Eugene Vinitsky
発行日 2025-02-27 17:38:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Building reliable sim driving agents by scaling self-play はコメントを受け付けていません

LangProBe: a Language Programs Benchmark

要約

言語モデル(LMS)をマルチステップ言語プログラムに作成し、モジュラープロンプトを自動的に最適化することは、AIシステムを構築するための主流のパラダイムになりましたが、この分野でのトレードオフは以前にほとんど研究されていません。
Langprobeは、言語プログラムのアーキテクチャと最適化戦略を評価するための最初の大規模なベンチマークであり、タスク、アーキテクチャ、オプティマイザー、およびLMSの選択肢の2000を超える組み合わせを紹介します。
Langprobeを使用して、私たちは、品質とコストのトレードオフに対するプログラムアーキテクチャとオプティマイザー(およびそれらの構成と異なるモデルと一緒に)の影響を研究した最初の人です。
最適化された言語プログラムは、モデルへの生の呼び出しよりも高品質のパレートの改善を提供しますが、同時に、最高のパフォーマンスにどの構成が必要かについての人間の判断(または経験的決定)が実証されていることがわかります。
LangProbeのコードと評価データを開きます。

要約(オリジナル)

Composing language models (LMs) into multi-step language programs and automatically optimizing their modular prompts is now a mainstream paradigm for building AI systems, but the tradeoffs in this space have only scarcely been studied before. We introduce LangProBe, the first large-scale benchmark for evaluating the architectures and optimization strategies for language programs, with over 2000 combinations of tasks, architectures, optimizers, and choices of LMs. Using LangProBe, we are the first to study the impact of program architectures and optimizers (and their compositions together and with different models) on tradeoffs of quality and cost. We find that optimized language programs offer strong cost–quality Pareto improvement over raw calls to models, but simultaneously demonstrate that human judgment (or empirical decisions) about which compositions to pursue is still necessary for best performance. We will open source the code and evaluation data for LangProBe.

arxiv情報

著者 Shangyin Tan,Lakshya A Agrawal,Arnav Singhvi,Liheng Lai,Michael J Ryan,Dan Klein,Omar Khattab,Koushik Sen,Matei Zaharia
発行日 2025-02-27 17:41:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | LangProBe: a Language Programs Benchmark はコメントを受け付けていません

Mixture of Structural-and-Textual Retrieval over Text-rich Graph Knowledge Bases

要約

テキストが豊富なグラフ知識ベース(TG​​-KBS)は、テキストおよび構造的知識を提供することにより、クエリに答えるためにますます重要になっています。
ただし、現在の検索方法は、多くの場合、これらの2種類の知識を相互強化といくつかのハイブリッド方法を考慮せずに単独で取得し、隣接する集約後に完全に構​​造検索をバイパスします。
このギャップを埋めるために、構造とテキストの検索(MOR)の混合物を提案して、計画の合理化を整理するフレームワークを介してこれら2つのタイプの知識を取得します。
計画段階では、MORはクエリに答えるためのロジックを描写するテキスト計画グラフを生成します。
計画グラフに続いて、推論段階で、MORはTG-KBSから候補者を獲得するために構造的トラバーサルとテキストマッチングを織り交ぜます。
組織化段階では、MORは、構造的軌跡に基づいて候補者をさらに再生しました。
広範な実験は、異なるクエリロジック間のパフォーマンスを取得する不均一な取得や、候補者の再ランキングの構造軌跡を統合することの利点など、洞察との構造的およびテキスト検索を調和させる際のMORの優位性を示しています。
私たちのコードは、https://github.com/yoega/morで入手できます。

要約(オリジナル)

Text-rich Graph Knowledge Bases (TG-KBs) have become increasingly crucial for answering queries by providing textual and structural knowledge. However, current retrieval methods often retrieve these two types of knowledge in isolation without considering their mutual reinforcement and some hybrid methods even bypass structural retrieval entirely after neighboring aggregation. To fill in this gap, we propose a Mixture of Structural-and-Textual Retrieval (MoR) to retrieve these two types of knowledge via a Planning-Reasoning-Organizing framework. In the Planning stage, MoR generates textual planning graphs delineating the logic for answering queries. Following planning graphs, in the Reasoning stage, MoR interweaves structural traversal and textual matching to obtain candidates from TG-KBs. In the Organizing stage, MoR further reranks fetched candidates based on their structural trajectory. Extensive experiments demonstrate the superiority of MoR in harmonizing structural and textual retrieval with insights, including uneven retrieving performance across different query logics and the benefits of integrating structural trajectories for candidate reranking. Our code is available at https://github.com/Yoega/MoR.

arxiv情報

著者 Yongjia Lei,Haoyu Han,Ryan A. Rossi,Franck Dernoncourt,Nedim Lipka,Mahantesh M Halappanavar,Jiliang Tang,Yu Wang
発行日 2025-02-27 17:42:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG | Mixture of Structural-and-Textual Retrieval over Text-rich Graph Knowledge Bases はコメントを受け付けていません

Logicbreaks: A Framework for Understanding Subversion of Rule-based Inference

要約

私たちは、次の迅速な指定ルールから大規模な言語モデル(LLMS)を破壊する方法を研究します。
最初に、ルールフォローを命題ホーンロジックの推論として形式化します。これは、いくつかの提案$ p $、$ q $、および$ r $の場合、ルールが「$ p $ and $ q $の場合、$ r $」という形式を持つ数学システムです。
次に、小さな変圧器はそのようなルールに忠実に従うことができますが、悪意のある作られたプロンプトは、理論的構成とデータから学んだモデルの両方を誤解させる可能性があることを証明します。
さらに、LLMの一般的な攻撃アルゴリズムが敵対的なプロンプトを見つけ、理論と一致する注意パターンを誘導することを実証します。
私たちの新しい論理ベースのフレームワークは、ルールベースの設定でLLMを研究するための基盤を提供し、論理的推論や脱獄攻撃などのタスクの正式な分析を可能にします。

要約(オリジナル)

We study how to subvert large language models (LLMs) from following prompt-specified rules. We first formalize rule-following as inference in propositional Horn logic, a mathematical system in which rules have the form ‘if $P$ and $Q$, then $R$’ for some propositions $P$, $Q$, and $R$. Next, we prove that although small transformers can faithfully follow such rules, maliciously crafted prompts can still mislead both theoretical constructions and models learned from data. Furthermore, we demonstrate that popular attack algorithms on LLMs find adversarial prompts and induce attention patterns that align with our theory. Our novel logic-based framework provides a foundation for studying LLMs in rule-based settings, enabling a formal analysis of tasks like logical reasoning and jailbreak attacks.

arxiv情報

著者 Anton Xue,Avishree Khare,Rajeev Alur,Surbhi Goel,Eric Wong
発行日 2025-02-27 17:49:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | Logicbreaks: A Framework for Understanding Subversion of Rule-based Inference はコメントを受け付けていません

Deep Reinforcement Learning based Autonomous Decision-Making for Cooperative UAVs: A Search and Rescue Real World Application

要約

このペーパーでは、グローバルナビゲーション衛星システム(GNSS)デニード屋内設定で動作するマルチドローンシステム間の自律的なガイダンス、ナビゲーション、およびタスク分布のための全体的な枠組みを提案します。
私たちは、双子の遅延深い決定論的政策勾配アルゴリズムを利用して、深い強化学習(DRL)ベースのガイダンスメカニズムを提唱しています。
トレーニングプロセスの効率を向上させるために、人工電位フィールド(APF)ベースの報酬構造を組み込み、エージェントがその動きを改良できるようにし、それにより、よりスムーズなパスと屋内コンテキストでの障害物回避を強化します。
さらに、DRL訓練を受けたグラフ畳み込みネットワーク(GCN)を介して、協同組合UAVのタスク分布の問題に取り組みます。
このGCNは、ドローンとタスクの間の相互作用を表し、現在の環境条件とドローンの機能を反映する動的およびリアルタイムのタスク割り当てを促進します。
このようなアプローチは、捜索救助およびその他の探索的努力中の複数のドローン間の効果的な調整とコラボレーションを促進します。
最後に、GNSSを欠く環境で正確な臭気測定を確保するために、廊下の問題を軽減するために、深さカメラによって補完された局所化とマッピングの範囲の光検出とマッピングを使用します。
この統合は、堅牢なローカリゼーションとマッピング機能を提供し、それにより屋内ナビゲーションのシステムの信頼性を高めます。
提案されているマルチドローンフレームワークは、個々のナビゲーション機能を高めるだけでなく、複雑で障害物を含んだ環境で調整されたタスク割り当てを最適化します。
NATO Sapience Autonomous Cooperative Drone Competitionの要件を満たすために調整されたセットアップで行われた実験的評価は、提案されたシステムの有効性を示し、2024年のSAPIENCEコンペティションで1位のフィニッシュで頂点に達します。

要約(オリジナル)

This paper proposes a holistic framework for autonomous guidance, navigation, and task distribution among multi-drone systems operating in Global Navigation Satellite System (GNSS)-denied indoor settings. We advocate for a Deep Reinforcement Learning (DRL)-based guidance mechanism, utilising the Twin Delayed Deep Deterministic Policy Gradient algorithm. To improve the efficiency of the training process, we incorporate an Artificial Potential Field (APF)-based reward structure, enabling the agent to refine its movements, thereby promoting smoother paths and enhanced obstacle avoidance in indoor contexts. Furthermore, we tackle the issue of task distribution among cooperative UAVs through a DRL-trained Graph Convolutional Network (GCN). This GCN represents the interactions between drones and tasks, facilitating dynamic and real-time task allocation that reflects the current environmental conditions and the capabilities of the drones. Such an approach fosters effective coordination and collaboration among multiple drones during search and rescue operations or other exploratory endeavours. Lastly, to ensure precise odometry in environments lacking GNSS, we employ Light Detection And Ranging Simultaneous Localisation and Mapping complemented by a depth camera to mitigate the hallway problem. This integration offers robust localisation and mapping functionalities, thereby enhancing the systems dependability in indoor navigation. The proposed multi-drone framework not only elevates individual navigation capabilities but also optimises coordinated task allocation in complex, obstacle-laden environments. Experimental evaluations conducted in a setup tailored to meet the requirements of the NATO Sapience Autonomous Cooperative Drone Competition demonstrate the efficacy of the proposed system, yielding outstanding results and culminating in a first-place finish in the 2024 Sapience competition.

arxiv情報

著者 Thomas Hickling,Maxwell Hogan,Abdulla Tammam,Nabil Aouf
発行日 2025-02-27 17:53:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Deep Reinforcement Learning based Autonomous Decision-Making for Cooperative UAVs: A Search and Rescue Real World Application はコメントを受け付けていません

Emergent Symbolic Mechanisms Support Abstract Reasoning in Large Language Models

要約

最近の多くの研究では、大規模な言語モデルにおける緊急の推論能力の証拠が発見されていますが、これらの能力の堅牢性と構造化された推論メカニズムに依存する程度に関して、議論が続いています。
これらの問題に光を当てるために、オープンソース言語モデル(LLAMA3-70B)での抽象的なルール誘導をサポートする内部メカニズムの包括的な研究を実行します。
一連の3つの計算を介して抽象的な推論を実装する緊急の象徴的なアーキテクチャを特定します。
初期のレイヤーでは、シンボルの抽象化ヘッドは、入力トークンをそれらのトークン間の関係に基づいて抽象変数に変換します。
中間層では、シンボリック誘導ヘッドは、これらの抽象変数に対してシーケンス誘導を実行します。
最後に、後のレイヤーでは、検索ヘッドは、予測された抽象変数に関連付けられた値を取得することにより、次のトークンを予測します。
これらの結果は、シンボリックネットワークアプローチとニューラルネットワークアプローチの間の長年の議論の解決を示しており、ニューラルネットワークの緊急推論は象徴的なメカニズムの出現に依存することを示唆しています。

要約(オリジナル)

Many recent studies have found evidence for emergent reasoning capabilities in large language models, but debate persists concerning the robustness of these capabilities, and the extent to which they depend on structured reasoning mechanisms. To shed light on these issues, we perform a comprehensive study of the internal mechanisms that support abstract rule induction in an open-source language model (Llama3-70B). We identify an emergent symbolic architecture that implements abstract reasoning via a series of three computations. In early layers, symbol abstraction heads convert input tokens to abstract variables based on the relations between those tokens. In intermediate layers, symbolic induction heads perform sequence induction over these abstract variables. Finally, in later layers, retrieval heads predict the next token by retrieving the value associated with the predicted abstract variable. These results point toward a resolution of the longstanding debate between symbolic and neural network approaches, suggesting that emergent reasoning in neural networks depends on the emergence of symbolic mechanisms.

arxiv情報

著者 Yukang Yang,Declan Campbell,Kaixuan Huang,Mengdi Wang,Jonathan Cohen,Taylor Webb
発行日 2025-02-27 18:02:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Emergent Symbolic Mechanisms Support Abstract Reasoning in Large Language Models はコメントを受け付けていません