Towards conversational assistants for health applications: using ChatGPT to generate conversations about heart failure

要約

CHATGPT(3.5ターボと4)の可能性を探り、アフリカ系アメリカ人の心不全患者のセルフケア戦略に焦点を当てた会話を生成します。これは、特殊なデータセットが限られているドメインです。
患者の健康教育者の対話をシミュレートするために、ドメイン、アフリカ系アメリカ人の英語(AAVE)、健康の社会的決定要因(SDOH)、およびSDOH情報の推論の4つのプロンプト戦略を採用しました。
会話は、食物、運動、および流体摂取量の主要なセルフケアドメインで生成され、ターン長(5、10、15)と、年齢、性別、近隣、社会経済的地位などの患者固有のSDOH属性を取り入れました。
私たちの調査結果は、効果的な迅速な設計が不可欠であることを示しています。
SDOHと推論を組み込むことで対話の質が向上しますが、ChatGPTには意味のあるヘルスケアコミュニケーションに必要な共感と関与がまだ欠けています。

要約(オリジナル)

We explore the potential of ChatGPT (3.5-turbo and 4) to generate conversations focused on self-care strategies for African-American heart failure patients — a domain with limited specialized datasets. To simulate patient-health educator dialogues, we employed four prompting strategies: domain, African American Vernacular English (AAVE), Social Determinants of Health (SDOH), and SDOH-informed reasoning. Conversations were generated across key self-care domains of food, exercise, and fluid intake, with varying turn lengths (5, 10, 15) and incorporated patient-specific SDOH attributes such as age, gender, neighborhood, and socioeconomic status. Our findings show that effective prompt design is essential. While incorporating SDOH and reasoning improves dialogue quality, ChatGPT still lacks the empathy and engagement needed for meaningful healthcare communication.

arxiv情報

著者 Anuja Tayal,Devika Salunke,Barbara Di Eugenio,Paula G Allen-Meares,Eulalia P Abril,Olga Garcia-Bedoya,Carolyn A Dickens,Andrew D. Boyd
発行日 2025-05-06 16:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Towards conversational assistants for health applications: using ChatGPT to generate conversations about heart failure はコメントを受け付けていません

BRIDGE: Bootstrapping Text to Control Time-Series Generation via Multi-Agent Iterative Optimization and Diffusion Modelling

要約

時系列の発電(TSG)は、シミュレーション、データ増強、および反事実分析に幅広い用途を持つ顕著な研究分野です。
既存の方法は無条件の単一ドメインTSGで有望であるが、ドメイン固有の制約とインスタンスレベルの要件に合わせて調整された制御された生成が可能なクロスドメインアプローチの現実世界のアプリケーション需要。
この論文では、TSGを導き、改善するために、テキストがセマンティックな洞察、ドメイン情報、インスタンス固有の時間パターンを提供できると主張します。
テキストの説明を組み込むことで現実的な時系列を生成することに焦点を当てたタスクである「テキスト制御TSG」を紹介します。
この設定でデータ不足に対処するために、多様で現実的なテキストツーTSデータセットを合成する新しいLLMベースのマルチエージェントフレームワークを提案します。
さらに、セマンティックプロトタイプをドメインレベルのガイダンスをサポートするためのテキスト説明と統合するハイブリッドテキスト制御TSGフレームワークであるBridgeを紹介します。
このアプローチは、12のデータセットのうち11で最先端の世代の忠実度を達成し、テキスト入力生成なしと比較してMSEで12.52%および6.34%MAEで制御可能性を改善し、テーリングされた時系列データを生成する可能性を強調します。

要約(オリジナル)

Time-series Generation (TSG) is a prominent research area with broad applications in simulations, data augmentation, and counterfactual analysis. While existing methods have shown promise in unconditional single-domain TSG, real-world applications demand for cross-domain approaches capable of controlled generation tailored to domain-specific constraints and instance-level requirements. In this paper, we argue that text can provide semantic insights, domain information and instance-specific temporal patterns, to guide and improve TSG. We introduce “Text-Controlled TSG”, a task focused on generating realistic time series by incorporating textual descriptions. To address data scarcity in this setting, we propose a novel LLM-based Multi-Agent framework that synthesizes diverse, realistic text-to-TS datasets. Furthermore, we introduce BRIDGE, a hybrid text-controlled TSG framework that integrates semantic prototypes with text description for supporting domain-level guidance. This approach achieves state-of-the-art generation fidelity on 11 of 12 datasets, and improves controllability by 12.52% on MSE and 6.34% MAE compared to no text input generation, highlighting its potential for generating tailored time-series data.

arxiv情報

著者 Hao Li,Yuhao Huang,Chang Xu,Viktor Schlegel,Renhe Jiang,Riza Batista-Navarro,Goran Nenadic,Jiang Bian
発行日 2025-05-06 16:32:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.MA | BRIDGE: Bootstrapping Text to Control Time-Series Generation via Multi-Agent Iterative Optimization and Diffusion Modelling はコメントを受け付けていません

IndicSQuAD: A Comprehensive Multilingual Question Answering Dataset for Indic Languages

要約

質問回答(QA)システムの急速な進歩は、主に高リソース言語に利益をもたらし、膨大なネイティブスピーカーベースにもかかわらず、インド語の言語はほとんど過小評価されています。
この論文では、Squad Datasetから体系的に派生した9つの主要なインド言語をカバーする包括的な多言語抽出QAデータセットであるIndicsquadを紹介します。
MarathiのためにMahasquadとの以前の作業に基づいて、私たちのアプローチは、多様な言語にわたって高い言語的忠実度と正確な回答スパンアライメントを維持するために翻訳技術を適応および拡張します。
Indicsquadは、各言語の広範なトレーニング、検証、およびテストセットで構成され、モデル開発のための堅牢な基盤を提供します。
言語固有の単一言語のBERTモデルと多言語のMuril-Bertを使用して、ベースラインのパフォーマンスを評価します。
結果は、低リソース設定に固有のいくつかの課題を示しています。
さらに、私たちの実験は、追加の言語への拡大、ドメイン固有のデータセットの開発、マルチモーダルデータの組み込みなど、将来の作業の潜在的な方向性を示唆しています。
データセットとモデルは、https://github.com/l3cube-pune/indic-nlpで公開されています

要約(オリジナル)

The rapid progress in question-answering (QA) systems has predominantly benefited high-resource languages, leaving Indic languages largely underrepresented despite their vast native speaker base. In this paper, we present IndicSQuAD, a comprehensive multi-lingual extractive QA dataset covering nine major Indic languages, systematically derived from the SQuAD dataset. Building on previous work with MahaSQuAD for Marathi, our approach adapts and extends translation techniques to maintain high linguistic fidelity and accurate answer-span alignment across diverse languages. IndicSQuAD comprises extensive training, validation, and test sets for each language, providing a robust foundation for model development. We evaluate baseline performances using language-specific monolingual BERT models and the multilingual MuRIL-BERT. The results indicate some challenges inherent in low-resource settings. Moreover, our experiments suggest potential directions for future work, including expanding to additional languages, developing domain-specific datasets, and incorporating multimodal data. The dataset and models are publicly shared at https://github.com/l3cube-pune/indic-nlp

arxiv情報

著者 Sharvi Endait,Ruturaj Ghatage,Aditya Kulkarni,Rajlaxmi Patil,Raviraj Joshi
発行日 2025-05-06 16:42:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | IndicSQuAD: A Comprehensive Multilingual Question Answering Dataset for Indic Languages はコメントを受け付けていません

NBF at SemEval-2025 Task 5: Light-Burst Attention Enhanced System for Multilingual Subject Recommendation

要約

Semeval 2025タスク5のシステム提出を提示します。これは、英語およびドイツの学術領域における言語間の主題分類に焦点を当てています。
当社のアプローチは、トレーニング中にバイリンガルデータを活用し、否定的なサンプリングとマージンベースの検索目標を採用しています。
内部寸法を大幅に削減することで設計されたトークンとしてのディメンションの自己関節メカニズムは、被験者の検索のために文の埋め込みを効果的にエンコードできることを実証します。
定量的評価では、当社のシステムは、一般的な定量的設定(すべての被験者)で32.24%の平均リコール率、一般的な定性的評価方法の43.16%および31.53%を最小限のGPU使用で獲得し、競争力のあるパフォーマンスを強調しました。
私たちの結果は、私たちのアプローチがリソースの制約の下で関連する主題情報をキャプチャするのに効果的であることを示していますが、まだ改善の余地があります。

要約(オリジナル)

We present our system submission for SemEval 2025 Task 5, which focuses on cross-lingual subject classification in the English and German academic domains. Our approach leverages bilingual data during training, employing negative sampling and a margin-based retrieval objective. We demonstrate that a dimension-as-token self-attention mechanism designed with significantly reduced internal dimensions can effectively encode sentence embeddings for subject retrieval. In quantitative evaluation, our system achieved an average recall rate of 32.24% in the general quantitative setting (all subjects), 43.16% and 31.53% of the general qualitative evaluation methods with minimal GPU usage, highlighting their competitive performance. Our results demonstrate that our approach is effective in capturing relevant subject information under resource constraints, although there is still room for improvement.

arxiv情報

著者 Baharul Islam,Nasim Ahmad,Ferdous Ahmed Barbhuiya,Kuntal Dey
発行日 2025-05-06 17:33:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | NBF at SemEval-2025 Task 5: Light-Burst Attention Enhanced System for Multilingual Subject Recommendation はコメントを受け付けていません

Clean & Clear: Feasibility of Safe LLM Clinical Guidance

要約

背景:臨床ガイドラインは、現代のヘルスケアにおける安全な証拠に基づいた医療の中心であり、診断基準、治療オプション、幅広い病気の監視アドバイスを提供します。
LLM能力のあるチャットボットは、ヘルスケアのQ&Aタスクに大きな期待を示しており、医療に関する問い合わせに迅速かつ正確な対応を提供する可能性を提供しています。
私たちの主な目的は、ユニバーシティカレッジロンドン病院(UCLH)の臨床ガイドラインを使用して、臨床ガイドラインの質問に確実に答えることができるLLM能力のあるチャットボットソフトウェアの開発と予備評価でした。
方法:Open-Weight Llama-3.1-8B LLMを使用して、UCLHガイドラインから関連情報を抽出して質問に答えました。
私たちのアプローチは、その解釈と対応の生成に関する情報を参照することの安全性と信頼性を強調しています。
ワードの7人の医師が、その答えをゴールドスタンダードと比較することにより、チャットボットのパフォーマンスを評価しました。
結果:私たちのチャットボットは、関連性の観点から有望なパフォーマンスを示しており、その回答の73%が非常に関連性が高いと評価され、臨床的コンテキストの強い理解を示しています。
重要なことに、チャットボットは、抽出されたガイドラインラインで1.00のリコールを実現し、重要な情報を欠くリスクを大幅に最小限に抑えることです。
回答の約78%は、完全性の点で満足のいくものと評価されました。
ごく一部(〜14.5%)には、マイナーな不要な情報が含まれており、時折の精度が時折失っていることを示しています。
チャットボットは、人間の回答者の30秒と比較して、平均完了時間が10秒で高い効率を示しました。
臨床的推論の評価により、チャットボットの回答の72%に欠陥がないことが示されました。
私たちのチャットボットは、医療専門家のための地元の関連する臨床情報にアクセスするプロセスをスピードアップし、改善する重要な可能性を示しています。

要約(オリジナル)

Background: Clinical guidelines are central to safe evidence-based medicine in modern healthcare, providing diagnostic criteria, treatment options and monitoring advice for a wide range of illnesses. LLM-empowered chatbots have shown great promise in Healthcare Q&A tasks, offering the potential to provide quick and accurate responses to medical inquiries. Our main objective was the development and preliminary assessment of an LLM-empowered chatbot software capable of reliably answering clinical guideline questions using University College London Hospital (UCLH) clinical guidelines. Methods: We used the open-weight Llama-3.1-8B LLM to extract relevant information from the UCLH guidelines to answer questions. Our approach highlights the safety and reliability of referencing information over its interpretation and response generation. Seven doctors from the ward assessed the chatbot’s performance by comparing its answers to the gold standard. Results: Our chatbot demonstrates promising performance in terms of relevance, with ~73% of its responses rated as very relevant, showcasing a strong understanding of the clinical context. Importantly, our chatbot achieves a recall of 1.00 for extracted guideline lines, substantially minimising the risk of missing critical information. Approximately 78% of responses were rated satisfactory in terms of completeness. A small portion (~14.5%) contained minor unnecessary information, indicating occasional lapses in precision. The chatbot’ showed high efficiency, with an average completion time of 10 seconds, compared to 30 seconds for human respondents. Evaluation of clinical reasoning showed that 72% of the chatbot’s responses were without flaws. Our chatbot demonstrates significant potential to speed up and improve the process of accessing locally relevant clinical information for healthcare professionals.

arxiv情報

著者 Julia Ive,Felix Jozsa,Nick Jackson,Paulina Bondaronek,Ciaran Scott Hill,Richard Dobson
発行日 2025-05-06 17:34:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Clean & Clear: Feasibility of Safe LLM Clinical Guidance はコメントを受け付けていません

WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

要約

LLMベースのエージェントは、複雑なコードベース内でコードを生成および管理する上で大きな可能性を示しています。
このペーパーでは、LLMベースのエージェントのマルチファイルWebサイトコードベースをゼロから作成する能力を測定するために設計された新しいベンチマークであるWebgen-Benchを紹介します。
これには、人間のアノテーターとGPT-4oの組み合わせの努力を通じて作成されたWebサイト生成に関する多様な指示が含まれています。
これらの指示には、3つの主要なカテゴリと13のマイナーカテゴリに至ります。これは、ほぼすべての重要なタイプのWebアプリケーションを網羅しています。
生成されたWebサイトの品質を評価するために、GPT-4Oを使用して、命令に記載されている各機能をターゲットにしたテストケースを生成し、それらを手動でフィルタリング、調整、整理して精度を確保し、647のテストケースになります。
各テストケースは、Webサイトで実行される操作と操作後の予想される結果を指定します。
テストを自動化し、再現性を向上させるために、強力なWebナビゲーションエージェントを採用して、生成されたWebサイトでテストを実行し、観測された応答が期待される結果と一致するかどうかを判断します。
複数の独自およびオープンソースLLMSをエンジンとして使用して、3つの高性能コードエージェントフレームワーク、bolt.diy、openhands、およびaiderを評価します。
Deepseek-R1を搭載したBolt.Diyの最適な組み合わせは、テストケースで27.8%の精度しか達成されておらず、ベンチマークの挑戦的な性質を強調しています。
さらに、6,667のWebサイト生成手順で構成されるトレーニングセットであるWebgen-Instructを構築します。
このトレーニングセットのサブセットから生成されたbolt.diy軌道上のqwen2.5-coder-32b-instructのトレーニングは、38.2 \%の精度を達成し、最高の独自モデルのパフォーマンスを上回ります。

要約(オリジナル)

LLM-based agents have demonstrated great potential in generating and managing code within complex codebases. In this paper, we introduce WebGen-Bench, a novel benchmark designed to measure an LLM-based agent’s ability to create multi-file website codebases from scratch. It contains diverse instructions for website generation, created through the combined efforts of human annotators and GPT-4o. These instructions span three major categories and thirteen minor categories, encompassing nearly all important types of web applications. To assess the quality of the generated websites, we use GPT-4o to generate test cases targeting each functionality described in the instructions, and then manually filter, adjust, and organize them to ensure accuracy, resulting in 647 test cases. Each test case specifies an operation to be performed on the website and the expected result after the operation. To automate testing and improve reproducibility, we employ a powerful web-navigation agent to execute tests on the generated websites and determine whether the observed responses align with the expected results. We evaluate three high-performance code-agent frameworks, Bolt.diy, OpenHands, and Aider, using multiple proprietary and open-source LLMs as engines. The best-performing combination, Bolt.diy powered by DeepSeek-R1, achieves only 27.8\% accuracy on the test cases, highlighting the challenging nature of our benchmark. Additionally, we construct WebGen-Instruct, a training set consisting of 6,667 website-generation instructions. Training Qwen2.5-Coder-32B-Instruct on Bolt.diy trajectories generated from a subset of this training set achieves an accuracy of 38.2\%, surpassing the performance of the best proprietary model.

arxiv情報

著者 Zimu Lu,Yunqiao Yang,Houxing Ren,Haotian Hou,Han Xiao,Ke Wang,Weikang Shi,Aojun Zhou,Mingjie Zhan,Hongsheng Li
発行日 2025-05-06 17:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch はコメントを受け付けていません

HAIR: Hardness-Aware Inverse Reinforcement Learning with Introspective Reasoning for LLM Alignment

要約

大規模な言語モデル(LLMS)と人間の価値の調整は、重要なものであるが、4つの重要な課題によって妨げられているが、(1)バランスの取れた安全性データセットの不足、(2)アライメント税、(3)浅いアライメントによる脱獄攻撃に対する脆弱性、および(4)タスクの困難に応じて報酬を動的に適応させることができる。
これらの制限に対処するために、メンバーシップ推論攻撃のシャドウモデルに触発された新しいアライメントアプローチである、髪(硬度を意識する逆補強学習)を導入します。
私たちのアプローチは、2つの主要なコンポーネントで構成されています。(1)LLMSの内省的推論機能を活用する構造化されたプロンプトを使用した7つの有害なカテゴリのバランスの取れた安全チェーン(COD)データセットの構築。
(2)グループ相対ポリシー最適化(GRPO)を備えたカテゴリ固有の報酬モデルのトレーニング、データレベルとモデルレベルの両方でタスクの難易度に最適化を動的に調整します。
4つの無害性と4つの有用性ベンチマークにわたる包括的な実験は、髪が最先端のパフォーマンスを達成し、高レベルの有用性を維持しながら、安全性のすべてのベースライン方法を上回ることを示しています。

要約(オリジナル)

The alignment of large language models (LLMs) with human values remains critical yet hindered by four key challenges: (1) scarcity of balanced safety datasets, (2) alignment tax, (3) vulnerability to jailbreak attacks due to shallow alignment, and (4) inability to dynamically adapt rewards according to task difficulty. To address these limitations, we introduce HAIR (Hardness-Aware Inverse Reinforcement Learning with Introspective Reasoning), a novel alignment approach inspired by shadow models in membership inference attacks. Our approach consists of two main components: (1) construction of a balanced safety Chain-of-Draft (CoD) dataset for seven harmful categories using structured prompts that leverage the introspective reasoning capabilities of LLMs; and (2) training of category-specific reward models with Group Relative Policy Optimization (GRPO), dynamically tuning optimization to task difficulty at both the data and model levels. Comprehensive experiments across four harmlessness and four usefulness benchmarks demonstrate that HAIR achieves state-of-the-art performance, outperforming all baseline methods in safety while maintaining high levels of usefulness.

arxiv情報

著者 Ruoxi Cheng,Haoxuan Ma,Weixin Wang
発行日 2025-05-06 13:47:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | HAIR: Hardness-Aware Inverse Reinforcement Learning with Introspective Reasoning for LLM Alignment はコメントを受け付けていません

STORY2GAME: Generating (Almost) Everything in an Interactive Fiction Game

要約

Story2Gameを紹介します。これは、大規模な言語モデルを使用して、ストーリーを生成し、世界に浸透し、ストーリーをインタラクティブに再生できるようにするゲームエンジンでアクションのコードを作成するテキストベースのインタラクティブフィクションゲームを生成するための斬新なアプローチです。
特定のハードコーディングされたアクションのセットは、ストーリー生成を人為的に制約することができますが、アクションを生成する能力は、ストーリー生成プロセスがよりオープンエンドになる可能性があることを意味しますが、それでもゲーム状態に基づいている経験を可能にします。
アクション生成を成功させるための鍵は、プレイヤーがアクションを実行するときにゲームエンジンによってゲームエンジンによって追跡および変更されなければならないガイドとして、ストーリー内のアクションのLLM生成の前提条件と効果を使用することです。
また、ストーリーの一部ではないと考えているアクションを実行したいプレイヤーの欲求に対応するために、新しいアクションを動的に生成するためのテクニックを紹介します。
動的アクション生成には、ゲームエンジンの状態表現と以前に生成されたアクションの改訂に対するオンザフライの更新が必要になる場合があります。
プレイヤーが生成されたストーリー全体をインタラクティブに再生できるかどうかに関して、アクションコード生成の成功率を評価します。

要約(オリジナル)

We introduce STORY2GAME, a novel approach to using Large Language Models to generate text-based interactive fiction games that starts by generating a story, populates the world, and builds the code for actions in a game engine that enables the story to play out interactively. Whereas a given set of hard-coded actions can artificially constrain story generation, the ability to generate actions means the story generation process can be more open-ended but still allow for experiences that are grounded in a game state. The key to successful action generation is to use LLM-generated preconditions and effects of actions in the stories as guides for what aspects of the game state must be tracked and changed by the game engine when a player performs an action. We also introduce a technique for dynamically generating new actions to accommodate the player’s desire to perform actions that they think of that are not part of the story. Dynamic action generation may require on-the-fly updates to the game engine’s state representation and revision of previously generated actions. We evaluate the success rate of action code generation with respect to whether a player can interactively play through the entire generated story.

arxiv情報

著者 Eric Zhou,Shreyas Basavatia,Moontashir Siam,Zexin Chen,Mark O. Riedl
発行日 2025-05-06 14:00:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | STORY2GAME: Generating (Almost) Everything in an Interactive Fiction Game はコメントを受け付けていません

A Hashgraph-Inspired Consensus Mechanism for Reliable Multi-Model Reasoning

要約

大規模な言語モデル(LLM)からの一貫性のない出力と幻覚は、信頼できるAIシステムの大きな障害です。
Openai、Google、人類、Deepseek、Xaiのような異なる独自の推論モデル(RMS)に同じ複雑な要求が与えられる場合、トレーニングと推論の変動により多様な結果が生じることがよくあります。
このペーパーでは、分散型台帳技術に触発された新しいコンセンサスメカニズムを提案し、これらの出力を検証および収束させ、各RMをブラックボックスピアとして扱います。
ハッシュグラフコンセンサスアルゴリズムに基づいて、私たちのアプローチは、RMSのアンサンブル間で合意を達成するために、ゴシップとゴシップのコミュニケーションと仮想投票を採用しています。
RMSが回答を繰り返し交換および更新し、各ラウンドの情報を使用して、その後のラウンドの精度と信頼性を向上させるプロトタイプシステムのアーキテクチャデザインを提示します。
このアプローチは、すべてのモデルの知識と相互評価コンテンツを組み込むことにより、単純な多数票を超えています。
AIアンサンブルに対するこのハッシュグラフに触発されたコンセンサスの実現可能性を正当化し、非事実の出力を減らすための従来のアンサンブル技術に対する利点を概説します。
実装の予備的な考慮事項、収束と精度の評価基準、および潜在的な課題について説明します。
提案されたメカニズムは、複雑なタスクで高忠実度の応答を自己検証し、提供するためのマルチエージェントAIシステムの有望な方向を示しています。

要約(オリジナル)

Inconsistent outputs and hallucinations from large language models (LLMs) are major obstacles to reliable AI systems. When different proprietary reasoning models (RMs), such as those by OpenAI, Google, Anthropic, DeepSeek, and xAI, are given the same complex request, they often produce divergent results due to variations in training and inference. This paper proposes a novel consensus mechanism, inspired by distributed ledger technology, to validate and converge these outputs, treating each RM as a black-box peer. Building on the Hashgraph consensus algorithm, our approach employs gossip-about-gossip communication and virtual voting to achieve agreement among an ensemble of RMs. We present an architectural design for a prototype system in which RMs iteratively exchange and update their answers, using information from each round to improve accuracy and confidence in subsequent rounds. This approach goes beyond simple majority voting by incorporating the knowledge and cross-verification content of every model. We justify the feasibility of this Hashgraph-inspired consensus for AI ensembles and outline its advantages over traditional ensembling techniques in reducing nonfactual outputs. Preliminary considerations for implementation, evaluation criteria for convergence and accuracy, and potential challenges are discussed. The proposed mechanism demonstrates a promising direction for multi-agent AI systems to self-validate and deliver high-fidelity responses in complex tasks.

arxiv情報

著者 Kolawole E. Ogunsina,Morayo A. Ogunsina
発行日 2025-05-06 14:05:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC | A Hashgraph-Inspired Consensus Mechanism for Reliable Multi-Model Reasoning はコメントを受け付けていません

Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation Using Vision Language Models

要約

視覚ターゲットナビゲーションは、未知の環境、特に人間とロボットの相互作用シナリオで動作する自律的なロボットにとって重要な機能です。
古典的および学習ベースの方法は有望であるが、既存のアプローチのほとんどは常識的な推論を欠いており、通常、シングルロボット設定向けに設計されており、複雑な環境で効率と堅牢性の低下をもたらします。
これらの制限に対処するために、Co-Navgptを紹介します。これは、Gollas Multi-Robot Visual Target Navigationを有効にするためのグローバルプランナーとしてVision Language Model(VLM)を統合する新しいフレームワークです。
co-navgpt集合体は、多様な視点を持つ複数のロボットからサブマップを統一されたグローバルマップ、ロボット状態とフロンティア地域をエンコードします。
VLMはこの情報を使用してロボット全体にフロンティアを割り当て、調整された効率的な探索を促進します。
Habitat-Matterport 3D(HM3D)の実験は、CO-Navgptがタスク固有のトレーニングを必要とせずに、成功率とナビゲーション効率の観点から既存のベースラインを上回ることを示しています。
アブレーション研究は、VLMからのセマンティックプライアーの重要性をさらに確認しています。
また、Quadrupedalロボットを使用して、実際のシナリオでフレームワークを検証します。
補足ビデオとコードは、https://sites.google.com/view/co-navgpt2で入手できます。

要約(オリジナル)

Visual target navigation is a critical capability for autonomous robots operating in unknown environments, particularly in human-robot interaction scenarios. While classical and learning-based methods have shown promise, most existing approaches lack common-sense reasoning and are typically designed for single-robot settings, leading to reduced efficiency and robustness in complex environments. To address these limitations, we introduce Co-NavGPT, a novel framework that integrates a Vision Language Model (VLM) as a global planner to enable common-sense multi-robot visual target navigation. Co-NavGPT aggregates sub-maps from multiple robots with diverse viewpoints into a unified global map, encoding robot states and frontier regions. The VLM uses this information to assign frontiers across the robots, facilitating coordinated and efficient exploration. Experiments on the Habitat-Matterport 3D (HM3D) demonstrate that Co-NavGPT outperforms existing baselines in terms of success rate and navigation efficiency, without requiring task-specific training. Ablation studies further confirm the importance of semantic priors from the VLM. We also validate the framework in real-world scenarios using quadrupedal robots. Supplementary video and code are available at: https://sites.google.com/view/co-navgpt2.

arxiv情報

著者 Bangguo Yu,Qihao Yuan,Kailai Li,Hamidreza Kasaei,Ming Cao
発行日 2025-05-06 14:06:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation Using Vision Language Models はコメントを受け付けていません