要約
大規模な言語モデル(LLM)からの一貫性のない出力と幻覚は、信頼できるAIシステムの大きな障害です。
Openai、Google、人類、Deepseek、Xaiのような異なる独自の推論モデル(RMS)に同じ複雑な要求が与えられる場合、トレーニングと推論の変動により多様な結果が生じることがよくあります。
このペーパーでは、分散型台帳技術に触発された新しいコンセンサスメカニズムを提案し、これらの出力を検証および収束させ、各RMをブラックボックスピアとして扱います。
ハッシュグラフコンセンサスアルゴリズムに基づいて、私たちのアプローチは、RMSのアンサンブル間で合意を達成するために、ゴシップとゴシップのコミュニケーションと仮想投票を採用しています。
RMSが回答を繰り返し交換および更新し、各ラウンドの情報を使用して、その後のラウンドの精度と信頼性を向上させるプロトタイプシステムのアーキテクチャデザインを提示します。
このアプローチは、すべてのモデルの知識と相互評価コンテンツを組み込むことにより、単純な多数票を超えています。
AIアンサンブルに対するこのハッシュグラフに触発されたコンセンサスの実現可能性を正当化し、非事実の出力を減らすための従来のアンサンブル技術に対する利点を概説します。
実装の予備的な考慮事項、収束と精度の評価基準、および潜在的な課題について説明します。
提案されたメカニズムは、複雑なタスクで高忠実度の応答を自己検証し、提供するためのマルチエージェントAIシステムの有望な方向を示しています。
要約(オリジナル)
Inconsistent outputs and hallucinations from large language models (LLMs) are major obstacles to reliable AI systems. When different proprietary reasoning models (RMs), such as those by OpenAI, Google, Anthropic, DeepSeek, and xAI, are given the same complex request, they often produce divergent results due to variations in training and inference. This paper proposes a novel consensus mechanism, inspired by distributed ledger technology, to validate and converge these outputs, treating each RM as a black-box peer. Building on the Hashgraph consensus algorithm, our approach employs gossip-about-gossip communication and virtual voting to achieve agreement among an ensemble of RMs. We present an architectural design for a prototype system in which RMs iteratively exchange and update their answers, using information from each round to improve accuracy and confidence in subsequent rounds. This approach goes beyond simple majority voting by incorporating the knowledge and cross-verification content of every model. We justify the feasibility of this Hashgraph-inspired consensus for AI ensembles and outline its advantages over traditional ensembling techniques in reducing nonfactual outputs. Preliminary considerations for implementation, evaluation criteria for convergence and accuracy, and potential challenges are discussed. The proposed mechanism demonstrates a promising direction for multi-agent AI systems to self-validate and deliver high-fidelity responses in complex tasks.
arxiv情報
著者 | Kolawole E. Ogunsina,Morayo A. Ogunsina |
発行日 | 2025-05-06 14:05:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google