要約
汎用的な協調エージェントを開発するためには、(1)新しいドメインに適応でき、(2)検証や修正を可能にするために不確実性を透過的に推論できる、信頼性の高いAIシステムが必要である。ブラックボックスモデルは強力なデータ処理能力を示すが、その不透明性、ドメイン固有性、不確実性の認識不足のため、これらの基準を満たすことはできない。我々はBonsaiを紹介する。Bonsaiは構成的で確率的な推論システムであり、関連する根拠となる証拠を検索し、それを用いてより広範な自然言語推論から導かれるサブクレームの尤度を計算することにより、適応可能な推論ツリーを生成する。Bonsaiの推論能力はエビデンススケーリングによりテスト時に調整可能であり、トランスクリプト、写真、ビデオ、オーディオ、データベースを含む様々なドメインの信頼性の高いハンドリングを実証している。質問応答と人間によるアラインメントの実験では、Bonsaiが解釈可能で、根拠があり、不確実性を考慮した推論トレースを生成しながら、ドメイン固有のブラックボックス手法の性能に匹敵することを実証している。
要約(オリジナル)
To develop general-purpose collaborative agents, humans need reliable AI systems that can (1) adapt to new domains and (2) transparently reason with uncertainty to allow for verification and correction. Black-box models demonstrate powerful data processing abilities but do not satisfy these criteria due to their opaqueness, domain specificity, and lack of uncertainty awareness. We introduce Bonsai, a compositional and probabilistic reasoning system that generates adaptable inference trees by retrieving relevant grounding evidence and using it to compute likelihoods of sub-claims derived from broader natural language inferences. Bonsai’s reasoning power is tunable at test-time via evidence scaling and it demonstrates reliable handling of varied domains including transcripts, photographs, videos, audio, and databases. Question-answering and human alignment experiments demonstrate that Bonsai matches the performance of domain-specific black-box methods while generating interpretable, grounded, and uncertainty-aware reasoning traces.
arxiv情報
著者 | Kate Sanders,Benjamin Van Durme |
発行日 | 2025-04-04 17:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |