On the consistent reasoning paradox of intelligence and optimal trust in AI: The power of ‘I don’t know’

要約

一貫した推論のパラドックス (CRP) を紹介します。
人間の知性の中核にある一貫した推論は、同等でありながら異なる文で記述されるタスク (「時間を教えてください!」と「時刻は何ですか?」) を処理する能力です。
CRP は、一貫した推論には誤りの可能性が含まれると主張しています。特に、AI における人間のような知能には、必然的に人間のような誤りの可能性が伴います。
具体的には、問題があると述べています。
基本的な算術では、常に答え、一貫した推論によって人間の知性を模倣しようと努める AI は、無限に頻繁に幻覚を起こします (間違っているがもっともらしい答えを生成します)。
この矛盾は、同じ一連の問題に対して正しい推論を行う AI (したがって、人間の知能のレベルには達し得ない) が一貫性のないものが存在するということです。
CRP はまた、こうした幻覚を検出することは、確率論的な意味であっても、元の問題を解決するよりも厳密には難しいこと、および AI が正しく答える可能性のある問題は存在するが、AI がどのようにしてこの問題に到達したかについて正しい論理的説明を提供することはできないことも示しています。
答え。
したがって、CRP は、一貫して推論する信頼できる AI (つまり、決して間違った答えをしない AI) は「わかりません」と言える必要があることを示唆しています。
さらに、これは、私たちが導入する「わかりません」関数と呼ばれる新しい概念を暗黙的に計算することによってのみ行うことができます。これは、現代の AI に現在欠けているものです。
これらの洞察を考慮して、CRP は汎用人工知能 (AGI) の動作についても垣間見ることができます。
AGI は「ほぼ確実」であることはできませんし、常にそれ自体を説明できるわけでもないため、信頼できるためには「わかりません」と言える必要があります。

要約(オリジナル)

We introduce the Consistent Reasoning Paradox (CRP). Consistent reasoning, which lies at the core of human intelligence, is the ability to handle tasks that are equivalent, yet described by different sentences (‘Tell me the time!’ and ‘What is the time?’). The CRP asserts that consistent reasoning implies fallibility — in particular, human-like intelligence in AI necessarily comes with human-like fallibility. Specifically, it states that there are problems, e.g. in basic arithmetic, where any AI that always answers and strives to mimic human intelligence by reasoning consistently will hallucinate (produce wrong, yet plausible answers) infinitely often. The paradox is that there exists a non-consistently reasoning AI (which therefore cannot be on the level of human intelligence) that will be correct on the same set of problems. The CRP also shows that detecting these hallucinations, even in a probabilistic sense, is strictly harder than solving the original problems, and that there are problems that an AI may answer correctly, but it cannot provide a correct logical explanation for how it arrived at the answer. Therefore, the CRP implies that any trustworthy AI (i.e., an AI that never answers incorrectly) that also reasons consistently must be able to say ‘I don’t know’. Moreover, this can only be done by implicitly computing a new concept that we introduce, termed the ‘I don’t know’ function — something currently lacking in modern AI. In view of these insights, the CRP also provides a glimpse into the behaviour of Artificial General Intelligence (AGI). An AGI cannot be ‘almost sure’, nor can it always explain itself, and therefore to be trustworthy it must be able to say ‘I don’t know’.

arxiv情報

著者 Alexander Bastounis,Paolo Campodonico,Mihaela van der Schaar,Ben Adcock,Anders C. Hansen
発行日 2024-08-05 10:06:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC, math.PR パーマリンク