A blind spot for large language models: Supradiegetic linguistic information

要約

ChatGPT のような大規模言語モデル (LLM) は、人工知能の分野における重大な変化を反映しており、印象的で、驚くほど人間らしい流暢な言語を実現します。
彼らの現在および潜在的な能力の範囲は、決して科学研究者に限定されない活発な研究分野です。
LLM のトレーニング データを「テキスト」または「言語」としてフレーム化するのが一般的です。
私たちは、言語学、身体的認知、認知科学、数学、歴史などのいくつかの分野のアイデアを使用して、この枠組みの詳細を検討します。
私たちは、Nagel が言ったように、ChatGPT のような LLM であることがどのようなものであるかを考えることは、その機能全般についての洞察を得るのに役立ち、特に、言語トレーニング データへのエクスポージャをエクスポージャとして生産的に再構成できることを提案します。
この欠陥は、言語にコード化されたダイエジェティックな情報に対する無知であり、その欠陥は、超ディエジェティックな言語情報を含む、超ダイエジェティックな情報の無知として再構成することができます。
超常言語的言語情報は、ChatGPT のような LLM がアクセスできる、文脈の一次元関係 (頻度、隣接性、近接性、共起性) からは導出できない、言語の物理的形式の任意の側面で構成されます。
大まかに言えば、単語のダイジェティックな部分は、その機能、意味、単語の埋め込みにおける理論的なベクトルの情報と考えることができ、一方、単語の超ディジェティックな部分は、形状などの形式と考えることができます。
その文字やその音節の音。
私たちはこれらの概念を使用して、ChatGPT のような LLM が回文、シンボルの視覚的特徴、シュメール語の楔形文字の翻訳、および連続する整数シーケンスの処理に問題がある理由を調査します。

要約(オリジナル)

Large Language Models (LLMs) like ChatGPT reflect profound changes in the field of Artificial Intelligence, achieving a linguistic fluency that is impressively, even shockingly, human-like. The extent of their current and potential capabilities is an active area of investigation by no means limited to scientific researchers. It is common for people to frame the training data for LLMs as ‘text’ or even ‘language’. We examine the details of this framing using ideas from several areas, including linguistics, embodied cognition, cognitive science, mathematics, and history. We propose that considering what it is like to be an LLM like ChatGPT, as Nagel might have put it, can help us gain insight into its capabilities in general, and in particular, that its exposure to linguistic training data can be productively reframed as exposure to the diegetic information encoded in language, and its deficits can be reframed as ignorance of extradiegetic information, including supradiegetic linguistic information. Supradiegetic linguistic information consists of those arbitrary aspects of the physical form of language that are not derivable from the one-dimensional relations of context — frequency, adjacency, proximity, co-occurrence — that LLMs like ChatGPT have access to. Roughly speaking, the diegetic portion of a word can be thought of as its function, its meaning, as the information in a theoretical vector in a word embedding, while the supradiegetic portion of the word can be thought of as its form, like the shapes of its letters or the sounds of its syllables. We use these concepts to investigate why LLMs like ChatGPT have trouble handling palindromes, the visual characteristics of symbols, translating Sumerian cuneiform, and continuing integer sequences.

arxiv情報

著者 Julia Witte Zimmerman,Denis Hudon,Kathryn Cramer,Jonathan St. Onge,Mikaela Fudolig,Milo Z. Trujillo,Christopher M. Danforth,Peter Sheridan Dodds
発行日 2024-05-16 13:06:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク