要約
大規模言語モデル(Large Language Models: LLM)は今日、様々なタスクに利用されている。本稿では、LLMがグラフを復唱・生成する能力を調査する。まず、LLMが文献からよく知られたグラフ(空手クラブやグラフアトラスなど)を暗唱する能力を調べる4。次に、LLMがエルドス・レニイのランダムグラフを生成する能力を調べる。スクレイピングされた学習セットに含まれるいくつかのErdos-Renyiグラフを記憶する可能性とは対照的に、この2番目の調査は、LLMの可能な創発的特性を研究することを目的としている。両課題について、幻覚のレンズ(すなわち、事実として返される誤った情報)を用いた誤りを評価するための測定基準を提案する。その結果、グラフ幻覚の振幅がLLMの優劣を特徴づけることがわかった。実際、暗唱課題では、グラフ幻覚は、10,000倍のプロンプトを活用してランキングを得る幻覚ランキングである「幻覚リーダーボード」と相関することが観察された。生成課題では、ほとんどのLLMで驚くほど良好で再現性のある結果が得られた。この結果は、この出現した能力をより深く研究するための出発点であり、その改善のための挑戦的なベンチマークになると考えている。これら2つの側面から、LLMの能力は、ネットワーク科学と機械学習の間のギャップを埋めるものである。
要約(オリジナル)
Large Language Models (LLMs) are nowadays prompted for a wide variety of tasks. In this article, we investigate their ability in reciting and generating graphs. We first study the ability of LLMs to regurgitate well known graphs from the literature (e.g. Karate club or the graph atlas)4. Secondly, we question the generative capabilities of LLMs by asking for Erdos-Renyi random graphs. As opposed to the possibility that they could memorize some Erdos-Renyi graphs included in their scraped training set, this second investigation aims at studying a possible emergent property of LLMs. For both tasks, we propose a metric to assess their errors with the lens of hallucination (i.e. incorrect information returned as facts). We most notably find that the amplitude of graph hallucinations can characterize the superiority of some LLMs. Indeed, for the recitation task, we observe that graph hallucinations correlate with the Hallucination Leaderboard, a hallucination rank that leverages 10, 000 times more prompts to obtain its ranking. For the generation task, we find surprisingly good and reproducible results in most of LLMs. We believe this to constitute a starting point for more in-depth studies of this emergent capability and a challenging benchmark for their improvements. Altogether, these two aspects of LLMs capabilities bridge a gap between the network science and machine learning communities.
arxiv情報
著者 | Gurvan Richardeau,Samy Chali,Erwan Le Merrer,Camilla Penzo,Gilles Tredan |
発行日 | 2025-04-04 10:58:40+00:00 |
arxivサイト | arxiv_id(pdf) |