Idiosyncrasies in Large Language Models

要約

この作業では、大規模な言語モデル(LLMS)で特異性を発表して研究します。これは、モデルを区別するために使用できる出力のユニークなパターンです。
そのためには、単純な分類タスクを検討します。特定のテキスト出力を与えられた場合、目的はテキストを生成するソースLLMを予測することです。
LLMのさまざまなグループにわたってこの合成タスクを評価し、LLMで生成されたテキストに既存のテキスト埋め込みモデルを微調整するだけで、優れた分類精度が得られることがわかります。
特に、ChATGPT、Claude、Grok、Gemini、およびDeepSeekを含む5方向分類問題で、保有された検証データの97.1%の精度を達成します。
私たちのさらなる調査は、これらの特異性が単語レベルの分布に根ざしていることを明らかにしています。
これらのパターンは、テキストが外部LLMによって書き換え、翻訳、または要約されている場合でも持続し、セマンティックコンテンツにもエンコードされていることを示唆しています。
さらに、LLMを審査員として活用して、各モデルの特異性の詳細で自由回答形式の説明を生成します。
最後に、特に合成データのトレーニングとモデルの類似性を推測するための調査結果のより広範な意味について説明します。
コードはhttps://github.com/locuslab/llm-idiosyncrasiesで入手できます。

要約(オリジナル)

In this work, we unveil and study idiosyncrasies in Large Language Models (LLMs) — unique patterns in their outputs that can be used to distinguish the models. To do so, we consider a simple classification task: given a particular text output, the objective is to predict the source LLM that generates the text. We evaluate this synthetic task across various groups of LLMs and find that simply fine-tuning existing text embedding models on LLM-generated texts yields excellent classification accuracy. Notably, we achieve 97.1% accuracy on held-out validation data in the five-way classification problem involving ChatGPT, Claude, Grok, Gemini, and DeepSeek. Our further investigation reveals that these idiosyncrasies are rooted in word-level distributions. These patterns persist even when the texts are rewritten, translated, or summarized by an external LLM, suggesting that they are also encoded in the semantic content. Additionally, we leverage LLM as judges to generate detailed, open-ended descriptions of each model’s idiosyncrasies. Finally, we discuss the broader implications of our findings, particularly for training on synthetic data and inferring model similarity. Code is available at https://github.com/locuslab/llm-idiosyncrasies.

arxiv情報

著者 Mingjie Sun,Yida Yin,Zhiqiu Xu,J. Zico Kolter,Zhuang Liu
発行日 2025-02-17 18:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク