要約
大規模言語モデル (LLM) は特定の次元で顕著なパフォーマンスを示していますが、人間が効果的なコミュニケーションに使用する暗黙の言語手がかりを表現する能力は依然として不明です。
この論文では、LLM の暗黙的な通信能力を測定するための Python ライブラリである ExpressivityArena について説明します。
私たちは、任意の LLM の表現力を評価し、その実際的な意味を調査するための包括的なフレームワークを提供します。
この目的を達成するために、私たちは「表現力」の定義と測定を改良し、一連の小規模な実験でフレームワークを使用します。
これらの実験では、詩、コーディング、感情ベースの応答などの創造的かつ論理的なタスクで LLM をテストします。
次に、ExpressivityArena を介して自動採点機能によって評価されます。これは、表現力をテストするのに最も実用的であることが確認されています。
これらの実験に基づいて、会話の中で表現力を維持する能力を評価することで、LLM の表現力についての理解を深めます。
私たちの調査結果は、LLM は表現力豊かなコンテンツを生成および理解できるが、いくつかの制限があることを示しています。
これらの洞察は、表現力豊かな LLM の将来の開発と展開に役立ちます。
ExpressivityArena のコードを論文と一緒に提供します。
要約(オリジナル)
While Large Language Models (LLMs) have demonstrated remarkable performance in certain dimensions, their ability to express implicit language cues that human use for effective communication remains unclear. This paper presents ExpressivityArena, a Python library for measuring the implicit communication abilities of LLMs. We provide a comprehensive framework to evaluate expressivity of arbitrary LLMs and explore its practical implications. To this end, we refine the definition and measurements of “expressivity,” and use our framework in a set of small experiments. These experiments test LLMs in creative and logical tasks such as poetry, coding, and emotion-based responses. They are then evaluated by an automated grader, through ExpressivityArena, which we verify to be the most pragmatic for testing expressivity. Building on these experiments, we deepen our understanding of the expressivity of LLMs by assessing their ability to remain expressive in conversations. Our findings indicate that LLMs are capable of generating and understanding expressive content, however, with some limitations. These insights will inform the future development and deployment of expressive LLMs. We provide the code for ExpressivityArena alongside our paper.
arxiv情報
著者 | Joshua Tint,Som Sagar,Aditya Taparia,Kelly Raines,Bimsara Pathiraja,Caleb Liu,Ransalu Senanayake |
発行日 | 2024-11-12 18:35:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google