iScore: Visual Analytics for Interpreting How Language Models Automatically Score Summaries

要約

最近の大規模言語モデル (LLM) の人気の爆発的な増加を受けて、学習エンジニアは、要約作成を自動的に採点する適応型教育ツールに LLM を組み込むようになりました。
LLM を重要な学習環境に導入する前に、LLM を理解して評価することが不可欠ですが、その前例のない規模とパラメータ数の増加により、パフォーマンスが低下すると透明性が阻害され、信頼が損なわれます。
概要スコアリング LLM を構築および展開する数人の学習エンジニアとの共同のユーザー中心の設計プロセスを通じて、大規模なテキスト入力の集約、スコア来歴の追跡、LLM 解釈可能性メソッドのスケーリングなど、モデルの解釈に関する基本的な設計の課題と目標を特徴付けました。
彼らの懸念に対処するために、学習エンジニアが複数の概要を同時にアップロード、スコアリング、比較できるインタラクティブなビジュアル分析ツールである iScore を開発しました。
緊密に統合されたビューにより、ユーザーは要約内の言語を繰り返し修正し、結果として得られる LLM スコアの変化を追跡し、複数の抽象化レベルでモデルの重みを視覚化することができます。
私たちのアプローチを検証するために、1 か月間かけて 3 人の学習エンジニアとともに iScore を導入しました。
iScore と対話することで、学習エンジニアが LLM のスコア精度を 3 パーセント向上させたケース スタディを紹介します。
最後に、学習エンジニアに対して定性的なインタビューを実施し、導入中に iScore によって LLM をどのように理解し、評価し、信頼を築くことができたのかを明らかにしました。

要約(オリジナル)

The recent explosion in popularity of large language models (LLMs) has inspired learning engineers to incorporate them into adaptive educational tools that automatically score summary writing. Understanding and evaluating LLMs is vital before deploying them in critical learning environments, yet their unprecedented size and expanding number of parameters inhibits transparency and impedes trust when they underperform. Through a collaborative user-centered design process with several learning engineers building and deploying summary scoring LLMs, we characterized fundamental design challenges and goals around interpreting their models, including aggregating large text inputs, tracking score provenance, and scaling LLM interpretability methods. To address their concerns, we developed iScore, an interactive visual analytics tool for learning engineers to upload, score, and compare multiple summaries simultaneously. Tightly integrated views allow users to iteratively revise the language in summaries, track changes in the resulting LLM scores, and visualize model weights at multiple levels of abstraction. To validate our approach, we deployed iScore with three learning engineers over the course of a month. We present a case study where interacting with iScore led a learning engineer to improve their LLM’s score accuracy by three percentage points. Finally, we conducted qualitative interviews with the learning engineers that revealed how iScore enabled them to understand, evaluate, and build trust in their LLMs during deployment.

arxiv情報

著者 Adam Coscia,Langdon Holmes,Wesley Morris,Joon Suh Choi,Scott Crossley,Alex Endert
発行日 2024-03-07 18:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC, cs.LG パーマリンク