SeedLM: Compressing LLM Weights into Seeds of Pseudo-Random Generators

要約

大規模言語モデル (LLM) は自然言語処理を変革しましたが、実行時のコストが高いため、広範囲に導入するには大きな課題に直面しています。
この論文では、擬似ランダム生成器のシードを使用してモデルの重みをエンコードおよび圧縮する新しいトレーニング後の圧縮方法である SeedLM を紹介します。
具体的には、重みのブロックごとに、推論中に線形フィードバック シフト レジスタ (LFSR) に入力されるシードを見つけて、ランダム行列を効率的に生成します。
次に、この行列は圧縮された係数と線形的に結合されて、重みブロックが再構築されます。
SeedLM はメモリ アクセスを削減し、推論中にアイドル状態のコンピューティング サイクルを活用し、コンピューティングをより少ないメモリ アクセスと引き換えに行うことで、メモリに依存するタスクを効果的に高速化します。
キャリブレーション データに依存する最先端の圧縮方法とは異なり、私たちのアプローチはデータフリーであり、さまざまなタスクにわたってよく一般化されます。
特に圧縮が難しい Llama 3 70B を使った実験では、SeedLM が FP16 ベースラインと同等のパフォーマンスを維持しながら、4 ビットおよび 3 ビットで最先端の技術よりも大幅に優れたゼロショット精度保持を達成していることがわかりました。
さらに、FPGA ベースのテストでは、4 ビット SeedLM がモデル サイズが 70B に増加すると、FP16 Llama 2/3 ベースラインと比較して 4 倍の速度向上に近づくことが実証されています。

要約(オリジナル)

Large Language Models (LLMs) have transformed natural language processing, but face significant challenges in widespread deployment due to their high runtime cost. In this paper, we introduce SeedLM, a novel post-training compression method that uses seeds of pseudo-random generators to encode and compress model weights. Specifically, for each block of weights, we find a seed that is fed into a Linear Feedback Shift Register (LFSR) during inference to efficiently generate a random matrix. This matrix is then linearly combined with compressed coefficients to reconstruct the weight block. SeedLM reduces memory access and leverages idle compute cycles during inference, effectively speeding up memory-bound tasks by trading compute for fewer memory accesses. Unlike state-of-the-art compression methods that rely on calibration data, our approach is data-free and generalizes well across diverse tasks. Our experiments with Llama 3 70B, which is particularly challenging to compress, show that SeedLM achieves significantly better zero-shot accuracy retention at 4- and 3-bit than state-of-the-art techniques, while maintaining performance comparable to FP16 baselines. Additionally, FPGA-based tests demonstrate that 4-bit SeedLM, as model size increases to 70B, approaches a 4x speed-up over an FP16 Llama 2/3 baseline.

arxiv情報

著者 Rasoul Shafipour,David Harrison,Maxwell Horton,Jeffrey Marker,Houman Bedayat,Sachin Mehta,Mohammad Rastegari,Mahyar Najibi,Saman Naderiparizi
発行日 2024-10-14 16:57:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | SeedLM: Compressing LLM Weights into Seeds of Pseudo-Random Generators はコメントを受け付けていません

Reducing the Barriers to Entry for Foundation Model Training

要約

世界では最近、機械学習および人工知能アプリケーションに対する需要が前例のないほど加速しています。
この需要の急増により、サプライ チェーンの基盤となるテクノロジー スタック、GPU アクセラレーションのハードウェア、ソフトウェア、データセンターの電力密度、エネルギー消費に多大な負担がかかりました。
現在の技術軌道に沿ったままにしておくと、将来の需要は克服できない支出傾向を示し、市場参加者がさらに制限され、イノベーションが抑制され、技術格差が拡大します。
これらの課題に対処するために、私たちはテクノロジー エコシステム全体にわたる AI トレーニング インフラストラクチャの根本的な変更を提案します。
この変化には、ハイエンド ソフトウェアから低レベルのハードウェア、マイクロプロセッサ、チップ設計に至るまで、スーパーコンピューティングと新しい AI トレーニング アプローチの進歩が必要であると同時に、持続可能なインフラストラクチャに必要なエネルギー効率も向上する必要があります。
このペーパーでは、課題を定量的に浮き彫りにし、大規模な言語モデルのトレーニングへの参入障壁を軽減する機会を指摘する分析フレームワークを紹介します。

要約(オリジナル)

The world has recently witnessed an unprecedented acceleration in demands for Machine Learning and Artificial Intelligence applications. This spike in demand has imposed tremendous strain on the underlying technology stack in supply chain, GPU-accelerated hardware, software, datacenter power density, and energy consumption. If left on the current technological trajectory, future demands show insurmountable spending trends, further limiting market players, stifling innovation, and widening the technology gap. To address these challenges, we propose a fundamental change in the AI training infrastructure throughout the technology ecosystem. The changes require advancements in supercomputing and novel AI training approaches, from high-end software to low-level hardware, microprocessor, and chip design, while advancing the energy efficiency required by a sustainable infrastructure. This paper presents the analytical framework that quantitatively highlights the challenges and points to the opportunities to reduce the barriers to entry for training large language models.

arxiv情報

著者 Paolo Faraboschi,Ellis Giles,Justin Hotard,Konstanty Owczarek,Andrew Wheeler
発行日 2024-10-14 17:03:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.ET, cs.LG | Reducing the Barriers to Entry for Foundation Model Training はコメントを受け付けていません

Towards LLM-guided Efficient and Interpretable Multi-linear Tensor Network Rank Selection

要約

私たちは、高次データ分析のためのテンソル ネットワーク モデルのランク選択をガイドするために大規模言語モデル (LLM) を活用する新しいフレームワークを提案します。
LLM の固有の推論機能とドメイン知識を利用することで、私たちのアプローチはランク選択の解釈可能性を高め、目的関数を効果的に最適化できます。
このフレームワークにより、専門分野の専門知識を持たないユーザーでもテンソル ネットワーク分解を利用し、ランク選択プロセス内の根本的な理論的根拠を理解できるようになります。
実験結果は、金融の高次データセットに対する私たちの方法を検証し、解釈可能な推論、目に見えないテストデータに対する強力な一般化、および連続した反復にわたる自己強化の可能性を実証しています。
この研究は、大規模な言語モデルと高次のデータ分析の交差点に位置します。

要約(オリジナル)

We propose a novel framework that leverages large language models (LLMs) to guide the rank selection in tensor network models for higher-order data analysis. By utilising the intrinsic reasoning capabilities and domain knowledge of LLMs, our approach offers enhanced interpretability of the rank choices and can effectively optimise the objective function. This framework enables users without specialised domain expertise to utilise tensor network decompositions and understand the underlying rationale within the rank selection process. Experimental results validate our method on financial higher-order datasets, demonstrating interpretable reasoning, strong generalisation to unseen test data, and its potential for self-enhancement over successive iterations. This work is placed at the intersection of large language models and higher-order data analysis.

arxiv情報

著者 Giorgos Iacovides,Wuyang Zhou,Danilo Mandic
発行日 2024-10-14 17:09:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Towards LLM-guided Efficient and Interpretable Multi-linear Tensor Network Rank Selection はコメントを受け付けていません

Multimodal MRI Accurately Identifies Amyloid Status in Unbalanced Cohorts in Alzheimer’s Disease Continuum

要約

神経原線維変化の形をした過剰リン酸化タウタンパク質と結合したアミロイド$\beta$ (A$\beta$) プラークは、アルツハイマー病の 2 つの神経病理学的特徴です。
A$\beta$ 陽性の個人を特定することで早期診断が可能になる可能性があることはよく知られています。
この研究では、構造的、機能的、拡散MRIによって明らかになった、根底にある構造的および結合性の疾患誘発性変調を利用して、さまざまな疾患段階の被験者を含む不均衡なコホートにおけるA$\beta$陽性状態を捕捉することを目的としています。
注目すべきことに、コホートの不均衡により、結果はアミロイド蓄積ではなくそれらの要因によって左右される可能性があります。
各モダリティによって提供される部分ビューはモデルに統合されており、A$\beta$ 蓄積の効果をエンコードする際にそれらの相補性を最大限に活用できるため、$0.762\pm0.04$ の精度が得られます。
各モダリティによってもたらされる情報の特異性は、\textit{事後}説明可能性分析 (ガイド付きバックプロパゲーション) によって評価され、根底にある構造的および機能的変化が強調されます。
A$\beta$ の沈着に関連する注目に値する十分に確立されたバイオマーカーの主要領域は、海馬、視床、楔前部、帯状回を含むすべてのモダリティによって同定でき、この方法の信頼性とその可能性が実証されました。
モダリティ固有のおそらく未知の A$\beta$ 沈着サインに光を当てます。

要約(オリジナル)

Amyloid-$\beta$ (A$\beta$) plaques in conjunction with hyperphosphorylated tau proteins in the form of neurofibrillary tangles are the two neuropathological hallmarks of Alzheimer’s disease. It is well-known that the identification of individuals with A$\beta$ positivity could enable early diagnosis. In this work, we aim at capturing the A$\beta$ positivity status in an unbalanced cohort enclosing subjects at different disease stages, exploiting the underlying structural and connectivity disease-induced modulations as revealed by structural, functional, and diffusion MRI. Of note, due to the unbalanced cohort, the outcomes may be guided by those factors rather than amyloid accumulation. The partial views provided by each modality are integrated in the model allowing to take full advantage of their complementarity in encoding the effects of the A$\beta$ accumulation, leading to an accuracy of $0.762\pm0.04$. The specificity of the information brought by each modality is assessed by \textit{post-hoc} explainability analysis (guided backpropagation), highlighting the underlying structural and functional changes. Noteworthy, well-established biomarker key regions related to A$\beta$ deposition could be identified by all modalities, including the hippocampus, thalamus, precuneus, and cingulate gyrus, witnessing in favor of the reliability of the method as well as its potential in shading light on modality-specific possibly unknown A$\beta$ deposition signatures.

arxiv情報

著者 Giorgio Dolci,Charles A. Ellis,Federica Cruciani,Lorenza Brusini,Anees Abrol,Ilaria Boscolo Galazzo,Gloria Menegaz,Vince D. Calhoun
発行日 2024-10-14 17:14:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Multimodal MRI Accurately Identifies Amyloid Status in Unbalanced Cohorts in Alzheimer’s Disease Continuum はコメントを受け付けていません

Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning

要約

大規模言語モデル (LLM) を使用した正確な数学的推論は、そのような推論に大きく依存するドメインに革命を起こす上で極めて重要です。
ただし、LLM は数学的推論の特定の側面で困難に遭遇することが多く、推論に欠陥が生じたり、誤った結果が生じたりします。
これらの問題を軽減するために、LLM に固有の能力として自己修正を組み込むように特別に設計された新しいメカニズムである自己修正チェーン (CoSC) を導入し、LLM が自身の結果を検証して修正できるようにします。
CoSC メカニズムは、一連の自己修正段階を通じて動作します。
各段階で、LLM は特定の問題に対処するプログラムを生成し、プログラムベースのツールを使用してこのプログラムを実行して出力を取得し、その後この出力を検証します。
検証に基づいて、LLM は次の修正段階に進むか、回答を最終的に決定します。
この反復的な自己修正プロセスにより、LLM は推論ステップを改良し、数学的推論の精度を向上させることができます。
CoSC メカニズムを低コストで実現するために、2 段階の微調整アプローチを採用しています。
最初のフェーズでは、GPT-4 から生成された比較的少量のシーディング データを使用して LLM がトレーニングされ、初期 CoSC 機能が確立されます。
第 2 フェーズでは、有料の GPT-4 に依存せず、第 1 フェーズでトレーニングされたモデルを使用して、より大量の自己生成データでトレーニングすることにより、CoSC 機能がさらに強化されます。
私たちの包括的な実験では、CoSC が既存のオープンソース LLM の中で従来の数学的データセットのパフォーマンスを大幅に向上させることを実証しています。
特に、当社の CoSC-Code-34B モデルは、パブリック ドメインで最も困難な数学的推論データセットである MATH で 53.5% のスコアを達成し、ChatGPT、GPT-4、さらにはマルチモーダル LLM などの確立されたモデルのパフォーマンスを上回りました。
GPT-4V、Gemini-1.0 Pro、Gemini-1.0 Ultraなど。

要約(オリジナル)

Accurate mathematical reasoning with Large Language Models (LLMs) is crucial in revolutionizing domains that heavily rely on such reasoning. However, LLMs often encounter difficulties in certain aspects of mathematical reasoning, leading to flawed reasoning and erroneous results. To mitigate these issues, we introduce a novel mechanism, the Chain of Self-Correction (CoSC), specifically designed to embed self-correction as an inherent ability in LLMs, enabling them to validate and rectify their own results. The CoSC mechanism operates through a sequence of self-correction stages. In each stage, the LLMs generate a program to address a given problem, execute this program using program-based tools to obtain an output, subsequently verify this output. Based on the verification, the LLMs either proceed to the next correction stage or finalize the answer. This iterative self-correction process allows the LLMs to refine their reasoning steps and improve the accuracy of their mathematical reasoning. To enable the CoSC mechanism at a low cost, we employ a two-phase finetuning approach. In the first phase, the LLMs are trained with a relatively small volume of seeding data generated from GPT-4, establishing an initial CoSC capability. In the second phase, the CoSC capability is further enhanced by training with a larger volume of self-generated data using the trained model in the first phase, without relying on the paid GPT-4. Our comprehensive experiments demonstrate that CoSC significantly improves performance on traditional mathematical datasets among existing open-source LLMs. Notably, our CoSC-Code-34B model achieved a 53.5% score on MATH, the most challenging mathematical reasoning dataset in the public domain, surpassing the performance of well-established models such as ChatGPT, GPT-4, and even multi-modal LLMs like GPT-4V, Gemini-1.0 Pro, and Gemini-1.0 Ultra.

arxiv情報

著者 Kuofeng Gao,Huanqia Cai,Qingyao Shuai,Dihong Gong,Zhifeng Li
発行日 2024-10-14 17:16:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning はコメントを受け付けていません

SensorBench: Benchmarking LLMs in Coding-Based Sensor Processing

要約

センサーデータの効果的な処理、解釈、管理は、サイバーフィジカルシステムの重要なコンポーネントとして浮上しています。
従来、センサー データの処理には、深い理論的知識と信号処理ツールの熟練度が必要でした。
しかし、最近の研究では、大規模言語モデル (LLM) が感覚データの処理において有望な機能を備えていることが示されており、感覚システム開発の副操縦士としての可能性が示唆されています。
この可能性を探るため、包括的なベンチマークである SensorBench を構築し、定量化可能な目標を確立しました。
このベンチマークには、さまざまなタスク用の多様な現実世界のセンサー データセットが組み込まれています。
結果は、LLM は単純なタスクではかなりの熟練度を示しますが、エンジニアリングの専門家と比較して、パラメーターを選択する構成タスクを処理する際に固有の課題に直面していることを示しています。
さらに、センサー処理のための 4 つのプロンプト戦略を調査し、自己検証がタスクの 48% で他のすべてのベースラインを上回るパフォーマンスを発揮できることを示しました。
私たちの調査は、包括的なベンチマークと将来の開発に向けた分析を提供し、LLM ベースのセンサー処理コパイロットへの道を開きます。

要約(オリジナル)

Effective processing, interpretation, and management of sensor data have emerged as a critical component of cyber-physical systems. Traditionally, processing sensor data requires profound theoretical knowledge and proficiency in signal-processing tools. However, recent works show that Large Language Models (LLMs) have promising capabilities in processing sensory data, suggesting their potential as copilots for developing sensing systems. To explore this potential, we construct a comprehensive benchmark, SensorBench, to establish a quantifiable objective. The benchmark incorporates diverse real-world sensor datasets for various tasks. The results show that while LLMs exhibit considerable proficiency in simpler tasks, they face inherent challenges in processing compositional tasks with parameter selections compared to engineering experts. Additionally, we investigate four prompting strategies for sensor processing and show that self-verification can outperform all other baselines in 48% of tasks. Our study provides a comprehensive benchmark and prompting analysis for future developments, paving the way toward an LLM-based sensor processing copilot.

arxiv情報

著者 Pengrui Quan,Xiaomin Ouyang,Jeya Vikranth Jeyakumar,Ziqi Wang,Yang Xing,Mani Srivastava
発行日 2024-10-14 17:21:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.SP | SensorBench: Benchmarking LLMs in Coding-Based Sensor Processing はコメントを受け付けていません

NT-LLM: A Novel Node Tokenizer for Integrating Graph Structure into Large Language Models

要約

グラフは、現実世界のシナリオにおける関係を表すための基本的なデータ構造です。
さまざまな自然言語処理 (NLP) タスクにわたる大規模言語モデル (LLM) の成功により、グラフ学習に LLM を統合することへの関心が高まっています。
ただし、LLM をグラフ関連のタスクに適用すると、これらのモデルは本質的にグラフに存在する複雑な構造情報を捕捉するように設計されていないため、大きな課題が生じます。
既存のアプローチは、2 つの戦略を通じてこの課題に対処しています。1 つはタスク連鎖アプローチで、グラフ ニューラル ネットワーク (GNN) を使用してグラフ構造をエンコードし、LLM が空間位置を理解することから解放されます。
グラフからテキストへの変換。グラフ構造を、LLM が処理できるセマンティック テキスト表現に変換します。
これらの手法は進歩しているにもかかわらず、多くの場合、グラフの位相情報を完全に保存するのに苦労したり、膨大な計算リソースを必要としたりして、実際の適用性が制限されています。
この研究では、キー ノードをアンカーとして選択し、これらのアンカーまでの相対距離に基づいて各ノードを表すことにより、グラフ構造を効率的にエンコードする新しいフレームワークである Node Tokenizer for Large Language Models (NT-LLM) を紹介します。
この位置アンカー エンコーディングはグラフ トポロジを効果的にキャプチャし、グラフ データに対する LLM の推論機能の強化を可能にします。
さらに、LLM 内の構造の理解をさらに向上させるために、タスク固有の調整手順を実装します。
広範な実証的評価を通じて、NT-LLM はさまざまなグラフ関連タスクにわたってパフォーマンスが大幅に向上することを実証しています。

要約(オリジナル)

Graphs are a fundamental data structure for representing relationships in real-world scenarios. With the success of Large Language Models (LLMs) across various natural language processing (NLP) tasks, there has been growing interest in integrating LLMs for graph learning. However, applying LLMs to graph-related tasks poses significant challenges, as these models are not inherently designed to capture the complex structural information present in graphs. Existing approaches address this challenge through two strategies: the chain of tasks approach, which uses Graph Neural Networks (GNNs) to encode the graph structure so that LLMs are relieved from understanding spatial positions; and Graph-to-Text Conversion, which translates graph structures into semantic text representations that LLMs can process. Despite their progress, these methods often struggle to fully preserve the topological information of graphs or require extensive computational resources, limiting their practical applicability. In this work, we introduce Node Tokenizer for Large Language Models (NT-LLM), a novel framework that efficiently encodes graph structures by selecting key nodes as anchors and representing each node based on its relative distance to these anchors. This position-anchored encoding effectively captures the graph topology, enabling enhanced reasoning capabilities in LLMs over graph data. Additionally, we implement a task-specific tuning procedure to further improve structural understanding within LLMs. Through extensive empirical evaluations, NT-LLM demonstrates significant performance improvements across a variety of graph-related tasks.

arxiv情報

著者 Yanbiao Ji,Chang Liu,Xin Chen,Yue Ding,Dan Luo,Mei Li,Wenqing Lin,Hongtao Lu
発行日 2024-10-14 17:21:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | NT-LLM: A Novel Node Tokenizer for Integrating Graph Structure into Large Language Models はコメントを受け付けていません

Arrhythmia Classification Using Graph Neural Networks Based on Correlation Matrix

要約

グラフ ニューラル ネットワークの進歩に伴い、このネットワークを ECG 信号分析に適用することへの関心が高まっています。
本研究では、抽出した特徴の相関行列を用いて隣接行列を生成し、グラフニューラルネットワークを適用して不整脈を分類した。
提案されたモデルは、文献からの既存のアプローチと比較されました。
結果は、すべての不整脈クラスの精度と再現率が 50% を超えていることを示し、この方法が不整脈分類のアプローチとみなせることを示唆しています。

要約(オリジナル)

With the advancements in graph neural network, there has been increasing interest in applying this network to ECG signal analysis. In this study, we generated an adjacency matrix using correlation matrix of extracted features and applied a graph neural network to classify arrhythmias. The proposed model was compared with existing approaches from the literature. The results demonstrated that precision and recall for all arrhythmia classes exceeded 50%, suggesting that this method can be considered an approach for arrhythmia classification.

arxiv情報

著者 Seungwoo Han
発行日 2024-10-14 17:38:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.SP | Arrhythmia Classification Using Graph Neural Networks Based on Correlation Matrix はコメントを受け付けていません

AFlow: Automating Agentic Workflow Generation

要約

大規模言語モデル (LLM) は、通常、詳細な指示と操作シーケンスに従うエージェント ワークフローを採​​用することにより、さまざまなドメインにわたる複雑なタスクを解決する際に顕著な可能性を示しています。
ただし、これらのワークフローの構築には多大な人間の労力が必要であり、スケーラビリティと汎用性が制限されます。
最近の研究では、これらのワークフローの生成と最適化を自動化することが試みられていますが、既存の方法は依然として初期の手動セットアップに依存しており、完全に自動化された効果的なワークフロー生成を達成するには至っていません。
この課題に対処するために、LLM を呼び出すノードがエッジによって接続される、コードで表現されたワークフローに対する検索問題としてワークフローの最適化を再定式化します。
AFlow は、モンテカルロ ツリー検索を使用してこの領域を効率的に探索し、コード変更、ツリー構造のエクスペリエンス、および実行フィードバックを通じてワークフローを反復的に改良する自動フレームワークです。
6 つのベンチマーク データセットにわたる経験的評価により、AFlow の有効性が実証され、最先端のベースラインと比較して平均 5.7% の改善が得られました。
さらに、AFlow を使用すると、小規模なモデルがドル単位の推論コストの 4.55% で、特定のタスクにおいて GPT-4o を上回るパフォーマンスを実現できます。
コードは https://github.com/geekan/MetaGPT で入手できます。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable potential in solving complex tasks across diverse domains, typically by employing agentic workflows that follow detailed instructions and operational sequences. However, constructing these workflows requires significant human effort, limiting scalability and generalizability. Recent research has sought to automate the generation and optimization of these workflows, but existing methods still rely on initial manual setup and fall short of achieving fully automated and effective workflow generation. To address this challenge, we reformulate workflow optimization as a search problem over code-represented workflows, where LLM-invoking nodes are connected by edges. We introduce AFlow, an automated framework that efficiently explores this space using Monte Carlo Tree Search, iteratively refining workflows through code modification, tree-structured experience, and execution feedback. Empirical evaluations across six benchmark datasets demonstrate AFlow’s efficacy, yielding a 5.7% average improvement over state-of-the-art baselines. Furthermore, AFlow enables smaller models to outperform GPT-4o on specific tasks at 4.55% of its inference cost in dollars. The code will be available at https://github.com/geekan/MetaGPT.

arxiv情報

著者 Jiayi Zhang,Jinyu Xiang,Zhaoyang Yu,Fengwei Teng,Xionghui Chen,Jiaqi Chen,Mingchen Zhuge,Xin Cheng,Sirui Hong,Jinlin Wang,Bingnan Zheng,Bang Liu,Yuyu Luo,Chenglin Wu
発行日 2024-10-14 17:40:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | AFlow: Automating Agentic Workflow Generation はコメントを受け付けていません

Designing a Dashboard for Transparency and Control of Conversational AI

要約

会話型 LLM はブラック ボックス システムとして機能し、ユーザーはその出力がなぜ表示されるのか推測したままになります。
この透明性の欠如は、特に偏見と真実性に関する懸念を考慮すると、潜在的に問題となる可能性があります。
この問題に対処するために、チャットボットの透明性を高めることを目的とした、エンドツーエンドのプロトタイプ、つまりユーザー エクスペリエンス デザインと接続された解釈可能性テクニックを紹介します。
まず、著名なオープンソース LLM が「ユーザー モデル」を持っているという証拠を示すことから始めます。システムの内部状態を調べると、ユーザーの年齢、性別、教育レベル、社会経済的地位に関連するデータを抽出できます。
次に、このユーザー モデルをリアルタイムで表示する、チャットボット インターフェイスに付随するダッシュボードの設計について説明します。
ダッシュボードを使用して、ユーザー モデルとシステムの動作を制御することもできます。
最後に、ユーザーが計測システムと会話した研究について説明します。
私たちの結果は、ユーザーが内部状態を見ることを高く評価しており、それが偏った行動を明らかにし、コントロールの感覚を高めるのに役立つことを示唆しています。
参加者はまた、設計と機械学習の研究の両方の将来の方向性を示す貴重な提案を行いました。
TalkTuner システムのプロジェクト ページとビデオ デモは、https://bit.ly/talktuner-project-page から入手できます。

要約(オリジナル)

Conversational LLMs function as black box systems, leaving users guessing about why they see the output they do. This lack of transparency is potentially problematic, especially given concerns around bias and truthfulness. To address this issue, we present an end-to-end prototype-connecting interpretability techniques with user experience design-that seeks to make chatbots more transparent. We begin by showing evidence that a prominent open-source LLM has a ‘user model’: examining the internal state of the system, we can extract data related to a user’s age, gender, educational level, and socioeconomic status. Next, we describe the design of a dashboard that accompanies the chatbot interface, displaying this user model in real time. The dashboard can also be used to control the user model and the system’s behavior. Finally, we discuss a study in which users conversed with the instrumented system. Our results suggest that users appreciate seeing internal states, which helped them expose biased behavior and increased their sense of control. Participants also made valuable suggestions that point to future directions for both design and machine learning research. The project page and video demo of our TalkTuner system are available at https://bit.ly/talktuner-project-page

arxiv情報

著者 Yida Chen,Aoyu Wu,Trevor DePodesta,Catherine Yeh,Kenneth Li,Nicholas Castillo Marin,Oam Patel,Jan Riecke,Shivam Raval,Olivia Seow,Martin Wattenberg,Fernanda Viégas
発行日 2024-10-14 17:46:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | Designing a Dashboard for Transparency and Control of Conversational AI はコメントを受け付けていません