Chatterbox: Robust Transport for LLM Token Streaming under Unstable Network

要約

生成された各トークンをリアルタイムでレンダリングするために、LLM サーバーは応答トークンを 1 つずつ生成し、生成された各トークン (またはいくつかのトークンのグループ) を生成直後にネットワーク経由でユーザーにストリーミングします。これを LLM トークンと呼びます。
ストリーミング。
ただし、ネットワークが不安定な状況では、たとえ時間通りに到着したとしても、1 つのパケット損失により後続のパケットに含まれるトークンのレンダリングがブロックされる可能性があるため、LLM トークン ストリーミング エクスペリエンスはストールによって大きな影響を受ける可能性があります。
実際の測定研究により、ChatGPT、Claude、Bard を含む現在のアプリケーションはすべて、不安定なネットワークの下でストールの増加に悩まされることがわかりました。
LLM チャットボットにおけるこの新たなトークン ストリーミング問題に対して、私たちは Chatterbox と呼ばれる新しいトランスポート層スキームを提案します。これは、新しく生成されたトークンと現在確認されていないトークンを次の発信パケットに含めます。
これにより、各パケットにいくつかの新しいトークンが含まれ、受信時に個別にレンダリングできるようになり、パケットの欠落によって引き起こされる前述の停止が回避されます。
さまざまなネットワーク条件下でのシミュレーションを通じて、Chatterbox が実際のチャットボット アプリケーションで一般的に使用されるトークン ストリーミング方式と比較してストール率 (トークン レンダリング待機時間の割合) を 71.0%、カスタム パケット複製スキームと比較して 31.6% 削減することを示しました。
LLM のトークンごとの生成に合わせて Chatterbox を調整することで、チャットボットが雄弁なスピーカーのように応答して、ユーザーが普及型 AI をより快適に楽しめるようになります。

要約(オリジナル)

To render each generated token in real time, the LLM server generates response tokens one by one and streams each generated token (or group of a few tokens) through the network to the user right after it is generated, which we refer to as LLM token streaming. However, under unstable network conditions, the LLM token streaming experience could suffer greatly from stalls since one packet loss could block the rendering of tokens contained in subsequent packets even if they arrive on time. With a real-world measurement study, we show that current applications including ChatGPT, Claude, and Bard all suffer from increased stall under unstable network. For this emerging token streaming problem in LLM Chatbots, we propose a novel transport layer scheme, called Chatterbox, which puts new generated tokens as well as currently unacknowledged tokens in the next outgoing packet. This ensures that each packet contains some new tokens and can be independently rendered when received, thus avoiding aforementioned stalls caused by missing packets. Through simulation under various network conditions, we show Chatterbox reduces stall ratio (proportion of token rendering wait time) by 71.0% compared to the token streaming method commonly used by real chatbot applications and by 31.6% compared to a custom packet duplication scheme. By tailoring Chatterbox to fit the token-by-token generation of LLM, we enable the Chatbots to respond like an eloquent speaker for users to better enjoy pervasive AI.

arxiv情報

著者 Hanchen Li,Yuhan Liu,Yihua Cheng,Siddhant Ray,Kuntai Du,Junchen Jiang
発行日 2024-01-23 18:45:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NI パーマリンク