要約
シャノンは、情報理論を紹介する独創的な論文の中で、コミュニケーションを技術レベル、意味論、効率性の 3 つのレベルに分けました。
技術レベルは送信されたシンボルの正確な再構成に関係しますが、セマンティックおよび有効性レベルは推論された意味と受信機に対するその影響を扱います。
電気通信のおかげで、第 1 レベルの問題はインターネットと同様に大きな進歩をもたらしました。
大規模言語モデル (LLM) は 2 番目の目標に向けてある程度の進歩を遂げていますが、3 番目のレベルはまだほとんど手付かずのままです。
3 番目の問題は、望ましい受信者の動作を実現するための通信の予測と最適化を扱います。
LLM は、幅広いタスクにわたって広範な一般化機能を示しますが、これを解決することはできません。
パフォーマンスが低下する理由の 1 つは、LLM のトレーニング コーパスに「行動トークン」が不足していることである可能性があります。
動作トークンは、共有、いいね、クリック、購入、リツイートなど、通信上の受信者の動作を定義します。LLM トレーニング用のデータの前処理中に、動作トークンはノイズとしてコーパスから削除されることがよくあります。
したがって、このペーパーでは、LLM トレーニングへの動作トークンの再導入に向けて、いくつかの初期の進歩を行います。
トレーニングされたモデルは、コンテンツ理解タスクに関して LLM と同様のパフォーマンスを示す以外に、動作シミュレーション、コンテンツ シミュレーション、動作理解、および動作ドメイン適応に関して一般化機能を示します。
2 つのコーパスで幅広いタスクを使用して、これらすべての機能に関する結果を示します。
これらのモデルを大規模コンテンツおよび動作モデル (LCBM) と呼びます。
さらに、LCBM に関するさらなる研究を促進するために、コミュニケータ、メッセージ、および対応する受信者の動作を含むリポジトリである新しいコンテンツ動作コーパス (CBC) をリリースします。
要約(オリジナル)
Shannon, in his seminal paper introducing information theory, divided the communication into three levels: technical, semantic, and effectivenss. While the technical level is concerned with accurate reconstruction of transmitted symbols, the semantic and effectiveness levels deal with the inferred meaning and its effect on the receiver. Thanks to telecommunications, the first level problem has produced great advances like the internet. Large Language Models (LLMs) make some progress towards the second goal, but the third level still remains largely untouched. The third problem deals with predicting and optimizing communication for desired receiver behavior. LLMs, while showing wide generalization capabilities across a wide range of tasks, are unable to solve for this. One reason for the underperformance could be a lack of ‘behavior tokens’ in LLMs’ training corpora. Behavior tokens define receiver behavior over a communication, such as shares, likes, clicks, purchases, retweets, etc. While preprocessing data for LLM training, behavior tokens are often removed from the corpora as noise. Therefore, in this paper, we make some initial progress towards reintroducing behavior tokens in LLM training. The trained models, other than showing similar performance to LLMs on content understanding tasks, show generalization capabilities on behavior simulation, content simulation, behavior understanding, and behavior domain adaptation. Using a wide range of tasks on two corpora, we show results on all these capabilities. We call these models Large Content and Behavior Models (LCBMs). Further, to spur more research on LCBMs, we release our new Content Behavior Corpus (CBC), a repository containing communicator, message, and corresponding receiver behavior.
arxiv情報
著者 | Ashmit Khandelwal,Aditya Agrawal,Aanisha Bhattacharyya,Yaman K Singla,Somesh Singh,Uttaran Bhattacharya,Ishita Dasgupta,Stefano Petrangeli,Rajiv Ratn Shah,Changyou Chen,Balaji Krishnamurthy |
発行日 | 2023-09-08 16:18:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google