要約
私たちは、文献全体にわたる緊急通信システムのオープンソース実装から生成されたコーパスのコレクションである Emergent Language Corpus Collection (ELCC) を紹介します。
これらのシステムには、さまざまなシグナリング ゲーム環境だけでなく、社会的推理ゲームや身体的ナビゲーションなどのより複雑な環境も含まれます。
各コーパスには、ソース システムの特性とコーパスの一連の分析 (サイズ、エントロピー、平均メッセージ長、転送学習データとしてのパフォーマンスなど) を記述するメタデータの注釈が付けられます。
現在、新興言語を研究する研究では、さまざまなシステムを直接実行する必要があるため、そのような言語の実際の分析に時間がかかり、多様な新興言語を比較する研究はまれであり、深層学習の背景がない研究者にとっては参入障壁となっています。
したがって、十分に文書化された創発言語コーパスの実質的なコレクションが利用可能になると、より広範囲の創発言語を分析できる研究が可能になり、特定の環境の成果物ではなく、創発コミュニケーションの一般原則をより効果的に明らかにできるようになります。
この分野でのリソースの潜在的なユースケースを実証するために、ELCC を使用した定量的分析と定性的分析をいくつか提供します。
要約(オリジナル)
We introduce the Emergent Language Corpus Collection (ELCC): a collection of corpora generated from open source implementations of emergent communication systems across the literature. These systems include a variety of signalling game environments as well as more complex environments like a social deduction game and embodied navigation. Each corpus is annotated with metadata describing the characteristics of the source system as well as a suite of analyses of the corpus (e.g., size, entropy, average message length, performance as transfer learning data). Currently, research studying emergent languages requires directly running different systems which takes time away from actual analyses of such languages, makes studies which compare diverse emergent languages rare, and presents a barrier to entry for researchers without a background in deep learning. The availability of a substantial collection of well-documented emergent language corpora, then, will enable research which can analyze a wider variety of emergent languages, which more effectively uncovers general principles in emergent communication rather than artifacts of particular environments. We provide some quantitative and qualitative analyses with ELCC to demonstrate potential use cases of the resource in this vein.
arxiv情報
著者 | Brendon Boldt,David Mortensen |
発行日 | 2024-12-04 15:23:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google