要約
私たちは、数値、カテゴリ、文字列、複合などのさまざまなプロパティ タイプで構成される構造化エンティティをモデル化するための生成的注意ベースのアプローチを開発します。
このアプローチでは、プロパティに対する連続と離散の混合拡散プロセスを通じて、このような異種データを処理します。
当社の柔軟なフレームワークは、任意の階層プロパティを持つエンティティをモデル化することができ、アプリケーションで構造化されたナレッジ ベース (KB) エンティティや表形式データを使用できるようにします。
私たちのアプローチでは、15 のデータセットにわたるほとんどのケースで最先端のパフォーマンスが得られます。
さらに、デバイス KB と核物理データセットを使用した実験では、さまざまな設定でエンティティの完成に役立つ表現を学習するモデルの能力を実証しています。
これには、高精度での数値特性のモデリングなど、多くの下流のユースケースがあります。これは科学アプリケーションにとって重要であり、モデル固有の確率的性質からも恩恵を受けます。
要約(オリジナル)
We develop a generative attention-based approach to modeling structured entities comprising different property types, such as numerical, categorical, string, and composite. This approach handles such heterogeneous data through a mixed continuous-discrete diffusion process over the properties. Our flexible framework can model entities with arbitrary hierarchical properties, enabling applications to structured Knowledge Base (KB) entities and tabular data. Our approach obtains state-of-the-art performance on a majority of cases across 15 datasets. In addition, experiments with a device KB and a nuclear physics dataset demonstrate the model’s ability to learn representations useful for entity completion in diverse settings. This has many downstream use cases, including modeling numerical properties with high accuracy – critical for science applications, which also benefit from the model’s inherent probabilistic nature.
arxiv情報
著者 | Ouail Kitouni,Niklas Nolte,James Hensman,Bhaskar Mitra |
発行日 | 2023-12-08 18:59:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google