Extracting Cultural Commonsense Knowledge at Scale

要約

タイトル:大規模で文化的な常識知識を抽出する方法

要約:
– AIアプリケーションにとって、構造化された知識は重要である
– 不変な人間中心の強いAIには、文化的な常識知識が重要であるが、現状はそのような知識プロジェクトがごくわずかしか存在しない
– この論文では、CANDLEと呼ばれる方法論を提案し、人文学的AIにとって重要な知識である高品質の文化的常識知識(CCSK)を大規模に抽出する方法を紹介している
– CANDLEは、広大なウェブコーパスからCCSKの主張を抽出し、地理、宗教、職業の3つの分野と、食べ物、飲み物、衣服、伝統、儀式、行動などの複数の文化的側面について、それらを整理し、可能な有意義性をフィルタリングとスコアリングを含む慎重な技術によって判断する
– 実験評価により、CANDLE CCSKコレクションは従来の作品よりも優れていることが示され、外部の利用例では、GPT-3言語モデルにCCSKを適用することの利点が示されている
– コードとデータはhttps://candle.mpi-inf.mpg.de/でアクセスできる。

要約(オリジナル)

Structured knowledge is important for many AI applications. Commonsense knowledge, which is crucial for robust human-centric AI, is covered by a small number of structured knowledge projects. However, they lack knowledge about human traits and behaviors conditioned on socio-cultural contexts, which is crucial for situative AI. This paper presents CANDLE, an end-to-end methodology for extracting high-quality cultural commonsense knowledge (CCSK) at scale. CANDLE extracts CCSK assertions from a huge web corpus and organizes them into coherent clusters, for 3 domains of subjects (geography, religion, occupation) and several cultural facets (food, drinks, clothing, traditions, rituals, behaviors). CANDLE includes judicious techniques for classification-based filtering and scoring of interestingness. Experimental evaluations show the superiority of the CANDLE CCSK collection over prior works, and an extrinsic use case demonstrates the benefits of CCSK for the GPT-3 language model. Code and data can be accessed at https://candle.mpi-inf.mpg.de/.

arxiv情報

著者 Tuan-Phong Nguyen,Simon Razniewski,Aparna Varde,Gerhard Weikum
発行日 2023-05-10 12:35:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク