MASSIVE Multilingual Abstract Meaning Representation: A Dataset and Baselines for Hallucination Detection

要約

抽象意味表現 (AMR) は、発話の中核的な意味を捉える意味論的形式主義です。
AMR コーパスを英語で、そして最近ではさまざまな言語で開発するための実質的な作業が行われてきましたが、既存のデータセットのサイズが限られており、より多くのアノテーションを収集するコストが法外に高くなります。
工学と科学の両方の疑問を念頭に置き、84,000 を超えるテキストからグラフへの注釈を含むデータセットである MASSIVE-AMR を紹介します。これは現在、この種の中で最大かつ最も多様です。1,685 の情報を求める発話の AMR グラフが 50 以上にマッピングされています。
類型的に多様な言語。
多言語 AMR および SPARQL 解析のための大規模な言語モデルを使用した実験と、ナレッジ ベースの質問応答のコンテキストで幻覚検出に AMR を適用した実験について報告する前に、リソースとその独自の機能をどのように構築したかについて説明します。
構造化解析のための LLM。

要約(オリジナル)

Abstract Meaning Representation (AMR) is a semantic formalism that captures the core meaning of an utterance. There has been substantial work developing AMR corpora in English and more recently across languages, though the limited size of existing datasets and the cost of collecting more annotations are prohibitive. With both engineering and scientific questions in mind, we introduce MASSIVE-AMR, a dataset with more than 84,000 text-to-graph annotations, currently the largest and most diverse of its kind: AMR graphs for 1,685 information-seeking utterances mapped to 50+ typologically diverse languages. We describe how we built our resource and its unique features before reporting on experiments using large language models for multilingual AMR and SPARQL parsing as well as applying AMRs for hallucination detection in the context of knowledge base question answering, with results shedding light on persistent issues using LLMs for structured parsing.

arxiv情報

著者 Michael Regan,Shira Wein,George Baker,Emilio Monti
発行日 2024-05-29 17:17:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク