MRCEval: A Comprehensive, Challenging and Accessible Machine Reading Comprehension Benchmark

要約

機械読解(MRC)は、自然言語の理解を評価する上で重要な作業です。
既存のMRCデータセットは、主に読解力(RC)の特定の側面を評価し、包括的なMRCベンチマークを欠いています。
このギャップを埋めるために、最初にRCに必要な重要な機能を分類する新しい分類法を紹介します。
この分類法に基づいて、MRCEVALは、高度な大手言語モデル(LLM)をサンプルジェネレーターと選択審査員の両方として活用するMRCベンチマークであると構築します。
MRCEVALは、LLMのRC機能を徹底的に評価するために設計された包括的な、挑戦的でアクセス可能なベンチマークであり、合計2.1Kの高品質のマルチ選択質問で13の異なるRCスキルをカバーしています。
広く使用されている28のオープンソースと独自のモデルの広範な評価を実行し、MRCがLLMSの時代でさえも重要な課題を提示し続けていることを強調しています。

要約(オリジナル)

Machine Reading Comprehension (MRC) is an essential task in evaluating natural language understanding. Existing MRC datasets primarily assess specific aspects of reading comprehension (RC), lacking a comprehensive MRC benchmark. To fill this gap, we first introduce a novel taxonomy that categorizes the key capabilities required for RC. Based on this taxonomy, we construct MRCEval, an MRC benchmark that leverages advanced Large Language Models (LLMs) as both sample generators and selection judges. MRCEval is a comprehensive, challenging and accessible benchmark designed to assess the RC capabilities of LLMs thoroughly, covering 13 distinct RC skills with a total of 2.1K high-quality multi-choice questions. We perform an extensive evaluation of 28 widely used open-source and proprietary models, highlighting that MRC continues to present significant challenges even in the era of LLMs.

arxiv情報

著者 Shengkun Ma,Hao Peng,Lei Hou,Juanzi Li
発行日 2025-03-10 10:20:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MRCEval: A Comprehensive, Challenging and Accessible Machine Reading Comprehension Benchmark はコメントを受け付けていません

Prompt Selection Matters: Enhancing Text Annotations for Social Sciences with Large Language Models

要約

最近、大規模な言語モデルは、社会科学からのテキスト注釈タスクに適用され、一部のコストで人間の労働者のパフォーマンスに匹敵するか、それを上回っています。
ただし、ラベル付けの精度に対する迅速な選択の影響については、まだ調査されていません。
この研究では、パフォーマンスがプロンプト間で大きく異なることを示し、自動プロンプト最適化の方法を適用して、高品質のプロンプトを体系的に作成することを示しています。
また、https://prompt-ultra.github.io/でメソッドのシンプルなブラウザベースの実装をコミュニティに提供します。

要約(オリジナル)

Large Language Models have recently been applied to text annotation tasks from social sciences, equalling or surpassing the performance of human workers at a fraction of the cost. However, no inquiry has yet been made on the impact of prompt selection on labelling accuracy. In this study, we show that performance greatly varies between prompts, and we apply the method of automatic prompt optimization to systematically craft high quality prompts. We also provide the community with a simple, browser-based implementation of the method at https://prompt-ultra.github.io/ .

arxiv情報

著者 Louis Abraham,Charles Arnal,Antoine Marie
発行日 2025-03-10 10:35:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | Prompt Selection Matters: Enhancing Text Annotations for Social Sciences with Large Language Models はコメントを受け付けていません

DeFine: A Decomposed and Fine-Grained Annotated Dataset for Long-form Article Generation

要約

ロングフォームの記事生成(LFAG)は、論理的な一貫性、包括的なトピックカバレッジ、および拡張記事全体の物語の一貫性を維持するなどの課題を提示します。
多くの場合、既存のデータセットには、タスクを効果的に分解するために必要な階層構造と微細に成長した注釈の両方が欠けていることが多く、その結果、浅く、組織化された記事生成が生じます。
これらの制限に対処するために、長い形式の記事生成のための分解された細かい注釈付きデータセットである定義を紹​​介します。
定義は、その階層分解戦略とドメイン固有の知識とマルチレベルの注釈との統合によって特徴付けられ、記事生成の粒状制御と深さの強化が保証されます。
データセットを構築するために、マルチエージェントコラボレーションパイプラインが提案されています。これは、生成プロセスを4つの部分に体系的にセグメント化します:データマイナー、Qute Retreiver、Q&Aアノテーター、およびデータクリーナー。
定義の有効性を検証するために、Web検索、ローカル検索、および接地された参照の3つのLFAGベースラインを設計およびテストしました。
定義トレーニングデータセットを使用して、QWEN2-7B-Instructモデルを微調整しました。
実験結果は、特にトピックのカバレッジ、情報の深さ、およびコンテンツの忠実度のテキスト品質の大幅な改善を示しました。
将来の研究を促進するために、私たちのデータセットが公開されています。

要約(オリジナル)

Long-form article generation (LFAG) presents challenges such as maintaining logical consistency, comprehensive topic coverage, and narrative coherence across extended articles. Existing datasets often lack both the hierarchical structure and fine-grained annotation needed to effectively decompose tasks, resulting in shallow, disorganized article generation. To address these limitations, we introduce DeFine, a Decomposed and Fine-grained annotated dataset for long-form article generation. DeFine is characterized by its hierarchical decomposition strategy and the integration of domain-specific knowledge with multi-level annotations, ensuring granular control and enhanced depth in article generation. To construct the dataset, a multi-agent collaborative pipeline is proposed, which systematically segments the generation process into four parts: Data Miner, Cite Retreiver, Q&A Annotator and Data Cleaner. To validate the effectiveness of DeFine, we designed and tested three LFAG baselines: the web retrieval, the local retrieval, and the grounded reference. We fine-tuned the Qwen2-7b-Instruct model using the DeFine training dataset. The experimental results showed significant improvements in text quality, specifically in topic coverage, depth of information, and content fidelity. Our dataset publicly available to facilitate future research.

arxiv情報

著者 Ming Wang,Fang Wang,Minghao Hu,Li He,Haiyang Wang,Jun Zhang,Tianwei Yan,Li Li,Zhunchen Luo,Wei Luo,Xiaoying Bai,Guotong Geng
発行日 2025-03-10 10:48:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DeFine: A Decomposed and Fine-Grained Annotated Dataset for Long-form Article Generation はコメントを受け付けていません

Presumed Cultural Identity: How Names Shape LLM Responses

要約

名前は人間のアイデンティティに深く結びついています。
それらは、個性、文化遺産、個人的な歴史のマーカーとして機能することができます。
ただし、アイデンティティのコアインジケーターとして名前を使用すると、複雑なアイデンティティが過度に単純化される可能性があります。
LLMと対話する場合、ユーザー名はパーソナライズの重要な情報ポイントです。
名前は、CVレビューなどのタスクコンテキストの一部として、またはパーソナライズのためにユーザー情報を保存する組み込みメモリ機能として、直接ユーザー入力(チャットボットによる要求)を介してチャットボットの会話を入力できます。
一般的な提案を求めるクエリが提示された場合、LLMSによって生成された応答で文化的推定を測定することにより、名前に関連するバイアスを研究します。
私たちの分析は、複数の文化にわたってLLM世代に存在する名前に関連する文化的アイデンティティに関する強い仮定を示しています。
私たちの仕事は、意味のあるカスタマイズを維持しながらステレオタイプの強化を避ける、より微妙なパーソナライゼーションシステムを設計することに影響を与えます。

要約(オリジナル)

Names are deeply tied to human identity. They can serve as markers of individuality, cultural heritage, and personal history. However, using names as a core indicator of identity can lead to over-simplification of complex identities. When interacting with LLMs, user names are an important point of information for personalisation. Names can enter chatbot conversations through direct user input (requested by chatbots), as part of task contexts such as CV reviews, or as built-in memory features that store user information for personalisation. We study biases associated with names by measuring cultural presumptions in the responses generated by LLMs when presented with common suggestion-seeking queries, which might involve making assumptions about the user. Our analyses demonstrate strong assumptions about cultural identity associated with names present in LLM generations across multiple cultures. Our work has implications for designing more nuanced personalisation systems that avoid reinforcing stereotypes while maintaining meaningful customisation.

arxiv情報

著者 Siddhesh Pawar,Arnav Arora,Lucie-Aimée Kaffee,Isabelle Augenstein
発行日 2025-03-10 10:48:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 | Presumed Cultural Identity: How Names Shape LLM Responses はコメントを受け付けていません

Strategies for political-statement segmentation and labelling in unstructured text

要約

議会のスピーチと政治パーティマニフェストの分析は、政治的テキストの計算研究の不可欠な分野になりました。
スピーチは監視されていない方法を使用して圧倒的に分析されていますが、Marpor Projectの参加者によって条件別の政治的スタンスラベルを持つマニフェストの大きなコーパスが作成されました。
これらのラベルはニューラルモデルによって予測できることが最近示されました。
ただし、現在のアプローチは、提供されたステートメントの境界に依存しており、ドメイン外の適用性を制限しています。
この作業では、線形鎖CRF、微調整されたテキストモデル、および制約付きデコードとのコンテキスト内学習の組み合わせに基づいて、一連の統合されたスプリットアンドラベルフレームワークを提案およびテストします。
私たちのアプローチは、政治的マニフェストの生のテキストに適用されると競争の正確さを達成し、それを英国下院の記録に適用し、過去30年間に4つの主要政党の政治的軌跡をたどることにより、私たちの方法の研究の可能性を実証することを示します。

要約(オリジナル)

Analysis of parliamentary speeches and political-party manifestos has become an integral area of computational study of political texts. While speeches have been overwhelmingly analysed using unsupervised methods, a large corpus of manifestos with by-statement political-stance labels has been created by the participants of the MARPOR project. It has been recently shown that these labels can be predicted by a neural model; however, the current approach relies on provided statement boundaries, limiting out-of-domain applicability. In this work, we propose and test a range of unified split-and-label frameworks — based on linear-chain CRFs, fine-tuned text-to-text models, and the combination of in-context learning with constrained decoding — that can be used to jointly segment and classify statements from raw textual data. We show that our approaches achieve competitive accuracy when applied to raw text of political manifestos, and then demonstrate the research potential of our method by applying it to the records of the UK House of Commons and tracing the political trajectories of four major parties in the last three decades.

arxiv情報

著者 Dmitry Nikolaev,Sean Papay
発行日 2025-03-10 10:56:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Strategies for political-statement segmentation and labelling in unstructured text はコメントを受け付けていません

Multi-Modal 3D Mesh Reconstruction from Images and Text

要約

目に見えないオブジェクトの6Dオブジェクトのポーズ推定は、ロボット工学では不可欠ですが、伝統的には、大きなデータセット、高い計算コスト、および一般化に苦労するトレーニングモデルに依存しています。
ゼロショットアプローチは、トレーニングの必要性を排除しますが、既存の3Dオブジェクトモデルに依存します。
これに対処するために、言語誘導の少数のショット3D再構成方法を提案し、いくつかの入力画像から3Dメッシュを再構築します。
提案されたパイプラインでは、入力画像のセットと言語クエリを受信します。
GroundingDinoとセグメントの組み合わせは、モデル出力セグメント化されたマスクを出力し、そこからスパースポイントクラウドがVGGSFMで再構築されます。
その後、メッシュはガウススプラッティングメソッドシュガーで再構築されます。
最終的なクリーニングステップでは、アーティファクトが削除され、クエリオブジェクトの最終的な3Dメッシュになります。
ジオメトリとテクスチャの精度と品質の観点から、この方法を評価します。
さらに、3Dオブジェクトの再構築品質、効率、計算スケーラビリティに視聴角度、入力画像の数、画像のオーバーラップなどのイメージング条件の影響を研究します。

要約(オリジナル)

6D object pose estimation for unseen objects is essential in robotics but traditionally relies on trained models that require large datasets, high computational costs, and struggle to generalize. Zero-shot approaches eliminate the need for training but depend on pre-existing 3D object models, which are often impractical to obtain. To address this, we propose a language-guided few-shot 3D reconstruction method, reconstructing a 3D mesh from few input images. In the proposed pipeline, receives a set of input images and a language query. A combination of GroundingDINO and Segment Anything Model outputs segmented masks from which a sparse point cloud is reconstructed with VGGSfM. Subsequently, the mesh is reconstructed with the Gaussian Splatting method SuGAR. In a final cleaning step, artifacts are removed, resulting in the final 3D mesh of the queried object. We evaluate the method in terms of accuracy and quality of the geometry and texture. Furthermore, we study the impact of imaging conditions such as viewing angle, number of input images, and image overlap on 3D object reconstruction quality, efficiency, and computational scalability.

arxiv情報

著者 Melvin Reka,Tessa Pulli,Markus Vincze
発行日 2025-03-10 11:18:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Multi-Modal 3D Mesh Reconstruction from Images and Text はコメントを受け付けていません

Contextual Cues in Machine Translation: Investigating the Potential of Multi-Source Input Strategies in LLMs and NMT Systems

要約

マルチソースの入力戦略が機械翻訳(MT)品質に与える影響を調査し、GPT-4O(LLM)であるGPT-4Oを比較し、従来の多言語ニューラル機械翻訳(NMT)システムと比較します。
文脈的な手がかりとして中間言語翻訳を使用して、ポルトガル語への英語と中国の翻訳を強化する際の有効性を評価します。
結果は、コンテキスト情報がドメイン固有のデータセットの翻訳品質を大幅に向上させ、言語的に遠い言語ペアの潜在的に潜在的に改善し、高い言語の変動性を持つベンチマークで見られるリターンが減少することを示唆しています。
さらに、NMTシステム内で適用するマルチソースアプローチである浅い融合は、高リソース言語を他の翻訳ペアのコンテキストとして使用すると、戦略的コンテキスト言語選択の重要性を強調する場合、改善された結果を示すことを実証します。

要約(オリジナル)

We explore the impact of multi-source input strategies on machine translation (MT) quality, comparing GPT-4o, a large language model (LLM), with a traditional multilingual neural machine translation (NMT) system. Using intermediate language translations as contextual cues, we evaluate their effectiveness in enhancing English and Chinese translations into Portuguese. Results suggest that contextual information significantly improves translation quality for domain-specific datasets and potentially for linguistically distant language pairs, with diminishing returns observed in benchmarks with high linguistic variability. Additionally, we demonstrate that shallow fusion, a multi-source approach we apply within the NMT system, shows improved results when using high-resource languages as context for other translation pairs, highlighting the importance of strategic context language selection.

arxiv情報

著者 Lia Shahnazaryan,Patrick Simianer,Joern Wuebker
発行日 2025-03-10 11:23:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Contextual Cues in Machine Translation: Investigating the Potential of Multi-Source Input Strategies in LLMs and NMT Systems はコメントを受け付けていません

MetaphorShare: A Dynamic Collaborative Repository of Open Metaphor Datasets

要約

メタファー研究コミュニティは、長年にわたってさまざまな言語で多数の貴重なラベル付けされたコーパスを開発してきました。
これらのリソースの多くは、NLPコミュニティには知られていないだけでなく、研究者の間で簡単に共有されないことがよくあります。
人間科学とNLPの両方で、研究者は、同一の形式で簡単にアクセスでき、統一されたラベル付きリソースの集中データベースから利益を得ることができました。
これを容易にするために、メタファーデータセットを統合するウェブサイトであるMetaphorshareを提示して、それらを開いてアクセスできるようにします。
この努力により、私たちの目的は、研究者がメタファー研究と将来の比phor処理NLPシステムの開発を促進するために、あらゆる言語でより多くのデータセットを共有してアップロードすることを奨励することです。
ウェブサイトには、メタファーデータセットのアップロード、ダウンロード、検索、ラベルの4つの主要な機能があります。
www.metaphorshare.comでアクセスできます。

要約(オリジナル)

The metaphor studies community has developed numerous valuable labelled corpora in various languages over the years. Many of these resources are not only unknown to the NLP community, but are also often not easily shared among the researchers. Both in human sciences and in NLP, researchers could benefit from a centralised database of labelled resources, easily accessible and unified under an identical format. To facilitate this, we present MetaphorShare, a website to integrate metaphor datasets making them open and accessible. With this effort, our aim is to encourage researchers to share and upload more datasets in any language in order to facilitate metaphor studies and the development of future metaphor processing NLP systems. The website has four main functionalities: upload, download, search and label metaphor datasets. It is accessible at www.metaphorshare.com.

arxiv情報

著者 Joanne Boisson,Arif Mehmood,Jose Camacho-Collados
発行日 2025-03-10 12:09:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MetaphorShare: A Dynamic Collaborative Repository of Open Metaphor Datasets はコメントを受け付けていません

BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages

要約

世界中の人々は、感情を表現するために微妙で複雑な方法で言語を使用しています。
感情認識 – いくつかのNLPタスクの傘の用語 – は、NLPや他の分野のさまざまなアプリケーションに大きな影響を与えますが、この地域でのほとんどの作業は高リソース言語に焦点を当てています。
したがって、これにより、特に高品質のデータセットの不足に悩まされている低リソース言語の研究と提案されたソリューションの大きな格差が生じています。
このホワイトペーパーでは、28の異なる言語での多面的な感情発音のデータセットのコレクションであるBrightを紹介します。
Brightは、アフリカ、アジア、東ヨーロッパ、ラテンアメリカの主に低リソース言語をカバーしており、流fluentスピーカーが注釈が付けられたさまざまなドメインの事例をカバーしています。
データ収集と注釈プロセス、およびこれらのデータセットを構築することの課題について説明します。
次に、単一言語および横断的多面的な感情の識別、および強度レベルの感情認識のためのさまざまな実験結果を報告します。
LLMSを使用した場合とせずに結果を調査し、言語とテキストドメイン間のパフォーマンスの大きなばらつきを分析します。
明るいデータセットが、テキストベースの感情認識のギャップを埋め、その影響と有用性について議論するための一歩であることを示します。

要約(オリジナル)

People worldwide use language in subtle and complex ways to express emotions. While emotion recognition — an umbrella term for several NLP tasks — significantly impacts different applications in NLP and other fields, most work in the area is focused on high-resource languages. Therefore, this has led to major disparities in research and proposed solutions, especially for low-resource languages that suffer from the lack of high-quality datasets. In this paper, we present BRIGHTER — a collection of multilabeled emotion-annotated datasets in 28 different languages. BRIGHTER covers predominantly low-resource languages from Africa, Asia, Eastern Europe, and Latin America, with instances from various domains annotated by fluent speakers. We describe the data collection and annotation processes and the challenges of building these datasets. Then, we report different experimental results for monolingual and crosslingual multi-label emotion identification, as well as intensity-level emotion recognition. We investigate results with and without using LLMs and analyse the large variability in performance across languages and text domains. We show that BRIGHTER datasets are a step towards bridging the gap in text-based emotion recognition and discuss their impact and utility.

arxiv情報

著者 Shamsuddeen Hassan Muhammad,Nedjma Ousidhoum,Idris Abdulmumin,Jan Philip Wahle,Terry Ruas,Meriem Beloucif,Christine de Kock,Nirmal Surange,Daniela Teodorescu,Ibrahim Said Ahmad,David Ifeoluwa Adelani,Alham Fikri Aji,Felermino D. M. A. Ali,Ilseyar Alimova,Vladimir Araujo,Nikolay Babakov,Naomi Baes,Ana-Maria Bucur,Andiswa Bukula,Guanqun Cao,Rodrigo Tufino Cardenas,Rendi Chevi,Chiamaka Ijeoma Chukwuneke,Alexandra Ciobotaru,Daryna Dementieva,Murja Sani Gadanya,Robert Geislinger,Bela Gipp,Oumaima Hourrane,Oana Ignat,Falalu Ibrahim Lawan,Rooweither Mabuya,Rahmad Mahendra,Vukosi Marivate,Andrew Piper,Alexander Panchenko,Charles Henrique Porto Ferreira,Vitaly Protasov,Samuel Rutunda,Manish Shrivastava,Aura Cristina Udrea,Lilian Diana Awuor Wanzare,Sophie Wu,Florian Valentin Wunderlich,Hanif Muhammad Zhafran,Tianhui Zhang,Yi Zhou,Saif M. Mohammad
発行日 2025-03-10 12:20:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages はコメントを受け付けていません

Fact Recall, Heuristics or Pure Guesswork? Precise Interpretations of Language Models for Fact Completion

要約

言語モデル(LMS)は、事実の関連性のリコールに対応するものではなく、プロンプト内の多くの可能な信号に基づいて正しい予測を行うことができます。
ただし、LMSの現在の解釈はこれを考慮していません。
たとえば、「Astrid Lindgrenが「スウェーデン」と「スウェーデン」という対応する完了で生まれたクエリを考えると、著者が生まれた場所を知るか、スウェーデンの名前の名前を持つ人がスウェーデンで生まれたと仮定したことに基づいて、予測は違いはありません。
このホワイトペーパーでは、モデル固有のレシピ – プリズム – 4つの異なる予測シナリオの例を使用してデータセットを構築するための概要を示します:一般的な言語モデリング、推測、ヒューリスティックリコール、正確な事実のリコール。
2つの一般的な解釈可能性方法をシナリオに適用します:因果追跡(CT)と情報フロー分析。
どちらも、各シナリオで明確な結果をもたらすことがわかります。
正確な事実のリコールと一般的な言語モデリングシナリオの結果は、事実リコールのためのミッドレンジMLPサブレイヤーの重要性に関する以前の結論を確認し、一方、推測とヒューリスティックの結果は、最後のトークンポジションMLPサブレイヤーの重要な役割を示しています。
要約すると、LMSでの事実完了に関するより広範で詳細な研究のためのリソースを提供し、LMSが事実関連のクエリをどのように処理するかをより微妙な理解を提供する分析を提供します。

要約(オリジナル)

Language models (LMs) can make a correct prediction based on many possible signals in a prompt, not all corresponding to recall of factual associations. However, current interpretations of LMs fail to take this into account. For example, given the query ‘Astrid Lindgren was born in’ with the corresponding completion ‘Sweden’, no difference is made between whether the prediction was based on knowing where the author was born or assuming that a person with a Swedish-sounding name was born in Sweden. In this paper, we present a model-specific recipe – PrISM – for constructing datasets with examples of four different prediction scenarios: generic language modeling, guesswork, heuristics recall and exact fact recall. We apply two popular interpretability methods to the scenarios: causal tracing (CT) and information flow analysis. We find that both yield distinct results for each scenario. Results for exact fact recall and generic language modeling scenarios confirm previous conclusions about the importance of mid-range MLP sublayers for fact recall, while results for guesswork and heuristics indicate a critical role of late last token position MLP sublayers. In summary, we contribute resources for a more extensive and granular study of fact completion in LMs, together with analyses that provide a more nuanced understanding of how LMs process fact-related queries.

arxiv情報

著者 Denitsa Saynova,Lovisa Hagström,Moa Johansson,Richard Johansson,Marco Kuhlmann
発行日 2025-03-10 12:47:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Fact Recall, Heuristics or Pure Guesswork? Precise Interpretations of Language Models for Fact Completion はコメントを受け付けていません