Machine Unlearning in Hyperbolic vs. Euclidean Multimodal Contrastive Learning: Adapting Alignment Calibration to MERU

要約

大規模な事前訓練モデルでの選択的な概念除去にとって、マシンの未学習方法はますます重要になっています。
ユークリッドのコントラスト型ビジョン言語モデルでは、最近の研究が調査されていますが、双曲線空間での概念除去の有効性は未開拓のままです。
このホワイトペーパーでは、セマンティック階層をより適切にキャプチャするために双曲線空間に画像とテキストを埋め込むモデルであるMeruにアラインメントキャリブレーションを適応させることにより、双曲線対照学習の機械を調査しています。
体系的な実験とアブレーション研究を通じて、双曲線形状は概念除去の明確な利点を提供し、特に複数の概念除去にスケーリングする場合、保持された概念の合理的なパフォーマンスでほぼ完全な忘却を達成することを実証します。
私たちのアプローチでは、双曲線空間のユニークな特性を活用する濃度のキャリブレーションと規範の正則化を含む双曲線固有のコンポーネントを導入します。
ユークリッドモデルとの比較分析は、生み出されていないダイナミクスの根本的な違いを明らかにし、双曲線の解除はセマンティック階層を再編成する一方で、ユークリッドアプローチは単にクロスモーダル関連を切断します。
これらの調査結果は、マシンの学習技術を進めるだけでなく、マルチモーダルモデルの概念表現と除去に影響を与える幾何学的特性に関する洞察を提供します。
https://github.com/alex-pv01/hacで入手可能なソースコード

要約(オリジナル)

Machine unlearning methods have become increasingly important for selective concept removal in large pre-trained models. While recent work has explored unlearning in Euclidean contrastive vision-language models, the effectiveness of concept removal in hyperbolic spaces remains unexplored. This paper investigates machine unlearning in hyperbolic contrastive learning by adapting Alignment Calibration to MERU, a model that embeds images and text in hyperbolic space to better capture semantic hierarchies. Through systematic experiments and ablation studies, we demonstrate that hyperbolic geometry offers distinct advantages for concept removal, achieving near perfect forgetting with reasonable performance on retained concepts, particularly when scaling to multiple concept removal. Our approach introduces hyperbolic-specific components including entailment calibration and norm regularization that leverage the unique properties of hyperbolic space. Comparative analysis with Euclidean models reveals fundamental differences in unlearning dynamics, with hyperbolic unlearning reorganizing the semantic hierarchy while Euclidean approaches merely disconnect cross-modal associations. These findings not only advance machine unlearning techniques but also provide insights into the geometric properties that influence concept representation and removal in multimodal models. Source code available at https://github.com/alex-pv01/HAC

arxiv情報

著者 Àlex Pujol Vidal,Sergio Escalera,Kamal Nasrollahi,Thomas B. Moeslund
発行日 2025-03-19 12:47:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Machine Unlearning in Hyperbolic vs. Euclidean Multimodal Contrastive Learning: Adapting Alignment Calibration to MERU はコメントを受け付けていません

Comparing Llama3 and DeepSeekR1 on Biomedical Text Classification Tasks

要約

この研究では、2つのオープンソースの大型言語モデル(LLMS)-llama3-70bおよびdeepseekr1-distill-llama3-70b-on 6生物医学テキスト分類タスクのパフォーマンスを比較します。
4つのタスクにはソーシャルメディアからのデータが含まれ、2つのタスクは電子健康記録からの臨床ノートに焦点を当てており、すべての実験はゼロショット設定で実行されました。
精度、リコール、F1スコアを含むパフォーマンスメトリックは、95%の信頼区間とともに、各タスクについて測定されました。
結果は、Deepseekr1-Distill-llama3-70bが一般に、ほとんどのタスクでの精度の点でより良いパフォーマンスを発揮し、リコールの結果がさまざまであることを実証しました。
ゼロショットLLMSは一部のタスクで高いF1スコアを示しましたが、両方のソースからのデータについて、他のタスクではひどくパフォーマンスが低下しました。
調査結果は、特に精度とリコールのトレードオフを考慮する場合、健康関連のテキスト分類タスクの特定の要件によってモデル選択が導かれるべきであり、注釈付きデータが存在する場合、監視された分類アプローチはゼロショットLLMよりも信頼できる場合があることを示唆しています。

要約(オリジナル)

This study compares the performance of two open-source large language models (LLMs)-Llama3-70B and DeepSeekR1-distill-Llama3-70B-on six biomedical text classification tasks. Four tasks involve data from social media, while two tasks focus on clinical notes from electronic health records, and all experiments were performed in zero-shot settings. Performance metrics, including precision, recall, and F1 scores, were measured for each task, along with their 95% confidence intervals. Results demonstrated that DeepSeekR1-distill-Llama3-70B generally performs better in terms of precision on most tasks, with mixed results on recall. While the zero-shot LLMs demonstrated high F1 scores for some tasks, they grossly underperformed on others, for data from both sources. The findings suggest that model selection should be guided by the specific requirements of the health-related text classification tasks, particularly when considering the precision-recall trade-offs, and that, in the presence of annotated data, supervised classification approaches may be more reliable than zero-shot LLMs.

arxiv情報

著者 Yuting Guo,Abeed Sarker
発行日 2025-03-19 12:51:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Comparing Llama3 and DeepSeekR1 on Biomedical Text Classification Tasks はコメントを受け付けていません

A Review on Large Language Models for Visual Analytics

要約

このペーパーでは、大規模な言語モデル(LLM)と視覚分析、基礎概念、能力、幅広いアプリケーションに対処するための統合の包括的なレビューを提供します。
それは、視覚分析の理論的基盤とLLMSの変革の可能性を概説することから始まり、特に自然言語の理解、自然言語生成、対話システム、およびテキスト間の変換における役割に焦点を当てています。
このレビューでは、LLMSと視覚分析の相乗効果が、データ解釈、視覚化技術、およびインタラクティブな探索機能をどのように強化するかをさらに調査します。
Lida、Chat2vis、Julius AI、Zoho Analyticsなどの主要なツールとプラットフォーム、およびChartllamaやCharxivなどの特殊なマルチモーダルモデルが批判的に評価されています。
このペーパーでは、データの探索、視覚化の強化、自動レポート、洞察抽出をサポートする際の機能、強み、および制限について説明します。
自然言語理解(NLU)、自然言語生成(NLG)から対話システム、テキスト間変換に至るまで、LLMタスクの分類法が体系的に調査されています。
このレビューは、視覚分析と大規模な言語モデル(LLM)を統合すること、アクセシビリティや柔軟性などの強み、計算需要やバイアスなどの弱点、マルチモーダル統合やユーザーコラボレーションの機会、プライバシーの懸念やスキルの悪化などの脅威を強調するSWOT分析を提供します。
効果的な統合のための倫理的な考慮事項と方法論の改善に取り組むことを強調しています。

要約(オリジナル)

This paper provides a comprehensive review of the integration of Large Language Models (LLMs) with visual analytics, addressing their foundational concepts, capabilities, and wide-ranging applications. It begins by outlining the theoretical underpinnings of visual analytics and the transformative potential of LLMs, specifically focusing on their roles in natural language understanding, natural language generation, dialogue systems, and text-to-media transformations. The review further investigates how the synergy between LLMs and visual analytics enhances data interpretation, visualization techniques, and interactive exploration capabilities. Key tools and platforms including LIDA, Chat2VIS, Julius AI, and Zoho Analytics, along with specialized multimodal models such as ChartLlama and CharXIV, are critically evaluated. The paper discusses their functionalities, strengths, and limitations in supporting data exploration, visualization enhancement, automated reporting, and insight extraction. The taxonomy of LLM tasks, ranging from natural language understanding (NLU), natural language generation (NLG), to dialogue systems and text-to-media transformations, is systematically explored. This review provides a SWOT analysis of integrating Large Language Models (LLMs) with visual analytics, highlighting strengths like accessibility and flexibility, weaknesses such as computational demands and biases, opportunities in multimodal integration and user collaboration, and threats including privacy concerns and skill degradation. It emphasizes addressing ethical considerations and methodological improvements for effective integration.

arxiv情報

著者 Navya Sonal Agarwal,Sanjay Kumar Sonbhadra
発行日 2025-03-19 13:02:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.HC | A Review on Large Language Models for Visual Analytics はコメントを受け付けていません

DAHRS: Divergence-Aware Hallucination-Remediated SRL Projection

要約

セマンティックロールラベル(SRL)は、多くの下流のアプリケーション、たとえば機械翻訳、質問応答、要約、およびスタンス/信念の検出を豊かにします。
ただし、多言語のSRLモデルの構築は、複数の言語で意味的に注釈されたコーパスが不足しているため、困難です。
さらに、大規模な言語モデル(LLMS)に基づく最先端のSRL投影(XSRL)は、偽の役割ラベルに悩まされている出力を生成します。
このような幻覚の修復は、LLMの説明可能性がないため、簡単ではありません。
幻覚の役割ラベルは、初期アライメントを妨げる自然に発生する発散タイプに関連していることを示します。
発散を認識した幻覚が修正されたSRL投影(DAHRS)を実装し、言語学的に情報に基づいたアライメント修復を活用し、それに続いて貪欲なファーストコームファーストアサイン(FCFA)SRL投影を行います。
DAHRSは、追加の変圧器ベースの機械なしでSRL投影の精度を改善し、ヒトと自動の両方の比較でXSRLを破り、ヘッドワードを超えてフレーズレベルのSRL投影(EN-FR、EN-ESなど)に対応するために前進します。
CONLL-2009をグラウンドトゥルースとして使用すると、XSRLよりも高い単語レベルのF1を達成します:87.6%対77.3%(EN-FR)および89.0%対82.7%(EN-ES)。
人間のフレーズレベルの評価では、89.1%(EN-FR)と91.0%(EN-ES)が得られます。
また、他の言語ペア(英語のタガログなど)にアプローチを適応させるために、発散メトリックを定義します。

要約(オリジナル)

Semantic role labeling (SRL) enriches many downstream applications, e.g., machine translation, question answering, summarization, and stance/belief detection. However, building multilingual SRL models is challenging due to the scarcity of semantically annotated corpora for multiple languages. Moreover, state-of-the-art SRL projection (XSRL) based on large language models (LLMs) yields output that is riddled with spurious role labels. Remediation of such hallucinations is not straightforward due to the lack of explainability of LLMs. We show that hallucinated role labels are related to naturally occurring divergence types that interfere with initial alignments. We implement Divergence-Aware Hallucination-Remediated SRL projection (DAHRS), leveraging linguistically-informed alignment remediation followed by greedy First-Come First-Assign (FCFA) SRL projection. DAHRS improves the accuracy of SRL projection without additional transformer-based machinery, beating XSRL in both human and automatic comparisons, and advancing beyond headwords to accommodate phrase-level SRL projection (e.g., EN-FR, EN-ES). Using CoNLL-2009 as our ground truth, we achieve a higher word-level F1 over XSRL: 87.6% vs. 77.3% (EN-FR) and 89.0% vs. 82.7% (EN-ES). Human phrase-level assessments yield 89.1% (EN-FR) and 91.0% (EN-ES). We also define a divergence metric to adapt our approach to other language pairs (e.g., English-Tagalog).

arxiv情報

著者 Sangpil Youm,Brodie Mather,Chathuri Jayaweera,Juliana Prada,Bonnie Dorr
発行日 2025-03-19 13:41:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DAHRS: Divergence-Aware Hallucination-Remediated SRL Projection はコメントを受け付けていません

When Pigs Get Sick: Multi-Agent AI for Swine Disease Detection

要約

豚疾患の監視は、世界の農業の持続可能性にとって重要ですが、その有効性は、限られた獣医資源、症例の識別の遅れ、診断精度の変動によってしばしば損なわれます。
これらの障壁を克服するために、回収された疾患の検出と臨床ガイダンスをタイムリーに提供するために検索された生成(RAG)を活用する新しいAI搭載のマルチエージェント診断システムを導入します。
ユーザー入力を知識の検索クエリまたは症状ベースの診断クエリのいずれかに自動的に分類することにより、システムはターゲット情報の検索を保証し、正確な診断推論を促進します。
適応型質問プロトコルは関連する臨床徴候を体系的に収集しますが、信頼加重決定融合メカニズムは複数の診断仮説を統合して、堅牢な疾患予測と治療の推奨を生成します。
クエリ分類、疾患診断、および知識の検索を含む包括的な評価は、システムが高精度、迅速な応答時間、一貫した信頼性を達成することを示しています。
スケーラブルでAI駆動型の診断フレームワークを提供することにより、このアプローチは獣医の意思決定を強化し、持続可能な家畜管理慣行を進め、世界の食料安全保障の実現に実質的に貢献します。

要約(オリジナル)

Swine disease surveillance is critical to the sustainability of global agriculture, yet its effectiveness is frequently undermined by limited veterinary resources, delayed identification of cases, and variability in diagnostic accuracy. To overcome these barriers, we introduce a novel AI-powered, multi-agent diagnostic system that leverages Retrieval-Augmented Generation (RAG) to deliver timely, evidence-based disease detection and clinical guidance. By automatically classifying user inputs into either Knowledge Retrieval Queries or Symptom-Based Diagnostic Queries, the system ensures targeted information retrieval and facilitates precise diagnostic reasoning. An adaptive questioning protocol systematically collects relevant clinical signs, while a confidence-weighted decision fusion mechanism integrates multiple diagnostic hypotheses to generate robust disease predictions and treatment recommendations. Comprehensive evaluations encompassing query classification, disease diagnosis, and knowledge retrieval demonstrate that the system achieves high accuracy, rapid response times, and consistent reliability. By providing a scalable, AI-driven diagnostic framework, this approach enhances veterinary decision-making, advances sustainable livestock management practices, and contributes substantively to the realization of global food security.

arxiv情報

著者 Tittaya Mairittha,Tanakon Sawanglok,Panuwit Raden,Sorrawit Treesuk
発行日 2025-03-19 13:47:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.IR, cs.MA | When Pigs Get Sick: Multi-Agent AI for Swine Disease Detection はコメントを受け付けていません

BabyLM Challenge: Exploring the Effect of Variation Sets on Language Model Training Efficiency

要約

現在の大規模な言語モデルは驚くべき成功を収めていますが、データ効率は克服するのが依然として課題です。
最近、児童指向の音声(CDS)が、変圧器のニューラルネットワークに基づいた現代言語モデルのトレーニングデータ効率を改善できることが示唆されています。
ただし、CDの特定の特性がこれらのモデルのトレーニングに効果的であることはまだ理解されていません。
Babylm Challengeの文脈では、CDSで遍在する、わずかに異なる単語と構造で同様の意図を表現する連続した発話セット(VSS)に焦点を当てます。
トレーニングデータの効率に対するVSSの影響を評価するために、さまざまなプロポーションのCDSデータを人工VSSの割合で補強し、これらのデータセットを使用して自動回帰モデルGPT-2をトレーニングします。
VSSの最高の割合は評価ベンチマークに依存していることがわかります。BSSと接着剤のスコアはVSSの存在から利益を得ていますが、Ewokスコアはそうではありません。
さらに、結果は、エポックの数や発話の順序などの複数の要因によって異なります。
まとめると、これらの発見は、VSSが言語モデルに有益な影響を与える可能性があることを示唆していますが、さらなる調査の余地を残しています。

要約(オリジナル)

While current large language models have achieved a remarkable success, their data efficiency remains a challenge to overcome. Recently it has been suggested that child-directed speech (CDS) can improve training data efficiency of modern language models based on Transformer neural networks. However, it is not yet understood which specific properties of CDS are effective for training these models. In the context of the BabyLM Challenge, we focus on Variation Sets (VSs), sets of consecutive utterances expressing a similar intent with slightly different words and structures, which are ubiquitous in CDS. To assess the impact of VSs on training data efficiency, we augment CDS data with different proportions of artificial VSs and use these datasets to train an auto-regressive model, GPT-2. We find that the best proportion of VSs depends on the evaluation benchmark: BLiMP and GLUE scores benefit from the presence of VSs, but EWOK scores do not. Additionally, the results vary depending on multiple factors such as the number of epochs and the order of utterance presentation. Taken together, these findings suggest that VSs can have a beneficial influence on language models, while leaving room for further investigation.

arxiv情報

著者 Akari Haga,Akiyo Fukatsu,Miyu Oba,Arianna Bisazza,Yohei Oseki
発行日 2025-03-19 13:51:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BabyLM Challenge: Exploring the Effect of Variation Sets on Language Model Training Efficiency はコメントを受け付けていません

Entity-aware Cross-lingual Claim Detection for Automated Fact-checking

要約

検証を必要とするクレームを特定することは、特にソーシャルメディアプラットフォームでの誤った情報の拡散を考えると、自動化された事実確認における重要なタスクです。
タスクの大幅な進歩にもかかわらず、オンライン談話で一般的な多言語データやマルチモーダルデータを扱うなど、開かれた課題が残っています。
多言語の課題に対処するために、最近の努力は、事前に訓練された多言語モデルの微調整に焦点を当てています。
これらのモデルは複数の言語を処理できますが、ソーシャルメディアに広がるクレームを検出するために、言語間知識を効果的に転送する能力は依然として推奨されていません。
この論文では、あらゆる言語で記述されたクレームを処理するためによく一般化するエンティティを認識しているクロスリングルクレーム検出モデルである\ textit {ex-claim}を紹介します。
このモデルは、指定されたエンティティ認識とエンティティから派生したエンティティ情報を活用し、テクニックをリンクして、トレーニング中に見られた言語と目に見えない両方の言語の言語レベルのパフォーマンスを改善します。
さまざまなソーシャルメディアプラットフォームの3つのデータセットで実施された広範な実験は、提案されたモデルが27の言語でベースラインを大幅に上回り、トレーニングデータが限られていても、最高の知識転送を達成することを示しています。

要約(オリジナル)

Identifying claims requiring verification is a critical task in automated fact-checking, especially given the proliferation of misinformation on social media platforms. Despite significant progress in the task, there remain open challenges such as dealing with multilingual and multimodal data prevalent in online discourse. Addressing the multilingual challenge, recent efforts have focused on fine-tuning pre-trained multilingual language models. While these models can handle multiple languages, their ability to effectively transfer cross-lingual knowledge for detecting claims spreading on social media remains under-explored. In this paper, we introduce \textit{EX-Claim}, an entity-aware cross-lingual claim detection model that generalizes well to handle claims written in any language. The model leverages entity information derived from named entity recognition and entity linking techniques to improve the language-level performance of both seen and unseen languages during training. Extensive experiments conducted on three datasets from different social media platforms demonstrate that our proposed model significantly outperforms the baselines, across 27 languages, and achieves the highest rate of knowledge transfer, even with limited training data.

arxiv情報

著者 Rrubaa Panchendrarajan,Arkaitz Zubiaga
発行日 2025-03-19 14:00:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Entity-aware Cross-lingual Claim Detection for Automated Fact-checking はコメントを受け付けていません

Model Hubs and Beyond: Analyzing Model Popularity, Performance, and Documentation

要約

顔を抱き締めるなどのプラットフォームでMLモデルの大規模な急増により、ユーザーはしばしばダウンストリームタスクに最適なモデルを選択するためにトラックを失い、苦労します。
この人気が実際のモデルパフォーマンスと一致するかどうか、およびモデルドキュメントの包括性が人気とパフォーマンスの両方とどのように相関するかを調査します。
私たちの研究では、顔を抱きしめる500の感情分析モデルの包括的なセットを評価しました。
この評価には、大規模なアノテーションの取り組みが含まれ、人間のアノテーターは、広範なモデルトレーニングと評価とともに、約80,000の注釈を完了しました。
私たちの調査結果は、モデルの人気が必ずしもパフォーマンスと相関しているわけではないことを明らかにしています。
さらに、モデルカードのレポートの重要な矛盾を特定します。分析されたモデルの約80 \%が、モデル、トレーニング、および評価プロセスに関する詳細な情報を欠いています。
さらに、モデル著者の約88%がモデルカードでモデルのパフォーマンスを誇張しています。
調査結果に基づいて、ユーザーがダウンストリームタスクに適したモデルを選択するためのガイドラインのチェックリストを提供します。

要約(オリジナル)

With the massive surge in ML models on platforms like Hugging Face, users often lose track and struggle to choose the best model for their downstream tasks, frequently relying on model popularity indicated by download counts, likes, or recency. We investigate whether this popularity aligns with actual model performance and how the comprehensiveness of model documentation correlates with both popularity and performance. In our study, we evaluated a comprehensive set of 500 Sentiment Analysis models on Hugging Face. This evaluation involved massive annotation efforts, with human annotators completing nearly 80,000 annotations, alongside extensive model training and evaluation. Our findings reveal that model popularity does not necessarily correlate with performance. Additionally, we identify critical inconsistencies in model card reporting: approximately 80\% of the models analyzed lack detailed information about the model, training, and evaluation processes. Furthermore, about 88\% of model authors overstate their models’ performance in the model cards. Based on our findings, we provide a checklist of guidelines for users to choose good models for downstream tasks.

arxiv情報

著者 Pritam Kadasi,Sriman Reddy,Srivathsa Vamsi Chaturvedula,Rudranshu Sen,Agnish Saha,Soumavo Sikdar,Sayani Sarkar,Suhani Mittal,Rohit Jindal,Mayank Singh
発行日 2025-03-19 14:01:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Model Hubs and Beyond: Analyzing Model Popularity, Performance, and Documentation はコメントを受け付けていません

None of the Others: a General Technique to Distinguish Reasoning from Memorization in Multiple-Choice LLM Evaluation Benchmarks

要約

LLMの評価では、数学指向の質問に数値のバリエーションを実行することにより、推論がリコール/暗記とは区別されます。
ここでは、以前に見られたトークンまたは概念から正しい答えを完全に分離する多肢選択式の質問の一般的なバリエーション方法を紹介します。
この方法を使用して、英語とスペイン語で利用可能な2つのデータセットで、最先端の独自およびオープンソースLLMを評価します。
結果は、すべてのモデルが提案された変動の下で顕著な精度が低下し、MMLUで平均57%、UNEDアクセス2024で50%で、モデル全体で10%から93%の範囲であることを示しています。
特に、実験で最も正確なモデル(OpenAI-O3-MINI)は最も堅牢ではなく(DeepSeek-R1-70B)、標準評価の最良のモデルは、より良い推論能力を持つものではないことを示唆しています。
また、公共(vsプライベート)データセットと元の言語で提起された質問(手動翻訳)でより大きな精度低下が見られます。これは、汚染の兆候であり、現在のLLMSの回答におけるリコール/暗記の関連する役割を示しています。

要約(オリジナル)

In LLM evaluations, reasoning is often distinguished from recall/memorization by performing numerical variations to math-oriented questions. Here we introduce a general variation method for multiple-choice questions that completely dissociates the correct answer from previously seen tokens or concepts, requiring LLMs to understand and reason (rather than memorizing) in order to answer correctly. Using this method, we evaluate state-of-the-art proprietary and open-source LLMs on two datasets available in English and Spanish: the public MMLU benchmark and the private UNED-Access 2024 dataset. Results show that all models experience remarkable accuracy drops under our proposed variation, with an average loss of 57% on MMLU and 50% on UNED-Access 2024, ranging from 10% to 93% across models. Notably, the most accurate model in our experimentation (OpenAI-o3-mini) is not the most robust (DeepSeek-R1-70B), suggesting that the best models in standard evaluations may not be the ones with better reasoning capabilities. Also, we see larger accuracy drops in public (vs private) datasets and questions posed in their original language (vs a manual translation), which are signs of contamination and also point to a relevant role of recall/memorization in current LLMs’ answers.

arxiv情報

著者 Eva Sánchez Salido,Julio Gonzalo,Guillermo Marco
発行日 2025-03-19 14:15:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | None of the Others: a General Technique to Distinguish Reasoning from Memorization in Multiple-Choice LLM Evaluation Benchmarks はコメントを受け付けていません

TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification

要約

LLMはテキスト生成の驚くべき流encyさと一貫性を達成しましたが、彼らの広範な採用は、コンテンツの信頼性と説明責任についての懸念を引き起こしました。
ヘルスケア、法律、ニュースなどのハイステークスドメインでは、コンテンツがどこでどのように作成されるかを理解することが重要です。
これに対処するために、ターゲットテキストの各文を潜在的に長いまたはマルチドキュメント入力内の特定のソース文に戻すように設計されたテキストプロベナンス(TROVE)チャレンジを紹介します。
ソースを特定するだけでなく、Troveはきめ細かい関係(引用、圧縮、推論など)に注釈を付け、各ターゲット文がどのように形成されるかを深く理解します。
Troveをベンチマークするために、英語と中国語の11の多様なシナリオ(QAや要約)をカバーする3つのパブリックデータセットを活用して、さまざまな長さのソーステキスト(0-5K、5-10K、10K+)にまたがるデータセットを構築し、実証に不可欠なマルチドキュメントと長期の設定を強調します。
高品質のデータを確保するために、3段階の注釈プロセス、文の検索、GPTの出所、および人間の出所を採用しています。
直接のプロンプトと検索のパラダイムの下で11のLLMを評価し、検索が堅牢なパフォーマンスに不可欠であることを明らかにし、より大きなモデルは複雑な関係分類でパフォーマンスを向上させ、閉鎖モデルはしばしばリードしますが、特に検索の増強により、オープンソースモデルは大きな約束を示します。

要約(オリジナル)

LLMs have achieved remarkable fluency and coherence in text generation, yet their widespread adoption has raised concerns about content reliability and accountability. In high-stakes domains such as healthcare, law, and news, it is crucial to understand where and how the content is created. To address this, we introduce the Text pROVEnance (TROVE) challenge, designed to trace each sentence of a target text back to specific source sentences within potentially lengthy or multi-document inputs. Beyond identifying sources, TROVE annotates the fine-grained relationships (quotation, compression, inference, and others), providing a deep understanding of how each target sentence is formed. To benchmark TROVE, we construct our dataset by leveraging three public datasets covering 11 diverse scenarios (e.g., QA and summarization) in English and Chinese, spanning source texts of varying lengths (0-5k, 5-10k, 10k+), emphasizing the multi-document and long-document settings essential for provenance. To ensure high-quality data, we employ a three-stage annotation process: sentence retrieval, GPT provenance, and human provenance. We evaluate 11 LLMs under direct prompting and retrieval-augmented paradigms, revealing that retrieval is essential for robust performance, larger models perform better in complex relationship classification, and closed-source models often lead, yet open-source models show significant promise, particularly with retrieval augmentation.

arxiv情報

著者 Junnan Zhu,Min Xiao,Yining Wang,Feifei Zhai,Yu Zhou,Chengqing Zong
発行日 2025-03-19 15:09:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification はコメントを受け付けていません