Does Knowledge Distillation Matter for Large Language Model based Bundle Generation?

要約

LLMは、推論の能力と知識のおかげで、バンドル生成のためにますます探求されています。
ただし、大規模なLLMSを展開すると、大幅なパラメーター化により、微調整中に主に高い計算コストが発生します。
Knowledge Distillation(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移転する有望なソリューションを提供します。
この研究では、バンドル生成の知識蒸留アプローチを体系的に調査し、パフォーマンスを維持しながら計算需要を最小限に抑えることを目指しています。
(1)KDの形式はバンドル生成のパフォーマンスにどのように影響しますか?
(2)蒸留された知識の量は、パフォーマンスにどの程度影響しますか?
(3)蒸留された知識を活用するさまざまな方法は、パフォーマンスにどのように影響しますか?
(i)知識(パターン、ルール、深い考え)を徐々に抽出する包括的なKDフレームワークを提案します。
(ii)さまざまな戦略を通じて、さまざまな量の蒸留知識をキャプチャします。
(iii)補完的なLLM適応技術(コンテキスト学習、監視付き微調整、組み合わせ)を活用して、ドメイン固有の適応と効率の向上のために小規模な学生モデルの蒸留知識を活用します。
広範な実験は、知識形式、数量、および利用方法論がLLMベースのバンドル生成パフォーマンスを集合的に形成する方法についての貴重な洞察を提供し、より効率的で効果的なLLMベースのバンドル生成のKDの重要な可能性を示しています。

要約(オリジナル)

LLMs are increasingly explored for bundle generation, thanks to their reasoning capabilities and knowledge. However, deploying large-scale LLMs introduces significant efficiency challenges, primarily high computational costs during fine-tuning and inference due to their massive parameterization. Knowledge distillation (KD) offers a promising solution, transferring expertise from large teacher models to compact student models. This study systematically investigates knowledge distillation approaches for bundle generation, aiming to minimize computational demands while preserving performance. We explore three critical research questions: (1) how does the format of KD impact bundle generation performance? (2) to what extent does the quantity of distilled knowledge influence performance? and (3) how do different ways of utilizing the distilled knowledge affect performance? We propose a comprehensive KD framework that (i) progressively extracts knowledge (patterns, rules, deep thoughts); (ii) captures varying quantities of distilled knowledge through different strategies; and (iii) exploits complementary LLM adaptation techniques (in-context learning, supervised fine-tuning, combination) to leverage distilled knowledge in small student models for domain-specific adaptation and enhanced efficiency. Extensive experiments provide valuable insights into how knowledge format, quantity, and utilization methodologies collectively shape LLM-based bundle generation performance, exhibiting KD’s significant potential for more efficient yet effective LLM-based bundle generation.

arxiv情報

著者 Kaidong Feng,Zhu Sun,Jie Yang,Hui Fang,Xinghua Qu,Wenyuan Liu
発行日 2025-04-24 03:18:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Does Knowledge Distillation Matter for Large Language Model based Bundle Generation? はコメントを受け付けていません

Efficient Pretraining Length Scaling

要約

大規模な言語モデルの最近の進歩は、トレーニング後の長さのスケーリングの有効性を実証していますが、トレーニング前の可能性は既存のままです。
推論効率を維持しながら、トレーニング前に効率的な長さのスケーリングを可能にする新しいフレームワークである、平行した非表示デコード変圧器(\ textIT {phd}トランスフォーマー)を提示します。
\ textIT {phd} – トランスフォーマーは、元のトークンと非表示のデコードトークンを区別する革新的なKVキャッシュ管理戦略を通じてこれを達成します。
長距離依存性のために元のトークンのKVキャッシュのみを保持し、使用後すぐに隠されたデコードトークンを廃棄することにより、私たちのアプローチは、効果的な長さのスケーリングを可能にしながら、バニラトランスと同じKVキャッシュサイズを維持します。
パフォーマンスをさらに向上させるために、2つの最適化されたバリアントを導入します。\ textit {phd-swa}は、ローカル依存関係を保持するためにスライディングウィンドウの注意を採用し、\ textit {phd-cswa}はチャンクワイズのスライドウィンドウの注意を実現して、充填前の線形成長を排除します。
広範な実験は、複数のベンチマークにわたって一貫した改善を示しています。

要約(オリジナル)

Recent advances in large language models have demonstrated the effectiveness of length scaling during post-training, yet its potential in pre-training remains underexplored. We present the Parallel Hidden Decoding Transformer (\textit{PHD}-Transformer), a novel framework that enables efficient length scaling during pre-training while maintaining inference efficiency. \textit{PHD}-Transformer achieves this through an innovative KV cache management strategy that distinguishes between original tokens and hidden decoding tokens. By retaining only the KV cache of original tokens for long-range dependencies while immediately discarding hidden decoding tokens after use, our approach maintains the same KV cache size as the vanilla transformer while enabling effective length scaling. To further enhance performance, we introduce two optimized variants: \textit{PHD-SWA} employs sliding window attention to preserve local dependencies, while \textit{PHD-CSWA} implements chunk-wise sliding window attention to eliminate linear growth in pre-filling time. Extensive experiments demonstrate consistent improvements across multiple benchmarks.

arxiv情報

著者 Bohong Wu,Shen Yan,Sijun Zhang,Jianqiao Lu,Yutao Zeng,Ya Wang,Xun Zhou
発行日 2025-04-24 04:13:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Efficient Pretraining Length Scaling はコメントを受け付けていません

Crisp: Cognitive Restructuring of Negative Thoughts through Multi-turn Supportive Dialogues

要約

認知再構築(CR)は、メンタルヘルスの課題から生じる個人の否定的な思考を、マルチターン対話を介してより有用でポジティブな考え方に生じる個人の否定的な思考を特定し、再構築することを目的とした心理療法プロセスです。
臨床医の不足とスティグマは、CRのヒト-LLMインタラクティブサイコセラピーの開発を促します。
しかし、既存の取り組みは、単純なテキスト書き換え、固定パターンダイアログ、またはワンショットCRワークフローを介してCRを実装し、効果的なCRのために心理療法プロセスと一致しません。
このギャップに対処するために、CRの新しいフレームワークであるCRDIALを提案します。これは、否定的な思考の具体的に設計された識別と再構築段階を備えたマルチターンダイアログを作成し、文レベルの協力会話戦略を統合し、繰り返しCRを有効にするマルチチャネルループメカニズムを採用します。
CRDIALを使用すると、LLMから大規模で高品質のバイリンガルダイアログデータセットであるCrispを蒸留します。
次に、CR用の鮮明な会話LLMS、7Bおよび14Bスケールで、Crispersを訓練します。
広範な人間の研究は、ポイントワイズ、ペアワイズ、および介入評価におけるクリスパースの優位性を示しています。

要約(オリジナル)

Cognitive Restructuring (CR) is a psychotherapeutic process aimed at identifying and restructuring an individual’s negative thoughts, arising from mental health challenges, into more helpful and positive ones via multi-turn dialogues. Clinician shortage and stigma urge the development of human-LLM interactive psychotherapy for CR. Yet, existing efforts implement CR via simple text rewriting, fixed-pattern dialogues, or a one-shot CR workflow, failing to align with the psychotherapeutic process for effective CR. To address this gap, we propose CRDial, a novel framework for CR, which creates multi-turn dialogues with specifically designed identification and restructuring stages of negative thoughts, integrates sentence-level supportive conversation strategies, and adopts a multi-channel loop mechanism to enable iterative CR. With CRDial, we distill Crisp, a large-scale and high-quality bilingual dialogue dataset, from LLM. We then train Crispers, Crisp-based conversational LLMs for CR, at 7B and 14B scales. Extensive human studies show the superiority of Crispers in pointwise, pairwise, and intervention evaluations.

arxiv情報

著者 Jinfeng Zhou,Yuxuan Chen,Jianing Yin,Yongkang Huang,Yihan Shi,Xikun Zhang,Libiao Peng,Rongsheng Zhang,Tangjie Lv,Zhipeng Hu,Hongning Wang,Minlie Huang
発行日 2025-04-24 04:22:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | Crisp: Cognitive Restructuring of Negative Thoughts through Multi-turn Supportive Dialogues はコメントを受け付けていません

Multilingual State Space Models for Structured Question Answering in Indic Languages

要約

インド語の多様性と複雑さは、特に質問応答(QA)のドメイン(QA)において、自然言語処理(NLP)タスクの独自の課題を提示します。これらの課題に対処するために、このペーパーでは、ステートスペースモデル(SSM)の適用を調査し、インディング言語に合わせて調整された効率的かつコンテキスト認識QAシステムを構築します。
SSMは、シーケンシャルデータの長期的および短期的な依存関係をモデル化する能力により、このタスクに特に適しており、インド言語に特徴的な豊富な形態、複雑な構文、および文脈的複雑さを処理するのに適しています。
さまざまなインド言語を表す多様なデータセット全体で複数のSSMアーキテクチャを評価し、パフォーマンスの比較分析を実施しました。
我々の結果は、これらのモデルが言語の微妙さを効果的にキャプチャし、問題の解釈、コンテキストの整合、回答生成の大幅な改善につながることを示しています。
この作業は、SSMの最初のアプリケーションを表して、インド言語での回答タスクに疑問を投げかけ、このドメインでの将来の研究の基礎ベンチマークを確立します。
既存のSSMフレームワークの強化を提案し、インド言語で一般的な低リソース設定と多言語シナリオへの適用性を最適化します。

要約(オリジナル)

The diversity and complexity of Indic languages present unique challenges for natural language processing (NLP) tasks, particularly in the domain of question answering (QA).To address these challenges, this paper explores the application of State Space Models (SSMs),to build efficient and contextually aware QA systems tailored for Indic languages. SSMs are particularly suited for this task due to their ability to model long-term and short-term dependencies in sequential data, making them well-equipped to handle the rich morphology, complex syntax, and contextual intricacies characteristic of Indian languages. We evaluated multiple SSM architectures across diverse datasets representing various Indic languages and conducted a comparative analysis of their performance. Our results demonstrate that these models effectively capture linguistic subtleties, leading to significant improvements in question interpretation, context alignment, and answer generation. This work represents the first application of SSMs to question answering tasks in Indic languages, establishing a foundational benchmark for future research in this domain. We propose enhancements to existing SSM frameworks, optimizing their applicability to low-resource settings and multilingual scenarios prevalent in Indic languages.

arxiv情報

著者 Arpita Vats,Rahul Raja,Mrinal Mathur,Vinija Jain,Aman Chadha
発行日 2025-04-24 04:40:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Multilingual State Space Models for Structured Question Answering in Indic Languages はコメントを受け付けていません

Low-Resource Neural Machine Translation Using Recurrent Neural Networks and Transfer Learning: A Case Study on English-to-Igbo

要約

この研究では、ナイジェリアと西アフリカで4,000万人以上が話している低リソースのアフリカ言語である、英語からIGBOへの翻訳のためのニューラルマシン翻訳(NMT)および変圧器ベースの転送学習モデルを開発しています。
私たちのモデルは、聖書コーパス、ローカルニュース、ウィキペディアの記事、および一般的なクロールから編集されたキュレーションされたベンチマークのデータセットでトレーニングされており、すべて母国語の専門家によって検証されています。
翻訳の精度を向上させるための注意メカニズムで強化された、長期短期メモリ(LSTM)やゲート再生ユニット(GRU)を含む、再発性ニューラルネットワーク(RNN)アーキテクチャを活用します。
パフォーマンスをさらに向上させるために、SimpleTransFormersフレームワーク内でMarianNMT事前訓練を受けたモデルを使用して転送学習を適用します。
当社のRNNベースのシステムは、既存のEnglish-IGBOベンチマークに密接に一致して、競争力のある結果を達成します。
トランスファーラーニングを使用すると、パフォーマンスゲインが+4.83ブルーポイントを観察し、推定翻訳精度が70%に達します。
これらの調査結果は、RNNと転送学習を組み合わせて、低リソースの言語翻訳タスクのパフォーマンスギャップに対処することの有効性を強調しています。

要約(オリジナル)

In this study, we develop Neural Machine Translation (NMT) and Transformer-based transfer learning models for English-to-Igbo translation – a low-resource African language spoken by over 40 million people across Nigeria and West Africa. Our models are trained on a curated and benchmarked dataset compiled from Bible corpora, local news, Wikipedia articles, and Common Crawl, all verified by native language experts. We leverage Recurrent Neural Network (RNN) architectures, including Long Short-Term Memory (LSTM) and Gated Recurrent Units (GRU), enhanced with attention mechanisms to improve translation accuracy. To further enhance performance, we apply transfer learning using MarianNMT pre-trained models within the SimpleTransformers framework. Our RNN-based system achieves competitive results, closely matching existing English-Igbo benchmarks. With transfer learning, we observe a performance gain of +4.83 BLEU points, reaching an estimated translation accuracy of 70%. These findings highlight the effectiveness of combining RNNs with transfer learning to address the performance gap in low-resource language translation tasks.

arxiv情報

著者 Ocheme Anthony Ekle,Biswarup Das
発行日 2025-04-24 05:02:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, 68T50, cs.CL, cs.LG, I.2.1 | Low-Resource Neural Machine Translation Using Recurrent Neural Networks and Transfer Learning: A Case Study on English-to-Igbo はコメントを受け付けていません

JurisCTC: Enhancing Legal Judgment Prediction via Cross-Domain Transfer and Contrastive Learning

要約

近年、監視されていないドメイン適応(UDA)は、多様なドメイン全体でモデルの一般化を強化する能力により、自然言語処理の分野(NLP)で大きな注目を集めています。
ただし、明確な法的ドメイン間の知識移転の適用アプリケーションは、ほとんど未踏のままです。
長く複雑な法的テキストによってもたらされる課題と大規模な注釈付きデータセットの限られた利用可能性に対処するために、法的判断予測(LJP)タスクの精度を改善するために設計された新しいモデルであるJurisCTCを提案します。
既存のアプローチとは異なり、jurisCTCはさまざまな法的ドメイン間の効果的な知識移転を促進し、サンプルを異なるドメインと区別するために対照的な学習を採用しています。
具体的には、LJPタスクでは、民法ドメインと刑法ドメイン間の知識移転を可能にします。
他のモデルや特定の大規模な言語モデル(LLMS)と比較して、jurisCTCは顕著な進歩を示し、それぞれ76.59%と78.83%のピーク精度を達成します。

要約(オリジナル)

In recent years, Unsupervised Domain Adaptation (UDA) has gained significant attention in the field of Natural Language Processing (NLP) owing to its ability to enhance model generalization across diverse domains. However, its application for knowledge transfer between distinct legal domains remains largely unexplored. To address the challenges posed by lengthy and complex legal texts and the limited availability of large-scale annotated datasets, we propose JurisCTC, a novel model designed to improve the accuracy of Legal Judgment Prediction (LJP) tasks. Unlike existing approaches, JurisCTC facilitates effective knowledge transfer across various legal domains and employs contrastive learning to distinguish samples from different domains. Specifically, for the LJP task, we enable knowledge transfer between civil and criminal law domains. Compared to other models and specific large language models (LLMs), JurisCTC demonstrates notable advancements, achieving peak accuracies of 76.59% and 78.83%, respectively.

arxiv情報

著者 Zhaolu Kang,Hongtian Cai,Xiangyang Ji,Jinzhe Li,Nanfei Gu
発行日 2025-04-24 05:48:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | JurisCTC: Enhancing Legal Judgment Prediction via Cross-Domain Transfer and Contrastive Learning はコメントを受け付けていません

Evaluating and Mitigating Bias in AI-Based Medical Text Generation

要約

人工知能(AI)システム、特に深い学習モデルに基づくシステムは、医療用途での専門家レベルのパフォーマンスをますます達成しています。
ただし、このようなAIシステムは、人間のバイアスを反映して増幅し、歴史的に不十分な集団におけるパフォーマンスの質を低下させる可能性があるという懸念が高まっています。
公平性の問題は、医療画像分類分野でかなりの研究関心を集めていますが、テキスト生成ドメインでは理解されています。
この研究では、医療分野内のテキスト生成における公平性の問題を調査し、交差グループ、さまざまなモデルスケール、さまざまな評価メトリックなど、さまざまな人種、性別、年齢層にわたる重大なパフォーマンスの矛盾を観察します。
この公平性の問題を軽減するために、これらの不パフォーマンスのグループを選択的に最適化してバイアスを減らすアルゴリズムを提案します。
選択ルールでは、単語レベルの精度だけでなく、ターゲット参照に対する病理学の精度も考慮し、効果的なモデルトレーニングのためにプロセス全体が完全に微分可能であることを保証します。
複数のバックボーン、データセット、およびモダリティにわたる評価は、提案されているアルゴリズムが全体的なパフォーマンスを損なうことなくテキスト生成の公平性を高めることを示しています。
具体的には、異なるメトリックのさまざまなグループ間の格差は、アルゴリズムで30%以上減少しましたが、テキスト生成の精度の相対的な変化は通常2%以内でした。
ディープラーニングモデルによって生成されるバイアスを減らすことにより、提案されたアプローチは、医療ドメインのテキスト生成診断の公平性と信頼性に関する懸念を潜在的に軽減する可能性があります。
私たちのコードは、https://github.com/iriscxy/genfairでさらなる調査を促進するために公開されています。

要約(オリジナル)

Artificial intelligence (AI) systems, particularly those based on deep learning models, have increasingly achieved expert-level performance in medical applications. However, there is growing concern that such AI systems may reflect and amplify human bias, and reduce the quality of their performance in historically under-served populations. The fairness issue has attracted considerable research interest in the medical imaging classification field, yet it remains understudied in the text generation domain. In this study, we investigate the fairness problem in text generation within the medical field and observe significant performance discrepancies across different races, sexes, and age groups, including intersectional groups, various model scales, and different evaluation metrics. To mitigate this fairness issue, we propose an algorithm that selectively optimizes those underperformed groups to reduce bias. The selection rules take into account not only word-level accuracy but also the pathology accuracy to the target reference, while ensuring that the entire process remains fully differentiable for effective model training. Our evaluations across multiple backbones, datasets, and modalities demonstrate that our proposed algorithm enhances fairness in text generation without compromising overall performance. Specifically, the disparities among various groups across different metrics were diminished by more than 30% with our algorithm, while the relative change in text generation accuracy was typically within 2%. By reducing the bias generated by deep learning models, our proposed approach can potentially alleviate concerns about the fairness and reliability of text generation diagnosis in medical domain. Our code is publicly available to facilitate further research at https://github.com/iriscxy/GenFair.

arxiv情報

著者 Xiuying Chen,Tairan Wang,Juexiao Zhou,Zirui Song,Xin Gao,Xiangliang Zhang
発行日 2025-04-24 06:10:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Evaluating and Mitigating Bias in AI-Based Medical Text Generation はコメントを受け付けていません

Automatically Evaluating the Paper Reviewing Capability of Large Language Models

要約

ピアレビューは科学的な進歩には不可欠ですが、レビュアーの不足やワークロードの増加などの課題に直面しています。
大規模な言語モデル(LLM)は支援を提供する可能性を示していますが、研究は生成するレビューの大きな制限を報告しています。
洞察は価値がありますが、特にLLMの開発が急速にペースであることを考えると、かなりの時間と労力がかかるため、分析を実施することは困難です。
課題に対処するために、LLMSのペーパーレビュー機能を専門家に生成したレビューと比較することにより、自動評価パイプラインを開発しました。
676のOpenReviewペーパーで構成されるデータセットを構築することにより、LLMSと専門家の間の強度と脱力感の識別に関する合意を調べました。
結果は、LLMがバランスの取れた視点を欠いており、批判する際に斬新な評価を大幅に見落とし、貧弱な受け入れ決定を生み出すことを示しました。
自動化されたパイプラインにより、LLMSのペーパーレビュー機能のスケーラブルな評価が時間の経過とともに評価されます。

要約(オリジナル)

Peer review is essential for scientific progress, but it faces challenges such as reviewer shortages and growing workloads. Although Large Language Models (LLMs) show potential for providing assistance, research has reported significant limitations in the reviews they generate. While the insights are valuable, conducting the analysis is challenging due to the considerable time and effort required, especially given the rapid pace of LLM developments. To address the challenge, we developed an automatic evaluation pipeline to assess the LLMs’ paper review capability by comparing them with expert-generated reviews. By constructing a dataset consisting of 676 OpenReview papers, we examined the agreement between LLMs and experts in their strength and weakness identifications. The results showed that LLMs lack balanced perspectives, significantly overlook novelty assessment when criticizing, and produce poor acceptance decisions. Our automated pipeline enables a scalable evaluation of LLMs’ paper review capability over time.

arxiv情報

著者 Hyungyu Shin,Jingyu Tang,Yoonjoo Lee,Nayoung Kim,Hyunseung Lim,Ji Yong Cho,Hwajung Hong,Moontae Lee,Juho Kim
発行日 2025-04-24 06:43:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Automatically Evaluating the Paper Reviewing Capability of Large Language Models はコメントを受け付けていません

CoheMark: A Novel Sentence-Level Watermark for Enhanced Text Quality

要約

透かし技術は、大規模な言語モデルによって生成されたコンテンツの使用をトレースするために使用される方法です。
文レベルの透け式は、より大きな堅牢性を維持しながら、個々の文の中でセマンティックの完全性を維持するのに役立ちます。
ただし、多くの既存の文レベルの透け式手法は、適切な文の可用性を制限できる透かしを組み込むための任意のセグメンテーションまたは生成プロセスに依存しています。
この制限は、生成された応答の品質を損なうものです。
高いテキストの品質のバランスと堅牢な透かし検出の課題に対処するために、CoHemarkを提案します。これは、論理的な流encyさのために文のまとまりのある関係を悪用する高度な文レベルの透かし技術です。
Cohemarkのコア方法論には、訓練されたFuzzy C-Meansクラスタリングを介して文を選択し、特定の次の文の選択基準を適用することが含まれます。
実験的評価は、コーヘマークがテキストの品質への影響を最小限に抑えながら、強い透かしの強さを達成することを示しています。

要約(オリジナル)

Watermarking technology is a method used to trace the usage of content generated by large language models. Sentence-level watermarking aids in preserving the semantic integrity within individual sentences while maintaining greater robustness. However, many existing sentence-level watermarking techniques depend on arbitrary segmentation or generation processes to embed watermarks, which can limit the availability of appropriate sentences. This limitation, in turn, compromises the quality of the generated response. To address the challenge of balancing high text quality with robust watermark detection, we propose CoheMark, an advanced sentence-level watermarking technique that exploits the cohesive relationships between sentences for better logical fluency. The core methodology of CoheMark involves selecting sentences through trained fuzzy c-means clustering and applying specific next sentence selection criteria. Experimental evaluations demonstrate that CoheMark achieves strong watermark strength while exerting minimal impact on text quality.

arxiv情報

著者 Junyan Zhang,Shuliang Liu,Aiwei Liu,Yubo Gao,Jungang Li,Xiaojie Gu,Xuming Hu
発行日 2025-04-24 07:08:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CoheMark: A Novel Sentence-Level Watermark for Enhanced Text Quality はコメントを受け付けていません

FLUKE: A Linguistically-Driven and Task-Agnostic Framework for Robustness Evaluation

要約

Testデータの体系的な最小変動を通じてモデルの堅牢性を評価するためのタスクと存在するフレームワークである、Fluke(言語駆動型およびタスクに依存しない堅牢性評価のフレームワーク)を提示します。
Flukeは、正書法から方言やスタイルの品種まで、言語レベル全体で制御されたバリエーションを導入し、修正を生成するために人間の検証で大規模な言語モデル(LLM)を活用します。
4つの多様なNLPタスクで微調整されたモデルとLLMの両方を評価することにより、Flukeの有用性を実証し、(1)言語変動の影響はタスク依存性が高く、一部のテストは特定のタスクにとって重要であるが、他のタスクでは無関係であることを明らかにします。
(2)LLMは微調整されたモデルと比較して全体的な堅牢性が優れていますが、特定の言語変動に対して著しい脆性を示しています。
(3)すべてのモデルは、ほとんどのタスクにわたる否定の変更に対する実質的な脆弱性を示しています。
これらの発見は、モデルの動作を理解するための体系的な堅牢性テストの重要性を強調しています。

要約(オリジナル)

We present FLUKE (Framework for LingUistically-driven and tasK-agnostic robustness Evaluation), a task-agnostic framework for assessing model robustness through systematic minimal variations of test data. FLUKE introduces controlled variations across linguistic levels – from orthography to dialect and style varieties – and leverages large language models (LLMs) with human validation to generate modifications. We demonstrate FLUKE’s utility by evaluating both fine-tuned models and LLMs across four diverse NLP tasks, and reveal that (1) the impact of linguistic variations is highly task-dependent, with some tests being critical for certain tasks but irrelevant for others; (2) while LLMs have better overall robustness compared to fine-tuned models, they still exhibit significant brittleness to certain linguistic variations; (3) all models show substantial vulnerability to negation modifications across most tasks. These findings highlight the importance of systematic robustness testing for understanding model behaviors.

arxiv情報

著者 Yulia Otmakhova,Hung Thinh Truong,Rahmad Mahendra,Zenan Zhai,Rongxin Zhu,Daniel Beck,Jey Han Lau
発行日 2025-04-24 07:12:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | FLUKE: A Linguistically-Driven and Task-Agnostic Framework for Robustness Evaluation はコメントを受け付けていません