Near-Polynomially Competitive Active Logistic Regression

要約

実現可能な設定でのアクティブなロジスティック回帰の問題に対処します。
アクティブ学習は、パッシブ学習と比較して指数関数的にラベルクエリを指数関数的に少なくする必要があることがよく知られています。
すべての入力インスタンスで最適なアルゴリズムと多項式的に競合する最初のアルゴリズムを提示します。
特に、いずれかのアルゴリズムが$ \ eps $でラベルの複雑さポリロガリズムを達成した場合、私たちも同様です。
私たちのアルゴリズムは、効率的なサンプリングに基づいており、より一般的なクラスの関数を学習するために拡張できます。
さらに、既存のアクティブな学習アルゴリズムと比較して、ロジスティック回帰のパフォーマンスの向上を示す実験で理論的な結果をサポートします。

要約(オリジナル)

We address the problem of active logistic regression in the realizable setting. It is well known that active learning can require exponentially fewer label queries compared to passive learning, in some cases using $\log \frac{1}{\eps}$ rather than $\poly(1/\eps)$ labels to get error $\eps$ larger than the optimum. We present the first algorithm that is polynomially competitive with the optimal algorithm on every input instance, up to factors polylogarithmic in the error and domain size. In particular, if any algorithm achieves label complexity polylogarithmic in $\eps$, so does ours. Our algorithm is based on efficient sampling and can be extended to learn more general class of functions. We further support our theoretical results with experiments demonstrating performance gains for logistic regression compared to existing active learning algorithms.

arxiv情報

著者 Yihan Zhou,Eric Price,Trung Nguyen
発行日 2025-04-18 17:55:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Near-Polynomially Competitive Active Logistic Regression はコメントを受け付けていません

Spin glass model of in-context learning

要約

大規模な言語モデルは、驚くべきコンテキストの学習能力を示しています。プロンプトを使用して、昔ながらの監視された学習とはまったく対照的に、クエリの予測を作成しますが、追加のトレーニングなしで予測を形成することができます。
したがって、機械的な解釈を提供し、経験的現象を物理学にリンクすることは挑戦的であり、解決されていないままです。
直線的な注意を払ったシンプルでありながら表現力豊かな変圧器を研究し、この構造を実質価値のあるスピンでスピンガラスモデルにマッピングします。ここでは、カップリングとフィールドがデータの固有の障害を説明します。
スピンガラスモデルは、トレーニング前の重量パラメーターがどのように相互作用するかを説明し、さらにトレーニングなしでプロンプトのみを提供することで、目に見えない関数を予測できる理由をさらに明確にします。
私たちの理論は、単一インスタンス学習のために、タスクの多様性を高めると、ボルツマン分布が体重パラメーターのユニークな正しいソリューションに収束できるようにすることにより、コンテキスト学習の出現につながることが明らかになりました。
したがって、事前に訓練されたトランスは、新しいプロンプト設定で予測力を表示します。
したがって、提案されている分析的に扱いやすいモデルは、大規模な言語モデルの多くの興味深いが不可解な特性をどのように解釈するかを考えるための有望な道を提供します。

要約(オリジナル)

Large language models show a surprising in-context learning ability — being able to use a prompt to form a prediction for a query, yet without additional training, in stark contrast to old-fashioned supervised learning. Providing a mechanistic interpretation and linking the empirical phenomenon to physics are thus challenging and remain unsolved. We study a simple yet expressive transformer with linear attention and map this structure to a spin glass model with real-valued spins, where the couplings and fields explain the intrinsic disorder in data. The spin glass model explains how the weight parameters interact with each other during pre-training, and further clarifies why an unseen function can be predicted by providing only a prompt yet without further training. Our theory reveals that for single-instance learning, increasing the task diversity leads to the emergence of in-context learning, by allowing the Boltzmann distribution to converge to a unique correct solution of weight parameters. Therefore the pre-trained transformer displays a prediction power in a novel prompt setting. The proposed analytically tractable model thus offers a promising avenue for thinking about how to interpret many intriguing but puzzling properties of large language models.

arxiv情報

著者 Yuhao Li,Ruoran Bai,Haiping Huang
発行日 2025-04-18 08:16:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.AI, cs.CL | Spin glass model of in-context learning はコメントを受け付けていません

Enhancing Multilingual Sentiment Analysis with Explainability for Sinhala, English, and Code-Mixed Content

要約

センチメント分析は、顧客のフィードバックが英語、シンハラ、シングリッシュ、コードミックステキストに及ぶ銀行セクターのブランド評判管理にとって重要です。
既存のモデルは、シンハラのような低リソース言語と格闘しており、実用的な解釈可能性がありません。
この研究は、説明可能な出力で多言語機能を強化するハイブリッドアスペクトベースのセンチメント分析フレームワークを開発します。
クリーン化された銀行のカスタマーレビューを使用して、XLM-Robertaをシンハラとコードミックステキスト用に微調整し、ドメイン固有のレキシコン補正を統合し、英語用のBert-Base-Uncasedを使用します。
システムはセンチメント(ポジティブ、ニュートラル、ネガティブ)を信頼スコアで分類しますが、SHAPとLIMEはリアルタイムセンチメントの説明を提供することで解釈性を向上させます。
実験結果は、私たちのアプローチが従来の変圧器ベースの分類器よりも優れており、92.3%の精度と英語で0.89、シンハラとコードミックスコンテンツで88.4%のF1スコアを達成することを示しています。
説明可能性分析により、主要な感情ドライバーが明らかになり、信頼と透明性が向上します。
ユーザーフレンドリーなインターフェイスは、アスペクトのセンチメントの洞察を提供し、企業のアクセシビリティを確保します。
この研究は、多言語の低リソースNLPおよび説明可能性のギャップを埋めることにより、金融アプリケーションの堅牢で透明な感情分析に貢献します。

要約(オリジナル)

Sentiment analysis is crucial for brand reputation management in the banking sector, where customer feedback spans English, Sinhala, Singlish, and code-mixed text. Existing models struggle with low-resource languages like Sinhala and lack interpretability for practical use. This research develops a hybrid aspect-based sentiment analysis framework that enhances multilingual capabilities with explainable outputs. Using cleaned banking customer reviews, we fine-tune XLM-RoBERTa for Sinhala and code-mixed text, integrate domain-specific lexicon correction, and employ BERT-base-uncased for English. The system classifies sentiment (positive, neutral, negative) with confidence scores, while SHAP and LIME improve interpretability by providing real-time sentiment explanations. Experimental results show that our approaches outperform traditional transformer-based classifiers, achieving 92.3 percent accuracy and an F1-score of 0.89 in English and 88.4 percent in Sinhala and code-mixed content. An explainability analysis reveals key sentiment drivers, improving trust and transparency. A user-friendly interface delivers aspect-wise sentiment insights, ensuring accessibility for businesses. This research contributes to robust, transparent sentiment analysis for financial applications by bridging gaps in multilingual, low-resource NLP and explainability.

arxiv情報

著者 Azmarah Rizvi,Navojith Thamindu,A. M. N. H. Adhikari,W. P. U. Senevirathna,Dharshana Kasthurirathna,Lakmini Abeywardhana
発行日 2025-04-18 08:21:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Enhancing Multilingual Sentiment Analysis with Explainability for Sinhala, English, and Code-Mixed Content はコメントを受け付けていません

Q-FAKER: Query-free Hard Black-box Attack via Controlled Generation

要約

言語モデルの脆弱性を検証するために、多くの敵対的な攻撃アプローチが提案されています。
ただし、多くのクエリとターゲットモデルに関する情報が必要です。
ブラックボックス攻撃方法でさえ、ターゲットモデルの出力情報も必要です。
ターゲットモデルが閉じてアクセスできないハードブラックボックス設定のように、実際のシナリオには適用できません。
最近提案されたハードブラックボックス攻撃でさえ、依然として多くのクエリが必要であり、敵対的な発電機をトレーニングするために非常に高いコストを要求しています。
これらの課題に対処するために、Q-Faker(クエリフリーハードブラックボックス攻撃者)を提案します。これは、ターゲットモデルにアクセスせずに敵対的な例を生成する斬新で効率的な方法です。
ターゲットモデルへのアクセスを避けるために、代わりに代理モデルを使用します。
代理モデルは、ターゲットに依存しない攻撃のために敵対的な文を生成します。
このプロセス中に、制御された生成技術を活用します。
8つのデータセットで提案された方法を評価します。
実験結果は、高い転送可能性と生成された敵対的な例の高品質などの方法の有効性を示し、ハードブラックボックス設定でその実用的であることを証明します。

要約(オリジナル)

Many adversarial attack approaches are proposed to verify the vulnerability of language models. However, they require numerous queries and the information on the target model. Even black-box attack methods also require the target model’s output information. They are not applicable in real-world scenarios, as in hard black-box settings where the target model is closed and inaccessible. Even the recently proposed hard black-box attacks still require many queries and demand extremely high costs for training adversarial generators. To address these challenges, we propose Q-faker (Query-free Hard Black-box Attacker), a novel and efficient method that generates adversarial examples without accessing the target model. To avoid accessing the target model, we use a surrogate model instead. The surrogate model generates adversarial sentences for a target-agnostic attack. During this process, we leverage controlled generation techniques. We evaluate our proposed method on eight datasets. Experimental results demonstrate our method’s effectiveness including high transferability and the high quality of the generated adversarial examples, and prove its practical in hard black-box settings.

arxiv情報

著者 CheolWon Na,YunSeok Choi,Jee-Hyong Lee
発行日 2025-04-18 08:36:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR | Q-FAKER: Query-free Hard Black-box Attack via Controlled Generation はコメントを受け付けていません

Finding Flawed Fictions: Evaluating Complex Reasoning in Language Models via Plot Hole Detection

要約

物語は人間の経験の基本的な側面です。
ストーリーと深く関与し、物語の世界の内部論理やルールを破るストーリーの矛盾の矛盾を見つけることには、エンティティやイベントの追跡や相互作用、抽象的な物語の理解、常識と社会的推論、および心の理論など、微妙な推論スキルが必要です。
大規模な言語モデル(LLMS)がテキストを生成、解釈、変更するにつれて、物語の一貫性とより深い言語理解を厳密に評価することが重要になります。
ただし、既存のベンチマークは主に表面レベルの理解に焦点を当てています。
この作業では、LLMSの言語理解と推論を評価するためのプロキシとして、ストーリーのプロットホール検出を提案します。
FlawedFictionsmakerを紹介します。これは、人間が作成したストーリーのプロットホールを制御できるように慎重に合成する新しいアルゴリズムです。
このアルゴリズムを使用して、ストーリーのLLMSのプロットホール検出能力 – 欠陥のある能力を評価するベンチマークを構築します。
最先端のLLMSは、許可されている推論の努力に関係なく、欠陥のあるフィクションを正確に解決するのに苦労しており、ストーリーの長さが増加するにつれてパフォーマンスが大幅に低下していることがわかります。
最後に、LLMベースのストーリーの要約とストーリー生成がプロットホールを導入する傾向があり、人間が作成したオリジナルに関してプロットホール検出速度が50%以上および100%増加することを示しています。

要約(オリジナル)

Stories are a fundamental aspect of human experience. Engaging deeply with stories and spotting plot holes — inconsistencies in a storyline that break the internal logic or rules of a story’s world — requires nuanced reasoning skills, including tracking entities and events and their interplay, abstract thinking, pragmatic narrative understanding, commonsense and social reasoning, and theory of mind. As Large Language Models (LLMs) increasingly generate, interpret, and modify text, rigorously assessing their narrative consistency and deeper language understanding becomes critical. However, existing benchmarks focus mainly on surface-level comprehension. In this work, we propose plot hole detection in stories as a proxy to evaluate language understanding and reasoning in LLMs. We introduce FlawedFictionsMaker, a novel algorithm to controllably and carefully synthesize plot holes in human-written stories. Using this algorithm, we construct a benchmark to evaluate LLMs’ plot hole detection abilities in stories — FlawedFictions — , which is robust to contamination, with human filtering ensuring high quality. We find that state-of-the-art LLMs struggle in accurately solving FlawedFictions regardless of the reasoning effort allowed, with performance significantly degrading as story length increases. Finally, we show that LLM-based story summarization and story generation are prone to introducing plot holes, with more than 50% and 100% increases in plot hole detection rates with respect to human-written originals.

arxiv情報

著者 Kabir Ahuja,Melanie Sclar,Yulia Tsvetkov
発行日 2025-04-18 08:44:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Finding Flawed Fictions: Evaluating Complex Reasoning in Language Models via Plot Hole Detection はコメントを受け付けていません

DETAM: Defending LLMs Against Jailbreak Attacks via Targeted Attention Modification

要約

大規模な言語モデル(LLM)の広範な採用により、脱獄攻撃はますます差し迫った安全性の懸念になりました。
安全に整合したLLMは、通常の有害なクエリに対して効果的に防御できますが、そのような攻撃に対して脆弱なままです。
既存の防御方法は、主に微調整または入力の変更に依存しています。これは、一般化が限られていることと有用性の低下に苦しむことがよくあります。
これに対処するために、ターゲットを絞った注意修正を介してLLMSの脱獄攻撃に対する防御能力を改善する微妙な防御アプローチであるDETAMを紹介します。
具体的には、成功した防御と失敗した防御の間の注意スコアの違いを分析して、脱獄攻撃に敏感な注意ヘッドを特定します。
推論中、私たちは注意を再現して、ユーザーの核となる意図を強調し、攻撃トークンからの干渉を最小限に抑えます。
私たちの実験結果は、DETAMが脱獄防衛のさまざまなベースラインを上回り、さまざまな攻撃やモデルにわたって堅牢な一般化を示すことを示しています。
さらに、モデルのユーティリティを評価する際に、過剰な防御データセットを組み込み、アプローチの優れたパフォーマンスをさらに検証します。
コードは、受け入れられるとすぐにリリースされます。

要約(オリジナル)

With the widespread adoption of Large Language Models (LLMs), jailbreak attacks have become an increasingly pressing safety concern. While safety-aligned LLMs can effectively defend against normal harmful queries, they remain vulnerable to such attacks. Existing defense methods primarily rely on fine-tuning or input modification, which often suffer from limited generalization and reduced utility. To address this, we introduce DETAM, a finetuning-free defense approach that improves the defensive capabilities against jailbreak attacks of LLMs via targeted attention modification. Specifically, we analyze the differences in attention scores between successful and unsuccessful defenses to identify the attention heads sensitive to jailbreak attacks. During inference, we reallocate attention to emphasize the user’s core intention, minimizing interference from attack tokens. Our experimental results demonstrate that DETAM outperforms various baselines in jailbreak defense and exhibits robust generalization across different attacks and models, maintaining its effectiveness even on in-the-wild jailbreak data. Furthermore, in evaluating the model’s utility, we incorporated over-defense datasets, which further validate the superior performance of our approach. The code will be released immediately upon acceptance.

arxiv情報

著者 Yu Li,Han Jiang,Zhihua Wei
発行日 2025-04-18 09:02:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DETAM: Defending LLMs Against Jailbreak Attacks via Targeted Attention Modification はコメントを受け付けていません

Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models

要約

不確実性の定量化(UQ)は、大規模な言語モデル(LLM)から真実の答えを引き出すための顕著なアプローチです。
これまで、情報ベースおよび一貫性ベースのUQは、LLMを介したテキスト生成の支配的なUQメソッドです。
密度ベースの方法は、エンコーダーベースのモデルを使用したテキスト分類においてUQに非常に効果的であるにもかかわらず、生成LLMであまり成功していません。
この作業では、テキスト生成のために、分類タスクに確立されたUQ技術であるマハラノビス距離(MD)を適応させ、新しい監視されたUQメソッドを紹介します。
私たちのメソッドは、LLMの複数の層からトークンの埋め込みを抽出し、各トークンのMDスコアを計算し、これらの機能でトレーニングされた線形回帰を使用して、堅牢な不確実性スコアを提供します。
11のデータセットでの広範な実験を通じて、私たちのアプローチが既存のUQメソッドよりも大幅に改善され、シーケンスレベルの選択的生成とクレームレベルのファクトチェックタスクの両方で正確で計算効率の高い不確実性スコアを提供することを実証します。
また、私たちの方法は、ドメイン外データに強力な一般化を示しており、LLMベースの幅広いアプリケーションに適しています。

要約(オリジナル)

Uncertainty quantification (UQ) is a prominent approach for eliciting truthful answers from large language models (LLMs). To date, information-based and consistency-based UQ have been the dominant UQ methods for text generation via LLMs. Density-based methods, despite being very effective for UQ in text classification with encoder-based models, have not been very successful with generative LLMs. In this work, we adapt Mahalanobis Distance (MD) – a well-established UQ technique in classification tasks – for text generation and introduce a new supervised UQ method. Our method extracts token embeddings from multiple layers of LLMs, computes MD scores for each token, and uses linear regression trained on these features to provide robust uncertainty scores. Through extensive experiments on eleven datasets, we demonstrate that our approach substantially improves over existing UQ methods, providing accurate and computationally efficient uncertainty scores for both sequence-level selective generation and claim-level fact-checking tasks. Our method also exhibits strong generalization to out-of-domain data, making it suitable for a wide range of LLM-based applications.

arxiv情報

著者 Artem Vazhentsev,Lyudmila Rvanova,Ivan Lazichny,Alexander Panchenko,Maxim Panov,Timothy Baldwin,Artem Shelmanov
発行日 2025-04-18 09:21:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models はコメントを受け付けていません

Improving Generalization in Intent Detection: GRPO with Reward-Based Curriculum Sampling

要約

タスク指向のダイアログ(TOD)システムの重要なコンポーネントである意図検出は、複雑な相互関係を備えた統合可能なツールの急速な流入に適応する上で大きな課題に直面しています。
ゼロショットの再定式化やLLMベースの動的認識などの既存のアプローチは、目に見えない意図に遭遇したときのパフォーマンスの劣化と闘い、誤ったタスクルーティングにつながります。
目に見えないタスクでのモデルの一般化パフォーマンスを強化するために、意図検出タスクのグループ相対ポリシー最適化(GRPO)トレーニング中に、報酬ベースのカリキュラムサンプリング(RCS)と組み合わせた強化学習(RL)を採用しています。
実験は、RLトレーニングモデルが一般化において監視された微調整(SFT)ベースラインを大幅に上回ることを示しています。
また、RCSの導入により、トレーニング中の困難なケースにモデルを集中させることにより、意図検出におけるRLの有効性を大幅に強化します。
さらに、RLに考え方のチェーン(COT)プロセスを組み込むことは、特に複雑な意図検出タスクの一般化を改善し、挑戦的なシナリオにおける思考の重要性を強調しています。
この作業は、意図検出タスクの一般化を進め、適応可能なダイアログシステムを展開するための実用的な洞察を提供します。

要約(オリジナル)

Intent detection, a critical component in task-oriented dialogue (TOD) systems, faces significant challenges in adapting to the rapid influx of integrable tools with complex interrelationships. Existing approaches, such as zero-shot reformulations and LLM-based dynamic recognition, struggle with performance degradation when encountering unseen intents, leading to erroneous task routing. To enhance the model’s generalization performance on unseen tasks, we employ Reinforcement Learning (RL) combined with a Reward-based Curriculum Sampling (RCS) during Group Relative Policy Optimization (GRPO) training in intent detection tasks. Experiments demonstrate that RL-trained models substantially outperform supervised fine-tuning (SFT) baselines in generalization. Besides, the introduction of the RCS, significantly bolsters the effectiveness of RL in intent detection by focusing the model on challenging cases during training. Moreover, incorporating Chain-of-Thought (COT) processes in RL notably improves generalization in complex intent detection tasks, underscoring the importance of thought in challenging scenarios. This work advances the generalization of intent detection tasks, offering practical insights for deploying adaptable dialogue systems.

arxiv情報

著者 Zihao Feng,Xiaoxue Wang,Ziwei Bai,Donghang Su,Bowen Wu,Qun Yu,Baoxun Wang
発行日 2025-04-18 09:52:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Improving Generalization in Intent Detection: GRPO with Reward-Based Curriculum Sampling はコメントを受け付けていません

Continual Pre-Training is (not) What You Need in Domain Adaption

要約

法的大規模な言語モデル(LLM)の最近の進歩は、タスクを自動化し、研究の精度を高め、複雑な意思決定プロセスをサポートすることにより、法的研究と実践の状況を変えました。
ただし、法的推論の複雑さ、専門言語の正確な解釈の必要性、および幻覚の可能性により、LLMを法的領域に効果的に適応させることは依然として困難なままです。
このペーパーでは、LLMSの法的推論能力の改善におけるドメイン適応継続的なトレーニング(DACP)の有効性を調べます。
台湾の法的枠組み内の法的推論タスクに関する一連の実験を通じて、DACPはドメイン固有の知識を強化しますが、すべての法的タスクでパフォーマンスを均一に改善しないことを実証します。
DACPに関与するトレードオフ、特に迅速なタスクにおけるモデルの一般化とパフォーマンスへの影響について説明し、法的AIのドメイン適応戦略を最適化するための将来の研究の方向性を提案します。

要約(オリジナル)

The recent advances in Legal Large Language Models (LLMs) have transformed the landscape of legal research and practice by automating tasks, enhancing research precision, and supporting complex decision-making processes. However, effectively adapting LLMs to the legal domain remains challenging due to the complexity of legal reasoning, the need for precise interpretation of specialized language, and the potential for hallucinations. This paper examines the efficacy of Domain-Adaptive Continual Pre-Training (DACP) in improving the legal reasoning capabilities of LLMs. Through a series of experiments on legal reasoning tasks within the Taiwanese legal framework, we demonstrate that while DACP enhances domain-specific knowledge, it does not uniformly improve performance across all legal tasks. We discuss the trade-offs involved in DACP, particularly its impact on model generalization and performance in prompt-based tasks, and propose directions for future research to optimize domain adaptation strategies in legal AI.

arxiv情報

著者 Pin-Er Chen,Da-Chen Lian,Shu-Kai Hsieh,Sieh-Chuen Huang,Hsuan-Lei Shao,Jun-Wei Chiu,Yang-Hsien Lin,Zih-Ching Chen,Cheng-Kuang,Eddie TC Huang,Simon See
発行日 2025-04-18 10:14:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Continual Pre-Training is (not) What You Need in Domain Adaption はコメントを受け付けていません

Can LLMs assist with Ambiguity? A Quantitative Evaluation of various Large Language Models on Word Sense Disambiguation

要約

あいまいな言葉は、現代のデジタルコミュニケーションでしばしば見られます。
語彙のあいまいさは、データが限られているため、従来の単語感覚解体(WSD)メソッドに挑戦します。
その結果、翻訳、情報の検索、および質問回答システムの効率は、これらの制限によって妨げられます。
この研究では、系統的な迅速な増強メカニズムとさまざまな感覚解釈で構成される知識ベース(KB)を組み合わせた新しいアプローチを使用して、WSDを改善するために大規模な言語モデル(LLM)の使用を調査しています。
提案された方法には、プロンプトがスピーチ(POS)タグ付け、あいまいな単語の同義語、アスペクトベースのセンスフィルタリング、LLMをガイドする少数のショットプロンプトによってサポートされるプロンプト増強のための人間のループアプローチが組み込まれています。
いくつかのショットチェーン(COT)プロンプトベースのアプローチを利用することにより、この作業はパフォーマンスの大幅な改善を示しています。
評価は、少数のテストデータとセンスタグを使用して実施されました。
この研究は、ソーシャルメディアとデジタルコミュニケーションにおける正確な単語解釈を進めています。

要約(オリジナル)

Ambiguous words are often found in modern digital communications. Lexical ambiguity challenges traditional Word Sense Disambiguation (WSD) methods, due to limited data. Consequently, the efficiency of translation, information retrieval, and question-answering systems is hindered by these limitations. This study investigates the use of Large Language Models (LLMs) to improve WSD using a novel approach combining a systematic prompt augmentation mechanism with a knowledge base (KB) consisting of different sense interpretations. The proposed method incorporates a human-in-loop approach for prompt augmentation where prompt is supported by Part-of-Speech (POS) tagging, synonyms of ambiguous words, aspect-based sense filtering and few-shot prompting to guide the LLM. By utilizing a few-shot Chain of Thought (COT) prompting-based approach, this work demonstrates a substantial improvement in performance. The evaluation was conducted using FEWS test data and sense tags. This research advances accurate word interpretation in social media and digital communication.

arxiv情報

著者 T. G. D. K. Sumanathilaka,Nicholas Micallef,Julian Hough
発行日 2025-04-18 10:26:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can LLMs assist with Ambiguity? A Quantitative Evaluation of various Large Language Models on Word Sense Disambiguation はコメントを受け付けていません