BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages

要約

世界中の人々は、感情を表現するために微妙で複雑な方法で言語を使用しています。
感情認識 – いくつかのNLPタスクの傘の用語 – は、NLPや他の分野のさまざまなアプリケーションに大きな影響を与えますが、この地域でのほとんどの作業は高リソース言語に焦点を当てています。
したがって、これにより、特に高品質のデータセットの不足に悩まされている低リソース言語の研究と提案されたソリューションの大きな格差が生じています。
このホワイトペーパーでは、28の異なる言語での多面的な感情発音のデータセットのコレクションであるBrightを紹介します。
Brightは、アフリカ、アジア、東ヨーロッパ、ラテンアメリカの主に低リソース言語をカバーしており、流fluentスピーカーが注釈が付けられたさまざまなドメインの事例をカバーしています。
データ収集と注釈プロセス、およびこれらのデータセットを構築することの課題について説明します。
次に、単一言語および横断的多面的な感情の識別、および強度レベルの感情認識のためのさまざまな実験結果を報告します。
LLMSを使用した場合とせずに結果を調査し、言語とテキストドメイン間のパフォーマンスの大きなばらつきを分析します。
明るいデータセットが、テキストベースの感情認識のギャップを埋め、その影響と有用性について議論するための一歩であることを示します。

要約(オリジナル)

People worldwide use language in subtle and complex ways to express emotions. While emotion recognition — an umbrella term for several NLP tasks — significantly impacts different applications in NLP and other fields, most work in the area is focused on high-resource languages. Therefore, this has led to major disparities in research and proposed solutions, especially for low-resource languages that suffer from the lack of high-quality datasets. In this paper, we present BRIGHTER — a collection of multilabeled emotion-annotated datasets in 28 different languages. BRIGHTER covers predominantly low-resource languages from Africa, Asia, Eastern Europe, and Latin America, with instances from various domains annotated by fluent speakers. We describe the data collection and annotation processes and the challenges of building these datasets. Then, we report different experimental results for monolingual and crosslingual multi-label emotion identification, as well as intensity-level emotion recognition. We investigate results with and without using LLMs and analyse the large variability in performance across languages and text domains. We show that BRIGHTER datasets are a step towards bridging the gap in text-based emotion recognition and discuss their impact and utility.

arxiv情報

著者 Shamsuddeen Hassan Muhammad,Nedjma Ousidhoum,Idris Abdulmumin,Jan Philip Wahle,Terry Ruas,Meriem Beloucif,Christine de Kock,Nirmal Surange,Daniela Teodorescu,Ibrahim Said Ahmad,David Ifeoluwa Adelani,Alham Fikri Aji,Felermino D. M. A. Ali,Ilseyar Alimova,Vladimir Araujo,Nikolay Babakov,Naomi Baes,Ana-Maria Bucur,Andiswa Bukula,Guanqun Cao,Rodrigo Tufino Cardenas,Rendi Chevi,Chiamaka Ijeoma Chukwuneke,Alexandra Ciobotaru,Daryna Dementieva,Murja Sani Gadanya,Robert Geislinger,Bela Gipp,Oumaima Hourrane,Oana Ignat,Falalu Ibrahim Lawan,Rooweither Mabuya,Rahmad Mahendra,Vukosi Marivate,Andrew Piper,Alexander Panchenko,Charles Henrique Porto Ferreira,Vitaly Protasov,Samuel Rutunda,Manish Shrivastava,Aura Cristina Udrea,Lilian Diana Awuor Wanzare,Sophie Wu,Florian Valentin Wunderlich,Hanif Muhammad Zhafran,Tianhui Zhang,Yi Zhou,Saif M. Mohammad
発行日 2025-03-10 12:20:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages はコメントを受け付けていません

Fact Recall, Heuristics or Pure Guesswork? Precise Interpretations of Language Models for Fact Completion

要約

言語モデル(LMS)は、事実の関連性のリコールに対応するものではなく、プロンプト内の多くの可能な信号に基づいて正しい予測を行うことができます。
ただし、LMSの現在の解釈はこれを考慮していません。
たとえば、「Astrid Lindgrenが「スウェーデン」と「スウェーデン」という対応する完了で生まれたクエリを考えると、著者が生まれた場所を知るか、スウェーデンの名前の名前を持つ人がスウェーデンで生まれたと仮定したことに基づいて、予測は違いはありません。
このホワイトペーパーでは、モデル固有のレシピ – プリズム – 4つの異なる予測シナリオの例を使用してデータセットを構築するための概要を示します:一般的な言語モデリング、推測、ヒューリスティックリコール、正確な事実のリコール。
2つの一般的な解釈可能性方法をシナリオに適用します:因果追跡(CT)と情報フロー分析。
どちらも、各シナリオで明確な結果をもたらすことがわかります。
正確な事実のリコールと一般的な言語モデリングシナリオの結果は、事実リコールのためのミッドレンジMLPサブレイヤーの重要性に関する以前の結論を確認し、一方、推測とヒューリスティックの結果は、最後のトークンポジションMLPサブレイヤーの重要な役割を示しています。
要約すると、LMSでの事実完了に関するより広範で詳細な研究のためのリソースを提供し、LMSが事実関連のクエリをどのように処理するかをより微妙な理解を提供する分析を提供します。

要約(オリジナル)

Language models (LMs) can make a correct prediction based on many possible signals in a prompt, not all corresponding to recall of factual associations. However, current interpretations of LMs fail to take this into account. For example, given the query ‘Astrid Lindgren was born in’ with the corresponding completion ‘Sweden’, no difference is made between whether the prediction was based on knowing where the author was born or assuming that a person with a Swedish-sounding name was born in Sweden. In this paper, we present a model-specific recipe – PrISM – for constructing datasets with examples of four different prediction scenarios: generic language modeling, guesswork, heuristics recall and exact fact recall. We apply two popular interpretability methods to the scenarios: causal tracing (CT) and information flow analysis. We find that both yield distinct results for each scenario. Results for exact fact recall and generic language modeling scenarios confirm previous conclusions about the importance of mid-range MLP sublayers for fact recall, while results for guesswork and heuristics indicate a critical role of late last token position MLP sublayers. In summary, we contribute resources for a more extensive and granular study of fact completion in LMs, together with analyses that provide a more nuanced understanding of how LMs process fact-related queries.

arxiv情報

著者 Denitsa Saynova,Lovisa Hagström,Moa Johansson,Richard Johansson,Marco Kuhlmann
発行日 2025-03-10 12:47:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Fact Recall, Heuristics or Pure Guesswork? Precise Interpretations of Language Models for Fact Completion はコメントを受け付けていません

SemEval-2025 Task 11: Bridging the Gap in Text-Based Emotion Detection

要約

テキストベースの感情検出に関する共有タスクを提示し、7つの異なる言語ファミリから30以上の言語をカバーしています。
これらの言語は主に低リソースであり、さまざまな大陸で話されています。
データインスタンスは6つの感情クラスにマルチラベル付けされており、感情強度のために注釈が付けられた11の言語の追加データセットがあります。
参加者は、3つのトラックでラベルを予測するように求められました:(a)単一言語の設定での感情ラベル、(b)感情強度スコア、および(c)言語間設定の感情ラベル。
このタスクは、700人以上の参加者を引き付けました。
200を超えるチームと93のシステム説明論文から最終的な提出を受け取りました。
ベースラインの結果、および最もパフォーマンスの高いシステム、最も一般的なアプローチ、およびさまざまなトラックや言語で最も効果的な方法に関する調査結果を報告します。
このタスクのデータセットは公開されています。

要約(オリジナル)

We present our shared task on text-based emotion detection, covering more than 30 languages from seven distinct language families. These languages are predominantly low-resource and spoken across various continents. The data instances are multi-labeled into six emotional classes, with additional datasets in 11 languages annotated for emotion intensity. Participants were asked to predict labels in three tracks: (a) emotion labels in monolingual settings, (b) emotion intensity scores, and (c) emotion labels in cross-lingual settings. The task attracted over 700 participants. We received final submissions from more than 200 teams and 93 system description papers. We report baseline results, as well as findings on the best-performing systems, the most common approaches, and the most effective methods across various tracks and languages. The datasets for this task are publicly available.

arxiv情報

著者 Shamsuddeen Hassan Muhammad,Nedjma Ousidhoum,Idris Abdulmumin,Seid Muhie Yimam,Jan Philip Wahle,Terry Ruas,Meriem Beloucif,Christine De Kock,Tadesse Destaw Belay,Ibrahim Said Ahmad,Nirmal Surange,Daniela Teodorescu,David Ifeoluwa Adelani,Alham Fikri Aji,Felermino Ali,Vladimir Araujo,Abinew Ali Ayele,Oana Ignat,Alexander Panchenko,Yi Zhou,Saif M. Mohammad
発行日 2025-03-10 12:49:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SemEval-2025 Task 11: Bridging the Gap in Text-Based Emotion Detection はコメントを受け付けていません

Machine Against the RAG: Jamming Retrieval-Augmented Generation with Blocker Documents

要約

検索された生成(RAG)システムは、知識データベースから関連ドキュメントを取得し、取得したドキュメントにLLMを適用することにより、クエリに応答します。
信頼されていないコンテンツを持つデータベースで動作するRAGシステムは、ジャミングと呼ばれるサービス拒否攻撃に対して脆弱であることを実証します。
敵は、特定のクエリに応じて取得され、このクエリに応答しないRAGシステムになり、関連情報がないため、または回答が安全でないためにこのクエリに回答しない「ブロッカー」ドキュメントをデータベースに追加できます。
ブラックボックスの最適化に基づいた新しい方法を含む、ブロッカードキュメントを生成するためのいくつかの方法の有効性を説明および測定します。
(1)我々の方法は命令注入に依存せず、(2)ターゲットRAGシステムで使用される埋め込みまたはLLMを敵に知る必要はなく、(3)補助LLMを使用しません。
いくつかの埋め込みとLLMに対する妨害攻撃を評価し、LLMの既存の安全メトリックがジャミングに対する脆弱性を捉えていないことを示しています。
次に、ブロッカードキュメントに対する防御について説明します。

要約(オリジナル)

Retrieval-augmented generation (RAG) systems respond to queries by retrieving relevant documents from a knowledge database and applying an LLM to the retrieved documents. We demonstrate that RAG systems that operate on databases with untrusted content are vulnerable to denial-of-service attacks we call jamming. An adversary can add a single “blocker” document to the database that will be retrieved in response to a specific query and result in the RAG system not answering this query, ostensibly because it lacks relevant information or because the answer is unsafe. We describe and measure the efficacy of several methods for generating blocker documents, including a new method based on black-box optimization. Our method (1) does not rely on instruction injection, (2) does not require the adversary to know the embedding or LLM used by the target RAG system, and (3) does not employ an auxiliary LLM. We evaluate jamming attacks on several embeddings and LLMs and demonstrate that the existing safety metrics for LLMs do not capture their vulnerability to jamming. We then discuss defenses against blocker documents.

arxiv情報

著者 Avital Shafran,Roei Schuster,Vitaly Shmatikov
発行日 2025-03-10 12:56:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG | Machine Against the RAG: Jamming Retrieval-Augmented Generation with Blocker Documents はコメントを受け付けていません

A Graph-based Verification Framework for Fact-Checking

要約

ファクトチェックは、誤った情報との闘いにおいて重要な役割を果たします。
クレーム分解に大規模な言語モデル(LLMS)を使用した既存の方法は、2つの重要な制限に直面しています。(1)分解が不十分で、検証プロセスに不必要な複雑さを導入し、(2)言及のあいまいさ、誤った検証結果につながります。
これらの課題に対処するために、不十分な分解問題に対処し、グラフ構造を介して曖昧さを言及するためのトリプレットで構成されるクレームグラフを導入することをお勧めします。
このコアアイデアに基づいて、ファクトチェックするためにグラフベースのフレームワークであるGraphFCを提案します。
フレームワークには、3つの重要なコンポーネントがあります。グラフ構造は、クレームグラフとエビデンスグラフの両方を構築します。
トリプレット検証順に優先順位を付けるグラフ誘導計画。
グラフガイド付きチェックは、クレームグラフとエビデンスグラフの間で1つずつトリプルを検証します。
広範な実験では、GRAPHFCがリレーショナル制約を通じて参照のあいまいさを解決しながら、3つのデータセットで最先端のパフォーマンスを達成しながら、細粒の分解を可能にすることが示されています。

要約(オリジナル)

Fact-checking plays a crucial role in combating misinformation. Existing methods using large language models (LLMs) for claim decomposition face two key limitations: (1) insufficient decomposition, introducing unnecessary complexity to the verification process, and (2) ambiguity of mentions, leading to incorrect verification results. To address these challenges, we suggest introducing a claim graph consisting of triplets to address the insufficient decomposition problem and reduce mention ambiguity through graph structure. Based on this core idea, we propose a graph-based framework, GraphFC, for fact-checking. The framework features three key components: graph construction, which builds both claim and evidence graphs; graph-guided planning, which prioritizes the triplet verification order; and graph-guided checking, which verifies the triples one by one between claim and evidence graphs. Extensive experiments show that GraphFC enables fine-grained decomposition while resolving referential ambiguities through relational constraints, achieving state-of-the-art performance across three datasets.

arxiv情報

著者 Yani Huang,Richong Zhang,Zhijie Nie,Junfan Chen,Xuefeng Zhang
発行日 2025-03-10 13:02:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Graph-based Verification Framework for Fact-Checking はコメントを受け付けていません

An Information-Theoretic Approach to Identifying Formulaic Clusters in Textual Data

要約

文学的であろうと歴史的であろうと、テキストは、その目的、著者、文化的文脈によって形作られた構造的および文体的なパターンを示します。
繰り返しと制約された表現を特徴とする定式的なテキストは、より動的な構成と比較して、自己情報の変動性が低い傾向があります。
歴史的な文書、特にヘブライ語の聖書のような多著者のテキストにそのようなパターンを特定することは、その起源、目的、伝達に関する洞察を提供します。
この研究の目的は、繰り返しフレーズ、構文構造、スタイルマーカーを分析することにより、定式的なクラスター(体系的な繰り返しと構造的制約を示すセクション)を特定することを目的としています。
ただし、特に事前定義されたラベルなしでパターンを推測する必要がある高次元のテキストスペースでは、監視されていない方法で非形式的要素と区別することは計算上の課題をもたらします。
これに対処するために、小さなサンプルの高次元設定で不安定になる共分散ベースの方法とは異なり、テキストの構造化されたパターンを検出するために、加重自己情報分布を活用する情報理論的アルゴリズムを開発します。
差別的な自己情報に基づいた連続的な定式化を使用して古典的な離散自己情報測定を拡張することにより、ガウス症の下での神経埋め込みを含むさまざまなタイプのテキスト表現に適用される方法のままです。
ヘブライ語の聖書の仮説を立てた著者部門に適用された私たちのアプローチは、スタイル層を分離し、テキストの層別化のための定量的な枠組みを提供します。
この方法は、構成パターンを分析する能力を高め、複雑な著者と編集プロセスによって形作られたテキストの文学的および文化的進化に関するより深い洞察を提供します。

要約(オリジナル)

Texts, whether literary or historical, exhibit structural and stylistic patterns shaped by their purpose, authorship, and cultural context. Formulaic texts, characterized by repetition and constrained expression, tend to have lower variability in self-information compared to more dynamic compositions. Identifying such patterns in historical documents, particularly multi-author texts like the Hebrew Bible provides insights into their origins, purpose, and transmission. This study aims to identify formulaic clusters — sections exhibiting systematic repetition and structural constraints — by analyzing recurring phrases, syntactic structures, and stylistic markers. However, distinguishing formulaic from non-formulaic elements in an unsupervised manner presents a computational challenge, especially in high-dimensional textual spaces where patterns must be inferred without predefined labels. To address this, we develop an information-theoretic algorithm leveraging weighted self-information distributions to detect structured patterns in text, unlike covariance-based methods, which become unstable in small-sample, high-dimensional settings, our approach directly models variations in self-information to identify formulaicity. By extending classical discrete self-information measures with a continuous formulation based on differential self-information, our method remains applicable across different types of textual representations, including neural embeddings under Gaussian priors. Applied to hypothesized authorial divisions in the Hebrew Bible, our approach successfully isolates stylistic layers, providing a quantitative framework for textual stratification. This method enhances our ability to analyze compositional patterns, offering deeper insights into the literary and cultural evolution of texts shaped by complex authorship and editorial processes.

arxiv情報

著者 Gideon Yoffe,Yair Segev,Barak Sober
発行日 2025-03-10 13:24:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | An Information-Theoretic Approach to Identifying Formulaic Clusters in Textual Data はコメントを受け付けていません

Benchmarking Chinese Medical LLMs: A Medbench-based Analysis of Performance Gaps and Hierarchical Optimization Strategies

要約

医療大規模な言語モデル(LLM)の評価と改善は、特に正確性、安全性、倫理的整合を確保するために、実際の展開に不可欠です。
既存のフレームワークは、ドメイン固有のエラーパターンを不十分に分析するか、クロスモーダルの課題に対処します。
この研究では、メドベンチの上位10モデルの体系的な分析を通じて、誤った応答を8つのタイプに分類することにより、純粋なエラーの分析を導入します。脱落、幻覚、形式の不一致、因果的推論欠乏、文脈上の不一致、未回答、出力エラー、および医療言語生成の不足。
10の主要なモデルの評価は脆弱性を明らかにします:医学知識のリコールで0.86の精度を達成したにもかかわらず、重要な推論タスクは96.3%の省略を示しますが、安全倫理評価は、オプションの下で驚くべき矛盾(堅牢性スコア:0.79)を暴露します。
私たちの分析は、知識の境界施行と多段階的推論の体系的な弱点を明らかにします。
これらに対処するために、迅速なエンジニアリングや知識を得た検索から、ハイブリッドニューロサンボリックアーキテクチャや因果推論フレームワークまで、4つのレベルにまたがる4つのレベルにまたがる階層化された最適化戦略を提案します。
この作業は、エラー駆動型の洞察を通じて評価パラダイムを再定義しながら、臨床的に堅牢なLLMSを開発するための実用的なロードマップを確立し、最終的にはハイステークスの医療環境におけるAIの安全性と信頼性を高めます。

要約(オリジナル)

The evaluation and improvement of medical large language models (LLMs) are critical for their real-world deployment, particularly in ensuring accuracy, safety, and ethical alignment. Existing frameworks inadequately dissect domain-specific error patterns or address cross-modal challenges. This study introduces a granular error taxonomy through systematic analysis of top 10 models on MedBench, categorizing incorrect responses into eight types: Omissions, Hallucination, Format Mismatch, Causal Reasoning Deficiency, Contextual Inconsistency, Unanswered, Output Error, and Deficiency in Medical Language Generation. Evaluation of 10 leading models reveals vulnerabilities: despite achieving 0.86 accuracy in medical knowledge recall, critical reasoning tasks show 96.3% omission, while safety ethics evaluations expose alarming inconsistency (robustness score: 0.79) under option shuffled. Our analysis uncovers systemic weaknesses in knowledge boundary enforcement and multi-step reasoning. To address these, we propose a tiered optimization strategy spanning four levels, from prompt engineering and knowledge-augmented retrieval to hybrid neuro-symbolic architectures and causal reasoning frameworks. This work establishes an actionable roadmap for developing clinically robust LLMs while redefining evaluation paradigms through error-driven insights, ultimately advancing the safety and trustworthiness of AI in high-stakes medical environments.

arxiv情報

著者 Luyi Jiang,Jiayuan Chen,Lu Lu,Xinwei Peng,Lihao Liu,Junjun He,Jie Xu
発行日 2025-03-10 13:28:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Benchmarking Chinese Medical LLMs: A Medbench-based Analysis of Performance Gaps and Hierarchical Optimization Strategies はコメントを受け付けていません

Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation

要約

マルチモーダル大手言語モデル(MLLM)は、複雑な理解と生成タスクに優れているさまざまなモダリティを統合する際の顕著な進歩を示しています。
彼らの成功にもかかわらず、MLLMは会話の敵対的なインプット、特に否定的な議論に対して脆弱なままです。
このペーパーでは、多様なベンチマーク全体で最先端のMLLMを体系的に評価し、最初に正しい応答をするために否定引数が導入されたときに大きなパフォーマンス低下を明らかにします。
特に、MLLMの否定的議論に対する脆弱性を評価するために特別に設計された最初のベンチマークガスライトベンチを導入します。
Gaslightingbenchは、既存のデータセットからキュレーションされた複数選択の質問と、20の多様なカテゴリにわたって生成された否定プロンプトで構成されています。
広範な評価を通して、Gemini-1.5-Flash、GPT-4O、Claude-3.5-Sonnetなどの独自のモデルは、QWEN2-VLやLlavaなどのオープンソースのカウンターパートと比較してより良い回復力を示していることがわかります。
しかし、評価されたすべてのMLLMは、会話中の否定的な議論の下で論理的な一貫性を維持するのに苦労しています。
私たちの調査結果は、否定入力に対するMLLMの堅牢性を改善するための重要な洞察を提供し、より信頼性が高く信頼できるマルチモーダルAIシステムの開発に貢献しています。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have exhibited remarkable advancements in integrating different modalities, excelling in complex understanding and generation tasks. Despite their success, MLLMs remain vulnerable to conversational adversarial inputs, particularly negation arguments. This paper systematically evaluates state-of-the-art MLLMs across diverse benchmarks, revealing significant performance drops when negation arguments are introduced to initially correct responses. Notably, we introduce the first benchmark GaslightingBench, specifically designed to evaluate the vulnerability of MLLMs to negation arguments. GaslightingBench consists of multiple-choice questions curated from existing datasets, along with generated negation prompts across 20 diverse categories. Throughout extensive evaluation, we find that proprietary models such as Gemini-1.5-flash, GPT-4o and Claude-3.5-Sonnet demonstrate better resilience compared to open-source counterparts like Qwen2-VL and LLaVA. However, all evaluated MLLMs struggle to maintain logical consistency under negation arguments during conversation. Our findings provide critical insights for improving the robustness of MLLMs against negation inputs, contributing to the development of more reliable and trustworthy multimodal AI systems.

arxiv情報

著者 Bin Zhu,Huiyan Qi,Yinxuan Gui,Jingjing Chen,Chong-Wah Ngo,Ee-Peng Lim
発行日 2025-03-10 13:50:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation はコメントを受け付けていません

KL-geodesics flow matching with a novel sampling scheme

要約

非自動性言語モデルは、すべてのトークンを同時に生成し、従来の自己回帰モデルよりも潜在的な速度の利点を提供しますが、テキストデータに固有の複雑な依存関係をモデル化する際の課題に直面しています。
この作業では、テキスト生成の条件付きフローマッチングアプローチを調査します。
トークンを\(v \) – 寸法シンプレックスの1つのホットベクトルとして表し、ロジット空間の線形補間に対応するKullback-Leibler(kl)Divergenceの下で測地線を利用します。
条件付き尤度\(p _ {\ theta}(x_1 \ mid x_t、t)\)を最大化すると、ロジット補間の下で正確な流れ速度が得られるという理論的正当化を提供します。
基本的な推論の準最適なパフォーマンスに対処するために、条件付き分布から繰り返しサンプリングし、追加のノイズを導入する新しい経験的サンプリングスキームを提案し、完全な理論的基礎がないにもかかわらず結果を大幅に改善します。
さらに、基本的なアプローチとサンプリングスキームを組み合わせたハイブリッド推論方法を提案します。
この方法は、離散フローマッチングの以前のSOTAメソッドと比較して、条件付きおよび無条件のテキスト生成実験の優れた性能を示しています。

要約(オリジナル)

Non-autoregressive language models generate all tokens simultaneously, offering potential speed advantages over traditional autoregressive models, but they face challenges in modeling the complex dependencies inherent in text data. In this work, we investigate a conditional flow matching approach for text generation. We represent tokens as one-hot vectors in a \(V\)-dimensional simplex and utilize geodesics under the Kullback-Leibler (KL) divergence, which correspond to linear interpolation in logit space. We provide a theoretical justification that maximizing the conditional likelihood \(P_{\theta}(x_1 \mid x_t, t)\) yields the exact flow matching velocity under logit interpolation. To address the suboptimal performance of basic inference, we propose a novel empirical sampling scheme that iteratively samples from the conditional distribution and introduces additional noise, significantly improving results despite lacking full theoretical underpinnings. Furthermore, we propose a hybrid inference method that combines the basic approach with the sampling scheme. This method demonstrates superior performance on both conditional and unconditional text generation experiments compared to previous SOTA method for discrete flow matching.

arxiv情報

著者 Egor Sevriugov,Ivan Oseledets
発行日 2025-03-10 13:58:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | KL-geodesics flow matching with a novel sampling scheme はコメントを受け付けていません

Extracting Information in a Low-resource Setting: Case Study on Bioinformatics Workflows

要約

バイオインフォマティクスのワークフローは、複雑な生物学的データ分析に不可欠であり、多くの場合、科学記事で公開リポジトリのソースコードを含む記事で説明されています。
記事から詳細なワークフロー情報を抽出すると、アクセシビリティと再利用性が向上する可能性がありますが、限られた注釈付きコーパスによって妨げられます。
これに対処するために、この問題を低リソース抽出タスクとして組み立て、4つの戦略をテストしました。1)調整された注釈付きコーパスの作成、2)既存および新しいコーパスを備えたマスクされた言語モデルを使用して、自己回復言語モデルを使用して、nerを使用して、ワークフローの知識を統合します。
16のエンティティで注釈された52の記事の新しいコーパスであるBiotoflowを使用して、ScibertベースのNERモデルは70.4 F-Measureを達成し、アノテーター間契約に匹敵します。
知識統合は特定のエンティティのパフォーマンスを改善しましたが、情報スキーマ全体であまり効果的ではありませんでした。
私たちの結果は、バイオインフォマティクスワークフローの高性能情報抽出が達成可能であることを示しています。

要約(オリジナル)

Bioinformatics workflows are essential for complex biological data analyses and are often described in scientific articles with source code in public repositories. Extracting detailed workflow information from articles can improve accessibility and reusability but is hindered by limited annotated corpora. To address this, we framed the problem as a low-resource extraction task and tested four strategies: 1) creating a tailored annotated corpus, 2) few-shot named-entity recognition (NER) with an autoregressive language model, 3) NER using masked language models with existing and new corpora, and 4) integrating workflow knowledge into NER models. Using BioToFlow, a new corpus of 52 articles annotated with 16 entities, a SciBERT-based NER model achieved a 70.4 F-measure, comparable to inter-annotator agreement. While knowledge integration improved performance for specific entities, it was less effective across the entire information schema. Our results demonstrate that high-performance information extraction for bioinformatics workflows is achievable.

arxiv情報

著者 Clémence Sebe,Sarah Cohen-Boulakia,Olivier Ferret,Aurélie Névéol
発行日 2025-03-10 14:00:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Extracting Information in a Low-resource Setting: Case Study on Bioinformatics Workflows はコメントを受け付けていません