Autoregressive Language Models for Knowledge Base Population: A case study in the space mission domain

要約

ナレッジベースの人口KBPは、ドメインコーパスを活用することにより、組織の最新の知識ベースを専門化および維持する上で重要な役割を果たします。
大規模な言語モデルでサポートされているますます大きなコンテキストウィンドウに動機付けられているため、エンドツーエンドKPBの自己回帰言語モデルを微調整することを提案します。
私たちのケーススタディには、宇宙ミッションナレッジグラフの人口が含まれます。
モデルを微調整するために、既存のドメインリソースをタップするエンドツーエンドKBPのデータセットを生成します。
私たちのケーススタディは、限られたサイズの微調整された言語モデルが、KBPタスクの大規模なモデルよりも競争力の高い精度を達成できることを示しています。
KBPに特化した小さなモデルは、手頃な価格の展開と低コストの推論を提供します。
さらに、KBPスペシャリストモデルでは、オントロジーをプロンプトに含める必要はなく、追加の入力テキストまたは出力シリアル化のためにコンテキストでより多くのスペースを確保できます。

要約(オリジナル)

Knowledge base population KBP plays a crucial role in populating and maintaining knowledge bases up-to-date in organizations by leveraging domain corpora. Motivated by the increasingly large context windows supported by large language models, we propose to fine-tune an autoregressive language model for end-toend KPB. Our case study involves the population of a space mission knowledge graph. To fine-tune the model we generate a dataset for end-to-end KBP tapping into existing domain resources. Our case study shows that fine-tuned language models of limited size can achieve competitive and even higher accuracy than larger models in the KBP task. Smaller models specialized for KBP offer affordable deployment and lower-cost inference. Moreover, KBP specialist models do not require the ontology to be included in the prompt, allowing for more space in the context for additional input text or output serialization.

arxiv情報

著者 Andrés García-Silva,José Manuel Gómez-Pérez
発行日 2025-03-24 09:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Autoregressive Language Models for Knowledge Base Population: A case study in the space mission domain はコメントを受け付けていません

SciClaims: An End-to-End Generative System for Biomedical Claim Analysis

要約

科学文献、特に生物医学研究における重要な主張を検証することは、正確性を確保し、知識を高めるために不可欠です。
このプロセスは、急速な科学的進歩が自動化と深いドメインの専門知識を必要とする製薬業界のようなセクターで重要です。
ただし、現在のソリューションには大きな制限があります。
それらは、すべてのクレーム抽出、証拠の検索、および検証手順を含むエンドツーエンドのパイプラインを欠いています。
複雑なNLPおよび情報検索パイプラインに依存している。
多くの場合、請求検証の結果に対して明確でユーザーフレンドリーな正当化を提供できません。
これらの課題に対処するために、科学的請求分析プロセス全体をシームレスに統合する最先端の大手言語モデル(LLMS)を搭載した高度なシステムであるSciclaimsを紹介します。
Sciclaimsは、追加の微調整を必要とせずに、クレーム抽出と検証の両方で以前のアプローチを上回り、自動科学的請求分析のための新しいベンチマークを設定します。

要約(オリジナル)

Validating key claims in scientific literature, particularly in biomedical research, is essential for ensuring accuracy and advancing knowledge. This process is critical in sectors like the pharmaceutical industry, where rapid scientific progress requires automation and deep domain expertise. However, current solutions have significant limitations. They lack end-to-end pipelines encompassing all claim extraction, evidence retrieval, and verification steps; rely on complex NLP and information retrieval pipelines prone to multiple failure points; and often fail to provide clear, user-friendly justifications for claim verification outcomes. To address these challenges, we introduce SciClaims, an advanced system powered by state-of-the-art large language models (LLMs) that seamlessly integrates the entire scientific claim analysis process. SciClaims outperforms previous approaches in both claim extraction and verification without requiring additional fine-tuning, setting a new benchmark for automated scientific claim analysis.

arxiv情報

著者 Raúl Ortega,José Manuel Gómez-Pérez
発行日 2025-03-24 10:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DL | SciClaims: An End-to-End Generative System for Biomedical Claim Analysis はコメントを受け付けていません

Natural Language Processing for Electronic Health Records in Scandinavian Languages: Norwegian, Swedish, and Danish

要約

背景:臨床自然言語処理(NLP)は、非構造化された臨床テキストデータを抽出、処理、分析するための計算方法の使用を指し、さまざまな臨床タスクで医療を変換する大きな可能性を秘めています。
目的:この研究の目的は、スカンジナビア本土の臨床テキストの最先端のNLPメソッドを包括的に評価および分析するための系統的レビューを実行することです。
方法:PubMed、Sciencedirect、Google Scholar、ACM Digital Library、IEEE Xploreを含むさまざまなオンラインデータベースで文献検索が実施されました。2022年12月から2024年2月までに、追加の記事への関連する言及も使用されました。
最終プールには、スカンジナビアの本土で臨床NLPを実施し、2010年から2024年の間に英語で掲載された記事が含まれています。
一般的に、このレビューでは、言語間のいくつかの観察可能なギャップと格差にもかかわらず、地域全体の肯定的な発展を特定しました。
トランスベースのモデルの採用レベルにはかなりの格差があります。
識別除去などの重要なタスクでは、スウェーデンのテキストと比較してノルウェーとデンマーク語に焦点を当てた研究活動が大幅に少ないです。
さらに、このレビューでは、データ、実験コード、事前に訓練されたモデル、地域の適応および転送学習率など、低レベルの共有リソースが特定されました。
結論:このレビューは、スカンジナビアの本土の電子健康記録(EHR)テキストの最先端の臨床NLPの包括的な評価を提示し、地域の分野の急速な進歩を妨げる潜在的な障壁と課題を強調しました。

要約(オリジナル)

Background: Clinical natural language processing (NLP) refers to the use of computational methods for extracting, processing, and analyzing unstructured clinical text data, and holds a huge potential to transform healthcare in various clinical tasks. Objective: The study aims to perform a systematic review to comprehensively assess and analyze the state-of-the-art NLP methods for the mainland Scandinavian clinical text. Method: A literature search was conducted in various online databases including PubMed, ScienceDirect, Google Scholar, ACM digital library, and IEEE Xplore between December 2022 and February 2024. Further, relevant references to the included articles were also used to solidify our search. The final pool includes articles that conducted clinical NLP in the mainland Scandinavian languages and were published in English between 2010 and 2024. Results: Out of the 113 articles, 18% (n=21) focus on Norwegian clinical text, 64% (n=72) on Swedish, 10% (n=11) on Danish, and 8% (n=9) focus on more than one language. Generally, the review identified positive developments across the region despite some observable gaps and disparities between the languages. There are substantial disparities in the level of adoption of transformer-based models. In essential tasks such as de-identification, there is significantly less research activity focusing on Norwegian and Danish compared to Swedish text. Further, the review identified a low level of sharing resources such as data, experimentation code, pre-trained models, and rate of adaptation and transfer learning in the region. Conclusion: The review presented a comprehensive assessment of the state-of-the-art Clinical NLP for electronic health records (EHR) text in mainland Scandinavian languages and, highlighted the potential barriers and challenges that hinder the rapid advancement of the field in the region.

arxiv情報

著者 Ashenafi Zebene Woldaregay,Jørgen Aarmo Lund,Phuong Dinh Ngo,Mariyam Tayefi,Joel Burman,Stine Hansen,Martin Hylleholt Sillesen,Hercules Dalianis,Robert Jenssen,Lindsetmo Rolf Ole,Karl Øyvind Mikalsen
発行日 2025-03-24 10:47:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Natural Language Processing for Electronic Health Records in Scandinavian Languages: Norwegian, Swedish, and Danish はコメントを受け付けていません

Instruction-Aligned Visual Attention for Mitigating Hallucinations in Large Vision-Language Models

要約

大規模なビジョン言語モデル(LVLMS)の大幅な成功にもかかわらず、これらのモデルは画像を説明するときに幻覚を受け、存在しないオブジェクトを含む答えを生成します。
これらのモデルは、質問に答えるための重要な情報を含まない特定の無関係な画像トークンに過度に焦点を当てる傾向があると報告されています。
これに対処するために、2つの異なる命令の下で注意力の変化を比較することにより、無関係なトークンを識別する命令に合った視覚的注意(IAVA)アプローチを提案します。
対照的なデコードを適用することにより、元の画像トークンと無関係な画像トークンから生成されたロジットを動的に調整し、モデルの無関係な情報を減らします。
実験結果は、IAVAが、オブジェクトの幻覚を緩和する際に、MME、Pope、TextVQAなどのベンチマーク上の既存のデコード技術を一貫して上回ることを示しています。
私たちのIAVAアプローチは、https://github.com/lee-lab558/iavaでオンラインで入手できます。

要約(オリジナル)

Despite the significant success of Large Vision-Language models(LVLMs), these models still suffer hallucinations when describing images, generating answers that include non-existent objects. It is reported that these models tend to over-focus on certain irrelevant image tokens that do not contain critical information for answering the question and distort the output. To address this, we propose an Instruction-Aligned Visual Attention(IAVA) approach, which identifies irrelevant tokens by comparing changes in attention weights under two different instructions. By applying contrastive decoding, we dynamically adjust the logits generated from original image tokens and irrelevant image tokens, reducing the model’s over-attention to irrelevant information. The experimental results demonstrate that IAVA consistently outperforms existing decoding techniques on benchmarks such as MME, POPE, and TextVQA in mitigating object hallucinations. Our IAVA approach is available online at https://github.com/Lee-lab558/IAVA.

arxiv情報

著者 Bin Li,Dehong Gao,Yeyuan Wang,Linbo Jin,Shanqing Yu,Xiaoyan Cai,Libin Yang
発行日 2025-03-24 11:09:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Instruction-Aligned Visual Attention for Mitigating Hallucinations in Large Vision-Language Models はコメントを受け付けていません

Self-Reported Confidence of Large Language Models in Gastroenterology: Analysis of Commercial, Open-Source, and Quantized Models

要約

この研究では、300の胃腸科のボードスタイルの質問を使用して、いくつかの大規模な言語モデル(GPT、Claude、Llama、Phi、Mistral、Gemini、Gemma、Qwen)にわたって自己報告された反応の確実性を評価しました。
最高のパフォーマンスモデル(GPT-O1プレビュー、GPT-4O、およびClaude-3.5-Sonnet)は、0.15-0.2のBrierスコアと0.6のAurocを達成しました。
新しいモデルはパフォーマンスの向上を実証しましたが、すべてが自信過剰に一貫した傾向を示しました。
不確実性の推定は、ヘルスケアでのLLMの安全な使用に大きな課題を提示します。
キーワード:大規模な言語モデル。
自信の誘発;
人工知能;
胃腸科;
不確実性の定量化

要約(オリジナル)

This study evaluated self-reported response certainty across several large language models (GPT, Claude, Llama, Phi, Mistral, Gemini, Gemma, and Qwen) using 300 gastroenterology board-style questions. The highest-performing models (GPT-o1 preview, GPT-4o, and Claude-3.5-Sonnet) achieved Brier scores of 0.15-0.2 and AUROC of 0.6. Although newer models demonstrated improved performance, all exhibited a consistent tendency towards overconfidence. Uncertainty estimation presents a significant challenge to the safe use of LLMs in healthcare. Keywords: Large Language Models; Confidence Elicitation; Artificial Intelligence; Gastroenterology; Uncertainty Quantification

arxiv情報

著者 Nariman Naderi,Seyed Amir Ahmad Safavi-Naini,Thomas Savage,Zahra Atf,Peter Lewis,Girish Nadkarni,Ali Soroush
発行日 2025-03-24 11:16:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG | Self-Reported Confidence of Large Language Models in Gastroenterology: Analysis of Commercial, Open-Source, and Quantized Models はコメントを受け付けていません

Distil-xLSTM: Learning Attention Mechanisms through Recurrent Structures

要約

自然言語処理の現在の時代(NLP)は、変圧器モデルによって支配されています。
ただし、XLSTMやMambaなどの再発メカニズムに依存する新しいアーキテクチャは、注意ベースのモデルの代替として提案されています。
計算は注意メカニズムのメカニズムとは異なる方法で行われますが、これらの再発モデルは良い結果をもたらし、時には最先端の注意ベースのモデルよりも優れています。
この作業では、distil-xlstm、xlstmベースの小言語モデル(SLM)を提案します。知識を蒸留することで訓練された大規模な言語モデル(LLM)を蒸留し、有望な結果を示しながら、計算とスケールを効率的に示しています。
Distil-XLSTMは、再発シーケンス混合コンポーネントを使用して、変圧器ベースのモデル注意パラメーター化に近似することに焦点を当てており、最小限のトレーニングで良い結果を示しています。

要約(オリジナル)

The current era of Natural Language Processing (NLP) is dominated by Transformer models. However, novel architectures relying on recurrent mechanisms, such as xLSTM and Mamba, have been proposed as alternatives to attention-based models. Although computation is done differently than with the attention mechanism mechanism, these recurrent models yield good results and sometimes even outperform state-of-the-art attention-based models. In this work, we propose Distil-xLSTM, an xLSTM-based Small Language Model (SLM) trained by distilling knowledge from a Large Language Model (LLM) that shows promising results while being compute and scale efficient. Our Distil-xLSTM focuses on approximating a transformer-based model attention parametrization using its recurrent sequence mixing components and shows good results with minimal training.

arxiv情報

著者 Abdoul Majid O. Thiombiano,Brahim Hnich,Ali Ben Mrad,Mohamed Wiem Mkaouer
発行日 2025-03-24 11:18:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Distil-xLSTM: Learning Attention Mechanisms through Recurrent Structures はコメントを受け付けていません

Dense Retrieval for Low Resource Languages — the Case of Amharic Language

要約

このペーパーでは、1億2000万人の人口が話している低リソース言語の1つであるAmharicで密集したレトリバーを使用する場合、いくつかの困難と結果を報告します。
アミハラの情報検索に向けて、アディスアベバ大学が直面している努力と困難は、プレゼンテーション中に開発されます。

要約(オリジナル)

This paper reports some difficulties and some results when using dense retrievers on Amharic, one of the low-resource languages spoken by 120 millions populations. The efforts put and difficulties faced by University Addis Ababa toward Amharic Information Retrieval will be developed during the presentation.

arxiv情報

著者 Tilahun Yeshambel,Moncef Garouani,Serge Molina,Josiane Mothe
発行日 2025-03-24 11:26:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Dense Retrieval for Low Resource Languages — the Case of Amharic Language はコメントを受け付けていません

ConCodeEval: Evaluating Large Language Models for Code Constraints in Domain-Specific Languages

要約

最近の研究では、大規模な言語モデル(LLM)が、ゼロおよび少数のショット設定でのさまざまなテキスト生成タスクの自然言語の制約を理解するのに苦労していることを示しています。
一方、コードド​​メインでは、企業のシステムレベルプログラミングタスクに広く使用されているJSONやYAMLなどのドメイン固有の言語(DSL)で記述されたコードの整合性を維持するために、コード形式で制約の幅広い使用法があります。
LLMがシステムレベルのコードタスクにますます使用されていることを考えると、これらのコードの制約を理解できるかどうかを評価することが重要です。
ただし、コードの制約を介した制御性を評価する作業は行われていません。
したがって、5つの表現にわたってコード制約のための2つの新しいタスクを備えた最初の属性ベンチマークであるConcodeevalを紹介します。
私たちの調査結果は、言語モデルがコードの制約に苦しんでいることを示唆しています。
通常のコードタスクに対して優れたパフォーマンスを発揮するコード言語は、同じ言語がきめ細かい制約を表す場合、うまく機能しません。

要約(オリジナル)

Recent work shows Large Language Models (LLMs) struggle to understand natural language constraints for various text generation tasks in zero- and few-shot settings. While, in the code domain, there is wide usage of constraints in code format to maintain the integrity of code written in Domain-Specific Languages (DSLs) like JSON and YAML which are widely used for system-level programming tasks in enterprises. Given that LLMs are increasingly used for system-level code tasks, evaluating if they can comprehend these code constraints is crucial. However, no work has been done to evaluate their controllability over code constraints. Hence, we introduce ConCodeEval, a first-of-its-kind benchmark having two novel tasks for code constraints across five representations. Our findings suggest that language models struggle with code constraints. Code languages that perform excellently for normal code tasks do not perform well when the same languages represent fine-grained constraints.

arxiv情報

著者 Mehant Kammakomati,Sameer Pimparkhede,Srikanth Tamilselvam,Prince Kumar,Pushpak Bhattacharyya
発行日 2025-03-24 11:44:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | ConCodeEval: Evaluating Large Language Models for Code Constraints in Domain-Specific Languages はコメントを受け付けていません

GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding

要約

最近、グラフィカルユーザーインターフェイス(GUI)を直接知覚し、対応するコマンドを生成することにより、キーボードとマウスの入力を制御するためのエージェントとしてマルチモーダル大手言語モデル(MLLM)が使用されています。
ただし、現在のエージェントは主に静的環境で強力な理解能力を示しており、主にWebやモバイルインターフェイスなどの比較的単純なドメインに適用されます。
堅牢なGUIエージェントは、動的なWebコンテンツやマルチステップタスクなど、GUIに関する一時的な情報を知覚できる必要があると主張します。
さらに、デスクトップソフトウェアやマルチウィンドウインタラクションなど、さまざまなGUIシナリオを包括的に理解する必要があります。
この目的のために、このペーパーでは、GUI-WORLDと呼ばれる新しいデータセットを紹介します。これは、細心の注意を払って作成されたHumllMアノテーションを特徴としており、3つの形式で6つのGUIシナリオと8種類のギリエーションの質問を広範囲にカバーしています。
さまざまなタイプのGUIコンテンツ、特に動的およびシーケンシャルコンテンツを理解する際に、画像LLMやビデオLLMを含む現在の最先端のMLLMの機能を評価します。
私たちの調査結果は、現在のモデルが手動で注釈されたキーフレームや操作履歴なしで動的GUIコンテンツと格闘していることを明らかにしています。
一方、ビデオLLMは、まばらなGUIビデオデータセットを考慮して、すべてのガイ指向のタスクで不足しています。
したがって、微調整されたビデオLLM、GUI-VIDを指向のアシスタントとして活用するという最初のステップを踏み出し、さまざまなGUIタスクの理解が向上しました。
ただし、Base LLMSのパフォーマンスの制限により、Video LLMSをGUIエージェントとして使用することは依然として大きな課題であると結論付けています。
私たちの仕事は、動的なGUIコンテンツの理解における将来の研究のための貴重な洞察を提供すると考えています。
すべてのデータセットとコードは、https://gui-world.github.ioで公開されています。

要約(オリジナル)

Recently, Multimodal Large Language Models (MLLMs) have been used as agents to control keyboard and mouse inputs by directly perceiving the Graphical User Interface (GUI) and generating corresponding commands. However, current agents primarily demonstrate strong understanding capabilities in static environments and are mainly applied to relatively simple domains, such as Web or mobile interfaces. We argue that a robust GUI agent should be capable of perceiving temporal information on the GUI, including dynamic Web content and multi-step tasks. Additionally, it should possess a comprehensive understanding of various GUI scenarios, including desktop software and multi-window interactions. To this end, this paper introduces a new dataset, termed GUI-World, which features meticulously crafted Human-MLLM annotations, extensively covering six GUI scenarios and eight types of GUI-oriented questions in three formats. We evaluate the capabilities of current state-of-the-art MLLMs, including Image LLMs and Video LLMs, in understanding various types of GUI content, especially dynamic and sequential content. Our findings reveal that current models struggle with dynamic GUI content without manually annotated keyframes or operation history. On the other hand, Video LLMs fall short in all GUI-oriented tasks given the sparse GUI video dataset. Therefore, we take the initial step of leveraging a fine-tuned Video LLM, GUI-Vid, as a GUI-oriented assistant, demonstrating an improved understanding of various GUI tasks. However, due to the limitations in the performance of base LLMs, we conclude that using video LLMs as GUI agents remains a significant challenge. We believe our work provides valuable insights for future research in dynamic GUI content understanding. All the dataset and code are publicly available at: https://gui-world.github.io.

arxiv情報

著者 Dongping Chen,Yue Huang,Siyuan Wu,Jingyu Tang,Liuyi Chen,Yilin Bai,Zhigang He,Chenlong Wang,Huichi Zhou,Yiqiang Li,Tianshuo Zhou,Yue Yu,Chujie Gao,Qihui Zhang,Yi Gui,Zhen Li,Yao Wan,Pan Zhou,Jianfeng Gao,Lichao Sun
発行日 2025-03-24 11:46:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding はコメントを受け付けていません

ClinText-SP and RigoBERTa Clinical: a new set of open resources for Spanish Clinical NLP

要約

最大の公的に利用可能な臨床コーパスであるClintext-SPを導入することにより、スペインの臨床自然言語処理に新しい貢献を提示します。
私たちのコーパスは、医学雑誌からの臨床症例や共有タスクの注釈付きコーパスなど、多様なオープンソースから細心の注意を払ってキュレーションされ、以前はアクセスが困難であった豊かで多様なデータセットを提供しました。
この包括的なデータセットでドメイン適応前削除を介して開発されたRigoberta Clinicalは、複数の臨床NLPベンチマーク上の既存のモデルを大幅に上回っています。
データセットとモデルの両方を公開することにより、臨床NLPのさらなる進歩を促進し、最終的にはヘルスケアアプリケーションの改善に貢献できる堅牢なリソースを研究コミュニティに強化することを目指しています。

要約(オリジナル)

We present a novel contribution to Spanish clinical natural language processing by introducing the largest publicly available clinical corpus, ClinText-SP, along with a state-of-the-art clinical encoder language model, RigoBERTa Clinical. Our corpus was meticulously curated from diverse open sources, including clinical cases from medical journals and annotated corpora from shared tasks, providing a rich and diverse dataset that was previously difficult to access. RigoBERTa Clinical, developed through domain-adaptive pretraining on this comprehensive dataset, significantly outperforms existing models on multiple clinical NLP benchmarks. By publicly releasing both the dataset and the model, we aim to empower the research community with robust resources that can drive further advancements in clinical NLP and ultimately contribute to improved healthcare applications.

arxiv情報

著者 Guillem García Subies,Álvaro Barbero Jiménez,Paloma Martínez Fernández
発行日 2025-03-24 11:52:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ClinText-SP and RigoBERTa Clinical: a new set of open resources for Spanish Clinical NLP はコメントを受け付けていません