Adaptive Knowledge Graphs Enhance Medical Question Answering: Bridging the Gap Between LLMs and Evolving Medical Knowledge

要約

大規模な言語モデル(LLM)は、広範な臨床データと医学文献を活用することにより、医療の質問を大幅に進めました。
しかし、医学知識の急速な進化と、ドメイン固有のリソースを手動で更新する労働集約的なプロセスは、これらのシステムの信頼性に課題をもたらします。
これに対処するために、医療知識グラフの構築と継続的な更新を自動化し、推論を統合し、PubMedやWikisearchなどの現在の外部証拠を取得する包括的なフレームワークであるAdaptive Medical Graph-Rag(AMG-RAG)を紹介します。
新しい発見と複雑な医療概念を動的にリンクすることにより、AMG-ragは精度を向上させるだけでなく、医療質問の解釈可能性を向上させます。
MEDQAおよびMEDMCQAベンチマークの評価は、AMG-RAGの有効性を示しており、MEDQAで74.1%のF1スコアを達成し、MEDMCQAで66.34%の精度を達成し、同等のモデルと10〜100倍の両方を上回ります。
特に、これらの改善は、計算オーバーヘッドを増やすことなく達成され、自動化された知識グラフの生成の重要な役割と、最新の信頼できる医療洞察を提供する外部の証拠の取得を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have significantly advanced medical question-answering by leveraging extensive clinical data and medical literature. However, the rapid evolution of medical knowledge and the labor-intensive process of manually updating domain-specific resources pose challenges to the reliability of these systems. To address this, we introduce Adaptive Medical Graph-RAG (AMG-RAG), a comprehensive framework that automates the construction and continuous updating of medical knowledge graphs, integrates reasoning, and retrieves current external evidence, such as PubMed and WikiSearch. By dynamically linking new findings and complex medical concepts, AMG-RAG not only improves accuracy but also enhances interpretability in medical queries. Evaluations on the MEDQA and MEDMCQA benchmarks demonstrate the effectiveness of AMG-RAG, achieving an F1 score of 74.1 percent on MEDQA and an accuracy of 66.34 percent on MEDMCQA, outperforming both comparable models and those 10 to 100 times larger. Notably, these improvements are achieved without increasing computational overhead, highlighting the critical role of automated knowledge graph generation and external evidence retrieval in delivering up-to-date, trustworthy medical insights.

arxiv情報

著者 Mohammad Reza Rezaei,Reza Saadati Fard,Jayson Parker,Rahul G. Krishnan,Milad Lankarany
発行日 2025-02-18 16:29:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MA | Adaptive Knowledge Graphs Enhance Medical Question Answering: Bridging the Gap Between LLMs and Evolving Medical Knowledge はコメントを受け付けていません

Towards a Design Guideline for RPA Evaluation: A Survey of Large Language Model-Based Role-Playing Agents

要約

ロールプレイングエージェント(RPA)は、さまざまなタスクで人間のような行動をシミュレートするますます人気のあるタイプのLLMエージェントです。
ただし、RPAの評価は、多様なタスク要件とエージェント設計のために困難です。
このペーパーでは、2021年1月から2024年12月の間に公開された1,676の論文を体系的にレビューすることにより、LLMベースのRPAのエビデンスに基づいた、実用的で一般化可能な評価設計ガイドラインを提案します。分析では、6つのエージェント属性、7つのタスク属性、7つの評価メトリックが特定されています。
既存の文献から。
これらの調査結果に基づいて、RPA評価設計ガイドラインを提示して、研究者がより体系的で一貫した評価方法を開発するのを支援します。

要約(オリジナル)

Role-Playing Agent (RPA) is an increasingly popular type of LLM Agent that simulates human-like behaviors in a variety of tasks. However, evaluating RPAs is challenging due to diverse task requirements and agent designs. This paper proposes an evidence-based, actionable, and generalizable evaluation design guideline for LLM-based RPA by systematically reviewing 1,676 papers published between Jan. 2021 and Dec. 2024. Our analysis identifies six agent attributes, seven task attributes, and seven evaluation metrics from existing literature. Based on these findings, we present an RPA evaluation design guideline to help researchers develop more systematic and consistent evaluation methods.

arxiv情報

著者 Chaoran Chen,Bingsheng Yao,Ruishi Zou,Wenyue Hua,Weimin Lyu,Toby Jia-Jun Li,Dakuo Wang
発行日 2025-02-18 16:33:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | Towards a Design Guideline for RPA Evaluation: A Survey of Large Language Model-Based Role-Playing Agents はコメントを受け付けていません

Oreo: A Plug-in Context Reconstructor to Enhance Retrieval-Augmented Generation

要約

さまざまなNLPタスクにおける大規模な言語モデル(LLM)の顕著な能力にもかかわらず、パラメトリックな知識が限られており、ドメイン固有の専門知識がないため、幻覚に対して脆弱なままです。
検索された生成(RAG)は、LLMSの知識ベースを強化するために外部ドキュメント検索を組み込むことにより、この課題に対処します。
このアプローチでは、RAGはクエリに応じて外部コーパスからドキュメントチャンクを取得します。クエリは、ダウンストリーム言語モデルのコンテキストとして使用されて回答を生成します。
ただし、これらの検索された知識源には、多くの場合、無関係または誤った情報が含まれており、下流タスクにおけるRAGの有効性を損なうことが含まれます。
この制限を克服するために、ジェネレーターに供給する前に外部の知識ソースを改良するように設計されたコンパクトで効率的でプラグ可能なモジュールを導入します。
モジュールは、最も関連性が高くサポート的な情報を抽出し、簡潔なクエリ固有の形式に再編成することにより、取得したコンテンツを再構築します。
3段階のトレーニングパラダイム – 監視された微調整、対照的なマルチタスク学習、および強化学習ベースのアライメントを含む – は、重要な知識を優先し、発電機の好みに合わせます。
この方法により、LLMはより正確で信頼性が高く、文脈的に適切な出力を生成できます。

要約(オリジナル)

Despite the remarkable capabilities of Large Language Models (LLMs) in various NLP tasks, they remain vulnerable to hallucinations due to their limited parametric knowledge and lack of domain-specific expertise. Retrieval-Augmented Generation (RAG) addresses this challenge by incorporating external document retrieval to augment the knowledge base of LLMs. In this approach, RAG retrieves document chunks from an external corpus in response to a query, which are then used as context for the downstream language model to generate an answer. However, these retrieved knowledge sources often include irrelevant or erroneous information, undermining the effectiveness of RAG in downstream tasks. To overcome this limitation, we introduce a compact, efficient, and pluggable module designed to refine external knowledge sources before feeding them to the generator. The module reconstructs retrieved content by extracting the most relevant and supportive information and reorganising it into a concise, query-specific format. Through a three-stage training paradigm – comprising supervised fine-tuning, contrastive multi-task learning, and reinforcement learning-based alignment – it prioritises critical knowledge and aligns it with the generator’s preferences. This method enables LLMs to produce outputs that are more accurate, reliable, and contextually appropriate.

arxiv情報

著者 Sha Li,Naren Ramarkrishnan
発行日 2025-02-18 16:38:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Oreo: A Plug-in Context Reconstructor to Enhance Retrieval-Augmented Generation はコメントを受け付けていません

Towards Human Understanding of Paraphrase Types in Large Language Models

要約

言い換えは、さまざまな方法で提示された表現を理解する人間の直感的な能力を表しています。
言語モデルの現在の言い換え評価は、主にバイナリアプローチを使用し、特定のテキストの変更の制限された解釈可能性を提供します。
原子の言い換えタイプ(APT)は、言い換えを異なる言語変化に分解し、言語表現の柔軟性(例えば、使用される構文または語彙の変化)の粒状ビューを提供します。
この研究では、10個のAPTと5つのプロンプトテクニックを備えた英語の言い換えを生成する際に、ChatGptに対する人間の好みを評価します。
Apty(Atomic Paraphrase Types)を紹介します。これは、15のアノテーターによる800文レベルおよび単語レベルの注釈のデータセットです。
また、データセットは、RLHFおよびDPOメソッドでモデルを微調整するために使用できるさまざまなタイプのパラフラゼの人間の好みのランキングを提供します。
我々の結果は、ChatGptとDPOトレーニングを受けたLlama 7Bモデルが、追加や削除などの単純なAPTを生成できるが、複雑な構造(たとえば、従属変化など)と闘うことができることを明らかにしています。
この研究は、言語モデルの言い換えのどの側面がすでに理解に成功しているか、そしてとらえどころのないものを理解することに貢献しています。
さらに、キュレーションされたデータセットを使用して、特定の言語機能を備えた言語モデルを開発する方法を示します。

要約(オリジナル)

Paraphrases represent a human’s intuitive ability to understand expressions presented in various different ways. Current paraphrase evaluations of language models primarily use binary approaches, offering limited interpretability of specific text changes. Atomic paraphrase types (APT) decompose paraphrases into different linguistic changes and offer a granular view of the flexibility in linguistic expression (e.g., a shift in syntax or vocabulary used). In this study, we assess the human preferences towards ChatGPT in generating English paraphrases with ten APTs and five prompting techniques. We introduce APTY (Atomic Paraphrase TYpes), a dataset of 800 sentence-level and word-level annotations by 15 annotators. The dataset also provides a human preference ranking of paraphrases with different types that can be used to fine-tune models with RLHF and DPO methods. Our results reveal that ChatGPT and a DPO-trained LLama 7B model can generate simple APTs, such as additions and deletions, but struggle with complex structures (e.g., subordination changes). This study contributes to understanding which aspects of paraphrasing language models have already succeeded at understanding and what remains elusive. In addition, we show how our curated datasets can be used to develop language models with specific linguistic capabilities.

arxiv情報

著者 Dominik Meier,Jan Philip Wahle,Terry Ruas,Bela Gipp
発行日 2025-02-18 16:39:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | Towards Human Understanding of Paraphrase Types in Large Language Models はコメントを受け付けていません

Whose story is it? Personalizing story generation by inferring author styles

要約

パーソナライズは、インタラクティブなライティングおよび教育アプリケーションのユーザーエクスペリエンスを改善するために不可欠になりましたが、ストーリー生成におけるその可能性はほとんど未踏のままです。
この作業では、パーソナライズされたストーリー生成のための新しい2段階のパイプラインを提案します。
私たちのアプローチは、最初に著者の過去の作品から暗黙の物語を書く特性を導き、物語理論に触発された著者の執筆シートにそれらを整理します。
第2段階では、このシートを使用して、テーラードペルソナの説明とパーソナライズされたストーリーライティングルールを使用して、著者のペルソナをシミュレートします。
アプローチを有効にして検証するために、Mythosを構築します。これは、多様なストーリー作成設定を反映した5つの異なるソースにわたって64人の著者から590ストーリーのデータセットです。
非個人化されたベースラインとの直接的な比較は、高品質のパーソナライズされたストーリーを生成する際のパイプラインの有効性を示しています。
私たちのパーソナライズされたストーリーは、過去の作品に基づいて著者の執筆スタイルをキャプチャする際に、75%の勝利(ベースラインで14%、11%のタイ)を達成しています。
人間の評価は、著者の執筆シートの高品質を強調し、パーソナライズされたストーリー生成タスクに関する貴重な洞察を提供します。
注目すべき持ち帰りは、Redditなどの特定の情報源からの著作は、AO3のような他の情報源よりもパーソナライズしやすいもので、創造性や言語使用などの物語の側面は、プロットのような他のものよりもパーソナライズしやすいことです。

要約(オリジナル)

Personalization has become essential for improving user experience in interactive writing and educational applications, yet its potential in story generation remains largely unexplored. In this work, we propose a novel two-stage pipeline for personalized story generation. Our approach first infers an author’s implicit story-writing characteristics from their past work and organizes them into an Author Writing Sheet, inspired by narrative theory. The second stage uses this sheet to simulate the author’s persona through tailored persona descriptions and personalized story writing rules. To enable and validate our approach, we construct Mythos, a dataset of 590 stories from 64 authors across five distinct sources that reflect diverse story-writing settings. A head-to-head comparison with a non-personalized baseline demonstrates our pipeline’s effectiveness in generating high-quality personalized stories. Our personalized stories achieve a 75 percent win rate (versus 14 percent for the baseline and 11 percent ties) in capturing authors’ writing style based on their past works. Human evaluation highlights the high quality of our Author Writing Sheet and provides valuable insights into the personalized story generation task. Notable takeaways are that writings from certain sources, such as Reddit, are easier to personalize than others, like AO3, while narrative aspects, like Creativity and Language Use, are easier to personalize than others, like Plot.

arxiv情報

著者 Nischal Ashok Kumar,Chau Minh Pham,Mohit Iyyer,Andrew Lan
発行日 2025-02-18 16:45:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Whose story is it? Personalizing story generation by inferring author styles はコメントを受け付けていません

HPSS: Heuristic Prompting Strategy Search for LLM Evaluators

要約

テキスト評価のための大規模な言語モデル(LLMS)の採用は、自然言語加工(NLP)の分野でますます一般的になっているため、LLM評価者が人間の判断との調整を改善するためのプロンプトを最適化しようとしています。
ただし、評価基準や出力形式など、評価プロンプトの個々の要因を最適化すること、複数の要因の組み合わせの影響を無視することに限定されているため、評価パイプラインの最適化が不十分になります。
それにもかかわらず、複数の要因を調整するための行儀の良いプロンプト戦略を特定するには、広範な列挙が必要です。
この目的のために、評価プロンプトの8つの重要な要因を包括的に統合し、ヒューリスティックプロンプト戦略検索(HPS)と呼ばれる新しい自動プロンプト戦略最適化方法を提案します。
遺伝的アルゴリズムに触発されたHPSSは、LLM評価者向けの行儀のプロンプト戦略を見つけるために反復検索を実施します。
ヒューリスティック機能が使用され、検索プロセスを導き、アルゴリズムのパフォーマンスを向上させます。
4つの評価タスクにわたる広範な実験は、HPSSの有効性を示しており、人間が設計した評価プロンプトと既存の自動プロンプト最適化方法の両方を常に上回っています。

要約(オリジナル)

Since the adoption of large language models (LLMs) for text evaluation has become increasingly prevalent in the field of natural language processing (NLP), a series of existing works attempt to optimize the prompts for LLM evaluators to improve their alignment with human judgment. However, their efforts are limited to optimizing individual factors of evaluation prompts, such as evaluation criteria or output formats, neglecting the combinatorial impact of multiple factors, which leads to insufficient optimization of the evaluation pipeline. Nevertheless, identifying well-behaved prompting strategies for adjusting multiple factors requires extensive enumeration. To this end, we comprehensively integrate 8 key factors for evaluation prompts and propose a novel automatic prompting strategy optimization method called Heuristic Prompting Strategy Search (HPSS). Inspired by the genetic algorithm, HPSS conducts an iterative search to find well-behaved prompting strategies for LLM evaluators. A heuristic function is employed to guide the search process, enhancing the performance of our algorithm. Extensive experiments across four evaluation tasks demonstrate the effectiveness of HPSS, consistently outperforming both human-designed evaluation prompts and existing automatic prompt optimization methods.

arxiv情報

著者 Bosi Wen,Pei Ke,Yufei Sun,Cunxiang Wang,Xiaotao Gu,Jinfeng Zhou,Jie Tang,Hongning Wang,Minlie Huang
発行日 2025-02-18 16:46:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | HPSS: Heuristic Prompting Strategy Search for LLM Evaluators はコメントを受け付けていません

Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

要約

OpenaiのO1などの大規模な言語モデル(LLM)は、テスト時間の計算をスケーリングし、人間のような深い思考を示すことにより、複雑な推論タスクで顕著な能力を示しています。
ただし、考えているという現象を特定します。これは、O1のようなLLMが、正しいソリューションに到達するための有望なパスを十分に探求することなく、異なる推論の考えを頻繁に切り替えることです。
この動作は、特に挑戦的な数学的な問題で、推論の深さの深さとパフォーマンスの低下につながります。
この問題を体系的に分析するために、3つの挑戦的なテストセットと2つの代表的なオープンソースO1様モデルで実験を実施し、頻繁に思考スイッチングが誤った応答と相関することを明らかにします。
誤った回答のトークン効率を測定することにより、アンダーリンクを定量化するための新しいメトリックを導入します。
考え直しに対処するために、思考の切り替えペナルティヒントを備えたデコード戦略を提案します。これは、思考間の時期尚早の移行を阻止し、各推論パスのより深い調査を促進します。
実験結果は、モデルの微調整を必要とせずに、私たちのアプローチが挑戦的なデータセット全体で精度を向上させることを示しています。
私たちの調査結果は、O1様LLMの推論の非効率性を理解することに貢献し、問題解決能力を高めるための実用的なソリューションを提供します。

要約(オリジナル)

Large language models (LLMs) such as OpenAI’s o1 have demonstrated remarkable abilities in complex reasoning tasks by scaling test-time compute and exhibiting human-like deep thinking. However, we identify a phenomenon we term underthinking, where o1-like LLMs frequently switch between different reasoning thoughts without sufficiently exploring promising paths to reach a correct solution. This behavior leads to inadequate depth of reasoning and decreased performance, particularly on challenging mathematical problems. To systematically analyze this issue, we conduct experiments on three challenging test sets and two representative open-source o1-like models, revealing that frequent thought switching correlates with incorrect responses. We introduce a novel metric to quantify underthinking by measuring token efficiency in incorrect answers. To address underthinking, we propose a decoding strategy with thought switching penalty TIP that discourages premature transitions between thoughts, encouraging deeper exploration of each reasoning path. Experimental results demonstrate that our approach improves accuracy across challenging datasets without requiring model fine-tuning. Our findings contribute to understanding reasoning inefficiencies in o1-like LLMs and offer a practical solution to enhance their problem-solving capabilities.

arxiv情報

著者 Yue Wang,Qiuzhi Liu,Jiahao Xu,Tian Liang,Xingyu Chen,Zhiwei He,Linfeng Song,Dian Yu,Juntao Li,Zhuosheng Zhang,Rui Wang,Zhaopeng Tu,Haitao Mi,Dong Yu
発行日 2025-02-18 16:51:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs はコメントを受け付けていません

Do we still need Human Annotators? Prompting Large Language Models for Aspect Sentiment Quad Prediction

要約

Aspect Sentiment Quadruple Prediction(ASQP)は、各意見の意見用語、アスペクト用語、アスペクトカテゴリ、およびセンチメントの極性を特定することにより、テキストで表明された意見の詳細な理解を促進します。
ただし、ASQPのモデルを微調整するためのトレーニング例の完全なセットに注釈を付けることは、リソース集約型プロセスです。
この研究では、5つの多様なデータセットにわたってASQPタスクでゼロおよび少ないショット学習のための大規模な言語モデル(LLMS)の機能を調査します。
F1スコアは、最先端の微調整モデルで得られたものをわずかに下回っていますが、以前に報告されたゼロおよび少数のショットパフォーマンスを超えています。
REST16レストランドメインデータセットの40ショット設定では、LLMSは52.46のF1スコアを達成しましたが、最高のパフォーマンスの微調整方法MVPによって60.39と比較して達成されました。
さらに、ターゲットアスペクトセンチメント検出(TASD)でのLLMSのパフォーマンスを報告します。F1スコアも微調整されたモデルに近く、MVPの72.76と比較して、40ショット設定でREST 16で66.03を達成しました。
人間のアノテーターは最適なパフォーマンスを達成するために不可欠なままですが、LLMはASQPタスクでの広範な手動注釈の必要性を減らすことができます。

要約(オリジナル)

Aspect sentiment quadruple prediction (ASQP) facilitates a detailed understanding of opinions expressed in a text by identifying the opinion term, aspect term, aspect category and sentiment polarity for each opinion. However, annotating a full set of training examples to fine-tune models for ASQP is a resource-intensive process. In this study, we explore the capabilities of large language models (LLMs) for zero- and few-shot learning on the ASQP task across five diverse datasets. We report F1 scores slightly below those obtained with state-of-the-art fine-tuned models but exceeding previously reported zero- and few-shot performance. In the 40-shot setting on the Rest16 restaurant domain dataset, LLMs achieved an F1 score of 52.46, compared to 60.39 by the best-performing fine-tuned method MVP. Additionally, we report the performance of LLMs in target aspect sentiment detection (TASD), where the F1 scores were also close to fine-tuned models, achieving 66.03 on Rest16 in the 40-shot setting, compared to 72.76 with MVP. While human annotators remain essential for achieving optimal performance, LLMs can reduce the need for extensive manual annotation in ASQP tasks.

arxiv情報

著者 Nils Constantin Hellwig,Jakob Fehle,Udo Kruschwitz,Christian Wolff
発行日 2025-02-18 16:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Do we still need Human Annotators? Prompting Large Language Models for Aspect Sentiment Quad Prediction はコメントを受け付けていません

AEIA-MN: Evaluating the Robustness of Multimodal LLM-Powered Mobile Agents Against Active Environmental Injection Attacks

要約

研究者がAIエージェントを継続的に最適化して、オペレーティングシステム内でタスクをより効果的に実行するため、これらのエージェントがシステム内で「詐欺師」を特定できるようにするための重要なニーズに対処することを怠ることがよくあります。
エージェントの操作環境の分析を通じて、潜在的な脅威を特定しました。攻撃者は攻撃方法を環境要素として偽装し、エージェントの実行プロセスに積極的な障害を注入し、それによって意思決定を混乱させることができます。
このタイプの攻撃をアクティブな環境注入攻撃(AEIA)として定義します。
これに基づいて、モバイルオペレーティングシステムの相互作用の脆弱性を活用して、そのような脅威に対するMLLMベースのエージェントの堅牢性を評価するアクティブな環境注入攻撃スキームであるAEIA-MNを提案します。
実験結果は、高度なMLLMでさえこの攻撃に対して非常に脆弱であり、AndroidWorldベンチマークで93%の最大攻撃成功率を達成することを示しています。

要約(オリジナル)

As researchers continuously optimize AI agents to perform tasks more effectively within operating systems, they often neglect to address the critical need for enabling these agents to identify ‘impostors’ within the system. Through an analysis of the agents’ operating environment, we identified a potential threat: attackers can disguise their attack methods as environmental elements, injecting active disturbances into the agents’ execution process, thereby disrupting their decision-making. We define this type of attack as Active Environment Injection Attack (AEIA). Based on this, we propose AEIA-MN, an active environment injection attack scheme that exploits interaction vulnerabilities in the mobile operating system to evaluate the robustness of MLLM-based agents against such threats. Experimental results show that even advanced MLLMs are highly vulnerable to this attack, achieving a maximum attack success rate of 93% in the AndroidWorld benchmark.

arxiv情報

著者 Yurun Chen,Xueyu Hu,Keting Yin,Juncheng Li,Shengyu Zhang
発行日 2025-02-18 17:01:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | AEIA-MN: Evaluating the Robustness of Multimodal LLM-Powered Mobile Agents Against Active Environmental Injection Attacks はコメントを受け付けていません

SimpleVQA: Multimodal Factuality Evaluation for Multimodal Large Language Models

要約

さまざまなセクターにわたるマルチモーダル大手言語モデル(MLLM)の適用の増加により、出力の信頼性と精度、特に実際の情報に基づいたコンテンツを作成する能力(一般的およびドメイン固有の知識など)の本質にスポットライトを当てました。
この作業では、自然言語の短い質問に答えるためのMLLMの事実性能力を評価するための最初の包括的なマルチモーダルベンチマークであるSimpleVQAを紹介します。
SimpleVQAは、6つの重要な機能によって特徴付けられます。複数のタスクと複数のシナリオをカバーし、高品質で挑戦的なクエリを保証し、静的で時代を超越した参照の回答を維持し、評価するのが簡単です。
私たちのアプローチでは、視覚的な質問を客観的なイベントや一般的な知識に関する9つの異なるタスクに分類し、9つのトピック内にこれらを位置づけることが含まれます。
高品質の、簡潔な、明確な回答を保証するために、厳密な品質管理プロセスが実装され、LLM-As-a-Judgeスコアリングシステムを介して最小限の分散で評価を促進します。
SimpleVQAを使用して、エラーケースを特定して分析することにより、主要な18 Mllmsと8つのテキストのみのLLMの包括的な評価を実行し、画像の理解とテキスト生成能力を掘り下げます。

要約(オリジナル)

The increasing application of multi-modal large language models (MLLMs) across various sectors have spotlighted the essence of their output reliability and accuracy, particularly their ability to produce content grounded in factual information (e.g. common and domain-specific knowledge). In this work, we introduce SimpleVQA, the first comprehensive multi-modal benchmark to evaluate the factuality ability of MLLMs to answer natural language short questions. SimpleVQA is characterized by six key features: it covers multiple tasks and multiple scenarios, ensures high quality and challenging queries, maintains static and timeless reference answers, and is straightforward to evaluate. Our approach involves categorizing visual question-answering items into 9 different tasks around objective events or common knowledge and situating these within 9 topics. Rigorous quality control processes are implemented to guarantee high-quality, concise, and clear answers, facilitating evaluation with minimal variance via an LLM-as-a-judge scoring system. Using SimpleVQA, we perform a comprehensive assessment of leading 18 MLLMs and 8 text-only LLMs, delving into their image comprehension and text generation abilities by identifying and analyzing error cases.

arxiv情報

著者 Xianfu Cheng,Wei Zhang,Shiwei Zhang,Jian Yang,Xiangyuan Guan,Xianjie Wu,Xiang Li,Ge Zhang,Jiaheng Liu,Yuying Mai,Yutao Zeng,Zhoufutu Wen,Ke Jin,Baorui Wang,Weixiao Zhou,Yunhong Lu,Tongliang Li,Wenhao Huang,Zhoujun Li
発行日 2025-02-18 17:04:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SimpleVQA: Multimodal Factuality Evaluation for Multimodal Large Language Models はコメントを受け付けていません