DeepMLF: Multimodal language model with learnable tokens for deep fusion in sentiment analysis

要約

マルチモーダル融合はマルチモーダルセンチメント分析(MSA)で広く研究されていますが、融合深度とマルチモーダル容量の割り当ての役割は未熟なままです。
この作業では、融合の深さ、スケーラビリティ、および専用のマルチモーダル容量を効果的な融合の主要な要因として配置します。
ディープフュージョンに合わせた学習可能なトークンを備えた新しいマルチモーダル言語モデル(LM)であるDeepMLFを紹介します。
DeepMLFは、視聴覚エンコーダーと、そのレイヤー全体にマルチモーダル情報で拡張された事前に処理されたデコーダーLMを活用します。
学習可能なトークンをLMに追加します。1)制御された方法でモダリティ相互作用をキャプチャし、2)モダリティごとに独立した情報フローを維持します。
これらの融合トークンは、LMブロックでの因果的自己触媒を介して言語情報を収集し、横断的なMMブロックを介して視聴覚情報と統合します。
専用のマルチモーダル容量として機能するこの設計により、複数の層にわたって進行性の融合が可能になり、融合プロセスの深さが提供されます。
トレーニングレシピは、モダリティ固有の損失と言語モデリングの損失を組み合わせており、デコーダーLMはグラウンドトゥルースの極性を予測するように任されています。
DEEPMLFは、さまざまなデータセット特性を備えた3つのMSAベンチマークにまたがり、最先端のパフォーマンスを実現します。
我々の結果は、より深い融合がパフォーマンスの向上につながり、最適な融合深度(5-7)が既存のアプローチの深さを超えることを確認しています。
さらに、フュージョントークンの数に関する分析により、小さなトークンセット($ \ sim $ 20)が最適なパフォーマンスを達成することが明らかになりました。
視聴覚エンコーダーの初期化実験を通じて、表現学習順序(Fusionカリキュラム)の重要性を調べます。
私たちのアブレーション研究は、提案された融合設計とゲーティングの優位性を示し、LLMに対するDeepMLFのスケーラビリティの全体的な調査、および各トレーニング目標と正規化の埋め込みの影響を提供します。

要約(オリジナル)

While multimodal fusion has been extensively studied in Multimodal Sentiment Analysis (MSA), the role of fusion depth and multimodal capacity allocation remains underexplored. In this work, we position fusion depth, scalability, and dedicated multimodal capacity as primary factors for effective fusion. We introduce DeepMLF, a novel multimodal language model (LM) with learnable tokens tailored toward deep fusion. DeepMLF leverages an audiovisual encoder and a pretrained decoder LM augmented with multimodal information across its layers. We append learnable tokens to the LM that: 1) capture modality interactions in a controlled fashion and 2) preserve independent information flow for each modality. These fusion tokens gather linguistic information via causal self-attention in LM Blocks and integrate with audiovisual information through cross-attention MM Blocks. Serving as dedicated multimodal capacity, this design enables progressive fusion across multiple layers, providing depth in the fusion process. Our training recipe combines modality-specific losses and language modelling loss, with the decoder LM tasked to predict ground truth polarity. Across three MSA benchmarks with varying dataset characteristics, DeepMLF achieves state-of-the-art performance. Our results confirm that deeper fusion leads to better performance, with optimal fusion depths (5-7) exceeding those of existing approaches. Additionally, our analysis on the number of fusion tokens reveals that small token sets ($\sim$20) achieve optimal performance. We examine the importance of representation learning order (fusion curriculum) through audiovisual encoder initialization experiments. Our ablation studies demonstrate the superiority of the proposed fusion design and gating while providing a holistic examination of DeepMLF’s scalability to LLMs, and the impact of each training objective and embedding regularization.

arxiv情報

著者 Efthymios Georgiou,Vassilis Katsouros,Yannis Avrithis,Alexandros Potamianos
発行日 2025-04-15 11:28:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DeepMLF: Multimodal language model with learnable tokens for deep fusion in sentiment analysis はコメントを受け付けていません

Can you map it to English? The Role of Cross-Lingual Alignment in Multilingual Performance of LLMs

要約

大規模な言語モデル(LLMS)は、主に英語のテキストで事前に訓練されています。
この作業では、異なる言語で記述されたテキストの表現の整合が、言語とインスタンスレベルの両方で、自然言語の理解タスクと翻訳タスクに関するLLMパフォーマンスとどのように相関するかを調査します。
この目的のために、識別タスクのインスタンスレベルでのアライメントを定量化するために、識別アラインメントインデックス(DALI)などの横断的アライメントメトリックを導入します。
3つの自然言語理解タスク(Belebele、Xstorycloze、Xcopa)、および機械翻訳の実験を通じて、言語間アライメントメトリックは言語レベルでのタスクの精度と強く相関しているが、サンプルレベルのアライメントは、正しい条件として正しい条件として誤った予測を暴露することと区別できないことが多いことがわかります。

要約(オリジナル)

Large language models (LLMs) pre-trained predominantly on English text exhibit surprising multilingual capabilities, yet the mechanisms driving cross-lingual generalization remain poorly understood. This work investigates how the alignment of representations for text written in different languages correlates with LLM performance on natural language understanding tasks and translation tasks, both at the language and the instance level. For this purpose, we introduce cross-lingual alignment metrics such as the Discriminative Alignment Index (DALI) to quantify the alignment at an instance level for discriminative tasks. Through experiments on three natural language understanding tasks (Belebele, XStoryCloze, XCOPA), and machine translation, we find that while cross-lingual alignment metrics strongly correlate with task accuracy at the language level, the sample-level alignment often fails to distinguish correct from incorrect predictions, exposing alignment as a necessary but insufficient condition for success.

arxiv情報

著者 Kartik Ravisankar,Hyojung Han,Marine Carpuat
発行日 2025-04-15 11:49:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can you map it to English? The Role of Cross-Lingual Alignment in Multilingual Performance of LLMs はコメントを受け付けていません

Using LLMs as prompt modifier to avoid biases in AI image generators

要約

この調査では、ユーザープロンプトを変更することにより、テキストから画像の生成システムのバイアスを大きく削減できる方法を調べます。
ニュートラルプロンプトが与えられた人口統計からのモデルの不当な逸脱としてバイアスを定義します。
安定した拡散XL、3.5、およびフラックスを使用した実験は、LLM修飾プロンプトが画像の多様性を大幅に増加させ、画像ジェネレーター自体を変更する必要なくバイアスを減らすことを示しています。
時折、元のユーザーの意図を手の込んだプロンプトの意図から分岐する結果を生成しますが、このアプローチは一般に、表面的なバリエーションではなく、模擬除外された要求のより多様な解釈を提供します。
この方法は、障害の表現などの特定のコンテキストでは制限が持続しますが、より高度な画像ジェネレーターでは特にうまく機能します。
すべてのプロンプトと生成された画像は、https://iisys-hof.github.io/llm-plt-img-gen/で入手できます。

要約(オリジナル)

This study examines how Large Language Models (LLMs) can reduce biases in text-to-image generation systems by modifying user prompts. We define bias as a model’s unfair deviation from population statistics given neutral prompts. Our experiments with Stable Diffusion XL, 3.5 and Flux demonstrate that LLM-modified prompts significantly increase image diversity and reduce bias without the need to change the image generators themselves. While occasionally producing results that diverge from original user intent for elaborate prompts, this approach generally provides more varied interpretations of underspecified requests rather than superficial variations. The method works particularly well for less advanced image generators, though limitations persist for certain contexts like disability representation. All prompts and generated images are available at https://iisys-hof.github.io/llm-prompt-img-gen/

arxiv情報

著者 René Peinl
発行日 2025-04-15 11:52:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.CY | Using LLMs as prompt modifier to avoid biases in AI image generators はコメントを受け付けていません

Benchmarking Vision Language Models on German Factual Data

要約

LLMSと同様に、ビジョン言語モデルの開発は主に英語のデータセットと英語と中国語で訓練されたモデルによって駆動されますが、他の言語のサポートは、ドイツ語などの高リソース言語と見なされる言語でさえ、著しく弱いままです。
この作業では、ドイツ語と英語の事実に関する知識に関するオープンウェイトVLMの分析を提示します。
ドイツ語と国際的な文脈からの迅速な言語と画像の両方でju審員としてのju審員とのAccu-racyを分析することにより、画像関連の側面をテキストに関連する側面を解きほぐします。
私たちは、有名人と視界では、VLMがドイツのイメージの内容の視覚的な認知が欠けているため、苦労していることがわかりました。
動物や植物の場合、テストされたモデルは、多くの場合、科学名または英語の一般名に合わせて画像の内容を正しく識別できますが、ドイツのLANゲージでは失敗します。
車とスーパーマーケット製品は、両方の迅速な言語で英語とドイツの画像で等しく識別されました。

要約(オリジナル)

Similar to LLMs, the development of vision language models is mainly driven by English datasets and models trained in English and Chinese language, whereas support for other languages, even those considered high-resource languages such as German, remains significantly weaker. In this work we present an analysis of open-weight VLMs on factual knowledge in the German and English language. We disentangle the image-related aspects from the textual ones by analyzing accu-racy with jury-as-a-judge in both prompt languages and images from German and international contexts. We found that for celebrities and sights, VLMs struggle because they are lacking visual cognition of German image contents. For animals and plants, the tested models can often correctly identify the image contents ac-cording to the scientific name or English common name but fail in German lan-guage. Cars and supermarket products were identified equally well in English and German images across both prompt languages.

arxiv情報

著者 René Peinl,Vincent Tischler
発行日 2025-04-15 11:55:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Benchmarking Vision Language Models on German Factual Data はコメントを受け付けていません

Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding

要約

近年、テキストからイメージ(T2I)生成モデルは、テキストの説明に合わせた高品質の画像の生成に大きな進歩を遂げました。
ただし、これらのモデルは危険な世代のリスクにも直面しており、明示的な資料などの使用ポリシーに違反する有害なコンテンツを生成する可能性があります。
既存の安全な生成方法は通常、テキスト表現を消毒することを無視しながら、視覚表現から望ましくない概念を消去することにより、不適切なコンテンツを抑制することに焦点を当てています。
これらの方法は、ある程度誤用のリスクを軽減するのに役立ちますが、敵対的な攻撃に対処する場合、それらの堅牢性は不十分なままです。
入力テキストと出力イメージの間のセマンティックな一貫性がT2Iモデルのコア要件であることを考えると、テキスト表現が安全でない生成の主要なソースである可能性が高いことを特定します。
この目的のために、埋め込み消毒剤(ES)を提案します。これは、迅速な埋め込みに不適切な概念を消毒することにより、T2Iモデルの安全性を高めることを提案します。
私たちの知る限り、ESは、プロンプトの各トークンにスコアを割り当てて、潜在的な有害性を示す最初の解釈可能な安全な生成フレームワークです。
さらに、ESはプラグアンドプレイモジュラー設計を採用しており、さまざまなT2Iモデルやその他の保護手段とのシームレスな統合のための互換性を提供します。
5つのプロンプトベンチマークの評価は、ESが11の既存の保護措置ベースラインを上回り、高品質の画像生成を維持しながら最先端の堅牢性を達成することを示しています。

要約(オリジナル)

In recent years, text-to-image (T2I) generation models have made significant progress in generating high-quality images that align with text descriptions. However, these models also face the risk of unsafe generation, potentially producing harmful content that violates usage policies, such as explicit material. Existing safe generation methods typically focus on suppressing inappropriate content by erasing undesired concepts from visual representations, while neglecting to sanitize the textual representation. Although these methods help mitigate the risk of misuse to some extent, their robustness remains insufficient when dealing with adversarial attacks. Given that semantic consistency between input text and output image is a core requirement of T2I models, we identify that textual representations are likely the primary source of unsafe generation. To this end, we propose Embedding Sanitizer (ES), which enhances the safety of T2I models by sanitizing inappropriate concepts in prompt embeddings. To our knowledge, ES is the first interpretable safe generation framework that assigns a score to each token in the prompt to indicate its potential harmfulness. In addition, ES adopts a plug-and-play modular design, offering compatibility for seamless integration with various T2I models and other safeguards. Evaluations on five prompt benchmarks show that ES outperforms eleven existing safeguard baselines, achieving state-of-the-art robustness while maintaining high-quality image generation.

arxiv情報

著者 Huming Qiu,Guanxu Chen,Mi Zhang,Xiaohan Zhang,Xiaoyu You,Min Yang
発行日 2025-04-15 12:26:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR | Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding はコメントを受け付けていません

What Is a Good Caption? A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness

要約

視覚的なキャプションベンチマークは、現代のマルチモーダル大手言語モデル(MLLM)の出現に伴い時代遅れになりました。これは、短いグラウンドトゥルースの文と従来のメトリックが詳細なキャプションを効果的に評価できないためです。
最近のベンチマークは、キーワード抽出またはオブジェクト中心の評価に焦点を当てることでこれに対処しようとしますが、それらは曖昧なビューまたはオブジェクトビュー分析と不完全な視覚要素カバレッジに限定されたままです。
このホワイトペーパーでは、6つの重要なビューにまたがる12次元にわたって視覚的なキャプションを評価するための包括的なマルチビューベンチマークである機能を紹介します。
生成されたキャプションを評価するために、視覚的な要素アノテーションを使用して、約11k人の人間に承認された画像とビデオをキュレートします。
機能は、F1スコアを使用してキャプションの正確性と徹底性の両方を安定に評価します。
アノテーションをQAペアに変換することにより、ヒューリスティックメトリック、\ textIT {now but incain}($ k \ bar {t} $)を導入し、QAとキャプション機能の間に大きなパフォーマンスギャップを示します。
私たちの作品は、MLLMのキャプション能力の最初の全体的な分析を提供します。さまざまな次元にわたる長所と短所を特定し、将来の研究を導き、能力の特定の側面を強化します。

要約(オリジナル)

Visual captioning benchmarks have become outdated with the emergence of modern multimodal large language models (MLLMs), as the brief ground-truth sentences and traditional metrics fail to assess detailed captions effectively. While recent benchmarks attempt to address this by focusing on keyword extraction or object-centric evaluation, they remain limited to vague-view or object-view analyses and incomplete visual element coverage. In this paper, we introduce CAPability, a comprehensive multi-view benchmark for evaluating visual captioning across 12 dimensions spanning six critical views. We curate nearly 11K human-annotated images and videos with visual element annotations to evaluate the generated captions. CAPability stably assesses both the correctness and thoroughness of captions using F1-score. By converting annotations to QA pairs, we further introduce a heuristic metric, \textit{know but cannot tell} ($K\bar{T}$), indicating a significant performance gap between QA and caption capabilities. Our work provides the first holistic analysis of MLLMs’ captioning abilities, as we identify their strengths and weaknesses across various dimensions, guiding future research to enhance specific aspects of capabilities.

arxiv情報

著者 Zhihang Liu,Chen-Wei Xie,Bin Wen,Feiwu Yu,Jixuan Chen,Boqiang Zhang,Nianzu Yang,Pandeng Li,Yinglu Li,Zuan Gao,Yun Zheng,Hongtao Xie
発行日 2025-04-15 12:58:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | What Is a Good Caption? A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness はコメントを受け付けていません

MuSeD: A Multimodal Spanish Dataset for Sexism Detection in Social Media Videos

要約

性差別は一般に、性別または性別に基づく偏見と差別として定義され、社会制度から人間関係や個人の行動まで、社会のあらゆる分野に影響を与えます。
ソーシャルメディアプラットフォームは、テキストだけでなく複数のモダリティ全体で差別的なコンテンツを伝えることにより、性差別の影響を増幅し、性差別のオンライン分析に対するマルチモーダルアプローチの重要な必要性を強調しています。
ユーザーが短いビデオを共有するソーシャルメディアプラットフォームの台頭により、性差別はビデオコンテンツを通じてますます広がっています。
ビデオで性差別を自動的に検出することは、性差別的な内容を特定するために口頭、オーディオ、視覚要素の組み合わせを分析する必要があるため、挑戦的な作業です。
この研究では、(1)TiktokとBitchuteから抽出された$ 11時間のビデオで構成される性差別検出のための新しいマルチモーダルスペインのデータセットであるMusedを紹介します。
(2)性差別的コンテンツと非セクシストコンテンツの分類におけるテキストおよびマルチモーダルラベルの貢献を分析するための革新的な注釈フレームワークを提案します。
(3)性差別検出のタスクに関するさまざまな大規模な言語モデル(LLM)とマルチモーダルLLMを評価します。
視覚情報は、人間とモデルの両方の性差別的な内容にラベルを付ける上で重要な役割を果たしていることがわかります。
モデルは明示的な性差別を効果的に検出します。
しかし、彼らはステレオタイプなど、アノテーターも低い一致を示す例などの暗黙のケースと格闘しています。
これは、暗黙の性差別を特定することは社会的および文化的文脈に依存するため、タスクの固有の困難を強調しています。

要約(オリジナル)

Sexism is generally defined as prejudice and discrimination based on sex or gender, affecting every sector of society, from social institutions to relationships and individual behavior. Social media platforms amplify the impact of sexism by conveying discriminatory content not only through text but also across multiple modalities, highlighting the critical need for a multimodal approach to the analysis of sexism online. With the rise of social media platforms where users share short videos, sexism is increasingly spreading through video content. Automatically detecting sexism in videos is a challenging task, as it requires analyzing the combination of verbal, audio, and visual elements to identify sexist content. In this study, (1) we introduce MuSeD, a new Multimodal Spanish dataset for Sexism Detection consisting of $\approx$ 11 hours of videos extracted from TikTok and BitChute; (2) we propose an innovative annotation framework for analyzing the contribution of textual and multimodal labels in the classification of sexist and non-sexist content; and (3) we evaluate a range of large language models (LLMs) and multimodal LLMs on the task of sexism detection. We find that visual information plays a key role in labeling sexist content for both humans and models. Models effectively detect explicit sexism; however, they struggle with implicit cases, such as stereotypes, instances where annotators also show low agreement. This highlights the inherent difficulty of the task, as identifying implicit sexism depends on the social and cultural context.

arxiv情報

著者 Laura De Grazia,Pol Pastells,Mauro Vázquez Chas,Desmond Elliott,Danae Sánchez Villegas,Mireia Farrús,Mariona Taulé
発行日 2025-04-15 13:16:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MuSeD: A Multimodal Spanish Dataset for Sexism Detection in Social Media Videos はコメントを受け付けていません

What is the Role of Small Models in the LLM Era: A Survey

要約

大規模な言語モデル(LLMS)は、人工的な一般情報(AGI)の前進に大きな進歩を遂げ、GPT-4やLLAMA-405Bなどのますます大きなモデルの開発につながりました。
ただし、モデルサイズを拡大すると、計算コストとエネルギー消費量が指数関数的に高くなり、これらのモデルは、リソースが限られている学術研究者や企業にとって実用的ではありません。
同時に、実際の設定では小さなモデル(SMS)が頻繁に使用されますが、その重要性は現在過小評価されています。
これは、LLMSの時代における小さなモデルの役割に関する重要な疑問を提起します。これは、以前の研究で限られた注目を集めてきたトピックです。
この作業では、2つの重要な観点からLLMとSMSの関係を体系的に調べます:コラボレーションと競争。
この調査は、実践者に貴重な洞察を提供し、小規模モデルの貢献についてのより深い理解を促進し、計算リソースのより効率的な使用を促進することを願っています。
このコードは、https://github.com/tigerchen52/role_of_small_modelsで入手できます

要約(オリジナル)

Large Language Models (LLMs) have made significant progress in advancing artificial general intelligence (AGI), leading to the development of increasingly large models such as GPT-4 and LLaMA-405B. However, scaling up model sizes results in exponentially higher computational costs and energy consumption, making these models impractical for academic researchers and businesses with limited resources. At the same time, Small Models (SMs) are frequently used in practical settings, although their significance is currently underestimated. This raises important questions about the role of small models in the era of LLMs, a topic that has received limited attention in prior research. In this work, we systematically examine the relationship between LLMs and SMs from two key perspectives: Collaboration and Competition. We hope this survey provides valuable insights for practitioners, fostering a deeper understanding of the contribution of small models and promoting more efficient use of computational resources. The code is available at https://github.com/tigerchen52/role_of_small_models

arxiv情報

著者 Lihu Chen,Gaël Varoquaux
発行日 2025-04-15 13:38:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | What is the Role of Small Models in the LLM Era: A Survey はコメントを受け付けていません

Bias Beyond English: Evaluating Social Bias and Debiasing Methods in a Low-Resource Setting

要約

言語モデルの社会的バイアスは、社会的不平等を悪化させる可能性があります。
それは広く注目されているにもかかわらず、ほとんどの研究は英語のデータに焦点を当てています。
リソースの低いシナリオでは、トレーニングデータが不十分なため、モデルはしばしば悪化します。
この研究の目的は、高リソースの言語コーパスを活用してバイアスを評価し、低リソース言語での脱毛方法を実験することを目的としています。
5つの言語での最近の多言語モデルのパフォーマンスを評価しました:英語(\ textsc {eng})、中国語(\ textsc {zho})、ロシア語(\ textsc {rus})、インドネシア(\ textsc {ind})、タイ(\ textsc {tha})、およびfour bias dimensions:\ texitionを分析しました。
\ textit {religion}、\ textit {国籍}、および\ textit {race-color}。
多言語バイアス評価データセットを構築することにより、この調査により、言語間のモデル間の公正な比較が可能になります。
さらに、3つのdebiasingメソッド – \ texttt {cda}、\ texttt {dropout}、\ texttt {sendeb} – を調査し、高リソース言語からの委員会を効果的に低リソースのものに効果的に転送できることを実証しました。

要約(オリジナル)

Social bias in language models can potentially exacerbate social inequalities. Despite it having garnered wide attention, most research focuses on English data. In a low-resource scenario, the models often perform worse due to insufficient training data. This study aims to leverage high-resource language corpora to evaluate bias and experiment with debiasing methods in low-resource languages. We evaluated the performance of recent multilingual models in five languages: English (\textsc{eng}), Chinese (\textsc{zho}), Russian (\textsc{rus}), Indonesian (\textsc{ind}) and Thai (\textsc{tha}), and analyzed four bias dimensions: \textit{gender}, \textit{religion}, \textit{nationality}, and \textit{race-color}. By constructing multilingual bias evaluation datasets, this study allows fair comparisons between models across languages. We have further investigated three debiasing methods-\texttt{CDA}, \texttt{Dropout}, \texttt{SenDeb}-and demonstrated that debiasing methods from high-resource languages can be effectively transferred to low-resource ones, providing actionable insights for fairness research in multilingual NLP.

arxiv情報

著者 Ej Zhou,Weiming Lu
発行日 2025-04-15 13:40:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Bias Beyond English: Evaluating Social Bias and Debiasing Methods in a Low-Resource Setting はコメントを受け付けていません

Benchmarking Next-Generation Reasoning-Focused Large Language Models in Ophthalmology: A Head-to-Head Evaluation on 5,888 Items

要約

推論に焦点を当てた大手言語モデル(LLMS)の最近の進歩は、一般的なLLMSから複雑な意思決定のために設計されたモデルへの移行を、医学の重要な側面です。
ただし、眼科のような専門的なドメインでのパフォーマンスは、採用されていないままです。
この研究は、4つの新しく開発された推論に焦点を当てたLLMの精度と推論能力を包括的に評価し、比較しました。
各モデルは、ゼロショット設定でMEDMCQAデータセットからの5,888の多肢選択眼科試験の質問を使用して評価されました。
定量的評価には、基礎的な推論に対して計算された精度、マクロ-F1、および5つのテキストジェネレーションメトリック(Rouge-L、Meteor、Bertscore、Bartscore、およびAlignscore)が含まれます。
ランダムに選択された100の質問のサブセットについて、平均推論時間が記録されました。
さらに、2人のボード認定眼科医が、鑑別診断の質問に対する応答の明確性、完全性、および推論構造を定性的に評価しました。O1(0.902)およびDeepseek-R1(0.888)は、Macro-F1(0.900)をリードしているO1も達成しました。
テキストジェネレーションメトリック全体のモデルのパフォーマンスはさまざまでした:O3-MINIはルージュ-L(0.151)、Meteor(0.232)、Deepseek-R1およびO3-MiniがBertscore(0.673)、Deepseek-R1(-4.105)、Gemini 2.0で最高のパフォーマンスを発揮しました(-4.127)に結び付けられています(-4.127)
O3-MINI(0.181)およびO1(0.176)LED AlignScore。
モデル全体での推論時間はさまざまで、DeepSeek-R1は最も遅い(40.4秒)、Gemini 2.0 Flash-Thinkingestest(6.7秒)がありました。
定性的評価により、Deepseek-R1とGemini 2.0のフラッシュ思考が詳細かつ包括的な中間推論を提供する傾向があることが明らかになりましたが、O1とO3-Miniは簡潔で要約された正当化を示しました。

要約(オリジナル)

Recent advances in reasoning-focused large language models (LLMs) mark a shift from general LLMs toward models designed for complex decision-making, a crucial aspect in medicine. However, their performance in specialized domains like ophthalmology remains underexplored. This study comprehensively evaluated and compared the accuracy and reasoning capabilities of four newly developed reasoning-focused LLMs, namely DeepSeek-R1, OpenAI o1, o3-mini, and Gemini 2.0 Flash-Thinking. Each model was assessed using 5,888 multiple-choice ophthalmology exam questions from the MedMCQA dataset in zero-shot setting. Quantitative evaluation included accuracy, Macro-F1, and five text-generation metrics (ROUGE-L, METEOR, BERTScore, BARTScore, and AlignScore), computed against ground-truth reasonings. Average inference time was recorded for a subset of 100 randomly selected questions. Additionally, two board-certified ophthalmologists qualitatively assessed clarity, completeness, and reasoning structure of responses to differential diagnosis questions.O1 (0.902) and DeepSeek-R1 (0.888) achieved the highest accuracy, with o1 also leading in Macro-F1 (0.900). The performance of models across the text-generation metrics varied: O3-mini excelled in ROUGE-L (0.151), o1 in METEOR (0.232), DeepSeek-R1 and o3-mini tied for BERTScore (0.673), DeepSeek-R1 (-4.105) and Gemini 2.0 Flash-Thinking (-4.127) performed best in BARTScore, while o3-mini (0.181) and o1 (0.176) led AlignScore. Inference time across the models varied, with DeepSeek-R1 being slowest (40.4 seconds) and Gemini 2.0 Flash-Thinking fastest (6.7 seconds). Qualitative evaluation revealed that DeepSeek-R1 and Gemini 2.0 Flash-Thinking tended to provide detailed and comprehensive intermediate reasoning, whereas o1 and o3-mini displayed concise and summarized justifications.

arxiv情報

著者 Minjie Zou,Sahana Srinivasan,Thaddaeus Wai Soon Lo,Ke Zou,Gabriel Dawei Yang,Xuguang Ai,Hyunjae Kim,Maxwell Singer,Fares Antaki,Kelvin Li,Robert Chang,Marcus Tan,David Ziyou Chen,Dianbo Liu,Qingyu Chen,Yih Chung Tham
発行日 2025-04-15 13:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Benchmarking Next-Generation Reasoning-Focused Large Language Models in Ophthalmology: A Head-to-Head Evaluation on 5,888 Items はコメントを受け付けていません