Evaluating the Bias in LLMs for Surveying Opinion and Decision Making in Healthcare

要約

生成エージェントは、大規模な言語モデル(LLM)によって駆動される、シリコでの人間の行動をシミュレートするためにますます使用されてきました。
これらのSimulacraは、プライバシーや安全性を損なうことなく、人間の行動を研究するためのサンドボックスとして機能します。
ただし、そのようなエージェントが実際の個人を本当に表すことができるかどうかは不明のままです。
この作業では、ヘルスケアの意思決定に関するUnderstanding America Study(UAS)の調査データと、生成エージェントからのシミュレートされた回答と比較されます。
人口統計ベースのプロンプトエンジニアリングを使用して、調査回答者のデジタルツインを作成し、LLMが実際の行動をどの程度うまく再現するかを分析します。
私たちの調査結果は、一部のLLMが普遍的なワクチンの受け入れを予測するなど、現実的な意思決定を反映していないことを示しています。
ただし、Llama 3は、人種と収入全体のバリエーションをより正確にキャプチャしますが、UASデータに存在しないバイアスも導入します。
この研究は、LLMSのバイアスのリスクと促進戦略のリスクを強調しながら、行動研究のための生成エージェントの可能性を強調しています。

要約(オリジナル)

Generative agents have been increasingly used to simulate human behaviour in silico, driven by large language models (LLMs). These simulacra serve as sandboxes for studying human behaviour without compromising privacy or safety. However, it remains unclear whether such agents can truly represent real individuals. This work compares survey data from the Understanding America Study (UAS) on healthcare decision-making with simulated responses from generative agents. Using demographic-based prompt engineering, we create digital twins of survey respondents and analyse how well different LLMs reproduce real-world behaviours. Our findings show that some LLMs fail to reflect realistic decision-making, such as predicting universal vaccine acceptance. However, Llama 3 captures variations across race and Income more accurately but also introduces biases not present in the UAS data. This study highlights the potential of generative agents for behavioural research while underscoring the risks of bias from both LLMs and prompting strategies.

arxiv情報

著者 Yonchanok Khaokaew,Flora D. Salim,Andreas Züfle,Hao Xue,Taylor Anderson,Matthew Scotch,David J Heslop
発行日 2025-04-11 05:11:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Evaluating the Bias in LLMs for Surveying Opinion and Decision Making in Healthcare はコメントを受け付けていません

VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering

要約

テキスト、テーブル、画像間のマルチモーダルデータの可用性の向上は、複雑なクロスモーダル推論が可能なモデルを開発するための新しい課題を提示します。
マルチモーダルマルチホップ質問応答(MMQA)の既存の方法は、限られた推論能力、モダリティ変換への依存、視覚表現とテキスト表現の間の不十分な整合性に悩まされています。
これらの制限に対処するために、このペーパーでは、変圧器ベースのビジョンエンコーダーをシーケンスツーシーケンス言語モデルと統合する統合されたアーキテクチャであるVision-Language Multimodal Transformer(VLMT)を紹介します。
VLMTは、直接トークンレベルのインジェクションメカニズムを採用して、共有埋め込みスペース内で視覚とテキストの入力を融合し、中間投影層の必要性を排除します。
クロスモーダルのアライメントと推論を強化するために、視覚言語の表現を徐々に整列させ、マルチモーダル理解のためのモデルの能力を向上させるために、3段階の事前トレーニング戦略が提案されています。
前処理されたバックボーンに基づいて、2つのタスク固有のモジュールがインスタンス化されて2段階のMMQAフレームワークを形成します。ドキュメント関連スコアを予測し、コンテキスト回収のためのトップK戦略で相対的なしきい値を使用するマルチモーダル再ランカー、およびリテリーブエビデンスに基づいたコンテキストの接続された答えを生成するマルチモーダルの質問回答モデル。
2つのベンチマークデータセットでの包括的な実験は、提案されたアプローチの有効性を示しています。
MultimodalQA検証セットでは、VLMT-Largeは76.5%の正確な一致と80.1%F1を達成し、以前の最先端を正確な一致で +9.1%、F1で +8.8%よりも上回ります。
WebQAでは、PERQAなどの以前のモデルを+3.2で上回る47.6のQAスコアを達成します。
これらの結果は、マルチモーダル推論におけるVLMTの強力な能力と、実際の情報検索と質問回答システムを前進させる可能性を強調しています。

要約(オリジナル)

The increasing availability of multimodal data across text, tables, and images presents new challenges for developing models capable of complex cross-modal reasoning. Existing methods for Multimodal Multi-hop Question Answering (MMQA) often suffer from limited reasoning capabilities, reliance on modality conversion, and inadequate alignment between visual and textual representations. To address these limitations, this paper introduces Vision-Language Multimodal Transformer (VLMT), a unified architecture that integrates a transformer-based vision encoder with a sequence-to-sequence language model. VLMT employs a direct token-level injection mechanism to fuse visual and textual inputs within a shared embedding space, eliminating the need for intermediate projection layers. To enhance cross-modal alignment and reasoning, a three-stage pretraining strategy is proposed to progressively align vision-language representations and improve the model’s capacity for multimodal understanding. Based on the pretrained backbone, two task-specific modules are instantiated to form a two-stage MMQA framework: a multimodal reranker that predicts document relevance scores and utilizes a relative threshold with top-k strategy for context retrieval, and a multimodal question answering model that generates contextually grounded answers based on the retrieved evidence. Comprehensive experiments on two benchmark datasets demonstrate the effectiveness of the proposed approach. On MultimodalQA validation set, VLMT-Large achieves 76.5% Exact Match and 80.1% F1, outperforming the previous state-of-the-art by +9.1% in Exact Match and +8.8% in F1. On WebQA, it attains a QA score of 47.6, surpassing prior models such as PERQA by +3.2. These results highlight VLMT’s strong capabilities in multimodal reasoning and its potential to advance real-world information retrieval and question answering systems.

arxiv情報

著者 Qi Zhi Lim,Chin Poo Lee,Kian Ming Lim,Kalaiarasi Sonai Muthu Anbananthen
発行日 2025-04-11 05:51:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering はコメントを受け付けていません

Generalized Multilingual Text-to-Speech Generation with Language-Aware Style Adaptation

要約

テキストツースピーチ(TTS)モデルは、音素を波形に変換することにより、複数の言語で自然で人間のような音声を生成できます。
ただし、音素の語彙の不一致と、言語全体の韻律とスピーキングスタイルの変動により、多言語TTSは依然として困難です。
既存のアプローチは、各言語の個別のモデルをトレーニングし、計算リソースの増加のコストで高性能を達成するか、細かい言語固有のスタイルのバリエーションをキャプチャするのに苦労している複数の言語に統一されたモデルを使用します。
この作業では、音素表現を標準化し、言語間で細かい音素レベルのスタイル制御を可能にする非自己網羅的な言語を意識したスタイルの適応TTSフレームワークであるLanstylettsを提案します。
この設計は、言語固有のモデルを訓練する必要なく、正確で高品質のスピーチを生成できる統一された多言語TTSモデルをサポートします。
Lanstylettsは、いくつかの最先端の非自動性TTSアーキテクチャと統合することにより、Lanstylettsを評価します。
結果は、異なるモデルのバックボーンにわたって一貫したパフォーマンスの改善を示しています。
さらに、メルセプレクトグラムや自動エンコーダー由来の潜在的な特徴など、さまざまな音響特徴表現を調査します。
私たちの実験は、潜在的なエンコーディングが高品質の音声生成を維持しながら、モデルのサイズと計算コストを大幅に削減できることを示しています。

要約(オリジナル)

Text-to-Speech (TTS) models can generate natural, human-like speech across multiple languages by transforming phonemes into waveforms. However, multilingual TTS remains challenging due to discrepancies in phoneme vocabularies and variations in prosody and speaking style across languages. Existing approaches either train separate models for each language, which achieve high performance at the cost of increased computational resources, or use a unified model for multiple languages that struggles to capture fine-grained, language-specific style variations. In this work, we propose LanStyleTTS, a non-autoregressive, language-aware style adaptive TTS framework that standardizes phoneme representations and enables fine-grained, phoneme-level style control across languages. This design supports a unified multilingual TTS model capable of producing accurate and high-quality speech without the need to train language-specific models. We evaluate LanStyleTTS by integrating it with several state-of-the-art non-autoregressive TTS architectures. Results show consistent performance improvements across different model backbones. Furthermore, we investigate a range of acoustic feature representations, including mel-spectrograms and autoencoder-derived latent features. Our experiments demonstrate that latent encodings can significantly reduce model size and computational cost while preserving high-quality speech generation.

arxiv情報

著者 Haowei Lou,Hye-young Paik,Sheng Li,Wen Hu,Lina Yao
発行日 2025-04-11 06:12:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Generalized Multilingual Text-to-Speech Generation with Language-Aware Style Adaptation はコメントを受け付けていません

ELSA: A Style Aligned Dataset for Emotionally Intelligent Language Generation

要約

感情的な言語処理の進歩は、会話型AIや感情的なコンピューティングから計算心理学や創造的なコンテンツ生成に至るまで、ますます重要なNLPアプリケーションを形成しています。
既存の感情データセットは、感情的な粒度を欠いているか、必要なスタイルの多様性をキャプチャできず、効果的な感情条件付けられたテキスト生成システムの進歩を制限します。
粒度とスタイルの多様性の間のこの重要なギャップを埋めることを目指して、このペーパーでは、Dair AI Emotion DatasetやGoeMotions Taxonomyなどの既存のソースから適応した細かい粒子化感情分類法を活用するElsa EmotionとLanguage Style Alignment Datasetという系統的に構築されたデータセットを紹介します。
このデータセットは、高度な大手言語モデルLLMを使用して、会話、フォーマル、詩的、物語などの異なるコンテキストスタイルにわたって再生された元の文の複数の感情的に微妙なバリエーションで構成されています。
困惑、埋め込みの分散、読みやすさ、語彙の多様性、セマンティックコヒーレンス測定などのメトリックを使用した厳密な計算評価は、データセットの感情的な真正性、言語流encyさ、テキストの多様性を検証します。
包括的なメトリック分析は、感情条件付けられたスタイルの適応テキスト生成へのより深い調査をサポートする可能性を確認します。
精密調整された感情的に微妙な言語モデリングを可能にすることにより、私たちのデータセットは、LLMを使用した細かい粒度の感情的コントロール、迅速な説明、解釈可能性、およびスタイルの適応表現言語生成の研究のための肥沃な基盤を作成します。

要約(オリジナル)

Advancements in emotion aware language processing increasingly shape vital NLP applications ranging from conversational AI and affective computing to computational psychology and creative content generation. Existing emotion datasets either lack emotional granularity or fail to capture necessary stylistic diversity, limiting the advancement of effective emotion conditioned text generation systems. Seeking to bridge this crucial gap between granularity and style diversity, this paper introduces a novel systematically constructed dataset named ELSA Emotion and Language Style Alignment Dataset leveraging fine grained emotion taxonomies adapted from existing sources such as dair ai emotion dataset and GoEmotions taxonomy. This dataset comprises multiple emotionally nuanced variations of original sentences regenerated across distinct contextual styles such as conversational, formal, poetic, and narrative, using advanced Large Language Models LLMs. Rigorous computational evaluation using metrics such as perplexity, embedding variance, readability, lexical diversity, and semantic coherence measures validates the datasets emotional authenticity, linguistic fluency, and textual diversity. Comprehensive metric analyses affirm its potential to support deeper explorations into emotion conditioned style adaptive text generation. By enabling precision tuned emotionally nuanced language modeling, our dataset creates fertile ground for research on fine grained emotional control, prompt driven explanation, interpretability, and style adaptive expressive language generation with LLMs.

arxiv情報

著者 Vishal Gandhi,Sagar Gandhi
発行日 2025-04-11 06:30:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | ELSA: A Style Aligned Dataset for Emotionally Intelligent Language Generation はコメントを受け付けていません

Large language models could be rote learners

要約

複数選択の質問(MCQ)ベンチマークは、大規模な言語モデル(LLM)の評価に広く使用されていますが、その信頼性はベンチマークの汚染によって損なわれています。
この研究では、汚染を学習の固有の側面として再構成し、LLM評価における表面的な記憶から本物の能力の獲得を解き放つよう努めています。
第一に、さまざまな記憶条件下でモデルのパフォーマンスを分析することにより、直感に反する傾向を明らかにします。LLMは、記憶されていないMCQよりも記憶されたMCQよりも悪化し、2つの異なる学習現象の共存、つまり暗記と本物の能力学習を示しています。
それらを解くために、MCQを代替のTrinity形式に再フォーマルする新しい評価フレームワークであるTrinevalを提案し、知識評価を維持しながら暗記を減らします。
実験は、再生におけるTrinevalの有効性を検証し、その評価は、一般的なLLMが知識ポイントの20.5%(平均してMMLU)によって記憶する可能性があることを明らかにしています。

要約(オリジナル)

Multiple-choice question (MCQ) benchmarks are widely used for evaluating Large Language Models (LLMs), yet their reliability is undermined by benchmark contamination. In this study, we reframe contamination as an inherent aspect of learning and seek to disentangle genuine capability acquisition from superficial memorization in LLM evaluation. First, by analyzing model performance under different memorization conditions, we uncover a counterintuitive trend: LLMs perform worse on memorized MCQs than on non-memorized ones, indicating the coexistence of two distinct learning phenomena, i.e., rote memorization and genuine capability learning. To disentangle them, we propose TrinEval, a novel evaluation framework that reformulates MCQs into an alternative trinity format, reducing memorization while preserving knowledge assessment. Experiments validate TrinEval’s effectiveness in reformulation, and its evaluation reveals that common LLMs may memorize by rote 20.5% of knowledge points (in MMLU on average).

arxiv情報

著者 Yuyang Xu,Renjun Hu,Haochao Ying,Jian Wu,Xing Shi,Wei Lin
発行日 2025-04-11 07:04:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Large language models could be rote learners はコメントを受け付けていません

ScaffoldGPT: A Scaffold-based GPT Model for Drug Optimization

要約

薬物最適化は、急速に走行するウイルス株と薬剤耐性癌細胞に照らしてますます重要になっています。
それにもかかわらず、元の薬物の有益な特性を保持する必要があると同時に、その範囲を超えて望ましい属性を強化する必要があるため、挑戦的なままです。
この作業では、分子足場に基づいて薬物最適化のために設計された新規生成前処理変圧器(GPT)であるscaffoldgptを導入することにより、この課題に取り組むことを目指しています。
私たちの作業は、3つの重要なコンポーネントで構成されています。(1)事前トレーニング、微調整、およびデコード最適化を統合する3段階の薬物最適化アプローチ。
(2)パフォーマンスが向上した分子足場での薬物最適化GPTを事前トレーニングするためのユニークに設計された2フェーズ増分トレーニングアプローチ。
(3)前処理された/Finetuned GPTを使用した制御された報酬ガイド付き生成を可能にするトークンレベルのデコード最適化戦略、TOP-N。
Covidおよびがんのベンチマークに関する包括的な評価を介して、ScaffoldGptが薬物最適化ベンチマークの競合するベースラインよりも優れていることを実証し、元の機能的足場を維持し、望ましい特性を強化します。

要約(オリジナル)

Drug optimization has become increasingly crucial in light of fast-mutating virus strains and drug-resistant cancer cells. Nevertheless, it remains challenging as it necessitates retaining the beneficial properties of the original drug while simultaneously enhancing desired attributes beyond its scope. In this work, we aim to tackle this challenge by introducing ScaffoldGPT, a novel Generative Pretrained Transformer (GPT) designed for drug optimization based on molecular scaffolds. Our work comprises three key components: (1) A three-stage drug optimization approach that integrates pretraining, finetuning, and decoding optimization. (2) A uniquely designed two-phase incremental training approach for pre-training the drug optimization GPT on molecule scaffold with enhanced performance. (3) A token-level decoding optimization strategy, TOP-N, that enabling controlled, reward-guided generation using pretrained/finetuned GPT. We demonstrate via a comprehensive evaluation on COVID and cancer benchmarks that ScaffoldGPT outperforms the competing baselines in drug optimization benchmarks, while excelling in preserving original functional scaffold and enhancing desired properties.

arxiv情報

著者 Xuefeng Liu,Songhao Jiang,Ian Foster,Jinbo Xu,Rick Stevens
発行日 2025-04-11 07:15:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, q-bio.BM | ScaffoldGPT: A Scaffold-based GPT Model for Drug Optimization はコメントを受け付けていません

Attribution in Scientific Literature: New Benchmark and Methods

要約

大規模な言語モデル(LLMS)は、科学的コミュニケーションにおける自動化されたソース引用のために、有望でありながら挑戦的なフロンティアを提示します。
引用生成に対する以前のアプローチは、引用のあいまいさとLLMの過剰な一般化によって制限されています。
Arxivの12の科学ドメインにわたって、文レベルの注釈を備えた新しいデータセットである理由を紹介します。
評価フレームワークは、2つの重要な引用シナリオをカバーしています。間接的なクエリ(紙のタイトルに文を一致させる)と直接クエリ(著者の帰属)、どちらもコンテキストメタデータで強化されています。
GPT-O1、GPT-4O、GPT-3.5、DeepSeekなどのモデル、および困惑AI(7b)などの他の小型モデルで広範な実験を実施します。
一流のLLMは、文の帰属で高性能を達成しますが、科学的信頼性の重要なメトリックである高い幻覚率と闘っています。
当社のメタデータの高度アプローチは、すべてのタスクにわたって幻覚率を低下させ、改善のための有望な方向性を提供します。
Mistralを使用した検索の高度発電(RAG)は、間接的なクエリのパフォーマンスを改善し、幻覚率を42%減らし、より大きなモデルで競争精度を維持します。
ただし、敵対的なテストは、紙のタイトルを要約にリンクする際の課題を強調し、現在のLLMの基本的な制限を明らかにしています。
理由は、科学的アプリケーションで信頼できる信頼できるLLMを開発するための挑戦的なベンチマークを提供します

要約(オリジナル)

Large language models (LLMs) present a promising yet challenging frontier for automated source citation in scientific communication. Previous approaches to citation generation have been limited by citation ambiguity and LLM overgeneralization. We introduce REASONS, a novel dataset with sentence-level annotations across 12 scientific domains from arXiv. Our evaluation framework covers two key citation scenarios: indirect queries (matching sentences to paper titles) and direct queries (author attribution), both enhanced with contextual metadata. We conduct extensive experiments with models such as GPT-O1, GPT-4O, GPT-3.5, DeepSeek, and other smaller models like Perplexity AI (7B). While top-tier LLMs achieve high performance in sentence attribution, they struggle with high hallucination rates, a key metric for scientific reliability. Our metadata-augmented approach reduces hallucination rates across all tasks, offering a promising direction for improvement. Retrieval-augmented generation (RAG) with Mistral improves performance in indirect queries, reducing hallucination rates by 42% and maintaining competitive precision with larger models. However, adversarial testing highlights challenges in linking paper titles to abstracts, revealing fundamental limitations in current LLMs. REASONS provides a challenging benchmark for developing reliable and trustworthy LLMs in scientific applications

arxiv情報

著者 Yash Saxena,Deepa Tilwani,Ali Mohammadi,Edward Raff,Amit Sheth,Srinivasan Parthasarathy,Manas Gaur
発行日 2025-04-11 07:20:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Attribution in Scientific Literature: New Benchmark and Methods はコメントを受け付けていません

IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models

要約

ビジョンと言語(VL)の理解の分野は、エンドツーエンドの大規模な事前訓練VLモデル(VLM)で前例のない進歩を遂げました。
ただし、マルチステップの推論を必要とするゼロショット推論タスクではまだ不足しています。
この目標を達成するために、以前の作品は分割統治パイプラインに頼ります。
この論文では、以前の取り組みにはいくつかの固有の欠点があると主張します。1)それらはドメイン固有のサブ質問モデルに依存しています。
2)サブ質問やサブアンドワーが十分な情報を提供している場合でも、モデルに最終的な答えを予測するように強制します。
これらの制限には、大規模な言語モデル(LLM)を使用してVL推論を繰り返し分解するフレームワークであるIdealGPTを介して対処します。
具体的には、IdealGPTはLLMを利用してサブ質問を生成し、VLMを生成して対応するサブアンドワーを提供し、別のLLMを使用して最終的な回答を達成します。
これらの3つのモジュールは、モデルが主な質問に対する最終回答について自信を持つまで、格差と征服の手順を繰り返し実行します。
ゼロショット設定の下で、複数の挑戦的なVL推論タスクで理想的なGPTを評価します。
特に、当社の理想的なGPTは、VCRで絶対10%、SNLI-VEで15%で最高の既存のGPT-4様モデルよりも優れています。
コードはhttps://github.com/hxyou/idealgptで入手できます

要約(オリジナル)

The field of vision-and-language (VL) understanding has made unprecedented progress with end-to-end large pre-trained VL models (VLMs). However, they still fall short in zero-shot reasoning tasks that require multi-step inferencing. To achieve this goal, previous works resort to a divide-and-conquer pipeline. In this paper, we argue that previous efforts have several inherent shortcomings: 1) They rely on domain-specific sub-question decomposing models. 2) They force models to predict the final answer even if the sub-questions or sub-answers provide insufficient information. We address these limitations via IdealGPT, a framework that iteratively decomposes VL reasoning using large language models (LLMs). Specifically, IdealGPT utilizes an LLM to generate sub-questions, a VLM to provide corresponding sub-answers, and another LLM to reason to achieve the final answer. These three modules perform the divide-and-conquer procedure iteratively until the model is confident about the final answer to the main question. We evaluate IdealGPT on multiple challenging VL reasoning tasks under a zero-shot setting. In particular, our IdealGPT outperforms the best existing GPT-4-like models by an absolute 10% on VCR and 15% on SNLI-VE. Code is available at https://github.com/Hxyou/IdealGPT

arxiv情報

著者 Haoxuan You,Zhecan Wang,Rui Sun,Long Chen,Gengyu Wang,Hammad A. Ayyubi,Kai-Wei Chang,Shih-Fu Chang
発行日 2025-04-11 07:26:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models はコメントを受け付けていません

MedRep: Medical Concept Representation for General Electronic Health Record Foundation Models

要約

Electronic Health Record(EHR)Foundationモデルは、さまざまな医療タスクでのパフォーマンスが向上し、調査の熟度が高まっています。
急速な進歩にもかかわらず、基本的な制限が存在します。それは、語彙から目に見えない医療コードを処理することです。
この問題は、EHR基礎モデルの一般性と、異なる語彙で訓練されたモデルの統合を制限します。
この問題に対処するために、観察医療結果パートナーシップ(OMOP)共通データモデル(CDM)に基づいたEHR財団モデルのMEDREPを提案し、患者軌跡の統合された医療概念表現と基本的なデータ増強戦略を提供します。
概念表現学習のために、大規模な言語モデル(LLM)を介して最小限の定義で各概念の情報を濃縮し、OMOP語彙のグラフオントロジーを通じてテキストベースの表現を強化します。
軌跡の増強は、選択された概念をランダムに、他の同様の概念に置き換えます。他の同様の概念には、概念を表現してモデルを練習させるための密接に関連する表現があります。
最後に、MEDREPで訓練されたEHR基礎モデルが外部データセットの予測パフォーマンスをよりよく維持することを実証します。
当社のコード実装は、https://github.com/kicarussays/medrepで公開されています。

要約(オリジナル)

Electronic health record (EHR) foundation models have been an area ripe for exploration with their improved performance in various medical tasks. Despite the rapid advances, there exists a fundamental limitation: Processing unseen medical codes out of the vocabulary. This problem limits the generality of EHR foundation models and the integration of models trained with different vocabularies. To deal with this problem, we propose MedRep for EHR foundation models based on the observational medical outcome partnership (OMOP) common data model (CDM), providing the integrated medical concept representations and the basic data augmentation strategy for patient trajectories. For concept representation learning, we enrich the information of each concept with a minimal definition through large language model (LLM) prompts and enhance the text-based representations through graph ontology of OMOP vocabulary. Trajectory augmentation randomly replaces selected concepts with other similar concepts that have closely related representations to let the model practice with the concepts out-of-vocabulary. Finally, we demonstrate that EHR foundation models trained with MedRep better maintain the prediction performance in external datasets. Our code implementation is publicly available at https://github.com/kicarussays/MedRep.

arxiv情報

著者 Junmo Kim,Namkyeong Lee,Jiwon Kim,Kwangsoo Kim
発行日 2025-04-11 07:51:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | MedRep: Medical Concept Representation for General Electronic Health Record Foundation Models はコメントを受け付けていません

FocalLens: Instruction Tuning Enables Zero-Shot Conditional Image Representations

要約

視覚的理解は本質的に文脈的です – 画像で焦点を当てるものは、目前のタスクに依存します。
たとえば、花の花束を持っている人のイメージを考えると、興味のある文脈に応じて、衣服などの人や花の種類のいずれかに焦点を当てることができます。
しかし、ほとんどの既存の画像エンコードパラダイムは、さまざまな下流のユースケースに対してさまざまな視覚情報を優先する潜在的なニーズを見落とす固定された一般的な特徴ベクトルとしての画像を表しています。
この作業では、自然言語を通して柔軟に表現された関心のあるコンテキストに基づいて、同じ画像の異なる表現を生成する条件付き視覚エンコード方法であるFocallensを紹介します。
ビジョン命令の調整データを活用し、条件付き画像表現を生成するための追加の入力として自然言語の指示を取得するために、前処理されたビジョンエンコーダーを対象に微調整します。
広範な実験は、Focallensからの条件付き画像表現が、Clipなどの標準的なビジョンエンコーダーによって生成される一般的な特徴と比較して、関心のある視覚的特徴をよりよく発音することを検証します。
さらに、Focallensがさらに、画像イメージの検索、画像分類、画像テキストの検索など、さまざまなダウンストリームタスクのパフォーマンスの改善につながり、それぞれ困難なSugarCrepeおよびMMVP-VLMベンチマークで5ポイントと10ポイントの平均ゲインがあります。

要約(オリジナル)

Visual understanding is inherently contextual — what we focus on in an image depends on the task at hand. For instance, given an image of a person holding a bouquet of flowers, we may focus on either the person such as their clothing, or the type of flowers, depending on the context of interest. Yet, most existing image encoding paradigms represent an image as a fixed, generic feature vector, overlooking the potential needs of prioritizing varying visual information for different downstream use cases. In this work, we introduce FocalLens, a conditional visual encoding method that produces different representations for the same image based on the context of interest, expressed flexibly through natural language. We leverage vision instruction tuning data and contrastively finetune a pretrained vision encoder to take natural language instructions as additional inputs for producing conditional image representations. Extensive experiments validate that conditional image representation from FocalLens better pronounce the visual features of interest compared to generic features produced by standard vision encoders like CLIP. In addition, we show FocalLens further leads to performance improvements on a range of downstream tasks including image-image retrieval, image classification, and image-text retrieval, with an average gain of 5 and 10 points on the challenging SugarCrepe and MMVP-VLM benchmarks, respectively.

arxiv情報

著者 Cheng-Yu Hsieh,Pavan Kumar Anasosalu Vasu,Fartash Faghri,Raviteja Vemulapalli,Chun-Liang Li,Ranjay Krishna,Oncel Tuzel,Hadi Pouransari
発行日 2025-04-11 09:07:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | FocalLens: Instruction Tuning Enables Zero-Shot Conditional Image Representations はコメントを受け付けていません