AI in radiological imaging of soft-tissue and bone tumours: a systematic review evaluating against CLAIM and FUTURE-AI guidelines

要約

軟部組織および骨腫瘍(STBT)はまれで、臨床行動と治療アプローチがさまざまな診断的に挑戦的な病変です。
この系統的レビューは、これらの腫瘍の診断と予後のための放射線イメージングを使用した人工知能(AI)メソッドの概要を提供し、臨床翻訳における課題を強調し、医療イメージングのAIのチェックリストとの研究の整合と、臨床翻訳の信頼できるAI翻訳を展開するための信頼できるAIのための将来の国際的なコンセンサスガイドラインとの調整を評価します。
このレビューでは、17/07/2024以前に公開された論文を含む、いくつかの書誌データベースの文献を取り上げました。
診断または予測の一次STBTを診断または予測するための放射線科ベースのAIに焦点を当てた査読付きジャーナルのオリジナル研究が含まれていました。
除外基準は、動物、死体、または実験室の研究、および英語以外の論文でした。
要約は、適格性のために3人の独立したレビュアーのうち2人によって上映されました。
適格な論文は、3人の独立したレビュアーの1人によってガイドラインに対して評価されました。
検索では、15,015の要約が特定され、そこから325の記事が評価されました。
ほとんどの研究は、53のうち28.9 $ 7.5のスコア28.9 $ 7.5のスコアを平均して請求して適度に実行されましたが、将来の場合は不十分であり、STBTのイメージング-AIツールの平均5.1 $ 2.1の$ 2.1を概念実証段階に残り、改善のための重要なスペースを示しています。
AI開発者による将来の取り組みは、設計(例えば、満たされていない臨床的ニーズ、意図された臨床環境、およびAIが臨床ワークフローに統合される方法を定義する)、開発(例:以前の研究の構築、説明、例えば、バイアスの評価と対処、AIの評価、ベストプラクティスに対する評価、およびデータの再現性と利用可能性(データとデータの利用可能性)をデータの作成)に焦点を当てる必要があります。
これらの推奨に従うことで、AIメソッドの臨床翻訳が改善される可能性があります。

要約(オリジナル)

Soft-tissue and bone tumours (STBT) are rare, diagnostically challenging lesions with variable clinical behaviours and treatment approaches. This systematic review provides an overview of Artificial Intelligence (AI) methods using radiological imaging for diagnosis and prognosis of these tumours, highlighting challenges in clinical translation, and evaluating study alignment with the Checklist for AI in Medical Imaging (CLAIM) and the FUTURE-AI international consensus guidelines for trustworthy and deployable AI to promote the clinical translation of AI methods. The review covered literature from several bibliographic databases, including papers published before 17/07/2024. Original research in peer-reviewed journals focused on radiology-based AI for diagnosing or prognosing primary STBT was included. Exclusion criteria were animal, cadaveric, or laboratory studies, and non-English papers. Abstracts were screened by two of three independent reviewers for eligibility. Eligible papers were assessed against guidelines by one of three independent reviewers. The search identified 15,015 abstracts, from which 325 articles were included for evaluation. Most studies performed moderately on CLAIM, averaging a score of 28.9$\pm$7.5 out of 53, but poorly on FUTURE-AI, averaging 5.1$\pm$2.1 out of 30. Imaging-AI tools for STBT remain at the proof-of-concept stage, indicating significant room for improvement. Future efforts by AI developers should focus on design (e.g. define unmet clinical need, intended clinical setting and how AI would be integrated in clinical workflow), development (e.g. build on previous work, explainability), evaluation (e.g. evaluating and addressing biases, evaluating AI against best practices), and data reproducibility and availability (making documented code and data publicly available). Following these recommendations could improve clinical translation of AI methods.

arxiv情報

著者 Douwe J. Spaanderman,Matthew Marzetti,Xinyi Wan,Andrew F. Scarsbrook,Philip Robinson,Edwin H. G. Oei,Jacob J. Visser,Robert Hemke,Kirsten van Langevelde,David F. Hanff,Geert J. L. H. van Leenders,Cornelis Verhoef,Dirk J. Gruühagen,Wiro J. Niessen,Stefan Klein,Martijn P. A. Starmans
発行日 2025-03-31 13:58:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | AI in radiological imaging of soft-tissue and bone tumours: a systematic review evaluating against CLAIM and FUTURE-AI guidelines はコメントを受け付けていません

Grounding Agent Reasoning in Image Schemas: A Neurosymbolic Approach to Embodied Cognition

要約

具体化されたAIの進歩にもかかわらず、エージェントの推論システムは、人間が自然に環境を理解し、相互作用するために自然に使用する基本的な概念構造を捉えるのに苦労しています。
これに対処するために、イメージスキーマの正式な特性評価を活用することにより、ブリッジが具体化される新しいフレームワークを提案します。これは、人間の認知を構造化する感覚運動体験の繰り返しパターンとして定義されます。
LLMSをカスタマイズして、これらの感覚運動パターンに基づいて自然言語の説明を正式な表現に変換することにより、基本的な概念構造におけるエージェントの理解を根拠とする神経協力系を作成することができます。
このようなアプローチは、効率と解釈の両方を向上させ、共有された具体化された理解を通じて、より直感的な人間エージェント相互作用を可能にすると主張します。

要約(オリジナル)

Despite advances in embodied AI, agent reasoning systems still struggle to capture the fundamental conceptual structures that humans naturally use to understand and interact with their environment. To address this, we propose a novel framework that bridges embodied cognition theory and agent systems by leveraging a formal characterization of image schemas, which are defined as recurring patterns of sensorimotor experience that structure human cognition. By customizing LLMs to translate natural language descriptions into formal representations based on these sensorimotor patterns, we will be able to create a neurosymbolic system that grounds the agent’s understanding in fundamental conceptual structures. We argue that such an approach enhances both efficiency and interpretability while enabling more intuitive human-agent interactions through shared embodied understanding.

arxiv情報

著者 François Olivier,Zied Bouraoui
発行日 2025-03-31 14:01:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Grounding Agent Reasoning in Image Schemas: A Neurosymbolic Approach to Embodied Cognition はコメントを受け付けていません

Graph Neural Network-Based Predictive Modeling for Robotic Plaster Printing

要約

この作業は、粒子ベースの製造プロセスから得られる表面を予測するために、グラフニューラルネットワーク(GNN)モデリングアプローチを提案します。
後者は、壁にあるセメント質の石膏のスプレーベースの印刷で構成され、ロボットアームを使用して促進されます。
予測は、位置、速度、方向、印刷プロセスパラメーターなどのロボットアーム軌道機能を使用して計算されます。
壁ドメインとエンドエフェクターの粒子表現に基づいた提案されたアプローチは、グラフベースのソリューションの採用を可能にします。
GNNモデルは、エンコーダプロセッサデコーダーアーキテクチャで構成され、臨床検査からのデータを使用してトレーニングされ、ハイパーパラメーターはベイジアンスキームによって最適化されます。
このモデルの目的は、印刷プロセスのシミュレーターとして機能し、最終的にロボットアームの軌跡の生成と印刷パラメーターの最適化に使用されることです。
提案されたモデルのパフォーマンスは、目に見えないグラウンドトゥルースデータに対する予測エラーの観点から評価されます。これは、既存のベンチマークモデルのパフォーマンスと比較して、さまざまなシナリオでの一般性を示しています。
結果は、ベンチマークモデルよりも大幅な改善を示しており、特にパフォーマンスが向上し、予測ステップ全体のエラースケーリングが強化されています。

要約(オリジナル)

This work proposes a Graph Neural Network (GNN) modeling approach to predict the resulting surface from a particle based fabrication process. The latter consists of spray-based printing of cementitious plaster on a wall and is facilitated with the use of a robotic arm. The predictions are computed using the robotic arm trajectory features, such as position, velocity and direction, as well as the printing process parameters. The proposed approach, based on a particle representation of the wall domain and the end effector, allows for the adoption of a graph-based solution. The GNN model consists of an encoder-processor-decoder architecture and is trained using data from laboratory tests, while the hyperparameters are optimized by means of a Bayesian scheme. The aim of this model is to act as a simulator of the printing process, and ultimately used for the generation of the robotic arm trajectory and the optimization of the printing parameters, towards the materialization of an autonomous plastering process. The performance of the proposed model is assessed in terms of the prediction error against unseen ground truth data, which shows its generality in varied scenarios, as well as in comparison with the performance of an existing benchmark model. The results demonstrate a significant improvement over the benchmark model, with notably better performance and enhanced error scaling across prediction steps.

arxiv情報

著者 Diego Machain Rivera,Selen Ercan Jenny,Ping Hsun Tsai,Ena Lloret-Fritschi,Luis Salamanca,Fernando Perez-Cruz,Konstantinos E. Tatsis
発行日 2025-03-31 14:15:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.LG, cs.RO | Graph Neural Network-Based Predictive Modeling for Robotic Plaster Printing はコメントを受け付けていません

Backdoor Graph Condensation

要約

グラフ凝縮は最近、グラフニューラルネットワーク(GNNS)のトレーニング効率を改善するための一般的な手法として浮上しました。
この小さな合成グラフで訓練されたGNNが大きなグラフで訓練されたGNNに匹敵するパフォーマンスを実現できるように、大きなグラフを小さなグラフに凝縮します。
ただし、既存のグラフ凝縮研究は、主にグラフサイズとGNNSのパフォーマンス(モデルユーティリティ)の間の最高のトレードオフに焦点を当てていますが、グラフ凝縮のセキュリティ問題を見落としています。
このギャップを埋めるために、凝縮グラフで訓練されたGNNに対するバックドア攻撃を最初に探索します。
BGCと呼ばれるグラフ凝縮に対する効果的なバックドア攻撃を導入します。
この攻撃の目的は、(1)トリガーインジェクションにもかかわらず、凝縮されたグラフの品質を保存し、(2)凝縮プロセスを通じてトリガーの有効性を確保し、高い攻撃の成功率を達成することを目指しています。
具体的には、BGCは凝縮中にトリガーを一貫して更新し、中毒の代表的なノードをターゲットにします。
広範な実験は、私たちの攻撃の有効性を示しています。
BGCは、すべての場合に高い攻撃成功率(1.0に近い)と優れたモデルユーティリティを達成します。
さらに、複数の防御方法に対する結果は、彼らの防御下でのBGCの回復力を示しています。
最後に、攻撃のパフォーマンスに影響を与えるキーハイパーパラメーターを分析します。
私たちのコードは、https://github.com/jiahaowugit/bgcで入手できます。

要約(オリジナル)

Graph condensation has recently emerged as a prevalent technique to improve the training efficiency for graph neural networks (GNNs). It condenses a large graph into a small one such that a GNN trained on this small synthetic graph can achieve comparable performance to a GNN trained on the large graph. However, while existing graph condensation studies mainly focus on the best trade-off between graph size and the GNNs’ performance (model utility), they overlook the security issues of graph condensation. To bridge this gap, we first explore backdoor attack against the GNNs trained on the condensed graphs. We introduce an effective backdoor attack against graph condensation, termed BGC. This attack aims to (1) preserve the condensed graph quality despite trigger injection, and (2) ensure trigger efficacy through the condensation process, achieving a high attack success rate. Specifically, BGC consistently updates triggers during condensation and targets representative nodes for poisoning. Extensive experiments demonstrate the effectiveness of our attack. BGC achieves a high attack success rate (close to 1.0) and good model utility in all cases. Furthermore, the results against multiple defense methods demonstrate BGC’s resilience under their defenses. Finally, we analyze the key hyperparameters that influence the attack performance. Our code is available at: https://github.com/JiahaoWuGit/BGC.

arxiv情報

著者 Jiahao Wu,Ning Lu,Zeiyu Dai,Kun Wang,Wenqi Fan,Shengcai Liu,Qing Li,Ke Tang
発行日 2025-03-31 14:19:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | Backdoor Graph Condensation はコメントを受け付けていません

PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models

要約

フロンティアモデルの既存のベンチマークは、多くの場合、専門の「PHDレベル」の知識をテストします。
対照的に、一般的な知識のみを必要とするNPRサンデーパズルチャレンジに基づいて、594の問題を伴うベンチマークを提示します。
私たちのベンチマークは、人間とモデルの両方にとって挑戦的です。
ただし、正しいソリューションは簡単に検証でき、モデルの間違いは簡単に見つけることができます。
LLMは社会でより広く展開されているため、深いドメインの専門知識を必要とせずに人間が理解できるフロンティアモデルのベンチマークを開発することが有用であると考えています。
私たちの作業は、既存のベンチマークでは明らかではない能力のギャップを明らかにしています。OpenaiO1は、専門知識をテストするベンチマークでテストされたときに他のモデルと同等になっているにもかかわらず、ベンチマークの他の推論モデルを大幅に上回ります。
さらに、推論出力の分析により、新しい種類の障害が明らかになります。
たとえば、Deepseek R1は、間違っていることがわかっていることを回答する前に、しばしば「私はあきらめ」と認めます。
また、R1は出力では著しく「不確実」になる可能性があり、まれな場合は「思考を終える」ことはできません。これは、コンテキストウィンドウの制限に達する前にテクニックが「ラップ」する必要があることを示唆しています。
また、推論の有効性を定量化して、より多くの推論がベンチマークの精度を向上させる可能性が低いポイントを特定します。

要約(オリジナル)

Existing benchmarks for frontier models often test specialized, ‘PhD-level’ knowledge that is difficult for non-experts to grasp. In contrast, we present a benchmark with 594 problems based on the NPR Sunday Puzzle Challenge that requires only general knowledge. Our benchmark is challenging for both humans and models; however correct solutions are easy to verify, and models’ mistakes are easy to spot. As LLMs are more widely deployed in society, we believe it is useful to develop benchmarks for frontier models that humans can understand without the need for deep domain expertise. Our work reveals capability gaps that are not evident in existing benchmarks: OpenAI o1 significantly outperforms other reasoning models on our benchmark, despite being on par with other models when tested on benchmarks that test specialized knowledge. Furthermore, our analysis of reasoning outputs uncovers new kinds of failures. DeepSeek R1, for instance, often concedes with ‘I give up’ before providing an answer that it knows is wrong. R1 can also be remarkably ‘uncertain’ in its output and in rare cases, it does not ‘finish thinking,’ which suggests the need for techniques to ‘wrap up’ before the context window limit is reached. We also quantify the effectiveness of reasoning longer to identify the point beyond which more reasoning is unlikely to improve accuracy on our benchmark.

arxiv情報

著者 Zixuan Wu,Francesca Lucchetti,Aleksander Boruch-Gruszecki,Jingmiao Zhao,Carolyn Jane Anderson,Joydeep Biswas,Federico Cassano,Molly Q Feldman,Arjun Guha
発行日 2025-03-31 14:21:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models はコメントを受け付けていません

Resonance: Drawing from Memories to Imagine Positive Futures through AI-Augmented Journaling

要約

人々は本質的に自分の未来を想像しながら、過去の経験を本質的に使用します。これは、メンタルヘルスにおいて重要な役割を果たす能力です。
Resonanceは、ユーザー自身の過去の記憶に基づいた将来のアクティビティのためのAIに生成されたアクション指向の提案を提供することにより、この能力を強化するように設計されたAI駆動のジャーナリングツールです。
新しいメモリがログに記録され、その後にユーザーが提案を実行することを想像するプロンプトが続くと、提案が提供されます。
2週間のランダム化比較試験(n = 55)では、共鳴を使用すると、メンタルヘルスの結果が大幅に改善され、ユーザーのPHQ8スコアが減少し、現在のうつ病の尺度が減り、特に提案に基づいて行動する可能性が高い場合、毎日の肯定的な影響が増加することがわかりました。
特に、提案の有効性は、個人的で斬新で、ユーザーの記録された記憶を参照したときに高かった。
最後に、オープンエンドのフィードバックを通じて、ツールの使用を奨励または妨げた要因について説明します。

要約(オリジナル)

People inherently use experiences of their past while imagining their future, a capability that plays a crucial role in mental health. Resonance is an AI-powered journaling tool designed to augment this ability by offering AI-generated, action-oriented suggestions for future activities based on the user’s own past memories. Suggestions are offered when a new memory is logged and are followed by a prompt for the user to imagine carrying out the suggestion. In a two-week randomized controlled study (N=55), we found that using Resonance significantly improved mental health outcomes, reducing the users’ PHQ8 scores, a measure of current depression, and increasing their daily positive affect, particularly when they would likely act on the suggestion. Notably, the effectiveness of the suggestions was higher when they were personal, novel, and referenced the user’s logged memories. Finally, through open-ended feedback, we discuss the factors that encouraged or hindered the use of the tool.

arxiv情報

著者 Wazeer Zulfikar,Treyden Chiaravalloti,Jocelyn Shen,Rosalind Picard,Pattie Maes
発行日 2025-03-31 14:30:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Resonance: Drawing from Memories to Imagine Positive Futures through AI-Augmented Journaling はコメントを受け付けていません

Learning a Canonical Basis of Human Preferences from Binary Ratings

要約

生成AIの最近の進歩は、人間のフィードバック(RLHF)からの強化学習などのアライメント技術によって推進されています。
RLHFおよび関連する手法には通常、バイナリまたはランク付けされた選択肢のデータセットを構築し、その後、これらの好みに合わせて微調整されたモデルを構築します。
このペーパーでは、このようなデータセットにエンコードされた好みを理解し、一般的な人間の好みを特定することに焦点を移します。
21の優先カテゴリの小さなサブセット(ほぼ5,000個の異なる好みのセットから選択)が、個人間の優先変動の89%以上をキャプチャします。
この小さな一連の好みは、心理学または顔認識研究の人間の変動を特徴付ける確立された発見と同様に、人間の好みの標準的な基礎に類似しています。
合成評価と経験的評価の両方を通じて、データセット全体および特定のトピック内で、低ランクの標準的な人間の好みが一般化されることを確認します。
さらに、モデル評価における優先ベースのユーティリティを実証します。優先カテゴリでは、モデルのアラインメントに関するより深い洞察とモデルトレーニングで、好みの定義されたサブセットがそれに応じてモデルを正常に整列させることを示します。

要約(オリジナル)

Recent advances in generative AI have been driven by alignment techniques such as reinforcement learning from human feedback (RLHF). RLHF and related techniques typically involve constructing a dataset of binary or ranked choice human preferences and subsequently fine-tuning models to align with these preferences. This paper shifts the focus to understanding the preferences encoded in such datasets and identifying common human preferences. We find that a small subset of 21 preference categories (selected from a set of nearly 5,000 distinct preferences) captures >89% of preference variation across individuals. This small set of preferences is analogous to a canonical basis of human preferences, similar to established findings that characterize human variation in psychology or facial recognition studies. Through both synthetic and empirical evaluations, we confirm that our low-rank, canonical set of human preferences generalizes across the entire dataset and within specific topics. We further demonstrate our preference basis’ utility in model evaluation, where our preference categories offer deeper insights into model alignment, and in model training, where we show that fine-tuning on preference-defined subsets successfully aligns the model accordingly.

arxiv情報

著者 Kailas Vodrahalli,Wei Wei,James Zou
発行日 2025-03-31 14:35:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG | Learning a Canonical Basis of Human Preferences from Binary Ratings はコメントを受け付けていません

Concept Navigation and Classification via Open-Source Large Language Model Processing

要約

このペーパーでは、オープンソースの大手言語モデル(LLM)を使用したテキストデータから、フレーム、物語、トピックなどの潜在的な構造を検出および分類するための新しい方法論的フレームワークを紹介します。
提案されたハイブリッドアプローチは、自動化された要約と人間のループ検証を組み合わせて、構成識別の精度と解釈可能性を高めます。
専門家の洗練と組み合わせた反復サンプリングを採用することにより、フレームワークは方法論的堅牢性を保証し、概念的な精度を保証します。
AIポリシー討論、暗号化に関する新聞記事、20のNewsGroupsデータセットなど、多様なデータセットに適用されるこのアプローチは、複雑な政治的言説、メディアフレーミング、トピック分類タスクを体系的に分析する際の汎用性を示しています。

要約(オリジナル)

This paper presents a novel methodological framework for detecting and classifying latent constructs, including frames, narratives, and topics, from textual data using Open-Source Large Language Models (LLMs). The proposed hybrid approach combines automated summarization with human-in-the-loop validation to enhance the accuracy and interpretability of construct identification. By employing iterative sampling coupled with expert refinement, the framework guarantees methodological robustness and ensures conceptual precision. Applied to diverse data sets, including AI policy debates, newspaper articles on encryption, and the 20 Newsgroups data set, this approach demonstrates its versatility in systematically analyzing complex political discourses, media framing, and topic classification tasks.

arxiv情報

著者 Maël Kubli
発行日 2025-03-31 14:37:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 | Concept Navigation and Classification via Open-Source Large Language Model Processing はコメントを受け付けていません

ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery

要約

大規模な言語モデル(LLMS)の進歩は、LLMベースの言語エージェントの開発に関心が高まって、科学的発見のエンドツーエンドを自動化し、彼らの真の能力についての興奮と懐疑論の両方を引き起こしました。
この作業では、エンドツーエンドの自動化について大胆な主張をする前に、科学的ワークフローの個々のタスクに関するエージェントの厳密な評価を求めます。
この目的のために、データ駆動型の科学的発見のための言語エージェントを評価するための新しいベンチマークであるScienceagentbenchを提示します。
ベンチマークの科学的信頼性と現実世界の関連性を確保するために、4つの分野で44のピアレビューされた出版物から102のタスクを抽出し、9つの主題の専門家にそれらを検証するために抽出します。
すべてのタスクのターゲット出力を自己完結型のPythonプログラムファイルに統合し、生成されたプログラム、実行結果、およびコストを調べるために一連の評価メトリックを使用します。
各タスクは、注釈の質と科学的妥当性を確保するために、アノテーターと主題の専門家による複数のラウンドの手動検証を通過します。
また、データ汚染の懸念を軽減するための2つの効果的な戦略を提案します。
ScienceAnterbenchを使用して、5つのオープンウェイトと独自のLLMを評価し、それぞれ3つのフレームワークを備えています。
各タスクに対して3回の試行を考えると、最高のパフォーマンスエージェントは、タスクの32.4%しか独立して、34.3%が専門家が提供する知識で解決できます。
さらに、OpenAI O1-Previewを直接プロンプトと自己障害で評価します。これにより、パフォーマンスが42.2%に向上し、推論時間計算の増加の有効性が実証されますが、他のLLMのコストの10倍以上のコストがあります。
それでも、我々の結果は、科学研究のためのエンドツーエンドの自動化は言うまでもなく、データ駆動型の発見のためのコードを生成する際の現在の言語エージェントの制限を強調しています。

要約(オリジナル)

The advancements of large language models (LLMs) have piqued growing interest in developing LLM-based language agents to automate scientific discovery end-to-end, which has sparked both excitement and skepticism about their true capabilities. In this work, we call for rigorous assessment of agents on individual tasks in a scientific workflow before making bold claims on end-to-end automation. To this end, we present ScienceAgentBench, a new benchmark for evaluating language agents for data-driven scientific discovery. To ensure the scientific authenticity and real-world relevance of our benchmark, we extract 102 tasks from 44 peer-reviewed publications in four disciplines and engage nine subject matter experts to validate them. We unify the target output for every task to a self-contained Python program file and employ an array of evaluation metrics to examine the generated programs, execution results, and costs. Each task goes through multiple rounds of manual validation by annotators and subject matter experts to ensure its annotation quality and scientific plausibility. We also propose two effective strategies to mitigate data contamination concerns. Using ScienceAgentBench, we evaluate five open-weight and proprietary LLMs, each with three frameworks: direct prompting, OpenHands CodeAct, and self-debug. Given three attempts for each task, the best-performing agent can only solve 32.4% of the tasks independently and 34.3% with expert-provided knowledge. In addition, we evaluate OpenAI o1-preview with direct prompting and self-debug, which can boost the performance to 42.2%, demonstrating the effectiveness of increasing inference-time compute but with more than 10 times the cost of other LLMs. Still, our results underscore the limitations of current language agents in generating code for data-driven discovery, let alone end-to-end automation for scientific research.

arxiv情報

著者 Ziru Chen,Shijie Chen,Yuting Ning,Qianheng Zhang,Boshi Wang,Botao Yu,Yifei Li,Zeyi Liao,Chen Wei,Zitong Lu,Vishal Dey,Mingyi Xue,Frazier N. Baker,Benjamin Burns,Daniel Adu-Ampratwum,Xuhui Huang,Xia Ning,Song Gao,Yu Su,Huan Sun
発行日 2025-03-31 14:39:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery はコメントを受け付けていません

Predicting Targeted Therapy Resistance in Non-Small Cell Lung Cancer Using Multimodal Machine Learning

要約

肺がんは世界中の癌死の主な原因であり、非小細胞肺癌(NSCLC)が最も一般的なサブタイプとして浮上しています。
NSCLC患者の中で、約32.3%が表皮成長因子受容体(EGFR)遺伝子に変異を持っています。
第3世代のEGFR-チロシンキナーゼ阻害剤(TKI)であるオシメルチニブは、活性化およびT790M耐性EGFR変異を伴うNSCLC患者の治療において顕著な有効性を示しています。
その確立された有効性にもかかわらず、薬物耐性は患者がオシメルチニブから完全に利益を得るために大きな課題をもたらします。
Osimertinibの耐性を含むTKI耐性を正確に予測するための標準ツールがないことは、依然として重要な障害のままです。
このギャップを埋めるために、この研究では、EGFR変異を活性化する後期NSCLC患者の患者抵抗性を予測するために設計された解釈可能なマルチモーダル機械学習モデルを開発し、マルチ施設データセットで0.82のCインデックスを達成しました。
この機械学習モデルは、患者の訪問と医学的評価中に日常的に収集された容易に利用可能なデータを活用して、精密肺がん管理と情報に基づいた治療の決定を促進します。
組織学画像、次世代シーケンス(NGS)データ、人口統計データ、臨床記録などのさまざまなデータ型を統合することにより、マルチモーダルモデルは十分な情報に基づいた推奨事項を生成できます。
また、実験結果は、単一のモダリティモデル(0.75および0.77と比較してC-Index 0.82)よりもマルチモーダルモデルの優れた性能を示し、患者の転帰予測に複数のモダリティを組み合わせるという利点を強調しました。

要約(オリジナル)

Lung cancer is the primary cause of cancer death globally, with non-small cell lung cancer (NSCLC) emerging as its most prevalent subtype. Among NSCLC patients, approximately 32.3% have mutations in the epidermal growth factor receptor (EGFR) gene. Osimertinib, a third-generation EGFR-tyrosine kinase inhibitor (TKI), has demonstrated remarkable efficacy in the treatment of NSCLC patients with activating and T790M resistance EGFR mutations. Despite its established efficacy, drug resistance poses a significant challenge for patients to fully benefit from osimertinib. The absence of a standard tool to accurately predict TKI resistance, including that of osimertinib, remains a critical obstacle. To bridge this gap, in this study, we developed an interpretable multimodal machine learning model designed to predict patient resistance to osimertinib among late-stage NSCLC patients with activating EGFR mutations, achieving a c-index of 0.82 on a multi-institutional dataset. This machine learning model harnesses readily available data routinely collected during patient visits and medical assessments to facilitate precision lung cancer management and informed treatment decisions. By integrating various data types such as histology images, next generation sequencing (NGS) data, demographics data, and clinical records, our multimodal model can generate well-informed recommendations. Our experiment results also demonstrated the superior performance of the multimodal model over single modality models (c-index 0.82 compared with 0.75 and 0.77), thus underscoring the benefit of combining multiple modalities in patient outcome prediction.

arxiv情報

著者 Peiying Hua,Andrea Olofson,Faraz Farhadi,Liesbeth Hondelink,Gregory Tsongalis,Konstantin Dragnev,Dagmar Hoegemann Savellano,Arief Suriawinata,Laura Tafe,Saeed Hassanpour
発行日 2025-03-31 14:47:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Predicting Targeted Therapy Resistance in Non-Small Cell Lung Cancer Using Multimodal Machine Learning はコメントを受け付けていません