COMBO: Compositional World Models for Embodied Multi-Agent Cooperation

要約

この論文では、具体化されたマルチエージェント協力の問題を調査します。そこでは、分散型のエージェントが世界のエゴセントリックな見解のみを考えると協力しなければなりません。
この設定で効果的に計画するには、単一エージェントシナリオで世界のダイナミクスを学ぶこととは対照的に、世界の部分的なエゴセントリックな視覚観測のみが与えられた任意の数のエージェントのアクションを条件付けられた世界のダイナミクスをシミュレートする必要があります。
部分的な観察可能性のこの問題に対処するために、最初に生成モデルを訓練して、部分的なエゴセントリックな観察を与えられた世界全体の状態を推定します。
この世界状態での複数のアクションセットの正確なシミュレーションを有効にするために、複数のエージェントの自然に構成可能な共同アクションを考慮し、世界状態に条件付けられたビデオを構成することにより、マルチエージェント協力の構成世界モデルを学習することを提案します。
この構成の世界モデルを活用して、ビジョン言語モデルと組み合わせて他のエージェントのアクションを推測することにより、ツリー検索手順を使用してこれらのモジュールを統合し、オンライン協同組合計画を促進できます。
2〜4エージェントとの3つの挑戦的なベンチマークでの方法を評価します。
結果は、私たちの構成世界モデルが効果的であり、フレームワークにより、具体化されたエージェントがさまざまなタスクや任意の数のエージェントにわたってさまざまなエージェントと効率的に協力し、提案された方法の有望な未来を示していることを示しています。
その他のビデオは、https://embodied-agi.cs.umass.edu/combo/をご覧ください。

要約(オリジナル)

In this paper, we investigate the problem of embodied multi-agent cooperation, where decentralized agents must cooperate given only egocentric views of the world. To effectively plan in this setting, in contrast to learning world dynamics in a single-agent scenario, we must simulate world dynamics conditioned on an arbitrary number of agents’ actions given only partial egocentric visual observations of the world. To address this issue of partial observability, we first train generative models to estimate the overall world state given partial egocentric observations. To enable accurate simulation of multiple sets of actions on this world state, we then propose to learn a compositional world model for multi-agent cooperation by factorizing the naturally composable joint actions of multiple agents and compositionally generating the video conditioned on the world state. By leveraging this compositional world model, in combination with Vision Language Models to infer the actions of other agents, we can use a tree search procedure to integrate these modules and facilitate online cooperative planning. We evaluate our methods on three challenging benchmarks with 2-4 agents. The results show our compositional world model is effective and the framework enables the embodied agents to cooperate efficiently with different agents across various tasks and an arbitrary number of agents, showing the promising future of our proposed methods. More videos can be found at https://embodied-agi.cs.umass.edu/combo/.

arxiv情報

著者 Hongxin Zhang,Zeyuan Wang,Qiushi Lyu,Zheyuan Zhang,Sunli Chen,Tianmin Shu,Behzad Dariush,Kwonjoon Lee,Yilun Du,Chuang Gan
発行日 2025-03-13 14:56:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MA | COMBO: Compositional World Models for Embodied Multi-Agent Cooperation はコメントを受け付けていません

Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings

要約

多言語設定でのスピーカーの識別は、特に従来のモデルが主に英語のデータでトレーニングされている場合、ユニークな課題を提示します。
このホワイトペーパーでは、WSI(ささやきスピーカーの識別)を提案します。これは、オンラインのハードトリップレットマイニングと自動監督された温度温度補給式腸喪失喪失をレバレッジする共同損失最適化戦略を介して、広範な多言語データで事前に訓練されたささやきの自動音声認識モデルのエンコーダを再利用するフレームワークです。
ささやき言語に依存しない音響表現を活用することにより、私たちのアプローチは、多様な言語と記録条件でスピーカーを効果的に区別します。
Voxtube(多言語)、JVS(日本)、Callhome(ドイツ語、スペイン語、中国語、日本語)、VoxConverse(英語)を含む複数のコーパスに関する広範な評価は、WSIが常に最先端のベースラインを上回ることを示しています。
これらの結果は、多言語の事前訓練を受けたASRエンコーダーと共同損失の最適化が、非英語言語のスピーカー識別パフォーマンスを大幅に改善するという仮説を検証します。

要約(オリジナル)

Speaker identification in multilingual settings presents unique challenges, particularly when conventional models are predominantly trained on English data. In this paper, we propose WSI (Whisper Speaker Identification), a framework that repurposes the encoder of the Whisper automatic speech recognition model pre trained on extensive multilingual data to generate robust speaker embeddings via a joint loss optimization strategy that leverages online hard triplet mining and self supervised Normalized Temperature-scaled Cross Entropy loss. By capitalizing on Whisper language-agnostic acoustic representations, our approach effectively distinguishes speakers across diverse languages and recording conditions. Extensive evaluations on multiple corpora, including VoxTube (multilingual), JVS (Japanese), CallHome (German, Spanish, Chinese, and Japanese), and Voxconverse (English), demonstrate that WSI consistently outperforms state-of-the-art baselines, namely Pyannote Embedding, ECAPA TDNN, and Xvector, in terms of lower equal error rates and higher AUC scores. These results validate our hypothesis that a multilingual pre-trained ASR encoder, combined with joint loss optimization, substantially improves speaker identification performance in non-English languages.

arxiv情報

著者 Jakaria Islam Emon,Md Abu Salek,Kazi Tamanna Alam
発行日 2025-03-13 15:11:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS, I.2 | Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings はコメントを受け付けていません

DynaCode: A Dynamic Complexity-Aware Code Benchmark for Evaluating Large Language Models in Code Generation

要約

大規模な言語モデル(LLMS)の急速な進歩により、コード生成タスクでのパフォーマンスが大幅に向上しました。
ただし、既存のコードベンチマークは静的なままであり、事前に定義された問題を抱える固定データセットで構成されています。
これにより、トレーニング中の記憶に対して脆弱になります。これにより、LLMは新しい問題に一般化する代わりに特定のテストケースを思い出し、データの汚染と信頼できない評価結果につながります。
これらの問題に対処するために、静的データセットの制限を克服する動的で複雑なベンチマークであるDynacodeを導入します。
Dynacodeは、コードの複雑さとコールグラフ構造の両方を組み込んだ複雑さ対応メトリックを使用してLLMSを体系的に評価します。
Dynacodeは大規模な多様性を達成し、ユニットと呼ばれる4つの異なるレベルのコード複雑さと16種類のコールグラフにわたって最大1億8900万個の一意のネストされたコードの問題を生成します。
12の最新のLLMの結果は、静的コード生成ベンチマークであるMBPP+と比較して、平均パフォーマンス低下が16.8%〜45.7%であり、複雑さが増加するにつれてパフォーマンスが徐々に減少します。
これは、LLMを効果的に区別するDynacodeの能力を示しています。
さらに、コールグラフを活用することにより、LLMの動作、特にネストされたコード内のサブ機能相互作用を処理することに対する好みに関する洞察が得られます。

要約(オリジナル)

The rapid advancement of large language models (LLMs) has significantly improved their performance in code generation tasks. However, existing code benchmarks remain static, consisting of fixed datasets with predefined problems. This makes them vulnerable to memorization during training, where LLMs recall specific test cases instead of generalizing to new problems, leading to data contamination and unreliable evaluation results. To address these issues, we introduce DynaCode, a dynamic, complexity-aware benchmark that overcomes the limitations of static datasets. DynaCode evaluates LLMs systematically using a complexity-aware metric, incorporating both code complexity and call-graph structures. DynaCode achieves large-scale diversity, generating up to 189 million unique nested code problems across four distinct levels of code complexity, referred to as units, and 16 types of call graphs. Results on 12 latest LLMs show an average performance drop of 16.8% to 45.7% compared to MBPP+, a static code generation benchmark, with performance progressively decreasing as complexity increases. This demonstrates DynaCode’s ability to effectively differentiate LLMs. Additionally, by leveraging call graphs, we gain insights into LLM behavior, particularly their preference for handling subfunction interactions within nested code.

arxiv情報

著者 Wenhao Hu,Jinhao Duan,Chunchen Wei,Li Zhang,Yue Zhang,Kaidi Xu
発行日 2025-03-13 15:18:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DynaCode: A Dynamic Complexity-Aware Code Benchmark for Evaluating Large Language Models in Code Generation はコメントを受け付けていません

Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation

要約

Surgical Video-Language Pretraining(VLP)は、知識領域のギャップとマルチモーダルデータの希少性により、独自の課題に直面しています。
この研究の目的は、外科的講義ビデオのテキスト情報の損失と外科的VLPの空間的課題に関する問題に対処することにより、ギャップを埋めることを目的としています。
これらの問題に取り組むために、階層的な知識増強アプローチと、新しい手順でエンコードされた外科的知識をエンコードする外科的知識を熟成したビデオ言語前処理(PESKAVLP)フレームワークを提案します。
ナレッジ増強は、外科的概念を改良および濃縮するために大規模な言語モデル(LLM)を使用しているため、包括的な言語監督を提供し、過剰適合のリスクを軽減します。
Peskavlpは、言語の監督と視覚的な自己監視を組み合わせて、硬性負のサンプルを構築し、動的タイムワーピング(DTW)ベースの損失関数を採用して、クロスモーダルの手順アライメントを効果的に理解します。
複数の公共の外科シーンの理解とクロスモーダル検索データセットに関する広範な実験は、提案された方法がゼロショット転送パフォーマンスを大幅に改善し、外科シーンの理解におけるさらなる進歩のための一般主義者の視覚的表現を提供することを示しています。

要約(オリジナル)

Surgical video-language pretraining (VLP) faces unique challenges due to the knowledge domain gap and the scarcity of multi-modal data. This study aims to bridge the gap by addressing issues regarding textual information loss in surgical lecture videos and the spatial-temporal challenges of surgical VLP. We propose a hierarchical knowledge augmentation approach and a novel Procedure-Encoded Surgical Knowledge-Augmented Video-Language Pretraining (PeskaVLP) framework to tackle these issues. The knowledge augmentation uses large language models (LLM) for refining and enriching surgical concepts, thus providing comprehensive language supervision and reducing the risk of overfitting. PeskaVLP combines language supervision with visual self-supervision, constructing hard negative samples and employing a Dynamic Time Warping (DTW) based loss function to effectively comprehend the cross-modal procedural alignment. Extensive experiments on multiple public surgical scene understanding and cross-modal retrieval datasets show that our proposed method significantly improves zero-shot transferring performance and offers a generalist visual representation for further advancements in surgical scene understanding.The code is available at https://github.com/CAMMA-public/SurgVLP

arxiv情報

著者 Kun Yuan,Vinkle Srivastav,Nassir Navab,Nicolas Padoy
発行日 2025-03-13 15:21:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation はコメントを受け付けていません

HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition

要約

自然言語は、生のテキストから幅広い監督源を提供することにより、ジェネラリストの外科モデルを開発する上で重要な役割を果たすことができます。
この柔軟な形式の監督は、自然言語を使用して学習した視覚概念を参照したり、新しい概念を説明したりするため、データセットとタスクを介したモデルの転送可能性を可能にします。
この作業では、ジェネラリストの手術モデルを構築するための新しい階層ビデオ言語前脱出アプローチであるHECVLを提示します。
具体的には、外科的講義ビデオと3つの階層レベルのテキストとペアリングすることにより、階層ビデオテキストペアのデータセットを作成します。
フェーズレベルの概念テキストの要約。
そして、ビデオレベルの外科的処置の全体的な抽象的なテキストで。
次に、単一のモデルを使用して3つのビデオテキスト階層の個別の埋め込みスペースを学習する新しい細かい微細なコントラスト学習フレームワークを提案します。
異なる階層レベルの埋め込みスペースを解くことにより、学習したマルチモーダル表現は、同じモデルの短期および長期の外科的概念をエンコードします。
注入されたテキストセマンティクスのおかげで、HECVLアプローチが人間の注釈なしでゼロショット外科期認識を可能にすることができることを実証します。
さらに、外科相認識のための同じH​​ECVLモデルを、さまざまな外科的処置と医療センターに移動できることを示します。
このコードはhttps://github.com/camma-public/surgvlpで入手できます

要約(オリジナル)

Natural language could play an important role in developing generalist surgical models by providing a broad source of supervision from raw texts. This flexible form of supervision can enable the model’s transferability across datasets and tasks as natural language can be used to reference learned visual concepts or describe new ones. In this work, we present HecVL, a novel hierarchical video-language pretraining approach for building a generalist surgical model. Specifically, we construct a hierarchical video-text paired dataset by pairing the surgical lecture video with three hierarchical levels of texts: at clip-level, atomic actions using transcribed audio texts; at phase-level, conceptual text summaries; and at video-level, overall abstract text of the surgical procedure. Then, we propose a novel fine-to-coarse contrastive learning framework that learns separate embedding spaces for the three video-text hierarchies using a single model. By disentangling embedding spaces of different hierarchical levels, the learned multi-modal representations encode short-term and long-term surgical concepts in the same model. Thanks to the injected textual semantics, we demonstrate that the HecVL approach can enable zero-shot surgical phase recognition without any human annotation. Furthermore, we show that the same HecVL model for surgical phase recognition can be transferred across different surgical procedures and medical centers. The code is available at https://github.com/CAMMA-public/SurgVLP

arxiv情報

著者 Kun Yuan,Vinkle Srivastav,Nassir Navab,Nicolas Padoy
発行日 2025-03-13 15:27:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition はコメントを受け付けていません

DataMan: Data Manager for Pre-training Large Language Models

要約

データのスケーリング法則によって駆動される大規模な言語モデル(LLM)のパフォーマンスの出現により、トレーニング前のデータの選択がますます重要になります。
ただし、既存の方法は、限られたヒューリスティックと人間の直感に依存しており、包括的で明確なガイドラインがありません。
これに対処するために、私たちは「リバース思考」に触発されています。どの基準がそのパフォーマンスに役立つかを自己識別するよう促します。
トレーニング前の機能は困惑(PPL)に関連しているため、テキストの困惑の異常の原因から14の品質基準を導き出し、ドメインの混合をサポートする1​​5の共通アプリケーションドメインを導入します。
このホワイトペーパーでは、データマネージャー(Dataman)をトレーニングして、ポイントワイズレーティングから品質評価とドメイン認識を学習し、それを使用して、14の品質評価とドメインタイプの447Bトークン前トレーニングコーパスに注釈を付けます。
私たちの実験は、Datamanを使用して30Bトークンを選択して1.3Bパラメーター言語モデルをトレーニングするためにアプローチを検証し、コンテキスト学習(ICL)、困惑、および最先端のベースラインにわたる指導公開能力の大幅な改善を実証します。
全体的なスコアL = 5に基づく最高のパフォーマンスモデルは、均一なサンプリングを使用して50%のデータでトレーニングされたモデルを上回ります。
ドメイン固有のICLパフォーマンスを強化し、Datamanのドメインの混合能力を検証するために、Datamanによって注釈が付けられた高評価のドメイン固有のデータで事前トレーニングを続けます。
私たちの調査結果は、品質ランキングの重要性、品質基準の補完的な性質、および困惑との相関が低いことを強調し、PPLとICLパフォーマンスの間の不整合を分析します。
また、トレーニング前のデータセットを徹底的に分析し、その構成、品質評価の分布、および元のドキュメントソースを調べました。

要約(オリジナル)

The performance emergence of large language models (LLMs) driven by data scaling laws makes the selection of pre-training data increasingly important. However, existing methods rely on limited heuristics and human intuition, lacking comprehensive and clear guidelines. To address this, we are inspired by “reverse thinking” — prompting LLMs to self-identify which criteria benefit its performance. As its pre-training capabilities are related to perplexity (PPL), we derive 14 quality criteria from the causes of text perplexity anomalies and introduce 15 common application domains to support domain mixing. In this paper, we train a Data Manager (DataMan) to learn quality ratings and domain recognition from pointwise rating, and use it to annotate a 447B token pre-training corpus with 14 quality ratings and domain type. Our experiments validate our approach, using DataMan to select 30B tokens to train a 1.3B-parameter language model, demonstrating significant improvements in in-context learning (ICL), perplexity, and instruction-following ability over the state-of-the-art baseline. The best-performing model, based on the Overall Score l=5 surpasses a model trained with 50% more data using uniform sampling. We continue pre-training with high-rated, domain-specific data annotated by DataMan to enhance domain-specific ICL performance and thus verify DataMan’s domain mixing ability. Our findings emphasize the importance of quality ranking, the complementary nature of quality criteria, and their low correlation with perplexity, analyzing misalignment between PPL and ICL performance. We also thoroughly analyzed our pre-training dataset, examining its composition, the distribution of quality ratings, and the original document sources.

arxiv情報

著者 Ru Peng,Kexin Yang,Yawen Zeng,Junyang Lin,Dayiheng Liu,Junbo Zhao
発行日 2025-03-13 15:42:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DataMan: Data Manager for Pre-training Large Language Models はコメントを受け付けていません

Siamese Foundation Models for Crystal Structure Prediction

要約

組成から安定した結晶構造を生成することを目的とする結晶構造予測(CSP)は、新しい材料を発見するための重要な経路を表しています。
タンパク質などの他のドメインの構造予測タスクでは、顕著な進歩が見られますが、CSPは、結晶構造に固有のより複雑なジオメトリがあるため、比較的目立たない領域のままです。
この論文では、CSPに対処するために特別に設計されたシャム基礎モデルを提案します。
DAOという名前の私たちのプレレイン財政フレームワークは、2つの相補的な基礎モデルで構成されています。構造生成のDAO-Gとエネルギー予測のDAO-Pです。
CSPベンチマーク(MP-20およびMPTS-52)での実験は、DAO-Gがすべてのメトリックで最先端(SOTA)メソッドを大幅に上回っていることを示しています。
広範なアブレーション研究により、DAO-Gが多様な多型構造の生成に優れていることをさらに確認し、DAO-Pが提供するデータセットの緩和とエネルギーガイダンスがDAO-Gのパフォーマンスを向上させるために不可欠です。
3つの実世界の超伝導体($ \ text {csv} _3 \ text {sb} _5 $、$ \ text {zr} _ {16} \ text {rh} _8 \ text {o} _4 $ and and
$ \ text {zr} _ {16} \ text {pd} _8 \ text {o} _4 $)分析に挑戦することが知られている、基礎モデルは正確な重要な温度予測と構造の世代を実現します。
たとえば、$ \ text {csv} _3 \ text {sb} _5 $で、dao-gは、RMSEが0.0085の実験的な構造に近い構造を生成します。
DAO-Pは、高精度で$ T_C $の値を予測します(2.26 k対2.30 Kのグラウンドトゥルース値)。
対照的に、量子エスプレッソのような従来のDFT計算機は、許容時間内に最初の超伝導体の構造のみに成功裏に導き出されますが、RMSEはほぼ8倍大きく、計算速度は1000倍遅いです。
これらの説得力のある結果は、材料科学の研究開発を進めるための私たちのアプローチの可能性をまとめて強調しています。

要約(オリジナル)

Crystal Structure Prediction (CSP), which aims to generate stable crystal structures from compositions, represents a critical pathway for discovering novel materials. While structure prediction tasks in other domains, such as proteins, have seen remarkable progress, CSP remains a relatively underexplored area due to the more complex geometries inherent in crystal structures. In this paper, we propose Siamese foundation models specifically designed to address CSP. Our pretrain-finetune framework, named DAO, comprises two complementary foundation models: DAO-G for structure generation and DAO-P for energy prediction. Experiments on CSP benchmarks (MP-20 and MPTS-52) demonstrate that our DAO-G significantly surpasses state-of-the-art (SOTA) methods across all metrics. Extensive ablation studies further confirm that DAO-G excels in generating diverse polymorphic structures, and the dataset relaxation and energy guidance provided by DAO-P are essential for enhancing DAO-G’s performance. When applied to three real-world superconductors ($\text{CsV}_3\text{Sb}_5$, $ \text{Zr}_{16}\text{Rh}_8\text{O}_4$ and $\text{Zr}_{16}\text{Pd}_8\text{O}_4$) that are known to be challenging to analyze, our foundation models achieve accurate critical temperature predictions and structure generations. For instance, on $\text{CsV}_3\text{Sb}_5$, DAO-G generates a structure close to the experimental one with an RMSE of 0.0085; DAO-P predicts the $T_c$ value with high accuracy (2.26 K vs. the ground-truth value of 2.30 K). In contrast, conventional DFT calculators like Quantum Espresso only successfully derive the structure of the first superconductor within an acceptable time, while the RMSE is nearly 8 times larger, and the computation speed is more than 1000 times slower. These compelling results collectively highlight the potential of our approach for advancing materials science research and development.

arxiv情報

著者 Liming Wu,Wenbing Huang,Rui Jiao,Jianxing Huang,Liwei Liu,Yipeng Zhou,Hao Sun,Yang Liu,Fuchun Sun,Yuxiang Ren,Jirong Wen
発行日 2025-03-13 15:44:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.AI | Siamese Foundation Models for Crystal Structure Prediction はコメントを受け付けていません

DeclareAligner: A Leap Towards Efficient Optimal Alignments for Declarative Process Model Conformance Checking

要約

多くのエンジニアリングアプリケーションでは、プロセスに正確に従う必要があり、イベントログと宣言的プロセスモデル間の適合チェックを行う必要があります。
これは、人工知能(AI)が効果的なプロセス改善を促進する上で極めて重要な役割を果たす重要な分野です。
ただし、コンピューティング最適なアライメントは、これらのモデルに固有の膨大な検索スペースのために、重要な計算上の課題をもたらします。
その結果、既存のアプローチはしばしばスケーラビリティと効率性と格闘し、実際の設定での適用性を制限します。
このホワイトペーパーでは、宣言モデルの柔軟性を活用する新鮮な視点から問題に取り組むために、A*検索アルゴリズムであるA*検索アルゴリズムを使用する新しいアルゴリズムであるDeclareAlignerを紹介します。
宣言の重要な機能には、制約違反の修正に積極的に貢献するアクションのみを実行すること、カスタマイズされたヒューリスティックを利用して最適なソリューションに向けてナビゲートし、初期の剪定を使用して非生産的なブランチを排除すると同時に、複数の修正を統合することでプロセスを合理化します。
提案された方法は、8,054の合成および実生活のアラインメントの問題を使用して評価され、現在の最新の状態を大幅に上回ることにより、最適なアライメントを効率的に計算する能力を示しています。
プロセスアナリストが適合性の問題をより効果的に特定し、理解できるようにすることにより、DeclareAlignerは意味のあるプロセスの改善と管理を促進する可能性があります。

要約(オリジナル)

In many engineering applications, processes must be followed precisely, making conformance checking between event logs and declarative process models crucial for ensuring adherence to desired behaviors. This is a critical area where Artificial Intelligence (AI) plays a pivotal role in driving effective process improvement. However, computing optimal alignments poses significant computational challenges due to the vast search space inherent in these models. Consequently, existing approaches often struggle with scalability and efficiency, limiting their applicability in real-world settings. This paper introduces DeclareAligner, a novel algorithm that uses the A* search algorithm, an established AI pathfinding technique, to tackle the problem from a fresh perspective leveraging the flexibility of declarative models. Key features of DeclareAligner include only performing actions that actively contribute to fixing constraint violations, utilizing a tailored heuristic to navigate towards optimal solutions, and employing early pruning to eliminate unproductive branches, while also streamlining the process through preprocessing and consolidating multiple fixes into unified actions. The proposed method is evaluated using 8,054 synthetic and real-life alignment problems, demonstrating its ability to efficiently compute optimal alignments by significantly outperforming the current state of the art. By enabling process analysts to more effectively identify and understand conformance issues, DeclareAligner has the potential to drive meaningful process improvement and management.

arxiv情報

著者 Jacobo Casas-Ramos,Manuel Lama,Manuel Mucientes
発行日 2025-03-13 15:49:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | DeclareAligner: A Leap Towards Efficient Optimal Alignments for Declarative Process Model Conformance Checking はコメントを受け付けていません

LLMs in Disease Diagnosis: A Comparative Study of DeepSeek-R1 and O3 Mini Across Chronic Health Conditions

要約

大規模な言語モデル(LLM)は、疾患の分類と臨床的意思決定の両方を強化することにより、医療診断に革命をもたらしています。
この研究では、症状と診断の構造化されたデータセットを使用して、2つのLLMベースの診断ツールであるDeepSeek R1とO3 Miniのパフォーマンスを評価します。
疾患とカテゴリーのレベルの両方で予測精度、および自信スコアの信頼性を評価しました。
Deepseek R1は、76%の疾患レベルの精度と82%の全体的な精度を達成し、それぞれ72%と75%を達成したO3 Miniを上回りました。
特に、Deepseek R1は、精神衛生、神経障害、および腫瘍学の例外的なパフォーマンスを実証し、100%の精度に達しましたが、O3 Miniは100%精度で自己免疫疾患分類に優れていました。
ただし、両方のモデルは呼吸器疾患の分類に苦労し、Deepseek R1で40%、O3 Miniで20%の精度を記録しました。
さらに、信頼スコアの分析により、DeepSeek R1は、O3 Miniの68%と比較して、症例の92%で高い自信予測を提供したことが明らかになりました。
LLMの臨床診療への責任ある統合を確保するために、バイアス、モデルの解釈可能性、およびデータプライバシーに関する倫理的考慮事項も議論されています。
全体として、私たちの調査結果は、LLMベースの診断システムの強みと制限に関する貴重な洞察を提供し、AI駆動型ヘルスケアの将来の強化のためのロードマップを提供します。

要約(オリジナル)

Large Language Models (LLMs) are revolutionizing medical diagnostics by enhancing both disease classification and clinical decision-making. In this study, we evaluate the performance of two LLM- based diagnostic tools, DeepSeek R1 and O3 Mini, using a structured dataset of symptoms and diagnoses. We assessed their predictive accuracy at both the disease and category levels, as well as the reliability of their confidence scores. DeepSeek R1 achieved a disease-level accuracy of 76% and an overall accuracy of 82%, outperforming O3 Mini, which attained 72% and 75% respectively. Notably, DeepSeek R1 demonstrated exceptional performance in Mental Health, Neurological Disorders, and Oncology, where it reached 100% accuracy, while O3 Mini excelled in Autoimmune Disease classification with 100% accuracy. Both models, however, struggled with Respiratory Disease classification, recording accuracies of only 40% for DeepSeek R1 and 20% for O3 Mini. Additionally, the analysis of confidence scores revealed that DeepSeek R1 provided high-confidence predictions in 92% of cases, compared to 68% for O3 Mini. Ethical considerations regarding bias, model interpretability, and data privacy are also discussed to ensure the responsible integration of LLMs into clinical practice. Overall, our findings offer valuable insights into the strengths and limitations of LLM-based diagnostic systems and provide a roadmap for future enhancements in AI-driven healthcare.

arxiv情報

著者 Gaurav Kumar Gupta,Pranal Pande
発行日 2025-03-13 15:54:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LLMs in Disease Diagnosis: A Comparative Study of DeepSeek-R1 and O3 Mini Across Chronic Health Conditions はコメントを受け付けていません

Fast MRI for All: Bridging Equity Gaps via Training without Raw Data Access

要約

物理主導のディープラーニング(PD-DL)アプローチは、高速磁気共鳴画像(MRI)スキャンの再構築の改善に人気があります。
PD-DLは、既存の臨床高速MRI技術よりも高い加速率を提供しますが、その使用は外部の専門MRIセンターに制限されています。
重要な課題は、複数の研究で指摘されている過小評価された病理または集団への一般化であり、ターゲット集団の微調整が改善を提案されています。
ただし、PD-DLトレーニングの現在のアプローチでは、生のKスペース測定にアクセスする必要があります。これは、通常、このようなデータアクセスのための研究契約がある専門のMRIセンターでのみ利用できます。
これは、商業的なMRIスキャナーが最終的な再構築された画像へのアクセスのみを提供する農村部やサービスの行き届いていない地域にとって特に問題です。
これらの課題に取り組むために、MRIスキャナーからエクスポートされた日常的な臨床再構築画像のみを使用して、高品質のPD-DLトレーニングのための並列イメージングフィデリティ(CUPID)を介して圧縮性にインスパイアされた監視されていない学習を提案します。
Cupidは、出力が適切に設計された摂動を通じて臨床並列イメージングの再構築と一致するようにしながら、圧縮性ベースのアプローチで出力品質を評価します。
私たちの結果は、Cupidが、圧縮センシング(CS)と拡散ベースの生成方法を上回りながらKスペースデータを必要とする確立されたPD-DLトレーニングと同様の品質を達成していることを示しています。
さらに、最小限のトレーニング負担を証明して、遡及的かつ前向きにサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブサブトレーニングのセットアップにおけるその有効性を実証します。
既存の戦略から根本的に逸脱するアプローチとして、Cupidは、この高価なイメージングモダリティに関連する不平等を減らすために、サービスを受けていない集団に高速MRIへの公平なアクセスを提供する機会を提示します。

要約(オリジナル)

Physics-driven deep learning (PD-DL) approaches have become popular for improved reconstruction of fast magnetic resonance imaging (MRI) scans. Though PD-DL offers higher acceleration rates than existing clinical fast MRI techniques, their use has been limited outside specialized MRI centers. A key challenge is generalization to underrepresented pathologies or populations, noted in multiple studies, with fine-tuning on target populations suggested for improvement. However, current approaches for PD-DL training require access to raw k-space measurements, which is typically only available at specialized MRI centers that have research agreements for such data access. This is especially an issue for rural and underserved areas, where commercial MRI scanners only provide access to a final reconstructed image. To tackle these challenges, we propose Compressibility-inspired Unsupervised Learning via Parallel Imaging Fidelity (CUPID) for high-quality PD-DL training using only routine clinical reconstructed images exported from an MRI scanner. CUPID evaluates output quality with a compressibility-based approach while ensuring that the output stays consistent with the clinical parallel imaging reconstruction through well-designed perturbations. Our results show CUPID achieves similar quality to established PD-DL training that requires k-space data while outperforming compressed sensing (CS) and diffusion-based generative methods. We further demonstrate its effectiveness in a zero-shot training setup for retrospectively and prospectively sub-sampled acquisitions, attesting to its minimal training burden. As an approach that radically deviates from existing strategies, CUPID presents an opportunity to provide equitable access to fast MRI for underserved populations in an attempt to reduce the inequalities associated with this expensive imaging modality.

arxiv情報

著者 Yaşar Utku Alçalar,Merve Gülle,Mehmet Akçakaya
発行日 2025-03-13 15:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | Fast MRI for All: Bridging Equity Gaps via Training without Raw Data Access はコメントを受け付けていません