Automatic Item Generation for Personality Situational Judgment Tests with Large Language Models

要約

特に状況判断テスト(SJTS)を通じて、人格評価は、心理的研究、人材選択、教育評価のための重要なツールです。
この研究では、中国語の人格状況判断テスト(PSJT)の生成を自動化するための最先端の大手言語モデル(LLM)であるGPT-4の可能性を調査します。
従来のSJT開発は労働集約的であり、バイアスを抑えやすく、GPT-4はスケーラブルで効率的な代替品を提供します。
2つの研究が実施されました。研究1は、コンテンツの妥当性に対する迅速な設計と温度設定の影響を評価し、1.0の温度で最適化されたプロンプトが創造的で正確なアイテムを生成したことを発見しました。
研究2では、GPT-4生成されたPSJTSの心理測定特性を評価し、彼らが満足のいく信頼性と妥当性を実証し、ビッグファイブパーソナリティ特性の測定における手動で開発されたテストのパフォーマンスを上回ることを明らかにしました。
この研究は、高品質のPSJTを開発する際のGPT-4の有効性を強調し、心理測定テスト開発のためのスケーラブルで革新的な方法を提供します。
これらの調査結果は、自動アイテムの生成の可能性と心理学におけるLLMの適用を拡大し、リソース制限設定でのテスト開発プロセスを合理化するために実際的な意味を提供します。

要約(オリジナル)

Personality assessment, particularly through situational judgment tests (SJTs), is a vital tool for psychological research, talent selection, and educational evaluation. This study explores the potential of GPT-4, a state-of-the-art large language model (LLM), to automate the generation of personality situational judgment tests (PSJTs) in Chinese. Traditional SJT development is labor-intensive and prone to biases, while GPT-4 offers a scalable, efficient alternative. Two studies were conducted: Study 1 evaluated the impact of prompt design and temperature settings on content validity, finding that optimized prompts with a temperature of 1.0 produced creative and accurate items. Study 2 assessed the psychometric properties of GPT-4-generated PSJTs, revealing that they demonstrated satisfactory reliability and validity, surpassing the performance of manually developed tests in measuring the Big Five personality traits. This research highlights GPT-4’s effectiveness in developing high-quality PSJTs, providing a scalable and innovative method for psychometric test development. These findings expand the possibilities of automatic item generation and the application of LLMs in psychology, and offer practical implications for streamlining test development processes in resource-limited settings.

arxiv情報

著者 Chang-Jin Li,Jiyuan Zhang,Yun Tang,Jian Li
発行日 2025-04-15 15:42:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.1 | Automatic Item Generation for Personality Situational Judgment Tests with Large Language Models はコメントを受け付けていません

Learning to Be A Doctor: Searching for Effective Medical Agent Architectures

要約

大規模な言語モデル(LLM)ベースのエージェントは、幅広いタスクにわたって強力な能力を実証しており、医療領域でのそれらの適用は、学際的知識への高い一般化と依存の需要のために特に有望です。
ただし、既存の医療エージェントシステムは、多くの場合、多様な診断要件に対応し、新たな臨床シナリオに適応する柔軟性を欠く静的で手動で作成されたワークフローに依存しています。
自動化された機械学習(Automl)の成功に動機付けられたこのペーパーでは、医療エージェントアーキテクチャの自動設計のための新しいフレームワークを紹介します。
具体的には、ノード、構造、およびフレームワークレベルでの構造化された変更を通じて、動的なワークフロー適応を可能にする階層的および表現エージェント検索スペースを定義します。
当社のフレームワークは、多様で機能的なノードタイプで構成されるグラフベースのアーキテクチャとして医療エージェントを概念化し、診断フィードバックによって導かれる反復的な自己改善をサポートします。
皮膚疾患の診断タスクの実験結果は、提案された方法がワークフロー構造を効果的に進化させ、時間の経過とともに診断の精度を大幅に向上させることを示しています。
この作業は、医療エージェントアーキテクチャ設計のための最初の完全に自動化されたフレームワークを表し、実世界の臨床環境にインテリジェントエージェントを展開するためのスケーラブルで適応性のある基盤を提供します。

要約(オリジナル)

Large Language Model (LLM)-based agents have demonstrated strong capabilities across a wide range of tasks, and their application in the medical domain holds particular promise due to the demand for high generalizability and reliance on interdisciplinary knowledge. However, existing medical agent systems often rely on static, manually crafted workflows that lack the flexibility to accommodate diverse diagnostic requirements and adapt to emerging clinical scenarios. Motivated by the success of automated machine learning (AutoML), this paper introduces a novel framework for the automated design of medical agent architectures. Specifically, we define a hierarchical and expressive agent search space that enables dynamic workflow adaptation through structured modifications at the node, structural, and framework levels. Our framework conceptualizes medical agents as graph-based architectures composed of diverse, functional node types and supports iterative self-improvement guided by diagnostic feedback. Experimental results on skin disease diagnosis tasks demonstrate that the proposed method effectively evolves workflow structures and significantly enhances diagnostic accuracy over time. This work represents the first fully automated framework for medical agent architecture design and offers a scalable, adaptable foundation for deploying intelligent agents in real-world clinical environments.

arxiv情報

著者 Yangyang Zhuang,Wenjia Jiang,Jiayu Zhang,Ze Yang,Joey Tianyi Zhou,Chi Zhang
発行日 2025-04-15 15:44:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Learning to Be A Doctor: Searching for Effective Medical Agent Architectures はコメントを受け付けていません

Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering

要約

特定の主張をサポートするために意図的にデータ表現を操作する誤解を招くチャートの視覚化は、認識を歪め、誤った結論につながる可能性があります。
数十年にわたる研究にもかかわらず、誤解を招く視覚化は、広範で差し迫った問題のままです。
マルチモーダル大手言語モデル(MLLM)の最近の進歩は、強力なチャート理解能力を実証していますが、誤解を招くチャートを検出および解釈する能力を体系的に評価した既存の作業はありません。
このペーパーでは、誤解を招くチャートの質問応答(誤解を招くChartqa)ベンチマークを紹介します。これは、誤解を招くチャートの特定と推論においてMLLMを評価するために設計された大規模なマルチモーダルデータセットです。
3,000を超えるキュレーションされた例が含まれており、21種類の誤ったリーダーと10種類のチャートタイプをカバーしています。
各例には、標準化されたチャートコード、CSVデータ、およびマルチラウンドMLLMチェックと使い果たされた専門家のヒューマンレビューを通じて検証された、ラベル付き説明を含む複数選択の質問が含まれます。
データセットに16の最先端のMLLMをベンチマークし、視覚的に欺cept的な慣行を特定する際の制限を明らかにします。
また、誤解を招く誤解を招くために、誤解を招くチャートの解釈におけるMLLMの精度を高める新しいパイプラインを提案します。
私たちの仕事は、MLLM主導の誤解を招くチャートの理解を進めるための基盤を確立しています。
サンプルデータセットを公開して、この重要な領域でのさらなる研究をサポートします。

要約(オリジナル)

Misleading chart visualizations, which intentionally manipulate data representations to support specific claims, can distort perceptions and lead to incorrect conclusions. Despite decades of research, misleading visualizations remain a widespread and pressing issue. Recent advances in multimodal large language models (MLLMs) have demonstrated strong chart comprehension capabilities, yet no existing work has systematically evaluated their ability to detect and interpret misleading charts. This paper introduces the Misleading Chart Question Answering (Misleading ChartQA) Benchmark, a large-scale multimodal dataset designed to assess MLLMs in identifying and reasoning about misleading charts. It contains over 3,000 curated examples, covering 21 types of misleaders and 10 chart types. Each example includes standardized chart code, CSV data, and multiple-choice questions with labeled explanations, validated through multi-round MLLM checks and exhausted expert human review. We benchmark 16 state-of-the-art MLLMs on our dataset, revealing their limitations in identifying visually deceptive practices. We also propose a novel pipeline that detects and localizes misleaders, enhancing MLLMs’ accuracy in misleading chart interpretation. Our work establishes a foundation for advancing MLLM-driven misleading chart comprehension. We publicly release the sample dataset to support further research in this critical area.

arxiv情報

著者 Zixin Chen,Sicheng Song,Kashun Shum,Yanna Lin,Rui Sheng,Huamin Qu
発行日 2025-04-15 15:48:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering はコメントを受け付けていません

Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints

要約

大規模な言語モデル(LLM)は今日のアプリケーションでは不可欠ですが、それらの推論手順 – セグメントでテキストを処理し、メモリが多いキー値(kV)キャッシュを使用することにより応答を生成します – 特にメモリの制約の下で、重要な計算リソースが必要です。
このペーパーでは、LLM推論の最適化は、シーケンシャルプロンプトの到着とKVキャッシュの成長が従来のスケジューリングを非効率的にするマルチステージオンラインスケジューリングの問題として定式化します。
アルゴリズムの設計をガイドする扱いやすいベンチマークを提供するために、流体ダイナミクス近似を開発します。
これに基づいて、累積推論のしきい値(待機)アルゴリズムを待つことを提案します。これは、出力の長さがわかっているときに複数のしきい値を使用して着信プロンプトを最適にスケジュールし、出力の長さが不明なケースのネストされた待機に拡張します。
理論分析は、両方のアルゴリズムが、スループット、レイテンシ、および最初のトークン(TTFT)までのバランスをとる、交通量の多い状態での流体ベンチマークに対してほぼ最適なパフォーマンスを達成することを示しています。
合成データセットと実世界の両方のデータセットを使用して、A100 GPUでのLLAMA-7Bモデルを使用した実験は、VLLMやSarathiなどの確立されたベースラインと比較して、スループットとレイテンシの改善とレイテンシの改善を示しています。
この作業は、運用研究と機械学習を橋渡しし、メモリ制約の下でLLMを効率的に展開するための厳密なフレームワークを提供します。

要約(オリジナル)

Large Language Models (LLMs) are indispensable in today’s applications, but their inference procedure — generating responses by processing text in segments and using a memory-heavy Key-Value (KV) cache — demands significant computational resources, particularly under memory constraints. This paper formulates LLM inference optimization as a multi-stage online scheduling problem where sequential prompt arrivals and KV cache growth render conventional scheduling ineffective. We develop a fluid dynamics approximation to provide a tractable benchmark that guides algorithm design. Building on this, we propose the Waiting for Accumulated Inference Threshold (WAIT) algorithm, which uses multiple thresholds to schedule incoming prompts optimally when output lengths are known, and extend it to Nested WAIT for cases with unknown output lengths. Theoretical analysis shows that both algorithms achieve near-optimal performance against the fluid benchmark in heavy traffic conditions, balancing throughput, latency, and Time to First Token (TTFT). Experiments with the Llama-7B model on an A100 GPU using both synthetic and real-world datasets demonstrate improved throughput and reduced latency relative to established baselines like vLLM and Sarathi. This work bridges operations research and machine learning, offering a rigorous framework for the efficient deployment of LLMs under memory constraints.

arxiv情報

著者 Ruicheng Ao,Gan Luo,David Simchi-Levi,Xinshang Wang
発行日 2025-04-15 16:00:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG, math.OC, stat.ML | Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints はコメントを受け付けていません

Code Reborn AI-Driven Legacy Systems Modernization from COBOL to Java

要約

この研究では、AI駆動型のレガシーCOBOLコードのJavaへの近代化を調査し、老化したソフトウェアシステムにおける重要な課題に対処します。
レガシーCOBOL 2024コーパスを活用して、公共およびエンタープライズソースから50,000個のCOBOLファイル – Javaはコードを解析し、AIはアップグレードを提案し、Reactはゲインを視覚化します。
93%の精度を達成すると、複雑さは35%(18〜11.7)と33%(8から5.4)の結合、手動努力(75%)とルールベースのツール(82%)を上回ります。
このアプローチは、COBOLシステムを若返らせるためのスケーラブルなパスを提供します。これは、銀行や保険などの業界にとって不可欠です。

要約(オリジナル)

This study investigates AI-driven modernization of legacy COBOL code into Java, addressing a critical challenge in aging software systems. Leveraging the Legacy COBOL 2024 Corpus — 50,000 COBOL files from public and enterprise sources — Java parses the code, AI suggests upgrades, and React visualizes gains. Achieving 93% accuracy, complexity drops 35% (from 18 to 11.7) and coupling 33% (from 8 to 5.4), surpassing manual efforts (75%) and rule-based tools (82%). The approach offers a scalable path to rejuvenate COBOL systems, vital for industries like banking and insurance.

arxiv情報

著者 Gopichand Bandarupalli
発行日 2025-04-15 16:07:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE | Code Reborn AI-Driven Legacy Systems Modernization from COBOL to Java はコメントを受け付けていません

Looking beyond the next token

要約

因果言語モデルトレーニングの構造は、各トークンを前のコンテキストから正確に予測できると想定しています。
これは、人間の自然な執筆と推論プロセスとは対照的であり、通常、正確な議論やフレーズの前に目標が知られています。
このミスマッチは文献でよく研究されていますが、この不一致に対処するには建築的変化が必要であるという作業の仮定があります。
トレーニングデータシーケンスの再配置と処理により、モデルは真のデータ生成プロセスをより正確に模倣できるようになり、アーキテクチャまたはトレーニングインフラストラクチャに他の変更を必要としないと主張します。
この手法、Trelawney、およびそれから導き出された推論アルゴリズムにより、計画、アルゴリズムの推論、ストーリー生成タスクにまたがるいくつかの重要なベンチマークのパフォーマンスを改善できることを実証します。
最後に、当社の方法は、自然に追加費用なしで長期目標の生成を可能にします。
モデルの目標生成機能を使用することで、計画と推論がさらに改善される方法を調査します。
さらに、Trelawneyは、現在の言語モデリングのパラダイムを超えて新しい機能への扉を開く可能性があると考えています。

要約(オリジナル)

The structure of causal language model training assumes that each token can be accurately predicted from the previous context. This contrasts with humans’ natural writing and reasoning process, where goals are typically known before the exact argument or phrasings. While this mismatch has been well studied in the literature, the working assumption has been that architectural changes are needed to address this mismatch. We argue that rearranging and processing the training data sequences can allow models to more accurately imitate the true data-generating process, and does not require any other changes to the architecture or training infrastructure. We demonstrate that this technique, Trelawney, and the inference algorithms derived from it allow us to improve performance on several key benchmarks that span planning, algorithmic reasoning, and story generation tasks. Finally, our method naturally enables the generation of long-term goals at no additional cost. We investigate how using the model’s goal-generation capability can further improve planning and reasoning. Additionally, we believe Trelawney could potentially open doors to new capabilities beyond the current language modeling paradigm.

arxiv情報

著者 Abitha Thankaraj,Yiding Jiang,J. Zico Kolter,Yonatan Bisk
発行日 2025-04-15 16:09:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Looking beyond the next token はコメントを受け付けていません

‘A Good Bot Always Knows Its Limitations’: Assessing Autonomous System Decision-making Competencies through Factorized Machine Self-confidence

要約

インテリジェントマシンがタスクを完了するための能力をどのように評価できますか?
この質問は、不確実性の下でアルゴリズム的に決定を下す自律システムに焦点を当てています。
私たちは、機械の自信 – 世界の状態、それ自体、およびタスクを推論して実行する能力に関するシステム知識の自己評価に基づくメタリレイニングの形態は、そのようなエージェントの多くの計算可能で有用なコンピテンシー指標につながると主張します。
このペーパーでは、これまでのところ、この概念については、アルゴリズムの意思決定の能力を促進するいくつかの主要な要因を総合的に考慮しているこの概念について、この概念を示しています。
FAMSECでは、Markov Decision Process Solversおよび関連するアプローチに組み込まれた「問題解決統計」を介して自信指標が導き出されます。
これらの統計は、特定の結果と評価者によって指定された関連する能力基準に関連して、確率的超過マージンを評価することから得られます。
設計され、評価されると、統計は自律剤に簡単に組み込まれ、能力の指標として機能します。
マルコフ決定プロセスエージェントの詳細な説明と例を含め、メタ効率の機能、行動シミュレーション、およびサロゲート予測モデルの新しい使用を通じて、さまざまなタスクコンテキストに結果の評価とソルバーの品質要因がどのように見られるかを示します。
数値評価は、FAMSECインジケーターが必要に応じて実行されることを実証するために実行されます(この論文の範囲を超えた人間の被験者研究への参照が提供されます)。

要約(オリジナル)

How can intelligent machines assess their competency to complete a task? This question has come into focus for autonomous systems that algorithmically make decisions under uncertainty. We argue that machine self-confidence — a form of meta-reasoning based on self-assessments of system knowledge about the state of the world, itself, and ability to reason about and execute tasks — leads to many computable and useful competency indicators for such agents. This paper presents our body of work, so far, on this concept in the form of the Factorized Machine Self-confidence (FaMSeC) framework, which holistically considers several major factors driving competency in algorithmic decision-making: outcome assessment, solver quality, model quality, alignment quality, and past experience. In FaMSeC, self-confidence indicators are derived via ‘problem-solving statistics’ embedded in Markov decision process solvers and related approaches. These statistics come from evaluating probabilistic exceedance margins in relation to certain outcomes and associated competency standards specified by an evaluator. Once designed, and evaluated, the statistics can be easily incorporated into autonomous agents and serve as indicators of competency. We include detailed descriptions and examples for Markov decision process agents, and show how outcome assessment and solver quality factors can be found for a range of tasking contexts through novel use of meta-utility functions, behavior simulations, and surrogate prediction models. Numerical evaluations are performed to demonstrate that FaMSeC indicators perform as desired (references to human subject studies beyond the scope of this paper are provided).

arxiv情報

著者 Brett W. Israelsen,Nisar R. Ahmed,Matthew Aitken,Eric W. Frew,Dale A. Lawrence,Brian M. Argrow
発行日 2025-04-15 16:11:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC, cs.LG, cs.RO | ‘A Good Bot Always Knows Its Limitations’: Assessing Autonomous System Decision-making Competencies through Factorized Machine Self-confidence はコメントを受け付けていません

Transformer-Based Model for Cold Start Mitigation in FaaS Architecture

要約

サーバーレスアーキテクチャ、特にサービス(FAAS)モデルとしての機能は、リソース管理を簡素化し、アプリケーションの展開の俊敏性を強化する能力により、最新のクラウドコンピューティングの基礎となっています。
ただし、重要な課題は残っています。コールドスタートの問題です。
この現象は、アイドル状態のFAAS関数が呼び出されたときに発生し、完全な初期化プロセスが必要であり、レイテンシを増加させ、ユーザーエクスペリエンスを低下させます。
コールドスタート緩和のための既存のソリューションは、呼び出しパターンの一般化と実装の複雑さの点で制限されています。
この研究では、トランスモデルを活用してFAASアーキテクチャでのコールドスタートの影響を軽減する革新的なアプローチを提案します。
当社のソリューションは、機能の初期化の遅延の正確なモデリングとサーバーレスシステムのパフォーマンスを最適化することに優れています。
Azureが提供する公開データセットを使用した実験的評価は、寒冷開始時間の大幅な減少を示しており、従来の方法と比較して最大79%に達します。

要約(オリジナル)

Serverless architectures, particularly the Function as a Service (FaaS) model, have become a cornerstone of modern cloud computing due to their ability to simplify resource management and enhance application deployment agility. However, a significant challenge remains: the cold start problem. This phenomenon occurs when an idle FaaS function is invoked, requiring a full initialization process, which increases latency and degrades user experience. Existing solutions for cold start mitigation are limited in terms of invocation pattern generalization and implementation complexity. In this study, we propose an innovative approach leveraging Transformer models to mitigate the impact of cold starts in FaaS architectures. Our solution excels in accurately modeling function initialization delays and optimizing serverless system performance. Experimental evaluation using a public dataset provided by Azure demonstrates a significant reduction in cold start times, reaching up to 79\% compared to conventional methods.

arxiv情報

著者 Alexandre Savi Fayam Mbala Mouen,Jerry Lacmou Zeutouo,Vianney Kengne Tchendji
発行日 2025-04-15 16:12:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC | Transformer-Based Model for Cold Start Mitigation in FaaS Architecture はコメントを受け付けていません

A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce

要約

強化学習(RL)は、複雑な推論タスクに関する大規模な言語モデル(LLMS)を微調整するための一般的なアプローチとなっています。
最近の方法の中で、GRPOはDeepSeek-R1などのトレーニングモデルでの経験的成功を際立たせていますが、その有効性のソースは依然としてよく理解されていません。
この作業では、補強様アルゴリズムの観点からGRPOを再訪し、そのコアコンポーネントを分析します。
驚くべきことに、私たちは、積極的に報われるサンプルのみで訓練する単純な拒絶サンプリングベースラインであるRaftが、GRPOやPPOよりも競争力のあるパフォーマンスをもたらすことがわかります。
私たちのアブレーション研究は、GRPOの主な利点が、報酬の正規化からではなく、完全に間違った応答を伴うプロンプトを破棄することから生じることを明らかにしています。
この洞察に動機付けられて、私たちは、完全に間違ったサンプルと完全に正しいサンプルの両方をろ過するポリシー勾配の最小限の拡張であるRenforce-Rejを提案します。
Renforce-REJはKLの効率と安定性を改善し、より複雑なRLアルゴリズムの軽量でありながら効果的な代替品として機能します。
RAFTを堅牢で解釈可能なベースラインとして提唱し、将来の進歩は、無差別に頼るのではなく、負のサンプルを組み込むためのより原則的なデザインに焦点を当てるべきであることを示唆しています。
私たちの調査結果は、報酬ベースのLLMポストトレーニングにおける将来の作業のガイダンスを提供します。

要約(オリジナル)

Reinforcement learning (RL) has become a prevailing approach for fine-tuning large language models (LLMs) on complex reasoning tasks. Among recent methods, GRPO stands out for its empirical success in training models such as DeepSeek-R1, yet the sources of its effectiveness remain poorly understood. In this work, we revisit GRPO from a reinforce-like algorithm perspective and analyze its core components. Surprisingly, we find that a simple rejection sampling baseline, RAFT, which trains only on positively rewarded samples, yields competitive performance than GRPO and PPO. Our ablation studies reveal that GRPO’s main advantage arises from discarding prompts with entirely incorrect responses, rather than from its reward normalization. Motivated by this insight, we propose Reinforce-Rej, a minimal extension of policy gradient that filters both entirely incorrect and entirely correct samples. Reinforce-Rej improves KL efficiency and stability, serving as a lightweight yet effective alternative to more complex RL algorithms. We advocate RAFT as a robust and interpretable baseline, and suggest that future advances should focus on more principled designs for incorporating negative samples, rather than relying on them indiscriminately. Our findings provide guidance for future work in reward-based LLM post-training.

arxiv情報

著者 Wei Xiong,Jiarui Yao,Yuhui Xu,Bo Pang,Lei Wang,Doyen Sahoo,Junnan Li,Nan Jiang,Tong Zhang,Caiming Xiong,Hanze Dong
発行日 2025-04-15 16:15:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce はコメントを受け付けていません

Interpretable Hybrid-Rule Temporal Point Processes

要約

時間ポイントプロセス(TPP)は、疾患発症予測、進行分析、臨床的意思決定サポートなど、さまざまな医療ドメインのイベントシーケンスのモデリングに広く使用されています。
TPPは時間的なダイナミクスを効果的にキャプチャしますが、解釈可能性の欠如は依然として重要な課題です。
最近の進歩により、解釈可能なTPPが導入されています。
ただし、これらの方法は数値的特徴を組み込むことができず、それにより正確な予測を生成する能力が制限されます。
この問題に対処するために、ハイブリッドルールの時間ポイントプロセス(HRTPP)を提案します。これは、時間モデリングにおける時間的論理ルールを数値的特徴と数値的特徴と予測精度の両方を改善する新しいフレームワークです。
HRTPPは、3つの重要なコンポーネントで構成されています。本質的なイベントの可能性の基本強度、構造化された時間依存性のルールベースの強度、動的確率変調の数値的特徴強度です。
有効なルールを効果的に発見するために、ベイジアンの最適化を備えた2フェーズルールマイニング戦略を導入します。
私たちの方法を評価するために、ルールの妥当性、モデルフィッティング、および時間的予測精度を組み込んだマルチ基準評価フレームワークを確立します。
実際の医療データセットの実験結果は、HRTPPが予測的パフォーマンスと臨床的解釈可能性の観点から、最先端の解釈可能なTPPを上回ることを示しています。
ケーススタディでは、HRTPPによって抽出されたルールが疾患の進行を説明し、医療診断に貴重な貢献を提供します。

要約(オリジナル)

Temporal Point Processes (TPPs) are widely used for modeling event sequences in various medical domains, such as disease onset prediction, progression analysis, and clinical decision support. Although TPPs effectively capture temporal dynamics, their lack of interpretability remains a critical challenge. Recent advancements have introduced interpretable TPPs. However, these methods fail to incorporate numerical features, thereby limiting their ability to generate precise predictions. To address this issue, we propose Hybrid-Rule Temporal Point Processes (HRTPP), a novel framework that integrates temporal logic rules with numerical features, improving both interpretability and predictive accuracy in event modeling. HRTPP comprises three key components: basic intensity for intrinsic event likelihood, rule-based intensity for structured temporal dependencies, and numerical feature intensity for dynamic probability modulation. To effectively discover valid rules, we introduce a two-phase rule mining strategy with Bayesian optimization. To evaluate our method, we establish a multi-criteria assessment framework, incorporating rule validity, model fitting, and temporal predictive accuracy. Experimental results on real-world medical datasets demonstrate that HRTPP outperforms state-of-the-art interpretable TPPs in terms of predictive performance and clinical interpretability. In case studies, the rules extracted by HRTPP explain the disease progression, offering valuable contributions to medical diagnosis.

arxiv情報

著者 Yunyang Cao,Juekai Lin,Hongye Wang,Wenhao Li,Bo Jin
発行日 2025-04-15 16:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Interpretable Hybrid-Rule Temporal Point Processes はコメントを受け付けていません