Physics-informed 4D X-ray image reconstruction from ultra-sparse spatiotemporal data

要約

現代のX線源が提供する前例のないX線束密度は、高速で動的なプロセスのX線イメージングに新たな時空間的可能性を提供する。このような可能性を利用するアプローチでは、多くの場合、i)時間分解トモグラフィのようにスキャン速度が限られているため、投影数や空間情報が限られている、またはii)ストロボスコピックイメージングのように時間点が限られているため、再構成問題が非ポーズ型となり、古典的な再構成アプローチでは解けそうにない。このようなデータからの4次元再構成には、ディープラーニング(DL)により組み込むことができるサンプルプライヤが必要です。X線画像のための最先端の4D再構成法は、AIの力とX線伝搬の物理学を組み合わせて、スパースビューの課題に取り組む。しかし、ほとんどのアプローチは、研究プロセスの物理、すなわち完全な物理モデルを制約していない。本論文では、スパースビューからの4次元X線画像再構成のために、完全な物理モデルと最先端のDLベースの再構成法を組み合わせた新しい物理情報付き4次元X線画像再構成法である、4次元物理情報付き最適化ニューラルインプリシットX線画像再構成法(4D-PIONIX)を紹介する。我々は、流体力学に関連するプロセスである二液滴衝突のシミュレーションの超スパースな時空間画像から4次元情報を取得することにより、我々のアプローチの可能性を実証し、評価する。この研究は、時分割X線トモグラフィや、X線マルチプロジェクションイメージングのような、より新しいスパース画像取得アプローチのような、様々な4次元X線イメージングモダリティの新しい時空間的可能性を開くものであり、流体力学や複合材料試験のような様々な高速4次元ダイナミクスの調査への道を開くものである。

要約(オリジナル)

The unprecedented X-ray flux density provided by modern X-ray sources offers new spatiotemporal possibilities for X-ray imaging of fast dynamic processes. Approaches to exploit such possibilities often result in either i) a limited number of projections or spatial information due to limited scanning speed, as in time-resolved tomography, or ii) a limited number of time points, as in stroboscopic imaging, making the reconstruction problem ill-posed and unlikely to be solved by classical reconstruction approaches. 4D reconstruction from such data requires sample priors, which can be included via deep learning (DL). State-of-the-art 4D reconstruction methods for X-ray imaging combine the power of AI and the physics of X-ray propagation to tackle the challenge of sparse views. However, most approaches do not constrain the physics of the studied process, i.e., a full physical model. Here we present 4D physics-informed optimized neural implicit X-ray imaging (4D-PIONIX), a novel physics-informed 4D X-ray image reconstruction method combining the full physical model and a state-of-the-art DL-based reconstruction method for 4D X-ray imaging from sparse views. We demonstrate and evaluate the potential of our approach by retrieving 4D information from ultra-sparse spatiotemporal acquisitions of simulated binary droplet collisions, a relevant fluid dynamic process. We envision that this work will open new spatiotemporal possibilities for various 4D X-ray imaging modalities, such as time-resolved X-ray tomography and more novel sparse acquisition approaches like X-ray multi-projection imaging, which will pave the way for investigations of various rapid 4D dynamics, such as fluid dynamics and composite testing.

arxiv情報

著者 Zisheng Yao,Yuhe Zhang,Zhe Hu,Robert Klöfkorn,Tobias Ritschel,Pablo Villanueva-Perez
発行日 2025-04-04 14:18:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, eess.IV, physics.data-an | Physics-informed 4D X-ray image reconstruction from ultra-sparse spatiotemporal data はコメントを受け付けていません

Predictive Traffic Rule Compliance using Reinforcement Learning

要約

自律走行車の進路計画は、安全性と規制遵守が極めて重要な段階に達している。本稿では、潜在的な交通ルール違反を予測するために、運動プランナーと深層強化学習モデルを統合するアプローチを提示する。我々の主な革新点は、アクター批判手法における標準的なアクターネットワークを、安定かつ解釈可能な軌道生成を保証する運動計画モジュールに置き換えたことである。このセットアップでは、強化学習エージェントの批評家を訓練するための報酬として交通ルールの頑健性を使用し、批評家の出力は、軌道の選択を導く運動プランナのコスト関数として直接使用される。我々は、ドイツの道路交通規則からいくつかの主要な州間規則をルールブックに組み込み、複雑な交通情報を扱うためにグラフベースの状態表現を用いる。ドイツのオープンな高速道路データセットを用いた実験により、このモデルが計画地平線を越えて交通規則違反を予測し、防止できることが示され、困難な交通シナリオにおける安全性と規則遵守が向上する。

要約(オリジナル)

Autonomous vehicle path planning has reached a stage where safety and regulatory compliance are crucial. This paper presents an approach that integrates a motion planner with a deep reinforcement learning model to predict potential traffic rule violations. Our main innovation is replacing the standard actor network in an actor-critic method with a motion planning module, which ensures both stable and interpretable trajectory generation. In this setup, we use traffic rule robustness as the reward to train a reinforcement learning agent’s critic, and the output of the critic is directly used as the cost function of the motion planner, which guides the choices of the trajectory. We incorporate some key interstate rules from the German Road Traffic Regulation into a rule book and use a graph-based state representation to handle complex traffic information. Experiments on an open German highway dataset show that the model can predict and prevent traffic rule violations beyond the planning horizon, increasing safety and rule compliance in challenging traffic scenarios.

arxiv情報

著者 Yanliang Huang,Sebastian Mair,Zhuoqi Zeng,Matthias Althoff
発行日 2025-04-04 14:28:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO, I.2.6 | Predictive Traffic Rule Compliance using Reinforcement Learning はコメントを受け付けていません

Structured Legal Document Generation in India: A Model-Agnostic Wrapper Approach with VidhikDastaavej

要約

法的文書作成を自動化することで、効率を大幅に向上させ、手作業を減らし、法的ワークフローを合理化することができる。先行研究では、判決予測や判例要約などのタスクが研究されているが、インドの法的領域における私的な法的文書の構造化生成は、ほとんど未解決のままである。このギャップを埋めるために、我々はVidhikDastaavejを紹介する。VidhikDastaavejは匿名化された新しい私的法律文書のデータセットであり、NyayaShilpはインドの法律文書に特別に適応した微調整された法律文書生成モデルである。まず構造化されたセクションタイトルを生成し、次に検索ベースのメカニズムを活用して一貫性と事実の正確性を確保しながらコンテンツを反復的に生成する2段階のフレームワークであるModel-Agnostic Wrapper (MAW)を提案する。我々は、インストラクションチューニングされたバージョンやドメインアダプテッドバージョンを含む複数のオープンソースLLMを、プロプライエタリモデルと比較するためにベンチマークした。その結果、小さなデータセットで直接微調整を行っても必ずしも改善されるとは限らないが、我々の構造化ラッパーは、幻覚を軽減しながら、一貫性、事実の順守、文書全体の品質を大幅に向上させることがわかった。実世界での適用性を確保するため、我々はHITL(Human-in-the-Loop)文書生成システムを開発した。HITLは、ユーザが文書の種類を指定し、セクションの詳細を絞り込み、構造化された法律草案を生成することを可能にする対話型ユーザインタフェースである。このツールにより、法律の専門家や研究者は、AIが生成した法律文書を効率的に生成、検証、改良することができます。専門家の評価を含む広範な評価により、我々のフレームワークが構造化された法的ドラフティングにおいて高い信頼性を達成することが確認された。本研究は、インドにおけるAI支援による法的ドラフティングのためのスケーラブルで適応可能な基盤を確立し、構造化された法的文書生成への効果的なアプローチを提供する。

要約(オリジナル)

Automating legal document drafting can significantly enhance efficiency, reduce manual effort, and streamline legal workflows. While prior research has explored tasks such as judgment prediction and case summarization, the structured generation of private legal documents in the Indian legal domain remains largely unaddressed. To bridge this gap, we introduce VidhikDastaavej, a novel, anonymized dataset of private legal documents, and develop NyayaShilp, a fine-tuned legal document generation model specifically adapted to Indian legal texts. We propose a Model-Agnostic Wrapper (MAW), a two-step framework that first generates structured section titles and then iteratively produces content while leveraging retrieval-based mechanisms to ensure coherence and factual accuracy. We benchmark multiple open-source LLMs, including instruction-tuned and domain-adapted versions, alongside proprietary models for comparison. Our findings indicate that while direct fine-tuning on small datasets does not always yield improvements, our structured wrapper significantly enhances coherence, factual adherence, and overall document quality while mitigating hallucinations. To ensure real-world applicability, we developed a Human-in-the-Loop (HITL) Document Generation System, an interactive user interface that enables users to specify document types, refine section details, and generate structured legal drafts. This tool allows legal professionals and researchers to generate, validate, and refine AI-generated legal documents efficiently. Extensive evaluations, including expert assessments, confirm that our framework achieves high reliability in structured legal drafting. This research establishes a scalable and adaptable foundation for AI-assisted legal drafting in India, offering an effective approach to structured legal document generation.

arxiv情報

著者 Shubham Kumar Nigam,Balaramamahanthi Deepak Patnaik,Ajay Varghese Thomas,Noel Shallum,Kripabandhu Ghosh,Arnab Bhattacharya
発行日 2025-04-04 14:41:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | Structured Legal Document Generation in India: A Model-Agnostic Wrapper Approach with VidhikDastaavej はコメントを受け付けていません

Quantifying Robustness: A Benchmarking Framework for Deep Learning Forecasting in Cyber-Physical Systems

要約

製造業やエネルギー供給などの領域におけるサイバーフィジカルシステム(CPS)は、予後・健康管理(PGM)に不可欠な複雑な時系列データを生成する。ディープラーニング(DL)手法は強力な予測能力を実証していますが、ロバスト性が不十分なため、産業用CPSでの採用は依然として限定的です。既存のロバスト性評価は、主に形式的検証または敵対的摂動に焦点を当てており、実世界のCPSシナリオで遭遇する複雑性を十分に表現できていません。この問題に対処するため、我々は、産業用CPSに明示的に合わせた分布ロバスト性に基づく実用的なロバスト性の定義を導入し、ロバスト性評価のための体系的なフレームワークを提案する。我々のフレームワークは、センサードリフト、ノイズ、不規則なサンプリングなどの現実的な外乱をシミュレートし、実世界のCPSデータセットにおける予測モデルの徹底的なロバスト性分析を可能にする。ロバスト性の定義は、多様なデータセットにおけるモデル性能を定量化し比較するための標準化されたスコアを提供し、情報に基づいたモデル選択とアーキテクチャ設計を支援する。著名なDLアーキテクチャ(リカレント、畳み込み、アテンションベース、モジュラー、構造化状態空間モデルなど)を評価する広範な実証研究を通じて、本アプローチの適用性と有効性を実証する。さらなる研究と再現性を奨励するため、頑健性ベンチマークを公開する。

要約(オリジナル)

Cyber-Physical Systems (CPS) in domains such as manufacturing and energy distribution generate complex time series data crucial for Prognostics and Health Management (PHM). While Deep Learning (DL) methods have demonstrated strong forecasting capabilities, their adoption in industrial CPS remains limited due insufficient robustness. Existing robustness evaluations primarily focus on formal verification or adversarial perturbations, inadequately representing the complexities encountered in real-world CPS scenarios. To address this, we introduce a practical robustness definition grounded in distributional robustness, explicitly tailored to industrial CPS, and propose a systematic framework for robustness evaluation. Our framework simulates realistic disturbances, such as sensor drift, noise and irregular sampling, enabling thorough robustness analyses of forecasting models on real-world CPS datasets. The robustness definition provides a standardized score to quantify and compare model performance across diverse datasets, assisting in informed model selection and architecture design. Through extensive empirical studies evaluating prominent DL architectures (including recurrent, convolutional, attention-based, modular, and structured state-space models) we demonstrate the applicability and effectiveness of our approach. We publicly release our robustness benchmark to encourage further research and reproducibility.

arxiv情報

著者 Alexander Windmann,Henrik Steude,Daniel Boschmann,Oliver Niggemann
発行日 2025-04-04 14:50:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Quantifying Robustness: A Benchmarking Framework for Deep Learning Forecasting in Cyber-Physical Systems はコメントを受け付けていません

VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain

要約

プライバシーの制約から、医療分野の音声認識データセットは公開されていない。VietMedは、16時間のラベル付き医療音声、1000時間のラベルなし医療音声、1200時間のラベルなし一般音声からなる医療分野のベトナム語音声認識データセットである。我々の知る限り、VietMedは7つの側面(総時間、話者数、疾患、録音条件、話者の役割、独特の医療用語、アクセント)において、世界最大の公開医療音声認識データセットである。また、VietMedはベトナム語の公開音声認識データセットとしても、総時間で圧倒的に最大です。さらに、ICD-10の全疾患グループと国内の全アクセントをカバーする医療用ASRデータセットを初めて公開しました。さらに、ベトナム語ASR用の大規模な事前学習済みモデルw2v2-VietとXLSR-53-Vietを初めて公開し、医療ASR用の大規模な微調整済みモデルも初めて公開します。教師なし事前学習で医療データがない場合でも、我々の最高の事前学習済みモデルXLSR-53-Vietは、テストセットでのWERが51.8%から29.6%へと、最先端のXLSR-53を上回り(相対的に40%以上の削減)、医療ドメインに非常によく汎化します。すべてのコード、データ、モデルは、https://github.com/leduckhai/MultiMed/tree/master/VietMed。

要約(オリジナル)

Due to privacy restrictions, there’s a shortage of publicly available speech recognition datasets in the medical domain. In this work, we present VietMed – a Vietnamese speech recognition dataset in the medical domain comprising 16h of labeled medical speech, 1000h of unlabeled medical speech and 1200h of unlabeled general-domain speech. To our best knowledge, VietMed is by far the world’s largest public medical speech recognition dataset in 7 aspects: total duration, number of speakers, diseases, recording conditions, speaker roles, unique medical terms and accents. VietMed is also by far the largest public Vietnamese speech dataset in terms of total duration. Additionally, we are the first to present a medical ASR dataset covering all ICD-10 disease groups and all accents within a country. Moreover, we release the first public large-scale pre-trained models for Vietnamese ASR, w2v2-Viet and XLSR-53-Viet, along with the first public large-scale fine-tuned models for medical ASR. Even without any medical data in unsupervised pre-training, our best pre-trained model XLSR-53-Viet generalizes very well to the medical domain by outperforming state-of-the-art XLSR-53, from 51.8% to 29.6% WER on test set (a relative reduction of more than 40%). All code, data and models are made publicly available: https://github.com/leduckhai/MultiMed/tree/master/VietMed.

arxiv情報

著者 Khai Le-Duc
発行日 2025-04-04 15:06:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, eess.AS | VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain はコメントを受け付けていません

Programming Distributed Collective Processes in the eXchange Calculus

要約

モノのインターネット(IoT)のような最近のトレンドは、ほとんどすべての種類の環境におけるコンピューティングデバイスの高密度かつマルチスケールな展開のビジョンを示唆している。このようなコンピューティング・エコシステムの集団適応的な振る舞いをプログラミングすることが、エンジニアリング上の大きな課題となっている。そのためには、アンサンブル(協調するデバイスの動的なグループ)や集団タスク(アンサンブルによって実行される共同活動)のような概念を捉えることができる抽象化が必要である。この研究では、近隣のデバイスと相互作用し、ほぼ同期されたセンス・コンピューティング・インタラクト・ラウンドで実行されるデバイスのコレクションを考慮する。計算集団全体のプログラミングをサポートするために、我々は、アンサンブル形成ロジックとその集団タスクを一度に定義するために使用できる分散集団プロセスの抽象化を提案する。この抽象化を、近傍値(近傍値から値への写像)に基づくコア関数型言語であるeXchange Calculus (XC)で定式化し、状態と相互作用が単一のプリミティブであるexchangeを通して処理されるようにする。次に、マルチホップメッセージ伝搬と空間特性の分散モニタリングという2つのケーススタディを用い、分散集合処理を演習する。最後に、この抽象化の特徴と、さまざまな種類の分散コンピューティング・アプリケーションに対する適合性について議論する。

要約(オリジナル)

Recent trends like the Internet of Things (IoT) suggest a vision of dense and multi-scale deployments of computing devices in nearly all kinds of environments. A prominent engineering challenge revolves around programming the collective adaptive behaviour of such computational ecosystems. This requires abstractions able to capture concepts like ensembles (dynamic groups of cooperating devices) and collective tasks (joint activities carried out by ensembles). In this work, we consider collections of devices interacting with neighbours and that execute in nearly-synchronised sense-compute-interact rounds, where the computation is given by a single program mapping sensing values and incoming messages to output and outcoming messages. To support programming whole computational collectives, we propose the abstraction of a distributed collective process, which can be used to define at once the ensemble formation logic and its collective task. We formalise the abstraction in the eXchange Calculus (XC), a core functional language based on neighbouring values (maps from neighbours to values) where state and interaction is handled through a single primitive, exchange, and provide a corresponding implementation in the FCPP language. Then, we exercise distributed collective processes using two case studies: multi-hop message propagation and distributed monitoring of spatial properties. Finally, we discuss the features of the abstraction and its suitability for different kinds of distributed computing applications.

arxiv情報

著者 Giorgio Audrito,Roberto Casadei,Ferruccio Damiani,Gianluca Torta,Mirko Viroli
発行日 2025-04-04 15:23:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.DC, cs.MA, cs.PL, D.1.3 | Programming Distributed Collective Processes in the eXchange Calculus はコメントを受け付けていません

Dense Neural Network Based Arrhythmia Classification on Low-cost and Low-compute Micro-controller

要約

心電図(ECG)モニター装置は、心血管疾患(CVD)の治療と診断に不可欠な装置ではあるが、高価なものである。この装置のコストは通常、2000~10000ドルに及ぶ。いくつかの研究では、ECGモニタリング・システムをマイクロコントローラ・ユニット(MCU)に実装し、産業用開発コストを最大20分の1に削減している。しかし、産業グレードのシステムに対応し、心拍を効果的に表示するには、不整脈(不整脈)を検出するための効率的なアルゴリズムを開発することが不可欠である。そこで本研究では、Arduino Nano上で不整脈を検出する高密度ニューラルネットワークを開発した。Nanoは、16MHzクロックのATMega328マイクロコントローラ、2KBのSRAM、32KBのプログラム・メモリで構成されている。さらに、ECGセンサーとしてAD8232 SparkFun Single-Lead Heart Rate Monitorが使用されている。実装されたニューラルネットワーク・モデルは、シグモイド活性化関数を持つ、それぞれ10ニューロンと4ニューロンの2層(入力を除く)で構成されている。しかし、適切な活性化関数を選択するために、4つのアプローチが検討された。このモデルのサイズは 1.267 KB で、4 種類の不整脈を分類する際の F1 スコア(マクロ平均)は 78.3%、精度は 96.38%、必要な浮動小数点演算(FLOPs)は 0.001314 MOps である。

要約(オリジナル)

The electrocardiogram (ECG) monitoring device is an expensive albeit essential device for the treatment and diagnosis of cardiovascular diseases (CVD). The cost of this device typically ranges from $2000 to $10000. Several studies have implemented ECG monitoring systems in micro-controller units (MCU) to reduce industrial development costs by up to 20 times. However, to match industry-grade systems and display heartbeats effectively, it is essential to develop an efficient algorithm for detecting arrhythmia (irregular heartbeat). Hence in this study, a dense neural network is developed to detect arrhythmia on the Arduino Nano. The Nano consists of the ATMega328 microcontroller with a 16MHz clock, 2KB of SRAM, and 32KB of program memory. Additionally, the AD8232 SparkFun Single-Lead Heart Rate Monitor is used as the ECG sensor. The implemented neural network model consists of two layers (excluding the input) with 10 and four neurons respectively with sigmoid activation function. However, four approaches are explored to choose the appropriate activation functions. The model has a size of 1.267 KB, achieves an F1 score (macro-average) of 78.3\% for classifying four types of arrhythmia, an accuracy rate of 96.38%, and requires 0.001314 MOps of floating-point operations (FLOPs).

arxiv情報

著者 Md Abu Obaida Zishan,H M Shihab,Sabik Sadman Islam,Maliha Alam Riya,Gazi Mashrur Rahman,Jannatun Noor
発行日 2025-04-04 15:30:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, I.2.1 | Dense Neural Network Based Arrhythmia Classification on Low-cost and Low-compute Micro-controller はコメントを受け付けていません

Performance Modeling of Data Storage Systems using Generative Models

要約

システムの高精度モデリングは、産業データ解析の主要分野のひとつである。システムのモデル(デジタル・ツイン)は、様々な条件下でのシステムの挙動を予測するために使用される。我々は、機械学習ベースの生成モデルを用いて、ストレージシステムのモデルをいくつか開発した。このシステムは、ハードディスク・ドライブ(HDD)とソリッド・ステート・ドライブ(SSD)のストレージ・プールと、異なるRAIDスキームとキャッシュという複数のコンポーネントで構成されている。各ストレージコンポーネントは、その構成と外部データ負荷パラメータに応じて、IOPSとレイテンシの観点からコンポーネント性能の確率分布を記述する確率モデルによって表現される。実験の結果、システムのコンポーネントとモデルによって、IOPS予測で4~10%、レイテンシ予測で3~16%の誤差があることが示された。予測値はリトルの法則と0.99のピアソン相関を示し、モデルの教師なし信頼性チェックに使用できる。さらに、機械学習における回帰アルゴリズム、条件付き生成モデル、不確実性推定手法のベンチマークに使用できる新しいデータセットを提示する。

要約(オリジナル)

High-precision modeling of systems is one of the main areas of industrial data analysis. Models of systems, their digital twins, are used to predict their behavior under various conditions. We have developed several models of a storage system using machine learning-based generative models. The system consists of several components: hard disk drive (HDD) and solid-state drive (SSD) storage pools with different RAID schemes and cache. Each storage component is represented by a probabilistic model that describes the probability distribution of the component performance in terms of IOPS and latency, depending on their configuration and external data load parameters. The results of the experiments demonstrate the errors of 4-10 % for IOPS and 3-16 % for latency predictions depending on the components and models of the system. The predictions show up to 0.99 Pearson correlation with Little’s law, which can be used for unsupervised reliability checks of the models. In addition, we present novel data sets that can be used for benchmarking regression algorithms, conditional generative models, and uncertainty estimation methods in machine learning.

arxiv情報

著者 Abdalaziz Rashid Al-Maeeni,Aziz Temirkhanov,Artem Ryzhikov,Mikhail Hushchyn
発行日 2025-04-04 15:30:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.PF | Performance Modeling of Data Storage Systems using Generative Models はコメントを受け付けていません

MultiMed-ST: Large-scale Many-to-many Multilingual Medical Speech Translation

要約

医療分野における多言語音声翻訳(ST)は、言語の壁を越えた効率的なコミュニケーションを可能にし、専門的な人材不足を緩和し、特にパンデミック時の診断と治療の改善を促進することで、患者ケアを向上させる。本研究では、医療分野の大規模STデータセットであるMultiMed-STを公開することで、医療分野のSTに関する初めての体系的研究を行う:このデータセットは、ベトナム語、英語、ドイツ語、フランス語、繁体字中国語、簡体字中国語の5言語におけるあらゆる翻訳方向にまたがるものであり、モデルも含まれている。29万サンプルを有する本データセットは、医療分野の機械翻訳(MT)データセットとしては最大であり、多言語対多言語のSTデータセットとしては全領域の中で最大である。第二に、経験的ベースライン、日英・多言語比較研究、エンドツーエンド対カスケード比較研究、タスク固有対マルチタスクシーケンス対シーケンス(seq2seq)比較研究、コードスイッチ分析、定量的・定性的エラー分析など、これまでのST研究で最も広範な分析研究を紹介する。すべてのコード、データ、モデルはオンラインで入手可能。https://github.com/leduckhai/MultiMed-ST。

要約(オリジナル)

Multilingual speech translation (ST) in the medical domain enhances patient care by enabling efficient communication across language barriers, alleviating specialized workforce shortages, and facilitating improved diagnosis and treatment, particularly during pandemics. In this work, we present the first systematic study on medical ST, to our best knowledge, by releasing MultiMed-ST, a large-scale ST dataset for the medical domain, spanning all translation directions in five languages: Vietnamese, English, German, French, Traditional Chinese and Simplified Chinese, together with the models. With 290,000 samples, our dataset is the largest medical machine translation (MT) dataset and the largest many-to-many multilingual ST among all domains. Secondly, we present the most extensive analysis study in ST research to date, including: empirical baselines, bilingual-multilingual comparative study, end-to-end vs. cascaded comparative study, task-specific vs. multi-task sequence-to-sequence (seq2seq) comparative study, code-switch analysis, and quantitative-qualitative error analysis. All code, data, and models are available online: https://github.com/leduckhai/MultiMed-ST.

arxiv情報

著者 Khai Le-Duc,Tuyen Tran,Bach Phan Tat,Nguyen Kim Hai Bui,Quan Dang,Hung-Phong Tran,Thanh-Thuy Nguyen,Ly Nguyen,Tuan-Minh Phan,Thi Thu Phuong Tran,Chris Ngo,Nguyen X. Khanh,Thanh Nguyen-Tang
発行日 2025-04-04 15:49:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | MultiMed-ST: Large-scale Many-to-many Multilingual Medical Speech Translation はコメントを受け付けていません

Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols?

要約

AI制御プロトコルとは、AIが意図的に許容できない結果を引き起こさないようにすることを目的とした、AIシステムを有用に展開するための計画である。本論文では、AIシステムがステートレス(コンテキスト間の共有メモリなし)で動作しながら、制御プロトコルを破壊するための独自の戦略を生成し、それに基づいて行動することができるかを調査する。そのためには、AIシステムは、各コンテキストにおいて最適な計画を確実に生成し、十分に較正された確率で行動を取り、他のインスタンスと通信することなく計画を調整する必要がある。我々は、様々なプロトコルと戦略的能力をカバーする8つの環境と、個々の能力を分離するための6つのアフォーダンスから構成されるSubversion Strategy Evalを開発した。この評価をInspect-AIに実装し、オープンソースとして公開する。OpenAI推論モデルと同様に、役に立つだけのバージョンを含むクロード3.5モデルを評価する。どのモデルも、制御プロトコルを無状態で破壊する戦略において、実質的な能力を示していない。しかし、コンテキスト間で計画を共有する能力のような付加的なアフォーダンスをモデルに提供することで、性能を大幅に向上させることができる。我々は、我々の評価が、モデルが制御プロトコルを破壊できるようになる時期の先行指標として機能し、また、AI制御評価における完全な戦略的能力という最悪のケースの仮定を緩和することを期待している。

要約(オリジナル)

An AI control protocol is a plan for usefully deploying AI systems that aims to prevent an AI from intentionally causing some unacceptable outcome. This paper investigates how well AI systems can generate and act on their own strategies for subverting control protocols whilst operating statelessly (without shared memory between contexts). To do this, an AI system may need to reliably generate optimal plans in each context, take actions with well-calibrated probabilities, and coordinate plans with other instances of itself without communicating. We develop Subversion Strategy Eval, a suite of eight environments, covering a range of protocols and strategic capabilities, and six sets of affordances that help isolate individual capabilities. We implement the evaluation in Inspect-AI and release it open-source. We evaluate Claude 3.5 models, including helpful-only versions, as well as OpenAI reasoning models. None of the models demonstrate substantial capability in strategizing to subvert control protocols statelessly. However, providing models with additional affordances, such as the ability to share a plan between contexts, can substantially improve performance. We hope our evaluations can act as a leading indicator for when models are capable of subverting control protocols and also relax the worst-case assumption of perfect strategic ability in AI control evaluations.

arxiv情報

著者 Alex Mallen,Charlie Griffin,Misha Wagner,Alessandro Abate,Buck Shlegeris
発行日 2025-04-04 16:36:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols? はコメントを受け付けていません