TANTE: Time-Adaptive Operator Learning via Neural Taylor Expansion

要約

時間依存の部分微分方程式(PDE)の演算子学習は、近年急速な進歩を遂げており、複雑な時空ダイナミクスの効率的な近似を可能にしています。
ただし、ほとんどの既存の方法は、ロールアウト中に固定時間のステップサイズに依存しているため、さまざまな時間的複雑さに適応する能力が制限され、多くの場合エラーの蓄積につながります。
このギャップに対処するために、適応段階のステップサイズで連続時間予測を生成する新しいオペレーター学習フレームワークであるニューラルテイラー拡張(Tante)を備えた時間適応トランスを提案します。
Tanteは、ニューラルネットワークが高次の時間誘導体と局所収束半径の両方を学習する現在の状態でテイラー拡張を実行することにより、将来の状態を予測します。
これにより、モデルはソリューションの局所的な動作に基づいてロールアウトを動的に調整し、累積エラーを減らし、計算効率を改善できます。
幅広いPDEベンチマークにわたるタンテの有効性を実証し、固定ステップベースラインと比較して優れた精度と適応性を達成し、推論で10〜50%の精度ゲインと30〜80%のスピードアップを実現します。

要約(オリジナル)

Operator learning for time-dependent partial differential equations (PDEs) has seen rapid progress in recent years, enabling efficient approximation of complex spatiotemporal dynamics. However, most existing methods rely on fixed time step sizes during rollout, which limits their ability to adapt to varying temporal complexity and often leads to error accumulation. To address this gap, we propose the Time-Adaptive Transformer with Neural Taylor Expansion (TANTE), a novel operator-learning framework that produces continuous-time predictions with adaptive step sizes. TANTE predicts future states by performing a Taylor expansion at the current state, where neural networks learn both the higher-order temporal derivatives and the local radius of convergence. This allows the model to dynamically adjust its rollout based on the local behavior of the solution, thereby reducing cumulative error and improving computational efficiency. We demonstrate the effectiveness of TANTE across a wide range of PDE benchmarks, achieving superior accuracy and adaptability compared to fixed-step baselines, delivering accuracy gains of 10-50 % and speed-ups of 30-80 % at inference.

arxiv情報

著者 Zhikai Wu,Sifan Wang,Shiyang Zhang,Sizhuang He,Min Zhu,Anran Jiao,Lu Lu,David van Dijk
発行日 2025-05-16 16:27:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | TANTE: Time-Adaptive Operator Learning via Neural Taylor Expansion はコメントを受け付けていません

MID-L: Matrix-Interpolated Dropout Layer with Layer-wise Neuron Selection

要約

最新のニューラルネットワークは、多くの場合、すべての入力に対してすべてのニューロンをアクティブにし、不必要な計算と非効率性につながります。
Matrix Interpolated Dropout Layer(MID-L)を導入します。これは、学習された入力依存性ゲーティングベクターを介して2つの変換パス間を補間することにより、最も有益なニューロンのみを動的に選択およびアクティブにする新​​しいモジュールです。
従来のドロップアウトや静的なスパースの方法とは異なり、MID-Lは微分可能なTOP-Kマスキング戦略を採用しており、入力あたりの適応計算を可能にしながら、エンドツーエンドの分化性を維持します。
Mid-Lはモデルに依存しており、既存のアーキテクチャにシームレスに統合します。
MNIST、CIFAR-10、CIFAR-100、SVHN、UCI成体、IMDBを含む6つのベンチマークでの広範な実験は、MID-Lがアクティブニューロンの平均55%の減少、1.7 $ \ $ $ flopsの節約、およびベースライン精度を維持または超えることを示しています。
さらに、スライスされた相互情報(SMI)を介して学習したニューロンの情報と選択性をさらに検証し、過度に適合してうるさいデータ条件下での堅牢性の改善を観察します。
さらに、MID-Lは好ましい推論潜時とメモリ使用量プロファイルを示しており、それを計算制約システムの研究探査と展開の両方に適しています。
これらの結果は、MID-Lを汎用、プラグアンドプレイの動的計算層として位置付け、ドロップアウトの正規化と効率的な推論とのギャップを埋めます。

要約(オリジナル)

Modern neural networks often activate all neurons for every input, leading to unnecessary computation and inefficiency. We introduce Matrix-Interpolated Dropout Layer (MID-L), a novel module that dynamically selects and activates only the most informative neurons by interpolating between two transformation paths via a learned, input-dependent gating vector. Unlike conventional dropout or static sparsity methods, MID-L employs a differentiable Top-k masking strategy, enabling per-input adaptive computation while maintaining end-to-end differentiability. MID-L is model-agnostic and integrates seamlessly into existing architectures. Extensive experiments on six benchmarks, including MNIST, CIFAR-10, CIFAR-100, SVHN, UCI Adult, and IMDB, show that MID-L achieves up to average 55\% reduction in active neurons, 1.7$\times$ FLOPs savings, and maintains or exceeds baseline accuracy. We further validate the informativeness and selectivity of the learned neurons via Sliced Mutual Information (SMI) and observe improved robustness under overfitting and noisy data conditions. Additionally, MID-L demonstrates favorable inference latency and memory usage profiles, making it suitable for both research exploration and deployment on compute-constrained systems. These results position MID-L as a general-purpose, plug-and-play dynamic computation layer, bridging the gap between dropout regularization and efficient inference.

arxiv情報

著者 Pouya Shaeri,Ariane Middel
発行日 2025-05-16 16:29:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE | MID-L: Matrix-Interpolated Dropout Layer with Layer-wise Neuron Selection はコメントを受け付けていません

EdgeWisePersona: A Dataset for On-Device User Profiling from Natural Language Interactions

要約

このペーパーでは、スマートホーム環境でのマルチセッションの自然言語の相互作用からのユーザープロファイリングに重点を置いて、エッジデバイスに展開可能な小言語モデルを評価および改善するために設計された新しいデータセットと評価ベンチマークを紹介します。
データセットのコアには構造化されたユーザープロファイルがあり、それぞれがルーチンのセットで定義されています – ユーザーがホームシステムとの対話方法を支配するコンテキストトリガーされた再現可能な動作パターン。
これらのプロファイルを入力として使用すると、大規模な言語モデル(LLM)は、ユーザーとそのデバイス間の現実的で多様な、コンテキスト認識の対話をシミュレートする対応するインタラクションセッションを生成します。
このデータセットでサポートされている主なタスクは、プロファイルの再構成です。ユーザールーチンとインタラクション履歴のみからの好みを推測します。
現在のモデルが現実的な条件下でこのタスクをどれだけうまく実行できるかを評価するために、いくつかの最先端のコンパクト言語モデルをベンチマークし、そのパフォーマンスを大規模な基礎モデルと比較しました。
私たちの結果は、小さなモデルがプロファイルの再構築に何らかの能力を示しているが、ユーザーの動作を正確にキャプチャする際に大きなモデルに著しく不足していることを示しています。
このパフォーマンスのギャップは、特にオンデバイス処理がユーザーのプライバシーの維持、レイテンシの最小化、クラウドに依存せずにパーソナライズされたエクスペリエンスを可能にするなど、重要な利点を提供するため、大きな課題をもたらします。
これらの制約の下で行動モデリングを開発および評価するための現実的で構造化されたテストベッドを提供することにより、我々のデータセットは、ユーザー所有のデバイスで直接学習し、適応するインテリジェントでプライバシーを提供するAIシステムを有効にするための重要なステップを表します。

要約(オリジナル)

This paper introduces a novel dataset and evaluation benchmark designed to assess and improve small language models deployable on edge devices, with a focus on user profiling from multi-session natural language interactions in smart home environments. At the core of the dataset are structured user profiles, each defined by a set of routines – context-triggered, repeatable patterns of behavior that govern how users interact with their home systems. Using these profiles as input, a large language model (LLM) generates corresponding interaction sessions that simulate realistic, diverse, and context-aware dialogues between users and their devices. The primary task supported by this dataset is profile reconstruction: inferring user routines and preferences solely from interactions history. To assess how well current models can perform this task under realistic conditions, we benchmarked several state-of-the-art compact language models and compared their performance against large foundation models. Our results show that while small models demonstrate some capability in reconstructing profiles, they still fall significantly short of large models in accurately capturing user behavior. This performance gap poses a major challenge – particularly because on-device processing offers critical advantages, such as preserving user privacy, minimizing latency, and enabling personalized experiences without reliance on the cloud. By providing a realistic, structured testbed for developing and evaluating behavioral modeling under these constraints, our dataset represents a key step toward enabling intelligent, privacy-respecting AI systems that learn and adapt directly on user-owned devices.

arxiv情報

著者 Patryk Bartkowiak,Michal Podstawski
発行日 2025-05-16 16:29:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG | EdgeWisePersona: A Dataset for On-Device User Profiling from Natural Language Interactions はコメントを受け付けていません

Predictive Models for Chronic Heart Failure

要約

慢性心不全(HF)の管理は、現代のヘルスケアに大きな課題を提示し、継続的な監視、悪化の早期検出、および個別化された治療戦略を必要とします。
この論文では、HFリスクの患者を特定するために、機械学習(ML)技術に基づいた予測モデルを提示します。
このモデルは、アンサンブル学習アプローチ、修正されたスタッキング手法であり、臨床的および心エコーの特徴を活用する2つの特殊なモデルを使用し、次にこれら2つのモデルの予測を組み合わせてメタモデルです。
当初、実際のデータセットでモデルを評価し、得られた結果は、HRリスクの患者の層別化においてうまく機能することを示唆しています。
具体的には、高感度(95 \%)を得て、ほぼすべての高リスク患者が特定されるようにしました。
精度については、84 \%を取得しました。これは、一部のMLコンテキストで中程度と見なすことができます。
ただし、HFのリスクにさらされている患者を特定することは、この論文の著者の何人かが機能しているPredihealth Research Projectのテレ監視プログラムに参加するよう求められるため、私たちの優先事項を考えると、それは許容されます。
また、最初の調査結果は、MLベースのリスク層別化モデルが、Predihealthプロジェクトだけでなく、早期介入とパーソナライズされた患者管理を支援する医療専門家にとっても貴重な意思決定サポートツールとして役立つことを示唆しています。
予測モデルの価値と潜在性をよりよく理解するために、3つのベースラインモデルを使用して得られた結果とその結果を対比しました。
予備的な結果は、予測モデルが特徴を完全に考慮したこれらのベースラインを上回ることを示しており、それらを臨床および心エコーの特徴にグループ化しないことを示しています。

要約(オリジナル)

The management of chronic Heart Failure (HF) presents significant challenges in modern healthcare, requiring continuous monitoring, early detection of exacerbations, and personalized treatment strategies. In this paper, we present a predictive model founded on Machine Learning (ML) techniques to identify patients at HF risk. This model is an ensemble learning approach, a modified stacking technique, that uses two specialized models leveraging clinical and echocardiographic features and then a meta-model to combine the predictions of these two models. We initially assess the model on a real dataset and the obtained results suggest that it performs well in the stratification of patients at HR risk. Specifically, we obtained high sensitivity (95\%), ensuring that nearly all high-risk patients are identified. As for accuracy, we obtained 84\%, which can be considered moderate in some ML contexts. However, it is acceptable given our priority of identifying patients at risk of HF because they will be asked to participate in the telemonitoring program of the PrediHealth research project on which some of the authors of this paper are working. The initial findings also suggest that ML-based risk stratification models can serve as valuable decision-support tools not only in the PrediHealth project but also for healthcare professionals, aiding in early intervention and personalized patient management. To have a better understanding of the value and of potentiality of our predictive model, we also contrasted its results with those obtained by using three baseline models. The preliminary results indicate that our predictive model outperforms these baselines that flatly consider features, \ie not grouping them in clinical and echocardiographic features.

arxiv情報

著者 Pietro Cassieri,Aiman Faiz,Anna Maria De Roberto,Claudio Pascarelli,Gianvito Mitrano,Gianluca Fimiani,Marina Garofano,Christiancarmine Esposito,Genoveffa Tortora,Mariangela Lazoi,Claudio Passino,Alessia Bramanti,Giuseppe Scanniello
発行日 2025-05-16 16:36:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, stat.OT | Predictive Models for Chronic Heart Failure はコメントを受け付けていません

Mergenetic: a Simple Evolutionary Model Merging Library

要約

モデルのマージにより、既存のモデルの機能を新しいモデルに組み合わせることができます – 追加のトレーニングなしでポストホックです。
これにより、低コストと消費者GPUの融合をサポートするライブラリの可用性のおかげで、ますます人気が高まっています。
最近の研究では、合併と進化的アルゴリズムがパフォーマンスを高めることができることが示されていますが、現在、言語モデルのそのような戦略での柔軟な実験をサポートしているフレームワークはありません。
進化モデルの合併のためのオープンソースライブラリであるMergeneticを紹介します。
マージーは、軽量のフィットネス推定器を組み込んで評価コストを削減しながら、マージメソッドと進化的アルゴリズムの簡単な構成を可能にします。
その設計について説明し、マージーが控えめなハードウェアを使用してタスクと言語間で競争力のある結果を生成することを実証します。

要約(オリジナル)

Model merging allows combining the capabilities of existing models into a new one – post hoc, without additional training. This has made it increasingly popular thanks to its low cost and the availability of libraries that support merging on consumer GPUs. Recent work shows that pairing merging with evolutionary algorithms can boost performance, but no framework currently supports flexible experimentation with such strategies in language models. We introduce Mergenetic, an open-source library for evolutionary model merging. Mergenetic enables easy composition of merging methods and evolutionary algorithms while incorporating lightweight fitness estimators to reduce evaluation costs. We describe its design and demonstrate that Mergenetic produces competitive results across tasks and languages using modest hardware.

arxiv情報

著者 Adrian Robert Minut,Tommaso Mencattini,Andrea Santilli,Donato Crisostomi,Emanuele Rodolà
発行日 2025-05-16 16:43:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE | Mergenetic: a Simple Evolutionary Model Merging Library はコメントを受け付けていません

GODBench: A Benchmark for Multimodal Large Language Models in Video Comment Art

要約

ビデオコメントアートは、ユーモア、風刺、または感情的な共鳴を伝える創造的なコンテンツを提供することにより、ユーザーのエンゲージメントを強化し、文化的および文脈上の微妙さを微妙かつ包括的に把握する必要があります。
マルチモーダルの大手言語モデル(MLLM)とチェーンオブシュート(COT)は、STEMタスク(数学やコーディングなど)の強力な推論能力を実証していますが、共鳴冗談や洞察力に富んだ風刺などの創造的な表現を生成するのに苦労しています。
さらに、既存のベンチマークは、限られたモダリティと不十分なカテゴリによって制約されており、ビデオベースのコメントアート作成における包括的な創造性の調査を妨げています。
これらの制限に対処するために、ビデオとテキストのモダリティを統合してMLLMSのコメントアートを作成する能力を体系的に評価する新しいベンチマークであるGodbenchを紹介します。
さらに、物理学における波の伝播パターンに触発されて、MLLMの創造性を高めるために設計されたマルチステップ推論フレームワークである思考の波紋(ROT)を提案します。
広範な実験により、既存のMLLMとCOTの方法は、創造的なビデオコメントの理解と生成において依然として大きな課題に直面していることが明らかになりました。
対照的に、ROTは創造的な作曲を改善するための効果的なアプローチを提供し、MLLMベースの創造性の有意義な進歩を促進する可能性を強調しています。
Godbenchはhttps://github.com/stan-lei/godbench-acl2025で公開されています。

要約(オリジナル)

Video Comment Art enhances user engagement by providing creative content that conveys humor, satire, or emotional resonance, requiring a nuanced and comprehensive grasp of cultural and contextual subtleties. Although Multimodal Large Language Models (MLLMs) and Chain-of-Thought (CoT) have demonstrated strong reasoning abilities in STEM tasks (e.g. mathematics and coding), they still struggle to generate creative expressions such as resonant jokes and insightful satire. Moreover, existing benchmarks are constrained by their limited modalities and insufficient categories, hindering the exploration of comprehensive creativity in video-based Comment Art creation. To address these limitations, we introduce GODBench, a novel benchmark that integrates video and text modalities to systematically evaluate MLLMs’ abilities to compose Comment Art. Furthermore, inspired by the propagation patterns of waves in physics, we propose Ripple of Thought (RoT), a multi-step reasoning framework designed to enhance the creativity of MLLMs. Extensive experiments reveal that existing MLLMs and CoT methods still face significant challenges in understanding and generating creative video comments. In contrast, RoT provides an effective approach to improve creative composing, highlighting its potential to drive meaningful advancements in MLLM-based creativity. GODBench is publicly available at https://github.com/stan-lei/GODBench-ACL2025.

arxiv情報

著者 Chenkai Zhang,Yiming Lei,Zeming Liu,Haitao Leng,Shaoguo Liu,Tingting Gao,Qingjie Liu,Yunhong Wang
発行日 2025-05-16 16:56:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | GODBench: A Benchmark for Multimodal Large Language Models in Video Comment Art はコメントを受け付けていません

COBIAS: Assessing the Contextual Reliability of Bias Benchmarks for Language Models

要約

大規模な言語モデル(LLM)は、多くの場合、トレーニングされているWebデータからバイアスを継承します。これには、ステレオタイプと偏見が含まれています。
これらのバイアスを評価および緩和するための現在の方法は、バイアスベンチマークデータセットに依存しています。
これらのベンチマークは、偏ったステートメントでLLMの動作を観察することにより、バイアスを測定します。
ただし、これらの声明には、提示しようとする状況の文脈上の考慮事項がありません。
これに対処するために、コンテキストの信頼性フレームワークを紹介します。このフレームワークは、表示されるさまざまなコンテキストを検討することにより、偏ったステートメントに対するモデルの堅牢性を評価します。
コンテキスト指向のバイアスインジケーターと評価スコア(Cobias)を開発して、異なるコンテキストにわたるモデルの動作の分散に基づいて、バイアスの検出における偏ったステートメントの信頼性を測定します。
メトリックを評価するために、コンテキスト情報を追加することにより、2つの既存のベンチマークデータセットから2,291のステレオタイプのステートメントを強化しました。
コビアスは、偏ったステートメントの文脈的信頼性に関する人間の判断と一致していることを示しています(Spearmanの$ \ rho = 0.65、p = 3.4 * 10^{-60} $)を使用して、バイアス緩和作業を支援する信頼できるベンチマークを作成できます。

要約(オリジナル)

Large Language Models (LLMs) often inherit biases from the web data they are trained on, which contains stereotypes and prejudices. Current methods for evaluating and mitigating these biases rely on bias-benchmark datasets. These benchmarks measure bias by observing an LLM’s behavior on biased statements. However, these statements lack contextual considerations of the situations they try to present. To address this, we introduce a contextual reliability framework, which evaluates model robustness to biased statements by considering the various contexts in which they may appear. We develop the Context-Oriented Bias Indicator and Assessment Score (COBIAS) to measure a biased statement’s reliability in detecting bias, based on the variance in model behavior across different contexts. To evaluate the metric, we augmented 2,291 stereotyped statements from two existing benchmark datasets by adding contextual information. We show that COBIAS aligns with human judgment on the contextual reliability of biased statements (Spearman’s $\rho = 0.65, p = 3.4 * 10^{-60}$) and can be used to create reliable benchmarks, which would assist bias mitigation works.

arxiv情報

著者 Priyanshul Govil,Hemang Jain,Vamshi Krishna Bonagiri,Aman Chadha,Ponnurangam Kumaraguru,Manas Gaur,Sanorita Dey
発行日 2025-05-16 17:00:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | COBIAS: Assessing the Contextual Reliability of Bias Benchmarks for Language Models はコメントを受け付けていません

LLMs unlock new paths to monetizing exploits

要約

私たちは、大規模な言語モデル(LLM)がまもなくサイバー攻撃の経済を変えると主張します。
LLMは、最も一般的に使用されるソフトウェアを攻撃し、被害者の間で最も低い一般的な分母をターゲットにすることでエクスプロイトを収益化する代わりに、敵がユーザーごとにテーラード攻撃を開始できるようにします。
搾取の面では、数百万人のユーザーがいる製品で困難なバグを手動で検索する人間の攻撃者の代わりに、LLMは何千人ものユーザーを持つ製品に数千の識別しやすいバグを見つけることができます。
また、常に同じ攻撃を実行する一般的なランサムウェアの代わりに(すべてのデータを暗号化して支払いを要求するために支払いを要求します)、LLM駆動のランサムウェア攻撃は、それぞれの悪用されたデバイスの特定のコンテンツに基づいて身代金の需要を調整することができます。
これらの2つの攻撃(および他のいくつか)が最先端のLLMを使用して差し迫った実用的であることを示しています。
たとえば、人間の介入がなければ、LLMはEnronの電子メールデータセット(たとえば、他の従業員と関係があるエグゼクティブ)に非常に敏感な個人情報を見つけることを示しています。
私たちの攻撃のいくつかはまだ高すぎて、今日広く拡大するには高すぎますが、これらの攻撃を実装するインセンティブは、LLMが安くなるにつれて増加するだけです。
したがって、LLMSは新しい詳細なアプローチの必要性を生み出すと主張します。

要約(オリジナル)

We argue that Large language models (LLMs) will soon alter the economics of cyberattacks. Instead of attacking the most commonly used software and monetizing exploits by targeting the lowest common denominator among victims, LLMs enable adversaries to launch tailored attacks on a user-by-user basis. On the exploitation front, instead of human attackers manually searching for one difficult-to-identify bug in a product with millions of users, LLMs can find thousands of easy-to-identify bugs in products with thousands of users. And on the monetization front, instead of generic ransomware that always performs the same attack (encrypt all your data and request payment to decrypt), an LLM-driven ransomware attack could tailor the ransom demand based on the particular content of each exploited device. We show that these two attacks (and several others) are imminently practical using state-of-the-art LLMs. For example, we show that without any human intervention, an LLM finds highly sensitive personal information in the Enron email dataset (e.g., an executive having an affair with another employee) that could be used for blackmail. While some of our attacks are still too expensive to scale widely today, the incentives to implement these attacks will only increase as LLMs get cheaper. Thus, we argue that LLMs create a need for new defense-in-depth approaches.

arxiv情報

著者 Nicholas Carlini,Milad Nasr,Edoardo Debenedetti,Barry Wang,Christopher A. Choquette-Choo,Daphne Ippolito,Florian Tramèr,Matthew Jagielski
発行日 2025-05-16 17:05:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | LLMs unlock new paths to monetizing exploits はコメントを受け付けていません

Extracting Explainable Dates From Medical Images By Reverse-Engineering UNIX Timestamps

要約

日付は、多くの場合、非常に影響力のある医学的決定に貢献しますが、このデータを抽出する方法はほとんど明確ではありません。
AIはそのようなドキュメントを転写し始めたばかりで、一般的な方法は、複雑なAIモデルによって生成される出力を信頼するか、正規表現を使用してテキストを解析することです。
最近の研究により、正規表現は説明可能な形式の論理であることが確立されていますが、これらを正確なUNIXタイムスタンプを構築するために必要なコンポーネントパーツに分解することは困難です。
まず、公開されている正規表現をテストしましたが、これらはかなりの数の日付をキャプチャできないことがわかりました。
次に、手動で簡単に縮小できる正規表現を作成しましたが、これらは実際の日付の大部分を検出できることを発見しましたが、日付のように見えるテキストのシーケンスもたくさんあります。
最後に、正規表現合成を使用して、作成したリバースエンジニアリングUNIXタイムスタンプからの正規表現を自動的に識別しました。
正規表現合成によって作成された正規表現は、見逃した日付の数にわずかに増加するために、手動で作成されたものよりも日付のように見えるテキストのシーケンスがはるかに少ないことがわかります。
全体として、我々の結果は、正規表現を正規表現合成によって作成して、テキストの転写の複雑な日付と日付の範囲を識別できることを示しています。
私たちの知る限り、いくつかの多くのマッピングをリバースエンジニアリングし、これらを正規表現シンセサイザーに供給することにより、私たちの提案された学習の決定論的論理は新しいアプローチです。

要約(オリジナル)

Dates often contribute towards highly impactful medical decisions, but it is rarely clear how to extract this data. AI has only just begun to be used transcribe such documents, and common methods are either to trust that the output produced by a complex AI model, or to parse the text using regular expressions. Recent work has established that regular expressions are an explainable form of logic, but it is difficult to decompose these into the component parts that are required to construct precise UNIX timestamps. First, we test publicly-available regular expressions, and we found that these were unable to capture a significant number of our dates. Next, we manually created easily-decomposable regular expressions, and we found that these were able to detect the majority of real dates, but also a lot of sequences of text that look like dates. Finally, we used regular expression synthesis to automatically identify regular expressions from the reverse-engineered UNIX timestamps that we created. We find that regular expressions created by regular expression synthesis detect far fewer sequences of text that look like dates than those that were manually created, at the cost of a slight increase to the number of missed dates. Overall, our results show that regular expressions can be created through regular expression synthesis to identify complex dates and date ranges in text transcriptions. To our knowledge, our proposed way of learning deterministic logic by reverse-engineering several many-one mappings and feeding these into a regular expression synthesiser is a new approach.

arxiv情報

著者 Lee Harris,James Bentham,Philippe De Wilde
発行日 2025-05-16 17:07:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Extracting Explainable Dates From Medical Images By Reverse-Engineering UNIX Timestamps はコメントを受け付けていません

ScholarMate: A Mixed-Initiative Tool for Qualitative Knowledge Work and Information Sensemaking

要約

大規模なドキュメントコレクションからの知識を統合することは、定性的研究と知識の仕事の重要であるがますます複雑な側面です。
AIは自動化の可能性を提供しますが、それを人間中心のセンスメイキングワークフローに効果的に統合することは依然として困難です。
Scholarmateは、人間の監視を統合することにより、定性分析を強化するように設計されたインタラクティブなシステムです。
Scholarmateにより、研究者は非線形キャンバスのテキストスニペットと動的にアレンジして対話し、テーマの提案、マルチレベルの要約、およびエビデンスに基づいたテーマの命名のためにAIを活用しながら、ドキュメントへのトレーサビリティを通じて透明性を確保します。
初期のパイロット研究では、ユーザーがこの混合目立てアプローチを大切にし、AIの提案と直接的な操作のバランスが解釈可能性と信頼を維持するために重要であることを示しています。
さらに、24の論文を分析するケーススタディを通じてシステムの機能を実証します。
自動化と人間のコントロールのバランスをとることにより、Scholarmateは効率を高め、解釈可能性をサポートし、知識作業で一般的なセンスメイキングタスクにおいて、生産的な人間とaiのコラボレーションのための貴重なアプローチを提供します。

要約(オリジナル)

Synthesizing knowledge from large document collections is a critical yet increasingly complex aspect of qualitative research and knowledge work. While AI offers automation potential, effectively integrating it into human-centric sensemaking workflows remains challenging. We present ScholarMate, an interactive system designed to augment qualitative analysis by unifying AI assistance with human oversight. ScholarMate enables researchers to dynamically arrange and interact with text snippets on a non-linear canvas, leveraging AI for theme suggestions, multi-level summarization, and evidence-based theme naming, while ensuring transparency through traceability to source documents. Initial pilot studies indicated that users value this mixed-initiative approach, finding the balance between AI suggestions and direct manipulation crucial for maintaining interpretability and trust. We further demonstrate the system’s capability through a case study analyzing 24 papers. By balancing automation with human control, ScholarMate enhances efficiency and supports interpretability, offering a valuable approach for productive human-AI collaboration in demanding sensemaking tasks common in knowledge work.

arxiv情報

著者 Runlong Ye,Patrick Yung Kang Lee,Matthew Varona,Oliver Huang,Carolina Nobre
発行日 2025-05-16 17:13:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | ScholarMate: A Mixed-Initiative Tool for Qualitative Knowledge Work and Information Sensemaking はコメントを受け付けていません