Extracting Explainable Dates From Medical Images By Reverse-Engineering UNIX Timestamps

要約

日付は、多くの場合、非常に影響力のある医学的決定に貢献しますが、このデータを抽出する方法はほとんど明確ではありません。
AIはそのようなドキュメントを転写し始めたばかりで、一般的な方法は、複雑なAIモデルによって生成される出力を信頼するか、正規表現を使用してテキストを解析することです。
最近の研究により、正規表現は説明可能な形式の論理であることが確立されていますが、これらを正確なUNIXタイムスタンプを構築するために必要なコンポーネントパーツに分解することは困難です。
まず、公開されている正規表現をテストしましたが、これらはかなりの数の日付をキャプチャできないことがわかりました。
次に、手動で簡単に縮小できる正規表現を作成しましたが、これらは実際の日付の大部分を検出できることを発見しましたが、日付のように見えるテキストのシーケンスもたくさんあります。
最後に、正規表現合成を使用して、作成したリバースエンジニアリングUNIXタイムスタンプからの正規表現を自動的に識別しました。
正規表現合成によって作成された正規表現は、見逃した日付の数にわずかに増加するために、手動で作成されたものよりも日付のように見えるテキストのシーケンスがはるかに少ないことがわかります。
全体として、我々の結果は、正規表現を正規表現合成によって作成して、テキストの転写の複雑な日付と日付の範囲を識別できることを示しています。
私たちの知る限り、いくつかの多くのマッピングをリバースエンジニアリングし、これらを正規表現シンセサイザーに供給することにより、私たちの提案された学習の決定論的論理は新しいアプローチです。

要約(オリジナル)

Dates often contribute towards highly impactful medical decisions, but it is rarely clear how to extract this data. AI has only just begun to be used transcribe such documents, and common methods are either to trust that the output produced by a complex AI model, or to parse the text using regular expressions. Recent work has established that regular expressions are an explainable form of logic, but it is difficult to decompose these into the component parts that are required to construct precise UNIX timestamps. First, we test publicly-available regular expressions, and we found that these were unable to capture a significant number of our dates. Next, we manually created easily-decomposable regular expressions, and we found that these were able to detect the majority of real dates, but also a lot of sequences of text that look like dates. Finally, we used regular expression synthesis to automatically identify regular expressions from the reverse-engineered UNIX timestamps that we created. We find that regular expressions created by regular expression synthesis detect far fewer sequences of text that look like dates than those that were manually created, at the cost of a slight increase to the number of missed dates. Overall, our results show that regular expressions can be created through regular expression synthesis to identify complex dates and date ranges in text transcriptions. To our knowledge, our proposed way of learning deterministic logic by reverse-engineering several many-one mappings and feeding these into a regular expression synthesiser is a new approach.

arxiv情報

著者 Lee Harris,James Bentham,Philippe De Wilde
発行日 2025-05-16 17:07:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク