AI reconstruction of European weather from the Euro-Atlantic regimes

要約

ユーロ大西洋気象体制(WR)インデックスに基づいて、ヨーロッパの温度と降水量の毎月の平均異常を再構築するように設計された非線形AIモデルを提示します。
WRは、ヨーロッパの天候にかなりの影響を与える大気循環の再発、準定常、および持続的な状態を表しているため、季節ごとの予測に季節ごとの機会を提供します。
多くの研究では、ヨーロッパの気象に対するWRの相関と影響の研究に焦点を当てていますが、ユーロ大西洋WRからの温度や降水量などの地上レベルの気候変数の推定は、ほとんど未開拓のままであり、現在線形方法に限定されています。
提示されたAIモデルは、ヨーロッパにおけるユーロ大西洋大気循環と対応する表面温度と降水異常の状態を記述し、WRインデックス間の関係に複雑な非線形性をキャプチャおよび導入できます。
ヨーロッパの冬と夏の月平均2メートルの平均2メートルの温度と総降水異常の再構築におけるAIモデルのパフォーマンスについても説明します。また、毎月の大気循環を説明するために使用されるWRの数も変化します。
再構築におけるWRインデックスに対するエラーの影響を評価し、80%未満の平均絶対相対誤差により、ECMWF運用季節予測システムであるSEAS5と比較して季節再建が改善されることを示します。
実用的な適用性のデモンストレーションとして、SAIS5によって予測されたWRインデックスを使用してモデルを評価し、Sain5予測自体に比べてわずかに優れたスキルまたは同等のスキルを見つけます。
私たちの調査結果は、AIツールを駆動するWRベースの異常再構成が、季節ごとの予測および季節予測のための有望な経路を提供することを示しています。

要約(オリジナル)

We present a non-linear AI-model designed to reconstruct monthly mean anomalies of the European temperature and precipitation based on the Euro-Atlantic Weather regimes (WR) indices. WR represent recurrent, quasi-stationary, and persistent states of the atmospheric circulation that exert considerable influence over the European weather, therefore offering an opportunity for sub-seasonal to seasonal forecasting. While much research has focused on studying the correlation and impacts of the WR on European weather, the estimation of ground-level climate variables, such as temperature and precipitation, from Euro-Atlantic WR remains largely unexplored and is currently limited to linear methods. The presented AI model can capture and introduce complex non-linearities in the relation between the WR indices, describing the state of the Euro-Atlantic atmospheric circulation and the corresponding surface temperature and precipitation anomalies in Europe. We discuss the AI-model performance in reconstructing the monthly mean two-meter temperature and total precipitation anomalies in the European winter and summer, also varying the number of WR used to describe the monthly atmospheric circulation. We assess the impact of errors on the WR indices in the reconstruction and show that a mean absolute relative error below 80% yields improved seasonal reconstruction compared to the ECMWF operational seasonal forecast system, SEAS5. As a demonstration of practical applicability, we evaluate the model using WR indices predicted by SEAS5, finding slightly better or comparable skill relative to the SEAS5 forecast itself. Our findings demonstrate that WR-based anomaly reconstruction, powered by AI tools, offers a promising pathway for sub-seasonal and seasonal forecasting.

arxiv情報

著者 A. Camilletti,G. Franch,E. Tomasi,M. Cristoforetti
発行日 2025-06-16 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | AI reconstruction of European weather from the Euro-Atlantic regimes はコメントを受け付けていません

Regular-pattern-sensitive CRFs for Distant Label Interactions

要約

LLMはシーケンスラベル付けで一般的に成長しましたが、線形鎖条件付きランダムフィールド(CRF)は、ラベル間の相互作用を直接モデル化する機能を備えた一般的な代替手段であり続けています。
ただし、マルコフの仮定は、隣接するラベル間の相互作用の直接モデリングのみを%に制限します。
対照的に、加重有限状態トランスデューサー(FSTS)は、遠いラベルをモデル化できます – ラベル相互作用は、正確なラベルの推論は一般的には手に負えないものです。
この作業では、ユーザー指定パターンを介して長距離ラベル相互作用を学習する機能を備えた標準の線形鎖CRFを濃縮する方法である、通常のパターン感受性CRF(RPCRF)を提示します。
このアプローチにより、ユーザーは、モデルが考慮すべき相互作用の種類を簡潔に指定し、モデルがこれらのパターンが発生するかどうか、どのようなコンテキストで発生するかをデータから学習できるように、定期的な発現ラベルパターンを簡潔に指定することができます。
結果は、追加の非ローカル電位で増強されたCRFとして、または構造が簡単に解釈できるパターンのセットによって定義される有限状態トランスデューサーとして、代わりに解釈できます。
重大なことに、正確なトレーニングと推論は、多くのパターンセットで扱いやすいです。
RPCRFをユーザー指定パターンのセットから自動的に構築する方法を詳しく説明し、3つの合成シーケンスモデリングデータセットのシーケンスでモデルの有効性を実証します。

要約(オリジナル)

While LLMs have grown popular in sequence labeling, linear-chain conditional random fields (CRFs) remain a popular alternative with the ability to directly model interactions between labels. However, the Markov assumption limits them to % only directly modeling interactions between adjacent labels. Weighted finite-state transducers (FSTs), in contrast, can model distant label–label interactions, but exact label inference is intractable in general. In this work, we present regular-pattern-sensitive CRFs (RPCRFs), a method of enriching standard linear-chain CRFs with the ability to learn long-distance label interactions through user-specified patterns. This approach allows users to write regular-expression label patterns concisely specifying which types of interactions the model should take into account, allowing the model to learn from data whether and in which contexts these patterns occur. The result can be interpreted alternatively as a CRF augmented with additional, non-local potentials, or as a finite-state transducer whose structure is defined by a set of easily-interpretable patterns. Critically, exact training and inference are tractable for many pattern sets. We detail how an RPCRF can be automatically constructed from a set of user-specified patterns, and demonstrate the model’s effectiveness on a sequence of three synthetic sequence modeling datasets.

arxiv情報

著者 Sean Papay,Roman Klinger,Sebastian Pado
発行日 2025-06-16 11:46:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Regular-pattern-sensitive CRFs for Distant Label Interactions はコメントを受け付けていません

Bi-directional Context-Enhanced Speech Large Language Models for Multilingual Conversational ASR

要約

このペーパーでは、言語固有の双方向コンテキストの統合をスピーチ大言語モデル(SLLM)に統合して、多言語の連続会話自動音声認識(ASR)を改善します。
トレーニング中にキャラクターレベルのコンテキストマスキング戦略を提案します。これにより、コンテキストの一部をランダムに削除して、堅牢性を高め、推論中に発生する可能性のある欠陥のある転写をよりよくエミュレートします。
デコードのために、2段階のパイプラインが使用されます。初期の分離セグメントデコードに続いて、隣接する仮説を使用したコンテキスト対応の再廃止が続きます。
11の言語をカバーする1500時間の多言語会話音声および言語モデル(MLC-SLM)コーパスで評価されたこの方法は、MLC-SLM競争の6000時間のデータでトレーニングされたモデルでさえも強力なベースラインと比較して18%の相対的な改善を達成します。
これらの結果は、多言語の連続会話ASRにコンテキスト情報を組み込むことの重要な利点を強調しています。

要約(オリジナル)

This paper introduces the integration of language-specific bi-directional context into a speech large language model (SLLM) to improve multilingual continuous conversational automatic speech recognition (ASR). We propose a character-level contextual masking strategy during training, which randomly removes portions of the context to enhance robustness and better emulate the flawed transcriptions that may occur during inference. For decoding, a two-stage pipeline is utilized: initial isolated segment decoding followed by context-aware re-decoding using neighboring hypotheses. Evaluated on the 1500-hour Multilingual Conversational Speech and Language Model (MLC-SLM) corpus covering eleven languages, our method achieves an 18% relative improvement compared to a strong baseline, outperforming even the model trained on 6000 hours of data for the MLC-SLM competition. These results underscore the significant benefit of incorporating contextual information in multilingual continuous conversational ASR.

arxiv情報

著者 Yizhou Peng,Hexin Liu,Eng Siong Chng
発行日 2025-06-16 12:03:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | Bi-directional Context-Enhanced Speech Large Language Models for Multilingual Conversational ASR はコメントを受け付けていません

RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table Analysis

要約

大規模な言語モデル(LLMS)の急速な進歩により、複雑な表形式データを処理する能力を評価するための挑戦的なベンチマークの必要性が高まっています。
ただし、既存のベンチマークは、時代遅れのデータセットアップに基づいているか、単純でフラットなテーブル構造のみに焦点を当てています。
このホワイトペーパーでは、LATEX、HTML、PNGを含む複雑な表形式データのさまざまな入力形式で、LLMSとマルチモーダルLLMS(MLLMS)の両方のパフォーマンスを評価するために設計された包括的なベンチマークであるRealHitbenchを紹介します。
RealHitbenchには、幅広いタスクタイプにまたがる複雑な構造を持つテーブルの多様なコレクションも含まれています。
25の最先端のLLMを使用した実験結果は、RealHitbenchが実際に挑戦的なベンチマークであることを示しています。
さらに、階層ヘッダーを樹木構造に整理するツリーベースのパイプラインであるTreethinkerも開発し、表階層のLLMSの認識を改善することの重要性を検証します。
私たちの仕事が、表形式のデータ推論とより堅牢なモデルの開発に関するさらなる研究を刺激することを願っています。
コードとデータは、https://github.com/cspzyy/realhitbenchで入手できます。

要約(オリジナル)

With the rapid advancement of Large Language Models (LLMs), there is an increasing need for challenging benchmarks to evaluate their capabilities in handling complex tabular data. However, existing benchmarks are either based on outdated data setups or focus solely on simple, flat table structures. In this paper, we introduce RealHiTBench, a comprehensive benchmark designed to evaluate the performance of both LLMs and Multimodal LLMs (MLLMs) across a variety of input formats for complex tabular data, including LaTeX, HTML, and PNG. RealHiTBench also includes a diverse collection of tables with intricate structures, spanning a wide range of task types. Our experimental results, using 25 state-of-the-art LLMs, demonstrate that RealHiTBench is indeed a challenging benchmark. Moreover, we also develop TreeThinker, a tree-based pipeline that organizes hierarchical headers into a tree structure for enhanced tabular reasoning, validating the importance of improving LLMs’ perception of table hierarchies. We hope that our work will inspire further research on tabular data reasoning and the development of more robust models. The code and data are available at https://github.com/cspzyy/RealHiTBench.

arxiv情報

著者 Pengzuo Wu,Yuhang Yang,Guangcheng Zhu,Chao Ye,Hong Gu,Xu Lu,Ruixuan Xiao,Bowen Bao,Yijing He,Liangyu Zha,Wentao Ye,Junbo Zhao,Haobo Wang
発行日 2025-06-16 12:19:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table Analysis はコメントを受け付けていません

From Euler to AI: Unifying Formulas for Mathematical Constants

要約

一定の$ \ pi $は、何世紀にもわたって学者を魅了しており、無限の合計や継続的な分数など、その評価のために多数の式を刺激しています。
個々の重要性にもかかわらず、式の根本的なつながりの多くは不明のままであり、より深い理解を明らかにする可能性のある統一理論を欠いています。
統一理論の欠如は、数学と科学にわたるより広範な課題を反映しています。知識は通常、孤立した発見を通じて蓄積されますが、より深いつながりはしばしば隠されたままです。
この作業では、数式の統一のための自動化されたフレームワークを提示します。
私たちのシステムは、系統的フォーミュラハーベスティングのための大規模な言語モデル(LLMS)、検証のためのLLMコードフィードバックループ、およびクラスタリングと最終的な統一のための新しいシンボリックアルゴリズムを組み合わせています。
象徴的な統一の理想的なテスト場である$ \ pi $の特徴に関するこの方法を実証します。
このアプローチを455,050 ARXIVペーパーに適用すると、$ \ PI $の407個の異なる式を検証し、そのうち381(94%)間の関係を証明します。
ラマヌジャンマシンによる発見。
私たちの方法は、$ e $、$ \ Zeta(3)$、およびカタロニアの定数を含む他の定数に一般化され、ai支援数学が隠された構造を明らかにし、ドメイン全体の知識を統合する可能性を示しています。

要約(オリジナル)

The constant $\pi$ has fascinated scholars throughout the centuries, inspiring numerous formulas for its evaluation, such as infinite sums and continued fractions. Despite their individual significance, many of the underlying connections among formulas remain unknown, missing unifying theories that could unveil deeper understanding. The absence of a unifying theory reflects a broader challenge across math and science: knowledge is typically accumulated through isolated discoveries, while deeper connections often remain hidden. In this work, we present an automated framework for the unification of mathematical formulas. Our system combines large language models (LLMs) for systematic formula harvesting, an LLM-code feedback loop for validation, and a novel symbolic algorithm for clustering and eventual unification. We demonstrate this methodology on the hallmark case of $\pi$, an ideal testing ground for symbolic unification. Applying this approach to 455,050 arXiv papers, we validate 407 distinct formulas for $\pi$ and prove relations between 381 (94%) of them, of which 188 (46%) can be derived from a single mathematical object$\unicode{x2014}$linking canonical formulas by Euler, Gauss, Brouncker, and newer ones from algorithmic discoveries by the Ramanujan Machine. Our method generalizes to other constants, including $e$, $\zeta(3)$, and Catalan’s constant, demonstrating the potential of AI-assisted mathematics to uncover hidden structures and unify knowledge across domains.

arxiv情報

著者 Tomer Raz,Michael Shalyt,Elyasheev Leibtag,Rotem Kalisch,Shachar Weinbaum,Yaron Hadad,Ido Kaminer
発行日 2025-06-16 13:07:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, math.HO, math.NT | From Euler to AI: Unifying Formulas for Mathematical Constants はコメントを受け付けていません

A Neural Model for Word Repetition

要約

赤ちゃんの発達中の脳が単語を完全にマスターするのに数年かかります。言葉を聞いて声を出して繰り返すタスクです。
新しい言語からの新しい単語を繰り返すことは、大人にとっても挑戦的な作業になる可能性があります。
さらに、脳卒中による脳の損傷は、脳損傷の位置に依存する特定の特性を持つ系統的な音声エラーにつながる可能性があります。
認知科学は、単語の繰り返しに関与するさまざまな処理段階のさまざまなコンポーネントを持つモデルを提案しています。
いくつかの研究は、脳内の対応する領域を局在化し始めていますが、神経メカニズムと脳が単語の繰り返しを正確に実行する方法はほとんど不明のままです。
ディープニューラルネットワークを使用してタスクをモデル化することにより、単語の繰り返しの認知モデルと人間の脳の神経メカニズムの間のギャップを埋めることを提案します。
ニューラルモデルは完全に観察可能であり、さまざまな下部構造の詳細なメカニズムを研究し、人間の行動、そして最終的には脳と比較することができます。
ここでは、次の方向にこの方向に最初のステップを作成します。(1)単語の繰り返しタスクをシミュレートするための大きなモデルのセットをトレーニングします。
(2)一連のテストを作成して、人間の行動研究からの既知の効果のモデルを調査し、(3)モデルからニューロンを体系的に除去し、「患者」モデルの結果として生じる音声エラーを調べるために行動研究を繰り返すアブレーション研究を通じて脳損傷をシミュレートします。
我々の結果は、神経モデルが人間の研究から知られているいくつかの効果を模倣できるが、他の側面では分岐する可能性があることを示しており、人間のような神経モデルの開発を目的とした将来の研究の可能性と課題の両方を強調しています。

要約(オリジナル)

It takes several years for the developing brain of a baby to fully master word repetition-the task of hearing a word and repeating it aloud. Repeating a new word, such as from a new language, can be a challenging task also for adults. Additionally, brain damage, such as from a stroke, may lead to systematic speech errors with specific characteristics dependent on the location of the brain damage. Cognitive sciences suggest a model with various components for the different processing stages involved in word repetition. While some studies have begun to localize the corresponding regions in the brain, the neural mechanisms and how exactly the brain performs word repetition remain largely unknown. We propose to bridge the gap between the cognitive model of word repetition and neural mechanisms in the human brain by modeling the task using deep neural networks. Neural models are fully observable, allowing us to study the detailed mechanisms in their various substructures and make comparisons with human behavior and, ultimately, the brain. Here, we make first steps in this direction by: (1) training a large set of models to simulate the word repetition task; (2) creating a battery of tests to probe the models for known effects from behavioral studies in humans, and (3) simulating brain damage through ablation studies, where we systematically remove neurons from the model, and repeat the behavioral study to examine the resulting speech errors in the ‘patient’ model. Our results show that neural models can mimic several effects known from human research, but might diverge in other aspects, highlighting both the potential and the challenges for future research aimed at developing human-like neural models.

arxiv情報

著者 Daniel Dager,Robin Sobczyk,Emmanuel Chemla,Yair Lakretz
発行日 2025-06-16 13:09:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A Neural Model for Word Repetition はコメントを受け付けていません

Leveraging Vision-Language Pre-training for Human Activity Recognition in Still Images

要約

単一の写真で人間の活動を認識することにより、インデックス、安全性、および支援アプリケーションが可能になりますが、モーションの手がかりがありません。
ウォーキング、ランニング、座って、立っているとラベル付けされた285のMSCOCO画像を使用して、CNNSは41%の精度を獲得しました。
微調整マルチモーダルクリップはこれを76%に引き上げ、対照的なビジョン言語のトレーニングが現実世界の展開におけるまだイメージのアクション認識を決定的に改善することを示しています。

要約(オリジナル)

Recognising human activity in a single photo enables indexing, safety and assistive applications, yet lacks motion cues. Using 285 MSCOCO images labelled as walking, running, sitting, and standing, scratch CNNs scored 41% accuracy. Fine-tuning multimodal CLIP raised this to 76%, demonstrating that contrastive vision-language pre-training decisively improves still-image action recognition in real-world deployments.

arxiv情報

著者 Cristina Mahanta,Gagan Bhatia
発行日 2025-06-16 13:15:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Leveraging Vision-Language Pre-training for Human Activity Recognition in Still Images はコメントを受け付けていません

Unveiling the Learning Mind of Language Models: A Cognitive Framework and Empirical Study

要約

大規模な言語モデル(LLMS)は、数学、コーディング、推論などのタスク全体で印象的な機能を示していますが、動的な環境に適応して新しい知識を獲得するために重要な学習能力は未定です。
この作業では、認知心理学と教育に触発されたフレームワークを導入することにより、このギャップに対処します。
具体的には、一般的な学習能力を3つの異なる補完的な次元に分解します。インストラクター(明示的なガイダンスを介して知識を獲得する)、概念(抽象構造の内在化、新しいコンテキストへの一般化)からの学習、および経験からの学習(蓄積された探索とフィードバックによる適応)。
3つの学習ディメンションにわたって包括的な経験的研究を実施し、(i)相互作用が学習を改善するなど、いくつかの洞察に満ちた調査結果を特定します。
(ii)概念的理解はスケールエルガーであり、より大きなモデルに利益をもたらします。
(iii)LLMSは効果的な少数の学習者ですが、多くのショット学習者ではありません。
私たちのフレームワークと経験的調査結果に基づいて、3つの学習認識の次元にわたってLLMSの一般学習能力の統一された現実的な評価を提供するベンチマークを紹介します。
診断の洞察を可能にし、より適応性のある人間のようなモデルの評価と開発をサポートします。

要約(オリジナル)

Large language models (LLMs) have shown impressive capabilities across tasks such as mathematics, coding, and reasoning, yet their learning ability, which is crucial for adapting to dynamic environments and acquiring new knowledge, remains underexplored. In this work, we address this gap by introducing a framework inspired by cognitive psychology and education. Specifically, we decompose general learning ability into three distinct, complementary dimensions: Learning from Instructor (acquiring knowledge via explicit guidance), Learning from Concept (internalizing abstract structures and generalizing to new contexts), and Learning from Experience (adapting through accumulated exploration and feedback). We conduct a comprehensive empirical study across the three learning dimensions and identify several insightful findings, such as (i) interaction improves learning; (ii) conceptual understanding is scale-emergent and benefits larger models; and (iii) LLMs are effective few-shot learners but not many-shot learners. Based on our framework and empirical findings, we introduce a benchmark that provides a unified and realistic evaluation of LLMs’ general learning abilities across three learning cognition dimensions. It enables diagnostic insights and supports evaluation and development of more adaptive and human-like models.

arxiv情報

著者 Zhengyu Hu,Jianxun Lian,Zheyuan Xiao,Seraphina Zhang,Tianfu Wang,Nicholas Jing Yuan,Xing Xie,Hui Xiong
発行日 2025-06-16 13:24:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Unveiling the Learning Mind of Language Models: A Cognitive Framework and Empirical Study はコメントを受け付けていません

Enhancing Omics Cohort Discovery for Research on Neurodegeneration through Ontology-Augmented Embedding Models

要約

神経変性疾患(NDS)のために生成されたOMICSと臨床データの増加には、キュレーションに新しいアプローチが必要になるため、バイオインフォマティクスですぐに使用できるようになります。
NeuroEmbedは、コホートとサンプルを表すために、意味的に正確な埋め込みスペースのエンジニアリングのアプローチです。
神経膨張法は、4つの段階で構成されています。(1)公開リポジトリからのNDコホートの抽出。
(2)コホートおよびサンプルのメタデータの半自動化された正規化と増強および生物医学的オントロジーを使用し、埋め込み空間でのクラスタリング。
(3)標準化されたメタデータ寸法のランダム化された組み合わせと(4)ドメイン固有のエンバダーの微調整に基づいて、コホートとサンプルの自然言語の質問回答(QA)データセットの自動生成。クエリを最適化する。
GEOリポジトリとPubMedbertが前処理された埋め込みを使用したアプローチを説明します。
NeuroEmbedを適用すると、2,801個のリポジトリと150,924個のサンプルを意味的にインデックスを付けました。
多くの生物学に関連するカテゴリーの中で、GEOから326のユニークなオントロジー並列概念に1,700を超える不均一な組織ラベルを正規化し、新しいオントロジー並列用語で濃縮した注釈を豊​​富にし、2.7から20倍のメタデータ項のサイズが倍に増加しました。
QAトレーニングデータを拡大したメタデータで微調整したPubMedbertの後、モデルは平均検索精度を0.277から0.866に増やし、平均パーセンタイルランクは0.355から0.896に増加しました。
OMICSコホートとサンプルの電子カタログを作成するための神経が膨らんだ方法論は、自動化されたバイオインフォマティックパイプライン構造を促進します。
コホートとサンプルのニューロエンベッドカタログは、https://github.com/joseadrian3/neuroembedで入手できます。

要約(オリジナル)

The growing volume of omics and clinical data generated for neurodegenerative diseases (NDs) requires new approaches for their curation so they can be ready-to-use in bioinformatics. NeuroEmbed is an approach for the engineering of semantically accurate embedding spaces to represent cohorts and samples. The NeuroEmbed method comprises four stages: (1) extraction of ND cohorts from public repositories; (2) semi-automated normalization and augmentation of metadata of cohorts and samples using biomedical ontologies and clustering on the embedding space; (3) automated generation of a natural language question-answering (QA) dataset for cohorts and samples based on randomized combinations of standardized metadata dimensions and (4) fine-tuning of a domain-specific embedder to optimize queries. We illustrate the approach using the GEO repository and the PubMedBERT pretrained embedder. Applying NeuroEmbed, we semantically indexed 2,801 repositories and 150,924 samples. Amongst many biology-relevant categories, we normalized more than 1,700 heterogeneous tissue labels from GEO into 326 unique ontology-aligned concepts and enriched annotations with new ontology-aligned terms, leading to a fold increase in size for the metadata terms between 2.7 and 20 fold. After fine-tuning PubMedBERT with the QA training data augmented with the enlarged metadata, the model increased its mean Retrieval Precision from 0.277 to 0.866 and its mean Percentile Rank from 0.355 to 0.896. The NeuroEmbed methodology for the creation of electronic catalogues of omics cohorts and samples will foster automated bioinformatic pipelines construction. The NeuroEmbed catalogue of cohorts and samples is available at https://github.com/JoseAdrian3/NeuroEmbed.

arxiv情報

著者 José A. Pardo,Alicia Gómez-Pascual,José T. Palma,Juan A. Botía
発行日 2025-06-16 13:27:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Enhancing Omics Cohort Discovery for Research on Neurodegeneration through Ontology-Augmented Embedding Models はコメントを受け付けていません

An Interdisciplinary Approach to Human-Centered Machine Translation

要約

多くの場合、プロの翻訳者が存在しないコンテキストでは、多くの場合、機械翻訳(MT)ツールが広く使用されています。
MTテクノロジーの進歩にもかかわらず、特に翻訳の信頼性を評価するのに苦労する可能性のある非専門家ユーザーにとって、システム開発と現実世界の使用の間にギャップが持続します。
この論文は、MTへの人間中心のアプローチを提唱し、システム設計のさまざまなコミュニケーションの目標と使用のコンテキストとの整合を強調しています。
MTの評価と設計を再文脈化して、MTが今日使用されている多様な現実世界のシナリオに対処するために、翻訳研究と人間コンピューターの相互作用の文献を調査します。

要約(オリジナル)

Machine Translation (MT) tools are widely used today, often in contexts where professional translators are not present. Despite progress in MT technology, a gap persists between system development and real-world usage, particularly for non-expert users who may struggle to assess translation reliability. This paper advocates for a human-centered approach to MT, emphasizing the alignment of system design with diverse communicative goals and contexts of use. We survey the literature in Translation Studies and Human-Computer Interaction to recontextualize MT evaluation and design to address the diverse real-world scenarios in which MT is used today.

arxiv情報

著者 Marine Carpuat,Omri Asscher,Kalika Bali,Luisa Bentivogli,Frédéric Blain,Lynne Bowker,Monojit Choudhury,Hal Daumé III,Kevin Duh,Ge Gao,Alvin Grissom II,Marzena Karpinska,Elaine C. Khoong,William D. Lewis,André F. T. Martins,Mary Nurminen,Douglas W. Oard,Maja Popovic,Michel Simard,François Yvon
発行日 2025-06-16 13:27:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | An Interdisciplinary Approach to Human-Centered Machine Translation はコメントを受け付けていません