Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

要約

GUIタスクの自動化は、テキスト表現への依存、プラットフォーム固有のアクションスペース、および限られた推論能力のために、依然として困難である。我々は、スクリーン画像上で直接動作し、クロスプラットフォームのインタラクションを標準化し、内部モノローグを介して構造化された推論を組み込む、自律GUIエージェントのための統一されたビジョンベースのフレームワークであるAguvisを紹介する。これを可能にするために、マルチモーダルな接地と推論の注釈を持つ大規模なデータセットであるAguvis Data Collectionを構築し、GUI接地と計画と推論を分離する2段階のトレーニングパイプラインを開発する。実験によると、Aguvisはオフラインと実世界のオンラインベンチマークで最先端の性能を達成し、クローズドソースモデルなしで動作する初の完全に自律的なビジョンベースのGUIエージェントとなった。我々は、将来の研究を促進するために、すべてのデータセット、モデル、およびトレーニングレシピをhttps://aguvis-project.github.io。

要約(オリジナル)

Automating GUI tasks remains challenging due to reliance on textual representations, platform-specific action spaces, and limited reasoning capabilities. We introduce Aguvis, a unified vision-based framework for autonomous GUI agents that directly operates on screen images, standardizes cross-platform interactions and incorporates structured reasoning via inner monologue. To enable this, we construct Aguvis Data Collection, a large-scale dataset with multimodal grounding and reasoning annotations, and develop a two-stage training pipeline that separates GUI grounding from planning and reasoning. Experiments show that Aguvis achieves state-of-the-art performance across offline and real-world online benchmarks, marking the first fully autonomous vision-based GUI agent that operates without closed-source models. We open-source all datasets, models, and training recipes at https://aguvis-project.github.io to advance future research.

arxiv情報

著者 Yiheng Xu,Zekun Wang,Junli Wang,Dunjie Lu,Tianbao Xie,Amrita Saha,Doyen Sahoo,Tao Yu,Caiming Xiong
発行日 2025-05-05 16:17:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction はコメントを受け付けていません

ReplaceMe: Network Simplification via Layer Pruning and Linear Transformations

要約

本論文では、低圧縮率でも高い性能を維持しながら、変換ブロックを線形演算で効果的に置き換える、一般化された訓練不要の奥行き刈り込み手法であるReplaceMeを紹介する。追加のトレーニングや微調整を必要とする従来の刈り込みアプローチとは対照的に、我々のアプローチでは、刈り込まれたブロックを近似する線形変換を推定するために使用される小さなキャリブレーションデータセットのみを必要とする。この推定された線形マッピングは残りの変換ブロックとシームレスにマージすることができ、ネットワークパラメータを追加する必要がありません。我々の実験によれば、ReplaceMeは他の学習不要のアプローチを常に凌駕し、大規模な再学習/微調整やアーキテクチャの変更を伴う最先端の刈り込み手法と高い競争力を維持しています。いくつかの大規模言語モデル(LLM)に適用した結果、ReplaceMeはオープンなベンチマークにおいて、元のモデルの約90%の性能を維持したまま、最大25%の刈り込みを達成しました。ReplaceMeを実装したオープンソースのライブラリは、このリポジトリで公開されています。

要約(オリジナル)

We introduce ReplaceMe, a generalized training-free depth pruning method that effectively replaces transformer blocks with a linear operation, while maintaining high performance for low compression ratios. In contrast to conventional pruning approaches that require additional training or fine-tuning, our approach requires only a small calibration dataset that is used to estimate a linear transformation to approximate the pruned blocks. This estimated linear mapping can be seamlessly merged with the remaining transformer blocks, eliminating the need for any additional network parameters. Our experiments show that ReplaceMe consistently outperforms other training-free approaches and remains highly competitive with state-of-the-art pruning methods that involve extensive retraining/fine-tuning and architectural modifications. Applied to several large language models (LLMs), ReplaceMe achieves up to 25% pruning while retaining approximately 90% of the original model’s performance on open benchmarks – without any training or healing steps, resulting in minimal computational overhead (see Fig.1). We provide an open-source library implementing ReplaceMe alongside several state-of-the-art depth pruning techniques, available at this repository.

arxiv情報

著者 Dmitriy Shopkhoev,Ammar Ali,Magauiya Zhussip,Valentin Malykh,Stamatios Lefkimmiatis,Nikos Komodakis,Sergey Zagoruyko
発行日 2025-05-05 17:47:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | ReplaceMe: Network Simplification via Layer Pruning and Linear Transformations はコメントを受け付けていません

FairTranslate: An English-French Dataset for Gender Bias Evaluation in Machine Translation by Overcoming Gender Binarity

要約

大規模言語モデル(LLM)は翻訳タスクにますます活用されるようになってきているが、単数形の「彼ら」代名詞を含むテキストや、公正な言語プロトコルを反映したテキストなど、インクルーシブな言語を翻訳する際には、しばしば不足が生じる。このような課題は計算と社会の両領域にまたがるため、LLMがどの程度包括的な翻訳を扱えるかを、根拠のあるフレームワークで批判的に評価することが不可欠である。 本論文では、英語からフランス語への機械翻訳システムにおける非二元性バイアスを評価するために設計された、完全に人間による注釈付きの新しいデータセットであるFairTranslateを紹介する。FairTranslateは職業に関連する2418の英仏文ペアを含み、職業のステレオタイプ的アライメント、文法的性別指示の曖昧さ、真実の性別ラベル(男性、女性、包括的)などの豊富なメタデータで注釈されている。 我々は4つの主要なLLM(Gemma2-2B、Mistral-7B、Llama3.1-8B、Llama3.3-70B)を、異なるプロンプト手順の下で、このデータセット上で評価した。その結果、LLM間のジェンダー表現に大きな偏りがあることが明らかになり、機械翻訳において公平な結果を達成するための根強い課題が浮き彫りになった。これらの結果は、LLMベースの翻訳システムにおいて、公平で包括的な言語使用を保証することを目的とした、集中的な戦略と介入の必要性を強調している。 私たちはFairTranslateデータセットをHugging Faceで公開し、すべての実験のコードをGitHubで公開しています。

要約(オリジナル)

Large Language Models (LLMs) are increasingly leveraged for translation tasks but often fall short when translating inclusive language — such as texts containing the singular ‘they’ pronoun or otherwise reflecting fair linguistic protocols. Because these challenges span both computational and societal domains, it is imperative to critically evaluate how well LLMs handle inclusive translation with a well-founded framework. This paper presents FairTranslate, a novel, fully human-annotated dataset designed to evaluate non-binary gender biases in machine translation systems from English to French. FairTranslate includes 2418 English-French sentence pairs related to occupations, annotated with rich metadata such as the stereotypical alignment of the occupation, grammatical gender indicator ambiguity, and the ground-truth gender label (male, female, or inclusive). We evaluate four leading LLMs (Gemma2-2B, Mistral-7B, Llama3.1-8B, Llama3.3-70B) on this dataset under different prompting procedures. Our results reveal substantial biases in gender representation across LLMs, highlighting persistent challenges in achieving equitable outcomes in machine translation. These findings underscore the need for focused strategies and interventions aimed at ensuring fair and inclusive language usage in LLM-based translation systems. We make the FairTranslate dataset publicly available on Hugging Face, and disclose the code for all experiments on GitHub.

arxiv情報

著者 Fanny Jourdan,Yannick Chevalier,Cécile Favre
発行日 2025-05-05 12:19:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | FairTranslate: An English-French Dataset for Gender Bias Evaluation in Machine Translation by Overcoming Gender Binarity はコメントを受け付けていません

Study of the influence of a biased database on the prediction of standard algorithms for selecting the best candidate for an interview

要約

人工知能は採用プロセスのさまざまな段階で、ポジションに最適な候補者を自動的に選ぶために使用され、企業は偏りのない採用を保証している。しかし、使用されるアルゴリズムは、人間によって訓練されるか、バイアスのかかった過去の経験からの学習に基づいている。本稿では、外的バイアス(差別)と内的バイアス(自己検閲)を模倣したデータを生成し、5つの古典的なアルゴリズムを訓練し、客観的基準に従って最適な候補者をどの程度見つけられるか、あるいは見つけられないかを研究することを提案する。さらに、ファイルの匿名化が予測の質に与える影響についても研究する。

要約(オリジナル)

Artificial intelligence is used at various stages of the recruitment process to automatically select the best candidate for a position, with companies guaranteeing unbiased recruitment. However, the algorithms used are either trained by humans or are based on learning from past experiences that were biased. In this article, we propose to generate data mimicking external (discrimination) and internal biases (self-censorship) in order to train five classic algorithms and to study the extent to which they do or do not find the best candidates according to objective criteria. In addition, we study the influence of the anonymisation of files on the quality of predictions.

arxiv情報

著者 Shuyu Wang,Angélique Saillet,Philomène Le Gall,Alain Lacroux,Christelle Martin-Lacroux,Vincent Brault
発行日 2025-05-05 12:24:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CY, stat.AP, stat.ME | Study of the influence of a biased database on the prediction of standard algorithms for selecting the best candidate for an interview はコメントを受け付けていません

The Effectiveness of Large Language Models in Transforming Unstructured Text to Standardized Formats

要約

非構造化テキストデータの急激な増加は、現代のデータ管理と情報検索における基本的な課題を提示している。大規模言語モデル(Large Language Models: LLM)は、自然言語処理において顕著な能力を示しているが、非構造化テキストを標準化された構造化フォーマットに変換する潜在能力は、ほとんど未開拓のままである。本研究では、LLMが非構造化レシピテキストを構造化クックランフォーマットに変換する能力を体系的に評価することで、新たな境地を開いた。4つのモデル(GPT-4o、GPT-4o-mini、Llama3.1:70b、Llama3.1:8b)の包括的なテストを通して、伝統的なメトリクス(WER、ROUGE-L、TER)と意味要素識別のための特別なメトリクスを組み合わせた革新的な評価アプローチを紹介します。我々の実験により、GPT-4oと数発のプロンプトが画期的な性能(ROUGE-L: 0.9722、WER: 0.0730)を達成し、LLMが大規模な訓練なしに、ドメイン固有の非構造化テキストを構造化フォーマットに確実に変換できることを初めて実証した。モデルの性能は一般にサイズとともにスケールするが、Llama3.1:8bのような小規模なモデルでは、ターゲットを絞った微調整による最適化が可能であるという驚くべき可能性を発見した。これらの知見は、医療記録から技術文書まで、様々な領域にわたる自動構造化データ生成の新たな可能性を開くものであり、組織が非構造化情報を処理し利用する方法を変革する可能性がある。

要約(オリジナル)

The exponential growth of unstructured text data presents a fundamental challenge in modern data management and information retrieval. While Large Language Models (LLMs) have shown remarkable capabilities in natural language processing, their potential to transform unstructured text into standardized, structured formats remains largely unexplored – a capability that could revolutionize data processing workflows across industries. This study breaks new ground by systematically evaluating LLMs’ ability to convert unstructured recipe text into the structured Cooklang format. Through comprehensive testing of four models (GPT-4o, GPT-4o-mini, Llama3.1:70b, and Llama3.1:8b), an innovative evaluation approach is introduced that combines traditional metrics (WER, ROUGE-L, TER) with specialized metrics for semantic element identification. Our experiments reveal that GPT-4o with few-shot prompting achieves breakthrough performance (ROUGE-L: 0.9722, WER: 0.0730), demonstrating for the first time that LLMs can reliably transform domain-specific unstructured text into structured formats without extensive training. Although model performance generally scales with size, we uncover surprising potential in smaller models like Llama3.1:8b for optimization through targeted fine-tuning. These findings open new possibilities for automated structured data generation across various domains, from medical records to technical documentation, potentially transforming the way organizations process and utilize unstructured information.

arxiv情報

著者 William Brach,Kristián Košťál,Michal Ries
発行日 2025-05-05 12:25:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | The Effectiveness of Large Language Models in Transforming Unstructured Text to Standardized Formats はコメントを受け付けていません

VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning

要約

最近、GPT-o1やDeepSeek-R1のようなゆっくり考えるシステムは、明示的なリフレクションによって困難な問題を解くことに大きな可能性を示している。GPT-o1やDeepSeek-R1は、様々な数学や科学のベンチマークにおいて、GPT-4oのような最良の高速推論モデルを大幅に上回っている。しかし、彼らのマルチモーダル推論能力は、速思考モデルと同等に留まっている。例えば、MathVista、MathVerse、MathVisionのようなベンチマークにおけるGPT-o1の性能は、高速推論モデルと同程度である。本稿では、(蒸留に頼ることなく)強化学習を用いて、視覚言語モデルのゆっくり考える能力を強化し、最先端の技術を進歩させることを目指す。まず、GRPOアルゴリズムに、選択的サンプル再生(Selective Sample Replay: SSR)と呼ばれる新しい手法を適応し、消失する長所問題に対処する。このアプローチは強力な性能をもたらすが、結果として得られるRL学習済みモデルは、限定的な自己反省や自己検証を示す。さらにゆっくり考えることを奨励するために、RLトレーニングのロールアウトの最後に再考トリガートークンを付加する強制再考を導入し、自己反省推論ステップを明示的に強制する。これら2つのテクニックを組み合わせることで、我々のモデルVL-RethinkerはMathVista、MathVerseでそれぞれ80.4%、63.5%という最先端のスコアを達成した。また、VL-Rethinkerは、MathVision、MMMU-Pro、EMMA、MEGA-Benchといった多分野のベンチマークにおいて、オープンソースのSoTAを達成し、OpenAI-o1との差を縮めました。我々の実証結果は、我々のアプローチの有効性を示しています。

要約(オリジナル)

Recently, slow-thinking systems like GPT-o1 and DeepSeek-R1 have demonstrated great potential in solving challenging problems through explicit reflection. They significantly outperform the best fast-thinking models, such as GPT-4o, on various math and science benchmarks. However, their multimodal reasoning capabilities remain on par with fast-thinking models. For instance, GPT-o1’s performance on benchmarks like MathVista, MathVerse, and MathVision is similar to fast-thinking models. In this paper, we aim to enhance the slow-thinking capabilities of vision-language models using reinforcement learning (without relying on distillation) to advance the state of the art. First, we adapt the GRPO algorithm with a novel technique called Selective Sample Replay (SSR) to address the vanishing advantages problem. While this approach yields strong performance, the resulting RL-trained models exhibit limited self-reflection or self-verification. To further encourage slow-thinking, we introduce Forced Rethinking, which appends a rethinking trigger token to the end of rollouts in RL training, explicitly enforcing a self-reflection reasoning step. By combining these two techniques, our model, VL-Rethinker, advances state-of-the-art scores on MathVista, MathVerse to achieve 80.4%, 63.5% respectively. VL-Rethinker also achieves open-source SoTA on multi-disciplinary benchmarks such as MathVision, MMMU-Pro, EMMA, and MEGA-Bench, narrowing the gap with OpenAI-o1. Our empirical results show the effectiveness of our approaches.

arxiv情報

著者 Haozhe Wang,Chao Qu,Zuming Huang,Wei Chu,Fangzhen Lin,Wenhu Chen
発行日 2025-05-05 12:49:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning はコメントを受け付けていません

LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis

要約

リアルタイムでインテリジェントかつ自然な音声対話は、次世代の人間とコンピュータの対話に不可欠な要素です。最近の進歩により、大規模言語モデル(LLM)に基づくインテリジェントな音声チャットボット構築の可能性が示されている。本稿では、0.5Bから14Bのパラメータを持ち、高品質なリアルタイム音声対話を実現できる一連の音声言語モデル(SpeechLM)であるLLaMA-Omni 2を紹介する。LLaMA-Omni 2はQwen2.5シリーズをベースに構築されており、音声エンコーダと自己回帰ストリーミング音声デコーダを統合しています。LLaMA-Omni 2は、わずか20万ターンの音声対話サンプルで学習されたにもかかわらず、いくつかの音声質問応答や音声指示に続くベンチマークにおいて、数百万時間の音声データで学習されたGLM-4-Voiceのような従来の最先端SpeechLMを凌ぐ強力なパフォーマンスを示しています。

要約(オリジナル)

Real-time, intelligent, and natural speech interaction is an essential part of the next-generation human-computer interaction. Recent advancements have showcased the potential of building intelligent spoken chatbots based on large language models (LLMs). In this paper, we introduce LLaMA-Omni 2, a series of speech language models (SpeechLMs) ranging from 0.5B to 14B parameters, capable of achieving high-quality real-time speech interaction. LLaMA-Omni 2 is built upon the Qwen2.5 series models, integrating a speech encoder and an autoregressive streaming speech decoder. Despite being trained on only 200K multi-turn speech dialogue samples, LLaMA-Omni 2 demonstrates strong performance on several spoken question answering and speech instruction following benchmarks, surpassing previous state-of-the-art SpeechLMs like GLM-4-Voice, which was trained on millions of hours of speech data.

arxiv情報

著者 Qingkai Fang,Yan Zhou,Shoutao Guo,Shaolei Zhang,Yang Feng
発行日 2025-05-05 12:53:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis はコメントを受け付けていません

A Theoretical Analysis of Compositional Generalization in Neural Networks: A Necessary and Sufficient Condition

要約

構成的汎化は人工知能において極めて重要な特性であり、モデルが既知の構成要素の新しい組み合わせを扱えるようにする。ほとんどの深層学習モデルにはこの能力が欠けているが、特定のタスクで成功するモデルもあり、支配条件の存在を示唆している。本稿では、ニューラルネットワークにおける構成的汎化の必要十分条件を導出する。概念的には、(i)計算グラフが真の構成構造と一致すること、(ii)構成要素が訓練において十分な情報をエンコードすること、を必要とする。この条件は数学的証明によって裏付けられている。この基準は、アーキテクチャー設計、正則化、訓練データ特性の側面を組み合わせたものである。注意深く設計された最小限の例により、この条件を直感的に理解することができる。また、訓練前の構成的汎化を評価するための条件の可能性についても議論する。本研究は、ニューラルネットワークにおける構成的汎化に関する基礎的な理論研究である。

要約(オリジナル)

Compositional generalization is a crucial property in artificial intelligence, enabling models to handle novel combinations of known components. While most deep learning models lack this capability, certain models succeed in specific tasks, suggesting the existence of governing conditions. This paper derives a necessary and sufficient condition for compositional generalization in neural networks. Conceptually, it requires that (i) the computational graph matches the true compositional structure, and (ii) components encode just enough information in training. The condition is supported by mathematical proofs. This criterion combines aspects of architecture design, regularization, and training data properties. A carefully designed minimal example illustrates an intuitive understanding of the condition. We also discuss the potential of the condition for assessing compositional generalization before training. This work is a fundamental theoretical study of compositional generalization in neural networks.

arxiv情報

著者 Yuanpeng Li
発行日 2025-05-05 13:13:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | A Theoretical Analysis of Compositional Generalization in Neural Networks: A Necessary and Sufficient Condition はコメントを受け付けていません

Large Language Models Understanding: an Inherent Ambiguity Barrier

要約

大規模言語モデル(LLM)の驚異的な出現以来、世界を理解し、LLMが関与する対話の意味を理解する能力に関して、活発な議論が続いている。思考実験、LLMと人間との逸話的会話、統計的言語分析、哲学的考察などに基づく議論や反論が提案されている。この短い論文では、LLMが驚くほど流暢な対話の意味を理解することを妨げる本質的な曖昧性の障壁を導く思考実験と半形式的考察に基づく反論を紹介する。

要約(オリジナル)

A lively ongoing debate is taking place, since the extraordinary emergence of Large Language Models (LLMs) with regards to their capability to understand the world and capture the meaning of the dialogues in which they are involved. Arguments and counter-arguments have been proposed based upon thought experiments, anecdotal conversations between LLMs and humans, statistical linguistic analysis, philosophical considerations, and more. In this brief paper we present a counter-argument based upon a thought experiment and semi-formal considerations leading to an inherent ambiguity barrier which prevents LLMs from having any understanding of what their amazingly fluent dialogues mean.

arxiv情報

著者 Daniel N. Nissani
発行日 2025-05-05 13:14:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Large Language Models Understanding: an Inherent Ambiguity Barrier はコメントを受け付けていません

Enhancing Chemical Reaction and Retrosynthesis Prediction with Large Language Model and Dual-task Learning

要約

化学反応と逆合成の予測は、創薬における基本的なタスクである。近年、大規模言語モデル(LLM)は多くの領域で可能性を示している。しかしながら、これらのタスクにLLMを直接適用することは、2つの大きな課題に直面している。(i)大規模な化学合成関連の命令データセットがないこと、(ii)既存の微調整戦略では反応と逆合成予測の間の密接な相関を無視すること、である。これらの課題を解決するために、我々は正確な化学合成のための新しいLLMフレームワークであるChemDualを提案する。具体的には、反応と逆合成のデータ取得にかかる高いコストを考慮し、ChemDualは分子の反応と逆合成を関連する再結合と断片化のプロセスとみなし、440万命令の大規模データセットを構築する。さらに、ChemDualは、マルチスケールトークナイザーとデュアルタスク学習戦略を備えた強化されたLLaMAを導入し、組み換えと断片化のプロセス、および反応と再合成予測の間のタスクを共同で最適化する。Mol-InstructionとUSPTO-50Kデータセットを用いた広範な実験により、ChemDualは反応と逆合成の両方の予測において最先端の性能を達成し、既存の従来のシングルタスクのアプローチや一般的なオープンソースのLLMを凌駕することが実証された。分子ドッキング解析により、ChemDualは多様で強力なタンパク質結合親和性を持つ化合物を生成し、創薬設計におけるChemDualの強力な可能性をさらに浮き彫りにしている。

要約(オリジナル)

Chemical reaction and retrosynthesis prediction are fundamental tasks in drug discovery. Recently, large language models (LLMs) have shown potential in many domains. However, directly applying LLMs to these tasks faces two major challenges: (i) lacking a large-scale chemical synthesis-related instruction dataset; (ii) ignoring the close correlation between reaction and retrosynthesis prediction for the existing fine-tuning strategies. To address these challenges, we propose ChemDual, a novel LLM framework for accurate chemical synthesis. Specifically, considering the high cost of data acquisition for reaction and retrosynthesis, ChemDual regards the reaction-and-retrosynthesis of molecules as a related recombination-and-fragmentation process and constructs a large-scale of 4.4 million instruction dataset. Furthermore, ChemDual introduces an enhanced LLaMA, equipped with a multi-scale tokenizer and dual-task learning strategy, to jointly optimize the process of recombination and fragmentation as well as the tasks between reaction and retrosynthesis prediction. Extensive experiments on Mol-Instruction and USPTO-50K datasets demonstrate that ChemDual achieves state-of-the-art performance in both predictions of reaction and retrosynthesis, outperforming the existing conventional single-task approaches and the general open-source LLMs. Through molecular docking analysis, ChemDual generates compounds with diverse and strong protein binding affinity, further highlighting its strong potential in drug design.

arxiv情報

著者 Xuan Lin,Qingrui Liu,Hongxin Xiang,Daojian Zeng,Xiangxiang Zeng
発行日 2025-05-05 13:31:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Enhancing Chemical Reaction and Retrosynthesis Prediction with Large Language Model and Dual-task Learning はコメントを受け付けていません