PhenoAssistant: A Conversational Multi-Agent AI System for Automated Plant Phenotyping

要約

植物の表現型の展開は、その精度とスケーラビリティを改善するために、(セミ)自動化された画像ベースの分析ワークフローにますます依存しています。
ただし、多くの既存のソリューションは、過度に複雑で、再実装と維持が困難なままであり、実質的な計算の専門知識なしにユーザーに高い障壁をもたらします。
これらの課題に対処するために、フェノアッシスタン派を紹介します。直感的な自然言語の相互作用を介して植物の表現型を合理化する先駆的なAI駆動型システムです。
フェノアシスタントは、自動化された表現型抽出、データ視覚化、自動モデルトレーニングなど、キュレーションされたツールキットサポートタスクを調整するために、大規模な言語モデルを活用します。
いくつかの代表的なケーススタディと一連の評価タスクを通じて、フェノアシスタントを検証します。
技術的なハードルを大幅に下げることにより、フェノアシスタントは、植物生物学におけるAI採用を民主化するためのAI主導の方法論の約束を強調しています。

要約(オリジナル)

Plant phenotyping increasingly relies on (semi-)automated image-based analysis workflows to improve its accuracy and scalability. However, many existing solutions remain overly complex, difficult to reimplement and maintain, and pose high barriers for users without substantial computational expertise. To address these challenges, we introduce PhenoAssistant: a pioneering AI-driven system that streamlines plant phenotyping via intuitive natural language interaction. PhenoAssistant leverages a large language model to orchestrate a curated toolkit supporting tasks including automated phenotype extraction, data visualisation and automated model training. We validate PhenoAssistant through several representative case studies and a set of evaluation tasks. By significantly lowering technical hurdles, PhenoAssistant underscores the promise of AI-driven methodologies to democratising AI adoption in plant biology.

arxiv情報

著者 Feng Chen,Ilias Stogiannidis,Andrew Wood,Danilo Bueno,Dominic Williams,Fraser Macfarlane,Bruce Grieve,Darren Wells,Jonathan A. Atkinson,Malcolm J. Hawkesford,Stephen A. Rolfe,Tracy Lawson,Tony Pridmore,Mario Valerio Giuffrida,Sotirios A. Tsaftaris
発行日 2025-04-28 14:20:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | PhenoAssistant: A Conversational Multi-Agent AI System for Automated Plant Phenotyping はコメントを受け付けていません

Human-Centered AI and Autonomy in Robotics: Insights from a Bibliometric Study

要約

自律的なロボットシステムの開発は、精度と一貫性を備えた複雑なタスクを実行するための重要な可能性を提供します。
人工知能(AI)の最近の進歩により、より複雑な課題に対処するためのより有能なインテリジェントオートメーションシステムが可能になりました。
ただし、この進歩は、そのようなシステムにおける人間の役割に関する疑問を提起します。
人間中心のAI(HCAI)は、人間の制御と自動化のバランスをとることを目的としており、創造性、習熟、責任を維持しながらパフォーマンスの向上を確保します。
実際のアプリケーションの場合、自律的なロボットは、タスクのパフォーマンスと信頼性、安全性、信頼性のバランスをとる必要があります。
HCAIの原則を統合すると、人間のロボットコラボレーションが強化され、責任ある運用が保証されます。
このペーパーでは、Scopusデータベースからのデータを調べるためにScimatとVosviewerを使用して、インテリジェントな自律的ロボットシステムの書誌分析を提示します。
調査結果は、HCAIアーキテクチャに重点を置いて、自己適応的なロボット行動におけるAIの役割を強調しています。
これらの洞察は、IBM Mape-Kアーキテクチャに投影され、これらの研究結果が実際のシナリオの実際のロボット自律システム開発努力にどのようにマッピングされるかを特定することを目標としています。

要約(オリジナル)

The development of autonomous robotic systems offers significant potential for performing complex tasks with precision and consistency. Recent advances in Artificial Intelligence (AI) have enabled more capable intelligent automation systems, addressing increasingly complex challenges. However, this progress raises questions about human roles in such systems. Human-Centered AI (HCAI) aims to balance human control and automation, ensuring performance enhancement while maintaining creativity, mastery, and responsibility. For real-world applications, autonomous robots must balance task performance with reliability, safety, and trustworthiness. Integrating HCAI principles enhances human-robot collaboration and ensures responsible operation. This paper presents a bibliometric analysis of intelligent autonomous robotic systems, utilizing SciMAT and VOSViewer to examine data from the Scopus database. The findings highlight academic trends, emerging topics, and AI’s role in self-adaptive robotic behaviour, with an emphasis on HCAI architecture. These insights are then projected onto the IBM MAPE-K architecture, with the goal of identifying how these research results map into actual robotic autonomous systems development efforts for real-world scenarios.

arxiv情報

著者 Simona Casini,Pietro Ducange,Francesco Marcelloni,Lorenzo Pollini
発行日 2025-04-28 14:45:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Human-Centered AI and Autonomy in Robotics: Insights from a Bibliometric Study はコメントを受け付けていません

TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate

要約

Shannonのソースコーディング理論に根ざした問題であるベクター量子化は、幾何学的構造の歪みを最小限に抑えながら、高次元ユークリッドベクターを量子化することを目的としています。
平均二乗エラー(MSE)と内部製品の歪みの両方に対処するためにターボクロントを提案し、最適な歪み速度を達成できない既存の方法の制限を克服します。
オンラインアプリケーションに適したデータに適したアルゴリズムは、すべてのビット幅と次元にわたって、ほぼ最適な歪みレート(小さな定数因子内)を達成します。
TurboQuantは、ランダムに回転した入力ベクトルをランダムに回転させ、座標に濃縮ベータ分布を誘導し、高次元での異なる座標のほぼ独立特性を活用して、各座標あたり最適なスカラー量子化装置を適用することにより、これを達成します。
MSE-Optimalの量子力が内部製品の推定にバイアスを導入することを認識して、2段階のアプローチを提案します。MSE量子化器を適用し、それに続いて残差に1ビットの量子化JL(QJL)変換を加えて、偏りのない内積量子化器をもたらします。
また、任意のベクター量子数によって最良の達成可能な歪み速度に関する情報理論下の下限の正式な証拠を提供し、ターボクロントがこれらの境界に密接に一致し、小さな定数($ \約2.7 $)係数のみによってのみ異なることを示しています。
実験結果は、理論的な調査結果を検証し、KVキャッシュの量子化では、チャネルあたり3.5ビットで絶対的な品質中立性を達成し、チャネルあたり2.5ビットの限界品質分解を達成することを示しています。
さらに、最も近い隣の検索タスクでは、私たちの方法は、リコールで既存の製品量子化技術を上回り、インデックス時間を実質的にゼロに短縮します。

要約(オリジナル)

Vector quantization, a problem rooted in Shannon’s source coding theory, aims to quantize high-dimensional Euclidean vectors while minimizing distortion in their geometric structure. We propose TurboQuant to address both mean-squared error (MSE) and inner product distortion, overcoming limitations of existing methods that fail to achieve optimal distortion rates. Our data-oblivious algorithms, suitable for online applications, achieve near-optimal distortion rates (within a small constant factor) across all bit-widths and dimensions. TurboQuant achieves this by randomly rotating input vectors, inducing a concentrated Beta distribution on coordinates, and leveraging the near-independence property of distinct coordinates in high dimensions to simply apply optimal scalar quantizers per each coordinate. Recognizing that MSE-optimal quantizers introduce bias in inner product estimation, we propose a two-stage approach: applying an MSE quantizer followed by a 1-bit Quantized JL (QJL) transform on the residual, resulting in an unbiased inner product quantizer. We also provide a formal proof of the information-theoretic lower bounds on best achievable distortion rate by any vector quantizer, demonstrating that TurboQuant closely matches these bounds, differing only by a small constant ($\approx 2.7$) factor. Experimental results validate our theoretical findings, showing that for KV cache quantization, we achieve absolute quality neutrality with 3.5 bits per channel and marginal quality degradation with 2.5 bits per channel. Furthermore, in nearest neighbor search tasks, our method outperforms existing product quantization techniques in recall while reducing indexing time to virtually zero.

arxiv情報

著者 Amir Zandieh,Majid Daliri,Majid Hadian,Vahab Mirrokni
発行日 2025-04-28 15:05:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.DS, cs.LG | TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate はコメントを受け付けていません

Evaluation Framework for AI Systems in ‘the Wild’

要約

生成AI(genai)モデルは業界全体で重要になりましたが、現在の評価方法はそれらの広範な使用に適応していません。
従来の評価は、多くの場合、ベンチマークや固定データセットに依存しており、実際のパフォーマンスを反映していないことが多く、ラボでテストされた結果と実用的なアプリケーションとの間にギャップが生じます。
このホワイトペーパーでは、現実世界のGenaiシステムをどのように評価すべきかについての包括的なフレームワークを提案し、多様で進化する入力と総合的、動的、継続的な評価アプローチを強調しています。
このペーパーでは、リアルタイムの機能を正確に反映する評価方法を設計する方法についての実務家にガイダンスを提供し、固定されたパフォーマンス数やパラメーターサイズではなく、社会的影響に焦点を当てたGenaiポリシーを作成するための推奨事項を政策立案者に提供します。
私たちは、パフォーマンス、公平性、倫理を統合し、人間と自動化の評価を組み合わせた継続的な結果指向の方法の使用を統合しながら、利害関係者間の信頼を促進するために透明性を持つ全体的な枠組みを提唱しています。
これらの戦略を実装することで、Genaiモデルは技術的に熟練しているだけでなく、倫理的に責任があり、影響力があります。

要約(オリジナル)

Generative AI (GenAI) models have become vital across industries, yet current evaluation methods have not adapted to their widespread use. Traditional evaluations often rely on benchmarks and fixed datasets, frequently failing to reflect real-world performance, which creates a gap between lab-tested outcomes and practical applications. This white paper proposes a comprehensive framework for how we should evaluate real-world GenAI systems, emphasizing diverse, evolving inputs and holistic, dynamic, and ongoing assessment approaches. The paper offers guidance for practitioners on how to design evaluation methods that accurately reflect real-time capabilities, and provides policymakers with recommendations for crafting GenAI policies focused on societal impacts, rather than fixed performance numbers or parameter sizes. We advocate for holistic frameworks that integrate performance, fairness, and ethics and the use of continuous, outcome-oriented methods that combine human and automated assessments while also being transparent to foster trust among stakeholders. Implementing these strategies ensures GenAI models are not only technically proficient but also ethically responsible and impactful.

arxiv情報

著者 Sarah Jabbour,Trenton Chang,Anindya Das Antar,Joseph Peper,Insu Jang,Jiachen Liu,Jae-Won Chung,Shiqi He,Michael Wellman,Bryan Goodman,Elizabeth Bondi-Kelly,Kevin Samy,Rada Mihalcea,Mosharaf Chowdhury,David Jurgens,Lu Wang
発行日 2025-04-28 15:12:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | Evaluation Framework for AI Systems in ‘the Wild’ はコメントを受け付けていません

NoisyHate: Mining Online Human-Written Perturbations for Realistic Robustness Benchmarking of Content Moderation Models

要約

有毒なコンテンツを持つオンラインテキストは、特にソーシャルメディアのユーザー、および一般的な社会にとって明らかな脅威です。
多くのプラットフォームは、効果を低下させるためにさまざまな手段(機械学習ベースの憎悪の発言検出システムなど)を採用していますが、有毒なコンテンツライターは、巧妙に修正された有毒な単語、いわゆる人間が執筆したテキスト摂動を使用して、そのような手段を回避しようとしました。
したがって、これらの摂動を認識するための自動検出ツールの構築を支援するために、以前の方法は、多様な敵対的なサンプルを生成するための洗練された技術を開発しました。
ただし、これらの「アルゴリズム」で生成された摂動は、必ずしも「人間」と書かれた摂動のすべての特性をキャプチャしないことに注意してください。
したがって、このホワイトペーパーでは、ループの人間によって書かれ、検証された現実の摂動から作成された、ノイズイと名付けられた人間が作られた摂動の斬新で高品質のデータセットを紹介します。
騒音の摂動は、以前のアルゴリズムで生成された有毒データセットが示すものとは異なる特性を持っているため、特により良い毒性音声検出ソリューションの開発に役立つことがあります。
BertやRobertaなどの最先端の言語モデルと、Perspective APIなどのブラックボックスAPIに対して、摂動の正規化や理解などの2つのタスクで、Noisyhateを徹底的に検証します。

要約(オリジナル)

Online texts with toxic content are a clear threat to the users on social media in particular and society in general. Although many platforms have adopted various measures (e.g., machine learning-based hate-speech detection systems) to diminish their effect, toxic content writers have also attempted to evade such measures by using cleverly modified toxic words, so-called human-written text perturbations. Therefore, to help build automatic detection tools to recognize those perturbations, prior methods have developed sophisticated techniques to generate diverse adversarial samples. However, we note that these “algorithms’-generated perturbations do not necessarily capture all the traits of “human’-written perturbations. Therefore, in this paper, we introduce a novel, high-quality dataset of human-written perturbations, named as NoisyHate, that was created from real-life perturbations that are both written and verified by human-in-the-loop. We show that perturbations in NoisyHate have different characteristics than prior algorithm-generated toxic datasets show, and thus can be in particular useful to help develop better toxic speech detection solutions. We thoroughly validate NoisyHate against state-of-the-art language models, such as BERT and RoBERTa, and black box APIs, such as Perspective API, on two tasks, such as perturbation normalization and understanding.

arxiv情報

著者 Yiran Ye,Thai Le,Dongwon Lee
発行日 2025-04-28 15:25:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG | NoisyHate: Mining Online Human-Written Perturbations for Realistic Robustness Benchmarking of Content Moderation Models はコメントを受け付けていません

CHARMS: A Cognitive Hierarchical Agent for Reasoning and Motion Stylization in Autonomous Driving

要約

自律運転の意思決定におけるインタラクティブ性と行動の多様性が不十分であるという課題に対処するために、このペーパーでは、推論と運動様式化(チャーム)の認知階層エージェントを提案します。
レベルKゲーム理論を活用することにより、チャームは、補強学習前削除と監視された微調整を含む2段階のトレーニングパイプラインを通じて、人間のような推論パターンを捉えています。
これにより、結果のモデルは多様で人間のような行動を示すことができ、複雑な交通環境での意思決定能力と相互作用の忠実度を高めることができます。
この能力に基づいて、ポアソン認知階層理論を利用して、ポアソンと二項サンプリングを通じてさまざまな運転スタイルの車両の分布を制御するシナリオ生成フレームワークをさらに開発します。
実験結果は、チャームがエゴ車両としてインテリジェントな運転の決定を下し、環境車両として多様で現実的な運転シナリオを生成できることを示しています。
Code for Charmsはhttps://github.com/chuduanfeng/charmsでリリースされます。

要約(オリジナル)

To address the challenge of insufficient interactivity and behavioral diversity in autonomous driving decision-making, this paper proposes a Cognitive Hierarchical Agent for Reasoning and Motion Stylization (CHARMS). By leveraging Level-k game theory, CHARMS captures human-like reasoning patterns through a two-stage training pipeline comprising reinforcement learning pretraining and supervised fine-tuning. This enables the resulting models to exhibit diverse and human-like behaviors, enhancing their decision-making capacity and interaction fidelity in complex traffic environments. Building upon this capability, we further develop a scenario generation framework that utilizes the Poisson cognitive hierarchy theory to control the distribution of vehicles with different driving styles through Poisson and binomial sampling. Experimental results demonstrate that CHARMS is capable of both making intelligent driving decisions as an ego vehicle and generating diverse, realistic driving scenarios as environment vehicles. The code for CHARMS is released at https://github.com/chuduanfeng/CHARMS.

arxiv情報

著者 Jingyi Wang,Duanfeng Chu,Zejian Deng,Liping Lu,Jinxiang Wang,Chen Sun
発行日 2025-04-28 15:26:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | CHARMS: A Cognitive Hierarchical Agent for Reasoning and Motion Stylization in Autonomous Driving はコメントを受け付けていません

Attention Mechanism, Max-Affine Partition, and Universal Approximation

要約

最小限の付着構造を備えた単一層、単一頭の自己および横断的メカニズムの普遍的な近似能力を確立します。
私たちの重要な洞察は、一頭の頭の注意を、異なる値をサブリージョンに割り当てる入力ドメインパーティションメカニズムとして解釈することです。
これにより、この割り当てがターゲット関数を模倣するように、注意の重みを設計することができます。
これに基づいて、線形合計変換が先行する単一の自己関節層が、$ l_ \ infty $ -normの下でコンパクトなドメイン上の連続関数を近似できることを証明します。
さらに、この構造を$ 1 \ leq p <\ infty $で$ l_p $ -normの下で、レベセグ統合機能を近似するように拡張します。 最後に、私たちの手法を拡張し、初めて、単一の頭の相互参加が同じユニバーサル近似保証を達成することを示します。

要約(オリジナル)

We establish the universal approximation capability of single-layer, single-head self- and cross-attention mechanisms with minimal attached structures. Our key insight is to interpret single-head attention as an input domain-partition mechanism that assigns distinct values to subregions. This allows us to engineer the attention weights such that this assignment imitates the target function. Building on this, we prove that a single self-attention layer, preceded by sum-of-linear transformations, is capable of approximating any continuous function on a compact domain under the $L_\infty$-norm. Furthermore, we extend this construction to approximate any Lebesgue integrable function under $L_p$-norm for $1\leq p <\infty$. Lastly, we also extend our techniques and show that, for the first time, single-head cross-attention achieves the same universal approximation guarantees.

arxiv情報

著者 Hude Liu,Jerry Yao-Chieh Hu,Zhao Song,Han Liu
発行日 2025-04-28 15:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Attention Mechanism, Max-Affine Partition, and Universal Approximation はコメントを受け付けていません

Can AI Agents Design and Implement Drug Discovery Pipelines?

要約

人工知能の急速な進歩、特に大規模な言語モデル(LLMS)に基づいた自律剤システムは、シリコ内モデリングを改善し、費用のかかる実験試験への依存を減らすことにより、創薬を加速する新しい機会を提供します。
現在のAIエージェントベースのシステムは、プログラミングの課題を解決し、研究を実施する習熟度を示しており、医薬品の設計や創薬などの複雑な問題に対処できるソフトウェアを開発する新たな可能性を示しています。
このペーパーでは、仮想スクリーニングシナリオに似た単一の複雑な問題でAIエージェントの意思決定能力を評価するために設計されたベンチマークであるDo Challengeを紹介します。
ベンチマークは、化学空間をナビゲートし、モデルを選択し、多目的コンテキストで限られたリソースを管理しながら、広範なデータセットから有望な分子構造を識別するための効率的な戦略を独立して開発、実装、および実行するためにシステムに挑戦します。
また、人間の参加者が調査した多様な戦略を紹介する提案されたベンチマークに基づいた競争であるDo Challenge 2025の洞察についても説明します。
さらに、ベンチマークで強力なパフォーマンスを実証し、ほとんどの人間のチームを上回る深い思考マルチエージェントシステムを提示します。
テストされた言語モデルの中で、Claude 3.7 Sonnet、Gemini 2.5 Pro、およびO3がプライマリエージェントの役割で最高のパフォーマンスを発揮し、GPT-4O、Gemini 2.0 Flashは補助的な役割で効果的でした。
有望である一方で、システムのパフォーマンスはまだ専門家が設計したソリューションに及ばず、高い不安定性を示し、薬物発見とより広範な科学研究の変革におけるAI主導の方法論の潜在的および現在の制限の両方を強調しています。

要約(オリジナル)

The rapid advancement of artificial intelligence, particularly autonomous agentic systems based on Large Language Models (LLMs), presents new opportunities to accelerate drug discovery by improving in-silico modeling and reducing dependence on costly experimental trials. Current AI agent-based systems demonstrate proficiency in solving programming challenges and conducting research, indicating an emerging potential to develop software capable of addressing complex problems such as pharmaceutical design and drug discovery. This paper introduces DO Challenge, a benchmark designed to evaluate the decision-making abilities of AI agents in a single, complex problem resembling virtual screening scenarios. The benchmark challenges systems to independently develop, implement, and execute efficient strategies for identifying promising molecular structures from extensive datasets, while navigating chemical space, selecting models, and managing limited resources in a multi-objective context. We also discuss insights from the DO Challenge 2025, a competition based on the proposed benchmark, which showcased diverse strategies explored by human participants. Furthermore, we present the Deep Thought multi-agent system, which demonstrated strong performance on the benchmark, outperforming most human teams. Among the language models tested, Claude 3.7 Sonnet, Gemini 2.5 Pro and o3 performed best in primary agent roles, and GPT-4o, Gemini 2.0 Flash were effective in auxiliary roles. While promising, the system’s performance still fell short of expert-designed solutions and showed high instability, highlighting both the potential and current limitations of AI-driven methodologies in transforming drug discovery and broader scientific research.

arxiv情報

著者 Khachik Smbatyan,Tsolak Ghukasyan,Tigran Aghajanyan,Hovhannes Dabaghyan,Sergey Adamyan,Aram Bughdaryan,Vahagn Altunyan,Gagik Navasardyan,Aram Davtyan,Anush Hakobyan,Aram Gharibyan,Arman Fahradyan,Artur Hakobyan,Hasmik Mnatsakanyan,Narek Ginoyan,Garik Petrosyan
発行日 2025-04-28 15:41:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | Can AI Agents Design and Implement Drug Discovery Pipelines? はコメントを受け付けていません

FedSlate:A Federated Deep Reinforcement Learning Recommender System

要約

強化学習方法は、推奨システムでの長期的なユーザーエンゲージメントを最適化するために使用されています。
ただし、既存の強化学習ベースの推奨システムは、異なるプラットフォームで個々のユーザーの動作の関連性を完全に活用していません。
潜在的な解決策の1つは、集中型の場所にあるさまざまなプラットフォームからデータを集約し、トレーニングに集約されたデータを使用することです。
ただし、このアプローチは、コミュニケーションコストの増加やユーザーのプライバシーに対する潜在的な脅威など、経済的および法的懸念を引き起こします。
これらの課題に対処するために、法的レベルで共有されることを禁止されている情報を効果的に利用するフェデレーション強化学習推奨アルゴリズムである\ textBf {fedSlate}を提案します。
SLATEQアルゴリズムを使用して、ユーザーの長期的な動作を学習し、推奨コンテンツの価値を評価することでFedSlateを支援します。
シングルユーザーのシングルプラットフォームからシングルユーザーマルチプラットフォームに既存のアプリケーション範囲を拡張し、フェデレートラーニングを導入することにより、クロスプラットフォーム学習の課題に対処します。
Recsimを使用して、FedSlateを評価するためのシミュレーション環境を構築し、そのパフォーマンスを最先端のベンチマーク推奨モデルと比較します。
実験結果は、さまざまな環境環境におけるベースラインメソッドに対するFedSlateの優れた効果を示し、FedSlateは、ベースラインメソッドが完全に適用できないシナリオで推奨戦略の学習を促進します。
コードは\ textit {https://github.com/tianyady/fedslate}で入手できます。

要約(オリジナル)

Reinforcement learning methods have been used to optimize long-term user engagement in recommendation systems. However, existing reinforcement learning-based recommendation systems do not fully exploit the relevance of individual user behavior across different platforms. One potential solution is to aggregate data from various platforms in a centralized location and use the aggregated data for training. However, this approach raises economic and legal concerns, including increased communication costs and potential threats to user privacy. To address these challenges, we propose \textbf{FedSlate}, a federated reinforcement learning recommendation algorithm that effectively utilizes information that is prohibited from being shared at a legal level. We employ the SlateQ algorithm to assist FedSlate in learning users’ long-term behavior and evaluating the value of recommended content. We extend the existing application scope of recommendation systems from single-user single-platform to single-user multi-platform and address cross-platform learning challenges by introducing federated learning. We use RecSim to construct a simulation environment for evaluating FedSlate and compare its performance with state-of-the-art benchmark recommendation models. Experimental results demonstrate the superior effects of FedSlate over baseline methods in various environmental settings, and FedSlate facilitates the learning of recommendation strategies in scenarios where baseline methods are completely inapplicable. Code is available at \textit{https://github.com/TianYaDY/FedSlate}.

arxiv情報

著者 Yongxin Deng,Xihe Qiu,Xiaoyu Tan,Yaochu Jin
発行日 2025-04-28 15:43:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | FedSlate:A Federated Deep Reinforcement Learning Recommender System はコメントを受け付けていません

LMV-RPA: Large Model Voting-based Robotic Process Automation

要約

大量の非構造化データ処理を自動化することは、運用効率に不可欠です。
光学文字認識(OCR)は重要ですが、多くの場合、複雑なレイアウトと曖昧なテキストの正確さと効率性に苦労しています。
これらの課題は、速度と精度の両方を必要とする大規模なタスクで特に顕著です。
このペーパーでは、OCRワークフローを強化するための大規模なモデル投票ベースのロボットプロセス自動化システムであるLMV-RPAを紹介します。
LMV-RPAは、Paddle OCR、Tesseract OCR、Easy OCR、Llama 3やGemini-1.5-Proなどの大規模な言語モデル(LLM)を備えたDoctrなどのOCRエンジンからの出力を統合します。
過半数の投票メカニズムを使用して、OCR出力を構造化されたJSON形式に処理し、特に複雑なレイアウトでの精度を向上させます。
多相パイプラインは、LLMSを介してOCRエンジンによって抽出されたテキストをプロセスし、結果を組み合わせて最も正確な出力を確保します。
LMV-RPAはOCRタスクで99%の精度を達成し、94%でベースラインモデルを上回り、処理時間を80%削減します。
ベンチマーク評価は、そのスケーラビリティを確認し、LMV-RPAが大規模なドキュメント処理タスクを自動化するためのより速く、より信頼性が高く、効率的なソリューションを提供することを示しています。

要約(オリジナル)

Automating high-volume unstructured data processing is essential for operational efficiency. Optical Character Recognition (OCR) is critical but often struggles with accuracy and efficiency in complex layouts and ambiguous text. These challenges are especially pronounced in large-scale tasks requiring both speed and precision. This paper introduces LMV-RPA, a Large Model Voting-based Robotic Process Automation system to enhance OCR workflows. LMV-RPA integrates outputs from OCR engines such as Paddle OCR, Tesseract OCR, Easy OCR, and DocTR with Large Language Models (LLMs) like LLaMA 3 and Gemini-1.5-pro. Using a majority voting mechanism, it processes OCR outputs into structured JSON formats, improving accuracy, particularly in complex layouts. The multi-phase pipeline processes text extracted by OCR engines through LLMs, combining results to ensure the most accurate outputs. LMV-RPA achieves 99 percent accuracy in OCR tasks, surpassing baseline models with 94 percent, while reducing processing time by 80 percent. Benchmark evaluations confirm its scalability and demonstrate that LMV-RPA offers a faster, more reliable, and efficient solution for automating large-scale document processing tasks.

arxiv情報

著者 Osama Abdellatif,Ahmed Ayman,Ali Hamdi
発行日 2025-04-28 15:54:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SE | LMV-RPA: Large Model Voting-based Robotic Process Automation はコメントを受け付けていません