Augmenting the action space with conventions to improve multi-agent cooperation in Hanabi

要約

カードゲームのハナビは、協力的な性質、隠された情報、限られたコミュニケーション、顕著な複雑さのために、マルチエージェント補強学習(MARL)アルゴリズムのテストと開発の強力な媒体と見なされます。
以前の研究の取り組みは、ハナビ内のMarlアルゴリズムの機能を調査し、主に高度なアーキテクチャの設計とアルゴリズム操作に焦点を当てて、さまざまな数の協同組合の最先端のパフォーマンスを達成しました。
ただし、これは多くの場合、計算コストが高く、大量のトレーニングデータを必要とする複雑なソリューション戦略につながります。
人間がハナビのゲームを効果的に解決するには、慣習の使用が必要です。これは、多くの場合、事前に定義され、相互に合意された「ルール」のセットに基づいてアイデアや知識を暗黙的に伝える手段を可能にします。
特に限られたコミュニケーションが存在する場合、部分的な観測性を含む多象徴的な問題は、暗黙の知識共有の使用から大きな恩恵を受けることができます。
この論文では、複数の時間ステップと複数のエージェントにまたがる特別な協同的行動として機能する慣習を使用して、アクション空間を増強するための新しいアプローチを提案します。
これらの慣習は、既存の人間の慣習に基づいており、ハナビ内のさまざまな数の協同組合にわたる自己プレイとクロスプレイのための既存のテクニックのパフォーマンスを大幅に改善します。

要約(オリジナル)

The card game Hanabi is considered a strong medium for the testing and development of multi-agent reinforcement learning (MARL) algorithms, due to its cooperative nature, hidden information, limited communication and remarkable complexity. Previous research efforts have explored the capabilities of MARL algorithms within Hanabi, focusing largely on advanced architecture design and algorithmic manipulations to achieve state-of-the-art performance for a various number of cooperators. However, this often leads to complex solution strategies with high computational cost and requiring large amounts of training data. For humans to solve the Hanabi game effectively, they require the use of conventions, which often allows for a means to implicitly convey ideas or knowledge based on a predefined, and mutually agreed upon, set of “rules”. Multi-agent problems containing partial observability, especially when limited communication is present, can benefit greatly from the use of implicit knowledge sharing. In this paper, we propose a novel approach to augmenting the action space using conventions, which act as special cooperative actions that span over multiple time steps and multiple agents, requiring agents to actively opt in for it to reach fruition. These conventions are based on existing human conventions, and result in a significant improvement on the performance of existing techniques for self-play and cross-play across a various number of cooperators within Hanabi.

arxiv情報

著者 F. Bredell,H. A. Engelbrecht,J. C. Schoeman
発行日 2025-04-08 16:15:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA | Augmenting the action space with conventions to improve multi-agent cooperation in Hanabi はコメントを受け付けていません

KnowCoder-X: Boosting Multilingual Information Extraction via Code

要約

経験的証拠は、LLMが自発的な横断的整合性​​を示すことを示しています。
ただし、LLMはIEで有望な横断的な整合性を示していますが、言語間での重要な不均衡が続き、根本的な不足を強調しています。
これに対処するために、普遍的な情報抽出のための高度な横断的および多言語機能を備えた強力なコードLLMであるKnowCoder-Xを提案します。
まず、Pythonクラスを使用して多言語スキーマの表現を標準化し、異なる言語で一貫したオントロジーを確保します。
次に、言語間のIEは、統一されたコード生成タスクとして策定されます。
第二に、提案した翻訳されたインスタンス予測タスクでのIE横断的アライメント命令のチューニングを通じて、モデルの横断的移動性を強化します。
この段階では、257kのサンプルを備えた高品質で多様なバイリンガルIEパラレルデータセットを構築します。これは、堅牢な3段階のパイプラインによって合成され、品質を確保するための手動注釈を備えた堅牢な3段階のパイプラインによって合成されます。
29の目に見えない言語でのトレーニングがなければ、KnowCoder-XはChatGPTを30.17 \%$とSOTA $ 20.03 \%$で上回り、それによって優れた横断的IE能力を実証します。
さまざまな設定に基づく64のIEベンチマークに関する包括的な評価は、ConkCoder-XがIEのアライメントを強化することにより、言語間の移転を大幅に強化することを示しています。
コードとデータセットは、https://github.com/ict-goknow/knowcoderで入手できます

要約(オリジナル)

Empirical evidence indicates that LLMs exhibit spontaneous cross-lingual alignment. However, although LLMs show promising cross-lingual alignment in IE, a significant imbalance across languages persists, highlighting an underlying deficiency. To address this, we propose KnowCoder-X, a powerful code LLM with advanced cross-lingual and multilingual capabilities for universal information extraction. Firstly, it standardizes the representation of multilingual schemas using Python classes, ensuring a consistent ontology across different languages. Then, IE across languages is formulated as a unified code generation task. Secondly, we enhance the model’s cross-lingual transferability through IE cross-lingual alignment instruction tuning on a translated instance prediction task we proposed. During this phase, we also construct a high-quality and diverse bilingual IE parallel dataset with 257k samples, called ParallelNER, synthesized by our proposed robust three-stage pipeline, with manual annotation to ensure quality. Although without training in 29 unseen languages, KnowCoder-X surpasses ChatGPT by $30.17\%$ and SoTA by $20.03\%$, thereby demonstrating superior cross-lingual IE capabilities. Comprehensive evaluations on 64 IE benchmarks in Chinese and English under various settings demonstrate that KnowCoder-X significantly enhances cross-lingual IE transfer through boosting the IE alignment. Our code and dataset are available at: https://github.com/ICT-GoKnow/KnowCoder

arxiv情報

著者 Yuxin Zuo,Wenxuan Jiang,Wenxuan Liu,Zixuan Li,Long Bai,Hanbin Wang,Yutao Zeng,Xiaolong Jin,Jiafeng Guo,Xueqi Cheng
発行日 2025-04-08 16:16:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | KnowCoder-X: Boosting Multilingual Information Extraction via Code はコメントを受け付けていません

Multi-Modality Sensing in mmWave Beamforming for Connected Vehicles Using Deep Learning

要約

ビームフォーミング技術は、ミリ波(MMWAVE)通信の深刻なパス損失を補うために不可欠な部分と見なされます。
特に、これらの手法は大きなアンテナアレイを採用し、狭いビームを処方して、満足のいく受信力を得ます。
ただし、従来の標準標準のビーム選択アプローチにより、効率的なリンク構成のために狭いビーム上で正確なビームアライメントを実行します。これは、主にチャネル状態情報に依存し、徹底的な検索を通して掃除するビームに依存し、計算および通信のオーバーヘッドを課します。
そして、そのような結果として生じるオーバーヘッドは、非常に動的なシナリオを含む、車両間(V2I)および車両から車両(V2V)通信での潜在的な使用を制限します。
それに比べて、センサーデバイスから取得したセンシングデータなど、帯域外のコンテキスト情報を使用すると、オーバーヘッドを削減するためのより良い代替手段が提供されます。
このペーパーでは、最適なV2IおよびV2Vラインオブスサイトリンクを積極的に確保できるように、十分なMMWaveを受信した最適なビームを予測するためのマルチモダリティセンシングデータを利用するための深い学習ベースのソリューションを提示します。
提案されたソリューションは、現実世界で測定されたMMWaveセンシングと通信データでテストされており、結果は、トップ13ビームを予測しながら最大98.19%の精度を達成できることを示しています。
それに対応して、既存のスイープアプローチと比較すると、ビームの掃引検索スペースと時間のオーバーヘッドは、それぞれ79.67%と91.89%大幅に短縮され、MMWAVE有効通信でのビームフォーミングの有望なソリューションを確認します。

要約(オリジナル)

Beamforming techniques are considered as essential parts to compensate severe path losses in millimeter-wave (mmWave) communications. In particular, these techniques adopt large antenna arrays and formulate narrow beams to obtain satisfactory received powers. However, performing accurate beam alignment over narrow beams for efficient link configuration by traditional standard defined beam selection approaches, which mainly rely on channel state information and beam sweeping through exhaustive searching, imposes computational and communications overheads. And, such resulting overheads limit their potential use in vehicle-to-infrastructure (V2I) and vehicle-to-vehicle (V2V) communications involving highly dynamic scenarios. In comparison, utilizing out-of-band contextual information, such as sensing data obtained from sensor devices, provides a better alternative to reduce overheads. This paper presents a deep learning-based solution for utilizing the multi-modality sensing data for predicting the optimal beams having sufficient mmWave received powers so that the best V2I and V2V line-of-sight links can be ensured proactively. The proposed solution has been tested on real-world measured mmWave sensing and communication data, and the results show that it can achieve up to 98.19% accuracies while predicting top-13 beams. Correspondingly, when compared to existing been sweeping approach, the beam sweeping searching space and time overheads are greatly shortened roughly by 79.67% and 91.89%, respectively which confirm a promising solution for beamforming in mmWave enabled communications.

arxiv情報

著者 Muhammad Baqer Mollah,Honggang Wang,Mohammad Ataul Karim,Hua Fang
発行日 2025-04-08 16:18:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.LG, cs.NI, eess.SP | Multi-Modality Sensing in mmWave Beamforming for Connected Vehicles Using Deep Learning はコメントを受け付けていません

A Self-Supervised Framework for Space Object Behaviour Characterisation

要約

タスク固有の微調整前の大規模な非標識データセットで事前に訓練されたファンデーションモデルは、ますます特殊なドメインに適用されています。
最近の例には、気候のクライマックスと衛星地球観測の粘土が含まれますが、スペースオブジェクトの行動分析の基礎モデルはまだ開発されていません。
軌道集団が成長するにつれて、空間の安全性を特徴付ける自動化された方法は、空間の安全に重要です。
光曲線(LC)を使用したスペースオブジェクトの行動分析に焦点を当てたスペースの安全性と持続可能性の基礎モデルを提示します。
私たちは、MMT-9天文台からの227,000 LCでの自己監視の再構築とマスクされた再構築で事前に訓練された、知覚者と侵略的自動エンコーダー(VAE)アーキテクチャを実装しました。
VAEは、異常検出、モーション予測、およびLC生成を可能にします。
BoxWing、Sentinel-3、SMOS、およびStarLinkプラットフォームのCADモデルを使用して、2つの独立したLCシミュレータ(それぞれCassandra and Grial)を使用して、異常検出およびモーション予測のモデルを微調整しました。
事前に訓練されたモデルは、0.01%の再構築誤差を達成し、再構成の難易度を通じて潜在的に異常な光曲線を特定しました。
微調整後、モデルは88%と82%の精度を獲得し、異常検出とモーションモード予測(日差し、スピンなど)の両方でそれぞれ0.90および0.95のROC AUCスコアを獲得しました。
実際のデータでの自信の高い異常予測の分析により、特徴的なオブジェクトプロファイルや衛星輝きなどの明確なパターンが明らかになりました。
ここでは、自己監視学習が、事前トレーニングで学んだ豊富な表現から異常検出、モーション予測、および合成データ生成を同時に有効にすることができる方法を示します。
したがって、私たちの仕事は、自動監視とシミュレーション機能を通じて、空間の安全性と持続可能性をサポートしています。

要約(オリジナル)

Foundation Models, pre-trained on large unlabelled datasets before task-specific fine-tuning, are increasingly being applied to specialised domains. Recent examples include ClimaX for climate and Clay for satellite Earth observation, but a Foundation Model for Space Object Behavioural Analysis has not yet been developed. As orbital populations grow, automated methods for characterising space object behaviour are crucial for space safety. We present a Space Safety and Sustainability Foundation Model focusing on space object behavioural analysis using light curves (LCs). We implemented a Perceiver-Variational Autoencoder (VAE) architecture, pre-trained with self-supervised reconstruction and masked reconstruction on 227,000 LCs from the MMT-9 observatory. The VAE enables anomaly detection, motion prediction, and LC generation. We fine-tuned the model for anomaly detection & motion prediction using two independent LC simulators (CASSANDRA and GRIAL respectively), using CAD models of boxwing, Sentinel-3, SMOS, and Starlink platforms. Our pre-trained model achieved a reconstruction error of 0.01%, identifying potentially anomalous light curves through reconstruction difficulty. After fine-tuning, the model scored 88% and 82% accuracy, with 0.90 and 0.95 ROC AUC scores respectively in both anomaly detection and motion mode prediction (sun-pointing, spin, etc.). Analysis of high-confidence anomaly predictions on real data revealed distinct patterns including characteristic object profiles and satellite glinting. Here, we demonstrate how self-supervised learning can simultaneously enable anomaly detection, motion prediction, and synthetic data generation from rich representations learned in pre-training. Our work therefore supports space safety and sustainability through automated monitoring and simulation capabilities.

arxiv情報

著者 Ian Groves,Andrew Campbell,James Fernandes,Diego Rodriguez,Paul Murray,Massimiliano Vasile,Victoria Nockles
発行日 2025-04-08 16:19:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.space-ph | A Self-Supervised Framework for Space Object Behaviour Characterisation はコメントを受け付けていません

GRAPPA: Generalizing and Adapting Robot Policies via Online Agentic Guidance

要約

行動のクローン化や強化学習などのロボット学習アプローチは、特定の環境での人間のデモンストレーションからロボットスキルを合成することに大きな期待を示しています。
ただし、これらのアプローチでは、タスク固有のデモンストレーションまたは複雑なシミュレーション環境の設計が必要であることが多く、目に見えない実際の設定の一般化可能で堅牢なポリシーの開発が制限されます。
ロボット工学(LLM、VLMなど)の基礎モデルの使用における最近の進歩は、システムが大規模なインターネットデータから世界のセマンティクスを理解できるようにすることで大きな可能性を示しています。
ただし、この知識を使用して、ロボットシステムが世界の根底にあるダイナミクスを理解し、さまざまなタスクにわたってポリシーを一般化し、新しい環境にポリシーを適合させることができるというオープンな課題のままです。
これらの制限を緩和するために、ロボットの自己誘導と自己改善のためのエージェントフレームワークを提案します。これは、高レベルのアドバイザー、接地エージェント、監視エージェント、ロボットエージェントなどの一連の役割専門的な会話エージェントで構成されています。
当社のフレームワークは、環境内の関連するオブジェクトに基本ロボットポリシーを繰り返し根拠にし、視覚運動の手がかりを使用して、特定のロボットハードウェアプラットフォームの主観的な構成に不可知論のままでありながら、より望ましい状態にポリシーのアクション分布をオンラインにシフトします。
私たちのアプローチは、シミュレーションと現実世界の実験の両方で、追加の人間のデモや広範な探求を必要とせずに、操作ポリシーを効果的に導くことができることを実証して、シミュレーションと現実世界の実験の両方で達成できることを実証します。
https://agenticrobots.github.ioで入手可能なコードとビデオ

要約(オリジナル)

Robot learning approaches such as behavior cloning and reinforcement learning have shown great promise in synthesizing robot skills from human demonstrations in specific environments. However, these approaches often require task-specific demonstrations or designing complex simulation environments, which limits the development of generalizable and robust policies for unseen real-world settings. Recent advances in the use of foundation models for robotics (e.g., LLMs, VLMs) have shown great potential in enabling systems to understand the semantics in the world from large-scale internet data. However, it remains an open challenge to use this knowledge to enable robotic systems to understand the underlying dynamics of the world, to generalize policies across different tasks, and to adapt policies to new environments. To alleviate these limitations, we propose an agentic framework for robot self-guidance and self-improvement, which consists of a set of role-specialized conversational agents, such as a high-level advisor, a grounding agent, a monitoring agent, and a robotic agent. Our framework iteratively grounds a base robot policy to relevant objects in the environment and uses visuomotor cues to shift the action distribution of the policy to more desirable states, online, while remaining agnostic to the subjective configuration of a given robot hardware platform. We demonstrate that our approach can effectively guide manipulation policies to achieve significantly higher success rates, both in simulation and in real-world experiments, without the need for additional human demonstrations or extensive exploration. Code and videos available at: https://agenticrobots.github.io

arxiv情報

著者 Arthur Bucker,Pablo Ortega-Kral,Jonathan Francis,Jean Oh
発行日 2025-04-08 16:32:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | GRAPPA: Generalizing and Adapting Robot Policies via Online Agentic Guidance はコメントを受け付けていません

SkillFlow: Efficient Skill and Code Transfer Through Communication in Adapting AI Agents

要約

AIエージェントは、事前定義されたプログラミングに基づいて特定のタスクを実行できる自律システムです。
ここでは、エージェントが環境や他のエージェントから新しいスキルを獲得することにより、エージェントがアドホックなファッションで機能を拡大できるようにするモジュール式のテクノロジーに依存しないフレームワークであるSkillFlowを提示します。
このフレームワークがどの条件で有益であるかを調べる理論モデルを提示し、タスクの完了を加速し、実際のアプリケーションの累積コスト、つまりカレンダーイベントのスケジューリングエージェントの累積コストを削減するスキルフローの能力を調査します。
数回の反復で、スキルフローはかなりの(24.8%、p値= $ 6.4 \ times10^{-3} $)時間とコストの増加につながることを実証します。特に通信コストが高い場合。
最後に、よく研究された生物学的システムから類似性を描き、このフレームワークを横方向の遺伝子転移のフレームワークと比較します。これは、新しい環境における適応と進化の重要なプロセスです。

要約(オリジナル)

AI agents are autonomous systems that can execute specific tasks based on predefined programming. Here, we present SkillFlow, a modular, technology-agnostic framework that allows agents to expand their functionality in an ad-hoc fashion by acquiring new skills from their environment or other agents. We present a theoretical model that examines under which conditions this framework would be beneficial, and we then explore SkillFlow’s ability to accelerate task completion and lead to lower cumulative costs in a real-world application, namely scheduling agents for calendar events. We demonstrate that within a few iterations, SkillFlow leads to considerable (24.8%, p-value = $6.4\times10^{-3}$) gains in time and cost, especially when the communication cost is high. Finally, we draw analogies from well-studied biological systems and compare this framework to that of lateral gene transfer, a significant process of adaptation and evolution in novel environments.

arxiv情報

著者 Pagkratios Tagkopoulos,Fangzhou Li,Ilias Tagkopoulos
発行日 2025-04-08 16:33:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA | SkillFlow: Efficient Skill and Code Transfer Through Communication in Adapting AI Agents はコメントを受け付けていません

Heuristic Methods are Good Teachers to Distill MLPs for Graph Link Prediction

要約

リンク予測は、引用の予測や製品の推奨を含むアプリケーションを備えた重要なグラフ学習タスクです。
グラフの蒸留ニューラルネットワーク(GNNS)教師は、マルチレイヤーパーセプロン(MLPS)の学生に、グラフ依存性を削除することにより、強力なパフォーマンスを達成し、計算コストを削減するための効果的なアプローチとして浮上しています。
ただし、既存の蒸留方法は標準のGNNのみを使用し、リンク予測用の専門モデル(GNN4LP)やヒューリスティックな方法(一般的な隣接)などの代替教師を見落としています。
この論文では、最初にGNNからMLPへの蒸留におけるさまざまな教師の影響を探ります。
驚くべきことに、より強力な教師は常により強力な学生を生成するとは限らないことがわかります。GNN4LPから蒸留されたMLPは、より単純なGNNから蒸留された人々をパフォーマーに導くことができますが、より弱いヒューリスティックな方法は、トレーニングコストを大幅に削減するためにMLPを指導することができます。
これらの洞察に基づいて、ゲーティングメカニズムを介して補完的な信号を効果的に統合しながらグラフ依存性を排除するアンサンブルヒューリスティックディスチルMLP(EHDM)を提案します。
10個のデータセットでの実験では、トレーニング時間が1.95〜3.32倍短い以前のGNNからMLPへのアプローチで平均7.93%の改善が示されており、EHDMは効率的で効果的なリンク予測方法であることを示しています。

要約(オリジナル)

Link prediction is a crucial graph-learning task with applications including citation prediction and product recommendation. Distilling Graph Neural Networks (GNNs) teachers into Multi-Layer Perceptrons (MLPs) students has emerged as an effective approach to achieve strong performance and reducing computational cost by removing graph dependency. However, existing distillation methods only use standard GNNs and overlook alternative teachers such as specialized model for link prediction (GNN4LP) and heuristic methods (e.g., common neighbors). This paper first explores the impact of different teachers in GNN-to-MLP distillation. Surprisingly, we find that stronger teachers do not always produce stronger students: MLPs distilled from GNN4LP can underperform those distilled from simpler GNNs, while weaker heuristic methods can teach MLPs to near-GNN performance with drastically reduced training costs. Building on these insights, we propose Ensemble Heuristic-Distilled MLPs (EHDM), which eliminates graph dependencies while effectively integrating complementary signals via a gating mechanism. Experiments on ten datasets show an average 7.93% improvement over previous GNN-to-MLP approaches with 1.95-3.32 times less training time, indicating EHDM is an efficient and effective link prediction method.

arxiv情報

著者 Zongyue Qin,Shichang Zhang,Mingxuan Ju,Tong Zhao,Neil Shah,Yizhou Sun
発行日 2025-04-08 16:35:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Heuristic Methods are Good Teachers to Distill MLPs for Graph Link Prediction はコメントを受け付けていません

TxGemma: Efficient and Agentic LLMs for Therapeutics

要約

治療的発達は、高度な失敗率にしばしば悩まされるコストと高リスクの努力です。
これに対処するために、治療的特性の予測とインタラクティブな推論と説明可能性が可能な効率的でジェネラリストの大手言語モデル(LLM)のスイートであるTXGEMMAを紹介します。
タスク固有のモデルとは異なり、TXGEMMAは多様なソースからの情報を統合し、治療開発パイプライン全体で幅広いアプリケーションを可能にします。
スイートには、小分子、タンパク質、核酸、病気、細胞株の包括的なデータセットでGemma-2から微調整された2b、9b、および27bパラメーターモデルが含まれます。
66の治療開発タスクにわたって、TXGEMMAは、64(45の上位)の最先端のジェネラリストモデルと50の最先端の専門モデル(26の上位)に対して優れたまたは同等のパフォーマンスを達成しました。
臨床試験の有害事象予測などの治療的下流タスクに関する微調整TXGEMMAモデルには、微調整ベースLLMよりも少ないトレーニングデータが必要であり、TXGEMMAがデータ制限アプリケーションに適しています。
これらの予測機能を超えて、TXGEMMAは、一般的なLLMSと特殊なプロパティ予測因子の間のギャップを埋める会話モデルを特徴としています。
これらにより、科学者は自然言語で相互作用し、分子構造に基づいた予測の機械的推論を提供し、科学的議論に従事することができます。
これに基づいて、Gemini 2.5を搭載したGeneralist Therapeutic Agent SystemであるAgent-TXをさらに紹介します。
エージェントTXは、人類の最後の試験ベンチマーク(化学と生物学)の先行モデルを上回り、GPQA(化学)のO3-MINI(高)で52.3%の相対改善、26.7%がO3-MINI(高)よりも26.7%を上回り、6.3%(ChemBench-Preference)および2.4%(Chem-Bench-Preference)の改善で優れています(高)。

要約(オリジナル)

Therapeutic development is a costly and high-risk endeavor that is often plagued by high failure rates. To address this, we introduce TxGemma, a suite of efficient, generalist large language models (LLMs) capable of therapeutic property prediction as well as interactive reasoning and explainability. Unlike task-specific models, TxGemma synthesizes information from diverse sources, enabling broad application across the therapeutic development pipeline. The suite includes 2B, 9B, and 27B parameter models, fine-tuned from Gemma-2 on a comprehensive dataset of small molecules, proteins, nucleic acids, diseases, and cell lines. Across 66 therapeutic development tasks, TxGemma achieved superior or comparable performance to the state-of-the-art generalist model on 64 (superior on 45), and against state-of-the-art specialist models on 50 (superior on 26). Fine-tuning TxGemma models on therapeutic downstream tasks, such as clinical trial adverse event prediction, requires less training data than fine-tuning base LLMs, making TxGemma suitable for data-limited applications. Beyond these predictive capabilities, TxGemma features conversational models that bridge the gap between general LLMs and specialized property predictors. These allow scientists to interact in natural language, provide mechanistic reasoning for predictions based on molecular structure, and engage in scientific discussions. Building on this, we further introduce Agentic-Tx, a generalist therapeutic agentic system powered by Gemini 2.5 that reasons, acts, manages diverse workflows, and acquires external domain knowledge. Agentic-Tx surpasses prior leading models on the Humanity’s Last Exam benchmark (Chemistry & Biology) with 52.3% relative improvement over o3-mini (high) and 26.7% over o3-mini (high) on GPQA (Chemistry) and excels with improvements of 6.3% (ChemBench-Preference) and 2.4% (ChemBench-Mini) over o3-mini (high).

arxiv情報

著者 Eric Wang,Samuel Schmidgall,Paul F. Jaeger,Fan Zhang,Rory Pilgrim,Yossi Matias,Joelle Barral,David Fleet,Shekoofeh Azizi
発行日 2025-04-08 16:39:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | TxGemma: Efficient and Agentic LLMs for Therapeutics はコメントを受け付けていません

Characteristics of Political Misinformation Over the Past Decade

要約

誤った情報はオンラインで広がる傾向がありますが、現実世界の深刻な結果をもたらす可能性があります。
誤った情報の影響を検出および緩和するための自動化されたツールを開発するには、研究者はモダリティ(テキスト、画像、ビデオ)、ソース、および誤った情報の内容に適応できるアルゴリズムを活用する必要があります。
ただし、これらの特性は時間をかけて動的に変化する傾向があるため、誤った情報の広がりと戦うために堅牢なアルゴリズムを開発することは困難です。
したがって、このペーパーでは、自然言語処理を使用して、12年間にわたって政治的誤った情報の一般的な特性を見つけます。
結果は、誤った情報が近年劇的に増加し、テキストと画像の主要な情報モダリティ(FacebookやInstagramなど)のソースからますます共有され始めていることを示していますが、誤った情報を含むビデオ共有ソースは増加し始めています(ティクトクなど)。
さらに、誤った情報を表す声明には、正確な情報よりも多くの否定的な感情が含まれていることが発見されました。
ただし、正確な情報と不正確な情報の両方に関連する感情は下方に向かっており、時間をかけて政治的声明の一般的に否定的な口調を示しています。
最後に、数年間にわたって発生する誤った情報のカテゴリが発見されました。これは、人々が恐れているか理解していない情報(科学と医学、犯罪、宗教)に関する不正確な声明を共有する傾向があり、日常生活に顕著な公的人物に直接影響を与えることを意味します。
一緒に、これらの洞察が、時間をかけで誤った情報を検出し、軽減できるアルゴリズムの開発を研究者を支援することが期待されています。

要約(オリジナル)

Although misinformation tends to spread online, it can have serious real-world consequences. In order to develop automated tools to detect and mitigate the impact of misinformation, researchers must leverage algorithms that can adapt to the modality (text, images and video), the source, and the content of the false information. However, these characteristics tend to change dynamically across time, making it challenging to develop robust algorithms to fight misinformation spread. Therefore, this paper uses natural language processing to find common characteristics of political misinformation over a twelve year period. The results show that misinformation has increased dramatically in recent years and that it has increasingly started to be shared from sources with primary information modalities of text and images (e.g., Facebook and Instagram), although video sharing sources containing misinformation are starting to increase (e.g., TikTok). Moreover, it was discovered that statements expressing misinformation contain more negative sentiment than accurate information. However, the sentiment associated with both accurate and inaccurate information has trended downward, indicating a generally more negative tone in political statements across time. Finally, recurring misinformation categories were uncovered that occur over multiple years, which may imply that people tend to share inaccurate statements around information they fear or don’t understand (Science and Medicine, Crime, Religion), impacts them directly (Policy, Election Integrity, Economic) or Public Figures who are salient in their daily lives. Together, it is hoped that these insights will assist researchers in developing algorithms that are temporally invariant and capable of detecting and mitigating misinformation across time.

arxiv情報

著者 Erik J Schlicht
発行日 2025-04-08 16:41:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SI | Characteristics of Political Misinformation Over the Past Decade はコメントを受け付けていません

Evaluating the Propensity of Generative AI for Producing Harmful Disinformation During an Election Cycle

要約

Generative人工知能は、中国のスパムフラージュ運用や最近の米国の選挙サイクルに干渉しようとしたロシアのインターネット研究機関の取り組みなど、影響力の活動に従事したい敵に強力なツールを提供します。
したがって、この研究は、選挙サイクル中に有害な偽情報を生成するための現在の生成AIモデルの傾向を調査しようとしています。
異なる生成AIモデルが敵対的プロンプトを与えられたときに偽情報を生成する確率を評価し、さらに関連する害を評価しました。
これにより、各モデルの予想される害が計算され、CopilotとGeminiが予想される最低の害を実現することにより全体的な安全性のために結び付けられ、GPT-4oが有害なディスフォーメーションの最大の割合を生み出し、予想される害スコアがはるかに高いことが発見されました。
偽情報のカテゴリの影響も調査され、ジェミニは選挙中に開発者が行った緩和の試みにより、医療関係者が行った緩和の試みのために、偽情報の政治的カテゴリーで最も安全でした。
さらに、敵対的な役割の特徴が発見され、すべてのモデルで予想される害が大きくなりました。
最後に、この研究で考慮された条件に基づいて、偽情報の生産を予測する分類モデルが開発されました。
これらすべての洞察に基づいて、生成AIモデルによって生成される有害な偽情報につながる要因を軽減しようとする推奨事項が提供されます。
開発者がこれらの洞察を使用して将来のモデルを改善することが期待されています。

要約(オリジナル)

Generative Artificial Intelligence offers a powerful tool for adversaries who wish to engage in influence operations, such as the Chinese Spamouflage operation and the Russian Internet Research Agency effort that both sought to interfere with recent US election cycles. Therefore, this study seeks to investigate the propensity of current generative AI models for producing harmful disinformation during an election cycle. The probability that different generative AI models produced disinformation when given adversarial prompts was evaluated, in addition the associated harm. This allows for the expected harm for each model to be computed and it was discovered that Copilot and Gemini tied for the overall safest performance by realizing the lowest expected harm, while GPT-4o produced the greatest rates of harmful disinformation, resulting in much higher expected harm scores. The impact of disinformation category was also investigated and Gemini was safest within the political category of disinformation due to mitigation attempts made by developers during the election, while Copilot was safest for topics related to health. Moreover, characteristics of adversarial roles were discovered that led to greater expected harm across all models. Finally, classification models were developed that predicted disinformation production based on the conditions considered in this study, which offers insight into factors important for predicting disinformation production. Based on all of these insights, recommendations are provided that seek to mitigate factors that lead to harmful disinformation being produced by generative AI models. It is hoped that developers will use these insights to improve future models.

arxiv情報

著者 Erik J Schlicht
発行日 2025-04-08 16:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Evaluating the Propensity of Generative AI for Producing Harmful Disinformation During an Election Cycle はコメントを受け付けていません