Human-Robot Teaming Field Deployments: A Comparison Between Verbal and Non-verbal Communication

要約

医療従事者(HCWS)は、衝突カートから迅速に医療用品を取得するなど、病院で課題に遭遇し、患者ケアの医療エラーや遅延をもたらす可能性があります。
ロボットクラッシュカート(RCC)は、ガイド付きオブジェクトの検索とタスクリマインダーを通じて、医療タスク中に医療チームを支援することに有望を示しています。
現実世界の設定における患者ケアに対して最も効果的で最も破壊的であるコミュニケーションのモダリティがどのようなコミュニケーションモダリティが最も効果的であるかを判断するために、限られた探査が行われました。
このギャップに対処するために、職場でのロボット通信と職場でのロボットの使用に対する態度に対するロボット通信の影響を理解するために、蘇生シナリオのRCCの口頭および非言語通信と蘇生シナリオの標準的なクラッシュカートと比較して、被験者間実験を実施しました。
私たちの調査結果は、口頭でのコミュニケーションが、視覚的な手がかりと従来のクラッシュカートと比較して、精神的需要と努力を大幅に減らしたことを示しています。
従来のカートと比較して、ロボットとのコラボレーション中にフラストレーションレベルはわずかに高かったが、これらの研究の洞察は、ハイステークス環境での人間のロボットチームワークに貴重な意味を提供します。

要約(オリジナル)

Healthcare workers (HCWs) encounter challenges in hospitals, such as retrieving medical supplies quickly from crash carts, which could potentially result in medical errors and delays in patient care. Robotic crash carts (RCCs) have shown promise in assisting healthcare teams during medical tasks through guided object searches and task reminders. Limited exploration has been done to determine what communication modalities are most effective and least disruptive to patient care in real-world settings. To address this gap, we conducted a between-subjects experiment comparing the RCC’s verbal and non-verbal communication of object search with a standard crash cart in resuscitation scenarios to understand the impact of robot communication on workload and attitudes toward using robots in the workplace. Our findings indicate that verbal communication significantly reduced mental demand and effort compared to visual cues and with a traditional crash cart. Although frustration levels were slightly higher during collaborations with the robot compared to a traditional cart, these research insights provide valuable implications for human-robot teamwork in high-stakes environments.

arxiv情報

著者 Tauhid Tanjim,Promise Ekpo,Huajie Cao,Jonathan St. George,Kevin Ching,Hee Rin Lee,Angelique Taylor
発行日 2025-06-10 15:17:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Human-Robot Teaming Field Deployments: A Comparison Between Verbal and Non-verbal Communication はコメントを受け付けていません

Help or Hindrance: Understanding the Impact of Robot Communication in Action Teams

要約

人間とロボットの相互作用(HRI)フィールドは、ロボットがチームと対話できるようにすることの重要性を認識しています。
人間のチームは、時間に敏感な環境でのコラボレーションを成功させるための効果的なコミュニケーションに依存しています。
ロボットは、リアルタイムの支援を通じてチームの調整を強化する役割を果たすことができます。
ヒューマンロボットチームの研究において大きな進歩にもかかわらず、ロボットが時間感受性環境でマルチモーダル相互作用の手がかりを使用してアクションチームと効果的に通信する方法には、重要なギャップが残っています。
この研究では、実験的なラブ内研究におけるこの知識のギャップに対処し、アクションチームでのマルチモーダルロボットコミュニケーションがロボットのワークロードと人間の認識にどのように影響するかを調査します。
ロボットクラッシュカート(RCC)が口頭および非言語的な手がかりを提供する医療トレーニングシナリオでチームのコラボレーションを探索し、ユーザーが反復タスクを実行し、物資を検索することを忘れないようにします。
私たちの調査結果は、オブジェクト検索タスクの口頭の手がかりとタスクリマインダーの視覚的な手がかりがチームのワークロードを減らし、フィードバックのないロボットよりも効果的に使用の容易さと知覚される有用性を高めることを示しています。
私たちの仕事は、HRI分野でのマルチモーダルインタラクション研究に貢献し、病院、検索と救助、製造アプリケーションなどの時間に敏感な環境で共同ロボットを統合するためのベストプラクティスを理解するためのより多くの人間のロボットチーム研究の研究の必要性を強調しています。

要約(オリジナル)

The human-robot interaction (HRI) field has recognized the importance of enabling robots to interact with teams. Human teams rely on effective communication for successful collaboration in time-sensitive environments. Robots can play a role in enhancing team coordination through real-time assistance. Despite significant progress in human-robot teaming research, there remains an essential gap in how robots can effectively communicate with action teams using multimodal interaction cues in time-sensitive environments. This study addresses this knowledge gap in an experimental in-lab study to investigate how multimodal robot communication in action teams affects workload and human perception of robots. We explore team collaboration in a medical training scenario where a robotic crash cart (RCC) provides verbal and non-verbal cues to help users remember to perform iterative tasks and search for supplies. Our findings show that verbal cues for object search tasks and visual cues for task reminders reduce team workload and increase perceived ease of use and perceived usefulness more effectively than a robot with no feedback. Our work contributes to multimodal interaction research in the HRI field, highlighting the need for more human-robot teaming research to understand best practices for integrating collaborative robots in time-sensitive environments such as in hospitals, search and rescue, and manufacturing applications.

arxiv情報

著者 Tauhid Tanjim,Jonathan St. George,Kevin Ching,Hee Rin Lee,Angelique Taylor
発行日 2025-06-10 15:19:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Help or Hindrance: Understanding the Impact of Robot Communication in Action Teams はコメントを受け付けていません

EKF-Based Radar-Inertial Odometry with Online Temporal Calibration

要約

不均一なセンサー間の正確な時間同期は、マルチセンサー融合システムでの堅牢な状態推定を確保するために重要です。
センサーの遅延は、多くの場合、イベントがキャプチャされたときの実際の時間とセンサー測定の時間との間に不一致を引き起こし、センサー測定ストリーム間の時間的な不整列(時間オフセット)につながります。
この論文では、時間オフセットをオンラインで推定する拡張カルマンフィルター(EKF)ベースのレーダー介護視野(RIO)フレームワークを提案します。
単一のレーダースキャンから派生したレーダーエゴ速度測定モデルは、タイムオフセットをアップデートに組み込むように策定されています。
一時的なキャリブレーションを活用することにより、提案されたRIOは、一般的な時間ストリームに基づいて正確な伝播と測定の更新を可能にします。
シミュレートされたデータセットと実際のデータセットの両方での実験は、提案された方法の正確なタイムオフセット推定とRIOのパフォーマンスへの影響を示し、センサー時間同期の重要性を検証します。
オンラインの一時的なキャリブレーションを使用したEKF-RIOの実装は、https://github.com/spearwin/ekf-rio-tcで入手できます。

要約(オリジナル)

Accurate time synchronization between heterogeneous sensors is crucial for ensuring robust state estimation in multi-sensor fusion systems. Sensor delays often cause discrepancies between the actual time when the event was captured and the time of sensor measurement, leading to temporal misalignment (time offset) between sensor measurement streams. In this paper, we propose an extended Kalman filter (EKF)-based radar-inertial odometry (RIO) framework that estimates the time offset online. The radar ego-velocity measurement model, derived from a single radar scan, is formulated to incorporate the time offset into the update. By leveraging temporal calibration, the proposed RIO enables accurate propagation and measurement updates based on a common time stream. Experiments on both simulated and real-world datasets demonstrate the accurate time offset estimation of the proposed method and its impact on RIO performance, validating the importance of sensor time synchronization. Our implementation of the EKF-RIO with online temporal calibration is available at https://github.com/spearwin/EKF-RIO-TC.

arxiv情報

著者 Changseung Kim,Geunsik Bae,Woojae Shin,Sen Wang,Hyondong Oh
発行日 2025-06-10 15:25:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | EKF-Based Radar-Inertial Odometry with Online Temporal Calibration はコメントを受け付けていません

BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

要約

B-SPLINEエンコードされたアクションシーケンストークン化装置(Beast)を提示します。これは、B-Splinesを使用してコンパクトディスクリートまたは連続トークンにアクションシーケンスをコードする新しいアクショントークン剤です。
ベクターの量子化またはバイトペアのエンコードに基づく既存のアクショントークナーとは対照的に、ビーストは個別のトークナイザートレーニングを必要とせず、一貫して均一な長さのトークンを生成し、並列デコードを介して高速アクションシーケンス生成を可能にします。
B-Splineの定式化を活用して、Beastは本質的に隣接するセグメント間の不連続性なしに滑らかな軌跡を生成することを本質的に保証します。
ビーストは、連続トークンを備えた変分自動エンコーダー(VAE)、離散トークンを備えたデコーダーのみの変圧器、エンコーダーデコードアーキテクチャを備えた前処理されたビジョン言語モデルであるFlorence-2を備えた3つの異なるモデルアーキテクチャと統合することにより、獣を広範囲に評価します。
166のシミュレートされたタスクで構成される3つの確立されたベンチマークと、合計8つの現実世界のタスクを持つ3つの異なるロボット設定でビーストを評価します。
実験結果は、獣(i)がトレーニングと推論の計算コストの両方を大幅に削減し、(ii)連続制御タスクに適したスムーズで高周波制御信号を一貫して生成することを示していますが、(iii)は、最先端の方法と比較して競争力のあるタスクの成功率を確実に達成します。

要約(オリジナル)

We present the B-spline Encoded Action Sequence Tokenizer (BEAST), a novel action tokenizer that encodes action sequences into compact discrete or continuous tokens using B-splines. In contrast to existing action tokenizers based on vector quantization or byte pair encoding, BEAST requires no separate tokenizer training and consistently produces tokens of uniform length, enabling fast action sequence generation via parallel decoding. Leveraging our B-spline formulation, BEAST inherently ensures generating smooth trajectories without discontinuities between adjacent segments. We extensively evaluate BEAST by integrating it with three distinct model architectures: a Variational Autoencoder (VAE) with continuous tokens, a decoder-only Transformer with discrete tokens, and Florence-2, a pretrained Vision-Language Model with an encoder-decoder architecture, demonstrating BEAST’s compatibility and scalability with large pretrained models. We evaluate BEAST across three established benchmarks consisting of 166 simulated tasks and on three distinct robot settings with a total of 8 real-world tasks. Experimental results demonstrate that BEAST (i) significantly reduces both training and inference computational costs, and (ii) consistently generates smooth, high-frequency control signals suitable for continuous control tasks while (iii) reliably achieves competitive task success rates compared to state-of-the-art methods.

arxiv情報

著者 Hongyi Zhou,Weiran Liao,Xi Huang,Yucheng Tang,Fabian Otto,Xiaogang Jia,Xinkai Jiang,Simon Hilber,Ge Li,Qian Wang,Ömer Erdinç Yağmurlu,Nils Blank,Moritz Reuss,Rudolf Lioutikov
発行日 2025-06-10 15:36:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning はコメントを受け付けていません

Robust Perception-Based Navigation using PAC-NMPC with a Learned Value Function

要約

非線形モデル予測制御(NMPC)は、通常、オンライン最適化の計算負担を制限するために、短い有限視野に制限されています。
その結果、複雑な環境でのナビゲーションにNMPCを使用する場合、局所的な最小値を避けるために、グローバルな計画フレームワークが頻繁に必要です。
対照的に、補強学習(RL)は、現在のセンサー測定でのみ動作する場合でも、無限帯の予想コストを最小限に抑えるポリシーを生成し、局所的な最小値を回避できます。
ただし、これらの学んだポリシーは通常、特にトレーニング分布の外側では、パフォーマンス保証を提供することができません(衝突回避など)。
この論文では、RLを介してトレーニングされたおおよその知覚ベースの値関数を使用して、パフォーマンスと安全性の統計的保証を提供できるサンプリングベースの確率NMPCアルゴリズムである、おそらくほぼ正しいNMPC(PAC-NMPC)を補強します。
シミュレーションでは、私たちのアルゴリズムがPAC-NMPCの長期的な動作を改善しながら、平面車のダイナミクスとより複雑で高次元の固定翼航空機のダイナミクスの両方の安全性に関して他のアプローチを上回ることができることを実証します。
また、値関数がシミュレーションでトレーニングされている場合でも、アルゴリズムは、現在のセンサー情報のみを使用して、散らかった実世界環境で1/10スケールラリーカーを使用してハードウェアで統計的に安全なナビゲーションを正常に達成できることを実証しています。

要約(オリジナル)

Nonlinear model predictive control (NMPC) is typically restricted to short, finite horizons to limit the computational burden of online optimization. As a result, global planning frameworks are frequently necessary to avoid local minima when using NMPC for navigation in complex environments. By contrast, reinforcement learning (RL) can generate policies that minimize the expected cost over an infinite-horizon and can often avoid local minima, even when operating only on current sensor measurements. However, these learned policies are usually unable to provide performance guarantees (e.g., on collision avoidance), especially when outside of the training distribution. In this paper, we augment Probably Approximately Correct NMPC (PAC-NMPC), a sampling-based stochastic NMPC algorithm capable of providing statistical guarantees of performance and safety, with an approximate perception-based value function trained via RL. We demonstrate in simulation that our algorithm can improve the long-term behavior of PAC-NMPC while outperforming other approaches with regards to safety for both planar car dynamics and more complex, high-dimensional fixed-wing aerial vehicle dynamics. We also demonstrate that, even when our value function is trained in simulation, our algorithm can successfully achieve statistically safe navigation on hardware using a 1/10th scale rally car in cluttered real-world environments using only current sensor information.

arxiv情報

著者 Adam Polevoy,Mark Gonzales,Marin Kobilarov,Joseph Moore
発行日 2025-06-10 15:58:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Robust Perception-Based Navigation using PAC-NMPC with a Learned Value Function はコメントを受け付けていません

CLONE: Closed-Loop Whole-Body Humanoid Teleoperation for Long-Horizon Tasks

要約

ヒューマノイドテレオペレーションは、複雑なヒューマノイドシーン相互作用のデータを実証および収集する上で重要な役割を果たします。
ただし、現在の遠隔操作システムは、重大な制限に直面しています。安定性を維持するために上半身と下半身の制御を切り離し、自然な調整を制限し、リアルタイムの位置フィードバックなしで開放ループを動作させ、蓄積されたドリフトにつながります。
基本的な課題は、正確なグローバルポジショニングを維持しながら、長期にわたって正確で調整された全身の視覚操作を達成することです。
ここでは、閉ループエラー補正を備えたMOEベースのテレオ操作システムであるクローンが、前例のない全身のテレオ操作の忠実度を可能にし、MRヘッドセットからのヘッドとハンドトラッキングのみを使用して、長距離軌道上の最小限の位置ドリフトを維持することを示します。
安定性の調整を犠牲にするか、無制限のドリフトに苦しむ以前の方法とは異なり、クローンはリアルタイムのフィードバックによる追跡エラーの蓄積を防ぎ、「地面からオブジェクトを拾う」などの複雑な調整された動きを可能にします。

要約(オリジナル)

Humanoid teleoperation plays a vital role in demonstrating and collecting data for complex humanoid-scene interactions. However, current teleoperation systems face critical limitations: they decouple upper- and lower-body control to maintain stability, restricting natural coordination, and operate open-loop without real-time position feedback, leading to accumulated drift. The fundamental challenge is achieving precise, coordinated whole-body teleoperation over extended durations while maintaining accurate global positioning. Here we show that an MoE-based teleoperation system, CLONE, with closed-loop error correction enables unprecedented whole-body teleoperation fidelity, maintaining minimal positional drift over long-range trajectories using only head and hand tracking from an MR headset. Unlike previous methods that either sacrifice coordination for stability or suffer from unbounded drift, CLONE learns diverse motion skills while preventing tracking error accumulation through real-time feedback, enabling complex coordinated movements such as “picking up objects from the ground.” These results establish a new milestone for whole-body humanoid teleoperation for long-horizon humanoid-scene interaction tasks.

arxiv情報

著者 Yixuan Li,Yutang Lin,Jieming Cui,Tengyu Liu,Wei Liang,Yixin Zhu,Siyuan Huang
発行日 2025-06-10 15:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | CLONE: Closed-Loop Whole-Body Humanoid Teleoperation for Long-Horizon Tasks はコメントを受け付けていません

Task Reconstruction and Extrapolation for $π_0$ using Text Latent

要約

Vision-Language-actionモデル(VLA)は、多くの場合、実証されたタスクで高性能を達成しますが、異なるタスクから学んだスキルを斬新な方法で組み合わせるために必要な場合は大幅に苦労します。
たとえば、VLAはクリームチーズをボウルの中に置き、キャビネットの上にボウルを置くことに成功する可能性がありますが、それでもキャビネットの上にクリームチーズを置くことができません。
この作業では、推論時にVLAの内部表現を操作することにより、異なるタスクからの行動を効果的に再結合できることを実証します。
具体的には、特定のベースタスクのすべての実証された軌跡にわたってテキストトークンの非表示状態を平均することにより、テキストが潜在することを識別します。
外挿されたタスクを実行するために、2つのベースタスクの潜在的なテキストを一時的に補間し、それをテキストの隠された状態に追加することができます。そのため、2つのタスクからのサブベハビアーは順次アクティブになります。
このアプローチを、新しく作成したリベロウッドベンチマークを使用して、標準的なリベロスイートから外挿された20のタスクを備えたものを評価します。
Libero-Ooodの結果は、すべてのSOTA VLAが15%未満の成功率を達成し、テキスト潜在補間を備えた$ \ PI0 $が83%の成功率に達することを示しています。
さらなる定性分析により、VLAが本物のオブジェクトと目標の理解を達成するのではなく、実証された場所にオブジェクト名を空間的に過剰に適合させる傾向が示されます。
さらに、テキストの潜在的な潜在性を解読すると、標準的なリベロスイートで70%の成功率を達成するようVLAに指示し、プライベートな指導やバックドア攻撃を可能にするように指示できることがわかります。

要約(オリジナル)

Vision-language-action models (VLAs) often achieve high performance on demonstrated tasks but struggle significantly when required to extrapolate, combining skills learned from different tasks in novel ways. For instance, VLAs might successfully put the cream cheese in the bowl and put the bowl on top of the cabinet, yet still fail to put the cream cheese on top of the cabinet. In this work, we demonstrate that behaviors from distinct tasks can be effectively recombined by manipulating the VLA’s internal representations at inference time. Concretely, we identify the text latent by averaging the text tokens’ hidden states across all demonstrated trajectories for a specific base task. For executing an extrapolated task, we can temporally interpolate the text latent of the two base tasks and add it back to the text hidden states, so sub-behaviors from the two tasks will be activated sequentially. We evaluate this approach using the newly created libero-ood benchmark, featuring 20 tasks extrapolated from standard LIBERO suites. The results on libero-ood show that all SOTA VLAs achieve < 15% success rate, while $\pi0$ with text latent interpolation reaches an 83% success rate. Further qualitative analysis reveals a tendency for VLAs to exhibit spatial overfitting, mapping object names to demonstrated locations rather than achieving genuine object and goal understanding. Additionally, we find that decoding the text latent yields human-unreadable prompts that can nevertheless instruct the VLA to achieve a 70% success rate on standard LIBERO suites, enabling private instruction or backdoor attacks.

arxiv情報

著者 Quanyi Li
発行日 2025-06-10 16:27:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Task Reconstruction and Extrapolation for $π_0$ using Text Latent はコメントを受け付けていません

Decentralized Uncertainty-Aware Active Search with a Team of Aerial Robots

要約

迅速な捜索と救助は、自然災害に続く生存率を最大化するために重要です。
ただし、これらの取り組みは、大規模な災害ゾーンを検索する必要性、通信インフラストラクチャの信頼性の欠如、および負傷した生存者などの興味深い数の関心のあるオブジェクト(OOI)の不明な数によって挑戦されています。
航空ロボットは、高機動性のために捜索と救助のためにますます展開されていますが、大きな環境を系統的に検索するためのマルチロボット自律航空システムの展開にはギャップが残っています。
以前の作品は、人間のオペレーターからの事前にプログラムされたパスに依存しているか、シミュレーションでのみ評価されています。
分散型のアクティブ検索システムを開発および実証することにより、これらのギャップを最先端のギャップを埋めます。これは、不確実なOOIの追加ビューを採用する軌跡を偏らせます。
方法論は、コミュニケーションの迅速なカバレッジのために確率性を活用します。シナリオは拒否されます。
通信が利用可能な場合、ロボットはポーズ、目標、OOI情報を共有して、検索率を加速します。
複数の画像と車両からの検出は、各OOI位置の平均と共分散を提供するために融合します。
オハイオ州ブルーミングデールでの広範なシミュレーションとハードウェア実験が、アプローチを検証するために実施されます。
結果は、アクティブな検索アプローチが、通信対応シナリオで同等のパフォーマンスを維持しながら、コミュニケーション型のシナリオで貪欲なカバレッジベースの計画を上回ることを示しています。
また、結果は、50m-60mの飛行高度で約3mの平均誤差で、すべての先験的な未知のOOIを検出およびローカライズする能力を示しています。

要約(オリジナル)

Rapid search and rescue is critical to maximizing survival rates following natural disasters. However, these efforts are challenged by the need to search large disaster zones, lack of reliability in the communications infrastructure, and a priori unknown numbers of objects of interest (OOIs), such as injured survivors. Aerial robots are increasingly being deployed for search and rescue due to their high mobility, but there remains a gap in deploying multi-robot autonomous aerial systems for methodical search of large environments. Prior works have relied on preprogrammed paths from human operators or are evaluated only in simulation. We bridge these gaps in the state of the art by developing and demonstrating a decentralized active search system, which biases its trajectories to take additional views of uncertain OOIs. The methodology leverages stochasticity for rapid coverage in communication denied scenarios. When communications are available, robots share poses, goals, and OOI information to accelerate the rate of search. Detections from multiple images and vehicles are fused to provide a mean and covariance for each OOI location. Extensive simulations and hardware experiments in Bloomingdale, OH, are conducted to validate the approach. The results demonstrate the active search approach outperforms greedy coverage-based planning in communication-denied scenarios while maintaining comparable performance in communication-enabled scenarios. The results also demonstrate the ability to detect and localize all a priori unknown OOIs with a mean error of approximately 3m at flight altitudes between 50m-60m.

arxiv情報

著者 Wennie Tabib,John Stecklein,Caleb McDowell,Kshitij Goel,Felix Jonathan,Abhishek Rathod,Meghan Kokoski,Edsel Burkholder,Brian Wallace,Luis Ernesto Navarro-Serment,Nikhil Angad Bakshi,Tejus Gupta,Norman Papernick,David Guttendorf,Erik E. Kahn,Jessica Kasemer,Jesse Holdaway,Jeff Schneider
発行日 2025-06-10 16:40:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Decentralized Uncertainty-Aware Active Search with a Team of Aerial Robots はコメントを受け付けていません

Local MDI+: Local Feature Importances for Tree-Based Models

要約

ランダムフォレストなどの樹木ベースのアンサンブルは、予測のパフォーマンスと計算効率のため、深い学習モデルよりも表形式データの採用であり続けています。
これらの利点は、信頼できる予測を確保するために解釈可能性が不可欠であるハイステークスドメインでの広範な展開につながりました。
これにより、ライムやトレシャップなどの人気のあるローカル(つまり、サンプル固有)機能の重要性(LFI)の開発が動機付けられています。
ただし、これらのアプローチは、モデルの内部構造を無視し、代わりに潜在的に不安定な摂動に依存する近似に依存しています。
これらの問題は、MDI+によるグローバルな設定で対処されています。これは、変換されたノードベースで決定ツリーと線形モデルの間の同等性を活用する機能の重要性方法です。
ただし、グローバルMDI+スコアは、不均一な個々の特性に直面した場合、予測を説明することができません。
このギャップに対処するために、MDI+フレームワークのサンプル固有の設定への新しい拡張であるローカルMDI+(LMDI+)を提案します。
LMDI+は、インスタンス固有の信号機能の識別において、既存のベースラインライムとトレシャップを上回り、12の実際のベンチマークデータセットで下流タスクパフォ​​ーマンスの平均10%の改善を示します。
さらに、複数のランダムな森林適合にわたって同様のインスタンスレベルの機能の重要性ランキングを一貫して生成することにより、より大きな安定性を実証します。
最後に、LMDI+は、密接な反事実の識別や均一なサブグループの発見など、ローカル解釈可能性のユースケースを有効にします。

要約(オリジナル)

Tree-based ensembles such as random forests remain the go-to for tabular data over deep learning models due to their prediction performance and computational efficiency. These advantages have led to their widespread deployment in high-stakes domains, where interpretability is essential for ensuring trustworthy predictions. This has motivated the development of popular local (i.e. sample-specific) feature importance (LFI) methods such as LIME and TreeSHAP. However, these approaches rely on approximations that ignore the model’s internal structure and instead depend on potentially unstable perturbations. These issues are addressed in the global setting by MDI+, a feature importance method which exploits an equivalence between decision trees and linear models on a transformed node basis. However, the global MDI+ scores are not able to explain predictions when faced with heterogeneous individual characteristics. To address this gap, we propose Local MDI+ (LMDI+), a novel extension of the MDI+ framework to the sample specific setting. LMDI+ outperforms existing baselines LIME and TreeSHAP in identifying instance-specific signal features, averaging a 10% improvement in downstream task performance across twelve real-world benchmark datasets. It further demonstrates greater stability by consistently producing similar instance-level feature importance rankings across multiple random forest fits. Finally, LMDI+ enables local interpretability use cases, including the identification of closer counterfactuals and the discovery of homogeneous subgroups.

arxiv情報

著者 Zhongyuan Liang,Zachary T. Rewolinski,Abhineet Agarwal,Tiffany M. Tang,Bin Yu
発行日 2025-06-10 15:51:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML | Local MDI+: Local Feature Importances for Tree-Based Models はコメントを受け付けていません

BioLangFusion: Multimodal Fusion of DNA, mRNA, and Protein Language Models

要約

BiolangFusionを提示します。これは、事前に訓練されたDNA、mRNA、およびタンパク質言語モデルを統合分子表現に統合するための簡単なアプローチです。
分子生物学の中心ドグマ(遺伝子から転写産物、タンパク質への情報の流れ)に動機付けられ、生物学的に意味のあるコドンレベル(1つのアミノ酸をコードする3つのヌクレオチド)でモダリティごとの埋め込みを整列させて、直接的なクロスモーダル対応を確保します。
BiolangFusionは、3つの標準的な融合技術を研究しています。(i)コドンレベルの埋め込み連結、(ii)複数のインスタンス学習に触発されたエントロピーの正規化された注意プーリング、および(iii)クロスモーダルマルチヘッドの注意 – 各技術は、モダリティ固有のシグナルを組み合わせるための異なる誘導バイアスを提供します。
これらの方法では、ベースモデルの追加のトレーニングまたは変更を追加する必要はなく、既存のシーケンスベースの基礎モデルとの簡単な統合を可能にします。
5つの分子特性予測タスクにわたって、BiolangFusionは強力な単峰性のベースラインを上回り、事前に訓練されたモデルの単純な融合でさえ、最小限のオーバーヘッドで補完的なマルチオミック情報をキャプチャできることを示しています。

要約(オリジナル)

We present BioLangFusion, a simple approach for integrating pre-trained DNA, mRNA, and protein language models into unified molecular representations. Motivated by the central dogma of molecular biology (information flow from gene to transcript to protein), we align per-modality embeddings at the biologically meaningful codon level (three nucleotides encoding one amino acid) to ensure direct cross-modal correspondence. BioLangFusion studies three standard fusion techniques: (i) codon-level embedding concatenation, (ii) entropy-regularized attention pooling inspired by multiple-instance learning, and (iii) cross-modal multi-head attention — each technique providing a different inductive bias for combining modality-specific signals. These methods require no additional pre-training or modification of the base models, allowing straightforward integration with existing sequence-based foundation models. Across five molecular property prediction tasks, BioLangFusion outperforms strong unimodal baselines, showing that even simple fusion of pre-trained models can capture complementary multi-omic information with minimal overhead.

arxiv情報

著者 Amina Mollaysa,Artem Moskale,Pushpak Pati,Tommaso Mansi,Mangal Prakash,Rui Liao
発行日 2025-06-10 16:01:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | BioLangFusion: Multimodal Fusion of DNA, mRNA, and Protein Language Models はコメントを受け付けていません