CombAlign: Enhancing Model Expressiveness in Unsupervised Graph Alignment

要約

監視されていないグラフアライメントは、グラフ構造とノードの機能のみを活用することにより、属性グラフのペア間のノード対応を見つけます。
最近の研究の1つのカテゴリは、最初にノード表現を計算し、次にノードを最大の埋め込みベースの類似性と一致させますが、もう1つのカテゴリは、Gromov-Wassertein学習を介して問題を最適な輸送(OT)に減らします。
ただし、モデルの表現力では、理論的表現性が予測の精度にどのように影響するかは、ほとんど未踏のままです。
2つの側面からモデルの表現性を調査します。
まず、2つのグラフにわたって一致したノードペアを区別することにおけるモデルの識別力を特徴付けます。
第二に、1対1のマッチングや相互整合などのノードマッチングプロパティを保証するモデルの能力を調査します。
理論的分析に動機付けられた私たちは、強力な表現力を備えたCombalignという名前のハイブリッドアプローチを提唱しました。
具体的には、OTベースの学習のための次元間の特徴相互作用を有効にし、Weisfeiler-Lehmanテストに触発された埋め込みベースの方法を提案します。
また、埋め込みベースのモジュールから得られた不均一な辺縁を、より表現力のためにPriorsとしてOTに適用します。
それに基づいて、アンサンブル学習戦略を使用してOTと埋め込みベースの予測を組み合わせて、問題を最大重量のマッチングに削減する従来のアルゴリズムベースの改良を提案します。
慎重に設計されたエッジウェイトを使用して、それらの一致する特性を確保し、予測の精度をさらに高めます。
広範な実験により、最先端のアプローチと比較して、アライメント精度が14.5%の大幅な改善を示し、理論分析の健全性を確認します。

要約(オリジナル)

Unsupervised graph alignment finds the node correspondence between a pair of attributed graphs by only exploiting graph structure and node features. One category of recent studies first computes the node representation and then matches nodes with the largest embedding-based similarity, while the other category reduces the problem to optimal transport (OT) via Gromov-Wasserstein learning. However, it remains largely unexplored in the model expressiveness, as well as how theoretical expressivity impacts prediction accuracy. We investigate the model expressiveness from two aspects. First, we characterize the model’s discriminative power in distinguishing matched and unmatched node pairs across two graphs. Second, we study the model’s capability of guaranteeing node matching properties such as one-to-one matching and mutual alignment. Motivated by our theoretical analysis, we put forward a hybrid approach named CombAlign with stronger expressive power. Specifically, we enable cross-dimensional feature interaction for OT-based learning and propose an embedding-based method inspired by the Weisfeiler-Lehman test. We also apply non-uniform marginals obtained from the embedding-based modules to OT as priors for more expressiveness. Based on that, we propose a traditional algorithm-based refinement, which combines our OT and embedding-based predictions using the ensemble learning strategy and reduces the problem to maximum weight matching. With carefully designed edge weights, we ensure those matching properties and further enhance prediction accuracy. By extensive experiments, we demonstrate a significant improvement of 14.5% in alignment accuracy compared to state-of-the-art approaches and confirm the soundness of our theoretical analysis.

arxiv情報

著者 Songyang Chen,Yu Liu,Lei Zou,Zexuan Wang,Youfang Lin
発行日 2025-05-06 16:16:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | CombAlign: Enhancing Model Expressiveness in Unsupervised Graph Alignment はコメントを受け付けていません

TTT: A Temporal Refinement Heuristic for Tenuously Tractable Discrete Time Reachability Problems

要約

Reachable Set Computationは、制御システムを分析するための重要なツールです。
制御システムをシミュレートすると、一般的な傾向が表示されますが、Reachability分析のような正式なツールは正確性の保証を提供できます。
非線形ダイナミクスおよび/またはニューラルネットワークコントローラーを備えた複雑な制御システムの到達可能性分析は、多くの場合、遅いか過度に保守的です。
これらの課題に対処するために、多くの文献が空間洗練に焦点を当てています。つまり、入力セットの離散化と中間の到達可能なセットを調整しています。
このペーパーでは、一時的な洗練のアイデアを紹介します。リーチ可能性問題の地平線に沿って自動的に選択して、近似誤差とより多くの近似誤差を引き起こす高速コンクリートクエリを発生させる低いシンボリッククエリを実行します。
一時的な改良は、他の洗練されたアプローチと組み合わせることができます。
一時的な改良アルゴリズムを導入し、ニューラルネットワークコントローラーを備えた非線形システムの近似範囲のセットを計算することでその有効性を実証します。
さまざまな計算予算でリーチ可能なセットを計算し、アルゴリズムが20〜70%短い時間でベースラインと同様の量のエラーで近似範囲の到達可能なセットを生成できることを示します。

要約(オリジナル)

Reachable set computation is an important tool for analyzing control systems. Simulating a control system can show general trends, but a formal tool like reachability analysis can provide guarantees of correctness. Reachability analysis for complex control systems, e.g., with nonlinear dynamics and/or a neural network controller, is often either slow or overly conservative. To address these challenges, much literature has focused on spatial refinement, i.e., tuning the discretization of the input sets and intermediate reachable sets. This paper introduces the idea of temporal refinement: automatically choosing when along the horizon of the reachability problem to execute slow symbolic queries which incur less approximation error versus fast concrete queries which incur more approximation error. Temporal refinement can be combined with other refinement approaches as an additional tool to trade off tractability and tightness in approximate reachable set computation. We introduce a temporal refinement algorithm and demonstrate its effectiveness at computing approximate reachable sets for nonlinear systems with neural network controllers. We calculate reachable sets with varying computational budget and show that our algorithm can generate approximate reachable sets with a similar amount of error to the baseline in 20-70% less time.

arxiv情報

著者 Chelsea Sidrane,Jana Tumova
発行日 2025-05-06 16:18:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LO, cs.SY, eess.SY | TTT: A Temporal Refinement Heuristic for Tenuously Tractable Discrete Time Reachability Problems はコメントを受け付けていません

Graph Drawing for LLMs: An Empirical Evaluation

要約

私たちの仕事は、グラフ関連のタスクを実行するための大規模な言語モデル(LLM)の使用に関する急速に成長する文献に貢献しています。
特に、視覚的モダリティに依存する使用シナリオに焦点を当て、分析中のグラフの図面をモデルに供給します。
選択したレイアウトパラダイム、図面の美学、およびクエリに使用されるプロンプト手法によって、モデルのパフォーマンスがどのように影響を受けるかを調査します。
対応する3つの研究質問を策定し、徹底的な実験分析の結果を提示します。
私たちの調査結果は、適切なレイアウトパラダイムを選択し、人間の視点から入力図の読みやすさを最適化することで、指定されたタスク上のモデルのパフォーマンスを大幅に改善できることを明らかにしています。
さらに、最も効果的なプロンプト技術を選択することは、最適なパフォーマンスを達成するための挑戦的でありながら重要なタスクです。

要約(オリジナル)

Our work contributes to the fast-growing literature on the use of Large Language Models (LLMs) to perform graph-related tasks. In particular, we focus on usage scenarios that rely on the visual modality, feeding the model with a drawing of the graph under analysis. We investigate how the model’s performance is affected by the chosen layout paradigm, the aesthetics of the drawing, and the prompting technique used for the queries. We formulate three corresponding research questions and present the results of a thorough experimental analysis. Our findings reveal that choosing the right layout paradigm and optimizing the readability of the input drawing from a human perspective can significantly improve the performance of the model on the given task. Moreover, selecting the most effective prompting technique is a challenging yet crucial task for achieving optimal performance.

arxiv情報

著者 Walter Didimo,Fabrizio Montecchiani,Tommaso Piselli
発行日 2025-05-06 16:23:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Graph Drawing for LLMs: An Empirical Evaluation はコメントを受け付けていません

PINN-MEP: Continuous Neural Representations for Minimum-Energy Path Discovery in Molecular Systems

要約

物理システムにおける立体構造遷移を特徴付けることは、計算科学の根本的な課題のままです。
分子動力学(MD)やMCMCなどの従来のサンプリング方法は、分子系の高次元的性質と、安定した状態間の移行の高エネルギー障壁と闘うことがよくあります。
これらの遷移はシミュレーションタイムスケールではまれなイベントですが、多くの場合、最も生物学的に重要なプロセスを表しています。たとえば、イオンチャネルタンパク質の閉じた状態からオープン状態への立体構造変化は、細胞イオンの流れを制御し、神経シグナル伝達に重要です。
実際のシステムでのこのような遷移には、ミリ秒から数秒かかる場合がありますが、1回でも観察するには数か月または数年の継続的なシミュレーションが必要になる場合があります。
トランジションパスの生成を、最小エネルギーパス(MEP)生成のストリングメソッドに触発された物理学に基づいたニューラルネットワーク(PINN)を通じて解決される連続最適化問題として再forulululululululululuryされる方法を提示します。
遷移経路を暗黙の神経関数として表現し、微分可能な分子動力学力場で自動分化を活用することにより、この方法により、高価なパスサンプリングを必要とせずに物理的に現実的な遷移経路を効率的に発見することができます。
8,300を超える原子を備えた明示的に水和されたウシ膵臓トリプシン阻害剤(BPTI)システムを含む、2つのタンパク質に対する方法の有効性を実証します。

要約(オリジナル)

Characterizing conformational transitions in physical systems remains a fundamental challenge in the computational sciences. Traditional sampling methods like molecular dynamics (MD) or MCMC often struggle with the high-dimensional nature of molecular systems and the high energy barriers of transitions between stable states. While these transitions are rare events in simulation timescales, they often represent the most biologically significant processes – for example, the conformational change of an ion channel protein from its closed to open state, which controls cellular ion flow and is crucial for neural signaling. Such transitions in real systems may take milliseconds to seconds but could require months or years of continuous simulation to observe even once. We present a method that reformulates transition path generation as a continuous optimization problem solved through physics-informed neural networks (PINNs) inspired by string methods for minimum-energy path (MEP) generation. By representing transition paths as implicit neural functions and leveraging automatic differentiation with differentiable molecular dynamics force fields, our method enables the efficient discovery of physically realistic transition pathways without requiring expensive path sampling. We demonstrate our method’s effectiveness on two proteins, including an explicitly hydrated bovine pancreatic trypsin inhibitor (BPTI) system with over 8,300 atoms.

arxiv情報

著者 Magnus Petersen,Roberto Covino
発行日 2025-05-06 16:43:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, physics.chem-ph, physics.comp-ph | PINN-MEP: Continuous Neural Representations for Minimum-Energy Path Discovery in Molecular Systems はコメントを受け付けていません

Demonstrating ViSafe: Vision-enabled Safety for High-speed Detect and Avoid

要約

保証された安全性分離は、共有空域で空中車両のシームレスな高密度操作を達成するために不可欠です。
リソースに制約のある空中システムにこの安全性が批判的な機能を装備するために、高速視力のみの空中衝突回避システムであるVisafeを紹介します。
Visafeは、SWAP-C制約の下で設計されたカスタムマルチカメラハードウェアプロトタイプと学習ベースのEdge-AIフレームワークをしっかりと統合することにより、検出および回避の問題に対するフルスタックソリューションを提供します。
知覚入力に焦点を当てた制御バリア関数(CBF)を活用して安全性のしきい値を設計、エンコード、および実施することにより、Visafeは高速航空操作における自己分離のための確かな安全なランタイム保証を提供できます。
シミュレートされたデジタルツインと実世界の飛行シナリオの両方を含む広範なテストキャンペーンを通じて、Visafeのパフォーマンスを評価します。
エージェントの種類、閉鎖率、相互作用の幾何学、環境条件(気象や照明など)によって独立してさまざまな種類によって、Visafeが一貫して多様なシナリオ全体で自己分離を保証することを実証します。
閉鎖率が144 km/hに達する最初の実世界の高速衝突回避テストでは、Visafeは視力のみの自律衝突回避のための新しいベンチマークを設定し、高速航空ナビゲーションの安全性の新しい基準を確立します。

要約(オリジナル)

Assured safe-separation is essential for achieving seamless high-density operation of airborne vehicles in a shared airspace. To equip resource-constrained aerial systems with this safety-critical capability, we present ViSafe, a high-speed vision-only airborne collision avoidance system. ViSafe offers a full-stack solution to the Detect and Avoid (DAA) problem by tightly integrating a learning-based edge-AI framework with a custom multi-camera hardware prototype designed under SWaP-C constraints. By leveraging perceptual input-focused control barrier functions (CBF) to design, encode, and enforce safety thresholds, ViSafe can provide provably safe runtime guarantees for self-separation in high-speed aerial operations. We evaluate ViSafe’s performance through an extensive test campaign involving both simulated digital twins and real-world flight scenarios. By independently varying agent types, closure rates, interaction geometries, and environmental conditions (e.g., weather and lighting), we demonstrate that ViSafe consistently ensures self-separation across diverse scenarios. In first-of-its-kind real-world high-speed collision avoidance tests with closure rates reaching 144 km/h, ViSafe sets a new benchmark for vision-only autonomous collision avoidance, establishing a new standard for safety in high-speed aerial navigation.

arxiv情報

著者 Parv Kapoor,Ian Higgins,Nikhil Keetha,Jay Patrikar,Brady Moon,Zelin Ye,Yao He,Ivan Cisneros,Yaoyu Hu,Changliu Liu,Eunsuk Kang,Sebastian Scherer
発行日 2025-05-06 16:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Demonstrating ViSafe: Vision-enabled Safety for High-speed Detect and Avoid はコメントを受け付けていません

CALLM: Understanding Cancer Survivors’ Emotions and Intervention Opportunities via Mobile Diaries and Context-Aware Language Models

要約

がんの生存者は、生活の質に影響を与えるユニークな感情的な課題に直面しています。
モバイル日記エントリは、感情的な状態を追跡し、自己認識を改善し、幸福の結果を促進するための有望な方法を提供します。
この論文は、モバイル日記を通じて、がん生存者の感情状態と、感情を調節するという欲求や介入に従事する利用可能性など、ジャストインタイム介入の機会に関連する重要な変数を理解することを目的としています。
感情分析ツールは、テキストから感情を認識する可能性を示していますが、現在の方法には、簡単なモバイル日記の物語を解釈するために必要な文脈的理解がありません。
がんの生存者からの日記のエントリの分析(n = 407)は、否定的な影響と規制のニーズに関連する管理および健康関連のコンテキストを伴う、記述された文脈と感情状態の体系的な関係を明らかにしていますが、レジャー活動は肯定的な感情を促進します。
検索されたピアエクスペリエンスと個人的な日記の歴史を統合することにより、これらの短いエントリを分析するために、検索された生成(RAG)を備えた大規模な言語モデル(LLM)を活用するコンテキスト認識フレームワークであるCallmを提案します。
CALLMは、バランスの取れた精度で72.96%に達するバランスの取れた精度で強力なパフォーマンスを示し、陽性の影響で73.29%、感情調節の欲求が73.72%、介入の利用可能性が60.09%、言語モデルのベースラインを上回ります。
事後分析により、モデルの信頼性が精度を強く予測し、より長い日記エントリが一般的にパフォーマンスを向上させ、短いパーソナライズ期間が意味のある改善をもたらすことが明らかになりました。
私たちの調査結果は、モバイル日記のコンテキスト情報を効果的に活用して、感情的な経験を理解し、重要な状態を予測し、パーソナライズされたジャストインタイムサポートの最適な介入モーメントを特定する方法を示しています。

要約(オリジナル)

Cancer survivors face unique emotional challenges that impact their quality of life. Mobile diary entries provide a promising method for tracking emotional states, improving self-awareness, and promoting well-being outcome. This paper aims to, through mobile diaries, understand cancer survivors’ emotional states and key variables related to just-in-time intervention opportunities, including the desire to regulate emotions and the availability to engage in interventions. Although emotion analysis tools show potential for recognizing emotions from text, current methods lack the contextual understanding necessary to interpret brief mobile diary narratives. Our analysis of diary entries from cancer survivors (N=407) reveals systematic relationships between described contexts and emotional states, with administrative and health-related contexts associated with negative affect and regulation needs, while leisure activities promote positive emotions. We propose CALLM, a Context-Aware framework leveraging Large Language Models (LLMs) with Retrieval-Augmented Generation (RAG) to analyze these brief entries by integrating retrieved peer experiences and personal diary history. CALLM demonstrates strong performance with balanced accuracies reaching 72.96% for positive affect, 73.29% for negative affect, 73.72% for emotion regulation desire, and 60.09% for intervention availability, outperforming language model baselines. Post-hoc analysis reveals that model confidence strongly predicts accuracy, with longer diary entries generally enhancing performance, and brief personalization periods yielding meaningful improvements. Our findings demonstrate how contextual information in mobile diaries can be effectively leveraged to understand emotional experiences, predict key states, and identify optimal intervention moments for personalized just-in-time support.

arxiv情報

著者 Zhiyuan Wang,Katharine E. Daniel,Laura E. Barnes,Philip I. Chow
発行日 2025-05-06 17:04:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | CALLM: Understanding Cancer Survivors’ Emotions and Intervention Opportunities via Mobile Diaries and Context-Aware Language Models はコメントを受け付けていません

An Empirical Risk Minimization Approach for Offline Inverse RL and Dynamic Discrete Choice Model

要約

機械学習におけるオフライン最大エントロピー正規化逆補強学習(オフラインMaxent-IRL)としても知られる動的離散選択(DDC)モデルを推定する問題を研究します。
目的は、オフラインの動作データからエージェントの動作を支配する報酬または$ q^*$関数を回復することです。
この論文では、線形パラメーター化された報酬の制限的な仮定なしに、これらの問題を解決するためのグローバルな収束勾配ベースの方法を提案します。
私たちのアプローチの斬新さは、ベルマン方程式の明示的な状態遷移確率推定の必要性を回避する、経験的リスク最小化(ERM)ベースのIRL/DDCフレームワークを導入することにあります。
さらに、私たちの方法は、ニューラルネットワークなどのノンパラメトリック推定技術と互換性があります。
したがって、提案された方法は、高次元の無限の状態空間にスケーリングされる可能性があります。
私たちのアプローチの根底にある重要な理論的洞察は、ベルマンの残差がpolyak-lojasiewicz(PL)条件を満たすことです。これは、強い凸性よりも弱いものの、速いグローバルな収束保証を確保するのに十分な特性です。
一連の合成実験を通じて、私たちのアプローチは、ベンチマーク方法と最先端の代替案よりも一貫して優れていることを実証します。

要約(オリジナル)

We study the problem of estimating Dynamic Discrete Choice (DDC) models, also known as offline Maximum Entropy-Regularized Inverse Reinforcement Learning (offline MaxEnt-IRL) in machine learning. The objective is to recover reward or $Q^*$ functions that govern agent behavior from offline behavior data. In this paper, we propose a globally convergent gradient-based method for solving these problems without the restrictive assumption of linearly parameterized rewards. The novelty of our approach lies in introducing the Empirical Risk Minimization (ERM) based IRL/DDC framework, which circumvents the need for explicit state transition probability estimation in the Bellman equation. Furthermore, our method is compatible with non-parametric estimation techniques such as neural networks. Therefore, the proposed method has the potential to be scaled to high-dimensional, infinite state spaces. A key theoretical insight underlying our approach is that the Bellman residual satisfies the Polyak-Lojasiewicz (PL) condition — a property that, while weaker than strong convexity, is sufficient to ensure fast global convergence guarantees. Through a series of synthetic experiments, we demonstrate that our approach consistently outperforms benchmark methods and state-of-the-art alternatives.

arxiv情報

著者 Enoch H. Kang,Hema Yoganarasimhan,Lalit Jain
発行日 2025-05-06 17:12:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, econ.EM | An Empirical Risk Minimization Approach for Offline Inverse RL and Dynamic Discrete Choice Model はコメントを受け付けていません

Actor-Critics Can Achieve Optimal Sample Efficiency

要約

俳優批判のアルゴリズムは、補強学習(RL)の基礎となり、ポリシーベースと価値ベースの方法の両方の強みを活用しています。
統計効率を理解する最近の進展にもかかわらず、$ o(1/\ epsilon^2)のサンプルの複雑さを備えた$ \ epsilon $ -optimalポリシーを成功裏に学習した既存の作業はありません。
$ o(dh^5 \ log | \ mathcal {a} |/ \ epsilon^2 + d h^4 \ log | \ mathcal {f} |/ \ epsilon^2)$ epsilon^2)$ sqrtiry $ traging $ traging $ traginy $ traging $ traging、$ traging、$ oの複雑さを達成する新しい俳優criticアルゴリズムを導入することにより、このオープンな問題に対処することにより、このオープンな問題に対処します。
Bellman Everuder Dimension $ D $は、$ \ log t $レートを超える$ t $で増加しません。
ここでは、$ \ mathcal {f} $は批評家関数クラス、$ \ mathcal {a} $はアクション空間、$ h $は有限Horizo​​n MDP設定の地平線です。
当社のアルゴリズムは、楽観主義、最適なQ機能を対象としたポリシー批評家の推定、およびレアスイッチングポリシーリセットを統合します。
これをハイブリッドRLの設定に拡張し、批評家をオフラインデータで初期化すると、純粋にオフラインまたはオンラインRLと比較してサンプル効率の向上が得られることが示されています。
さらに、オフラインデータへのアクセスを利用して、$ n _ {\ text {off}} \ geq c _ {\ text {off}}}^*dh^4/\ epsilon^2 $ in opsilon^2 $ inits opsilon^2 $を必要とする\ textit {nonptimistic}の実証的に効率的なアクターcriticアルゴリズムを提供します。
$ c _ {\ text {off}}^*$は単一ポリシー濃度係数であり、$ n _ {\ text {off}} $はオフラインサンプルの数です。
これは、文献の別の未解決の問題に対処しています。
さらに、理論的な調査結果をサポートするための数値実験を提供します。

要約(オリジナル)

Actor-critic algorithms have become a cornerstone in reinforcement learning (RL), leveraging the strengths of both policy-based and value-based methods. Despite recent progress in understanding their statistical efficiency, no existing work has successfully learned an $\epsilon$-optimal policy with a sample complexity of $O(1/\epsilon^2)$ trajectories with general function approximation when strategic exploration is necessary. We address this open problem by introducing a novel actor-critic algorithm that attains a sample-complexity of $O(dH^5 \log|\mathcal{A}|/\epsilon^2 + d H^4 \log|\mathcal{F}|/ \epsilon^2)$ trajectories, and accompanying $\sqrt{T}$ regret when the Bellman eluder dimension $d$ does not increase with $T$ at more than a $\log T$ rate. Here, $\mathcal{F}$ is the critic function class, $\mathcal{A}$ is the action space, and $H$ is the horizon in the finite horizon MDP setting. Our algorithm integrates optimism, off-policy critic estimation targeting the optimal Q-function, and rare-switching policy resets. We extend this to the setting of Hybrid RL, showing that initializing the critic with offline data yields sample efficiency gains compared to purely offline or online RL. Further, utilizing access to offline data, we provide a \textit{non-optimistic} provably efficient actor-critic algorithm that only additionally requires $N_{\text{off}} \geq c_{\text{off}}^*dH^4/\epsilon^2$ in exchange for omitting optimism, where $c_{\text{off}}^*$ is the single-policy concentrability coefficient and $N_{\text{off}}$ is the number of offline samples. This addresses another open problem in the literature. We further provide numerical experiments to support our theoretical findings.

arxiv情報

著者 Kevin Tan,Wei Fan,Yuting Wei
発行日 2025-05-06 17:32:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Actor-Critics Can Achieve Optimal Sample Efficiency はコメントを受け付けていません

Advancing Human-Machine Teaming: Concepts, Challenges, and Applications

要約

Human-Machine Teaming(HMT)は、AI駆動型の意思決定、信頼キャリブレーション、および適応型チーム化を統合することにより、防衛、ヘルスケア、自律システムなどのドメイン間のコラボレーションに革命をもたらしています。
この調査では、HMTの包括的な分類法を提示し、学際的な方法論とともに、強化学習、インスタンスベースの学習、相互依存理論などの理論モデルを分析します。
以前のレビューとは異なり、チーム認知、倫理的AI、マルチモーダル相互作用、および実際の評価フレームワークを調べます。
重要な課題には、説明可能性、役割の割り当て、およびスケーラブルなベンチマークが含まれます。
クロスドメインの適応、信頼できるAI、および標準化されたテストベッドに関する将来の研究を提案します。
計算および社会科学を橋渡しすることにより、この作業は、弾力性、倫理的、スケーラブルなHMTシステムの基礎を築きます。

要約(オリジナル)

Human-Machine Teaming (HMT) is revolutionizing collaboration across domains such as defense, healthcare, and autonomous systems by integrating AI-driven decision-making, trust calibration, and adaptive teaming. This survey presents a comprehensive taxonomy of HMT, analyzing theoretical models, including reinforcement learning, instance-based learning, and interdependence theory, alongside interdisciplinary methodologies. Unlike prior reviews, we examine team cognition, ethical AI, multi-modal interactions, and real-world evaluation frameworks. Key challenges include explainability, role allocation, and scalable benchmarking. We propose future research in cross-domain adaptation, trust-aware AI, and standardized testbeds. By bridging computational and social sciences, this work lays a foundation for resilient, ethical, and scalable HMT systems.

arxiv情報

著者 Dian Chen,Han Jun Yoon,Zelin Wan,Nithin Alluru,Sang Won Lee,Richard He,Terrence J. Moore,Frederica F. Nelson,Sunghyun Yoon,Hyuk Lim,Dan Dongseong Kim,Jin-Hee Cho
発行日 2025-05-06 17:34:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG | Advancing Human-Machine Teaming: Concepts, Challenges, and Applications はコメントを受け付けていません

Catch Me if You Search: When Contextual Web Search Results Affect the Detection of Hallucinations

要約

さまざまなタスクについて大規模な言語モデル(LLM)にますます依存していますが、これらのモデルは不正確なコンテンツまたは「幻覚」を生成することが知られています。
Web検索結果をLLMSに最近統合すると、人々がそれらを利用して生成されたコンテンツを検証し、それにより幻覚を正確に検出するかどうかという問題が促されます。
オンライン実験(n = 560)は、静的(つまり、LLMが提供する固定検索結果)または動的(つまり、参加者主導の検索)のいずれかの検索結果の提供が、LLM生成コンテンツの知覚された精度(すなわち、本物、マイナーな幻、主要な幻覚)、「主要な評価)、自己信頼性と同様に、自己信頼性と同様の自己信頼性にどのように影響するかを調査したことを調査しました。
条件(つまり、検索結果なし)。
結果は、静的条件と動的条件(対照)の両方の参加者が、幻覚コンテンツをより正確ではなく、LLMをより否定的に認識していると評価したことを示しました。
ただし、動的な条件の人々は、本物のコンテンツをより正確であると評価し、静的検索条件や制御条件のものよりも評価における全体的な自信を高めました。
実際のコンテキストでWeb検索機能をLLMに組み込むことの実際的な意味を強調しました。

要約(オリジナル)

While we increasingly rely on large language models (LLMs) for various tasks, these models are known to produce inaccurate content or `hallucinations’ with potentially disastrous consequences. The recent integration of web search results into LLMs prompts the question of whether people utilize them to verify the generated content, thereby accurately detecting hallucinations. An online experiment (N = 560) investigated how the provision of search results, either static (i.e., fixed search results provided by LLM) or dynamic (i.e., participant-led searches), affects participants’ perceived accuracy of LLM-generated content (i.e., genuine, minor hallucination, major hallucination), self-confidence in accuracy ratings, as well as their overall evaluation of the LLM, as compared to the control condition (i.e., no search results). Results showed that participants in both static and dynamic conditions (vs. control) rated hallucinated content to be less accurate and perceived the LLM more negatively. However, those in the dynamic condition rated genuine content as more accurate and demonstrated greater overall self-confidence in their assessments than those in the static search or control conditions. We highlighted practical implications of incorporating web search functionality into LLMs in real-world contexts.

arxiv情報

著者 Mahjabin Nahar,Eun-Ju Lee,Jin Won Park,Dongwon Lee
発行日 2025-05-06 17:40:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG | Catch Me if You Search: When Contextual Web Search Results Affect the Detection of Hallucinations はコメントを受け付けていません