BHViT: Binarized Hybrid Vision Transformer

要約

モデルのバイナリゼーションは、畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にすることで大きな進歩を遂げ、エッジデバイスでVision Transfransfersons(VIT)が直面する展開課題の潜在的なソリューションを提供します。
ただし、CNNとトランスアーキテクチャの構造的な違いにより、BITモデルにバイナリCNN戦略を適用するだけで、パフォーマンスが大幅に低下します。
この課題に取り組むために、私たちは、3つの重要な観察をガイダンスした、二等式に優しいハイブリッドビットアーキテクチャとその完全な二等層モデルであるBHVITを提案します。
当初、BHVITは、ローカル情報相互作用と階層特徴の集約手法を粗いレベルから微細なレベルまで利用して、過度のトークンに起因する冗長計算に対処します。
次に、計算オーバーヘッドを大幅に増加させることなく、バイナリ多層パーセプトロン(MLP)モジュールのパフォーマンスを向上させるために、シフト操作に基づく新しいモジュールが提案されます。
さらに、量子化分解に基づく革新的な注意マトリックスの二等分法が提案され、二等層の注意マトリックスにおけるトークンの重要性を評価します。
最後に、バイナリ層の重量振動とAdam Optimizerの間の非互換性によって引き起こされる不十分な最適化に対処するための正則化の損失を提案します。
広範な実験結果は、提案されたアルゴリズムがバイナリVIT法の中でSOTAパフォーマンスを達成することを示しています。

要約(オリジナル)

Model binarization has made significant progress in enabling real-time and energy-efficient computation for convolutional neural networks (CNN), offering a potential solution to the deployment challenges faced by Vision Transformers (ViTs) on edge devices. However, due to the structural differences between CNN and Transformer architectures, simply applying binary CNN strategies to the ViT models will lead to a significant performance drop. To tackle this challenge, we propose BHViT, a binarization-friendly hybrid ViT architecture and its full binarization model with the guidance of three important observations. Initially, BHViT utilizes the local information interaction and hierarchical feature aggregation technique from coarse to fine levels to address redundant computations stemming from excessive tokens. Then, a novel module based on shift operations is proposed to enhance the performance of the binary Multilayer Perceptron (MLP) module without significantly increasing computational overhead. In addition, an innovative attention matrix binarization method based on quantization decomposition is proposed to evaluate the token’s importance in the binarized attention matrix. Finally, we propose a regularization loss to address the inadequate optimization caused by the incompatibility between the weight oscillation in the binary layers and the Adam Optimizer. Extensive experimental results demonstrate that our proposed algorithm achieves SOTA performance among binary ViT methods.

arxiv情報

著者 Tian Gao,Zhiyuan Zhang,Yu Zhang,Huajun Liu,Kaijie Yin,Chengzhong Xu,Hui Kong
発行日 2025-03-06 17:10:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BHViT: Binarized Hybrid Vision Transformer はコメントを受け付けていません

LION-FS: Fast & Slow Video-Language Thinker as Online Video Assistant

要約

一人称ビデオアシスタントは、オンラインビデオの対話を通じて私たちの日常生活を強化することを非常に期待しています。
ただし、既存のオンラインビデオアシスタントは、粗粒の視覚的特徴を使用して低フレームレートビデオを処理することにより、リアルタイムの効率のためにアシスタントの有効性を犠牲にすることがよくあります。有効性と効率性のトレードオフを克服するために、オンラインビデオアシスタント、ライオン-FS、リアルタイム、プロヤータイム、ポリティブ、およびコンテキストの正確な応答を実現することを提案します。
Lion-FSは2段階の最適化戦略を採用しています。1)高速パス:ルーティングベースの応答決定は、即時の応答が必要かどうかをフレームごとに評価します。
応答の決定精度を強化し、より高いフレームレートの入力を効率的に処理するために、トークン集約ルーティングを使用して、トークン数を増やすことなく空間的特徴を動的に融合させ、トークンドロップルーティングを利用して冗長機能を排除します。
2)スローパス:マルチ粒度キーフレームの増強は、応答生成中にキーフレームを最適化します。
トレーニングデータによって制約されている原子作用を超えた包括的かつ詳細な応答を提供するために、細粒の空間的特徴と人間と環境の相互作用機能が多粒プーリングを通じて抽出されます。
これらの機能は、より正確な応答生成をガイドするために、細心の注意を払って設計されたマルチモーダル思考テンプレートにさらに統合されています。
オンラインビデオタスクの包括的な評価は、ライオンFSが最新の有効性と効率を達成することを示しています。

要約(オリジナル)

First-person video assistants are highly anticipated to enhance our daily lives through online video dialogue. However, existing online video assistants often sacrifice assistant efficacy for real-time efficiency by processing low-frame-rate videos with coarse-grained visual features.To overcome the trade-off between efficacy and efficiency, we propose ‘Fast & Slow Video-Language Thinker’ as an onLIne videO assistaNt, LION-FS, achieving real-time, proactive, temporally accurate, and contextually precise responses. LION-FS adopts a two-stage optimization strategy: 1)Fast Path: Routing-Based Response Determination evaluates frame-by-frame whether an immediate response is necessary. To enhance response determination accuracy and handle higher frame-rate inputs efficiently, we employ Token Aggregation Routing to dynamically fuse spatiotemporal features without increasing token numbers, while utilizing Token Dropping Routing to eliminate redundant features. 2)Slow Path: Multi-granularity Keyframe Augmentation optimizes keyframes during response generation. To provide comprehensive and detailed responses beyond atomic actions constrained by training data, fine-grained spatial features and human-environment interaction features are extracted through multi-granular pooling. These features are further integrated into a meticulously designed multimodal Thinking Template to guide more precise response generation. Comprehensive evaluations on online video tasks demonstrate that LION-FS achieves state-of-the-art efficacy and efficiency.

arxiv情報

著者 Wei Li,Bing Hu,Rui Shao,Leyang Shen,Liqiang Nie
発行日 2025-03-06 16:25:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LION-FS: Fast & Slow Video-Language Thinker as Online Video Assistant はコメントを受け付けていません

Chunking the Critic: A Transformer-based Soft Actor-Critic with N-Step Returns

要約

Soft Actor-Critic(SAC)は、批評家ネットワークに大きく依存しており、通常、単一の状態アクションペアを評価してポリシーの更新をガイドします。
N-STEPリターンを使用することは、批評家の目標値のバイアスを減らすための一般的な慣行です。
ただし、N-STEPリターンを使用すると、再び高い分散が導入され、重要性のサンプリングが必要になります。
最近のアルゴリズムは、直接的なアクションの繰り返しと動きのプリミティブなど、アクションチャンキングなどを調査して、探索を強化しました。
この論文では、N-Returnsフレームワークを安定した効率的な方法で統合するSACのトランスベースの批評家ネットワークを提案します。
Actor Networkでチャンキングを実行するアプローチとは異なり、潜在的なパフォーマンスの向上を調査するために、批評家ネットワークにチャンクしたアクションをフィードします。
当社のアーキテクチャは、シーケンシャル情報を処理する変圧器の能力を活用し、より堅牢な値の推定を促進します。
経験的な結果は、この方法が効率的で安定したトレーニングを達成するだけでなく、まばらな報酬/多相環境にも優れていることを示しています。
これらの発見は、変圧器ベースの批評家とn-returnsを組み合わせて、補強学習パフォーマンスを進めるという約束を強調しています

要約(オリジナル)

Soft Actor-Critic (SAC) critically depends on its critic network, which typically evaluates a single state-action pair to guide policy updates. Using N-step returns is a common practice to reduce the bias in the target values of the critic. However, using N-step returns can again introduce high variance and necessitates importance sampling, often destabilizing training. Recent algorithms have also explored action chunking-such as direct action repetition and movement primitives-to enhance exploration. In this paper, we propose a Transformer-based Critic Network for SAC that integrates the N-returns framework in a stable and efficient manner. Unlike approaches that perform chunking in the actor network, we feed chunked actions into the critic network to explore potential performance gains. Our architecture leverages the Transformer’s ability to process sequential information, facilitating more robust value estimation. Empirical results show that this method not only achieves efficient, stable training but also excels in sparse reward/multi-phase environments-traditionally a challenge for step-based methods. These findings underscore the promise of combining Transformer-based critics with N-returns to advance reinforcement learning performance

arxiv情報

著者 Dong Tian,Ge Li,Hongyi Zhou,Onur Celik,Gerhard Neumann
発行日 2025-03-06 15:32:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Chunking the Critic: A Transformer-based Soft Actor-Critic with N-Step Returns はコメントを受け付けていません

Decoupled Recommender Systems: Exploring Alternative Recommender Ecosystem Designs

要約

推奨エコシステムは、研究の新たな主題です。
このような研究では、アルゴリズム、推奨消費者、およびアイテムプロバイダーの特性が、システムのダイナミクスと長期的な結果にどのように影響するかを調べます。
この一連の研究でまだ広く調査されていない建築の可能性の1つは、提供するプラットフォームから推奨アルゴリズムが分離される構成の結果です。
これは、「フレンドリーな近隣アルゴリズムストア」または「ミドルウェア」モデルと呼ばれることもあります。
このようなアーキテクチャが、消費者、プロバイダー、推奨プラットフォーム間でユーティリティのさまざまな分配を提供する方法に特に興味があります。
この論文では、アルゴリズムの選択を組み込んだ推奨エコシステムのモデルを作成し、そのような設計の結果を調べます。

要約(オリジナル)

Recommender ecosystems are an emerging subject of research. Such research examines how the characteristics of algorithms, recommendation consumers, and item providers influence system dynamics and long-term outcomes. One architectural possibility that has not yet been widely explored in this line of research is the consequences of a configuration in which recommendation algorithms are decoupled from the platforms they serve. This is sometimes called ‘the friendly neighborhood algorithm store’ or ‘middleware’ model. We are particularly interested in how such architectures might offer a range of different distributions of utility across consumers, providers, and recommendation platforms. In this paper, we create a model of a recommendation ecosystem that incorporates algorithm choice and examine the outcomes of such a design.

arxiv情報

著者 Anas Buhayh,Elizabeth McKinnie,Robin Burke
発行日 2025-03-06 14:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.IR | Decoupled Recommender Systems: Exploring Alternative Recommender Ecosystem Designs はコメントを受け付けていません

DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms

要約

Dongbaの絵文字は、世界でまだ使用されている唯一の絵文字です。
それらは絵の表彰台の特徴を持ち、そのシンボルには豊かな文化的および文脈情報があります。
関連するデータセットが不足しているため、既存の研究は、ドンバ絵文字の意味的理解の研究を進めることが困難です。
この目的のために、Dongbaの絵文字の意味理解と抽出のための最初のマルチモーダルデータセットであるDongbamieを提案します。
データセットは、Dongbaの絵文字画像と、対応する中国の意味注釈で構成されています。
23,530レベルと2,539の段落レベルの画像が含まれており、オブジェクト、アクション、関係、属性の4つのセマンティックディメンションをカバーしています。
GPT-4O、GEMINI-2.0、およびQWEN2-VLモデルを体系的に評価します。
実験結果は、最適なオブジェクト抽出におけるGPT-4OとGeminiのF1スコアがそれぞれ3.16と3.11であることを示しています。
監視された微調整後のQWEN2-VLのF1スコアはわずか11.49です。
これらの結果は、現在の大規模なマルチモーダルモデルが、Dongbaの絵文字の多様なセマンティック情報を正確に認識する上で依然として重要な課題に直面していることを示唆しています。
データセットはこのURLから取得できます。

要約(オリジナル)

Dongba pictographs are the only pictographs still in use in the world. They have pictorial ideographic features, and their symbols carry rich cultural and contextual information. Due to the lack of relevant datasets, existing research has difficulty in advancing the study of semantic understanding of Dongba pictographs. To this end, we propose DongbaMIE, the first multimodal dataset for semantic understanding and extraction of Dongba pictographs. The dataset consists of Dongba pictograph images and their corresponding Chinese semantic annotations. It contains 23,530 sentence-level and 2,539 paragraph-level images, covering four semantic dimensions: objects, actions, relations, and attributes. We systematically evaluate the GPT-4o, Gemini-2.0, and Qwen2-VL models. Experimental results show that the F1 scores of GPT-4o and Gemini in the best object extraction are only 3.16 and 3.11 respectively. The F1 score of Qwen2-VL after supervised fine-tuning is only 11.49. These results suggest that current large multimodal models still face significant challenges in accurately recognizing the diverse semantic information in Dongba pictographs. The dataset can be obtained from this URL.

arxiv情報

著者 Xiaojun Bi,Shuo Li,Ziyue Wang,Fuwen Luo,Weizheng Qiao,Lu Han,Ziwei Sun,Peng Li,Yang Liu
発行日 2025-03-06 11:36:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms はコメントを受け付けていません

Joint-repositionable Inner-wireless Planar Snake Robot

要約

バイオ風のマルチジョイントヘビロボットは、手足の構造と柔軟性が高いため、地形の適応性の利点を提供します。
ただし、典型的な複数ジョイントヘビロボットの一連の数十のモーターユニットは、重い体構造と数百ワットの高出力消費をもたらします。
このペーパーでは、低電力の過小作用メカニズムを使用してマルチジョイントのような移動を可能にする、共同採用可能な内部ワイヤレスヘビロボットを紹介します。
一連の柔軟なパッシブリンクで構成されるヘビロボットは、ロボット内のラックギアに沿ってモーター駆動のジョイントユニットを再配置することにより、ジョイントカップリング構成を動的に変更できます。
さらに、ソフトロボットスキンが内部ジョイントユニットにワイヤレスで動力を供給し、動きのあるジョイントユニットによって引き起こされるワイヤーのもつれや切断のリスクを回避します。
ジョイントリポジション可能なメカニズムとワイヤレス充電対応ソフトスキンの組み合わせは、1.3 kgの軽量構造と7.6ワットのエネルギー効率の高いワイヤレス電力伝送とともに、高度な曲げを実現します。

要約(オリジナル)

Bio-inspired multi-joint snake robots offer the advantages of terrain adaptability due to their limbless structure and high flexibility. However, a series of dozens of motor units in typical multiple-joint snake robots results in a heavy body structure and hundreds of watts of high power consumption. This paper presents a joint-repositionable, inner-wireless snake robot that enables multi-joint-like locomotion using a low-powered underactuated mechanism. The snake robot, consisting of a series of flexible passive links, can dynamically change its joint coupling configuration by repositioning motor-driven joint units along rack gears inside the robot. Additionally, a soft robot skin wirelessly powers the internal joint units, avoiding the risk of wire tangling and disconnection caused by the movable joint units. The combination of the joint-repositionable mechanism and the wireless-charging-enabled soft skin achieves a high degree of bending, along with a lightweight structure of 1.3 kg and energy-efficient wireless power transmission of 7.6 watts.

arxiv情報

著者 Ayato Kanada,Ryo Takahashi,Keito Hayashi,Ryusuke Hosaka,Wakako Yukita,Yasutaka Nakashima,Tomoyuki Yokota,Takao Someya,Mitsuhiro Kamezaki,Yoshihiro Kawahara,Motoji Yamamoto
発行日 2025-03-06 02:43:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Joint-repositionable Inner-wireless Planar Snake Robot はコメントを受け付けていません

TeraSim: Uncovering Unknown Unsafe Events for Autonomous Vehicles through Generative Simulation

要約

交通シミュレーションは、自動運転車(AV)開発に不可欠であり、多様な運転条件全体で包括的な安全評価を可能にします。
ただし、従来のルールベースのシミュレーターは、複雑な人間の相互作用をキャプチャするのに苦労していますが、データ駆動型のアプローチは、長期的な行動リアリズムを維持したり、多様な安全性クリティカルなイベントを生成したりすることができないことがよくあります。
これらの課題に対処するために、未知の安全でないイベントを明らかにし、クラッシュレートなどのAV統計パフォーマンスメトリックを効率的に推定するように設計されたオープンソースの高忠実度トラフィックシミュレーションプラットフォームであるTerasimを提案します。
Terasimは、完全なAVシミュレーションシステムを構築するために、サードパーティの物理シミュレータおよびスタンドアロンAVスタックとのシームレスな統合のために設計されています。
実験結果は、静的エージェントと動的エージェントの両方を含む多様な安全性批判的なイベントを生成し、AVシステムの隠された欠陥を特定し、統計的パフォーマンス評価を可能にする際の有効性を示しています。
これらの調査結果は、AVの安全性評価のための実用的なツールとしてのテラシムの可能性を強調し、研究者、開発者、政策立案者に利益をもたらします。
コードはhttps://github.com/mcity/terasimで入手できます。

要約(オリジナル)

Traffic simulation is essential for autonomous vehicle (AV) development, enabling comprehensive safety evaluation across diverse driving conditions. However, traditional rule-based simulators struggle to capture complex human interactions, while data-driven approaches often fail to maintain long-term behavioral realism or generate diverse safety-critical events. To address these challenges, we propose TeraSim, an open-source, high-fidelity traffic simulation platform designed to uncover unknown unsafe events and efficiently estimate AV statistical performance metrics, such as crash rates. TeraSim is designed for seamless integration with third-party physics simulators and standalone AV stacks, to construct a complete AV simulation system. Experimental results demonstrate its effectiveness in generating diverse safety-critical events involving both static and dynamic agents, identifying hidden deficiencies in AV systems, and enabling statistical performance evaluation. These findings highlight TeraSim’s potential as a practical tool for AV safety assessment, benefiting researchers, developers, and policymakers. The code is available at https://github.com/mcity/TeraSim.

arxiv情報

著者 Haowei Sun,Xintao Yan,Zhijie Qiao,Haojie Zhu,Yihao Sun,Jiawei Wang,Shengyin Shen,Darian Hogue,Rajanikant Ananta,Derek Johnson,Greg Stevens,Greg McGuire,Yifan Wei,Wei Zheng,Yong Sun,Yasuo Fukai,Henry X. Liu
発行日 2025-03-06 02:17:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | TeraSim: Uncovering Unknown Unsafe Events for Autonomous Vehicles through Generative Simulation はコメントを受け付けていません

Unified Mind Model: Reimagining Autonomous Agents in the LLM Era

要約

大規模な言語モデル(LLM)は最近、ドメイン、タスク、言語(ChatGPTやGPT-4など)にわたって顕著な能力を実証し、人間のような認知能力を持つ一般的な自律剤の研究を復活させました。
このような人間レベルのエージェントには、セマンティックな理解と指導に従う能力が必要であり、LLMSの強みにまったく該当します。
LLMSに基づいて人間レベルのエージェントを構築するいくつかの最初の試みがありましたが、理論的基盤は依然として挑戦的な開かれた問題です。
この論文では、人間レベルの認知能力を持つ自律剤の迅速な創造を促進するためのガイダンスを提供する、新しい理論的認知アーキテクチャである統一マインドモデル(UMM)を提案します。
具体的には、UMMはグローバルワークスペース理論から始まり、さらにLLMSを活用して、マルチモーダル認識、計画、推論、ツールの使用、学習、記憶、反射、動機など、さまざまな認知能力を持つエージェントを可能にします。
次に、UMMに基づいて、エージェントビルディングエンジンMINDOSを開発します。これにより、ユーザーはプログラミングの努力なしでドメイン/タスク固有の自律エージェントをすばやく作成できます。

要約(オリジナル)

Large language models (LLMs) have recently demonstrated remarkable capabilities across domains, tasks, and languages (e.g., ChatGPT and GPT-4), reviving the research of general autonomous agents with human-like cognitive abilities. Such human-level agents require semantic comprehension and instruction-following capabilities, which exactly fall into the strengths of LLMs. Although there have been several initial attempts to build human-level agents based on LLMs, the theoretical foundation remains a challenging open problem. In this paper, we propose a novel theoretical cognitive architecture, the Unified Mind Model (UMM), which offers guidance to facilitate the rapid creation of autonomous agents with human-level cognitive abilities. Specifically, our UMM starts with the global workspace theory and further leverage LLMs to enable the agent with various cognitive abilities, such as multi-modal perception, planning, reasoning, tool use, learning, memory, reflection and motivation. Building upon UMM, we then develop an agent-building engine, MindOS, which allows users to quickly create domain-/task-specific autonomous agents without any programming effort.

arxiv情報

著者 Pengbo Hu,Xiang Ying
発行日 2025-03-06 03:32:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Unified Mind Model: Reimagining Autonomous Agents in the LLM Era はコメントを受け付けていません

SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks

要約

Starcraft Multi-Agent Challenge(SMAC)は、マルチエージェント補強学習(MARL)で最も一般的に使用される実験環境の1つであり、特定のタスクは、敵軍を倒すためにセット数の関連ユニットを制御することです。
従来のMARLアルゴリズムは、多くの場合、数百万のステップで環境と対話する必要があります。パラメトリックモデルをトレーニングします。このポリシーは、通常、移動性が低い場合に解釈できません。
この論文では、DeepSeek-Coder-V2.5-236Bから蒸留されたQWEN2.5-7BベースLLMに基づくSMAC-R1を紹介します。
オフライン学習プロセスでの動作後のオンライン強化学習と同様に、パイプラインでは、エージェントはDeepSeek LLMを活用してタスクの説明を提供することで決定ツリーコードを生成し、エージェントは環境が提供する報酬からのフィードバックを使用してさらに自己反映されます。
それに基づいて、生成されたスクリプトを拡張して、小さなLLM、QWEN2.5-7Bベースを微調整して、監視された微調整(SFT)を介して意思決定能力を蒸留し、グループ相対ポリシー最適化(GRPO)アルゴリズムによってスクリプト生成能力を強化します。
元の23のSMACタスクと10の新しく設計されたタスクで実験を実施して、この方法で最小限の環境探査で高品質で解釈可能な決定ツリーを生成できることを実証します。
さらに、これらのスクリプトは強い転送可能性を示し、変更なしで均質なSMAC環境に正常に適用します。
このアプローチは、将来の意思決定タスクとドメイン固有のLLMトレーニングパイプラインを解決するための新しい方向性を提供すると考えています。

要約(オリジナル)

StarCraft Multi-Agent Challenge (SMAC) has been one of the most commonly used experimental environments in multi-agent reinforcement learning (MARL), where the specific task is to control a set number of allied units to defeat enemy forces. Traditional MARL algorithms often require interacting with the environment for millions of steps to train a parametric model, of which the resulting policies are typically non-interpretable with weak transferability. In this paper, we introduce SMAC-R1 which is based on the Qwen2.5-7B-Base LLM distilled from DeepSeek-Coder-v2.5-236B. Similar to online reinforcement learning after behavior cloning in offline learning process, in our pipeline, agents leverage the DeepSeek LLM to generate decision tree code by providing task descriptions, and the agents are further self-reflected using feedback from the rewards provided by the environment. Based on that, we augment the generated scripts to fine-tune a small LLM, Qwen2.5-7B-Base, to distill the decision-making ability via Supervised Fine-Tuning (SFT) and enhance the script generation ability by the Group Relative Policy Optimization (GRPO) algorithm. We conduct experiments in the original 23 SMAC tasks and 10 newly-designed tasks to demonstrate that our method can produce high-quality, interpretable decision trees with minimal environmental exploration. Moreover, these scripts exhibit strong transferability, successfully applying to homogeneous SMAC environments without modification. We believe this approach offers a new direction for solving decision-making tasks and domain-specific LLM training pipelines in the future.

arxiv情報

著者 Yue Deng,Weiyu Ma,Yuxin Fan,Ruyi Song,Yin Zhang,Haifeng Zhang,Jian Zhao
発行日 2025-03-06 05:38:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks はコメントを受け付けていません

Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection

要約

人間は、オブジェクトが条件付けられた物理的知識に基づいて知覚、相互作用、および推論をすることにより、実際のオブジェクトの異常を検出します。
産業異常検出(IAD)の長期的な目標は、マシンがこのスキルを自律的に複製できるようにすることです。
ただし、現在のIADアルゴリズムは、物理的な理解と推論が不可欠である実際のシナリオから分岐する静的なセマンティックに単純なデータセットで主に開発およびテストされています。
このギャップを埋めるために、物理学の異常検出(Phys-AD)データセットを導入します。これは、産業用アノマリー検出のための最初の大規模で現実世界の物理的根拠のあるビデオデータセットです。
実際のロボットアームとモーターを使用して収集されたPhys-ADは、ダイナミックで意味的に豊富なシナリオの多様なセットを提供します。
データセットには、22の実際のオブジェクトカテゴリにわたって6400を超えるビデオが含まれており、ロボットアームやモーターと対話し、47種類の異常を示しています。
物理ADの異常検出には、物理​​的知識とビデオコンテンツの両方を組み合わせてオブジェクトの異常を決定する視覚的推論が必要です。
3つの設定に基づく最先端の異常検出方法をベンチマークします:監視されていない広告、弱体化された広告、およびビデオ理解広告は、物理学に基づいた異常の処理における制限を強調しています。
さらに、視覚言語の基礎モデルが異常を検出するだけでなく、根本的な物理的原因について正確な説明を提供するように設計された物理異常の説明(Paeval)メトリックを紹介します。
データセットとベンチマークは公開されます。

要約(オリジナル)

Humans detect real-world object anomalies by perceiving, interacting, and reasoning based on object-conditioned physical knowledge. The long-term goal of Industrial Anomaly Detection (IAD) is to enable machines to autonomously replicate this skill. However, current IAD algorithms are largely developed and tested on static, semantically simple datasets, which diverge from real-world scenarios where physical understanding and reasoning are essential. To bridge this gap, we introduce the Physics Anomaly Detection (Phys-AD) dataset, the first large-scale, real-world, physics-grounded video dataset for industrial anomaly detection. Collected using a real robot arm and motor, Phys-AD provides a diverse set of dynamic, semantically rich scenarios. The dataset includes more than 6400 videos across 22 real-world object categories, interacting with robot arms and motors, and exhibits 47 types of anomalies. Anomaly detection in Phys-AD requires visual reasoning, combining both physical knowledge and video content to determine object abnormality. We benchmark state-of-the-art anomaly detection methods under three settings: unsupervised AD, weakly-supervised AD, and video-understanding AD, highlighting their limitations in handling physics-grounded anomalies. Additionally, we introduce the Physics Anomaly Explanation (PAEval) metric, designed to assess the ability of visual-language foundation models to not only detect anomalies but also provide accurate explanations for their underlying physical causes. Our dataset and benchmark will be publicly available.

arxiv情報

著者 Wenqiao Li,Yao Gu,Xintao Chen,Xiaohao Xu,Ming Hu,Xiaonan Huang,Yingna Wu
発行日 2025-03-06 03:06:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection はコメントを受け付けていません