Revealing Bias Formation in Deep Neural Networks Through the Geometric Mechanisms of Human Visual Decoupling

要約

ディープニューラルネットワーク(DNNS)は、バランスの取れたトレーニングデータ条件下であっても、オブジェクト認識中に特定のカテゴリにバイアスを示すことがよくあります。
これらのバイアスの根底にある固有のメカニズムは不明のままです。
オブジェクトのマニホールドを階層処理を介してオブジェクト認識を実現する人間の視覚システムに触発され、DNNSのクラス固有の知覚マニホールドの幾何学的複雑さをモデル化する幾何学的複雑さをリンクする幾何学的分析フレームワークを提案します。
私たちの調査結果は、幾何学的な複雑さの違いが、カテゴリ全体で認識能力が変化し、バイアスが導入される可能性があることを明らかにしています。
この分析をサポートするために、知覚マニホールドの幾何学的特性を計算するために設計された知覚マニホールドジオメトリライブラリを提示します。

要約(オリジナル)

Deep neural networks (DNNs) often exhibit biases toward certain categories during object recognition, even under balanced training data conditions. The intrinsic mechanisms underlying these biases remain unclear. Inspired by the human visual system, which decouples object manifolds through hierarchical processing to achieve object recognition, we propose a geometric analysis framework linking the geometric complexity of class-specific perceptual manifolds in DNNs to model bias. Our findings reveal that differences in geometric complexity can lead to varying recognition capabilities across categories, introducing biases. To support this analysis, we present the Perceptual-Manifold-Geometry library, designed for calculating the geometric properties of perceptual manifolds.

arxiv情報

著者 Yanbiao Ma,Bowei Liu,Wei Dai,Jiayi Chen,Shuo Li
発行日 2025-02-17 13:54:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Revealing Bias Formation in Deep Neural Networks Through the Geometric Mechanisms of Human Visual Decoupling はコメントを受け付けていません

Towards Scalable Insect Monitoring: Ultra-Lightweight CNNs as On-Device Triggers for Insect Camera Traps

要約

AIと組み合わせたカメラトラップは、自動化されたスケーラブルな生物多様性監視を実現する方法として浮上しています。
ただし、カメラトラップをトリガーするパッシブ赤外線(PIR)センサーは、昆虫などの小さな動きのある外洋を検出するのに適していません。
昆虫はすべての動物種の半分以上を構成し、生態系と農業の重要な要素です。
適切でスケーラブルな昆虫カメラトラップの必要性は、昆虫集団の減少の報告を受けて重要です。
この研究では、PIRトリガーの代替手段を提案しています。低電力ハードウェアで実行されている超軽量畳み込み型畳み込みニューラルネットワークは、キャプチャされた画像の連続ストリームで昆虫を検出します。
昆虫の画像を背景と区別するために、一連のモデルを訓練します。
当社のデザインは、トリガーと画像キャプチャの間でゼロレイテンシを実現します。
私たちのモデルは厳密にテストされており、検証データで91.8%から96.4%のAUC、およびトレーニング中に見えない分布からのデータで87%を超えるAUCの範囲の高精度を達成します。
モデルの特異性が高いため、誤った陽性画像を最小限に抑え、展開ストレージ効率を最大化します。
高いリコールスコアは、最小の偽陰性率を示し、昆虫の検出を最大化します。
顕著性マップを使用したさらなる分析は、スプリアスな背景機能への依存度が低いため、モデルの学習された表現が堅牢であることを示しています。
また、私たちのシステムは、300MW未満の最大電力抽選を消費する、既製の低電力マイクロコントローラーユニットに展開された動作も示されています。
これにより、安価で容易に利用できるバッテリーコンポーネントを使用して、より長い展開時間が可能になります。
全体的に、昆虫モニタリングのコスト、効率、範囲のステップ変更を提供します。
挑戦的なトリガーの問題を解決すると、既存の設計や予算の電力と帯域幅よりもはるかに長く展開できるシステムを実証し、一般的な昆虫カメラトラップに向かって移動します。

要約(オリジナル)

Camera traps, combined with AI, have emerged as a way to achieve automated, scalable biodiversity monitoring. However, the passive infrared (PIR) sensors that trigger camera traps are poorly suited for detecting small, fast-moving ectotherms such as insects. Insects comprise over half of all animal species and are key components of ecosystems and agriculture. The need for an appropriate and scalable insect camera trap is critical in the wake of concerning reports of declines in insect populations. This study proposes an alternative to the PIR trigger: ultra-lightweight convolutional neural networks running on low-powered hardware to detect insects in a continuous stream of captured images. We train a suite of models to distinguish insect images from backgrounds. Our design achieves zero latency between trigger and image capture. Our models are rigorously tested and achieve high accuracy ranging from 91.8% to 96.4% AUC on validation data and >87% AUC on data from distributions unseen during training. The high specificity of our models ensures minimal saving of false positive images, maximising deployment storage efficiency. High recall scores indicate a minimal false negative rate, maximising insect detection. Further analysis with saliency maps shows the learned representation of our models to be robust, with low reliance on spurious background features. Our system is also shown to operate deployed on off-the-shelf, low-powered microcontroller units, consuming a maximum power draw of less than 300mW. This enables longer deployment times using cheap and readily available battery components. Overall we offer a step change in the cost, efficiency and scope of insect monitoring. Solving the challenging trigger problem, we demonstrate a system which can be deployed for far longer than existing designs and budgets power and bandwidth effectively, moving towards a generic insect camera trap.

arxiv情報

著者 Ross Gardiner,Sareh Rowands,Benno I. Simmons
発行日 2025-02-17 14:21:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, q-bio.QM | Towards Scalable Insect Monitoring: Ultra-Lightweight CNNs as On-Device Triggers for Insect Camera Traps はコメントを受け付けていません

Intuitive physics understanding emerges from self-supervised pretraining on natural videos

要約

私たちは、自然なビデオの仮面領域を予測するために訓練された一般的な深い神経ネットワークモデルにおける直感的な物理学の理解の出現を調査します。
除外違反のフレームワークを活用して、学習した表現空間の結果を予測するために訓練されたビデオ予測モデルは、オブジェクトの永続性や形状の一貫性などのさまざまな直感的な物理特性の理解を示していることがわかります。
対照的に、ピクセル空間とマルチモーダルの大規模な言語モデルのビデオ予測は、テキストを通じて偶然に近いパフォーマンスを実現します。
これらのアーキテクチャの比較は、予測的なコーディングに似た感覚入力の欠落部分を予測しながら抽象表現空間を共同で学習し、直感的な物理学の理解を得るのに十分であり、ユニークなビデオの1週間で訓練されたモデルでさえ偶然を超えるモデルを達成することでさえ、
パフォーマンス。
これは、世界を理解するのに役立つ生来のシステムのセットであるコア知識が、直感的な物理学を理解するためにハードワイヤードする必要があるという考えに挑戦しています。

要約(オリジナル)

We investigate the emergence of intuitive physics understanding in general-purpose deep neural network models trained to predict masked regions in natural videos. Leveraging the violation-of-expectation framework, we find that video prediction models trained to predict outcomes in a learned representation space demonstrate an understanding of various intuitive physics properties, such as object permanence and shape consistency. In contrast, video prediction in pixel space and multimodal large language models, which reason through text, achieve performance closer to chance. Our comparisons of these architectures reveal that jointly learning an abstract representation space while predicting missing parts of sensory input, akin to predictive coding, is sufficient to acquire an understanding of intuitive physics, and that even models trained on one week of unique video achieve above chance performance. This challenges the idea that core knowledge — a set of innate systems to help understand the world — needs to be hardwired to develop an understanding of intuitive physics.

arxiv情報

著者 Quentin Garrido,Nicolas Ballas,Mahmoud Assran,Adrien Bardes,Laurent Najman,Michael Rabbat,Emmanuel Dupoux,Yann LeCun
発行日 2025-02-17 14:27:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Intuitive physics understanding emerges from self-supervised pretraining on natural videos はコメントを受け付けていません

ChordFormer: A Conformer-Based Architecture for Large-Vocabulary Audio Chord Recognition

要約

コード認識は、音楽分析におけるコードの抽象的で記述的な性質のため、音楽情報の検索の重要なタスクとして機能します。
オーディオコード認識システムは、小さな語彙(たとえば、メジャー/マイナーコード)に対してかなりの精度を達成していますが、大規模な弦の認識は依然として困難な問題です。
この複雑さは、ほとんどのデータセットで希少なコードタイプが過小評価されているコードの固有の長期尾の分布からも発生し、トレーニングサンプルが不十分です。
効果的なコード認識には、オーディオシーケンスからのコンテキスト情報を活用する必要がありますが、畳み込みニューラルネットワークの組み合わせ、双方向の長期メモリネットワーク、双方向変圧器の組み合わせなど、既存のモデルは、長期依存関係をキャプチャし、大規模なパフォーマンスを示す上位のパフォーマンスを示す必要があります。
語彙コード認識タスク。
この作品は、大きな語彙のための構造的コード認識(トライアド、ベース、セブンス)に取り組むように設計された新しい配座異性体ベースのアーキテクチャであるChordformerを提案します。
CHORDFORMERは、コンボリューションニューラルネットワークを変圧器と統合するコンフォーマーブロックをレバレッジするため、モデルがローカルパターンとグローバル依存関係の両方を効果的にキャプチャできるようにします。
再重み付けされた損失関数と構造化されたコード表現を介したクラスの不均衡などの課題に対処することにより、Chordformerは最先端のモデルよりも優れており、フレームごとの精度の2%の改善と、クラスごとの精度の6%の増加を達成します。
-vocabulary Chordデータセット。
さらに、Chordformerはクラスの不均衡の取り扱いに優れており、コードタイプ全体で堅牢でバランスの取れた認識を提供します。
このアプローチは、理論的な音楽知識と実用的なアプリケーションの間のギャップを埋め、大規模なコード認識の分野を進めます。

要約(オリジナル)

Chord recognition serves as a critical task in music information retrieval due to the abstract and descriptive nature of chords in music analysis. While audio chord recognition systems have achieved significant accuracy for small vocabularies (e.g., major/minor chords), large-vocabulary chord recognition remains a challenging problem. This complexity also arises from the inherent long-tail distribution of chords, where rare chord types are underrepresented in most datasets, leading to insufficient training samples. Effective chord recognition requires leveraging contextual information from audio sequences, yet existing models, such as combinations of convolutional neural networks, bidirectional long short-term memory networks, and bidirectional transformers, face limitations in capturing long-term dependencies and exhibit suboptimal performance on large-vocabulary chord recognition tasks. This work proposes ChordFormer, a novel conformer-based architecture designed to tackle structural chord recognition (e.g., triads, bass, sevenths) for large vocabularies. ChordFormer leverages conformer blocks that integrate convolutional neural networks with transformers, thus enabling the model to capture both local patterns and global dependencies effectively. By addressing challenges such as class imbalance through a reweighted loss function and structured chord representations, ChordFormer outperforms state-of-the-art models, achieving a 2% improvement in frame-wise accuracy and a 6% increase in class-wise accuracy on large-vocabulary chord datasets. Furthermore, ChordFormer excels in handling class imbalance, providing robust and balanced recognition across chord types. This approach bridges the gap between theoretical music knowledge and practical applications, advancing the field of large-vocabulary chord recognition.

arxiv情報

著者 Muhammad Waseem Akram,Stefano Dettori,Valentina Colla,Giorgio Carlo Buttazzo
発行日 2025-02-17 14:35:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG, cs.SD | ChordFormer: A Conformer-Based Architecture for Large-Vocabulary Audio Chord Recognition はコメントを受け付けていません

Evaluation of End-to-End Continuous Spanish Lipreading in Different Data Conditions

要約

視覚的な音声認識は、視覚的なあいまいさ、スピーカー間の人間間変動、沈黙の複雑なモデリングなど、聴覚的な意味を分配することによって、さまざまな課題を考慮する必要があるオープンな研究問題のままです。
それにもかかわらず、大規模なデータベースの利用可能性と強力な注意メカニズムの使用により、最近の顕著な結果がこの分野で達成されています。
その上、英語を除いて複数の言語は最近では興味深いものです。
このペーパーでは、スペイン語の自動連続リップリーディングの顕著な進歩を示しています。
まず、ハイブリッドCTC/注意アーキテクチャに基づくエンドツーエンドシステムが提示されます。
実験は、異なる性質の2つのコーパスで行われ、両方のデータベースでこれまでに得られた最高のパフォーマンスを大幅に改善する最先端の結果に達します。
さらに、徹底的なアブレーション研究が実施され、アーキテクチャを形成するさまざまなコンポーネントが音声認識の質にどのように影響するかを研究されています。
次に、自動システムの学習に影響を与える可能性のあるさまざまな要因を調査するために、厳密なエラー分析が実行されます。
最後に、新しいスペインのリップリーディングベンチマークが統合されます。
コードモデルと訓練されたモデルは、https://github.com/david-gimeno/evaluating-end2end-spanish-lipreadingで入手できます。

要約(オリジナル)

Visual speech recognition remains an open research problem where different challenges must be considered by dispensing with the auditory sense, such as visual ambiguities, the inter-personal variability among speakers, and the complex modeling of silence. Nonetheless, recent remarkable results have been achieved in the field thanks to the availability of large-scale databases and the use of powerful attention mechanisms. Besides, multiple languages apart from English are nowadays a focus of interest. This paper presents noticeable advances in automatic continuous lipreading for Spanish. First, an end-to-end system based on the hybrid CTC/Attention architecture is presented. Experiments are conducted on two corpora of disparate nature, reaching state-of-the-art results that significantly improve the best performance obtained to date for both databases. In addition, a thorough ablation study is carried out, where it is studied how the different components that form the architecture influence the quality of speech recognition. Then, a rigorous error analysis is carried out to investigate the different factors that could affect the learning of the automatic system. Finally, a new Spanish lipreading benchmark is consolidated. Code and trained models are available at https://github.com/david-gimeno/evaluating-end2end-spanish-lipreading.

arxiv情報

著者 David Gimeno-Gómez,Carlos-D. Martínez-Hinarejos
発行日 2025-02-17 14:44:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Evaluation of End-to-End Continuous Spanish Lipreading in Different Data Conditions はコメントを受け付けていません

Steering the LoCoMotif: Using Domain Knowledge in Time Series Motif Discovery

要約

時系列モチーフディスカバリー(TSMD)は、時系列データの繰り返しパターンを識別しますが、その教師のない性質は、ユーザーにとって興味深いモチーフにつながる可能性があります。
これに対処するために、ユーザーがモチーフに制約を課すことができるフレームワークを提案します。ここで、アプリケーションドメイン内の目的のモチーフのプロパティに従って制約を簡単に定義できます。
また、フレームワークであるMocomotif-Dokアルゴリズムの効率的な実装も提案しています。
Locomotif-Dokが、実際のデータと合成データでドメインの知識を効果的に活用し、限られた形式のドメイン知識のみをサポートする他のTSMD技術を上回ることができることを実証します。

要約(オリジナル)

Time Series Motif Discovery (TSMD) identifies repeating patterns in time series data, but its unsupervised nature might result in motifs that are not interesting to the user. To address this, we propose a framework that allows the user to impose constraints on the motifs to be discovered, where constraints can easily be defined according to the properties of the desired motifs in the application domain. We also propose an efficient implementation of the framework, the LoCoMotif-DoK algorithm. We demonstrate that LoCoMotif-DoK can effectively leverage domain knowledge in real and synthetic data, outperforming other TSMD techniques which only support a limited form of domain knowledge.

arxiv情報

著者 Aras Yurtman,Daan Van Wesenbeeck,Wannes Meert,Hendrik Blockeel
発行日 2025-02-17 14:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Steering the LoCoMotif: Using Domain Knowledge in Time Series Motif Discovery はコメントを受け付けていません

Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives

要約

視聴覚学習は、複数の感覚モダリティを活用することにより、現実の世界をより豊かに理解してモデルを装備していますが、この統合は敵対的な攻撃に対して新しい脆弱性も導入します。
この論文では、時間的およびモダリティ固有の脆弱性の両方を考慮して、視聴覚モデルの敵対的な堅牢性に関する包括的な研究を提示します。
2つの強力な敵対的攻撃を提案します。1)連続した時間セグメントにわたって固有の時間的冗長性を活用する時間的不変攻撃と2)音声と視覚モダリティの不一致をもたらすモダリティの不整合攻撃。
これらの攻撃は、多様な脅威に対する視聴覚モデルの堅牢性を徹底的に評価するように設計されています。
さらに、このような攻撃から防御するために、新しい視聴覚敵の敵対的訓練フレームワークを紹介します。
このフレームワークは、マルチモーダルデータと敵対的なカリキュラム戦略に合わせて調整された効率的な敵対的な摂動クラフトを組み込むことにより、バニラ敵対的訓練における重要な課題に対処します。
速度論的サウンドデータセットでの広範な実験は、モデルのパフォーマンスを低下させるために提案されている時間的およびモダリティベースの攻撃が最先端のパフォーマンスを達成できることを示していますが、敵対的なトレーニングの防御により、敵対的な訓練効率性が大幅に改善されることが示されています。

要約(オリジナル)

While audio-visual learning equips models with a richer understanding of the real world by leveraging multiple sensory modalities, this integration also introduces new vulnerabilities to adversarial attacks. In this paper, we present a comprehensive study of the adversarial robustness of audio-visual models, considering both temporal and modality-specific vulnerabilities. We propose two powerful adversarial attacks: 1) a temporal invariance attack that exploits the inherent temporal redundancy across consecutive time segments and 2) a modality misalignment attack that introduces incongruence between the audio and visual modalities. These attacks are designed to thoroughly assess the robustness of audio-visual models against diverse threats. Furthermore, to defend against such attacks, we introduce a novel audio-visual adversarial training framework. This framework addresses key challenges in vanilla adversarial training by incorporating efficient adversarial perturbation crafting tailored to multi-modal data and an adversarial curriculum strategy. Extensive experiments in the Kinetics-Sounds dataset demonstrate that our proposed temporal and modality-based attacks in degrading model performance can achieve state-of-the-art performance, while our adversarial training defense largely improves the adversarial robustness as well as the adversarial training efficiency.

arxiv情報

著者 Zeliang Zhang,Susan Liang,Daiki Shimada,Chenliang Xu
発行日 2025-02-17 14:50:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD | Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives はコメントを受け付けていません

Defining and Evaluating Visual Language Models’ Basic Spatial Abilities: A Perspective from Psychometrics

要約

複数のインテリジェンスの理論は、認知能力の階層的な性質を強調しています。
空間人工知能を進めるために、視覚言語モデル(VLMS)の5つの基本的な空間能力(BSA)を定義する心理測定フレームワークの先駆者:空間的知覚、空間的関係、空間方向、精神回転、および空間視覚化。
9つの検証済みの心理測定実験を通じて13の主流VLMS 13の主流VLMSは、人間に対して有意なギャップ(平均スコア24.95対68.38)、3つの重要な調査結果を示し、VLMSミラーのヒト階層(2D回転で最も強く、3D回転で最も弱い)を独立したBSAS(Pearson’s Human Hierarchies)
R <0.4); 2)QWEN2-VL-7Bなどの小型モデルは、QWENがリード(30.82)とInternVL2の遅れ(19.6)で大規模な対応物を上回ります。 3)考え方のチェーン(0.100精度ゲイン)や5ショットトレーニング(0.259の改善)などの介入は、建築上の制約からの制限を示しています。 識別された障壁には、動的シミュレーションの弱いジオメトリが弱いことが含まれます。 心理測定BSAをVLM機能にリンクすることにより、空間インテリジェンス評価のための診断ツールキット、具体化されたAI開発のための方法論的基礎、および人間のような空間知能を達成するための認知科学に基づいたロードマップを提供します。

要約(オリジナル)

The Theory of Multiple Intelligences underscores the hierarchical nature of cognitive capabilities. To advance Spatial Artificial Intelligence, we pioneer a psychometric framework defining five Basic Spatial Abilities (BSAs) in Visual Language Models (VLMs): Spatial Perception, Spatial Relation, Spatial Orientation, Mental Rotation, and Spatial Visualization. Benchmarking 13 mainstream VLMs through nine validated psychometric experiments reveals significant gaps versus humans (average score 24.95 vs. 68.38), with three key findings: 1) VLMs mirror human hierarchies (strongest in 2D orientation, weakest in 3D rotation) with independent BSAs (Pearson’s r<0.4); 2) Smaller models such as Qwen2-VL-7B surpass larger counterparts, with Qwen leading (30.82) and InternVL2 lagging (19.6); 3) Interventions like chain-of-thought (0.100 accuracy gain) and 5-shot training (0.259 improvement) show limits from architectural constraints. Identified barriers include weak geometry encoding and missing dynamic simulation. By linking psychometric BSAs to VLM capabilities, we provide a diagnostic toolkit for spatial intelligence evaluation, methodological foundations for embodied AI development, and a cognitive science-informed roadmap for achieving human-like spatial intelligence.

arxiv情報

著者 Wenrui Xu,Dalin Lyu,Weihang Wang,Jie Feng,Chen Gao,Yong Li
発行日 2025-02-17 14:50:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Defining and Evaluating Visual Language Models’ Basic Spatial Abilities: A Perspective from Psychometrics はコメントを受け付けていません

Does Knowledge About Perceptual Uncertainty Help an Agent in Automated Driving?

要約

自動化された運転のような現実世界のシナリオのエージェントは、特に知覚的な不確実性のために、環境の不確実性に対処します。
補強学習は、不確実性の下での自律的な意思決定に専念していますが、これらのアルゴリズムは通常、環境に含まれている不確実性について知らされていません。
一方、知覚自体の不確実性の推定は、一般的に、カメラの画像に基づいた誤陽性検出率またはキャリブレーションエラーの観点から、知覚ドメインで直接評価されます。
目標指向のアクションを決定するためのその使用は、ほとんど実施されていません。
この論文では、この不確実性に関する情報が利用可能な場合、エージェントの行動が不確実な認識にどのように影響され、この行動がどのように変化するかを調査します。
したがって、他の道路利用者と衝突することなく、可能な限り速くルートを運転することでエージェントが報われるプロキシタスクを検討します。
対照実験については、後者を通知しながら与えられた薬剤の認識を摂動することにより、観測空間に不確実性を導入します。
私たちの実験は、乱れた知覚によってモデル化された信頼できない観察スペースが、エージェントの防御的な運転行動につながることを示しています。
さらに、現在の不確実性に関する情報を観測​​空間に直接追加すると、エージェントは特定の状況に適応し、一般にタスクをより速く達成し、同時にリスクを占めます。

要約(オリジナル)

Agents in real-world scenarios like automated driving deal with uncertainty in their environment, in particular due to perceptual uncertainty. Although, reinforcement learning is dedicated to autonomous decision-making under uncertainty these algorithms are typically not informed about the uncertainty currently contained in their environment. On the other hand, uncertainty estimation for perception itself is typically directly evaluated in the perception domain, e.g., in terms of false positive detection rates or calibration errors based on camera images. Its use for deciding on goal-oriented actions remains largely unstudied. In this paper, we investigate how an agent’s behavior is influenced by an uncertain perception and how this behavior changes if information about this uncertainty is available. Therefore, we consider a proxy task, where the agent is rewarded for driving a route as fast as possible without colliding with other road users. For controlled experiments, we introduce uncertainty in the observation space by perturbing the perception of the given agent while informing the latter. Our experiments show that an unreliable observation space modeled by a perturbed perception leads to a defensive driving behavior of the agent. Furthermore, when adding the information about the current uncertainty directly to the observation space, the agent adapts to the specific situation and in general accomplishes its task faster while, at the same time, accounting for risks.

arxiv情報

著者 Natalie Grabowsky,Annika Mütze,Joshua Wendland,Nils Jansen,Matthias Rottmann
発行日 2025-02-17 14:56:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Does Knowledge About Perceptual Uncertainty Help an Agent in Automated Driving? はコメントを受け付けていません

Understanding Long Videos with Multimodal Language Models

要約

大規模な言語モデル(LLM)により、最近のLLMベースのアプローチが可能になり、長距離理解ベンチマークで優れたパフォーマンスを実現しています。
私たちは、基礎となるLLMの広範な世界知識と強力な推論スキルがこの強力なパフォーマンスにどのように影響するかを調査します。
驚くべきことに、LLMベースのアプローチは、ビデオ具体情報が限られている場合でも、ビデオ情報が限られている場合でも、驚くほど良好な精度をもたらす可能性があることがわかります。
これに基づいて、ビデオ固有の情報をLLMベースのフレームワークに注入することを検討します。
既製のビジョンツールを利用して、ビデオから3つのオブジェクト中心の情報モダリティを抽出し、この情報を融合するための媒体として自然言語を活用します。
結果として生じるマルチモーダルビデオ理解(MVU)フレームワークは、複数のビデオ理解ベンチマークにわたって最先端のパフォーマンスを示しています。
また、ロボティクスドメインタスクでの強力なパフォーマンスは、その強力な一般性を確立します。
私たちのコードは公開されます。

要約(オリジナル)

Large Language Models (LLMs) have allowed recent LLM-based approaches to achieve excellent performance on long-video understanding benchmarks. We investigate how extensive world knowledge and strong reasoning skills of underlying LLMs influence this strong performance. Surprisingly, we discover that LLM-based approaches can yield surprisingly good accuracy on long-video tasks with limited video information, sometimes even with no video specific information. Building on this, we exploring injecting video-specific information into an LLM-based framework. We utilize off-the-shelf vision tools to extract three object-centric information modalities from videos and then leverage natural language as a medium for fusing this information. Our resulting Multimodal Video Understanding (MVU) framework demonstrates state-of-the-art performance across multiple video understanding benchmarks. Strong performance also on robotics domain tasks establish its strong generality. Our code will be released publicly.

arxiv情報

著者 Kanchana Ranasinghe,Xiang Li,Kumara Kahatapitiya,Michael S. Ryoo
発行日 2025-02-17 14:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Understanding Long Videos with Multimodal Language Models はコメントを受け付けていません