Enhancing Vehicle Make and Model Recognition with 3D Attention Modules

要約

車両の製造およびモデル認識(VMMR)は、インテリジェント輸送システムの重要な要素であり、近年大きな注目を集めています。
VMMRは、疑わしい車両の検出、都市交通の監視、および自律運転システムの検出に広く利用されています。
VMMRの複雑さは、車両モデルの微妙な視覚的区別と、メーカーが生産するさまざまなクラスから生じます。
顕著なタイプの深い学習モデルである畳み込みニューラルネットワーク(CNNS)は、VMMRを含むさまざまなコンピュータービジョンタスクで広く採用されており、顕著な結果が得られています。
VMMRはきめの細かい分類の問題であるため、主にクラス間の類似性とクラス内のバリエーションの課題に直面しています。
この調査では、これらの課題に対処し、際立った機能を含む重要な領域にモデルの焦点を強化するための注意モジュールを実装します。
元のモデルのパラメーターを増やさないこのモジュールは、3次元(3-D)注意ウェイトを生成して、機能マップを改良します。
提案されたモデルは、注意モジュールを畳み込みモデルの中央セクション内の2つの異なる場所に統合します。これらのセクションの機能マップは、過度に詳細または過度に粗くすることなく、入力フレームに関する十分な情報を提供します。
提案されたモデルのパフォーマンスは、最先端の(SOTA)畳み込みおよび変圧器ベースのモデルとともに、Stanford Carsデータセットを使用して評価されました。
提案されたモデルは、比較モデルの中で最も高い精度である90.69 \%を達成しました。

要約(オリジナル)

Vehicle make and model recognition (VMMR) is a crucial component of the Intelligent Transport System, garnering significant attention in recent years. VMMR has been widely utilized for detecting suspicious vehicles, monitoring urban traffic, and autonomous driving systems. The complexity of VMMR arises from the subtle visual distinctions among vehicle models and the wide variety of classes produced by manufacturers. Convolutional Neural Networks (CNNs), a prominent type of deep learning model, have been extensively employed in various computer vision tasks, including VMMR, yielding remarkable results. As VMMR is a fine-grained classification problem, it primarily faces inter-class similarity and intra-class variation challenges. In this study, we implement an attention module to address these challenges and enhance the model’s focus on critical areas containing distinguishing features. This module, which does not increase the parameters of the original model, generates three-dimensional (3-D) attention weights to refine the feature map. Our proposed model integrates the attention module into two different locations within the middle section of a convolutional model, where the feature maps from these sections offer sufficient information about the input frames without being overly detailed or overly coarse. The performance of our proposed model, along with state-of-the-art (SOTA) convolutional and transformer-based models, was evaluated using the Stanford Cars dataset. Our proposed model achieved the highest accuracy, 90.69\%, among the compared models.

arxiv情報

著者 Narges Semiromizadeh,Omid Nejati Manzari,Shahriar B. Shokouhi,Sattar Mirzakuchaki
発行日 2025-02-21 11:52:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Enhancing Vehicle Make and Model Recognition with 3D Attention Modules はコメントを受け付けていません

Generative Video Diffusion for Unseen Novel Semantic Video Moment Retrieval

要約

ビデオモーメント検索(VMR)は、非トリムビデオのテキストクエリに対応する最も可能性の高いビデオモーメントを見つけることを目的としています。
既存の方法のトレーニングは、多様で一般化可能なVMRデータセットの欠如により制限され、モーメントテキスト関連を新しいセマンティックコンセプトを含むクエリに一般化する能力を妨げます(トレーニングソースドメインで視覚的およびテキストの両方で見えない)。
新しいセマンティクスへのモデル一般化のために、既存の方法は、ソースドメインペアワイズトレーニングデータに加えて、ターゲットドメインからのビデオとテキストの両方のペアにアクセスできると仮定することに大きく依存しています。
これは実用的でもスケーラブルでもありません。
この作業では、ターゲットドメインからビデオを見ずにモデルトレーニングで利用できる新しいセマンティクスを説明するテキスト文のみが利用できると仮定することにより、より一般化可能なアプローチを導入します。
そのために、FVEと呼ばれる微調整されたビデオ編集フレームワークを提案します。これは、見られたソースの概念から新しい概念で構成される目に見えないターゲット文まで、微調整されたビデオ編集を容易にする生成ビデオ拡散を調査します。
これにより、ターゲットドメインの新しい概念に対応する目に見えないビデオモーメントの生成的仮説が可能になります。
この細粒の生成ビデオ拡散は、ターゲットドメインに目に見えない新規語彙の意味的な区別を導入しながら、ソースドメインからの元のビデオ構造と件名の詳細を保持します。
重要な課題は、視覚的に心地よいビデオを合成するだけでなく、VMRを最適化する上で意味のあるこの生成的な細粒拡散プロセスを有効にする方法です。
3つの定量的メトリックを統合するハイブリッド選択メカニズムを導入して、潜在的なソーストレーニングデータへの拡大の追加として合成ビデオモーメント(新しいビデオ仮説)を選択的に組み込んだハイブリッド選択メカニズムを導入することで解決します…

要約(オリジナル)

Video moment retrieval (VMR) aims to locate the most likely video moment(s) corresponding to a text query in untrimmed videos. Training of existing methods is limited by the lack of diverse and generalisable VMR datasets, hindering their ability to generalise moment-text associations to queries containing novel semantic concepts (unseen both visually and textually in a training source domain). For model generalisation to novel semantics, existing methods rely heavily on assuming to have access to both video and text sentence pairs from a target domain in addition to the source domain pair-wise training data. This is neither practical nor scalable. In this work, we introduce a more generalisable approach by assuming only text sentences describing new semantics are available in model training without having seen any videos from a target domain. To that end, we propose a Fine-grained Video Editing framework, termed FVE, that explores generative video diffusion to facilitate fine-grained video editing from the seen source concepts to the unseen target sentences consisting of new concepts. This enables generative hypotheses of unseen video moments corresponding to the novel concepts in the target domain. This fine-grained generative video diffusion retains the original video structure and subject specifics from the source domain while introducing semantic distinctions of unseen novel vocabularies in the target domain. A critical challenge is how to enable this generative fine-grained diffusion process to be meaningful in optimising VMR, more than just synthesising visually pleasing videos. We solve this problem by introducing a hybrid selection mechanism that integrates three quantitative metrics to selectively incorporate synthetic video moments (novel video hypotheses) as enlarged additions to the original source training data, whilst minimising potential …

arxiv情報

著者 Dezhao Luo,Shaogang Gong,Jiabo Huang,Hailin Jin,Yang Liu
発行日 2025-02-21 12:30:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Generative Video Diffusion for Unseen Novel Semantic Video Moment Retrieval はコメントを受け付けていません

Evaluating Multimodal Generative AI with Korean Educational Standards

要約

このペーパーでは、韓国の国家教育テストを使用してマルチモーダル生成AIシステムを評価するために設計された新しいベンチマークである韓国の国家教育テストベンチマーク(Konet)を紹介します。
Konetは4つの試験で構成されています。韓国小学校一般教育開発テスト(Koeged)、Middle(Komged)、High(Kohged)、およびCollege Scholastic Ability Test(Kocsat)。
これらの試験は、厳格な基準と多様な質問で有名であり、さまざまな教育レベルにわたるAIパフォーマンスの包括的な分析を促進します。
韓国語に焦点を当てることにより、Konetは、推測されていない言語でのモデルパフォーマンスに関する洞察を提供します。
困難、被験者の多様性、および人為的エラー率を調べることにより、オープンソース、オープンアクセス、および閉じたAPIのモデルの範囲を評価します。
コードとデータセットビルダーは、https://github.com/naver-ai/konetで完全にオープンソースにされます。

要約(オリジナル)

This paper presents the Korean National Educational Test Benchmark (KoNET), a new benchmark designed to evaluate Multimodal Generative AI Systems using Korean national educational tests. KoNET comprises four exams: the Korean Elementary General Educational Development Test (KoEGED), Middle (KoMGED), High (KoHGED), and College Scholastic Ability Test (KoCSAT). These exams are renowned for their rigorous standards and diverse questions, facilitating a comprehensive analysis of AI performance across different educational levels. By focusing on Korean, KoNET provides insights into model performance in less-explored languages. We assess a range of models – open-source, open-access, and closed APIs – by examining difficulties, subject diversity, and human error rates. The code and dataset builder will be made fully open-sourced at https://github.com/naver-ai/KoNET.

arxiv情報

著者 Sanghee Park,Geewook Kim
発行日 2025-02-21 12:46:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Evaluating Multimodal Generative AI with Korean Educational Standards はコメントを受け付けていません

Anatomy-Informed Deep Learning and Radiomics for Automated Neurofibroma Segmentation in Whole-Body MRI

要約

神経線維腫症1型は、神経線維腫(NFS)の発症を特徴とする遺伝的障害であり、サイズ、形態、および解剖学的位置に有意なばらつきを示します。
腫瘍の負担を評価し、疾患の進行を監視するには、全身磁気共鳴画像法(WB-MRI)におけるこれらの腫瘍の正確で自動化されたセグメンテーションが重要です。
この研究では、解剖学のセグメンテーション、NFセグメンテーション、および腫瘍候補分類の3つの段階で構成される脂肪抑制T2強調WB-MRIのNFセグメンテーションのための完全に自動化されたパイプラインを提示して分析します。
最初の段階では、MrSegmentatorモデルを使用して、NFS用のリスクの高いゾーンで拡張された解剖学セグメンテーションマスクを生成します。
このマスクは、NFセグメンテーションの解剖学的コンテキスト情報として入力画像と連結されています。
第2段階では、3D異方性解剖学に基づいたUネットのアンサンブルを採用して、NFセグメンテーションの信頼マスクを生成します。
最終段階では、腫瘍候補は信頼マスクから抽出され、放射性の特徴に基づいて分類され、腫瘍を非腫瘍領域から区別し、誤検知を減らします。
さまざまな条件を表す3つのテストセットで提案されたパイプラインを評価します:ドメイン内データ(テストセット1)、さまざまなイメージングプロトコルとフィールド強度(テストセット2)、および低腫瘍負荷症例(テストセット3)。
実験結果は、解剖学的情報を統合することにより、高腫瘍負荷症例における腫瘍検出のF1スコアが21%増加し、腫瘍ごとのDSCが21%増加し、F1スコアが2倍に改善されたことを実験結果が示しています。
この方法は、実用的な臨床使用のために3D Slicerプラットフォームに統合され、コードに公開されています。

要約(オリジナル)

Neurofibromatosis Type 1 is a genetic disorder characterized by the development of neurofibromas (NFs), which exhibit significant variability in size, morphology, and anatomical location. Accurate and automated segmentation of these tumors in whole-body magnetic resonance imaging (WB-MRI) is crucial to assess tumor burden and monitor disease progression. In this study, we present and analyze a fully automated pipeline for NF segmentation in fat-suppressed T2-weighted WB-MRI, consisting of three stages: anatomy segmentation, NF segmentation, and tumor candidate classification. In the first stage, we use the MRSegmentator model to generate an anatomy segmentation mask, extended with a high-risk zone for NFs. This mask is concatenated with the input image as anatomical context information for NF segmentation. The second stage employs an ensemble of 3D anisotropic anatomy-informed U-Nets to produce an NF segmentation confidence mask. In the final stage, tumor candidates are extracted from the confidence mask and classified based on radiomic features, distinguishing tumors from non-tumor regions and reducing false positives. We evaluate the proposed pipeline on three test sets representing different conditions: in-domain data (test set 1), varying imaging protocols and field strength (test set 2), and low tumor burden cases (test set 3). Experimental results show a 68% improvement in per-scan Dice Similarity Coefficient (DSC), a 21% increase in per-tumor DSC, and a two-fold improvement in F1 score for tumor detection in high tumor burden cases by integrating anatomy information. The method is integrated into the 3D Slicer platform for practical clinical use, with the code publicly accessible.

arxiv情報

著者 Georgii Kolokolnikov,Marie-Lena Schmalhofer,Lennart Well,Said Farschtschi,Victor-Felix Mautner,Inka Ristow,Rene Werner
発行日 2025-02-21 12:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Anatomy-Informed Deep Learning and Radiomics for Automated Neurofibroma Segmentation in Whole-Body MRI はコメントを受け付けていません

LaRE$^2$: Latent Reconstruction Error Based Method for Diffusion-Generated Image Detection

要約

拡散モデルの進化により、画像生成の品質が劇的に向上し、実際の画像と生成された画像を区別することがますます困難になりました。
この開発は、印象的ですが、大きなプライバシーとセキュリティの懸念を引き起こします。
これに応じて、拡散生成画像を検出するための新しい潜在的な再構成エラーガイド付き特徴の改良方法(LARE^2)を提案します。
生成された画像検出のための潜在空間での最初の再構成エラーベースの特徴である潜在的な再構成エラー(LARE)を思いつきます。
Lareは、現実と偽物を区別するために必要な重要な手がかりを維持しながら、機能抽出効率の観点から既存の方法を上回ります。
LAREを活用するために、エラーガイド付き機能洗練モジュール(EGRE)を提案します。これにより、レアが誘導された画像機能を改良して、機能の差別性を高めることができます。
私たちのeGREは、アラインから繰り返されるメカニズムを利用しており、空間的観点とチャネル視点から生成されたイメージ検出の画像機能を効果的に改良します。
大規模なゲニマージュベンチマークに関する広範な実験は、8つの異なる画像ジェネレーターで最大11.9%/12.1%の平均ACC/APで最高のSOTAメソッドを上回るLare^2の優位性を示しています。
また、Lareは機能抽出コストの観点から既存の方法を上回り、8倍の印象的な速度向上を実現します。
コードが利用可能です。

要約(オリジナル)

The evolution of Diffusion Models has dramatically improved image generation quality, making it increasingly difficult to differentiate between real and generated images. This development, while impressive, also raises significant privacy and security concerns. In response to this, we propose a novel Latent REconstruction error guided feature REfinement method (LaRE^2) for detecting the diffusion-generated images. We come up with the Latent Reconstruction Error (LaRE), the first reconstruction-error based feature in the latent space for generated image detection. LaRE surpasses existing methods in terms of feature extraction efficiency while preserving crucial cues required to differentiate between the real and the fake. To exploit LaRE, we propose an Error-Guided feature REfinement module (EGRE), which can refine the image feature guided by LaRE to enhance the discriminativeness of the feature. Our EGRE utilizes an align-then-refine mechanism, which effectively refines the image feature for generated-image detection from both spatial and channel perspectives. Extensive experiments on the large-scale GenImage benchmark demonstrate the superiority of our LaRE^2, which surpasses the best SoTA method by up to 11.9%/12.1% average ACC/AP across 8 different image generators. LaRE also surpasses existing methods in terms of feature extraction cost, delivering an impressive speed enhancement of 8 times. Code is available.

arxiv情報

著者 Yunpeng Luo,Junlong Du,Ke Yan,Shouhong Ding
発行日 2025-02-21 12:51:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | LaRE$^2$: Latent Reconstruction Error Based Method for Diffusion-Generated Image Detection はコメントを受け付けていません

HeRCULES: Heterogeneous Radar Dataset in Complex Urban Environment for Multi-session Radar SLAM

要約

最近、レーダーは、挑戦的な気象条件での堅牢性のためにロボット工学で広く掲載されています。
一般的に使用される2つのレーダータイプは、スピニングレーダーとフェーズドアレイレーダーで、それぞれが異なるセンサー特性を提供します。
既存のデータセットは通常、単一の種類のレーダーのみを備えており、その特定の種類に限定されたアルゴリズムの開発につながります。
この作業では、さまざまなレーダータイプを組み合わせることで、異種のレーダーデータセットを介して活用できる補完的な利点が得られることを強調しています。
さらに、この新しいデータセットは、ロボットにさまざまな種類のレーダーが装備されているマルチセッションおよびマルチロボットシナリオの研究を促進します。
これに関連して、ヘラクレスデータセット、不均一なレーダー、FMCW LIDAR、IMU、GPS、およびカメラを備えた包括的なマルチモーダルデータセットを紹介します。
これは、FMCW Lidarとともに4Dレーダーとスピニングレーダーを統合した最初のデータセットであり、比類のないローカリゼーション、マッピング、および場所認識機能を提供します。
データセットは、多様な天候と照明条件、さまざまな都市交通シナリオをカバーし、さまざまな環境で包括的な分析を可能にします。
各センサーの複数の再訪とグラウンドトゥルースポーズを持つシーケンスパスは、場所認識研究に対する適合性を高めます。
ヘラクレスデータセットは、臭気、マッピング、場所認識、センサー融合研究を促進することを期待しています。
データセットおよび開発ツールは、https://sites.google.com/view/herculesdatasetで入手できます。

要約(オリジナル)

Recently, radars have been widely featured in robotics for their robustness in challenging weather conditions. Two commonly used radar types are spinning radars and phased-array radars, each offering distinct sensor characteristics. Existing datasets typically feature only a single type of radar, leading to the development of algorithms limited to that specific kind. In this work, we highlight that combining different radar types offers complementary advantages, which can be leveraged through a heterogeneous radar dataset. Moreover, this new dataset fosters research in multi-session and multi-robot scenarios where robots are equipped with different types of radars. In this context, we introduce the HeRCULES dataset, a comprehensive, multi-modal dataset with heterogeneous radars, FMCW LiDAR, IMU, GPS, and cameras. This is the first dataset to integrate 4D radar and spinning radar alongside FMCW LiDAR, offering unparalleled localization, mapping, and place recognition capabilities. The dataset covers diverse weather and lighting conditions and a range of urban traffic scenarios, enabling a comprehensive analysis across various environments. The sequence paths with multiple revisits and ground truth pose for each sensor enhance its suitability for place recognition research. We expect the HeRCULES dataset to facilitate odometry, mapping, place recognition, and sensor fusion research. The dataset and development tools are available at https://sites.google.com/view/herculesdataset.

arxiv情報

著者 Hanjun Kim,Minwoo Jung,Chiyun Noh,Sangwoo Jung,Hyunho Song,Wooseong Yang,Hyesu Jang,Ayoung Kim
発行日 2025-02-21 12:56:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | HeRCULES: Heterogeneous Radar Dataset in Complex Urban Environment for Multi-session Radar SLAM はコメントを受け付けていません

LEAP: Enhancing Vision-Based Occupancy Networks with Lightweight Spatio-Temporal Correlation

要約

ビジョンベースの占有ネットワークは、マルチビュー画像に由来するセマンティック占有ボクセルを使用して、周囲の環境を再構築するためのエンドツーエンドソリューションを提供します。
この手法は、ピクセルレベルの視覚情報とボクセルの間の相関関係を効果的に学習することに依存しています。
最近の進歩にもかかわらず、占有の結果は、閉塞とまばらな視覚的な手がかりのために依然として限られた精度に苦しんでいます。
これに対処するために、最小限の計算オーバーヘッドで既存の占有ネットワークのパフォーマンスを大幅に向上させる、軽量の時空間相関(LEAP)}メソッドを提案します。
LEAPは、さまざまなベースラインネットワークにシームレスに統合され、プラグアンドプレイアプリケーションを可能にします。
LEAPは3つの段階で動作します。1)最近のベースラインおよびモーション機能からの情報を共有されたコンパクトな潜在スペースにトークン化します。
2)トライストリーム融合アーキテクチャを介して完全な相関を確立します。
3)ベースラインの出力を強化する占有率を生成します。
広範な実験は、最新のベースラインモデルを上回る方法の効率と有効性を示しています。
ソースコードといくつかのデモは、補足資料で利用できます。

要約(オリジナル)

Vision-based occupancy networks provide an end-to-end solution for reconstructing the surrounding environment using semantic occupied voxels derived from multi-view images. This technique relies on effectively learning the correlation between pixel-level visual information and voxels. Despite recent advancements, occupancy results still suffer from limited accuracy due to occlusions and sparse visual cues. To address this, we propose a Lightweight Spatio-Temporal Correlation (LEAP)} method, which significantly enhances the performance of existing occupancy networks with minimal computational overhead. LEAP can be seamlessly integrated into various baseline networks, enabling a plug-and-play application. LEAP operates in three stages: 1) it tokenizes information from recent baseline and motion features into a shared, compact latent space; 2) it establishes full correlation through a tri-stream fusion architecture; 3) it generates occupancy results that strengthen the baseline’s output. Extensive experiments demonstrate the efficiency and effectiveness of our method, outperforming the latest baseline models. The source code and several demos are available in the supplementary material.

arxiv情報

著者 Fengcheng Yu,Haoran Xu,Canming Xia,Guang Tan
発行日 2025-02-21 13:07:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LEAP: Enhancing Vision-Based Occupancy Networks with Lightweight Spatio-Temporal Correlation はコメントを受け付けていません

MVIP — A Dataset and Methods for Application Oriented Multi-View and Multi-Modal Industrial Part Recognition

要約

マルチモーダルおよびマルチビューアプリケーション指向の産業部品認識の新しいデータセットであるMVIPを提示します。
ここでは、キャリブレーションされたRGBDマルチビューデータセットを、物理的特性、自然言語、スーパークラスなどの追加のオブジェクトコンテキストと組み合わせた最初の人です。
利用可能なデータセットの現在のポートフォリオは、関連する方法を設計およびベンチマークするための幅広い表現を提供します。
既存の分類の課題とは対照的に、産業認識アプリケーションは制御されたマルチモーダル環境を提供しますが、同時に、従来の2D/3D分類の課題とは異なる問題を抱えています。
多くの場合、産業用アプリケーションは、コストと時間の制約の下で、トレーニングデータの数、視覚的に類似した部分、およびさまざまなオブジェクトサイズを扱う必要がありますが、さまざまなオブジェクトサイズを扱う必要があります。
現在の方法はそのような課題に個別に取り組んでいますが、産業用途内でこれらの方法を直接採用することは複雑であり、さらなる研究が必要です。
MVIPの主な目標は、産業分類器の効率的な展開に向けて、関連するダウンストリームタスク内のさまざまな最先端の方法の移転性を研究およびプッシュすることです。
さらに、単一のアプリケーション指向のベンチマークで組み合わせた、いくつかのモダリティ融合トピック、(自動化された)合成データ生成、および複雑なデータサンプリングに関するMVIP研究を推進する予定です。

要約(オリジナル)

We present MVIP, a novel dataset for multi-modal and multi-view application-oriented industrial part recognition. Here we are the first to combine a calibrated RGBD multi-view dataset with additional object context such as physical properties, natural language, and super-classes. The current portfolio of available datasets offers a wide range of representations to design and benchmark related methods. In contrast to existing classification challenges, industrial recognition applications offer controlled multi-modal environments but at the same time have different problems than traditional 2D/3D classification challenges. Frequently, industrial applications must deal with a small amount or increased number of training data, visually similar parts, and varying object sizes, while requiring a robust near 100% top 5 accuracy under cost and time constraints. Current methods tackle such challenges individually, but direct adoption of these methods within industrial applications is complex and requires further research. Our main goal with MVIP is to study and push transferability of various state-of-the-art methods within related downstream tasks towards an efficient deployment of industrial classifiers. Additionally, we intend to push with MVIP research regarding several modality fusion topics, (automated) synthetic data generation, and complex data sampling — combined in a single application-oriented benchmark.

arxiv情報

著者 Paul Koch,Marian Schlüter,Jörg Krüger
発行日 2025-02-21 13:22:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MVIP — A Dataset and Methods for Application Oriented Multi-View and Multi-Modal Industrial Part Recognition はコメントを受け付けていません

Memory Helps, but Confabulation Misleads: Understanding Streaming Events in Videos with MLLMs

要約

マルチモーダル大手言語モデル(MLLMS)は、ビデオを総合的に理解する上で強力なパフォーマンスを実証していますが、ストリーミング動画-Videosを処理する能力は、視覚イベントのシーケンスとして扱われます。
直感的に、過去のイベントを記憶として活用すると、現在のイベントの文脈的および時間的理解を豊かにすることができます。
この論文では、コンテキストとして記憶を活用することで、MLLMがビデオイベントをよりよく理解するのに役立つことを示しています。
ただし、そのような記憶は前の出来事の予測に依存しているため、誤った情報が含まれている可能性があり、混乱と劣化したパフォーマンスにつながる可能性があります。
これに対処するために、メモリが強化されたイベントの理解のために、記憶を緩和することを緩和する、コンパブレーションを意識したメモリ修正方法を提案します。

要約(オリジナル)

Multimodal large language models (MLLMs) have demonstrated strong performance in understanding videos holistically, yet their ability to process streaming videos-videos are treated as a sequence of visual events-remains underexplored. Intuitively, leveraging past events as memory can enrich contextual and temporal understanding of the current event. In this paper, we show that leveraging memories as contexts helps MLLMs better understand video events. However, because such memories rely on predictions of preceding events, they may contain misinformation, leading to confabulation and degraded performance. To address this, we propose a confabulation-aware memory modification method that mitigates confabulated memory for memory-enhanced event understanding.

arxiv情報

著者 Gengyuan Zhang,Mingcong Ding,Tong Liu,Yao Zhang,Volker Tresp
発行日 2025-02-21 13:31:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Memory Helps, but Confabulation Misleads: Understanding Streaming Events in Videos with MLLMs はコメントを受け付けていません

Game State and Spatio-temporal Action Detection in Soccer using Graph Neural Networks and 3D Convolutional Networks

要約

サッカー分析は、2つのデータソースに依存しています。プレーヤーがピッチ上の位置と、実行するイベントのシーケンスです。
ゲームごとに約2000のボールイベントがあるため、単眼のビデオストリームに基づいた正確で徹底的な注釈が退屈で費用のかかる手動のタスクです。
最先端の空間的アクション検出方法は、このタスクを自動化するための約束を示していますが、ゲームの文脈的理解が欠けています。
プロのプレイヤーの行動が相互依存していると仮定すると、ポジション、速度、チームメンバーシップなどの周囲のプレイヤーの情報を組み込むことで、純粋に視覚的な予測を強化できると仮定します。
グラフニューラルネットワークを介して視覚的な状態情報とゲーム状態情報を組み合わせた空間的アクション検出アプローチを提案します。

要約(オリジナル)

Soccer analytics rely on two data sources: the player positions on the pitch and the sequences of events they perform. With around 2000 ball events per game, their precise and exhaustive annotation based on a monocular video stream remains a tedious and costly manual task. While state-of-the-art spatio-temporal action detection methods show promise for automating this task, they lack contextual understanding of the game. Assuming professional players’ behaviors are interdependent, we hypothesize that incorporating surrounding players’ information such as positions, velocity and team membership can enhance purely visual predictions. We propose a spatio-temporal action detection approach that combines visual and game state information via Graph Neural Networks trained end-to-end with state-of-the-art 3D CNNs, demonstrating improved metrics through game state integration.

arxiv情報

著者 Jeremie Ochin,Guillaume Devineau,Bogdan Stanciulescu,Sotiris Manitsaris
発行日 2025-02-21 13:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Game State and Spatio-temporal Action Detection in Soccer using Graph Neural Networks and 3D Convolutional Networks はコメントを受け付けていません