Eval3D: Interpretable and Fine-grained Evaluation for 3D Generation

要約

3D世代の分野で前例のない進歩にもかかわらず、現在のシステムは、複数の視点で視覚的に魅力的で幾何学的および意味的に一貫している高品質の3D資産を生産できないことがよくあります。
生成された3Dデータの品質を効果的に評価するために、信頼できる3D評価ツールが必要です。
残念ながら、既存の3D評価メトリックは、生成された資産の幾何学的品質を見落としたり、粗い評価のためにブラックボックスマルチモーダルの大手言語モデルに依存していることがよくあります。
このホワイトペーパーでは、さまざまな明確でありながら補完的な基準に基づいて生成された3Dアセットの品質を忠実に評価できる、細かく粒度のある解釈可能な評価ツールであるEval3Dを紹介します。
私たちの重要な観察は、セマンティックや幾何学的な一貫性など、3D生成の多くの望ましい特性を、さまざまな基礎モデルとツール間の一貫性を測定することで効果的にキャプチャできることです。
したがって、さまざまな側面にわたる生成された3Dアセットの矛盾を評価するために、プローブとして多様なモデルとツールのセットを活用します。
以前の作業と比較して、Eval3Dはピクセルごとの測定を提供し、正確な3D空間フィードバックを可能にし、人間の判断により密接に合わせます。
Eval3Dを使用して既存の3D生成モデルを包括的に評価し、現在のモデルの制限と課題を強調します。

要約(オリジナル)

Despite the unprecedented progress in the field of 3D generation, current systems still often fail to produce high-quality 3D assets that are visually appealing and geometrically and semantically consistent across multiple viewpoints. To effectively assess the quality of the generated 3D data, there is a need for a reliable 3D evaluation tool. Unfortunately, existing 3D evaluation metrics often overlook the geometric quality of generated assets or merely rely on black-box multimodal large language models for coarse assessment. In this paper, we introduce Eval3D, a fine-grained, interpretable evaluation tool that can faithfully evaluate the quality of generated 3D assets based on various distinct yet complementary criteria. Our key observation is that many desired properties of 3D generation, such as semantic and geometric consistency, can be effectively captured by measuring the consistency among various foundation models and tools. We thus leverage a diverse set of models and tools as probes to evaluate the inconsistency of generated 3D assets across different aspects. Compared to prior work, Eval3D provides pixel-wise measurement, enables accurate 3D spatial feedback, and aligns more closely with human judgments. We comprehensively evaluate existing 3D generation models using Eval3D and highlight the limitations and challenges of current models.

arxiv情報

著者 Shivam Duggal,Yushi Hu,Oscar Michel,Aniruddha Kembhavi,William T. Freeman,Noah A. Smith,Ranjay Krishna,Antonio Torralba,Ali Farhadi,Wei-Chiu Ma
発行日 2025-04-25 17:22:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Eval3D: Interpretable and Fine-grained Evaluation for 3D Generation はコメントを受け付けていません

Examining the Impact of Optical Aberrations to Image Classification and Object Detection Models

要約

Deep Neural Networks(DNNS)は、さまざまなコンピュータービジョンアプリケーションで成功することが証明されており、モデルが安全性の高い状況でも推測されるようになりました。
したがって、ビジョンモデルは、ノイズやぼやけなどの乱れに堅牢な方法で動作する必要があります。
モデルの堅牢性を多様な腐敗に対するモデルの堅牢性を評価するために存在する独創的なベンチマークが存在しますが、ぼかしは、光学システムに起因する異なるぼやけのカーネル形状を無視しながら、過度に単純化する方法でデフォーカスをモデル化することがよくあります。
現実的な光学的ぼやけ効果に対するモデルの堅牢性を研究するために、このペーパーでは、ぼかし腐敗の2つのデータセットを提案します。これについては、光学ベンチとレンズ腐敗を示します。
Opticsbenchは、com睡、デフォーカス、乱視などの主要な異常、つまり、ゼルニケ多項式の単一パラメーターを変化させることによって表される可能性のある異常を調べます。
一次異常の原則的だが合成的な設定を超えるために、レンズカル腐敗は、100個の実際のレンズに対応するゼルニケ多項式に及ぶベクトル空間の線形組み合わせをサンプルします。
ImagenetとMSCOCOでの画像分類とオブジェクト検出の評価は、さまざまな事前訓練されたモデルでは、光学ベンチとレンズの腐敗のパフォーマンスが大きく異なることを示しています。

要約(オリジナル)

Deep neural networks (DNNs) have proven to be successful in various computer vision applications such that models even infer in safety-critical situations. Therefore, vision models have to behave in a robust way to disturbances such as noise or blur. While seminal benchmarks exist to evaluate model robustness to diverse corruptions, blur is often approximated in an overly simplistic way to model defocus, while ignoring the different blur kernel shapes that result from optical systems. To study model robustness against realistic optical blur effects, this paper proposes two datasets of blur corruptions, which we denote OpticsBench and LensCorruptions. OpticsBench examines primary aberrations such as coma, defocus, and astigmatism, i.e. aberrations that can be represented by varying a single parameter of Zernike polynomials. To go beyond the principled but synthetic setting of primary aberrations, LensCorruptions samples linear combinations in the vector space spanned by Zernike polynomials, corresponding to 100 real lenses. Evaluations for image classification and object detection on ImageNet and MSCOCO show that for a variety of different pre-trained models, the performance on OpticsBench and LensCorruptions varies significantly, indicating the need to consider realistic image corruptions to evaluate a model’s robustness against blur.

arxiv情報

著者 Patrick Müller,Alexander Braun,Margret Keuper
発行日 2025-04-25 17:23:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Examining the Impact of Optical Aberrations to Image Classification and Object Detection Models はコメントを受け付けていません

RSFR: A Coarse-to-Fine Reconstruction Framework for Diffusion Tensor Cardiac MRI with Semantic-Aware Refinement

要約

心臓拡散テンソルイメージング(DTI)は、心筋細胞の配置に関するユニークな洞察を提供し、顕微鏡と巨視的な心臓機能のギャップを埋めます。
ただし、その臨床的有用性は、低い信号対雑音比、エイリアシングアーティファクト、正確な定量的忠実度の必要性など、技術的な課題によって制限されています。
これらの制限に対処するために、心臓拡散加重画像再構築のための新しいフレームワークであるRSFR(再構成、セグメンテーション、融合、洗練)を紹介します。
RSFRは、粗からファインまでの戦略を採用しており、セグメントのあらゆるモデルと堅牢なビジョンMAMBAベースの再構成バックボーンを介してゼロショットセマンティックプライアーを活用しています。
当社のフレームワークは、セマンティック機能を効果的に統合して、アーティファクトを緩和し、忠実度を高め、最先端の再構築品質と高いアンダーサンプリングレートの下での正確なDTパラメーター推定を実現します。
広範な実験とアブレーション研究は、既存の方法と比較してRSFRの優れた性能を示しており、その堅牢性、スケーラビリティ、および定量的心臓DTIにおける臨床翻訳の可能性を強調しています。

要約(オリジナル)

Cardiac diffusion tensor imaging (DTI) offers unique insights into cardiomyocyte arrangements, bridging the gap between microscopic and macroscopic cardiac function. However, its clinical utility is limited by technical challenges, including a low signal-to-noise ratio, aliasing artefacts, and the need for accurate quantitative fidelity. To address these limitations, we introduce RSFR (Reconstruction, Segmentation, Fusion & Refinement), a novel framework for cardiac diffusion-weighted image reconstruction. RSFR employs a coarse-to-fine strategy, leveraging zero-shot semantic priors via the Segment Anything Model and a robust Vision Mamba-based reconstruction backbone. Our framework integrates semantic features effectively to mitigate artefacts and enhance fidelity, achieving state-of-the-art reconstruction quality and accurate DT parameter estimation under high undersampling rates. Extensive experiments and ablation studies demonstrate the superior performance of RSFR compared to existing methods, highlighting its robustness, scalability, and potential for clinical translation in quantitative cardiac DTI.

arxiv情報

著者 Jiahao Huang,Fanwen Wang,Pedro F. Ferreira,Haosen Zhang,Yinzhe Wu,Zhifan Gao,Lei Zhu,Angelica I. Aviles-Rivero,Carola-Bibiane Schonlieb,Andrew D. Scott,Zohya Khalique,Maria Dwornik,Ramyah Rajakulasingam,Ranil De Silva,Dudley J. Pennell,Guang Yang,Sonia Nielles-Vallespin
発行日 2025-04-25 17:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | RSFR: A Coarse-to-Fine Reconstruction Framework for Diffusion Tensor Cardiac MRI with Semantic-Aware Refinement はコメントを受け付けていません

E-VLC: A Real-World Dataset for Event-based Visible Light Communication And Localization

要約

変調されたLEDを使用した光学通信(たとえば、可視光通信など)は、高空間分解能のおかげで、イベントカメラの新たなアプリケーションです。
イベントカメラは、LED信号をデコードし、LEDマーカーの位置に対するカメラをローカライズするために単純に使用できます。
ただし、さまざまな実際の設定でのデコードとローカリゼーションをベンチマークするパブリックデータセットはありません。
私たちの知る限り、イベントカメラ、フレームカメラ、およびハードウェアトリガーと正確に同期した地上の真実のポーズで構成される最初のパブリックデータセットを提示します。
屋内と屋外の両方のさまざまなシーンの明るさの設定において、さまざまな敏感さを備えたさまざまなカメラの動きを提供します。
さらに、モーション推定と補償のためにコントラスト最大化フレームワークを活用する新しいローカリゼーション方法を提案します。
詳細な分析と実験結果は、Framesを使用した従来のARマーカーベースのイベントを介したイベントを伴うLEDベースのローカリゼーションの利点と、局在化における提案された方法の有効性を示しています。
提案されたデータセットが、モーション関連の古典的なコンピュータービジョンタスクとLEDマーカーデコードタスクの両方の将来のベンチマークとして機能し、モバイルデバイス上のイベントカメラのアプリケーションの拡大への道を開くことを願っています。
https://woven-visionai.github.io/evlc-dataset

要約(オリジナル)

Optical communication using modulated LEDs (e.g., visible light communication) is an emerging application for event cameras, thanks to their high spatio-temporal resolutions. Event cameras can be used simply to decode the LED signals and also to localize the camera relative to the LED marker positions. However, there is no public dataset to benchmark the decoding and localization in various real-world settings. We present, to the best of our knowledge, the first public dataset that consists of an event camera, a frame camera, and ground-truth poses that are precisely synchronized with hardware triggers. It provides various camera motions with various sensitivities in different scene brightness settings, both indoor and outdoor. Furthermore, we propose a novel method of localization that leverages the Contrast Maximization framework for motion estimation and compensation. The detailed analysis and experimental results demonstrate the advantages of LED-based localization with events over the conventional AR-marker–based one with frames, as well as the efficacy of the proposed method in localization. We hope that the proposed dataset serves as a future benchmark for both motion-related classical computer vision tasks and LED marker decoding tasks simultaneously, paving the way to broadening applications of event cameras on mobile devices. https://woven-visionai.github.io/evlc-dataset

arxiv情報

著者 Shintaro Shiba,Quan Kong,Norimasa Kobori
発行日 2025-04-25 17:43:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.SP | E-VLC: A Real-World Dataset for Event-based Visible Light Communication And Localization はコメントを受け付けていません

Augmenting Perceptual Super-Resolution via Image Quality Predictors

要約

コンピュータービジョンにおける古典的な逆問題である超解像度(SR)は、本質的に不適切であり、入力ごとにもっともらしいソリューションの分布を誘導します。
ただし、望ましい結果は、単にこの分布の期待ではなく、ピクセルワイズエラーを最小限に抑えることで得られるぼやけた画像であり、むしろ最も高い画質を持つサンプルです。
知覚的な指標から敵対的な損失まで、さまざまな手法がこの目的に採用されています。
この作業では、SRコンテキストで強力な非参照画質評価(NR-IQA)モデルを利用する代替案を探ります。
ヒト由来のSRデータに関するNR-IQAメトリックの包括的な分析から始め、異なるメトリックの精度(人間のアライメント)と相補性の両方を特定します。
次に、NR-IQAモデルをSR学習に適用する2つの方法を調査します。(i)既存のマルチグラウンドトゥルースSRフレームワークに基づいてデータサンプリングを変更し、(ii)微分可能な品質スコアを直接最適化することにより。
私たちの結果は、より人間中心の知覚と耐性のトレードオフを示しており、非知覚ピクセルごとの歪みにあまり焦点を当てており、代わりに知覚的な忠実度と人間が調整したNR-IQA測定のバランスを改善します。

要約(オリジナル)

Super-resolution (SR), a classical inverse problem in computer vision, is inherently ill-posed, inducing a distribution of plausible solutions for every input. However, the desired result is not simply the expectation of this distribution, which is the blurry image obtained by minimizing pixelwise error, but rather the sample with the highest image quality. A variety of techniques, from perceptual metrics to adversarial losses, are employed to this end. In this work, we explore an alternative: utilizing powerful non-reference image quality assessment (NR-IQA) models in the SR context. We begin with a comprehensive analysis of NR-IQA metrics on human-derived SR data, identifying both the accuracy (human alignment) and complementarity of different metrics. Then, we explore two methods of applying NR-IQA models to SR learning: (i) altering data sampling, by building on an existing multi-ground-truth SR framework, and (ii) directly optimizing a differentiable quality score. Our results demonstrate a more human-centric perception-distortion tradeoff, focusing less on non-perceptual pixel-wise distortion, instead improving the balance between perceptual fidelity and human-tuned NR-IQA measures.

arxiv情報

著者 Fengjia Zhang,Samrudhdhi B. Rangrej,Tristan Aumentado-Armstrong,Afsaneh Fazly,Alex Levinshtein
発行日 2025-04-25 17:47:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Augmenting Perceptual Super-Resolution via Image Quality Predictors はコメントを受け付けていません

DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training

要約

大規模な言語モデル(LLM)は最近、さまざまな複雑な推論ベンチマークで顕著なパフォーマンスを達成しましたが、学術コミュニティには基本モデルトレーニングプロセスとデータ品質の詳細な理解がまだありません。
これに対処するために、さまざまな難易度レベルの約334万の一意のクエリと、複数のパスで複数のモデルによって生成される約4,000万件の蒸留応答を含む大規模で難易度の推論データセットを構築します。
合格率と変動係数(CV)を活用すると、推論機能を強化するために最も価値のあるトレーニングデータを正確に選択します。
特に、ベースモデルに基づいた推論に焦点を合わせたトレーニングには、効果的なトレーニングのためにより高い学習率が必要であることを示すトレーニングパターンシフトが観察されます。
この慎重に選択されたデータを使用して、基本モデルの推論機能を大幅に改善し、AIME2024数学的推論ベンチマークで79.2 \%の合格率を達成しました。
この結果は、現在の蒸留モデルのほとんどを上回り、最先端のパフォーマンスに密接に近づいています。
データ処理、難易度評価、およびトレーニング方法の詳細な説明を提供し、オープンソースの長期的なLLMの急速な進歩を促進するために、すべてのデータセットと方法を公開しています。
データセットは、https://huggingface.co/datasets/am-team/am-deepseek-distill-40mで入手できます

要約(オリジナル)

Although large language models (LLMs) have recently achieved remarkable performance on various complex reasoning benchmarks, the academic community still lacks an in-depth understanding of base model training processes and data quality. To address this, we construct a large-scale, difficulty-graded reasoning dataset containing approximately 3.34 million unique queries of varying difficulty levels and about 40 million distilled responses generated by multiple models over several passes. Leveraging pass rate and Coefficient of Variation (CV), we precisely select the most valuable training data to enhance reasoning capability. Notably, we observe a training pattern shift, indicating that reasoning-focused training based on base models requires higher learning rates for effective training. Using this carefully selected data, we significantly improve the reasoning capabilities of the base model, achieving a pass rate of 79.2\% on the AIME2024 mathematical reasoning benchmark. This result surpasses most current distilled models and closely approaches state-of-the-art performance. We provide detailed descriptions of our data processing, difficulty assessment, and training methodology, and have publicly released all datasets and methods to promote rapid progress in open-source long-reasoning LLMs. The dataset is available at: https://huggingface.co/datasets/a-m-team/AM-DeepSeek-Distilled-40M

arxiv情報

著者 Xiaoyu Tian,Sitong Zhao,Haotian Wang,Shuaiting Chen,Yiping Peng,Yunjie Ji,Han Zhao,Xiangang Li
発行日 2025-04-25 15:10:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training はコメントを受け付けていません

Hierarchical and Multimodal Data for Daily Activity Understanding

要約

人工知能の毎日の活動記録(ダライ、「ダーリー」と発音)は、現実世界の設定で人間の活動を理解するために構築されたマルチモーダルの階層的に注釈付きのデータセットです。
Daraiは、10の異なる環境で50人の参加者を対象とした連続スクリプト化されたスクリプト化されていない録画で構成されており、複数のカメラビュー、深さおよびレーダーセンサー、ウェアラブル慣性測定単位(IMU)、株式撮影(EMG)、インソール圧力センサー、バイオモニターセンサー、および視線トラッカーを含む20のセンサーからの合計200時間以上のデータがあります。
人間の活動の複雑さを捉えるために、ダライは3つのレベルの階層で注釈が付けられています。(i)独立したタスクである高レベルの活動(L1)、(ii)アクティビティ間で共有されるパターンである低レベルのアクション(L2)、および(iii)アクションの正確な実行ステップを詳述する微細に粒度の手順(L3)。
データセットの注釈と記録は、L2アクションの22.7%がL1アクティビティ間で共有され、L3手順の14.2%がL2アクション間で共有されるように設計されています。
Daraiのオーバーラップとスクリプトの性質により、データセット内の反事実的なアクティビティが可能になります。
さまざまな機械学習モデルを使用した実験では、人間中心のアプリケーションにおける重要な課題を明らかにする際のダライの価値を示しています。
具体的には、すべての階層的な注釈レベルで認識、時間的局在、および将来のアクション予測のために、単峰性およびマルチモーダルセンサー融合実験を実施します。
個々のセンサーの制限を強調するために、Daraiのマルチセンサーおよび反事実的なアクティビティ設計の設計によって有効になっているドメイン変数実験も実施します。
コード、ドキュメンテーション、およびデータセットは、専用のDarai Webサイト(https://alregib.ece.gatech.edu/software-and-datasets/darai-daily-activity-recordings-for-tilificial-intelligence-and-machine-learning/

要約(オリジナル)

Daily Activity Recordings for Artificial Intelligence (DARai, pronounced ‘Dahr-ree’) is a multimodal, hierarchically annotated dataset constructed to understand human activities in real-world settings. DARai consists of continuous scripted and unscripted recordings of 50 participants in 10 different environments, totaling over 200 hours of data from 20 sensors including multiple camera views, depth and radar sensors, wearable inertial measurement units (IMUs), electromyography (EMG), insole pressure sensors, biomonitor sensors, and gaze tracker. To capture the complexity in human activities, DARai is annotated at three levels of hierarchy: (i) high-level activities (L1) that are independent tasks, (ii) lower-level actions (L2) that are patterns shared between activities, and (iii) fine-grained procedures (L3) that detail the exact execution steps for actions. The dataset annotations and recordings are designed so that 22.7% of L2 actions are shared between L1 activities and 14.2% of L3 procedures are shared between L2 actions. The overlap and unscripted nature of DARai allows counterfactual activities in the dataset. Experiments with various machine learning models showcase the value of DARai in uncovering important challenges in human-centered applications. Specifically, we conduct unimodal and multimodal sensor fusion experiments for recognition, temporal localization, and future action anticipation across all hierarchical annotation levels. To highlight the limitations of individual sensors, we also conduct domain-variant experiments that are enabled by DARai’s multi-sensor and counterfactual activity design setup. The code, documentation, and dataset are available at the dedicated DARai website: https://alregib.ece.gatech.edu/software-and-datasets/darai-daily-activity-recordings-for-artificial-intelligence-and-machine-learning/

arxiv情報

著者 Ghazal Kaviani,Yavuz Yarici,Seulgi Kim,Mohit Prabhushankar,Ghassan AlRegib,Mashhour Solh,Ameya Patil
発行日 2025-04-25 16:07:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Hierarchical and Multimodal Data for Daily Activity Understanding はコメントを受け付けていません

Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction

要約

この研究では、スプリットコンフォーマル予測(SCP)フレームワークを介した視覚的質問(VQA)タスクのための大規模な視覚言語モデル(LVLMS)における幻覚緩和の重要な課題に対処します。
LVLMSはマルチモーダルの推論に優れていますが、その出力はしばしば自信を持って幻覚コンテンツを示し、安全性の高いアプリケーションにリスクをもたらします。
動的なしきい値のキャリブレーションとクロスモーダルの一貫性の検証を統合するモデルに依存しない不確実性定量化方法を提案します。
データをキャリブレーションとテストセットに分割することにより、フレームワークは非変性スコアを計算して、ユーザー定義のリスクレベル($ \ alpha $)の下で統計的保証で予測セットを構築します。
主要なイノベーションには次のものが含まれます。(1)経験的エラー率を厳密に$ \ alpha $を下回ることを保証するための\ textBf {限界カバレッジ}の厳密な制御。
(2)$ \ alpha $を使用して、予測セットサイズの動的調整を逆に調整し、低信頼性出力をフィルタリングします。
(3)事前の配布の仮定と再訓練要件の排除。
8つのLVLMSを使用したベンチマーク(ScienceQA、MMMU)の評価は、SCPがすべての$ \ alpha $値にわたって理論的保証を強制することを示しています。
このフレームワークは、さまざまなキャリブレーション間分割比にわたって安定したパフォーマンスを実現し、ヘルスケア、自律システム、およびその他の安全性に敏感なドメインでの実際の展開に対する堅牢性を強調しています。
この作業は、マルチモーダルAIシステムにおける理論的信頼性と実用的な適用性のギャップを埋め、幻覚検出と不確実性を認識する意思決定のためのスケーラブルなソリューションを提供します。

要約(オリジナル)

This study addresses the critical challenge of hallucination mitigation in Large Vision-Language Models (LVLMs) for Visual Question Answering (VQA) tasks through a Split Conformal Prediction (SCP) framework. While LVLMs excel in multi-modal reasoning, their outputs often exhibit hallucinated content with high confidence, posing risks in safety-critical applications. We propose a model-agnostic uncertainty quantification method that integrates dynamic threshold calibration and cross-modal consistency verification. By partitioning data into calibration and test sets, the framework computes nonconformity scores to construct prediction sets with statistical guarantees under user-defined risk levels ($\alpha$). Key innovations include: (1) rigorous control of \textbf{marginal coverage} to ensure empirical error rates remain strictly below $\alpha$; (2) dynamic adjustment of prediction set sizes inversely with $\alpha$, filtering low-confidence outputs; (3) elimination of prior distribution assumptions and retraining requirements. Evaluations on benchmarks (ScienceQA, MMMU) with eight LVLMs demonstrate that SCP enforces theoretical guarantees across all $\alpha$ values. The framework achieves stable performance across varying calibration-to-test split ratios, underscoring its robustness for real-world deployment in healthcare, autonomous systems, and other safety-sensitive domains. This work bridges the gap between theoretical reliability and practical applicability in multi-modal AI systems, offering a scalable solution for hallucination detection and uncertainty-aware decision-making.

arxiv情報

著者 Yuanchang Ye,Weiyan Wen
発行日 2025-04-25 09:34:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction はコメントを受け付けていません

TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation

要約

サッカーは世界的に人気のあるスポーツイベントであり、通常、長い試合と特徴的なハイライトの瞬間が特徴です。
マルチモーダル大手言語モデル(MLLM)の最近の進歩は、時間的接地とビデオの理解に有望な能力を提供します。サッカーの解説生成には、長い形式のビデオよりも正確な時間的局在と意味的に豊富な説明が必要になることがよくあります。
ただし、既存のサッカーMLLMは、多くの場合、キャプション生成のために一時的なアプリオリに依存しているため、サッカーのビデオをエンドツーエンドで処理することはできません。
いくつかの従来のアプローチは、複雑であり、グローバルなコンテキストをキャプチャできない2段階のパラダイムに従いますが、最適ではないパフォーマンスを実現しています。
上記の問題を解決するために、フルマッチサッカービデオのシングルアンカーの密なビデオキャプション(SDVC)の最初のエンドツーエンドのサッカーMLLMであるTimeSoccerを提示します。
TimeSoccerは共同でタイムスタンプを予測し、1回のパスでキャプションを生成し、45分間の試合でグローバルコンテキストモデリングを可能にします。
サッカーの試合の長いビデオ理解をサポートするために、粗から財政の戦略を介して代表的なフレームを適応的に選択し、補完的なトレーニングパラダイムを組み込んで、モデルの長い一時的なシーケンスを処理する能力を強化するための代表的なフレームを適応的に選択するトレーニングフリーのモーション認識フレーム圧縮モジュールであるMofa-Selectを紹介します。
広範な実験は、TimeSoccerがSDVCタスクでエンドツーエンドの形式で最先端の(SOTA)パフォーマンスを達成し、正確な時間的アライメントと強力なセマンティック関連性を備えた高品質の解説を生成することを示しています。

要約(オリジナル)

Soccer is a globally popular sporting event, typically characterized by long matches and distinctive highlight moments. Recent advances in Multimodal Large Language Models (MLLMs) offer promising capabilities in temporal grounding and video understanding, soccer commentary generation often requires precise temporal localization and semantically rich descriptions over long-form video. However, existing soccer MLLMs often rely on the temporal a priori for caption generation, so they cannot process the soccer video end-to-end. While some traditional approaches follow a two-step paradigm that is complex and fails to capture the global context to achieve suboptimal performance. To solve the above issues, we present TimeSoccer, the first end-to-end soccer MLLM for Single-anchor Dense Video Captioning (SDVC) in full-match soccer videos. TimeSoccer jointly predicts timestamps and generates captions in a single pass, enabling global context modeling across 45-minute matches. To support long video understanding of soccer matches, we introduce MoFA-Select, a training-free, motion-aware frame compression module that adaptively selects representative frames via a coarse-to-fine strategy, and incorporates complementary training paradigms to strengthen the model’s ability to handle long temporal sequences. Extensive experiments demonstrate that our TimeSoccer achieves State-of-The-Art (SoTA) performance on the SDVC task in an end-to-end form, generating high-quality commentary with accurate temporal alignment and strong semantic relevance.

arxiv情報

著者 Ling You,Wenxuan Huang,Xinni Xie,Xiangyi Wei,Bangyan Li,Shaohui Lin,Yang Li,Changbo Wang
発行日 2025-04-25 05:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation はコメントを受け付けていません

PTCL: Pseudo-Label Temporal Curriculum Learning for Label-Limited Dynamic Graph

要約

動的ノード分類は、金融取引や学術的コラボレーションなどの進化するシステムをモデリングするために重要です。
このようなシステムでは、動的なノード情報の変更を動的にキャプチャすることは、通常、すべてのタイムスタンプですべてのラベルを必要とする動的ノード分類にとって重要です。
ただし、注釈コストが高く、ラベルの不確実性(詐欺検出の曖昧または遅延ラベル)のために、実際のシナリオですべての動的ラベルを収集することは困難です。
対照的に、最終的なタイムスタンプラベルは、完全な時間パターンに依存しているため、取得が簡単で、通常、履歴データを追跡せずに、多くのオープンプラットフォームで各ユーザーのユニークなラベルとして維持されます。
このギャップを埋めるために、最終ラベルのみが利用可能なラベル制限動的ノード分類に対処する先駆的な方法であるPTCL(擬似ラベル時間カリキュラム学習)を提案します。
PTCLは、次のように導入します。(1)バックボーン(時間を取得した表現の学習)とデコーダー(最終ラベルと厳密に整合した)を分離する時間的分離アーキテクチャ、擬似ラベルを生成します。
新しいアカデミックデータセット(COOAG)を提供し、動的グラフで長距離の研究関心をキャプチャします。
実際のシナリオ全体の実験は、このタスクに適応した他の方法に対するPTCLの一貫した優位性を示しています。
方法論を超えて、完全な準備ワークフロー、トレーニングパイプライン、評価基準で構成される統一フレームワークFLID(ラベル制限された動的ノード分類のフレームワーク)を提案し、さまざまなモデルとデータセットをサポートします。
コードはhttps://github.com/3205914485/flidにあります。

要約(オリジナル)

Dynamic node classification is critical for modeling evolving systems like financial transactions and academic collaborations. In such systems, dynamically capturing node information changes is critical for dynamic node classification, which usually requires all labels at every timestamp. However, it is difficult to collect all dynamic labels in real-world scenarios due to high annotation costs and label uncertainty (e.g., ambiguous or delayed labels in fraud detection). In contrast, final timestamp labels are easier to obtain as they rely on complete temporal patterns and are usually maintained as a unique label for each user in many open platforms, without tracking the history data. To bridge this gap, we propose PTCL(Pseudo-label Temporal Curriculum Learning), a pioneering method addressing label-limited dynamic node classification where only final labels are available. PTCL introduces: (1) a temporal decoupling architecture separating the backbone (learning time-aware representations) and decoder (strictly aligned with final labels), which generate pseudo-labels, and (2) a Temporal Curriculum Learning strategy that prioritizes pseudo-labels closer to the final timestamp by assigning them higher weights using an exponentially decaying function. We contribute a new academic dataset (CoOAG), capturing long-range research interest in dynamic graph. Experiments across real-world scenarios demonstrate PTCL’s consistent superiority over other methods adapted to this task. Beyond methodology, we propose a unified framework FLiD (Framework for Label-Limited Dynamic Node Classification), consisting of a complete preparation workflow, training pipeline, and evaluation standards, and supporting various models and datasets. The code can be found at https://github.com/3205914485/FLiD.

arxiv情報

著者 Shengtao Zhang,Haokai Zhang,Shiqi Lou,Zicheng Wang,Zinan Zeng,Yilin Wang,Minnan Luo
発行日 2025-04-25 03:38:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | PTCL: Pseudo-Label Temporal Curriculum Learning for Label-Limited Dynamic Graph はコメントを受け付けていません