Lecture Video Visual Objects (LVVO) Dataset: A Benchmark for Visual Object Detection in Educational Videos

要約

教育ビデオコンテンツでの視覚オブジェクト検出のための新しいベンチマークである講義ビデオVisual Objects(LVVO)データセットを紹介します。
データセットは、生物学、コンピューターサイエンス、地球科学にまたがる245の講義ビデオから抽出された4,000フレームで構成されています。
LVVO_1Kと呼ばれる1,000フレームのサブセットには、テーブル、チャートグラフ、写真イメージ、視覚イロストの4つの視覚カテゴリの境界ボックスが手動で注釈が付けられています。
各フレームは2つのアノテーターによって独立してラベル付けされ、アノテーター間F1スコアが83.41%になり、強力な一致が示されています。
高品質のコンセンサス注釈を確保するために、3番目の専門家は、紛争解決プロセスを通じて意見の不一致のすべてのケースをレビューおよび解決しました。
データセットを拡張するために、残りの3,000フレームを自動的に注釈してLVVO_3Kを形成するために、半監視されたアプローチを採用しました。
完全なデータセットは、教育ビデオで視覚的なコンテンツ検出のための監視されたおよび半監視された方法の両方を開発および評価するための貴重なリソースを提供します。
LVVOデータセットは、このドメインでのさらなる研究をサポートするために公開されています。

要約(オリジナル)

We introduce the Lecture Video Visual Objects (LVVO) dataset, a new benchmark for visual object detection in educational video content. The dataset consists of 4,000 frames extracted from 245 lecture videos spanning biology, computer science, and geosciences. A subset of 1,000 frames, referred to as LVVO_1k, has been manually annotated with bounding boxes for four visual categories: Table, Chart-Graph, Photographic-image, and Visual-illustration. Each frame was labeled independently by two annotators, resulting in an inter-annotator F1 score of 83.41%, indicating strong agreement. To ensure high-quality consensus annotations, a third expert reviewed and resolved all cases of disagreement through a conflict resolution process. To expand the dataset, a semi-supervised approach was employed to automatically annotate the remaining 3,000 frames, forming LVVO_3k. The complete dataset offers a valuable resource for developing and evaluating both supervised and semi-supervised methods for visual content detection in educational videos. The LVVO dataset is publicly available to support further research in this domain.

arxiv情報

著者 Dipayan Biswas,Shishir Shah,Jaspal Subhlok
発行日 2025-06-16 16:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Lecture Video Visual Objects (LVVO) Dataset: A Benchmark for Visual Object Detection in Educational Videos はコメントを受け付けていません

MultiViT2: A Data-augmented Multimodal Neuroimaging Prediction Framework via Latent Diffusion Model

要約

マルチモーダルメディカルイメージングは​​、構造的および機能的なニューロイメージングなどのさまざまなデータ型を統合して、深い学習予測を強化し、結果を改善する補完的な洞察を提供します。
この研究では、構造的および機能的なニューロイメージングデータの両方に基づいたニューロイメージング予測フレームワークに焦点を当てています。
次世代予測モデル\ textBf {multivit2}を提案します。これは、前提条件の代表的な学習ベースモデルと予測出力のためのビジョントランスバックボーンを組み合わせています。
さらに、増強されたニューロイメージングサンプルを生成することにより入力データを濃縮する潜在的な拡散モデルに基づいてデータ増強モジュールを開発し、それにより、過剰適合と改善された一般化可能性を削減することで予測パフォーマンスを向上させました。
MultiVIT2は、統合失調症分類の精度における第1世代モデルを大幅に上回り、強力なスケーラビリティと携帯性を実証することを示しています。

要約(オリジナル)

Multimodal medical imaging integrates diverse data types, such as structural and functional neuroimaging, to provide complementary insights that enhance deep learning predictions and improve outcomes. This study focuses on a neuroimaging prediction framework based on both structural and functional neuroimaging data. We propose a next-generation prediction model, \textbf{MultiViT2}, which combines a pretrained representative learning base model with a vision transformer backbone for prediction output. Additionally, we developed a data augmentation module based on the latent diffusion model that enriches input data by generating augmented neuroimaging samples, thereby enhancing predictive performance through reduced overfitting and improved generalizability. We show that MultiViT2 significantly outperforms the first-generation model in schizophrenia classification accuracy and demonstrates strong scalability and portability.

arxiv情報

著者 Bi Yuda,Jia Sihan,Gao Yutong,Abrol Anees,Fu Zening,Calhoun Vince
発行日 2025-06-16 16:25:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | MultiViT2: A Data-augmented Multimodal Neuroimaging Prediction Framework via Latent Diffusion Model はコメントを受け付けていません

ROSA: Harnessing Robot States for Vision-Language and Action Alignment

要約

ビジョン言語モデル(VLM)の強力な一般化能力により、ビジョン言語アクション(VLA)モデルは最近、エンドツーエンドのロボット制御、エンドツーエンドのロボット制御に大きな進歩を遂げました。
このようなモデルの開発における基本的な課題は、ビジョン言語空間をロボットアクション空間と効果的に整合することです。
既存のアプローチは通常、専門家のデモンストレーションを使用して、直接微調整VLMに依存しています。
しかし、この戦略は時空間のギャップに苦しんでおり、その結果、かなりのデータの非効率性と人間の労働に大きく依存しています。
空間的には、VLMは高レベルのセマンティック空間内で動作しますが、ロボットアクションは低レベルの3D物理空間に基づいています。
一時的に、VLMは主に現在を解釈し、VLAモデルは将来のアクションを予測します。
これらの課題を克服するために、視覚言語とアクションスペースの間の整合を改善するためにロボット状態の推定を活用する新しいトレーニングパラダイムであるRosaを提案します。
自動化されたプロセスを介して得られたロボット状態推定データを統合することにより、RosaはVLAモデルが空間的理解と自己認識の強化を獲得し、それによりパフォーマンスと一般化を後押しすることができます。
シミュレートされた環境と現実世界の両方の環境での広範な実験は、特に低データレジームでのローザの有効性を示しています。

要約(オリジナル)

Vision-Language-Action (VLA) models have recently made significant advance in multi-task, end-to-end robotic control, due to the strong generalization capabilities of Vision-Language Models (VLMs). A fundamental challenge in developing such models is effectively aligning the vision-language space with the robotic action space. Existing approaches typically rely on directly fine-tuning VLMs using expert demonstrations. However, this strategy suffers from a spatio-temporal gap, resulting in considerable data inefficiency and heavy reliance on human labor. Spatially, VLMs operate within a high-level semantic space, whereas robotic actions are grounded in low-level 3D physical space; temporally, VLMs primarily interpret the present, while VLA models anticipate future actions. To overcome these challenges, we propose a novel training paradigm, ROSA, which leverages robot state estimation to improve alignment between vision-language and action spaces. By integrating robot state estimation data obtained via an automated process, ROSA enables the VLA model to gain enhanced spatial understanding and self-awareness, thereby boosting performance and generalization. Extensive experiments in both simulated and real-world environments demonstrate the effectiveness of ROSA, particularly in low-data regimes.

arxiv情報

著者 Yuqing Wen,Kefan Gu,Haoxuan Liu,Yucheng Zhao,Tiancai Wang,Haoqiang Fan,Xiaoyan Sun
発行日 2025-06-16 16:34:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | ROSA: Harnessing Robot States for Vision-Language and Action Alignment はコメントを受け付けていません

Heart Rate Classification in ECG Signals Using Machine Learning and Deep Learning

要約

この研究では、ECGシグナルからのハートビートの分類に対処します。2つの異なるアプローチを介して、手作りの機能を利用した従来の機械学習と、ECGビートの変換された画像を介した深い学習です。
データセットは、ダウンサンプリング、フィルタリング、および正規化などの前処理手順を受け、その後の分析の一貫性と関連性を確保しました。
最初のアプローチでは、心拍数の変動(HRV)、平均、分散、RR間隔などの特徴を抽出して、SVM、ランダムフォレスト、アダボースト、LSTM、双方向LSTM、LightGBMなどのさまざまな分類子を訓練しました。
2番目のアプローチでは、ECG信号をグラミアン角磁場(GAF)、マルコフ遷移フィールド(MTF)、および再発プロット(RP)を使用した画像に変換し、その後、VGGやInceptionなどのCNNアーキテクチャを使用して分類されました。
実験結果は、LightGBMモデルが99%の精度と0.94の精度で最高のパフォーマンスを達成し、画像ベースのCNNアプローチ(F1スコア0.85)を上回ることを示しています。
SVMやAdaboostなどのモデルは、スコアが大幅に低下し、このタスクに対する適合性が限られていることを示しています。
調査結果は、個々のビートの画像ベースの表現と比較して、ECG信号の時間的および形態学的変動をキャプチャするための手作りの特徴の優れた能力を強調しています。
将来の調査は、連続したビート全体でマルチリードECG信号と時間的依存関係を組み込むことで恩恵を受ける可能性があります。

要約(オリジナル)

This study addresses the classification of heartbeats from ECG signals through two distinct approaches: traditional machine learning utilizing hand-crafted features and deep learning via transformed images of ECG beats. The dataset underwent preprocessing steps, including downsampling, filtering, and normalization, to ensure consistency and relevance for subsequent analysis. In the first approach, features such as heart rate variability (HRV), mean, variance, and RR intervals were extracted to train various classifiers, including SVM, Random Forest, AdaBoost, LSTM, Bi-directional LSTM, and LightGBM. The second approach involved transforming ECG signals into images using Gramian Angular Field (GAF), Markov Transition Field (MTF), and Recurrence Plots (RP), with these images subsequently classified using CNN architectures like VGG and Inception. Experimental results demonstrate that the LightGBM model achieved the highest performance, with an accuracy of 99% and an F1 score of 0.94, outperforming the image-based CNN approach (F1 score of 0.85). Models such as SVM and AdaBoost yielded significantly lower scores, indicating limited suitability for this task. The findings underscore the superior ability of hand-crafted features to capture temporal and morphological variations in ECG signals compared to image-based representations of individual beats. Future investigations may benefit from incorporating multi-lead ECG signals and temporal dependencies across successive beats to enhance classification accuracy further.

arxiv情報

著者 Thien Nhan Vo
発行日 2025-06-16 16:40:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.SP | Heart Rate Classification in ECG Signals Using Machine Learning and Deep Learning はコメントを受け付けていません

UltraVideo: High-Quality UHD Video Dataset with Comprehensive Captions

要約

ビデオデータセットの品質(画質、解像度、および細かいキャプション)は、ビデオ生成モデルのパフォーマンスに大きく影響します。
ビデオアプリケーションに対する需要の高まりは、高品質のビデオ生成モデルに高い要件を設定します。
たとえば、映画レベルの超高定義(UHD)ビデオの生成と4Kショートビデオコンテンツの作成。
ただし、既存のパブリックデータセットは、関連する調査とアプリケーションをサポートすることはできません。
この論文では、最初に、高品質のオープンソースのUHD-4K(22.4 \%は8K)というテキストからビデオへのテキストからVideoデータセットを提案します。これには、幅広いトピック(100種類以上)が含まれており、各ビデオには1つの要約キャプション(平均824ワード)を含む9つの構造化されたキャプションがあります。
具体的には、4つのステージで高度に自動化されたキュレーションプロセスを慎重に設計して、最終的な高品質のデータセット:\ textit {i)}多様で高品質のビデオクリップのコレクションを取得します。
\ textit {ii)}統計データフィルタリング。
\ textit {iii)}モデルベースのデータ浄化。
\ textit {iv)}包括的な構造化されたキャプションの生成。
さらに、WANをUltrawan-1K/-4Kに拡張し、より一貫したテキスト制御性を備えた高品質の1K/4Kビデオをネイティブに生成でき、データキュレーションの有効性を示しています。
Ultravideo DatasetおよびUltrawanモデルは、https://xzc-zju.github.io/projects/ultravideoで入手できます。

要約(オリジナル)

The quality of the video dataset (image quality, resolution, and fine-grained caption) greatly influences the performance of the video generation model. The growing demand for video applications sets higher requirements for high-quality video generation models. For example, the generation of movie-level Ultra-High Definition (UHD) videos and the creation of 4K short video content. However, the existing public datasets cannot support related research and applications. In this paper, we first propose a high-quality open-sourced UHD-4K (22.4\% of which are 8K) text-to-video dataset named UltraVideo, which contains a wide range of topics (more than 100 kinds), and each video has 9 structured captions with one summarized caption (average of 824 words). Specifically, we carefully design a highly automated curation process with four stages to obtain the final high-quality dataset: \textit{i)} collection of diverse and high-quality video clips. \textit{ii)} statistical data filtering. \textit{iii)} model-based data purification. \textit{iv)} generation of comprehensive, structured captions. In addition, we expand Wan to UltraWan-1K/-4K, which can natively generate high-quality 1K/4K videos with more consistent text controllability, demonstrating the effectiveness of our data curation.We believe that this work can make a significant contribution to future research on UHD video generation. UltraVideo dataset and UltraWan models are available at https://xzc-zju.github.io/projects/UltraVideo.

arxiv情報

著者 Zhucun Xue,Jiangning Zhang,Teng Hu,Haoyang He,Yinan Chen,Yuxuan Cai,Yabiao Wang,Chengjie Wang,Yong Liu,Xiangtai Li,Dacheng Tao
発行日 2025-06-16 16:52:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UltraVideo: High-Quality UHD Video Dataset with Comprehensive Captions はコメントを受け付けていません

Vid-CamEdit: Video Camera Trajectory Editing with Generative Rendering from Estimated Geometry

要約

ビデオカメラの軌跡編集のための新しいフレームワークであるVID-CAMEDITを紹介し、ユーザー定義のカメラパスに沿ってモノクラービデオの再合成を可能にします。
このタスクは、その不適切な性質とトレーニング用の限られたマルチビュービデオデータのために困難です。
従来の再構築方法は、極端な軌跡の変化に苦しんでおり、動的な新規ビューの合成のための既存の生成モデルは、内部のビデオを処理できません。
私たちのアプローチは、一時的に一貫したジオメトリの推定と、このジオメトリによって導かれる生成レンダリングの2つのステップで構成されています。
幾何学的なプライアーを統合することにより、生成モデルは、推定されたジオメトリが不確かな現実的な詳細の合成に焦点を当てています。
マルチビュー画像とビデオデータを使用して空間的および時間的コンポーネントを個別にトレーニングする因数分解された微調整フレームワークを介して、広範な4Dトレーニングデータの必要性を排除します。
私たちの方法は、特に現実世界の映像の極端な外挿シナリオで、新しいカメラの軌跡からもっともらしいビデオを作成する際のベースラインを上回ります。

要約(オリジナル)

We introduce Vid-CamEdit, a novel framework for video camera trajectory editing, enabling the re-synthesis of monocular videos along user-defined camera paths. This task is challenging due to its ill-posed nature and the limited multi-view video data for training. Traditional reconstruction methods struggle with extreme trajectory changes, and existing generative models for dynamic novel view synthesis cannot handle in-the-wild videos. Our approach consists of two steps: estimating temporally consistent geometry, and generative rendering guided by this geometry. By integrating geometric priors, the generative model focuses on synthesizing realistic details where the estimated geometry is uncertain. We eliminate the need for extensive 4D training data through a factorized fine-tuning framework that separately trains spatial and temporal components using multi-view image and video data. Our method outperforms baselines in producing plausible videos from novel camera trajectories, especially in extreme extrapolation scenarios on real-world footage.

arxiv情報

著者 Junyoung Seo,Jisang Han,Jaewoo Jung,Siyoon Jin,Joungbin Lee,Takuya Narihira,Kazumi Fukuda,Takashi Shibuya,Donghoon Ahn,Shoukang Hu,Seungryong Kim,Yuki Mitsufuji
発行日 2025-06-16 17:02:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Vid-CamEdit: Video Camera Trajectory Editing with Generative Rendering from Estimated Geometry はコメントを受け付けていません

Deep Learning for Wildfire Risk Prediction: Integrating Remote Sensing and Environmental Data

要約

山火事は、生態系、野生生物、および人間のコミュニティに大きな脅威をもたらし、生息地の破壊、汚染物質の排出、生物多様性の損失につながります。
これらの影響を軽減し、環境と人間の両方の健康を保護するには、正確な山火事リスク予測が重要です。
このペーパーでは、リモートセンシングと組み合わせた深い学習アプローチに特に焦点を当てた、山火事リスク予測方法の包括的なレビューを提供します。
まず、山火事のリスクを定義し、関連研究の地理的分布を要約することから始めます。
データに関しては、燃料特性、気象および気候条件、社会経済的要因、地形、水文学などの主要な予測機能を分析し、リモートセンシングから派生した公開されている山火事予測データセットをレビューします。
さらに、予測の結果の理解を改善するために、機能の共線性評価とモデルの解釈可能性の重要性を強調します。
方法論に関して、深い学習モデルを3つの主要なカテゴリに分類します:時系列予測、画像セグメンテーション、および時空予測、さらにはモデル出力をリスク分類または確率調整された予測に変換する方法についてさらに議論します。
最後に、現在の山火事リスク予測モデルの重要な課題と制限を特定し、いくつかの研究機会を概説します。
これらには、多様なリモートセンシングデータの統合、マルチモーダルモデルの開発、より計算効率の高いアーキテクチャの設計、数値的気圧モデルとの結合など、ワイルドファイアリスク評価の精度と堅牢性を高めるために、学際的な方法を組み込むことが含まれます。

要約(オリジナル)

Wildfires pose a significant threat to ecosystems, wildlife, and human communities, leading to habitat destruction, pollutant emissions, and biodiversity loss. Accurate wildfire risk prediction is crucial for mitigating these impacts and safeguarding both environmental and human health. This paper provides a comprehensive review of wildfire risk prediction methodologies, with a particular focus on deep learning approaches combined with remote sensing. We begin by defining wildfire risk and summarizing the geographical distribution of related studies. In terms of data, we analyze key predictive features, including fuel characteristics, meteorological and climatic conditions, socioeconomic factors, topography, and hydrology, while also reviewing publicly available wildfire prediction datasets derived from remote sensing. Additionally, we emphasize the importance of feature collinearity assessment and model interpretability to improve the understanding of prediction outcomes. Regarding methodology, we classify deep learning models into three primary categories: time-series forecasting, image segmentation, and spatiotemporal prediction, and further discuss methods for converting model outputs into risk classifications or probability-adjusted predictions. Finally, we identify the key challenges and limitations of current wildfire-risk prediction models and outline several research opportunities. These include integrating diverse remote sensing data, developing multimodal models, designing more computationally efficient architectures, and incorporating cross-disciplinary methods–such as coupling with numerical weather-prediction models–to enhance the accuracy and robustness of wildfire-risk assessments.

arxiv情報

著者 Zhengsen Xu,Jonathan Li,Sibo Cheng,Xue Rui,Yu Zhao,Hongjie He,Haiyan Guan,Aryan Sharma,Matthew Erxleben,Ryan Chang,Linlin Xu
発行日 2025-06-16 17:07:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Deep Learning for Wildfire Risk Prediction: Integrating Remote Sensing and Environmental Data はコメントを受け付けていません

How Real is CARLAs Dynamic Vision Sensor? A Study on the Sim-to-Real Gap in Traffic Object Detection

要約

イベントカメラは、潜時が低い、時間分解能が高く、エネルギー効率が低いため、トラフィック監視アプリケーションで牽引力を獲得しているため、トラフィックの交差点でのリアルタイムオブジェクト検出に適しています。
ただし、堅牢なイベントベースの検出モデルの開発は、注釈付きの実世界のデータセットの利用可能性が限られていることによって妨げられています。
これに対処するために、合成イベントデータを生成するためにいくつかのシミュレーションツールが開発されました。
これらの中には、Carla Driving Simulatorには、イベントカメラの出力をエミュレートする組み込みの動的ビジョンセンサー(DVS)モジュールが含まれています。
その可能性にもかかわらず、イベントベースのオブジェクト検出のSIMからリアルのギャップは不十分な研究を行っています。
この作業では、Carlas DVSを使用して生成された合成データのみで再発性ビジョントランスモデルをトレーニングし、合成および実世界のイベントストリームのさまざまな組み合わせでテストすることにより、このギャップの体系的な評価を提示します。
私たちの実験は、合成データのみで訓練されたモデルが合成が多いテストセットでうまく機能するが、実際のデータの割合が増加するにつれて大きなパフォーマンスの劣化に苦しむことを示しています。
対照的に、実際のデータでトレーニングされたモデルは、ドメイン全体でより強力な一般化を示しています。
この研究は、Carlas DVSを使用したイベントベースのオブジェクト検出におけるSIMからリアルのギャップの最初の定量化可能な分析を提供します。
私たちの調査結果は、現在のDVSシミュレーションの忠実度の制限を強調し、トラフィックモニタリングの神経形態の視力におけるドメイン適応技術の改善の必要性を強調しています。

要約(オリジナル)

Event cameras are gaining traction in traffic monitoring applications due to their low latency, high temporal resolution, and energy efficiency, which makes them well-suited for real-time object detection at traffic intersections. However, the development of robust event-based detection models is hindered by the limited availability of annotated real-world datasets. To address this, several simulation tools have been developed to generate synthetic event data. Among these, the CARLA driving simulator includes a built-in dynamic vision sensor (DVS) module that emulates event camera output. Despite its potential, the sim-to-real gap for event-based object detection remains insufficiently studied. In this work, we present a systematic evaluation of this gap by training a recurrent vision transformer model exclusively on synthetic data generated using CARLAs DVS and testing it on varying combinations of synthetic and real-world event streams. Our experiments show that models trained solely on synthetic data perform well on synthetic-heavy test sets but suffer significant performance degradation as the proportion of real-world data increases. In contrast, models trained on real-world data demonstrate stronger generalization across domains. This study offers the first quantifiable analysis of the sim-to-real gap in event-based object detection using CARLAs DVS. Our findings highlight limitations in current DVS simulation fidelity and underscore the need for improved domain adaptation techniques in neuromorphic vision for traffic monitoring.

arxiv情報

著者 Kaiyuan Tan,Pavan Kumar B N,Bharatesh Chakravarthi
発行日 2025-06-16 17:27:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | How Real is CARLAs Dynamic Vision Sensor? A Study on the Sim-to-Real Gap in Traffic Object Detection はコメントを受け付けていません

OTFusion: Bridging Vision-only and Vision-Language Models via Optimal Transport for Transductive Zero-Shot Learning

要約

Transductive Zero-Shot Learning(ZSL)は、セマンティッククラスの説明と非標識テストデータの分布の両方を活用することにより、目に見えないカテゴリを分類することを目的としています。
視覚入力をテキストセマンティクスに合わせるのにクリップエクセルなどのビジョン言語モデル(VLM)は、クラスレベルの事前にあまりにも依存しすぎており、きめ細かい視覚キューをキャプチャできません。
対照的に、Dinov2のようなVisionのみの基礎モデル(VFM)は、豊富な知覚的特徴を提供しますが、意味的なアライメントがありません。
これらのモデルの補完的な強みを活用するために、最適な輸送を介してVLMとVFMを橋渡しするシンプルで効果的なトレーニングフリーのフレームワークであるOtFusionを提案します。
具体的には、OtFusionは、それぞれの分布間の輸送コストを最小限に抑えることにより、視覚情報と意味情報を合わせる共有確率的表現を学ぶことを目的としています。
この統一された分布により、意味的に意味があり、視覚的に接地された一貫したクラスの予測が可能になります。
11のベンチマークデータセットでの広範な実験は、OTFusionが一貫して元のクリップモデルを上回ることを示しており、すべてが微調整または追加の注釈なしで、ほぼ10ドル\%$の平均精度改善を達成することを示しています。
コードは、論文が受け入れられた後に公開されます。

要約(オリジナル)

Transductive zero-shot learning (ZSL) aims to classify unseen categories by leveraging both semantic class descriptions and the distribution of unlabeled test data. While Vision-Language Models (VLMs) such as CLIP excel at aligning visual inputs with textual semantics, they often rely too heavily on class-level priors and fail to capture fine-grained visual cues. In contrast, Vision-only Foundation Models (VFMs) like DINOv2 provide rich perceptual features but lack semantic alignment. To exploit the complementary strengths of these models, we propose OTFusion, a simple yet effective training-free framework that bridges VLMs and VFMs via Optimal Transport. Specifically, OTFusion aims to learn a shared probabilistic representation that aligns visual and semantic information by minimizing the transport cost between their respective distributions. This unified distribution enables coherent class predictions that are both semantically meaningful and visually grounded. Extensive experiments on 11 benchmark datasets demonstrate that OTFusion consistently outperforms the original CLIP model, achieving an average accuracy improvement of nearly $10\%$, all without any fine-tuning or additional annotations. The code will be publicly released after the paper is accepted.

arxiv情報

著者 Qiyu Xu,Wenyang Chen,Zhanxuan Hu,Huafeng Li,Yonghang Tai
発行日 2025-06-16 17:27:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OTFusion: Bridging Vision-only and Vision-Language Models via Optimal Transport for Transductive Zero-Shot Learning はコメントを受け付けていません

Test3R: Learning to Reconstruct 3D at Test Time

要約

3D再構成のためのDust3R回帰ペアワイズポイントマップなどの密なマッチング方法。
ただし、ペアワイズ予測と限られた一般化能力への依存は、グローバルな幾何学的一貫性を本質的に制限します。
この作業では、幾何学的精度を大幅に向上させる驚くほどシンプルなテスト時間学習技術であるTest3Rを紹介します。
画像トリプレット($ i_1、i_2、i_3 $)を使用して、test3rはペア($ i_1、i_2 $)および($ i_1、i_3 $)からの再構成を生成します。
コアのアイデアは、自己教師の目的を介してテスト時にネットワークを最適化することです。共通の画像$ i_1 $と比較して、これら2つの再構成間の幾何学的一貫性を最大化することです。
これにより、入力に関係なく、モデルがクロスペアの一貫した出力を生成します。
広範な実験は、私たちの手法が、3D再構成およびマルチビュー深度推定タスクに関する以前の最先端の方法を大幅に上回ることを示しています。
さらに、それは普遍的に適用可能であり、コストがかからないため、他のモデルに簡単に適用され、最小限のテスト時間トレーニングオーバーヘッドとパラメーターフットプリントで実装されています。
コードはhttps://github.com/nopqaq/test3rで入手できます。

要約(オリジナル)

Dense matching methods like DUSt3R regress pairwise pointmaps for 3D reconstruction. However, the reliance on pairwise prediction and the limited generalization capability inherently restrict the global geometric consistency. In this work, we introduce Test3R, a surprisingly simple test-time learning technique that significantly boosts geometric accuracy. Using image triplets ($I_1,I_2,I_3$), Test3R generates reconstructions from pairs ($I_1,I_2$) and ($I_1,I_3$). The core idea is to optimize the network at test time via a self-supervised objective: maximizing the geometric consistency between these two reconstructions relative to the common image $I_1$. This ensures the model produces cross-pair consistent outputs, regardless of the inputs. Extensive experiments demonstrate that our technique significantly outperforms previous state-of-the-art methods on the 3D reconstruction and multi-view depth estimation tasks. Moreover, it is universally applicable and nearly cost-free, making it easily applied to other models and implemented with minimal test-time training overhead and parameter footprint. Code is available at https://github.com/nopQAQ/Test3R.

arxiv情報

著者 Yuheng Yuan,Qiuhong Shen,Shizun Wang,Xingyi Yang,Xinchao Wang
発行日 2025-06-16 17:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Test3R: Learning to Reconstruct 3D at Test Time はコメントを受け付けていません