VideoChat-A1: Thinking with Long Videos by Chain-of-Shot Reasoning

要約

最近のビデオ理解の進歩は、マルチモーダルの大手言語モデル(MLLMS)によって推進されています。
しかし、これらのMLLMは、短いビデオを分析するのが得意ですが、より長いコンテキストでビデオを理解するのが困難に苦しんでいます。
この困難に対処するために、いくつかのエージェントパラダイムが最近提案されており、長いビデオで追加のコンテキスト知識を取得するためのエージェントとしてMLLMSを使用しています。
ただし、ほとんどの既存のエージェントは、長いビデオが複数のショットで構成されているという重要な事実を無視しています。つまり、長いビデオからユーザーの質問に答えるために、人間のような関連するショットを深く理解することが重要です。
そのような洞察がなければ、これらのエージェントはしばしば誤って冗長な騒々しい時間的文脈でさえ冗長に感じられ、長いビデオ理解の能力を制限します。
このギャップを埋めるために、新しい長いビデオエージェントパラダイムであるVideoChat-A1を提案します。
以前の作品とは異なり、私たちのVideoChat-A1は、明確なショットの推論パラダイムを介して、長いビデオで深く考えることができます。
より具体的には、ユーザーの質問の関連するショットを徐々に選択し、粗からファインのパーティションでこれらのショットを調べることができます。
ショットチェーンに沿ったマルチモーダル推論により、VideoChat-A1は段階的な人間の思考プロセスを効果的に模倣し、長いビデオで思慮深い理解のために好ましい時間的コンテキストをインタラクティブに発見することができます。
広範な実験では、VideoChat-A1が主流の長いビデオQAベンチマークで最先端のパフォーマンスを達成することを示しています。
緊密なソースGPT-4OおよびGemini 1.5 Proの先頭と比較して、VideoChat-A1は競争の正確性を提供しますが、平均して7 \%入力フレームと12 \%推論時間を備えています。

要約(オリジナル)

The recent advance in video understanding has been driven by multimodal large language models (MLLMs). But these MLLMs are good at analyzing short videos, while suffering from difficulties in understanding videos with a longer context. To address this difficulty, several agent paradigms have recently been proposed, using MLLMs as agents for retrieving extra contextual knowledge in a long video. However, most existing agents ignore the key fact that a long video is composed with multiple shots, i.e., to answer the user question from a long video, it is critical to deeply understand its relevant shots like human. Without such insight, these agents often mistakenly find redundant even noisy temporal context, restricting their capacity for long video understanding. To fill this gap, we propose VideoChat-A1, a novel long video agent paradigm. Different from the previous works, our VideoChat-A1 can deeply think with long videos, via a distinct chain-of-shot reasoning paradigm. More specifically, it can progressively select the relevant shots of user question, and look into these shots in a coarse-to-fine partition. By multi-modal reasoning along the shot chain, VideoChat-A1 can effectively mimic step-by-step human thinking process, allowing to interactively discover preferable temporal context for thoughtful understanding in long videos. Extensive experiments show that, our VideoChat-A1 achieves the state-of-the-art performance on the mainstream long video QA benchmarks, e.g., it achieves 77.0 on VideoMME and 70.1 on EgoSchema, outperforming its strong baselines (e.g., Intern2.5VL-8B and InternVideo2.5-8B), by up to 10.8\% and 6.2\%. Compared to leading close-source GPT-4o and Gemini 1.5 Pro, VideoChat-A1 offers competitive accuracy, but with 7\% input frames and 12\% inference time on average.

arxiv情報

著者 Zikang Wang,Boyu Chen,Zhengrong Yue,Yi Wang,Yu Qiao,Limin Wang,Yali Wang
発行日 2025-06-06 13:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VideoChat-A1: Thinking with Long Videos by Chain-of-Shot Reasoning はコメントを受け付けていません

DermaCon-IN: A Multi-concept Annotated Dermatological Image Dataset of Indian Skin Disorders for Clinical AI Research

要約

人工知能は、スケーラブルな画像ベースの診断を可能にすることにより、皮膚療法を増強する態勢が整っています。
しかし、堅牢で公平なモデルの開発は、現実世界の実践の臨床的および人口統計学的複雑さをキャプチャできないデータセットによって妨げられたままです。
この複雑さは、地域固有の疾患分布、皮膚トーンの広い変動、および非西洋集団からの外来シナリオの過小評価に由来しています。
南インドの外来患者診療所全体で約3,000人の患者から5,450を超える臨床画像を含む、前向きにキュレーションされた皮膚科データセットであるDermacon-inを紹介します。
各画像は、ルークの分類から適応された階層的な病因ベースの分類法の下で構成された240を超える異なる診断を持つボード認定皮膚科医によって注釈が付けられています。
データセットは、インドの外来患者のケアで一般的に見られる皮膚科学条件と色調の変動の幅広いスペクトルをキャプチャします。
畳み込みモデル(ResNet、Densenet、EfficientNet)、変圧器ベースのモデル(VIT、Maxvit、Swin)、およびコンセプトボトルネックモデルを含むさまざまなアーキテクチャをベーチラインのパフォーマンスを確立し、解剖学的および概念レベルのキューを統合する方法を探ります。
これらの結果は、解釈可能で臨床的に現実的なモデルに向けて将来の努力を導くことを目的としています。
Dermacon-inは、現実世界の設定で皮膚科AIを前進させるためのスケーラブルで代表的な基盤を提供します。

要約(オリジナル)

Artificial intelligence is poised to augment dermatological care by enabling scalable image-based diagnostics. Yet, the development of robust and equitable models remains hindered by datasets that fail to capture the clinical and demographic complexity of real-world practice. This complexity stems from region-specific disease distributions, wide variation in skin tones, and the underrepresentation of outpatient scenarios from non-Western populations. We introduce DermaCon-IN, a prospectively curated dermatology dataset comprising over 5,450 clinical images from approximately 3,000 patients across outpatient clinics in South India. Each image is annotated by board-certified dermatologists with over 240 distinct diagnoses, structured under a hierarchical, etiology-based taxonomy adapted from Rook’s classification. The dataset captures a wide spectrum of dermatologic conditions and tonal variation commonly seen in Indian outpatient care. We benchmark a range of architectures including convolutional models (ResNet, DenseNet, EfficientNet), transformer-based models (ViT, MaxViT, Swin), and Concept Bottleneck Models to establish baseline performance and explore how anatomical and concept-level cues may be integrated. These results are intended to guide future efforts toward interpretable and clinically realistic models. DermaCon-IN provides a scalable and representative foundation for advancing dermatology AI in real-world settings.

arxiv情報

著者 Shanawaj S Madarkar,Mahajabeen Madarkar,Madhumitha V,Teli Prakash,Konda Reddy Mopuri,Vinaykumar MV,KVL Sathwika,Adarsh Kasturi,Gandla Dilip Raj,PVN Supranitha,Harsh Udai
発行日 2025-06-06 13:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | DermaCon-IN: A Multi-concept Annotated Dermatological Image Dataset of Indian Skin Disorders for Clinical AI Research はコメントを受け付けていません

WoundAIssist: A Patient-Centered Mobile App for AI-Assisted Wound Care With Physicians in the Loop

要約

特に老化した集団における慢性創傷の有病率の高まりは、延長された入院、コストの上昇、患者の生活の質の低下により、重要なヘルスケアの課題を提示します。
従来の創傷ケアは資源集約型であり、患者と医療専門家(HCP)の両方に負担をかける頻繁な対面訪問を必要とします。
したがって、私たちは、遠隔医療創傷ケアをサポートするために設計された患者中心のAI駆動型モバイルアプリケーションである創傷者を提示します。
創傷者は、患者が写真やアンケートを介して自宅で傷を定期的に記録することを可能にしますが、医師は遠隔監視とビデオ相談を通じてケアプロセスに積極的に関与し続けています。
際立った機能は、患者が報告されたデータと組み合わせて、創傷治癒の進行を継続的に監視できるように、デバイス上の創傷セグメンテーションのための統合された軽量学習モデルです。
患者とドメインの専門家の両方を含む反復的なユーザー中心のプロセスを通じて開発された創傷者は、特に高齢患者にユーザーフレンドリーな設計を優先します。
患者と皮膚科医による決定的な使いやすさの研究は、優れた使いやすさ、アプリの品質の優れたもの、およびAI駆動型の傷の認識に対する好ましい認識を報告しました。
私たちの主な貢献は、(i)患者とHCPの間のギャップを埋めるために設計された使いやすい包括的なテレヘルスソリューションである、(ii)実装と(ii)revideaissistの評価です。
さらに、3年以上の学際的な研究から派生したリモート患者監視アプリの設計洞察を統合し、臨床ドメイン全体で同様のデジタルヘルスツールの開発を通知する可能性があります。

要約(オリジナル)

The rising prevalence of chronic wounds, especially in aging populations, presents a significant healthcare challenge due to prolonged hospitalizations, elevated costs, and reduced patient quality of life. Traditional wound care is resource-intensive, requiring frequent in-person visits that strain both patients and healthcare professionals (HCPs). Therefore, we present WoundAIssist, a patient-centered, AI-driven mobile application designed to support telemedical wound care. WoundAIssist enables patients to regularly document wounds at home via photographs and questionnaires, while physicians remain actively engaged in the care process through remote monitoring and video consultations. A distinguishing feature is an integrated lightweight deep learning model for on-device wound segmentation, which, combined with patient-reported data, enables continuous monitoring of wound healing progression. Developed through an iterative, user-centered process involving both patients and domain experts, WoundAIssist prioritizes an user-friendly design, particularly for elderly patients. A conclusive usability study with patients and dermatologists reported excellent usability, good app quality, and favorable perceptions of the AI-driven wound recognition. Our main contribution is two-fold: (I) the implementation and (II) evaluation of WoundAIssist, an easy-to-use yet comprehensive telehealth solution designed to bridge the gap between patients and HCPs. Additionally, we synthesize design insights for remote patient monitoring apps, derived from over three years of interdisciplinary research, that may inform the development of similar digital health tools across clinical domains.

arxiv情報

著者 Vanessa Borst,Anna Riedmann,Tassilo Dege,Konstantin Müller,Astrid Schmieder,Birgit Lugrin,Samuel Kounev
発行日 2025-06-06 14:10:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | WoundAIssist: A Patient-Centered Mobile App for AI-Assisted Wound Care With Physicians in the Loop はコメントを受け付けていません

Bidirectional Image-Event Guided Low-Light Image Enhancement

要約

極端な低光条件下では、動的範囲が限られているため、従来のフレームベースのカメラは、キャプチャされた画像の詳細損失とモーションブラーに直面しています。
このボトルネックを克服するために、研究者はイベントカメラを導入し、イベントガイド下のローライト画像強化アルゴリズムを提案しました。
ただし、これらの方法は、動的照明条件とスパースイベントデータにおける局所構造の不連続によって引き起こされるグローバルな低周波ノイズの影響を無視します。
これらの問題に対処するために、革新的な双方向のガイド付き低灯画像強化フレームワーク(Bilie)を提案します。
特に、グローバルな照明ステップの変更によって導入された有意な低周波ノイズを緩和するために、イベント表現レベルで周波数ハイパスフィルタリングベースのイベント機能強化(EFE)モジュールを導入して、低周波情報の干渉を抑制し、高周波のエッジを保存および強調します。
既存のデータセットの視覚的品質と色のバイアスが不十分であることを考慮して、拡張イベントガイダンスによって導入された構造的不連続性と局所ノイズを抑制しながら、よりスムーズな融合表現を生成しながら、エッジは、信頼できる強化スキームを通じて高品質のグラウンドトゥルースを備えた新しいデータセット(免除)を提供します。
広範な実験結果は、提案されたBilieがPSNRで0.96dB、LPIPSで0.03の最先端の方法よりも優れていることを示しています。

要約(オリジナル)

Under extreme low-light conditions, traditional frame-based cameras, due to their limited dynamic range and temporal resolution, face detail loss and motion blur in captured images. To overcome this bottleneck, researchers have introduced event cameras and proposed event-guided low-light image enhancement algorithms. However, these methods neglect the influence of global low-frequency noise caused by dynamic lighting conditions and local structural discontinuities in sparse event data. To address these issues, we propose an innovative Bidirectional guided Low-light Image Enhancement framework (BiLIE). Specifically, to mitigate the significant low-frequency noise introduced by global illumination step changes, we introduce the frequency high-pass filtering-based Event Feature Enhancement (EFE) module at the event representation level to suppress the interference of low-frequency information, and preserve and highlight the high-frequency edges.Furthermore, we design a Bidirectional Cross Attention Fusion (BCAF) mechanism to acquire high-frequency structures and edges while suppressing structural discontinuities and local noise introduced by sparse event guidance, thereby generating smoother fused representations.Additionally, considering the poor visual quality and color bias in existing datasets, we provide a new dataset (RELIE), with high-quality ground truth through a reliable enhancement scheme. Extensive experimental results demonstrate that our proposed BiLIE outperforms state-of-the-art methods by 0.96dB in PSNR and 0.03 in LPIPS.

arxiv情報

著者 Zhanwen Liu,Huanna Song,Yang Wang,Nan Yang,Shangyu Xie,Yisheng An,Xiangmo Zhao
発行日 2025-06-06 14:28:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Bidirectional Image-Event Guided Low-Light Image Enhancement はコメントを受け付けていません

CCLSTM: Coupled Convolutional Long-Short Term Memory Network for Occupancy Flow Forecasting

要約

動的エージェントの将来の状態を予測することは、自律運転の基本的なタスクです。
この目的の表現力のある表現は、運動、空間的範囲、およびマルチモーダルの将来の分布をモデル化するためのスケーラブルで統一された形式を提供する占有フローフィールドです。
最近の方法はこの表現を使用して強力な結果を達成しましたが、多くの場合、実際には利用できない、または生成が困難な高品質のベクトル化された入力、および計算的に集中的でコストがかかるトランスベースのアーキテクチャの使用に依存しています。
これらの問題に対処するために、\ textBf {結合畳み込みLSTM(CCLSTM)}を提案します。
CCLSTMは、ベクトル化された入力や自己関節メカニズムに依存せずに、コンパクトな再発畳み込み構造を使用して、時間的ダイナミクスと空間的占有率相関を効果的にキャプチャします。
その単純さにもかかわらず、CCLSTMは占有フローメトリックで最先端のパフォーマンスを達成し、この提出時点で、2024年のWaymo占有およびフロー予測チャレンジリーダーボードのすべてのメトリックで\(1^{\ text {st}} \)をランク付けします。

要約(オリジナル)

Predicting future states of dynamic agents is a fundamental task in autonomous driving. An expressive representation for this purpose is Occupancy Flow Fields, which provide a scalable and unified format for modeling motion, spatial extent, and multi-modal future distributions. While recent methods have achieved strong results using this representation, they often depend on high-quality vectorized inputs, which are unavailable or difficult to generate in practice, and the use of transformer-based architectures, which are computationally intensive and costly to deploy. To address these issues, we propose \textbf{Coupled Convolutional LSTM (CCLSTM)}, a lightweight, end-to-end trainable architecture based solely on convolutional operations. Without relying on vectorized inputs or self-attention mechanisms, CCLSTM effectively captures temporal dynamics and spatial occupancy-flow correlations using a compact recurrent convolutional structure. Despite its simplicity, CCLSTM achieves state-of-the-art performance on occupancy flow metrics and, as of this submission, ranks \(1^{\text{st}}\) in all metrics on the 2024 Waymo Occupancy and Flow Prediction Challenge leaderboard.

arxiv情報

著者 Peter Lengyel
発行日 2025-06-06 14:38:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CCLSTM: Coupled Convolutional Long-Short Term Memory Network for Occupancy Flow Forecasting はコメントを受け付けていません

Gradient Similarity Surgery in Multi-Task Deep Learning

要約

マルチタスク学習($ MTL $)パラダイムは、タスクで共有される高レベルでより一般的な隠されたパターンをキャプチャする単一モデル内で複数のタスクを同時に学習することを目的としています。
深い学習では、バックプロパゲーショントレーニングプロセスの重要な課題は、勾配降下学習ルールの収束速度と安定性を改善するための高度なオプティマイザーの設計です。
特に、マルチタスクディープラーニング($ mtdl $)では、多数のタスクが潜在的に矛盾する勾配を生成する場合があり、それが多様な損失関数の同時収束を妨げる可能性があります。
この課題は、タスクの目的の勾配が異なる大きさまたは反対方向のいずれかを持っている場合に発生し、1つまたは少数が互いに支配または干渉し、したがってトレーニングプロセスを低下させます。
勾配手術方法は、全体的な勾配軌道を調整することにより、矛盾する勾配に明示的に対処する問題に対処します。
この研究では、新しい勾配手術法である類似性を覚める運動量勾配手術(SAM-GS)を紹介します。これは、最適化プロセスを導くための勾配の大きさの類似性測定に基づいた効果的でスケーラブルなアプローチを提供します。
SAM-GS手術は、勾配の均等化と1次勢いの変調を採用しています。
一連の実験テストにより、SAM-GSの合成問題と$ MTL $ベンチマークに対する有効性が示されています。
勾配の大きさの類似性は、学習プロセスの最適化のために$ MTDL $の勾配集約を正規化する上で重要な役割を果たします。

要約(オリジナル)

The multi-task learning ($MTL$) paradigm aims to simultaneously learn multiple tasks within a single model capturing higher-level, more general hidden patterns that are shared by the tasks. In deep learning, a significant challenge in the backpropagation training process is the design of advanced optimisers to improve the convergence speed and stability of the gradient descent learning rule. In particular, in multi-task deep learning ($MTDL$) the multitude of tasks may generate potentially conflicting gradients that would hinder the concurrent convergence of the diverse loss functions. This challenge arises when the gradients of the task objectives have either different magnitudes or opposite directions, causing one or a few to dominate or to interfere with each other, thus degrading the training process. Gradient surgery methods address the problem explicitly dealing with conflicting gradients by adjusting the overall gradient trajectory. This work introduces a novel gradient surgery method, the Similarity-Aware Momentum Gradient Surgery (SAM-GS), which provides an effective and scalable approach based on a gradient magnitude similarity measure to guide the optimisation process. The SAM-GS surgery adopts gradient equalisation and modulation of the first-order momentum. A series of experimental tests have shown the effectiveness of SAM-GS on synthetic problems and $MTL$ benchmarks. Gradient magnitude similarity plays a crucial role in regularising gradient aggregation in $MTDL$ for the optimisation of the learning process.

arxiv情報

著者 Thomas Borsani,Andrea Rosani,Giuseppe Nicosia,Giuseppe Di Fatta
発行日 2025-06-06 14:40:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Gradient Similarity Surgery in Multi-Task Deep Learning はコメントを受け付けていません

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

要約

基礎モデルは、時系列予測(TSF)で有望なアプローチとして浮上しています。
既存のアプローチは、大規模な言語モデル(LLM)を再利用するか、大規模な時系列データセットを構築して、ユニバーサル予測のためのTSFファンデーションモデルを開発します。
ただし、これらの方法は、重度のクロスドメインギャップまたはドメイン内の不均一性のために課題に直面しています。
このペーパーでは、豊かで高品質の自然画像からTSFファンデーションモデルを構築するための新しい道を探ります。
私たちの重要な洞察は、Imagenetデータセットで事前に訓練された視覚的なマスクされた自動エンコーダーが、自然に数値シリーズの予測者になる可能性があることです。
画像再構成タスクとしてTSFを再定式化することにより、画像のトレーニング前とTSFのダウンストリームタスクの間のギャップを埋めます。
驚くべきことに、時系列ドメインでのさらなる適応がなければ、提案されたVisiontは既存のTSFファンデーションモデルよりも優れたゼロショット予測パフォーマンスを達成できます。
1つのエポックを微調整することで、Visiontsは予測をさらに改善し、ほとんどの場合、最先端のパフォーマンスを達成することができました。
広範な実験では、画像と現実世界の時系列との本質的な類似性が明らかになり、視覚モデルがTSFに「無料のランチ」を提供し、将来のクロスモダリティ研究の可能性を強調する可能性があることを示唆しています。
私たちのコードは、https://github.com/keytoyze/visiontsで公開されています。

要約(オリジナル)

Foundation models have emerged as a promising approach in time series forecasting (TSF). Existing approaches either repurpose large language models (LLMs) or build large-scale time series datasets to develop TSF foundation models for universal forecasting. However, these methods face challenges due to the severe cross-domain gap or in-domain heterogeneity. This paper explores a new road to building a TSF foundation model from rich, high-quality natural images. Our key insight is that a visual masked autoencoder, pre-trained on the ImageNet dataset, can naturally be a numeric series forecaster. By reformulating TSF as an image reconstruction task, we bridge the gap between image pre-training and TSF downstream tasks. Surprisingly, without further adaptation in the time series domain, the proposed VisionTS could achieve better zero-shot forecast performance than existing TSF foundation models. With fine-tuning for one epoch, VisionTS could further improve the forecasting and achieve state-of-the-art performance in most cases. Extensive experiments reveal intrinsic similarities between images and real-world time series, suggesting that visual models may offer a ‘free lunch’ for TSF and highlight the potential for future cross-modality research. Our code is publicly available at https://github.com/Keytoyze/VisionTS.

arxiv情報

著者 Mouxiang Chen,Lefei Shen,Zhuo Li,Xiaoyun Joy Wang,Jianling Sun,Chenghao Liu
発行日 2025-06-06 14:46:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters はコメントを受け付けていません

GenSpace: Benchmarking Spatially-Aware Image Generation

要約

人間は、写真のために3Dスペースでシーンを直感的に構成して配置できます。
ただし、テキストまたは画像プロンプトから画像を作成する際に、同様の3D空間認識を持つ高度なAIイメージジェネレーターは、シーンを計画できますか?
現在の画像生成モデルの空間的認識を包括的に評価するために、新しいベンチマークと評価パイプラインであるGenspaceを紹介します。
さらに、一般的な視覚言語モデル(VLM)を使用した標準的な評価は、詳細な空間エラーをキャプチャできないことがよくあります。
この課題を処理するために、複数の視覚基盤モデルを使用して3Dシーンのジオメトリを再構築し、より正確で人間に合わせた空間的忠実さのメトリックを提供する専門的な評価パイプラインとメトリックを提案します。
私たちの調査結果は、AIモデルが視覚的に魅力的な画像を作成し、一般的な指示に従うことができる一方で、オブジェクトの配置、関係、測定などの特定の3Dの詳細と闘っていることを示しています。
現在の最先端の画像生成モデルの空間認識における3つのコア制限を要約します。1)オブジェクトの視点の理解、2)エゴセントリックアロコンセントリック変換、3)メトリック測定順守。画像生成における空間知能を改善するための可能な方向を強調します。

要約(オリジナル)

Humans can intuitively compose and arrange scenes in the 3D space for photography. However, can advanced AI image generators plan scenes with similar 3D spatial awareness when creating images from text or image prompts? We present GenSpace, a novel benchmark and evaluation pipeline to comprehensively assess the spatial awareness of current image generation models. Furthermore, standard evaluations using general Vision-Language Models (VLMs) frequently fail to capture the detailed spatial errors. To handle this challenge, we propose a specialized evaluation pipeline and metric, which reconstructs 3D scene geometry using multiple visual foundation models and provides a more accurate and human-aligned metric of spatial faithfulness. Our findings show that while AI models create visually appealing images and can follow general instructions, they struggle with specific 3D details like object placement, relationships, and measurements. We summarize three core limitations in the spatial perception of current state-of-the-art image generation models: 1) Object Perspective Understanding, 2) Egocentric-Allocentric Transformation and 3) Metric Measurement Adherence, highlighting possible directions for improving spatial intelligence in image generation.

arxiv情報

著者 Zehan Wang,Jiayang Xu,Ziang Zhang,Tianyu Pang,Chao Du,Hengshuang Zhao,Zhou Zhao
発行日 2025-06-06 14:51:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GenSpace: Benchmarking Spatially-Aware Image Generation はコメントを受け付けていません

Balancing Beyond Discrete Categories: Continuous Demographic Labels for Fair Face Recognition

要約

バイアスは、顔認識モデルで一定のものでした。
長年にわたり、研究者はモデルとデータの両方の観点からそれを調べてきました。
しかし、データバイアスの緩和に対する彼らのアプローチは限られており、問題の本当の性質に関する洞察が欠けていました。
ここでは、この文書では、アイデンティティごとの個別の値ではなく、連続変数としての民族ラベルの使用を修正することを提案します。
実験的にも理論的にも定式化を検証し、1つの民族性からのすべてのアイデンティティがデータセットのバランスに等しく貢献しているわけではないことを示します。
したがって、民族ごとに同じ数のアイデンティティを持つことは、バランスの取れたデータセットを表しません。
さらに、データセットでトレーニングされたモデルは、連続空間でバランスが取れているモデルは、離散空間でバランスの取れたデータでトレーニングされたモデルを一貫してアウトパフォームすることを示しています。
65以上の異なるモデルをトレーニングし、元のデータセットの20を超えるサブセットを作成しました。

要約(オリジナル)

Bias has been a constant in face recognition models. Over the years, researchers have looked at it from both the model and the data point of view. However, their approach to mitigation of data bias was limited and lacked insight on the real nature of the problem. Here, in this document, we propose to revise our use of ethnicity labels as a continuous variable instead of a discrete value per identity. We validate our formulation both experimentally and theoretically, showcasing that not all identities from one ethnicity contribute equally to the balance of the dataset; thus, having the same number of identities per ethnicity does not represent a balanced dataset. We further show that models trained on datasets balanced in the continuous space consistently outperform models trained on data balanced in the discrete space. We trained more than 65 different models, and created more than 20 subsets of the original datasets.

arxiv情報

著者 Pedro C. Neto,Naser Damer,Jaime S. Cardoso,Ana F. Sequeira
発行日 2025-06-06 14:56:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Balancing Beyond Discrete Categories: Continuous Demographic Labels for Fair Face Recognition はコメントを受け付けていません

CLaMR: Contextualized Late-Interaction for Multimodal Content Retrieval

要約

オンラインビデオWebコンテンツは豊富にマルチモーダルです。単一のビデオは、ビジョン、スピーチ、アンビエントオーディオ、および画面上のテキストをブレンドします。
検索システムは通常、これらのモダリティを独立した検索ソースとして扱い、騒々しい検索につながる可能性があります。
マルチモーダルビデオコンテンツの検索を検討します。ここでは、特定のモダリティから、または複数のモダリティを同時に共同で採点できます。
したがって、効果的なレトリバーは、どのモダリティ(またはモダリティのセット)がクエリに最適に対処するかを動的に選択する必要があります。
ビデオフレーム、転写されたスピーチ、画面上のテキスト、メタデータの4つのモダリティを共同でインデックスするマルチモーダルの後期インタラクションレトリバーであるClamrを紹介します。
CLAMRは、コンテキストを改善するためにすべてのモダリティを統一されたマルチモーダルバックボーンと共同でエンコードし、2つの重要なイノベーションを介して動的モダリティ選択を強化するように訓練されています。
まず、マルチモーダル検索のトレーニングデータが不足していることを考えると、Multivent 2.0(クエリと組み合わせたさまざまな言語のイベント中心のビデオ)に構築された大規模な合成トレーニングデータセットであるMultivent 2.0 ++をモダリティターゲティングクエリと紹介します。
次に、正しいモダリティ使用量を学習するための目標とともに、標準的な対照的な目的に従って共同で訓練するモダリティを意識する損失を提案します。
Multivent 2.0 ++およびMSRVTTのテストセットでは、ベースラインレトリバーの平均類似性などの従来の集約戦略は、無関係なモダリティからノイズを導入することによりパフォーマンスを低下させます。
対照的に、CLAMRは既存のレトリバーを一貫して上回ります。Multivent2.0++では、CLAMRは最高のシングルモダリティレトリバーでNDCG@10 x 25.6を改善し、最高のマルチモダリティレトリバーで35.4を改善します。
CLAMRの長いビデオQAでの下流のユーティリティを示し、関連するフレームを取得し、LongideObenchでの密なサンプリングよりもVideo-MMEでのLanguageBindを3.50%増加させ、1.42%を獲得します。

要約(オリジナル)

Online video web content is richly multimodal: a single video blends vision, speech, ambient audio, and on-screen text. Retrieval systems typically treat these modalities as independent retrieval sources, which can lead to noisy and subpar retrieval. We explore multimodal video content retrieval, where relevance can be scored from one particular modality or jointly across multiple modalities simultaneously. Consequently, an effective retriever must dynamically choose which modality (or set of modalities) best addresses the query. We introduce CLaMR, a multimodal, late-interaction retriever that jointly indexes 4 modalities: video frames, transcribed speech, on-screen text, and metadata. CLaMR jointly encodes all modalities with a unified multimodal backbone for improved contextualization and is trained to enhance dynamic modality selection via two key innovations. First, given the lack of training data for multimodal retrieval, we introduce MultiVENT 2.0++, a large-scale synthetic training dataset built on MultiVENT 2.0 (event-centric videos in various languages paired with queries) with modality-targeted queries. Next, we propose a modality-aware loss that jointly trains according to a standard contrastive objective alongside an objective for learning correct modality usage. On the test sets of MultiVENT 2.0++ and MSRVTT, conventional aggregation strategies, such as averaging similarities for baseline retrievers, degrade performance by introducing noise from irrelevant modalities. In contrast, CLaMR consistently outperforms existing retrievers: on MultiVENT 2.0++, CLaMR improves nDCG@10 by 25.6 over the best single-modality retriever and by 35.4 over the best multi-modality retriever. We illustrate CLaMR’s downstream utility on long-video QA, retrieving relevant frames and obtaining a 3.50% boost over LanguageBind on Video-MME and 1.42% over dense sampling on LongVideoBench.

arxiv情報

著者 David Wan,Han Wang,Elias Stengel-Eskin,Jaemin Cho,Mohit Bansal
発行日 2025-06-06 15:02:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.IR | CLaMR: Contextualized Late-Interaction for Multimodal Content Retrieval はコメントを受け付けていません