DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts

要約

偽情報の拡散は、信頼性が高くスケーラブルな事実確認ソリューションを必要とします。
オープンドメインのモジュール式ゼロショットMLLMパイプラインであるマルチモーダルの専門家(Defame)との動的なエビデンスに基づいたファクトチェックを提示します。
Defameは6段階のプロセスで動作し、ツールと検索の深さを動的に選択して、テキストおよび視覚的証拠を抽出および評価します。
テキストのみ、説明の欠如、またはパラメトリック知識のみに依存している以前のアプローチとは異なり、Defameはエンドツーエンドの検証を実行し、構造化されたマルチモーダルレポートを生成しながら、クレームと証拠の画像を説明します。
人気のあるベンチマークでの評価Verite、Averitec、およびMochegの評価は、Defameが以前のすべての方法を上回り、ユニットおよびマルチモーダルのファクトチェックの新しい最先端のファクトチェックシステムとしての地位を確立することを示しています。
さらに、データの漏れを避けるためにGPT4Oの知識のカットオフ後の主張を特徴とする新しいベンチマーク請求review24+を紹介します。
ここで、DefameはGPTチェーンオブテアのベースラインを大幅に上回り、一時的な一般化可能性とリアルタイムのファクトチェックの可能性を示しています。

要約(オリジナル)

The proliferation of disinformation demands reliable and scalable fact-checking solutions. We present Dynamic Evidence-based FAct-checking with Multimodal Experts (DEFAME), a modular, zero-shot MLLM pipeline for open-domain, text-image claim verification. DEFAME operates in a six-stage process, dynamically selecting the tools and search depth to extract and evaluate textual and visual evidence. Unlike prior approaches that are text-only, lack explainability, or rely solely on parametric knowledge, DEFAME performs end-to-end verification, accounting for images in claims and evidence while generating structured, multimodal reports. Evaluation on the popular benchmarks VERITE, AVerITeC, and MOCHEG shows that DEFAME surpasses all previous methods, establishing itself as the new state-of-the-art fact-checking system for uni- and multimodal fact-checking. Moreover, we introduce a new benchmark, CLAIMREVIEW24+, featuring claims after the knowledge cutoff of GPT4o to avoid data leakage. Here, DEFAME drastically outperforms the GPT Chain-of-Thought baseline, demonstrating temporal generalizability and the potential for real-time fact-checking.

arxiv情報

著者 Tobias Braun,Mark Rothermel,Marcus Rohrbach,Anna Rohrbach
発行日 2025-02-06 13:27:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts はコメントを受け付けていません

A Survey of Artificial Intelligence in Gait-Based Neurodegenerative Disease Diagnosis

要約

近年、神経変性疾患(NDS)の影響を受ける世界集団の増加が目撃されました。これは、従来、医療診断と監視のために広範な医療リソースと人間の努力が必要です。
重要な疾患関連の運動症状として、人間の歩行を悪用して、異なるNDを特徴付けることができます。
人工知能(AI)モデルの現在の進歩により、NDSの識別と分類の自動歩行分析が可能になり、NDSのより速く、より費用対効果の高い診断を促進するための新しい道を開きます。
この論文では、歩行を通じて5つの典型的なNDSの診断に適用される機械学習と深い学習に基づくAI技術の最近の進捗状況に関する包括的な調査を提供します。
AIアシストNDS診断のプロセスの概要を提供し、既存の歩行データとAIモデルの体系的な分類法を提示します。
一方、既存の研究の品質を定量的に評価するために、新しい品質評価基準が提案されています。
169の研究の広範なレビューと分析を通じて、最近の技術的進歩を紹介し、既存の課題、潜在的な解決策、およびこの分野の将来の方向性について説明します。
最後に、人間の歩行表現のための3Dスケルトンデータの前向き利用と、NDS診断のためのより効率的なAIモデルの開発を想定しています。

要約(オリジナル)

Recent years have witnessed an increasing global population affected by neurodegenerative diseases (NDs), which traditionally require extensive healthcare resources and human effort for medical diagnosis and monitoring. As a crucial disease-related motor symptom, human gait can be exploited to characterize different NDs. The current advances in artificial intelligence (AI) models enable automatic gait analysis for NDs identification and classification, opening a new avenue to facilitate faster and more cost-effective diagnosis of NDs. In this paper, we provide a comprehensive survey on recent progress of machine learning and deep learning based AI techniques applied to diagnosis of five typical NDs through gait. We provide an overview of the process of AI-assisted NDs diagnosis, and present a systematic taxonomy of existing gait data and AI models. Meanwhile, a novel quality evaluation criterion is proposed to quantitatively assess the quality of existing studies. Through an extensive review and analysis of 169 studies, we present recent technical advancements, discuss existing challenges, potential solutions, and future directions in this field. Finally, we envision the prospective utilization of 3D skeleton data for human gait representation and the development of more efficient AI models for NDs diagnosis.

arxiv情報

著者 Haocong Rao,Minlin Zeng,Xuejiao Zhao,Chunyan Miao
発行日 2025-02-06 13:34:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | A Survey of Artificial Intelligence in Gait-Based Neurodegenerative Disease Diagnosis はコメントを受け付けていません

3D Prior is All You Need: Cross-Task Few-shot 2D Gaze Estimation

要約

3Dおよび2D視線の推定は、眼球運動をキャプチャするという基本的な目的を共有していますが、伝統的に2つの異なる研究ドメインとして扱われています。
この論文では、いくつかのトレーニング画像のみを使用して、目に見えないデバイスの2D視線予測のために事前に訓練された3D視線推定ネットワークを適応することを目指して、新しいクロスタスクのいくつかのショット2D視線推定アプローチを紹介します。
このタスクは、3Dと2Dの視線の間のドメインギャップ、未知の画面ポーズ、および限られたトレーニングデータの間で非常に困難です。
これらの課題に対処するために、3Dと2Dの視線の間のギャップを埋める新しいフレームワークを提案します。
私たちのフレームワークには、画面のポーズをモデル化し、3D視線を2D視線に投影するための学習可能なパラメーターを備えた物理ベースの微分プロジェクションモジュールが含まれています。
フレームワークは完全に微分可能であり、元のアーキテクチャを変更せずに既存の3D Gazeネットワークに統合できます。
さらに、フリップされた画像に動的な擬似ラベル戦略を導入します。これは、不明な画面ポーズのために2Dラベルにとって特に困難です。
これを克服するために、2Dラベルを3Dスペースに変換することにより、投影プロセスを逆転させます。
特に、この3Dスペースはカメラ座標系と一致していないため、この誤りを補うために動的変換マトリックスを学習します。
ラップトップ、デスクトップコンピューター、モバイルデバイスでそれぞれ収集されたMpiigaze、Eve、およびGazecaptureデータセットに関する方法を評価します。
優れたパフォーマンスは、アプローチの有効性を強調し、実際のアプリケーションの強力な可能性を示しています。

要約(オリジナル)

3D and 2D gaze estimation share the fundamental objective of capturing eye movements but are traditionally treated as two distinct research domains. In this paper, we introduce a novel cross-task few-shot 2D gaze estimation approach, aiming to adapt a pre-trained 3D gaze estimation network for 2D gaze prediction on unseen devices using only a few training images. This task is highly challenging due to the domain gap between 3D and 2D gaze, unknown screen poses, and limited training data. To address these challenges, we propose a novel framework that bridges the gap between 3D and 2D gaze. Our framework contains a physics-based differentiable projection module with learnable parameters to model screen poses and project 3D gaze into 2D gaze. The framework is fully differentiable and can integrate into existing 3D gaze networks without modifying their original architecture. Additionally, we introduce a dynamic pseudo-labelling strategy for flipped images, which is particularly challenging for 2D labels due to unknown screen poses. To overcome this, we reverse the projection process by converting 2D labels to 3D space, where flipping is performed. Notably, this 3D space is not aligned with the camera coordinate system, so we learn a dynamic transformation matrix to compensate for this misalignment. We evaluate our method on MPIIGaze, EVE, and GazeCapture datasets, collected respectively on laptops, desktop computers, and mobile devices. The superior performance highlights the effectiveness of our approach, and demonstrates its strong potential for real-world applications.

arxiv情報

著者 Yihua Cheng,Hengfei Wang,Zhongqun Zhang,Yang Yue,Bo Eun Kim,Feng Lu,Hyung Jin Chang
発行日 2025-02-06 13:37:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | 3D Prior is All You Need: Cross-Task Few-shot 2D Gaze Estimation はコメントを受け付けていません

Content-Rich AIGC Video Quality Assessment via Intricate Text Alignment and Motion-Aware Consistency

要約

\ textit {sora}のような次世代のビデオ生成モデルの出現は、AIに生成されたコンテンツ(AIGC)ビデオ品質評価(VQA)の課題をもたらします。
これらのモデルは、以前のモデルで一般的なちらつきのアーティファクトを大幅に軽減し、より長く複雑なテキストプロンプトを可能にし、複雑で多様なモーションパターンを備えた長いビデオを生成します。
単純なテキストと基本的なモーションパターン向けに設計された従来のVQAメソッドは、これらのコンテンツが豊富なビデオを評価するのに苦労しています。
この目的のために、\ textbf {crave}(\ underline {c} ontent- \ underline {r} ich \ underline {a} igc \ underline {v} ideo \ underline {e} vualator)を提案します。
SORA-ERA AIGCビデオ。
Craveは、長い形式の複雑なテキストセマンティクスをビデオダイナミクスに合わせた多粒度テキストと時代の融合を提案します。
さらに、Craveはハイブリッドモーションフィデリティモデリングを活用して、時間的アーティファクトを評価します。
さらに、現在のAIGC VQAデータセットの簡単なプロンプトとコンテンツを考慮して、\ textBf {crave-db}を紹介します。これは、次世代モデルのコンテンツが豊富なビデオと精巧なプロンプトを備えたベンチマークを紹介します。
広範な実験により、提案されたCraveは複数のAIGC VQAベンチマークで優れた結果を達成し、人間の知覚との高度な整合性を示していることが示されています。
すべてのデータとコードは、https://github.com/littlespray/craveで公開されます。

要約(オリジナル)

The advent of next-generation video generation models like \textit{Sora} poses challenges for AI-generated content (AIGC) video quality assessment (VQA). These models substantially mitigate flickering artifacts prevalent in prior models, enable longer and complex text prompts and generate longer videos with intricate, diverse motion patterns. Conventional VQA methods designed for simple text and basic motion patterns struggle to evaluate these content-rich videos. To this end, we propose \textbf{CRAVE} (\underline{C}ontent-\underline{R}ich \underline{A}IGC \underline{V}ideo \underline{E}valuator), specifically for the evaluation of Sora-era AIGC videos. CRAVE proposes the multi-granularity text-temporal fusion that aligns long-form complex textual semantics with video dynamics. Additionally, CRAVE leverages the hybrid motion-fidelity modeling to assess temporal artifacts. Furthermore, given the straightforward prompts and content in current AIGC VQA datasets, we introduce \textbf{CRAVE-DB}, a benchmark featuring content-rich videos from next-generation models paired with elaborate prompts. Extensive experiments have shown that the proposed CRAVE achieves excellent results on multiple AIGC VQA benchmarks, demonstrating a high degree of alignment with human perception. All data and code will be publicly available at https://github.com/littlespray/CRAVE.

arxiv情報

著者 Shangkun Sun,Xiaoyu Liang,Bowen Qu,Wei Gao
発行日 2025-02-06 13:41:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Content-Rich AIGC Video Quality Assessment via Intricate Text Alignment and Motion-Aware Consistency はコメントを受け付けていません

DEALing with Image Reconstruction: Deep Attentive Least Squares

要約

最先端の画像再構成は、多くの場合、複雑で高度にパラメーター化された深いアーキテクチャに依存しています。
代替案を提案します。古典的なティコノフの正規化に触発されたデータ駆動型の再構築方法です。
私たちのアプローチは、一連の二次問題を解決することにより、中間再構成を繰り返し洗練します。
これらの更新には、2つの重要なコンポーネントがあります。(i)顕著な画像機能を抽出するフィルターと(ii)フィルター応答のペナルティをローカルに調整する注意メカニズム。
私たちの方法は、プラグアンドプレイの先行と同等のパフォーマンスを実現し、解釈可能性、堅牢性、収束動作を提供しながら、正規者アプローチを学びました。
実際には、原則的な再構成アプローチを使用して、従来の正則化と深い学習を橋渡しします。

要約(オリジナル)

State-of-the-art image reconstruction often relies on complex, highly parameterized deep architectures. We propose an alternative: a data-driven reconstruction method inspired by the classic Tikhonov regularization. Our approach iteratively refines intermediate reconstructions by solving a sequence of quadratic problems. These updates have two key components: (i) learned filters to extract salient image features, and (ii) an attention mechanism that locally adjusts the penalty of filter responses. Our method achieves performance on par with leading plug-and-play and learned regularizer approaches while offering interpretability, robustness, and convergent behavior. In effect, we bridge traditional regularization and deep learning with a principled reconstruction approach.

arxiv情報

著者 Mehrsa Pourya,Erich Kobler,Michael Unser,Sebastian Neumayer
発行日 2025-02-06 13:43:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | DEALing with Image Reconstruction: Deep Attentive Least Squares はコメントを受け付けていません

Recognizing Identities From Human Skeletons: A Survey on 3D Skeleton Based Person Re-Identification

要約

3Dスケルトンを介した人の再識別は、パターン認識コミュニティ内での注目を集める重要な新興研究分野です。
さまざまなアプリケーションシナリオにわたって特徴的な利点があるため、多様なスケルトンモデリングと学習パラダイムを備えた多数の3Dスケルトンベースの個人再識別(SRID)メソッドが近年提案されています。
この調査では、最近のSRIDアドバンスの包括的なレビューと分析を提供します。
まず、SRIDタスクを定義し、その起源と大きな進歩の概要を提供します。
第二に、異なるスケルトンモデリングに基づいて既存のメソッドを3つのカテゴリに整理する体系的な分類法を策定します($、$、$手作り、シーケンスベース、グラフベース)。
次に、これらの3つのカテゴリに沿って代表的なモデルについて詳しく説明し、そのメリットと制限を分析します。
一方、私たちは、主流の監督、自己監視、および監視されていないSRID学習パラダイムと対応するスケルトンセマンティクス学習タスクの詳細なレビューを提供します。
最先端のSRIDメソッドの徹底的な評価は、さまざまな種類のベンチマークとプロトコルでさらに実施され、その有効性と効率を比較します。
最後に、SRIDの研究への影響と潜在的な応用を強調し、将来の研究のための有望な方向性とともに既存の研究の課題について説明します。

要約(オリジナル)

Person re-identification via 3D skeletons is an important emerging research area that attracts increasing attention within the pattern recognition community. With distinctive advantages across various application scenarios, numerous 3D skeleton based person re-identification (SRID) methods with diverse skeleton modeling and learning paradigms have been proposed in recent years. In this survey, we provide a comprehensive review and analysis of recent SRID advances. First of all, we define the SRID task and provide an overview of its origin and major advancements. Secondly, we formulate a systematic taxonomy that organizes existing methods into three categories based on different skeleton modeling ($i.e.,$ hand-crafted, sequence-based, graph-based). Then, we elaborate on the representative models along these three categories with an analysis of their merits and limitations. Meanwhile, we provide an in-depth review of mainstream supervised, self-supervised, and unsupervised SRID learning paradigms and corresponding skeleton semantics learning tasks. A thorough evaluation of state-of-the-art SRID methods is further conducted over various types of benchmarks and protocols to compare their effectiveness and efficiency. Finally, we discuss the challenges of existing studies along with promising directions for future research, highlighting research impacts and potential applications of SRID.

arxiv情報

著者 Haocong Rao,Chunyan Miao
発行日 2025-02-06 13:44:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Recognizing Identities From Human Skeletons: A Survey on 3D Skeleton Based Person Re-Identification はコメントを受け付けていません

Automatic quantification of breast cancer biomarkers from multiple 18F-FDG PET image segmentation

要約

ネオアジュバント化学療法(NAC)は、18F-FDGポジトロン放出断層撮影(PET)を備えた乳がんの腫瘍ダウンサイジングの標準的な臨床診療となっています。
私たちの仕事の目的は、乳房病変のセグメンテーションのためにペットイメージングを活用することです。
焦点は、原発腫瘍領域を正確にセグメント化し、これらの領域から重要なバイオマーカーを抽出して、NACの最初のコースに続く乳がんの進化に関する洞察を提供する自動システムの開発にあります。
243ベースライン18F-FDG PETスキャン(PET_BL)および180のフォローアップ18F-FDG PETスキャン(PET_FU)が、それぞれNACの最初のコースの前後に取得されました。
第一に、深い学習ベースの乳房腫瘍セグメンテーション法が開発されました。
最適なベースラインモデル(ベースライン試験で訓練されたモデル)は、15のフォローアップ試験で微調整され、PET_FUの腫瘍領域をセグメント化するためにアクティブ学習を使用して適応しました。
パイプラインは、PET_FUとPET_BL間の腫瘍進化を評価するために、最大標準化された取り込み値(SUVMAX)、代謝腫瘍体積(MTV)、および総病変糖分解(TLG)などのバイオマーカーを計算します。
異常な外れ値を除外するために、品質管理措置が採用されました。
PET_BLでの腫瘍セグメンテーションで優れたNNUNETディープラーニングモデルは、0.89のサイコロ類似性係数(DSC)と3.52 mmのHausdorff距離(HD)を達成しました。
微調整後、モデルはPET_FU試験で0.78のDSCと4.95 mmのHDを示しました。
バイオマーカー分析により、手動でセグメント化された領域と自動予測領域の間のバイオマーカーがどうであれ、非常に強い相関関係が明らかになりました。
SUVMAX、MTV、およびTLGの有意な平均減少は、それぞれ5.22、11.79 cm3および19.23 cm3でした。
提示されたアプローチは、18F-FDG PETからの乳房腫瘍のセグメンテーションのための自動化されたシステムを示しています。
抽出されたバイオマーカーのおかげで、私たちの方法により、がんの進行の自動評価が可能になります。

要約(オリジナル)

Neoadjuvant chemotherapy (NAC) has become a standard clinical practice for tumor downsizing in breast cancer with 18F-FDG Positron Emission Tomography (PET). Our work aims to leverage PET imaging for the segmentation of breast lesions. The focus is on developing an automated system that accurately segments primary tumor regions and extracts key biomarkers from these areas to provide insights into the evolution of breast cancer following the first course of NAC. 243 baseline 18F-FDG PET scans (PET_Bl) and 180 follow-up 18F-FDG PET scans (PET_Fu) were acquired before and after the first course of NAC, respectively. Firstly, a deep learning-based breast tumor segmentation method was developed. The optimal baseline model (model trained on baseline exams) was fine-tuned on 15 follow-up exams and adapted using active learning to segment tumor areas in PET_Fu. The pipeline computes biomarkers such as maximum standardized uptake value (SUVmax), metabolic tumor volume (MTV), and total lesion glycolysis (TLG) to evaluate tumor evolution between PET_Fu and PET_Bl. Quality control measures were employed to exclude aberrant outliers. The nnUNet deep learning model outperformed in tumor segmentation on PET_Bl, achieved a Dice similarity coefficient (DSC) of 0.89 and a Hausdorff distance (HD) of 3.52 mm. After fine-tuning, the model demonstrated a DSC of 0.78 and a HD of 4.95 mm on PET_Fu exams. Biomarkers analysis revealed very strong correlations whatever the biomarker between manually segmented and automatically predicted regions. The significant average decrease of SUVmax, MTV and TLG were 5.22, 11.79 cm3 and 19.23 cm3, respectively. The presented approach demonstrates an automated system for breast tumor segmentation from 18F-FDG PET. Thanks to the extracted biomarkers, our method enables the automatic assessment of cancer progression.

arxiv情報

著者 Tewele W. Tareke,Neree Payan,Alexandre Cochet,Laurent Arnould,Benoit Presles,Jean-Marc Vrigneaud,Fabrice Meriaudeau,Alain Lalande
発行日 2025-02-06 13:51:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Automatic quantification of breast cancer biomarkers from multiple 18F-FDG PET image segmentation はコメントを受け付けていません

Efficient Few-Shot Continual Learning in Vision-Language Models

要約

Vision-Language Models(VLM)は、視覚的な質問応答や画像キャプションなどのタスクで優れています。
ただし、VLMは、クリップなどの前提条件の画像エンコーダーを使用することで制限されることが多く、全体的なパフォーマンスを妨げる画像理解エラーにつながります。
それに加えて、実際のアプリケーションは、多くの場合、新しい、しばしば限られたデータが継続的に到着するにつれて、モデルを継続的に適合させる必要があることがよくあります。
これに対処するために、VLMS内の画像エンコーダーを選択的に更新するための堅牢で計算効率の良い方法であるLORSU(構造化された更新による低ランク適応)を提案します。
Lorsuは、構造化されたローカライズされたパラメーターの更新を導入し、モデルの一般的な堅牢性を維持しながら、以前にエラーが発生しやすいデータのパフォーマンスを効果的に修正します。
当社のアプローチは、理論的な洞察を活用して、最も重要なパラメーターのみを識別および更新し、重要なリソース効率を達成しています。
具体的には、パフォーマンスを犠牲にすることなく、完全なVLM更新と比較して、Lorsuが計算オーバーヘッドを25倍以上削減することを実証します。
少数のショットの継続的な学習設定でのVQAタスクの実験結果、Lorsuのスケーラビリティ、効率、および有効性を検証し、リソースに制約のある環境での画像エンコーダー適応の魅力的なソリューションになります。

要約(オリジナル)

Vision-language models (VLMs) excel in tasks such as visual question answering and image captioning. However, VLMs are often limited by their use of pretrained image encoders, like CLIP, leading to image understanding errors that hinder overall performance. On top of that, real-world applications often require the model to be continuously adapted as new and often limited data continuously arrive. To address this, we propose LoRSU (Low-Rank Adaptation with Structured Updates), a robust and computationally efficient method for selectively updating image encoders within VLMs. LoRSU introduces structured and localized parameter updates, effectively correcting performance on previously error-prone data while preserving the model’s general robustness. Our approach leverages theoretical insights to identify and update only the most critical parameters, achieving significant resource efficiency. Specifically, we demonstrate that LoRSU reduces computational overhead by over 25x compared to full VLM updates, without sacrificing performance. Experimental results on VQA tasks in the few-shot continual learning setting, validate LoRSU’s scalability, efficiency, and effectiveness, making it a compelling solution for image encoder adaptation in resource-constrained environments.

arxiv情報

著者 Aristeidis Panos,Rahaf Aljundi,Daniel Olmeda Reino,Richard E. Turner
発行日 2025-02-06 14:20:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Efficient Few-Shot Continual Learning in Vision-Language Models はコメントを受け付けていません

Harmonious Group Choreography with Trajectory-Controllable Diffusion

要約

音楽からグループの振り付けを作成することは、文化的なエンターテイメントと仮想現実において重要であり、調和のとれた動きを生み出すことに焦点を当てています。
関心が高まっているにもかかわらず、最近のアプローチはしばしば、マルチダンサーの衝突と単一ダンサーフットの滑りという2つの主要な課題に苦しんでいます。
これらの課題に対処するために、軌道制御可能な拡散(TCDIFF)フレームワークを提案します。これは、非重複する軌跡を活用して、一貫性のある審美的に心地よいダンスの動きを確保します。
衝突を緩和するために、複数のダンサーの衝突のない軌跡を生成するダンストランジョールナビゲーターを導入し、距離一貫性の損失を利用して最適な間隔を維持します。
さらに、足の滑りを減らすために、フレーム間の軌跡変位を調整するフットワークアダプターを提示します。これは、相対的な順方針の損失によってサポートされ、動きと軌跡の間の相関をさらに強化します。
実験は、私たちの方法の優位性を示しています。

要約(オリジナル)

Creating group choreography from music is crucial in cultural entertainment and virtual reality, with a focus on generating harmonious movements. Despite growing interest, recent approaches often struggle with two major challenges: multi-dancer collisions and single-dancer foot sliding. To address these challenges, we propose a Trajectory-Controllable Diffusion (TCDiff) framework, which leverages non-overlapping trajectories to ensure coherent and aesthetically pleasing dance movements. To mitigate collisions, we introduce a Dance-Trajectory Navigator that generates collision-free trajectories for multiple dancers, utilizing a distance-consistency loss to maintain optimal spacing. Furthermore, to reduce foot sliding, we present a footwork adaptor that adjusts trajectory displacement between frames, supported by a relative forward-kinematic loss to further reinforce the correlation between movements and trajectories. Experiments demonstrate our method’s superiority.

arxiv情報

著者 Yuqin Dai,Wanlu Zhu,Ronghui Li,Zeping Ren,Xiangzheng Zhou,Jixuan Ying,Jun Li,Jian Yang
発行日 2025-02-06 14:22:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Harmonious Group Choreography with Trajectory-Controllable Diffusion はコメントを受け付けていません

SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

要約

ビジョン言語モデル(VLMS)では、視覚トークンは通常、テキストトークンと比較した場合、情報のスパースにもかかわらず、かなりの量の計算オーバーヘッドを負担します。
これに対処するために、ほとんどの既存のメソッドは、特定のトレーニングデータを使用して冗長な視覚トークンをプルネートするネットワークを学習します。
別の方法では、追加のパラメーターや微調整コストの必要性を排除するSparseVLMと呼ばれるテキスト誘導トレーニングフリートークン最適化メカニズムを提案します。
視覚的なトークンがVLMの言語推論でテキストトークンを補完することを考えると、関連するテキストトークンを選択して、自己関節マトリックスを使用して視覚トークンの重要性を評価し、情報を獲得しながらスパース性を最大化するために提案された戦略を使用して視覚トークンを剪定します。
特に、剪定されたトークンをよりコンパクトな表現に圧縮するトークンリサイクル方法とともに、各レイヤーのスパース化比を適応的に決定するためのランクベースの戦略を導入します。
実験結果は、SparseVLMが多くの画像およびビデオ理解タスクでさまざまなVLMの効率を向上させることを示しています。
たとえば、LlavaはSparseVLMを装備すると、フロップが54%減少し、元の精度の97%を維持しながら、CUDAレイテンシが37%減少します。
私たちのコードは、https://github.com/gumpest/sparsevlmsで入手できます。

要約(オリジナル)

In vision-language models (VLMs), visual tokens usually bear a significant amount of computational overhead despite sparsity of information in them when compared to text tokens. To address this, most existing methods learn a network to prune redundant visual tokens using certain training data. Differently, we propose a text-guided training-free token optimization mechanism dubbed SparseVLM that eliminates the need of extra parameters or fine-tuning costs. Given that visual tokens complement text tokens in VLM’s linguistic reasoning, we select relevant text tokens to rate the significance of visual tokens using self-attention matrices and, then, prune visual tokens using the proposed strategy to maximize sparsity while retaining information. In particular, we introduce a rank-based strategy to adaptively determine the sparsification ratio for each layer, alongside a token recycling method that compresses pruned tokens into more compact representations. Experimental results show that SparseVLM increases the efficiency of various VLMs in a number of image and video understanding tasks. For example, LLaVA when equipped with SparseVLM achieves 54% reduction in FLOPs, 37% decrease in CUDA latency while maintaining 97% of its original accuracy. Our code is available at https://github.com/Gumpest/SparseVLMs.

arxiv情報

著者 Yuan Zhang,Chun-Kai Fan,Junpeng Ma,Wenzhao Zheng,Tao Huang,Kuan Cheng,Denis Gudovskiy,Tomoyuki Okuno,Yohei Nakata,Kurt Keutzer,Shanghang Zhang
発行日 2025-02-06 14:31:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference はコメントを受け付けていません