DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models

要約

ビデオ大規模な言語モデル(VLLM)は、最近、複雑なビデオコンテンツの処理に最近大幅に進歩しましたが、ビデオ入力から生成された数千の視覚トークンに起因する高い計算コストのため、推論効率は抑制されたままです。
単一の画像入力とは異なり、VLLMは通常、異なるデコードの反復で異なるフレームの視覚的なトークンに参加し、誤って重要なトークンを削除する傾向があるワンショット剪定戦略を作成することを経験的に観察します。
これに動機付けられて、トークン表現を最適化し、VLLMを加速するためのトレーニングなしのトークン圧縮法であるDycokeを提示します。
Dycokeは、プラグアンドプレイの時間的圧縮モジュールを組み込んで、フレーム間で冗長トークンをマージすることにより時間的冗長性を最小限に抑え、動的kVキャッシュ削減を適用して、空間的に冗長トークンを選択的にプルンする。
各デコードステップで重要なトークンを動的に保持することにより、高品質の推論を保証します。
広範な実験結果は、ダイコークが以前のSOTAカウンターパートを上回ることができることを示しており、1.5倍の推論スピードアップ、ベースラインVLLMに対する1.4倍のメモリ削減を達成しながら、トレーニングなしでパフォーマンスを改善します。

要約(オリジナル)

Video large language models (VLLMs) have significantly advanced recently in processing complex video content, yet their inference efficiency remains constrained because of the high computational cost stemming from the thousands of visual tokens generated from the video inputs. We empirically observe that, unlike single image inputs, VLLMs typically attend visual tokens from different frames at different decoding iterations, making a one-shot pruning strategy prone to removing important tokens by mistake. Motivated by this, we present DyCoke, a training-free token compression method to optimize token representation and accelerate VLLMs. DyCoke incorporates a plug-and-play temporal compression module to minimize temporal redundancy by merging redundant tokens across frames, and applies dynamic KV cache reduction to prune spatially redundant tokens selectively. It ensures high-quality inference by dynamically retaining the critical tokens at each decoding step. Extensive experimental results demonstrate that DyCoke can outperform the prior SoTA counterparts, achieving 1.5X inference speedup, 1.4X memory reduction against the baseline VLLM, while still improving the performance, with no training.

arxiv情報

著者 Keda Tao,Can Qin,Haoxuan You,Yang Sui,Huan Wang
発行日 2025-03-28 14:11:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models はコメントを受け付けていません

SemAlign3D: Semantic Correspondence between RGB-Images through Aligning 3D Object-Class Representations

要約

セマンティック対応は、最近の大規模なビジョンモデル(LVM)の進歩を通じて大きな進歩を遂げました。
これらのLVMは、ローカルセマンティクスを確実にキャプチャすることが示されていますが、セマンティックオブジェクト領域間のグローバルな幾何学的関係をキャプチャするために同じことは現在言えません。
この問題は、極端なビューの変動を伴う画像間のセマンティック対応のための信頼性の低いパフォーマンスにつながります。
この作業では、より堅牢でデータ効率の良いセマンティック対応のために、これらの幾何学的な関係をキャプチャするために、単眼の深さの推定値を活用することを目指しています。
まず、まばらに注釈付きの画像対応データセットを使用して、単眼深度推定値とLVM機能から3Dオブジェクトクラス表現を構築するためのシンプルだが効果的な方法を紹介します。
第二に、勾配降下を使用して最小化できるアライメントエネルギーを策定し、入力RGBイメージの3Dオブジェクトクラス表現とオブジェクトクラスインスタンスの間のアライメントを取得します。
私たちの方法は、挑戦的なSPAIR-71Kデータセットの複数のカテゴリで最先端のマッチング精度を達成し、PCK@0.1スコアを3つのカテゴリで10ポイント以上、全体で85.6%から88.9%に3.3ポイント増加させます。
追加のリソースとコードはhttps://dub.sh/semalign3dで入手できます。

要約(オリジナル)

Semantic correspondence made tremendous progress through the recent advancements of large vision models (LVM). While these LVMs have been shown to reliably capture local semantics, the same can currently not be said for capturing global geometric relationships between semantic object regions. This problem leads to unreliable performance for semantic correspondence between images with extreme view variation. In this work, we aim to leverage monocular depth estimates to capture these geometric relationships for more robust and data-efficient semantic correspondence. First, we introduce a simple but effective method to build 3D object-class representations from monocular depth estimates and LVM features using a sparsely annotated image correspondence dataset. Second, we formulate an alignment energy that can be minimized using gradient descent to obtain an alignment between the 3D object-class representation and the object-class instance in the input RGB-image. Our method achieves state-of-the-art matching accuracy in multiple categories on the challenging SPair-71k dataset, increasing the PCK@0.1 score by more than 10 points on three categories and overall by 3.3 points from 85.6% to 88.9%. Additional resources and code are available at https://dub.sh/semalign3d.

arxiv情報

著者 Krispin Wandel,Hesheng Wang
発行日 2025-03-28 14:14:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SemAlign3D: Semantic Correspondence between RGB-Images through Aligning 3D Object-Class Representations はコメントを受け付けていません

Rethinking Efficient and Effective Point-based Networks for Event Camera Classification and Regression: EventMamba

要約

イベントカメラは、生物学的システムからインスピレーションを引き出し、最小限のパワーを消費しながら、低レイテンシと高いダイナミックレンジを誇っています。
イベントクラウドを処理するための最新のアプローチは、多くの場合、それをフレームベースの表現に変換することを伴います。これは、イベントのスパース性を無視し、きめ細かい時間情報を失い、計算負担を増加させます。
対照的に、Point Cloudは3次元データを処理するための一般的な表現であり、ローカルおよびグローバルな空間機能を活用するための代替方法として機能します。
それにもかかわらず、以前のポイントベースの方法は、時空間イベントストリームを扱う際のフレームベースの方法と比較して、不十分なパフォーマンスを示しています。
ギャップを埋めるために、イベントクラウドとポイントクラウドの区別を再考し、重要な時間情報を強調することにより、ポイントクラウド表現に基づいた効率的かつ効果的なフレームワークであるEventmambaを提案します。
その後、イベントクラウドは、段階的なモジュールを備えた階層構造に供給され、暗黙的および明示的な時間的特徴の両方を処理します。
具体的には、グローバル抽出器を再設計して、時間的凝集と状態空間モデル(SSM)ベースのMAMBAを使用した一連のイベント間の明示的な時間抽出を強化します。
私たちのモデルは、実験で最小限の計算リソースを消費し、6つの異なる尺度のアクション認識データセットでSOTAポイントベースのパフォーマンスを示しています。
カメラは再局在化(CPR)と視線追跡回帰タスクの両方で、すべてのフレームベースのメソッドを上回りました。
私たちのコードは、https://github.com/rhwxmx/eventmambaで入手できます。

要約(オリジナル)

Event cameras draw inspiration from biological systems, boasting low latency and high dynamic range while consuming minimal power. The most current approach to processing Event Cloud often involves converting it into frame-based representations, which neglects the sparsity of events, loses fine-grained temporal information, and increases the computational burden. In contrast, Point Cloud is a popular representation for processing 3-dimensional data and serves as an alternative method to exploit local and global spatial features. Nevertheless, previous point-based methods show an unsatisfactory performance compared to the frame-based method in dealing with spatio-temporal event streams. In order to bridge the gap, we propose EventMamba, an efficient and effective framework based on Point Cloud representation by rethinking the distinction between Event Cloud and Point Cloud, emphasizing vital temporal information. The Event Cloud is subsequently fed into a hierarchical structure with staged modules to process both implicit and explicit temporal features. Specifically, we redesign the global extractor to enhance explicit temporal extraction among a long sequence of events with temporal aggregation and State Space Model (SSM) based Mamba. Our model consumes minimal computational resources in the experiments and still exhibits SOTA point-based performance on six different scales of action recognition datasets. It even outperformed all frame-based methods on both Camera Pose Relocalization (CPR) and eye-tracking regression tasks. Our code is available at: https://github.com/rhwxmx/EventMamba.

arxiv情報

著者 Hongwei Ren,Yue Zhou,Jiadong Zhu,Haotian Fu,Yulong Huang,Xiaopeng Lin,Yuetong Fang,Fei Ma,Hao Yu,Bojun Cheng
発行日 2025-03-28 14:25:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Rethinking Efficient and Effective Point-based Networks for Event Camera Classification and Regression: EventMamba はコメントを受け付けていません

Adaptive Weighted Parameter Fusion with CLIP for Class-Incremental Learning

要約

クラスインクリメンテルラーニング(CIL)により、モデルは新しいクラスから知識を徐々に吸収し、以前に遭遇したすべてのクラスで一般的な分類子を構築できます。
モデルが新しいクラスで最適化すると、以前のクラスの知識は必然的に消去され、壊滅的な忘却につながります。
この課題に対処するには、古い知識を維持することと新しい情報に対応することとのトレードオフをする必要があります。
ただし、このバランスをとるプロセスには、いくつかの情報を犠牲にする必要があることが多く、クラス間を区別するモデルの能力に部分的な損失につながる可能性があります。
この問題に取り組むために、異なるタスクのデータ分布の変動性を考慮に入れるだけでなく、パラメーターマトリックスのすべての効果的な情報を最大限に保持するため、対照的な言語イメージのプリトレーニング(CLIP)を使用して、適応加重パラメーター融合を設計します。
さらに、隣接するタスクのデータ分布アライメントと区別可能性のバランスをとることができるバランス係数を導入します。
いくつかの従来のベンチマークでの実験結果は、提案された方法の優位性を検証します。

要約(オリジナル)

Class-incremental Learning (CIL) enables the model to incrementally absorb knowledge from new classes and build a generic classifier across all previously encountered classes. When the model optimizes with new classes, the knowledge of previous classes is inevitably erased, leading to catastrophic forgetting. Addressing this challenge requires making a trade-off between retaining old knowledge and accommodating new information. However, this balancing process often requires sacrificing some information, which can lead to a partial loss in the model’s ability to discriminate between classes. To tackle this issue, we design the adaptive weighted parameter fusion with Contrastive Language-Image Pre-training (CLIP), which not only takes into account the variability of the data distribution of different tasks, but also retains all the effective information of the parameter matrix to the greatest extent. In addition, we introduce a balance factor that can balance the data distribution alignment and distinguishability of adjacent tasks. Experimental results on several traditional benchmarks validate the superiority of the proposed method.

arxiv情報

著者 Juncen Guo,Xiaoguang Zhu,Liangyu Teng,Hao Yang,Jing Liu,Yang Liu,Liang Song
発行日 2025-03-28 14:38:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Adaptive Weighted Parameter Fusion with CLIP for Class-Incremental Learning はコメントを受け付けていません

Patch-Depth Fusion: Dichotomous Image Segmentation via Fine-Grained Patch Strategy and Depth Integrity-Prior

要約

二分法画像セグメンテーション(DIS)は、高解像度の自然画像の高精度オブジェクトセグメンテーションタスクです。
現在の主流の方法は、ローカルの詳細の最適化に焦点を当てていますが、オブジェクトの完全性をモデル化するという基本的な課題を見落としています。
深さの整合性マップに暗黙の深さの整合性が暗示されていることがわかりました。
上記の調査結果に基づいて、高精度の二分画画像セグメンテーションのための新しいパッチ深度融合ネットワーク(PDFNET)を設計しました。
PDFNETのコアは、3つの側面で構成されています。
まず、オブジェクトの知覚は、マルチモーダル入力融合によって強化されます。
パッチの選択と強化と相まって、微調整された戦略をパッチを利用することにより、詳細に対する感度が向上します。
第二に、深度マップに分布した深さの整合性優先度を活用することにより、深度マップでのセグメンテーション結果の均一性を高めるための整合性優先損失を提案します。
最後に、共有エンコーダーの機能を利用し、シンプルな深度改良デコーダーを介して、共有エンコーダーが画像に微妙な深さ関連情報をキャプチャする能力を向上させます。
DIS-5Kデータセットでの実験は、PDFNETが最先端の非拡散法を大幅に上回ることを示しています。
深さの整合性優先度が組み込まれているため、PDFNETは、拡散ベースの方法のパラメーターの11%未満を使用しながら、最新の拡散ベースの方法のパフォーマンスを達成または上回ることさえあります。
https://github.com/tennine2077/pdfnetのソースコード

要約(オリジナル)

Dichotomous Image Segmentation (DIS) is a high-precision object segmentation task for high-resolution natural images. The current mainstream methods focus on the optimization of local details but overlook the fundamental challenge of modeling the integrity of objects. We have found that the depth integrity-prior implicit in the the pseudo-depth maps generated by Depth Anything Model v2 and the local detail features of image patches can jointly address the above dilemmas. Based on the above findings, we have designed a novel Patch-Depth Fusion Network (PDFNet) for high-precision dichotomous image segmentation. The core of PDFNet consists of three aspects. Firstly, the object perception is enhanced through multi-modal input fusion. By utilizing the patch fine-grained strategy, coupled with patch selection and enhancement, the sensitivity to details is improved. Secondly, by leveraging the depth integrity-prior distributed in the depth maps, we propose an integrity-prior loss to enhance the uniformity of the segmentation results in the depth maps. Finally, we utilize the features of the shared encoder and, through a simple depth refinement decoder, improve the ability of the shared encoder to capture subtle depth-related information in the images. Experiments on the DIS-5K dataset show that PDFNet significantly outperforms state-of-the-art non-diffusion methods. Due to the incorporation of the depth integrity-prior, PDFNet achieves or even surpassing the performance of the latest diffusion-based methods while using less than 11% of the parameters of diffusion-based methods. The source code at https://github.com/Tennine2077/PDFNet

arxiv情報

著者 Xianjie Liu,Keren Fu,Qijun Zhao
発行日 2025-03-28 14:47:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Patch-Depth Fusion: Dichotomous Image Segmentation via Fine-Grained Patch Strategy and Depth Integrity-Prior はコメントを受け付けていません

Scenario Dreamer: Vectorized Latent Diffusion for Generating Driving Simulation Environments

要約

レーングラフとエージェントの境界ボックスを含む初期トラフィックシーンと閉ループエージェントの動作の両方を生成する自律車両計画のための完全なデータ駆動型の生成シミュレーターであるDreamerを紹介します。
運転シミュレーション環境を生成するための既存の方法は、初期のトラフィックシーンをラスタリングされた画像としてエンコードし、そのため、ラスター化されたシーンの多くの空のピクセルのために不必要な計算を実行するパラメーターが多いネットワークが必要です。
さらに、ルールベースのエージェント行動を採用する既存の方法には、多様性とリアリズムがないことがわかります。
シナリオドリーマーは、代わりに、ベクトル化されたシーン要素で直接動作する初期シーン生成のための新しいベクトル化された潜在拡散モデルと、データ駆動型エージェントの動作シミュレーションのために自己脱着トランスを採用しています。
シナリオドリーマーは、拡散を介してシーンの外挿をサポートし、無制限のシミュレーション環境の生成を可能にします。
広範な実験は、シナリオの夢想家がリアリズムと効率の既存の生成シミュレータを上回ることを示しています。ベクトル化されたシーン生成ベースモデルは、最強のベースラインと比較して、約2倍のパラメーター、6倍低い世代のレイテンシ、10倍のGPUトレーニング時間で優れた生成品質を達成します。
補強学習計画エージェントは、特に長く敵対的な運転環境で、従来の非生成シミュレーション環境よりもシナリオドリーマー環境でより挑戦されていることを示すことにより、その実用性を確認します。

要約(オリジナル)

We introduce Scenario Dreamer, a fully data-driven generative simulator for autonomous vehicle planning that generates both the initial traffic scene – comprising a lane graph and agent bounding boxes – and closed-loop agent behaviours. Existing methods for generating driving simulation environments encode the initial traffic scene as a rasterized image and, as such, require parameter-heavy networks that perform unnecessary computation due to many empty pixels in the rasterized scene. Moreover, we find that existing methods that employ rule-based agent behaviours lack diversity and realism. Scenario Dreamer instead employs a novel vectorized latent diffusion model for initial scene generation that directly operates on the vectorized scene elements and an autoregressive Transformer for data-driven agent behaviour simulation. Scenario Dreamer additionally supports scene extrapolation via diffusion inpainting, enabling the generation of unbounded simulation environments. Extensive experiments show that Scenario Dreamer outperforms existing generative simulators in realism and efficiency: the vectorized scene-generation base model achieves superior generation quality with around 2x fewer parameters, 6x lower generation latency, and 10x fewer GPU training hours compared to the strongest baseline. We confirm its practical utility by showing that reinforcement learning planning agents are more challenged in Scenario Dreamer environments than traditional non-generative simulation environments, especially on long and adversarial driving environments.

arxiv情報

著者 Luke Rowe,Roger Girgis,Anthony Gosselin,Liam Paull,Christopher Pal,Felix Heide
発行日 2025-03-28 15:03:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Scenario Dreamer: Vectorized Latent Diffusion for Generating Driving Simulation Environments はコメントを受け付けていません

UniCon: Unidirectional Information Flow for Effective Control of Large-Scale Diffusion Models

要約

大規模拡散モデルのトレーニングアダプターの制御と効率を高めるために設計された新しいアーキテクチャであるUniconを紹介します。
拡散モデルとコントロールアダプター間の双方向相互作用に依存する既存の方法とは異なり、ユニコンは拡散ネットワークからアダプターへの単方向の流れを実装し、アダプターだけが最終出力を生成できるようにします。
Uniconは、アダプタートレーニング中にグラデーションを計算および保存する拡散モデルの必要性を排除することにより、計算需要を削減します。
我々の結果は、ユニコンがGPUメモリの使用量を3分の1減らし、トレーニング速度を2.3倍増加させ、同じアダプターパラメーターサイズを維持することを示しています。
さらに、追加の計算リソースを必要とせずに、Uniconは既存のコントロールネットのパラメーター量の2倍のアダプターのトレーニングを可能にします。
一連の画像条件付き生成タスクでは、ユニコンはコントロール入力と例外的な生成能力に対する正確な応答性を実証しています。

要約(オリジナル)

We introduce UniCon, a novel architecture designed to enhance control and efficiency in training adapters for large-scale diffusion models. Unlike existing methods that rely on bidirectional interaction between the diffusion model and control adapter, UniCon implements a unidirectional flow from the diffusion network to the adapter, allowing the adapter alone to generate the final output. UniCon reduces computational demands by eliminating the need for the diffusion model to compute and store gradients during adapter training. Our results indicate that UniCon reduces GPU memory usage by one-third and increases training speed by 2.3 times, while maintaining the same adapter parameter size. Additionally, without requiring extra computational resources, UniCon enables the training of adapters with double the parameter volume of existing ControlNets. In a series of image conditional generation tasks, UniCon has demonstrated precise responsiveness to control inputs and exceptional generation capabilities.

arxiv情報

著者 Fanghua Yu,Jinjin Gu,Jinfan Hu,Zheyuan Li,Chao Dong
発行日 2025-03-28 15:13:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UniCon: Unidirectional Information Flow for Effective Control of Large-Scale Diffusion Models はコメントを受け付けていません

Masked Self-Supervised Pre-Training for Text Recognition Transformers on Large-Scale Datasets

要約

自己学習学習は、さまざまなドメインのモデルパフォーマンスを改善するために、大規模な非標識データを活用するための強力なアプローチとして浮上しています。
この論文では、テキスト認識変圧器のためのマスクされた自己監督の事前トレーニングを探索します。
具体的には、トレーニング前の段階に2つの変更を提案します。マスキング確率を徐々に増やし、マスクされたパッチと非マスクされていないパッチの両方を組み込むために損失関数を変更します。
トレーニング前の50mの非標識テキストラインのデータセットと、微調整のために4つの異なるサイズの注釈付きデータセットを使用して、広範な実験を実施します。
さらに、事前訓練を受けたモデルを転送学習で訓練されたモデルと比較し、自己監視前のトレーニングの有効性を示しています。
特に、トレーニング前にモデルの文字エラー率が一貫して改善されます。
また、転送学習と同等ですが、追加の注釈付きテキストラインに依存することはありません。

要約(オリジナル)

Self-supervised learning has emerged as a powerful approach for leveraging large-scale unlabeled data to improve model performance in various domains. In this paper, we explore masked self-supervised pre-training for text recognition transformers. Specifically, we propose two modifications to the pre-training phase: progressively increasing the masking probability, and modifying the loss function to incorporate both masked and non-masked patches. We conduct extensive experiments using a dataset of 50M unlabeled text lines for pre-training and four differently sized annotated datasets for fine-tuning. Furthermore, we compare our pre-trained models against those trained with transfer learning, demonstrating the effectiveness of the self-supervised pre-training. In particular, pre-training consistently improves the character error rate of models, in some cases up to 30 % relatively. It is also on par with transfer learning but without relying on extra annotated text lines.

arxiv情報

著者 Martin Kišš,Michal Hradiš
発行日 2025-03-28 15:16:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Masked Self-Supervised Pre-Training for Text Recognition Transformers on Large-Scale Datasets はコメントを受け付けていません

Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities

要約

この作業では、2つのコア制約を満たしながら、マルチモーダル生成機能を備えた、事前に訓練されたテキストのみの大手言語モデル(LLMS)の既存の生成機能を強化するという課題を引き受けます。
専用モジュールを追加する現在のアプローチとは対照的に、パラメーターカウントを大幅に増加させると、深いモデルに固有の十分に活用されていない容量を活用する方法を提案します。
具体的には、新しいモダリティを学習するための追加能力のソースとして、混合物(MOE)内のパラメーター冗長性を活用し、より良いパラメーター効率(C1)を可能にします。
さらに、新しいモダリティ(C2)のトークン専用に低ランクの適応を適用することにより、元の言語生成機能を保存します。
さらに、収束とトレーニングの安定性を改善するために、Gromov-Wasserstein距離に基づいた新しいパラメーター初期化スキームを導入します。
ルーティングメカニズムの広範な分析により、マルチモーダル生成能力のロックを効率的に解除できる専門家内のモダリティ固有の経路の出現と冗長性の減少を明らかにします。
全体として、私たちの方法は、幅広い現代LLMSにシームレスに適用され、Uni-Modalからマルチモーダルアーキテクチャに移行するための新しい経路を提供できます。

要約(オリジナル)

In this work, we undertake the challenge of augmenting the existing generative capabilities of pre-trained text-only large language models (LLMs) with multi-modal generation capability while satisfying two core constraints: C1 preserving the preservation of original language generative capabilities with negligible performance degradation, and C2 adhering to a small parameter budget to learn the new modality, ensuring scalability and efficiency. In contrast to current approaches that add dedicated modules, thereby significantly increasing the parameter count, we propose a method that leverages the underutilized capacity inherent in deep models. Specifically, we exploit the parameter redundancy within Mixture-of-Experts (MoEs) as a source of additional capacity for learning a new modality, enabling better parameter efficiency (C1). Moreover, we preserve the original language generation capabilities by applying low-rank adaptation exclusively to the tokens of the new modality (C2). Furthermore, we introduce a novel parameter initialization scheme based on the Gromov-Wasserstein distance to improve convergence and training stability. Through an extensive analysis of the routing mechanism, we uncover the emergence of modality-specific pathways and decreased redundancy within the experts that can efficiently unlock multi-modal generative capabilities. Overall, our method can be seamlessly applied to a wide range of contemporary LLMs, providing a new pathway for transitioning from uni-modal to multi-modal architectures.

arxiv情報

著者 Raman Dutt,Harleen Hanspal,Guoxuan Xia,Petru-Daniel Tudosiu,Alexander Black,Yongxin Yang,Steven McDonagh,Sarah Parisot
発行日 2025-03-28 15:21:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities はコメントを受け付けていません

Evaluating the evaluators: Towards human-aligned metrics for missing markers reconstruction

要約

アニメーションデータは、光学マーカーの位置を確立するために多数のカメラを利用する光学モーションキャプチャシステムを通じて取得されることがよくあります。
ただし、システムエラーや閉塞により、マーカーが欠落している可能性があり、その手動のクリーニングには時間がかかる場合があります。
これにより、学術コミュニティでマーカー再構成を欠いているための機械学習ベースのソリューションに関心が寄せられています。
ほとんどのアカデミックペーパーは、メインメトリックとして単純化された平均平方根誤差を利用しています。
この論文では、このメトリックが充填品質の主観的な認識と相関していないことを示します。
さらに、フィールドで進行を促進できる、より相関するメトリックのセットを導入して評価します。

要約(オリジナル)

Animation data is often obtained through optical motion capture systems, which utilize a multitude of cameras to establish the position of optical markers. However, system errors or occlusions can result in missing markers, the manual cleaning of which can be time-consuming. This has sparked interest in machine learning-based solutions for missing marker reconstruction in the academic community. Most academic papers utilize a simplistic mean square error as the main metric. In this paper, we show that this metric does not correlate with subjective perception of the fill quality. Additionally, we introduce and evaluate a set of better-correlated metrics that can drive progress in the field.

arxiv情報

著者 Taras Kucherenko,Derek Peristy,Judith Bütepage
発行日 2025-03-28 15:29:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.LG | Evaluating the evaluators: Towards human-aligned metrics for missing markers reconstruction はコメントを受け付けていません