Shifting Long-Context LLMs Research from Input to Output

要約

長いコンテキストの大規模な言語モデル(LLM)の最近の進歩は、主に拡張された入力コンテキストの処理に集中しており、その結果、長いコンテキストの理解に大きな進歩があります。
ただし、長型の出力を生成することの同様に重要な側面は、比較的少ない注目を集めています。
このペーパーでは、長年の生成の課題に対処するためのNLP研究のパラダイムシフトを提唱しています。
斬新な執筆、長期計画、複雑な推論などのタスクでは、モデルが広範なコンテキストを理解し、一貫性があり、文脈的に豊富で、論理的に一貫した拡張テキストを生成する必要があります。
これらの要求は、現在のLLM機能の重要なギャップを強調しています。
この不足しているドメインの重要性を強調し、高品質で長期の出力を生成するために調整された基本的なLLMSを開発するための焦点を絞った努力を求め、実世界のアプリケーションの大きな可能性を秘めています。

要約(オリジナル)

Recent advancements in long-context Large Language Models (LLMs) have primarily concentrated on processing extended input contexts, resulting in significant strides in long-context comprehension. However, the equally critical aspect of generating long-form outputs has received comparatively less attention. This paper advocates for a paradigm shift in NLP research toward addressing the challenges of long-output generation. Tasks such as novel writing, long-term planning, and complex reasoning require models to understand extensive contexts and produce coherent, contextually rich, and logically consistent extended text. These demands highlight a critical gap in current LLM capabilities. We underscore the importance of this under-explored domain and call for focused efforts to develop foundational LLMs tailored for generating high-quality, long-form outputs, which hold immense potential for real-world applications.

arxiv情報

著者 Yuhao Wu,Yushi Bai,Zhiqing Hu,Shangqing Tu,Ming Shan Hee,Juanzi Li,Roy Ka-Wei Lee
発行日 2025-03-06 18:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Shifting Long-Context LLMs Research from Input to Output はコメントを受け付けていません

L$^2$M: Mutual Information Scaling Law for Long-Context Language Modeling

要約

私たちは、長距離依存関係を支配する自然言語で法律をスケーリングする二部の相互情報拡張法を厳密に確立します。
私たちが示すこのスケーリング法は、従来の2点相互情報とは独立して異なるものであり、スケールであり、長いコンテキスト言語モデリングを理解するための鍵です。
このスケーリング法則を使用して、長いコンテスト言語モデリング(L $^2 $ m)条件を策定します。これは、過去の情報を保存するための潜在的な状態サイズのスケーリングに、効果的な長いコンテキスト長モデリングのモデルの容量を関連付けます。
私たちの結果は、変圧器と状態空間モデルの両方での実験を通じて検証されています。
この作業は、より長いコンテキストの長さに向けて大規模な言語モデルの開発を導く理論的基盤を確立します。

要約(オリジナル)

We rigorously establish a bipartite mutual information scaling law in natural language that governs long-range dependencies. This scaling law, which we show is distinct from and scales independently of the conventional two-point mutual information, is the key to understanding long-context language modeling. Using this scaling law, we formulate the Long-context Language Modeling (L$^2$M) condition, which relates a model’s capacity for effective long context length modeling to the scaling of its latent state size for storing past information. Our results are validated through experiments on both transformers and state space models. This work establishes a theoretical foundation that guides the development of large language models toward longer context lengths.

arxiv情報

著者 Zhuo Chen,Oriol Mayné i Comas,Zhuotao Jin,Di Luo,Marin Soljačić
発行日 2025-03-06 18:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IT, cs.LG, math.IT, physics.data-an | L$^2$M: Mutual Information Scaling Law for Long-Context Language Modeling はコメントを受け付けていません

A lightweight model FDM-YOLO for small target improvement based on YOLOv8

要約

小さなターゲットは、ピクセルのカウントが低い、複雑な背景、さまざまな撮影角度があるため、特に検出が困難です。これにより、モデルが効果的な機能を抽出するのが難しくなります。
一部の大規模なモデルは高い精度を提供しますが、その長い推論時間により、エッジデバイスでのリアルタイムの展開には適していません。
一方、低い計算能力のために設計されたモデルは、しばしば検出の精度が低いことに苦しんでいます。
このペーパーでは、小さなターゲット検出に焦点を当て、低い計算制約の下でオブジェクト検出の方法を調査します。
Yolov8モデルに基づいて、FDM-Yoloと呼ばれる新しいネットワークアーキテクチャを提案します。
私たちの研究には、次の重要な貢献が含まれています。FDM-Yoloは、Yolov8検出ヘッドの出力を分析して紹介します。
高解像度層を追加し、大きなターゲット検出レイヤーを削除して、小さなターゲットをよりよく処理します。
PCONVに基づいて、モデルのPANモジュールに統合されたFast-C2Fと呼ばれる軽量ネットワーク構造を提案します。
モデルの軽量化によって引き起こされる精度の損失を軽減するために、動的アップサンプリング(Dysample)と軽量EMA注意メカニズムを採用します。FDM-YoloモデルはVisdroneデータセットで検証され、パラメーターカウントが38%減少し、MAP0.5スコアを38.4%から42.5%から改善しました。
これは、エッジデバイスの展開の精度と効率のバランスをとる際のアプローチの有効性を示しています。

要約(オリジナル)

Small targets are particularly difficult to detect due to their low pixel count, complex backgrounds, and varying shooting angles, which make it hard for models to extract effective features. While some large-scale models offer high accuracy, their long inference times make them unsuitable for real-time deployment on edge devices. On the other hand, models designed for low computational power often suffer from poor detection accuracy. This paper focuses on small target detection and explores methods for object detection under low computational constraints. Building on the YOLOv8 model, we propose a new network architecture called FDM-YOLO. Our research includes the following key contributions: We introduce FDM-YOLO by analyzing the output of the YOLOv8 detection head. We add a highresolution layer and remove the large target detection layer to better handle small targets. Based on PConv, we propose a lightweight network structure called Fast-C2f, which is integrated into the PAN module of the model. To mitigate the accuracy loss caused by model lightweighting, we employ dynamic upsampling (Dysample) and a lightweight EMA attention mechanism.The FDM-YOLO model was validated on the Visdrone dataset, achieving a 38% reduction in parameter count and improving the Map0.5 score from 38.4% to 42.5%, all while maintaining nearly the same inference speed. This demonstrates the effectiveness of our approach in balancing accuracy and efficiency for edge device deployment.

arxiv情報

著者 Xuerui Zhang
発行日 2025-03-06 14:06:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A lightweight model FDM-YOLO for small target improvement based on YOLOv8 はコメントを受け付けていません

TPC: Cross-Temporal Prediction Connection for Vision-Language Model Hallucination Reduction

要約

ビジョン言語モデル(VLM)は、多様なタスク全体の大規模な言語モデル(LLM)の印象的な能力を活用して、顕著な進歩を達成しました。
それにもかかわらず、幻覚として知られる重要な課題は、モデルが画像に存在しないオブジェクトや属性を過度に自信して記述している場合に発生します。これは、VLMが言語的事前に依存する傾向によって悪化する問題です。
この制限により、ハイステークスアプリケーションでのモデルの信頼性が低下します。
この作業では、ロジッツの連続性の一貫性の強化の特性を観察し、タイムステップを横切ってそれらを時間的に接続することによりロジットの意味的な一貫性を高めるように設計された、直接的で効率的な方法、クロスポラル予測接続(TPC)を導入しました。
TPCは情報の流れを増幅し、一貫性を改善し、幻覚を効果的に減らします。
広範な実験では、TPCが既存の代表者を上回り、精度と効率の両方で優れたパフォーマンスを提供しながら、自由回答形式のテキスト生成タスクの堅牢性を維持することが示されています。

要約(オリジナル)

Vision-language models (VLMs) have achieved remarkable advancements, capitalizing on the impressive capabilities of large language models (LLMs) across diverse tasks. Despite this, a critical challenge known as hallucination occurs when models overconfidently describe objects or attributes absent from the image, a problem exacerbated by the tendency of VLMs to rely on linguistic priors. This limitation reduces model reliability in high-stakes applications. In this work, we have observed the characteristic of logits’ continuity consistency enhancement and introduced a straightforward and efficient method, Cross-Temporal Prediction Connection (TPC), designed to enhance the semantic consistency of logits by connecting them temporally across timesteps. TPC amplifies information flow and improves coherence, effectively reducing hallucination. Extensive experiments show that TPC surpasses existing representatives, delivering superior performance in both accuracy and efficiency while maintaining robustness in open-ended text generation tasks.

arxiv情報

著者 Chao Wang,Weiwei Fu,Yang Zhou
発行日 2025-03-06 14:11:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | TPC: Cross-Temporal Prediction Connection for Vision-Language Model Hallucination Reduction はコメントを受け付けていません

Question-Aware Gaussian Experts for Audio-Visual Question Answering

要約

視聴覚質問応答(AVQA)には、質問に基づいたマルチモーダル推論だけでなく、正確な予測のために微妙なダイナミクスをキャプチャするための正確な時間的接地も必要です。
ただし、既存の方法は主に質問情報を暗黙的に使用し、質問固有の詳細に焦点を当てます。
さらに、ほとんどの研究は、重要な質問関連フレームを見逃す可能性がある均一なフレームサンプリングに依存しています。
最近のTop-Kフレーム選択方法はこれに対処することを目的としていますが、それらの個別の性質は依然としてきめの細かい一時的な詳細を見落としています。
このペーパーでは、質問情報とモデルの連続的な時間的ダイナミクスを明示的に組み込んだ新しいフレームワークである\ textbf {qa-tiger}を提案します。
私たちの重要なアイデアは、ガウスベースのモデリングを使用して、質問に基づいて連続したフレームと非継続的なフレームの両方に適応的に焦点を当て、質問情報を明示的に注入し、漸進的な改良を適用することです。
専門家(MOE)の混合物を活用して、複数のガウスモデルを柔軟に実装し、質問に特化した一時的な専門家を活性化します。
複数のAVQAベンチマークでの広範な実験は、QAタイガーが常に最先端のパフォーマンスを達成することを示しています。
コードはhttps://github.com/aim-skku/qa-tigerで入手できます

要約(オリジナル)

Audio-Visual Question Answering (AVQA) requires not only question-based multimodal reasoning but also precise temporal grounding to capture subtle dynamics for accurate prediction. However, existing methods mainly use question information implicitly, limiting focus on question-specific details. Furthermore, most studies rely on uniform frame sampling, which can miss key question-relevant frames. Although recent Top-K frame selection methods aim to address this, their discrete nature still overlooks fine-grained temporal details. This paper proposes \textbf{QA-TIGER}, a novel framework that explicitly incorporates question information and models continuous temporal dynamics. Our key idea is to use Gaussian-based modeling to adaptively focus on both consecutive and non-consecutive frames based on the question, while explicitly injecting question information and applying progressive refinement. We leverage a Mixture of Experts (MoE) to flexibly implement multiple Gaussian models, activating temporal experts specifically tailored to the question. Extensive experiments on multiple AVQA benchmarks show that QA-TIGER consistently achieves state-of-the-art performance. Code is available at https://github.com/AIM-SKKU/QA-TIGER

arxiv情報

著者 Hongyeob Kim,Inyoung Jung,Dayoon Suh,Youjia Zhang,Sangmin Lee,Sungeun Hong
発行日 2025-03-06 14:11:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Question-Aware Gaussian Experts for Audio-Visual Question Answering はコメントを受け付けていません

Gate-Shift-Pose: Enhancing Action Recognition in Sports with Skeleton Information

要約

このペーパーでは、RGBフレームと一緒にスケルトンポーズデータを統合することにより、フィギュアスケートでアスリートの秋の分類用に設計されたゲートシフト融合ネットワークの拡張バージョンであるGate-Shift-Poseを紹介します。
2つの融合戦略を評価します:RGBフレームと入力段階でのポーズキーポイントのガウスヒートマップを組み合わせた早期融合と、RGBとポーズ機能を組み合わせてマルチストリームアーキテクチャと注意メカニズムを使用します。
FR-FSデータセットでの実験は、Gate-Shift-PoseがRGBのみのベースラインを大幅に上回り、ResNet18で最大40%、ResNet50で20%の精度を改善することを示しています。
早期融合は、ResNet50で最高の精度(98.08%)を達成し、効果的なマルチモーダル統合のモデルの容量を活用しますが、遅延融合はResNet18のような軽いバックボーンに適しています。
これらの結果は、スポーツアクション認識のためのマルチモーダルアーキテクチャの可能性と、複雑なモーションパターンをキャプチャする際のスケルトンの重要な役割を強調しています。

要約(オリジナル)

This paper introduces Gate-Shift-Pose, an enhanced version of Gate-Shift-Fuse networks, designed for athlete fall classification in figure skating by integrating skeleton pose data alongside RGB frames. We evaluate two fusion strategies: early-fusion, which combines RGB frames with Gaussian heatmaps of pose keypoints at the input stage, and late-fusion, which employs a multi-stream architecture with attention mechanisms to combine RGB and pose features. Experiments on the FR-FS dataset demonstrate that Gate-Shift-Pose significantly outperforms the RGB-only baseline, improving accuracy by up to 40% with ResNet18 and 20% with ResNet50. Early-fusion achieves the highest accuracy (98.08%) with ResNet50, leveraging the model’s capacity for effective multimodal integration, while late-fusion is better suited for lighter backbones like ResNet18. These results highlight the potential of multimodal architectures for sports action recognition and the critical role of skeleton pose information in capturing complex motion patterns.

arxiv情報

著者 Edoardo Bianchi,Oswald Lanz
発行日 2025-03-06 14:21:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Gate-Shift-Pose: Enhancing Action Recognition in Sports with Skeleton Information はコメントを受け付けていません

ForestLPR: LiDAR Place Recognition in Forests Attentioning Multiple BEV Density Images

要約

場所の認識は、大規模なローカリゼーションシステムのグローバルな一貫性を維持するために不可欠です。
都市環境での研究はLIDARSまたはカメラを使用して大幅に進行していますが、自然森林のような環境での用途は、主に標準の依然として依存しています。
さらに、森林は、時間の経過に伴う植生の成長の高い自己類似性と実質的な変動のために、特定の課題を提示します。
この作業では、自然林の堅牢なライダーベースの場所認識方法であるForestLPRを提案します。
さまざまな高さでの森林の幾何学の断面画像のセットには、場所の再訪を認識するために必要な情報が含まれていると仮定します。
断面画像は、異なる高さの点雲の水平スライスの\ ac {bev}密度画像で表されます。
私たちのアプローチは、視覚的な変圧器を共有バックボーンとして利用して、ローカル記述子のセットを生成し、多bevインタラクションモジュールを導入して、異なる高さの情報に適応します。
その後、回転不変の場所記述子を生成する集約層が続きます。
パブリックベンチマークからの実際のデータとロボットデータセットからの実際のデータでの方法の有効性を評価し、最先端の(SOTA)メソッドと比較しました。
結果は、ForestLPRがすべての評価で一貫して良好なパフォーマンスを持ち、それぞれ順序内部ループ閉鎖検出と継続的な再局在化について、それぞれ最も近い競合他社よりもRecall@1で7.38 \%と9.11 \%の平均増加を達成し、仮説を検証することを示しています。

要約(オリジナル)

Place recognition is essential to maintain global consistency in large-scale localization systems. While research in urban environments has progressed significantly using LiDARs or cameras, applications in natural forest-like environments remain largely under-explored. Furthermore, forests present particular challenges due to high self-similarity and substantial variations in vegetation growth over time. In this work, we propose a robust LiDAR-based place recognition method for natural forests, ForestLPR. We hypothesize that a set of cross-sectional images of the forest’s geometry at different heights contains the information needed to recognize revisiting a place. The cross-sectional images are represented by \ac{bev} density images of horizontal slices of the point cloud at different heights. Our approach utilizes a visual transformer as the shared backbone to produce sets of local descriptors and introduces a multi-BEV interaction module to attend to information at different heights adaptively. It is followed by an aggregation layer that produces a rotation-invariant place descriptor. We evaluated the efficacy of our method extensively on real-world data from public benchmarks as well as robotic datasets and compared it against the state-of-the-art (SOTA) methods. The results indicate that ForestLPR has consistently good performance on all evaluations and achieves an average increase of 7.38\% and 9.11\% on Recall@1 over the closest competitor on intra-sequence loop closure detection and inter-sequence re-localization, respectively, validating our hypothesis

arxiv情報

著者 Yanqing Shen,Turcan Tuna,Marco Hutter,Cesar Cadena,Nanning Zheng
発行日 2025-03-06 14:24:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ForestLPR: LiDAR Place Recognition in Forests Attentioning Multiple BEV Density Images はコメントを受け付けていません

MobileViM: A Light-weight and Dimension-independent Vision Mamba for 3D Medical Image Analysis

要約

3次元(3D)医療画像の効率的な評価は、ヘルスケアにおける診断慣行および治療慣行に不可欠です。
近年、深い学習とコンピュータービジョンを適用して、医療画像を分析および解釈することにかなりの摂取が見られました。
畳み込みニューラルネットワーク(CNNS)や視覚変圧器(VIT)などの従来のアプローチは、重要な計算上の課題に直面し、建築の進歩の必要性を促します。
最近の努力により、従来のCNNまたはVITの代替ソリューションとして「Mamba」モデルのような新しいアーキテクチャが導入されました。
MAMBAモデルは、計算要求が低い1次元データの線形処理に優れています。
ただし、3D医療画像分析のMAMBAの可能性は未定であり、次元が増加するにつれて重大な計算上の課題に直面する可能性があります。
この原稿は、3D医療画像の効率的なセグメンテーションのための合理化されたアーキテクチャであるMobileVimを示しています。
MobileVimネットワークでは、Vision-Mambaベースのフレームワークに組み込まれる新しい次元に依存しないメカニズムと二重方向のトラバー状アプローチを発明します。
また、MobileVimは、さまざまな医療イメージングモダリティの効率と精度を向上させるためのクロススケールブリッジング手法を備えています。
これらの機能強化により、MobileVimは単一のグラフィックス処理ユニット(つまり、NVIDIA RTX 4090)で1秒あたり90フレーム(FPS)を超えるセグメンテーション速度を達成します。
このパフォーマンスは、同じ計算リソースで3D画像を処理するための最先端のディープラーニングモデルよりも24 fpsを超える速さです。
さらに、実験的評価は、MobileVimが優れたパフォーマンスを提供することを示しています。サイコロ類似性スコアは、それぞれ92.72%、86.69%、80.46%、および77.43%に達します。

要約(オリジナル)

Efficient evaluation of three-dimensional (3D) medical images is crucial for diagnostic and therapeutic practices in healthcare. Recent years have seen a substantial uptake in applying deep learning and computer vision to analyse and interpret medical images. Traditional approaches, such as convolutional neural networks (CNNs) and vision transformers (ViTs), face significant computational challenges, prompting the need for architectural advancements. Recent efforts have led to the introduction of novel architectures like the “Mamba” model as alternative solutions to traditional CNNs or ViTs. The Mamba model excels in the linear processing of one-dimensional data with low computational demands. However, Mamba’s potential for 3D medical image analysis remains underexplored and could face significant computational challenges as the dimension increases. This manuscript presents MobileViM, a streamlined architecture for efficient segmentation of 3D medical images. In the MobileViM network, we invent a new dimension-independent mechanism and a dual-direction traversing approach to incorporate with a vision-Mamba-based framework. MobileViM also features a cross-scale bridging technique to improve efficiency and accuracy across various medical imaging modalities. With these enhancements, MobileViM achieves segmentation speeds exceeding 90 frames per second (FPS) on a single graphics processing unit (i.e., NVIDIA RTX 4090). This performance is over 24 FPS faster than the state-of-the-art deep learning models for processing 3D images with the same computational resources. In addition, experimental evaluations demonstrate that MobileViM delivers superior performance, with Dice similarity scores reaching 92.72%, 86.69%, 80.46%, and 77.43% for PENGWIN, BraTS2024, ATLAS, and Toothfairy2 datasets, respectively, which significantly surpasses existing models.

arxiv情報

著者 Wei Dai,Jun Liu
発行日 2025-03-06 14:27:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NI | MobileViM: A Light-weight and Dimension-independent Vision Mamba for 3D Medical Image Analysis はコメントを受け付けていません

Semantic Alignment of Unimodal Medical Text and Vision Representations

要約

一般的なAIモデル、特にテキストとビジョンのために設計されたモデルは、幅広い深い学習タスクにわたって印象的な汎用性を示しています。
ただし、多くの場合、ドメイン固有のソリューションまたは代替の知識移転アプローチが必要な医療イメージングなどの専門ドメインでパフォーマンスが低下しています。
最近の研究では、このアライメントは自然には発生しませんが、意味的に関連するデータを処理する際に、汎用モデルが同様の潜在スペースを示すことができると指摘しています。
この洞察に基づいて、アンカーとして知られる意味的に対応するサンプルのサブセットから推定された単純な変換(ほとんどのアフィン)を適用することで、多様なトレーニングパラダイム、アーキテクチャ、およびモダリティ全体にモデルステッチを可能にすることが示されています。
この論文では、意味の調整 – アンカー間の変換の推定 – が、一般的な医療知識を汎用することができる方法を探ります。
複数のパブリックチェストX線データセットを使用して、モデルアーキテクチャ全体のモデルステッチにより、一般的なモデルが追加のトレーニングなしでドメイン固有の知識を統合し、医療タスクのパフォーマンスが向上することを実証します。
さらに、モダリティ全体でセマンティックアライメントを活用するUnimodal Visionエンコーダーの新しいゼロショット分類アプローチを導入します。
私たちの結果は、私たちの方法が一般的なマルチモーダルモデルよりも優れているだけでなく、完全に訓練された医療固有のマルチモーダルソリューションのパフォーマンスレベルにも近づいていることを示しています。

要約(オリジナル)

General-purpose AI models, particularly those designed for text and vision, demonstrate impressive versatility across a wide range of deep-learning tasks. However, they often underperform in specialised domains like medical imaging, where domain-specific solutions or alternative knowledge transfer approaches are typically required. Recent studies have noted that general-purpose models can exhibit similar latent spaces when processing semantically related data, although this alignment does not occur naturally. Building on this insight, it has been shown that applying a simple transformation – at most affine – estimated from a subset of semantically corresponding samples, known as anchors, enables model stitching across diverse training paradigms, architectures, and modalities. In this paper, we explore how semantic alignment – estimating transformations between anchors – can bridge general-purpose AI with specialised medical knowledge. Using multiple public chest X-ray datasets, we demonstrate that model stitching across model architectures allows general models to integrate domain-specific knowledge without additional training, leading to improved performance on medical tasks. Furthermore, we introduce a novel zero-shot classification approach for unimodal vision encoders that leverages semantic alignment across modalities. Our results show that our method not only outperforms general multimodal models but also approaches the performance levels of fully trained, medical-specific multimodal solutions

arxiv情報

著者 Maxime Di Folco,Emily Chan,Marta Hasny,Cosmin I. Bercea,Julia A. Schnabel
発行日 2025-03-06 14:28:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Semantic Alignment of Unimodal Medical Text and Vision Representations はコメントを受け付けていません

Mocap-2-to-3: Lifting 2D Diffusion-Based Pretrained Models for 3D Motion Capture

要約

単眼のビューから世界座標系で絶対的なポーズを回復することは、重要な課題をもたらします。
この文脈では、2つの主要な問題が発生します。
第一に、既存の方法は、限られた環境での収集が必要なトレーニングのために3Dモーションデータに依存しています。
新しいアクションのためにこのような3Dラベルをタイムリーに取得することは非現実的であり、モデルの一般化機能を厳しく制限します。
対照的に、2Dポーズははるかにアクセスしやすく、取得が簡単です。
第二に、単一の視点からメトリック空間における人の絶対的な位置を推定することは、本質的により複雑です。
これらの課題に対処するために、複雑な3Dモーションを2Dポーズに分解する新しいフレームワークであるMoCAP-2-to-3を紹介し、2Dデータを活用して、多様なシナリオでの3Dモーション再構築を強化し、世界座標系の絶対位置を正確に予測します。
当初、広範な2Dデータを使用してシングルビュー拡散モデルを植え付け、続いて、公開されている3Dデータを使用してビューの一貫性のためにマルチビュー拡散モデルを微調整しました。
この戦略は、大規模な2Dデータの効果的な使用を促進します。
さらに、グローバルな動きから局所的な行動を切り離し、地面の幾何学的な事前にエンコードする革新的な人間の動きの表現を提案し、生成モデルが2Dデータから正確な動きの事前を学習するようにします。
推論中、これにより、グローバルな動きが徐々に回復することができ、より妥当なポジショニングをもたらします。
現実世界のデータセットでのモデルのパフォーマンスを評価し、一般化とスケーラビリティの強化とともに、最先端の方法と比較して動きおよび絶対的な人間の位置付けにおける優れた精度を示します。
私たちのコードは公開されます。

要約(オリジナル)

Recovering absolute poses in the world coordinate system from monocular views presents significant challenges. Two primary issues arise in this context. Firstly, existing methods rely on 3D motion data for training, which requires collection in limited environments. Acquiring such 3D labels for new actions in a timely manner is impractical, severely restricting the model’s generalization capabilities. In contrast, 2D poses are far more accessible and easier to obtain. Secondly, estimating a person’s absolute position in metric space from a single viewpoint is inherently more complex. To address these challenges, we introduce Mocap-2-to-3, a novel framework that decomposes intricate 3D motions into 2D poses, leveraging 2D data to enhance 3D motion reconstruction in diverse scenarios and accurately predict absolute positions in the world coordinate system. We initially pretrain a single-view diffusion model with extensive 2D data, followed by fine-tuning a multi-view diffusion model for view consistency using publicly available 3D data. This strategy facilitates the effective use of large-scale 2D data. Additionally, we propose an innovative human motion representation that decouples local actions from global movements and encodes geometric priors of the ground, ensuring the generative model learns accurate motion priors from 2D data. During inference, this allows for the gradual recovery of global movements, resulting in more plausible positioning. We evaluate our model’s performance on real-world datasets, demonstrating superior accuracy in motion and absolute human positioning compared to state-of-the-art methods, along with enhanced generalization and scalability. Our code will be made publicly available.

arxiv情報

著者 Zhumei Wang,Zechen Hu,Ruoxi Guo,Huaijin Pi,Ziyong Feng,Sida Peng,Xiaowei Zhou
発行日 2025-03-06 14:32:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mocap-2-to-3: Lifting 2D Diffusion-Based Pretrained Models for 3D Motion Capture はコメントを受け付けていません