The Invisible EgoHand: 3D Hand Forecasting through EgoBody Pose Estimation

要約

エゴセントリックな視点からの手の動きとポーズを予測することは、人間の意図を理解するために不可欠です。
ただし、既存の方法は、関節を考慮せずに位置を予測することにのみ焦点を当て、視野で手が見えている場合にのみです。
この制限は、カメラのビューの外にいる場合でも、おおよその手位置がまだ推測できるという事実を見落としています。
このホワイトペーパーでは、視野内外のエゴセントリックビデオから両手の3D軌道とポーズを予測する方法を提案します。
観測シーケンスとカメラのポーズを入力するために、エゴセントリックハンド予測であるEGOH4の拡散ベースの変圧器アーキテクチャを提案し、将来の3Dモーションを予測し、カメラ着用者の両手のポーズを予測します。
全身ポーズ情報を活用して、他のジョイントが手の動きに制約を提供できるようにします。
ハンドジョイントの視認性予測因子と、手と2Dから2Dへの再注射の損失とともに、手と体の関節を除去し、手が視聴されているときのエラーを最小限に抑えます。
サブセットとボディおよびハンドアノテーションを組み合わせて、EGO-EXO4DデータセットでEGOH4を評価します。
156Kシーケンスでトレーニングし、それぞれ34Kシーケンスで評価します。
EGOH4は、手軌跡予測のADEおよび手ポーズ予測のMPJPEの観点から、ベースラインで3.4cmおよび5.1cmのパフォーマンスを改善します。
プロジェクトページ:https://masashi-hatano.github.io/egoh4/

要約(オリジナル)

Forecasting hand motion and pose from an egocentric perspective is essential for understanding human intention. However, existing methods focus solely on predicting positions without considering articulation, and only when the hands are visible in the field of view. This limitation overlooks the fact that approximate hand positions can still be inferred even when they are outside the camera’s view. In this paper, we propose a method to forecast the 3D trajectories and poses of both hands from an egocentric video, both in and out of the field of view. We propose a diffusion-based transformer architecture for Egocentric Hand Forecasting, EgoH4, which takes as input the observation sequence and camera poses, then predicts future 3D motion and poses for both hands of the camera wearer. We leverage full-body pose information, allowing other joints to provide constraints on hand motion. We denoise the hand and body joints along with a visibility predictor for hand joints and a 3D-to-2D reprojection loss that minimizes the error when hands are in-view. We evaluate EgoH4 on the Ego-Exo4D dataset, combining subsets with body and hand annotations. We train on 156K sequences and evaluate on 34K sequences, respectively. EgoH4 improves the performance by 3.4cm and 5.1cm over the baseline in terms of ADE for hand trajectory forecasting and MPJPE for hand pose forecasting. Project page: https://masashi-hatano.github.io/EgoH4/

arxiv情報

著者 Masashi Hatano,Zhifan Zhu,Hideo Saito,Dima Damen
発行日 2025-04-11 15:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | The Invisible EgoHand: 3D Hand Forecasting through EgoBody Pose Estimation はコメントを受け付けていません

Fine-Grained Retrieval-Augmented Generation for Visual Question Answering

要約

視覚的な質問回答(VQA)は、画像からの情報を利用することにより、自然言語の質問への回答を提供することに焦点を当てています。
GPT-4oなどの最先端のマルチモーダル大型言語モデル(MLLM)は、VQAタスクで強力なパフォーマンスを実現しますが、ドメイン固有または最新の知識にアクセスするのに頻繁に不足しています。
この問題を緩和するために、KB-VQAと呼ばれる外部知識ベース(KBS)を活用する検索された生成(RAG)は、有望なアプローチとして浮上しています。
それにもかかわらず、画像をテキストの説明に変換する従来の単像検索手法は、多くの場合、重要な視覚的詳細を失います。
この研究では、テキストのスニペットとベクトルデータベースに保存されているエンティティ画像と融合したファイングレインの知識ユニットを紹介します。
さらに、細粒の検索をMLLMSと統合するナレッジユニット検索の高級ジェネレーションフレームワーク(KU-RAG)を導入します。
提案されたKU-RAGフレームワークは、関連する知識の正確な検索を保証し、知識修正チェーンを通じて推論機能を強化します。
実験的調査結果は、私たちのアプローチが主要なKB-VQAメソッドのパフォーマンスを大幅に向上させ、最良の場合に平均3%と最大11%の平均改善を達成することを示しています。

要約(オリジナル)

Visual Question Answering (VQA) focuses on providing answers to natural language questions by utilizing information from images. Although cutting-edge multimodal large language models (MLLMs) such as GPT-4o achieve strong performance on VQA tasks, they frequently fall short in accessing domain-specific or the latest knowledge. To mitigate this issue, retrieval-augmented generation (RAG) leveraging external knowledge bases (KBs), referred to as KB-VQA, emerges as a promising approach. Nevertheless, conventional unimodal retrieval techniques, which translate images into textual descriptions, often result in the loss of critical visual details. This study presents fine-grained knowledge units, which merge textual snippets with entity images stored in vector databases. Furthermore, we introduce a knowledge unit retrieval-augmented generation framework (KU-RAG) that integrates fine-grained retrieval with MLLMs. The proposed KU-RAG framework ensures precise retrieval of relevant knowledge and enhances reasoning capabilities through a knowledge correction chain. Experimental findings demonstrate that our approach significantly boosts the performance of leading KB-VQA methods, achieving an average improvement of approximately 3% and up to 11% in the best case.

arxiv情報

著者 Zhengxuan Zhang,Yin Wu,Yuyu Luo,Nan Tang
発行日 2025-04-11 16:02:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Fine-Grained Retrieval-Augmented Generation for Visual Question Answering はコメントを受け付けていません

X2BR: High-Fidelity 3D Bone Reconstruction from a Planar X-Ray Image with Hybrid Neural Implicit Methods

要約

単一の平面X線からの正確な3D骨再建は、解剖学的複雑さと限られた入力データのために依然として課題のままです。
連続体積再構成とテンプレート誘導性非剛性登録を組み合わせたハイブリッド神経暗黙のフレームワークであるX2BRを提案します。
Core Network X2Bは、ConvNextベースのエンコーダーを採用して、X線から空間機能を抽出し、統計形状モデルに依存することなく高忠実度の3D骨占有フィールドを予測します。
解剖学的精度をさらに絞り込むために、X2BRはYolov9ベースの検出とSkelバイオメカニカルスケルトンモデルを使用して構築された患者固有のテンプレートメッシュを統合します。
粗い再構成は、測地基準ベースのコヒーレントポイントドリフトを使用してテンプレートに整列し、解剖学的に一貫した3D骨ボリュームを可能にします。
臨床データセットでの実験結果は、X2Bが0.952のIOUと0.005の透水型距離で最高の数値精度を達成し、X2VおよびD2IM-NETを含む最近のベースラインを上回ることを示しています。
これに基づいて、X2BRはYolov9ベースの骨検出と生体力学的テンプレートアライメントを介して解剖学的前層を組み込んでおり、Iou(0.875)ではわずかに低下しているが、特にrib骨の曲率と脊椎アライメントで優れた解剖学的リアリズムを提供します。
この数値精度とX2BとX2BRの視覚的一貫性トレードオフは、臨床的に関連する3D再構成のハイブリッドフレームワークの値を強調しています。

要約(オリジナル)

Accurate 3D bone reconstruction from a single planar X-ray remains a challenge due to anatomical complexity and limited input data. We propose X2BR, a hybrid neural implicit framework that combines continuous volumetric reconstruction with template-guided non-rigid registration. The core network, X2B, employs a ConvNeXt-based encoder to extract spatial features from X-rays and predict high-fidelity 3D bone occupancy fields without relying on statistical shape models. To further refine anatomical accuracy, X2BR integrates a patient-specific template mesh, constructed using YOLOv9-based detection and the SKEL biomechanical skeleton model. The coarse reconstruction is aligned to the template using geodesic-based coherent point drift, enabling anatomically consistent 3D bone volumes. Experimental results on a clinical dataset show that X2B achieves the highest numerical accuracy, with an IoU of 0.952 and Chamfer-L1 distance of 0.005, outperforming recent baselines including X2V and D2IM-Net. Building on this, X2BR incorporates anatomical priors via YOLOv9-based bone detection and biomechanical template alignment, leading to reconstructions that, while slightly lower in IoU (0.875), offer superior anatomical realism, especially in rib curvature and vertebral alignment. This numerical accuracy vs. visual consistency trade-off between X2B and X2BR highlights the value of hybrid frameworks for clinically relevant 3D reconstructions.

arxiv情報

著者 Gokce Guven,H. Fatih Ugurdag,Hasan F. Ates
発行日 2025-04-11 16:29:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | X2BR: High-Fidelity 3D Bone Reconstruction from a Planar X-Ray Image with Hybrid Neural Implicit Methods はコメントを受け付けていません

HRDecoder: High-Resolution Decoder Network for Fundus Image Lesion Segmentation

要約

Fundus画像の正確なセグメンテーションには高解像度が重要ですが、高解像度の入力を処理するにはかなりのGPUメモリコストがかかり、オーバーヘッドが増加するにつれてパフォーマンスの向上が減少します。
小さなオブジェクトのセグメント化の課題に取り組む際にこの問題に対処するために、最近の研究では、局所的なグローバル融合方法を調査しました。
これらの方法は、ローカル地域を使用して細かい詳細を保持し、ダウンスケールのグローバル画像から長距離コンテキスト情報をキャプチャします。
ただし、複数のフォワードパスの必要性は必然的に重要な計算オーバーヘッドが発生し、推論速度に悪影響を及ぼします。
この論文では、眼底病変セグメンテーションのための単純な高解像度デコーダーネットワークであるHRDecoderを提案します。
高解像度表現学習モジュールを統合して、きめ細かい局所的な特徴と高解像度の融合モジュールをキャプチャして、マルチスケールの予測を融合します。
私たちの方法は、合理的な記憶と計算オーバーヘッドを消費し、満足のいく推論速度を維持しながら、眼底病変の全体的なセグメンテーション精度を効果的に改善します。
IDRIDおよびDDRデータセットの実験結果は、私たちの方法の有効性を示しています。
コードはhttps://github.com/cviu-csu/hrdecoderで入手できます。

要約(オリジナル)

High resolution is crucial for precise segmentation in fundus images, yet handling high-resolution inputs incurs considerable GPU memory costs, with diminishing performance gains as overhead increases. To address this issue while tackling the challenge of segmenting tiny objects, recent studies have explored local-global fusion methods. These methods preserve fine details using local regions and capture long-range context information from downscaled global images. However, the necessity of multiple forward passes inevitably incurs significant computational overhead, adversely affecting inference speed. In this paper, we propose HRDecoder, a simple High-Resolution Decoder network for fundus lesion segmentation. It integrates a high-resolution representation learning module to capture fine-grained local features and a high-resolution fusion module to fuse multi-scale predictions. Our method effectively improves the overall segmentation accuracy of fundus lesions while consuming reasonable memory and computational overhead, and maintaining satisfying inference speed. Experimental results on the IDRiD and DDR datasets demonstrate the effectiveness of our method. Code is available at https://github.com/CVIU-CSU/HRDecoder.

arxiv情報

著者 Ziyuan Ding,Yixiong Liang,Shichao Kan,Qing Liu
発行日 2025-04-11 16:33:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HRDecoder: High-Resolution Decoder Network for Fundus Image Lesion Segmentation はコメントを受け付けていません

UNEM: UNrolled Generalized EM for Transductive Few-Shot Learning

要約

トランスダクトの少数のショット学習は、最近、コンピュータービジョンにおいて幅広い注目を集めています。
しかし、現在の方法では、クラスバランスのレベルなどのテストバッチの予測統計を制御するキーハイパーパラメーターを導入し、パフォーマンスに大きな影響を与えます。
このようなハイパーパラメーターは、検証データに対して経験的にグリッド検索されており、その構成はターゲットデータセットと事前トレーニングモデルによって大きく異なる場合があり、そのような経験的検索は、最適ではなく計算的に扱いやすくなります。
この作業では、少数のショット学習の文脈で「学習を最適化する」とも呼ばれる展開パラダイムを提唱し、紹介し、それによって最適化されたハイパーパラメーターのセットを効率的かつ効果的に学習します。
具体的には、ユビキタスな期待最大化(EM)オプティマイザーの一般化をニューラルネットワークアーキテクチャに展開し、それぞれをレイヤーにマッピングし、検証データを介した重要なハイパーパラメーターのセットを学習します。
当社の展開アプローチでは、最近の基礎ビジョン言語モデルや標準的なビジョンのみの分類器を含む、さまざまな統計的特徴分布とトレーニング前のパラダイムをカバーしています。
包括的な実験を報告します。包括的な実験は、幅広い細粒の下流の画像分類タスクをカバーしており、提案された拡大されたEMアルゴリズムが反復バリエーションよりももたらした大幅な利益を示しています。
達成された改善は、それぞれ視力のみと視覚言語のベンチマークで最大10%と7.5%に達します。

要約(オリジナル)

Transductive few-shot learning has recently triggered wide attention in computer vision. Yet, current methods introduce key hyper-parameters, which control the prediction statistics of the test batches, such as the level of class balance, affecting performances significantly. Such hyper-parameters are empirically grid-searched over validation data, and their configurations may vary substantially with the target dataset and pre-training model, making such empirical searches both sub-optimal and computationally intractable. In this work, we advocate and introduce the unrolling paradigm, also referred to as ‘learning to optimize’, in the context of few-shot learning, thereby learning efficiently and effectively a set of optimized hyper-parameters. Specifically, we unroll a generalization of the ubiquitous Expectation-Maximization (EM) optimizer into a neural network architecture, mapping each of its iterates to a layer and learning a set of key hyper-parameters over validation data. Our unrolling approach covers various statistical feature distributions and pre-training paradigms, including recent foundational vision-language models and standard vision-only classifiers. We report comprehensive experiments, which cover a breadth of fine-grained downstream image classification tasks, showing significant gains brought by the proposed unrolled EM algorithm over iterative variants. The achieved improvements reach up to 10% and 7.5% on vision-only and vision-language benchmarks, respectively.

arxiv情報

著者 Long Zhou,Fereshteh Shakeri,Aymen Sadraoui,Mounir Kaaniche,Jean-Christophe Pesquet,Ismail Ben Ayed
発行日 2025-04-11 16:41:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UNEM: UNrolled Generalized EM for Transductive Few-Shot Learning はコメントを受け付けていません

Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

要約

このテクニカルレポートは、ビデオジェネレーションファンデーションモデルをトレーニングするための費用効率の高い戦略を提示します。
665,000 H100 GPU時間を使用して、SeaWeed-7Bと呼ばれる約70億パラメーター(7B)とゼロから訓練された中規模の研究モデルを提示します。
中程度の計算リソースで訓練されているにもかかわらず、SeaWeed-7Bは、はるかに大きなサイズの現代のビデオ生成モデルと比較して、非常に競争力のあるパフォーマンスを示しています。
リソース制約のある設定では、設計の選択が特に重要です。
このテクニカルレポートは、中規模の拡散モデルのパフォーマンスを向上させる重要な設計上の決定を強調しています。
経験的には、2つの観察結果を作成します。(1)海藻-7Bは、実質的に大きなGPUリソ​​ースで訓練されたより大きなモデルに匹敵する、または上回るパフォーマンスを達成します。
https://seaweed.video/のプロジェクトページを参照してください

要約(オリジナル)

This technical report presents a cost-efficient strategy for training a video generation foundation model. We present a mid-sized research model with approximately 7 billion parameters (7B) called Seaweed-7B trained from scratch using 665,000 H100 GPU hours. Despite being trained with moderate computational resources, Seaweed-7B demonstrates highly competitive performance compared to contemporary video generation models of much larger size. Design choices are especially crucial in a resource-constrained setting. This technical report highlights the key design decisions that enhance the performance of the medium-sized diffusion model. Empirically, we make two observations: (1) Seaweed-7B achieves performance comparable to, or even surpasses, larger models trained on substantially greater GPU resources, and (2) our model, which exhibits strong generalization ability, can be effectively adapted across a wide range of downstream applications either by lightweight fine-tuning or continue training. See the project page at https://seaweed.video/

arxiv情報

著者 Team Seawead,Ceyuan Yang,Zhijie Lin,Yang Zhao,Shanchuan Lin,Zhibei Ma,Haoyuan Guo,Hao Chen,Lu Qi,Sen Wang,Feng Cheng,Feilong Zuo Xuejiao Zeng,Ziyan Yang,Fangyuan Kong,Zhiwu Qing,Fei Xiao,Meng Wei,Tuyen Hoang,Siyu Zhang,Peihao Zhu,Qi Zhao,Jiangqiao Yan,Liangke Gui,Sheng Bi,Jiashi Li,Yuxi Ren,Rui Wang,Huixia Li,Xuefeng Xiao,Shu Liu,Feng Ling,Heng Zhang,Houmin Wei,Huafeng Kuang,Jerry Duncan,Junda Zhang,Junru Zheng,Li Sun,Manlin Zhang,Renfei Sun,Xiaobin Zhuang,Xiaojie Li,Xin Xia,Xuyan Chi,Yanghua Peng,Yuping Wang,Yuxuan Wang,Zhongkai Zhao,Zhuo Chen,Zuquan Song,Zhenheng Yang,Jiashi Feng,Jianchao Yang,Lu Jiang
発行日 2025-04-11 16:46:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model はコメントを受け付けていません

Hypergraph Vision Transformers: Images are More than Nodes, More than Edges

要約

コンピュータービジョンの最近の進歩により、さまざまなタスクにわたる視覚変圧器(VIT)のスケーラビリティが強調されていますが、課題は適応性、計算効率、および高次の関係をモデル化する能力のバランスをとっています。
Vision Graph Neural Networks(VIGS)は、グラフベースの方法論を活用することにより代替案を提供しますが、エッジ生成に使用されるクラスタリングアルゴリズムの計算ボトルネックによって妨げられます。
これらの問題に対処するために、階層的な二部ハイパーグラフ構造をビジョントランスフレームワークに組み込んで、計算効率を維持しながら高次のセマンティック関係をキャプチャするハイパーグラフビジョントランス(HGVT)を提案します。
HGVTは、クラスタリングなしで動的なハイパーグラフ構造のための母集団と多様性の正則化を活用し、セマンティック抽出を強化し、グラフベースの画像検索を促進するためのエキスパートエッジプーリングを活用します。
経験的な結果は、HGVTが画像分類と取得で強力なパフォーマンスを達成し、セマンティックベースのビジョンタスクの効率的なフレームワークとして位置付けていることを示しています。

要約(オリジナル)

Recent advancements in computer vision have highlighted the scalability of Vision Transformers (ViTs) across various tasks, yet challenges remain in balancing adaptability, computational efficiency, and the ability to model higher-order relationships. Vision Graph Neural Networks (ViGs) offer an alternative by leveraging graph-based methodologies but are hindered by the computational bottlenecks of clustering algorithms used for edge generation. To address these issues, we propose the Hypergraph Vision Transformer (HgVT), which incorporates a hierarchical bipartite hypergraph structure into the vision transformer framework to capture higher-order semantic relationships while maintaining computational efficiency. HgVT leverages population and diversity regularization for dynamic hypergraph construction without clustering, and expert edge pooling to enhance semantic extraction and facilitate graph-based image retrieval. Empirical results demonstrate that HgVT achieves strong performance on image classification and retrieval, positioning it as an efficient framework for semantic-based vision tasks.

arxiv情報

著者 Joshua Fixelle
発行日 2025-04-11 17:20:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Hypergraph Vision Transformers: Images are More than Nodes, More than Edges はコメントを受け付けていません

Generating Fine Details of Entity Interactions

要約

画像は、オブジェクトを描写するだけでなく、それらの間の豊富な相互作用もカプセル化します。
ただし、互いに相互作用する複数のエンティティを含む忠実で忠実な画像を生成することは、長年にわたる課題です。
事前に訓練されたテキストから画像から画像からイメージまでのモデルは大規模なデータセットでトレーニングされ、多様なテキストの指示に従うことができますが、おそらく、珍しいオブジェクトの相互作用のためのトレーニングデータが不足しているため、正確な相互作用を生成するのに苦労しています。
このペーパーでは、3つの重要なシナリオをカバーする1000個のファイングレインプロンプトを備えた相互作用範囲のデータセットである相互作用を紹介します。(1)機能およびアクションベースの相互作用、(2)組成空間関係、および(3)マルチサブジェクトの相互作用。
相互作用の生成の課題に対処するために、分解された精製手順を提案します。
安定した拡散3.5に基づいて構築された私たちのアプローチは、LLMを活用して相互作用をより細かい粒子の概念に分解し、VLMを使用して生成された画像を批評し、洗練の拡散プロセス内で標的介入を適用します。
自動および人間の評価により、画質が大幅に改善され、推論戦略が強化される可能性が示されています。
データセットとコードは、https://concepts-ai.com/p/detailscribe/で入手でき、相互作用が豊富な画像生成の将来の調査を促進します。

要約(オリジナル)

Images not only depict objects but also encapsulate rich interactions between them. However, generating faithful and high-fidelity images involving multiple entities interacting with each other, is a long-standing challenge. While pre-trained text-to-image models are trained on large-scale datasets to follow diverse text instructions, they struggle to generate accurate interactions, likely due to the scarcity of training data for uncommon object interactions. This paper introduces InterActing, an interaction-focused dataset with 1000 fine-grained prompts covering three key scenarios: (1) functional and action-based interactions, (2) compositional spatial relationships, and (3) multi-subject interactions. To address interaction generation challenges, we propose a decomposition-augmented refinement procedure. Our approach, DetailScribe, built on Stable Diffusion 3.5, leverages LLMs to decompose interactions into finer-grained concepts, uses a VLM to critique generated images, and applies targeted interventions within the diffusion process in refinement. Automatic and human evaluations show significantly improved image quality, demonstrating the potential of enhanced inference strategies. Our dataset and code are available at https://concepts-ai.com/p/detailscribe/ to facilitate future exploration of interaction-rich image generation.

arxiv情報

著者 Xinyi Gu,Jiayuan Mao
発行日 2025-04-11 17:24:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Generating Fine Details of Entity Interactions はコメントを受け付けていません

EMO-X: Efficient Multi-Person Pose and Shape Estimation in One-Stage

要約

表現力豊かな人間のポーズおよび形状推定(EHPS)は、単眼画像からの人間のポーズ、手のジェスチャー、表情を共同で推定することを目的としています。
既存の方法は、主に変圧器ベースのアーキテクチャに依存しており、それは自己関節における二次的な複雑さに悩まされており、特にマルチパーソンシナリオではかなりの計算オーバーヘッドにつながります。
最近、マンバは、その効率的なグローバルモデリング機能により、トランスの有望な代替手段として浮上しています。
ただし、正確なEHPに不可欠な、きめ細かい局所依存関係をキャプチャすることは限られたままです。
これらの問題に対処するために、マルチパーソンEHPの効率的なマルチパーソン1ステージモデルであるEMO-Xを提案します。
具体的には、グローバルコンテキストをスケルトンを意識したローカル機能と統合して、ヒトのトークンを繰り返し強化するスキャンベースのグローバルローカルデコーダー(SGLD)を探索します。
私たちのEMO-Xは、Mambaの優れたグローバルモデリング機能を活用し、スケルトンを認識している局所洗練のための局所的な双方向スキャンメカニズムを設計しています。
包括的な実験は、EMO-Xが効率と精度の間の優れたバランスをとることを示しています。
特に、計算の複雑さが大幅に削減され、最先端の(SOTA)方法と比較して69.8%の推論時間が必要になり、それらのほとんどを精度で上回ります。

要約(オリジナル)

Expressive Human Pose and Shape Estimation (EHPS) aims to jointly estimate human pose, hand gesture, and facial expression from monocular images. Existing methods predominantly rely on Transformer-based architectures, which suffer from quadratic complexity in self-attention, leading to substantial computational overhead, especially in multi-person scenarios. Recently, Mamba has emerged as a promising alternative to Transformers due to its efficient global modeling capability. However, it remains limited in capturing fine-grained local dependencies, which are essential for precise EHPS. To address these issues, we propose EMO-X, the Efficient Multi-person One-stage model for multi-person EHPS. Specifically, we explore a Scan-based Global-Local Decoder (SGLD) that integrates global context with skeleton-aware local features to iteratively enhance human tokens. Our EMO-X leverages the superior global modeling capability of Mamba and designs a local bidirectional scan mechanism for skeleton-aware local refinement. Comprehensive experiments demonstrate that EMO-X strikes an excellent balance between efficiency and accuracy. Notably, it achieves a significant reduction in computational complexity, requiring 69.8% less inference time compared to state-of-the-art (SOTA) methods, while outperforming most of them in accuracy.

arxiv情報

著者 Haohang Jian,Jinlu Zhang,Junyi Wu,Zhigang Tu
発行日 2025-04-11 17:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EMO-X: Efficient Multi-Person Pose and Shape Estimation in One-Stage はコメントを受け付けていません

Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images

要約

マルチモーダルLLMS(MLLM)を使用してシステムを提示して、時間的変化のパターンを発見することを目的として、さまざまな時期に数千万の画像がキャプチャされた大きなデータベースを分析します。
具体的には、一定の期間にわたって都市全体で頻繁に共発生する変化(「傾向」)を獲得することを目指しています。
以前の視覚分析とは異なり、分析は、事前に決められたターゲット被験者やトレーニングラベルなしで、オープンエンドのクエリ(たとえば、「都市の頻繁な種類の変更は何ですか?」)に答えます。
これらのプロパティは、以前の学習ベースまたは監視なしの視覚分析ツールを不適切にキャストします。
MLLMSを、オープンエンドのセマンティック理解機能のための新しいツールとして識別します。
しかし、私たちのデータセットは、MLLMがコンテキストとして摂取するには4桁大きすぎます。
そこで、大規模な視覚分析の問題をより扱いやすいサブ問題に分解するボトムアップ手順を導入します。
各サブ問題に対してMLLMベースのソリューションを慎重に設計します。
私たちのシステムでの実験とアブレーション研究中、私たちはそれがベースラインを大幅に上回ることがわかり、大都市で撮影された画像から興味深いトレンドを発見することができます(例:「屋外ダイニングの追加」、「青」など)。
https://boyangdeng.com/visual-chroniclesでより多くの結果とインタラクティブなデモをご覧ください。

要約(オリジナル)

We present a system using Multimodal LLMs (MLLMs) to analyze a large database with tens of millions of images captured at different times, with the aim of discovering patterns in temporal changes. Specifically, we aim to capture frequent co-occurring changes (‘trends’) across a city over a certain period. Unlike previous visual analyses, our analysis answers open-ended queries (e.g., ‘what are the frequent types of changes in the city?’) without any predetermined target subjects or training labels. These properties cast prior learning-based or unsupervised visual analysis tools unsuitable. We identify MLLMs as a novel tool for their open-ended semantic understanding capabilities. Yet, our datasets are four orders of magnitude too large for an MLLM to ingest as context. So we introduce a bottom-up procedure that decomposes the massive visual analysis problem into more tractable sub-problems. We carefully design MLLM-based solutions to each sub-problem. During experiments and ablation studies with our system, we find it significantly outperforms baselines and is able to discover interesting trends from images captured in large cities (e.g., ‘addition of outdoor dining,’, ‘overpass was painted blue,’ etc.). See more results and interactive demos at https://boyangdeng.com/visual-chronicles.

arxiv情報

著者 Boyang Deng,Songyou Peng,Kyle Genova,Gordon Wetzstein,Noah Snavely,Leonidas Guibas,Thomas Funkhouser
発行日 2025-04-11 17:55:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY | Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images はコメントを受け付けていません