Explainable AI-Enhanced Deep Learning for Pumpkin Leaf Disease Detection: A Comparative Analysis of CNN Architectures

要約

カボチャの葉の病気は、農業の生産性に対する重大な脅威であり、効果的な管理のためにタイムリーかつ正確な診断を必要とします。
従来の識別方法は面倒で、人為的エラーの影響を受けやすく、自動化されたソリューションの必要性を強調しています。
この研究では、5つのカテゴリに分離された2000の高解像度画像で構成される「カボチャ葉疾患データセット」に採用されています。
鈍いカビ、粉乳カビ、モザイク病、細菌の葉のスポット、健康な葉。
データセットは、モデルトレーニングの強力な表現を確保するために、いくつかの農業分野から厳密に組み立てられました。
Densenet201、Densenet121、Densenet169、Xception、Resnet50、ResNet101、InceptionResnetv2など、多くの熟練した深い学習アーキテクチャを調査し、ResNet50が最も効果的に機能し、精度が90.5%で、同等の精度、Recall、F1-Scoreが最も効果的であることが観察されました。
Grad-Cam、Grad-Cam ++、Score-Cam、Layer-Camなどの説明可能なAI(XAI)アプローチを使用して、モデルの意思決定プロセスの意味のある表現を提供し、自動疾患診断の理解と信頼を向上させました。
これらの発見は、Resnet50のカボチャ葉疾患の検出に革命をもたらす可能性を示しており、より早く、より正確な治療を可能にします。

要約(オリジナル)

Pumpkin leaf diseases are significant threats to agricultural productivity, requiring a timely and precise diagnosis for effective management. Traditional identification methods are laborious and susceptible to human error, emphasizing the necessity for automated solutions. This study employs on the ‘Pumpkin Leaf Disease Dataset’, that comprises of 2000 high-resolution images separated into five categories. Downy mildew, powdery mildew, mosaic disease, bacterial leaf spot, and healthy leaves. The dataset was rigorously assembled from several agricultural fields to ensure a strong representation for model training. We explored many proficient deep learning architectures, including DenseNet201, DenseNet121, DenseNet169, Xception, ResNet50, ResNet101 and InceptionResNetV2, and observed that ResNet50 performed most effectively, with an accuracy of 90.5% and comparable precision, recall, and F1-Score. We used Explainable AI (XAI) approaches like Grad-CAM, Grad-CAM++, Score-CAM, and Layer-CAM to provide meaningful representations of model decision-making processes, which improved understanding and trust in automated disease diagnostics. These findings demonstrate ResNet50’s potential to revolutionize pumpkin leaf disease detection, allowing for earlier and more accurate treatments.

arxiv情報

著者 Md. Arafat Alam Khandaker,Ziyan Shirin Raha,Shifat Islam,Tashreef Muhammad
発行日 2025-04-10 17:35:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Explainable AI-Enhanced Deep Learning for Pumpkin Leaf Disease Detection: A Comparative Analysis of CNN Architectures はコメントを受け付けていません

Zero-Shot Low-dose CT Denoising via Sinogram Flicking

要約

多くの低用量のCTイメージング方法は、監視された学習に依存しており、これには多数のペアのノイズが多いクリーンな画像が必要です。
ただし、臨床診療でペアの画像を取得することは困難です。
この問題に対処するために、ゼロショットの自己監視方法は、ZS-N2Nなどの単一の画像内の情報のみを使用してネットワークを除去します。
ただし、これらの方法は、画像解像度を分解するダウンサンプリング操作を使用していることがよくあります。
さらに、トレーニングデータセットは本質的に画像自体に制約されます。
このホワイトペーパーでは、単一の画像内で動作するが、ランダムコンジュゲートレイマッチングを介して多くのコピーを生成するシノグラムフリックに基づいて、ゼロショット低用量CTイメージング方法を提案します。
具体的には、2つのコンジュゲートX線鉛筆ビームが同じ経路を測定します。
期待値は同一である必要がありますが、測定中はノイズレベルは異なります。
シノグラムドメインでコンジュゲートX線の一部をランダムに交換することにより、一貫したコンテンツがあるがさまざまなノイズパターンを持つシノグラムの大きなセットを生成します。
動的に表示されると、これらのシノグラムは、それらの同一の構造含有量のためにちらつき効果を示しますが、ノイズパターンが異なるため、シノグラムという用語がフリッキングします。
ZS-NSNから適応した軽量モデルを使用して、同じコンテンツであるが異なるノイズ分布を使用して、シノグラムのペアでネットワークをトレーニングします。
このプロセスは、最終結果を得るために繰り返されます。
シミュレーション研究では、我々の方法がZS-N2Nなどの最先端のアプローチよりも優れていることが示されています。

要約(オリジナル)

Many low-dose CT imaging methods rely on supervised learning, which requires a large number of paired noisy and clean images. However, obtaining paired images in clinical practice is challenging. To address this issue, zero-shot self-supervised methods train denoising networks using only the information within a single image, such as ZS-N2N. However, these methods often employ downsampling operations that degrade image resolution. Additionally, the training dataset is inherently constrained to the image itself. In this paper, we propose a zero-shot low-dose CT imaging method based on sinogram flicking, which operates within a single image but generates many copies via random conjugate ray matching. Specifically, two conjugate X-ray pencil beams measure the same path; their expected values should be identical, while their noise levels vary during measurements. By randomly swapping portions of the conjugate X-rays in the sinogram domain, we generate a large set of sinograms with consistent content but varying noise patterns. When displayed dynamically, these sinograms exhibit a flickering effect due to their identical structural content but differing noise patterns-hence the term sinogram flicking. We train the network on pairs of sinograms with the same content but different noise distributions using a lightweight model adapted from ZS-NSN. This process is repeated to obtain the final results. A simulation study demonstrates that our method outperforms state-of-the-art approaches such as ZS-N2N.

arxiv情報

著者 Yongyi Shi,Ge Wang
発行日 2025-04-10 17:42:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Zero-Shot Low-dose CT Denoising via Sinogram Flicking はコメントを受け付けていません

SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

要約

この論文では、知識の蒸留なしで純粋に自己改善に依存して、トレーニングサンプルが大幅に少ない視覚的推論を強化する効果的な方法を提示します。
私たちの重要な洞察は、強化微調整(RFT)中のデータをトレーニングすることの難しさが重要であることです。
適切に挑戦するサンプルは、データセットが小さい場合でも、推論機能を大幅に高めることができます。
直感的であるにもかかわらず、主な課題はサンプルの難易度を正確に定量化して、効果的なデータフィルタリングを有効にしています。
この目的のために、それを達成するためにモンテカルロツリー検索(MCTS)を再利用する新しい方法を提案します。
キュレーションされた70Kオープンソーストレーニングサンプルから始めて、各問題を解決するためにVLMSが必要とする反復回数に基づいてサンプルの難易度を定量化するMCTSベースの選択方法を導入します。
MCTSのこの明示的な段階的な推論により、モデルは、本当に挑戦的なサンプルをより長くよりよく識別するためにモデルを実施します。
QWEN2.5-VL-7B-InstructでRFTを実行するために11Kサンプルをフィルタリングおよび保持し、最終モデルであるThinkLite-VLを獲得します。
8つのベンチマークの評価結果は、ThinkLite-VLがQWEN2.5-VL-7B-Instructの平均パフォーマンスを7%改善し、知識蒸留なしの11Kトレーニングサンプルのみを使用していることを示しています。
これにより、既存のすべての7Bレベルの推論VLMと、精度ベースのフィルタリングなどの古典的な選択方法を使用するかなり匹敵するベースラインが大幅に上回ります。
特に、Mathvistaでは、ThinkLite-VL-7Bは75.1のSOTA精度を達成し、QWEN2.5-VL-72B、GPT-4O、およびO1を上回ります。
コード、データ、モデルはhttps://github.com/si0wang/thinklite-vlで入手できます。

要約(オリジナル)

In this paper, we present an effective method to enhance visual reasoning with significantly fewer training samples, relying purely on self-improvement with no knowledge distillation. Our key insight is that the difficulty of training data during reinforcement fine-tuning (RFT) is critical. Appropriately challenging samples can substantially boost reasoning capabilities even when the dataset is small. Despite being intuitive, the main challenge remains in accurately quantifying sample difficulty to enable effective data filtering. To this end, we propose a novel way of repurposing Monte Carlo Tree Search (MCTS) to achieve that. Starting from our curated 70k open-source training samples, we introduce an MCTS-based selection method that quantifies sample difficulty based on the number of iterations required by the VLMs to solve each problem. This explicit step-by-step reasoning in MCTS enforces the model to think longer and better identifies samples that are genuinely challenging. We filter and retain 11k samples to perform RFT on Qwen2.5-VL-7B-Instruct, resulting in our final model, ThinkLite-VL. Evaluation results on eight benchmarks show that ThinkLite-VL improves the average performance of Qwen2.5-VL-7B-Instruct by 7%, using only 11k training samples with no knowledge distillation. This significantly outperforms all existing 7B-level reasoning VLMs, and our fairly comparable baselines that use classic selection methods such as accuracy-based filtering. Notably, on MathVista, ThinkLite-VL-7B achieves the SoTA accuracy of 75.1, surpassing Qwen2.5-VL-72B, GPT-4o, and O1. Our code, data, and model are available at https://github.com/si0wang/ThinkLite-VL.

arxiv情報

著者 Xiyao Wang,Zhengyuan Yang,Chao Feng,Hongjin Lu,Linjie Li,Chung-Ching Lin,Kevin Lin,Furong Huang,Lijuan Wang
発行日 2025-04-10 17:49:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement はコメントを受け付けていません

Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos

要約

360 {\ deg}ビデオは、ダイナミックな視覚世界を表す有望な媒体として浮上しています。
標準的なカメラの「トンネルビジョン」と比較して、それらの境界のない視野は、私たちの周囲のより完全な視点を提供します。
既存のビデオモデルは標準的なビデオの制作に優れていますが、完全なパノラマビデオを生成する能力はとらえどころのないままです。
この論文では、ビデオから360 {\ deg}の生成のタスクを調査します。パースペクティブビデオを入力として考慮して、私たちの目標は、元のビデオと一致する完全なパノラマビデオを生成することです。
従来のビデオ生成タスクとは異なり、出力の視野は大幅に大きく、モデルは、シーンの空間レイアウトと、時空間の一貫性を維持するオブジェクトのダイナミクスの両方を深く理解する必要があります。
これらの課題に対処するために、最初にオンラインで入手可能な豊富な360 {\ deg}ビデオを活用し、ペアワイズトレーニングデータをキュレートするための高品質のデータフィルタリングパイプラインを開発します。
次に、学習プロセスを促進し、360 {\ deg}ビデオ生成の品質を向上させるために、一連のジオメトリおよびモーションアウェア操作を慎重に設計します。
実験結果は、私たちのモデルがワイルドの観点からも現実的でコヒーレントな360 {\ deg}ビデオを生成できることを示しています。
さらに、ビデオの安定化、カメラの視点コントロール、インタラクティブな視覚的質問の回答など、潜在的なアプリケーションを紹介します。

要約(オリジナル)

360{\deg} videos have emerged as a promising medium to represent our dynamic visual world. Compared to the ‘tunnel vision’ of standard cameras, their borderless field of view offers a more complete perspective of our surroundings. While existing video models excel at producing standard videos, their ability to generate full panoramic videos remains elusive. In this paper, we investigate the task of video-to-360{\deg} generation: given a perspective video as input, our goal is to generate a full panoramic video that is consistent with the original video. Unlike conventional video generation tasks, the output’s field of view is significantly larger, and the model is required to have a deep understanding of both the spatial layout of the scene and the dynamics of objects to maintain spatio-temporal consistency. To address these challenges, we first leverage the abundant 360{\deg} videos available online and develop a high-quality data filtering pipeline to curate pairwise training data. We then carefully design a series of geometry- and motion-aware operations to facilitate the learning process and improve the quality of 360{\deg} video generation. Experimental results demonstrate that our model can generate realistic and coherent 360{\deg} videos from in-the-wild perspective video. In addition, we showcase its potential applications, including video stabilization, camera viewpoint control, and interactive visual question answering.

arxiv情報

著者 Rundong Luo,Matthew Wallingford,Ali Farhadi,Noah Snavely,Wei-Chiu Ma
発行日 2025-04-10 17:51:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos はコメントを受け付けていません

MARS: a Multimodal Alignment and Ranking System for Few-Shot Segmentation

要約

現在の少数のショットセグメンテーションの文献には、クエリとサンプル画像の視覚的類似性を超えて、最適ではない予測につながるマスク選択方法がありません。
マルチモーダルキューを活用してマスクの提案を堅牢にフィルタリングおよびマージするプラグアンドプレイランキングシステムであるMARSを提示します。
単一のクエリ画像のマスク予測のセットから始めると、結果を改善するためにそれらを採点、フィルタリング、マージします。
提案は、ローカルおよびグローバルレベルで計算されたマルチモーダルスコアを使用して評価されます。
COCO-20I、PASCAL-5I、LVIS-92I、およびFSS-1000に関する広範な実験は、4つのスコアリングコンポーネントすべてを統合することが堅牢なランキングに不可欠であり、貢献を検証することを示しています。
火星はさまざまなマスク提案システムと楽に統合できるため、幅広いトップパフォーマーの方法に展開し、複数の既存のベンチマークで新しい最先端の結果を達成します。
コードは受け入れられると利用可能になります。

要約(オリジナル)

Current Few Shot Segmentation literature lacks a mask selection method that goes beyond visual similarity between the query and example images, leading to suboptimal predictions. We present MARS, a plug-and-play ranking system that leverages multimodal cues to filter and merge mask proposals robustly. Starting from a set of mask predictions for a single query image, we score, filter, and merge them to improve results. Proposals are evaluated using multimodal scores computed at local and global levels. Extensive experiments on COCO-20i, Pascal-5i, LVIS-92i, and FSS-1000 demonstrate that integrating all four scoring components is crucial for robust ranking, validating our contribution. As MARS can be effortlessly integrated with various mask proposal systems, we deploy it across a wide range of top-performer methods and achieve new state-of-the-art results on multiple existing benchmarks. Code will be available upon acceptance.

arxiv情報

著者 Nico Catalano,Stefano Samele,Paolo Pertino,Matteo Matteucci
発行日 2025-04-10 17:53:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MARS: a Multimodal Alignment and Ranking System for Few-Shot Segmentation はコメントを受け付けていません

HoloPart: Generative 3D Part Amodal Segmentation

要約

3D部品のアモーダルセグメンテーション – 3D形状を完全で意味的に意味のある部分に分解しても、閉塞した場合でも – は、3Dコンテンツの作成と理解のための挑戦的であるが重要なタスクです。
既存の3Dパーツセグメンテーションメソッドは、目に見える表面パッチのみを識別し、ユーティリティを制限します。
2D Amodalセグメンテーションに触発されて、この新しいタスクを3Dドメインに紹介し、実用的な2段階のアプローチを提案し、閉塞した3Dジオメトリを推測する重要な課題に対処し、グローバルな形状の一貫性を維持し、限られたトレーニングデータで多様な形状を処理します。
まず、既存の3D部品セグメンテーションを活用して、初期の不完全な部品セグメントを取得します。
第二に、新しい拡散ベースのモデルであるHolopartを紹介して、これらのセグメントを完全な3D部品にします。
Holopartは、地元の注意を払って専門的なアーキテクチャを利用して、細粒の部分形状とグローバルな形状のコンテキストの注意をキャプチャして、全体的な形状の一貫性を確保します。
ABOおよびPartobjaverse-Tinyデータセットに基づいて新しいベンチマークを導入し、Holopartが最先端の形状完了方法を大幅に上回ることを示します。
Holopartを既存のセグメンテーション技術に組み込むことにより、3D部品のAmodalセグメンテーションで有望な結果を達成し、ジオメトリの編集、アニメーション、およびマテリアル割り当てのアプリケーションの新しい手段を開きます。

要約(オリジナル)

3D part amodal segmentation–decomposing a 3D shape into complete, semantically meaningful parts, even when occluded–is a challenging but crucial task for 3D content creation and understanding. Existing 3D part segmentation methods only identify visible surface patches, limiting their utility. Inspired by 2D amodal segmentation, we introduce this novel task to the 3D domain and propose a practical, two-stage approach, addressing the key challenges of inferring occluded 3D geometry, maintaining global shape consistency, and handling diverse shapes with limited training data. First, we leverage existing 3D part segmentation to obtain initial, incomplete part segments. Second, we introduce HoloPart, a novel diffusion-based model, to complete these segments into full 3D parts. HoloPart utilizes a specialized architecture with local attention to capture fine-grained part geometry and global shape context attention to ensure overall shape consistency. We introduce new benchmarks based on the ABO and PartObjaverse-Tiny datasets and demonstrate that HoloPart significantly outperforms state-of-the-art shape completion methods. By incorporating HoloPart with existing segmentation techniques, we achieve promising results on 3D part amodal segmentation, opening new avenues for applications in geometry editing, animation, and material assignment.

arxiv情報

著者 Yunhan Yang,Yuan-Chen Guo,Yukun Huang,Zi-Xin Zou,Zhipeng Yu,Yangguang Li,Yan-Pei Cao,Xihui Liu
発行日 2025-04-10 17:53:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HoloPart: Generative 3D Part Amodal Segmentation はコメントを受け付けていません

GenEAva: Generating Cartoon Avatars with Fine-Grained Facial Expressions from Realistic Diffusion-based Faces

要約

漫画のアバターは、ソーシャルメディア、オンラインチューター、ゲームなど、さまざまなアプリケーションで広く使用されています。
しかし、既存の漫画のアバターデータセットと生成方法は、細粒の表情を持つ非常に表現力豊かなアバターを提示するのに苦労しており、多くの場合、実際のアイデンティティからインスピレーションを受け、プライバシーの懸念を引き起こします。
これらの課題に対処するために、細粒の表情を持つ高品質の漫画アバターを生成するための新しいフレームワークであるGeneavaを提案します。
私たちのアプローチは、非常に詳細で表現力のある表情を統合するための最先端のテキストからイメージまでの拡散モデルを微調整します。
次に、アイデンティティと表現の両方を保存しながら、これらの現実的な顔を漫画アバターに変換するスタイリライゼーションモデルを組み込みます。
このフレームワークを活用すると、最初の表現力豊かな漫画アバターデータセットであるGeneAva 1.0を紹介します。これは、135のきめの細かい表情をキャプチャするように特別に設計されており、性別、人種グループ、年齢範囲にわたってバランスの取れた分布を備えた13,230の表現力豊かな漫画アバターを特徴としています。
微調整されたモデルは、最先端のテキストからイメージまでの拡散モデルSDXLよりも表現力のある顔を生成することを実証します。
また、私たちのフレームワークによって生成された漫画のアバターには、微調整データの記憶されたアイデンティティが含まれていないことも確認しています。
提案されたフレームワークとデータセットは、漫画アバター世代の将来の研究のための多様で表現力のあるベンチマークを提供します。

要約(オリジナル)

Cartoon avatars have been widely used in various applications, including social media, online tutoring, and gaming. However, existing cartoon avatar datasets and generation methods struggle to present highly expressive avatars with fine-grained facial expressions and are often inspired from real-world identities, raising privacy concerns. To address these challenges, we propose a novel framework, GenEAva, for generating high-quality cartoon avatars with fine-grained facial expressions. Our approach fine-tunes a state-of-the-art text-to-image diffusion model to synthesize highly detailed and expressive facial expressions. We then incorporate a stylization model that transforms these realistic faces into cartoon avatars while preserving both identity and expression. Leveraging this framework, we introduce the first expressive cartoon avatar dataset, GenEAva 1.0, specifically designed to capture 135 fine-grained facial expressions, featuring 13,230 expressive cartoon avatars with a balanced distribution across genders, racial groups, and age ranges. We demonstrate that our fine-tuned model generates more expressive faces than the state-of-the-art text-to-image diffusion model SDXL. We also verify that the cartoon avatars generated by our framework do not include memorized identities from fine-tuning data. The proposed framework and dataset provide a diverse and expressive benchmark for future research in cartoon avatar generation.

arxiv情報

著者 Hao Yu,Rupayan Mallick,Margrit Betke,Sarah Adel Bargal
発行日 2025-04-10 17:54:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | GenEAva: Generating Cartoon Avatars with Fine-Grained Facial Expressions from Realistic Diffusion-based Faces はコメントを受け付けていません

Taming Data and Transformers for Scalable Audio Generation

要約

アンビエントサウンドジェネレーターのスケーラビリティは、データ不足、キャプションの品質が不十分であり、モデルアーキテクチャの限られたスケーラビリティによって妨げられます。
この作業は、データとモデルのスケーリングの両方を進めることにより、これらの課題に対処します。
まず、アンビエントオーディオ生成に合わせて調整された効率的でスケーラブルなデータセットコレクションパイプラインを提案し、4,700万を超えるクリップを備えた最大の周囲オーディオテキストデータセットであるAutORECAP-XLをもたらします。
高品質のテキストアノテーションを提供するために、高品質の自動オーディオキャプションモデルであるAutoCAPを提案します。
Q-Formerモジュールを採用し、オーディオメタデータを活用することにより、AutoCAPはキャプション品質を大幅に向上させ、以前のキャプションモデルで$ 3.2 \%$のサイダースコアに達します。
最後に、最大1.25Bのパラメーターをスケーリングするスケーラブルな変圧器ベースのオーディオ生成アーキテクチャであるGenaUを提案します。
合成キャプションとモデルサイズのスケーリングを使用したデータスケーリングの利点を示します。
同様のサイズとデータスケールでトレーニングされたベースラインオーディオジェネレーターと比較した場合、GenauはFADスコアで4.7 \%$ $ 4.7 \%$、11.1 \%$ in、$ 13.5 \%$の大幅な改善を獲得します。
コード、モデルチェックポイント、およびデータセットは公開されています。

要約(オリジナル)

The scalability of ambient sound generators is hindered by data scarcity, insufficient caption quality, and limited scalability in model architecture. This work addresses these challenges by advancing both data and model scaling. First, we propose an efficient and scalable dataset collection pipeline tailored for ambient audio generation, resulting in AutoReCap-XL, the largest ambient audio-text dataset with over 47 million clips. To provide high-quality textual annotations, we propose AutoCap, a high-quality automatic audio captioning model. By adopting a Q-Former module and leveraging audio metadata, AutoCap substantially enhances caption quality, reaching a CIDEr score of $83.2$, a $3.2\%$ improvement over previous captioning models. Finally, we propose GenAu, a scalable transformer-based audio generation architecture that we scale up to 1.25B parameters. We demonstrate its benefits from data scaling with synthetic captions as well as model size scaling. When compared to baseline audio generators trained at similar size and data scale, GenAu obtains significant improvements of $4.7\%$ in FAD score, $11.1\%$ in IS, and $13.5\%$ in CLAP score. Our code, model checkpoints, and dataset are publicly available.

arxiv情報

著者 Moayed Haji-Ali,Willi Menapace,Aliaksandr Siarohin,Guha Balakrishnan,Sergey Tulyakov,Vicente Ordonez
発行日 2025-04-10 17:55:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | Taming Data and Transformers for Scalable Audio Generation はコメントを受け付けていません

InteractAvatar: Modeling Hand-Face Interaction in Photorealistic Avatars with Deformable Gaussians

要約

デジタルアバターのコミュニティからの関心が高まっているため、コミュニケーションにおける表現やジェスチャーの重要性と相まって、自然なアバターの行動をモデル化することで、テレコンフェンス、ゲーム、AR/VRなどの多くの業界で重要な課題となっています。
人間の手は、環境と相互作用するための主要なツールであり、現実的な人間の行動モデリングに不可欠ですが、既存の3Dハンドとヘッドアバターモデルは、手と顔の間などの手体相互作用の重要な側面を見落としていることがよくあります。
Dynamic Handと非剛性のハンドフェイスの相互作用のフォトリアリックな外観を忠実にキャプチャする最初のモデルであるInterateTavatarを提示します。
テンプレートモデルと3Dガウススプラッティング、および動的洗練モジュールを組み合わせた、私たちの新しい動的ガウスハンドモデルは、ポーズ依存の変化をキャプチャします。
アーティキュレーション中に発生する細かいしわと複雑な影。
重要なことに、私たちのハンドフェイスインタラクションモジュールは、一般的なジェスチャーの根底にある微妙なジオメトリと外観のダイナミクスをモデル化しています。
新しいビューの統合、自己再現、および相互同一性の再現の実験を通じて、InteractTavatarがモノクラーまたはマルチビューのビデオからの手と握力の相互作用を高フィディリティの詳細で再構築し、新しいポーズでアニメーション化できることを実証します。

要約(オリジナル)

With the rising interest from the community in digital avatars coupled with the importance of expressions and gestures in communication, modeling natural avatar behavior remains an important challenge across many industries such as teleconferencing, gaming, and AR/VR. Human hands are the primary tool for interacting with the environment and essential for realistic human behavior modeling, yet existing 3D hand and head avatar models often overlook the crucial aspect of hand-body interactions, such as between hand and face. We present InteracttAvatar, the first model to faithfully capture the photorealistic appearance of dynamic hand and non-rigid hand-face interactions. Our novel Dynamic Gaussian Hand model, combining template model and 3D Gaussian Splatting as well as a dynamic refinement module, captures pose-dependent change, e.g. the fine wrinkles and complex shadows that occur during articulation. Importantly, our hand-face interaction module models the subtle geometry and appearance dynamics that underlie common gestures. Through experiments of novel view synthesis, self reenactment and cross-identity reenactment, we demonstrate that InteracttAvatar can reconstruct hand and hand-face interactions from monocular or multiview videos with high-fidelity details and be animated with novel poses.

arxiv情報

著者 Kefan Chen,Sergiu Oprea,Justin Theiss,Sreyas Mohan,Srinath Sridhar,Aayush Prakash
発行日 2025-04-10 17:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | InteractAvatar: Modeling Hand-Face Interaction in Photorealistic Avatars with Deformable Gaussians はコメントを受け付けていません

Scaling Laws for Native Multimodal Models Scaling Laws for Native Multimodal Models

要約

マルチモーダル信号を通じて世界を効果的に知覚できる汎用モデルの構築は、長年の目標となっています。
現在のアプローチでは、VisionエンコーダーをLLMに接続したり、マルチモーダルトレーニングを継続するなど、事前に訓練されたコンポーネントを個別に統合することが含まれます。
そのようなアプローチは顕著なサンプル効率を示しますが、そのような延性アーキテクチャが本質的に優れているかどうかは未解決の問題のままです。
この作業では、ネイティブマルチモーダルモデル(NMMS)のアーキテクチャデザイン(すべてのモダリティでゼロから訓練された設計)を再訪し、さまざまなアーキテクチャとトレーニング混合物を備えた457の訓練されたモデルにまたがる広範なスケーリング法の研究を実施します。
私たちの調査は、画像エンコーダーに依存していない早期融合アーキテクチャに対する延性アーキテクチャに対する固有の利点はないことを明らかにしています。
それどころか、より低いパラメーターカウントで早期融合を示すパフォーマンスはより強力であり、トレーニングがより効率的であり、展開しやすいです。
早期融合アーキテクチャの強力なパフォーマンスに動機付けられて、専門家(MOE)の混合物を組み込むことで、モダリティ固有の重みを学習するモデルが可能になり、パフォーマンスが大幅に向上することが示されます。

要約(オリジナル)

Building general-purpose models that can effectively perceive the world through multimodal signals has been a long-standing goal. Current approaches involve integrating separately pre-trained components, such as connecting vision encoders to LLMs and continuing multimodal training. While such approaches exhibit remarkable sample efficiency, it remains an open question whether such late-fusion architectures are inherently superior. In this work, we revisit the architectural design of native multimodal models (NMMs)–those trained from the ground up on all modalities–and conduct an extensive scaling laws study, spanning 457 trained models with different architectures and training mixtures. Our investigation reveals no inherent advantage to late-fusion architectures over early-fusion ones, which do not rely on image encoders. On the contrary, early-fusion exhibits stronger performance at lower parameter counts, is more efficient to train, and is easier to deploy. Motivated by the strong performance of the early-fusion architectures, we show that incorporating Mixture of Experts (MoEs) allows for models that learn modality-specific weights, significantly enhancing performance.

arxiv情報

著者 Mustafa Shukor,Enrico Fini,Victor Guilherme Turrisi da Costa,Matthieu Cord,Joshua Susskind,Alaaeldin El-Nouby
発行日 2025-04-10 17:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Scaling Laws for Native Multimodal Models Scaling Laws for Native Multimodal Models はコメントを受け付けていません