JPEG Inspired Deep Learning

要約

従来、JPEG 圧縮などの非可逆画像圧縮はディープ ニューラル ネットワーク (DNN) のパフォーマンスに悪影響を与えると考えられてきましたが、最近の研究では、巧妙に作成された JPEG 圧縮によって実際にディープ ラーニングのパフォーマンスが向上することが示されています。
(DL)。
これに触発されて、私たちは、基礎となる DNN アーキテクチャの前にトレーニング可能な JPEG 圧縮層を付加する新しい DL フレームワークである JPEG-DL を提案します。
JPEG 圧縮の量子化操作をトレーニング可能にするために、新しい微分可能なソフト量子化器が JPEG 層で採用され、量子化操作と基礎となる DNN が共同でトレーニングされます。
広範な実験により、標準 DL と比較して、JPEG-DL はさまざまなデータセットおよびモデル アーキテクチャにわたって精度が大幅に向上し、同時に敵対的攻撃に対する堅牢性が向上することが示されています。
特に、一部のきめの細かい画像分類データセットでは、JPEG-DL は予測精度を 20.9% も向上させることができます。
私たちのコードは https://github.com/JpegInspiredDl/JPEG-Inspired-DL.git で入手できます。

要約(オリジナル)

Although it is traditionally believed that lossy image compression, such as JPEG compression, has a negative impact on the performance of deep neural networks (DNNs), it is shown by recent works that well-crafted JPEG compression can actually improve the performance of deep learning (DL). Inspired by this, we propose JPEG-DL, a novel DL framework that prepends any underlying DNN architecture with a trainable JPEG compression layer. To make the quantization operation in JPEG compression trainable, a new differentiable soft quantizer is employed at the JPEG layer, and then the quantization operation and underlying DNN are jointly trained. Extensive experiments show that in comparison with the standard DL, JPEG-DL delivers significant accuracy improvements across various datasets and model architectures while enhancing robustness against adversarial attacks. Particularly, on some fine-grained image classification datasets, JPEG-DL can increase prediction accuracy by as much as 20.9%. Our code is available on https://github.com/JpegInspiredDl/JPEG-Inspired-DL.git.

arxiv情報

著者 Ahmed H. Salamah,Kaixiang Zheng,Yiwen Liu,En-Hui Yang
発行日 2024-10-09 17:23:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Comprehensive Performance Evaluation of YOLO11, YOLOv10, YOLOv9 and YOLOv8 on Detecting and Counting Fruitlet in Complex Orchard Environments

要約

この研究では、商業果樹園における緑色の果物の検出のために、YOLOv8、YOLOv9、YOLOv10、YOLO11 のすべての構成 (合計 22) で You Only Look Once (YOLO) オブジェクト検出アルゴリズムを広範囲に評価しました。
この研究では、Scifresh、Scilate、Honeycrisp、Cosmic Crisp の 4 つのリンゴ品種について、iPhone とマシン ビジョン センサーを使用した圃場での子実数の計数も検証されました。
評価された 22 の構成の中で、YOLO11s と YOLOv9 ジェランベースは、それぞれ 0.933 と 0.935 の mAP@50 スコアで他の構成を上回りました。
リコールに関しては、YOLOv9 ジェランベースが 0.899 で YOLOv9 構成の中で最も高い値を達成し、YOLO11m は 0.897 で YOLO11 バリアントを上回りました。
YOLO11n は最速のモデルとして登場し、わずか 2.4 ミリ秒の最速推論速度を達成し、主要な構成である YOLOv10n、YOLOv9 gelan-s、YOLOv8n の速度 (それぞれ 5.5、11.5、および 4.1 ミリ秒) を大幅に上回りました。
この比較評価は、YOLO11、YOLOv9、および YOLOv10 の強みを強調し、商業果樹園における子実の検出と可能な自動化に最適なモデルを選択するための重要な洞察を研究者に提供します。
関連するデータセットでのリアルタイム自動化関連の作業には、検出速度と画像処理速度が高い YOLO11n を使用することをお勧めします。
キーワード: YOLO11、YOLO11 オブジェクト検出、YOLOv10、YOLOv9、YOLOv8、You Only Look Once、小果実検出、緑の果物検出、青リンゴ検出、農業オートメーション、人工知能、深層学習、機械学習、ゼロショット検出

要約(オリジナル)

This study extensively evaluated You Only Look Once (YOLO) object detection algorithms across all configurations (total 22) of YOLOv8, YOLOv9, YOLOv10, and YOLO11 for green fruit detection in commercial orchards. The research also validated in-field fruitlet counting using an iPhone and machine vision sensors across four apple varieties: Scifresh, Scilate, Honeycrisp and Cosmic Crisp. Among the 22 configurations evaluated, YOLO11s and YOLOv9 gelan-base outperformed others with mAP@50 scores of 0.933 and 0.935 respectively. In terms of recall, YOLOv9 gelan-base achieved the highest value among YOLOv9 configurations at 0.899, while YOLO11m led YOLO11 variants with 0.897. YOLO11n emerged as the fastest model, achieving fastest inference speed of only 2.4 ms, significantly outpacing the leading configurations of YOLOv10n, YOLOv9 gelan-s, and YOLOv8n, with speeds of 5.5, 11.5, and 4.1 ms, respectively. This comparative evaluation highlights the strengths of YOLO11, YOLOv9, and YOLOv10, offering researchers essential insights to choose the best-suited model for fruitlet detection and possible automation in commercial orchards. For real-time automation related work in relevant datasets, we recommend using YOLO11n due to its high detection and image processing speed. Keywords: YOLO11, YOLO11 Object Detection, YOLOv10, YOLOv9, YOLOv8, You Only Look Once, Fruitlet Detection, Greenfruit Detection, Green Apple Detection, Agricultural Automation, Artificial Intelligence, Deep Learning, Machine Learning, Zero-shot Detection

arxiv情報

著者 Ranjan Sapkota,Zhichao Meng,Martin Churuvija,Xiaoqiang Du,Zenghong Ma,Manoj Karkee
発行日 2024-10-09 17:28:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology

要約

視覚言語ナビゲーション (VLN) として知られる、言語指示と視覚情報に基づいて目的の場所に移動できるエージェントの開発は、幅広い関心を集めています。
ほとんどの研究は地上のエージェントに焦点を当てていますが、UAV ベースの VLN はまだ比較的研究されていません。
UAV ビジョン言語ナビゲーションにおける最近の取り組みでは、主に地上ベースの VLN 設定が採用されており、事前に定義された個別のアクション スペースに依存し、エージェントの移動ダイナミクスに固有の差異や、地上環境と航空環境の間のナビゲーション タスクの複雑さは無視されています。
これらの格差と課題に対処するために、私たちはプラットフォーム、ベンチマーク、方法論の 3 つの観点からソリューションを提案します。
VLN タスクで現実的な UAV 軌道シミュレーションを可能にするために、多様な環境、現実的な飛行制御、広範なアルゴリズム サポートを特徴とする OpenUAV プラットフォームを提案します。
さらに、このプラットフォーム上で約 12,000 の軌道から構成されるターゲット指向の VLN データセットを構築し、現実的な UAV VLN タスク用に特別に設計された最初のデータセットとして機能します。
複雑な航空環境によってもたらされる課題に取り組むために、私たちは、UAV-Need-Help と呼ばれるアシスタントガイド付きの UAV オブジェクト検索ベンチマークを提案します。これは、UAV が現実的な VLN タスクをより適切に達成できるように、さまざまなレベルのガイダンス情報を提供します。
また、マルチビュー画像、タスクの説明、およびアシスタントの指示が与えられると、MLLM のマルチモーダル理解機能を活用して視覚情報とテキスト情報を共同処理し、階層的な軌道生成を実行する UAV ナビゲーション LLM も提案します。
私たちの方法の評価結果はベースラインモデルを大幅に上回っていますが、私たちの結果と人間のオペレーターによって達成された結果との間には依然としてかなりのギャップがあり、UAV-Need-Helpタスクによってもたらされる課題を浮き彫りにしています。

要約(オリジナル)

Developing agents capable of navigating to a target location based on language instructions and visual information, known as vision-language navigation (VLN), has attracted widespread interest. Most research has focused on ground-based agents, while UAV-based VLN remains relatively underexplored. Recent efforts in UAV vision-language navigation predominantly adopt ground-based VLN settings, relying on predefined discrete action spaces and neglecting the inherent disparities in agent movement dynamics and the complexity of navigation tasks between ground and aerial environments. To address these disparities and challenges, we propose solutions from three perspectives: platform, benchmark, and methodology. To enable realistic UAV trajectory simulation in VLN tasks, we propose the OpenUAV platform, which features diverse environments, realistic flight control, and extensive algorithmic support. We further construct a target-oriented VLN dataset consisting of approximately 12k trajectories on this platform, serving as the first dataset specifically designed for realistic UAV VLN tasks. To tackle the challenges posed by complex aerial environments, we propose an assistant-guided UAV object search benchmark called UAV-Need-Help, which provides varying levels of guidance information to help UAVs better accomplish realistic VLN tasks. We also propose a UAV navigation LLM that, given multi-view images, task descriptions, and assistant instructions, leverages the multimodal understanding capabilities of the MLLM to jointly process visual and textual information, and performs hierarchical trajectory generation. The evaluation results of our method significantly outperform the baseline models, while there remains a considerable gap between our results and those achieved by human operators, underscoring the challenge presented by the UAV-Need-Help task.

arxiv情報

著者 Xiangyu Wang,Donglin Yang,Ziqin Wang,Hohin Kwan,Jinyu Chen,Wenjun Wu,Hongsheng Li,Yue Liao,Si Liu
発行日 2024-10-09 17:29:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning

要約

言語は人間の動作の領域において重要な役割を果たします。
既存の方法は、モーション生成のために CLIP テキスト埋め込みに大きく依存していましたが、静止画像とテキストのペアに対する CLIP の事前トレーニングのため、言語とモーションを効果的に調整するには不十分でした。
この研究では、言語視覚からより適切な言語運動潜在空間に移行する、新しい言語運動事前訓練モデルである LaMP を紹介します。
モーション情報を提供するテキスト埋め込みを生成することで主要な制限に対処し、生成されたモーション シーケンスの関連性とセマンティクスを大幅に強化します。
LaMP を使用して、言語と動作の表現を調整して学習することで、テキストからモーションの生成、モーション テキストの取得、およびモーション キャプションの 3 つの主要なタスクを推進します。
生成には、CLIP の代わりに LaMP を利用してテキスト条件を提供し、自己回帰マスク予測は、トランスフォーマーでのランク崩壊なしでマスク モデリングを実現するように設計されています。
取得の場合、LaMP のモーション トランスフォーマーからのモーション フィーチャはクエリ トークンと対話してテキスト トランスフォーマーからテキスト フィーチャを取得し、その逆も同様です。
キャプションについては、言語情報を提供するモーション機能を備えた大規模な言語モデルを微調整して、強力なモーション キャプション モデルを開発します。
さらに、生成されたモーションとテキストの説明の整合性を評価するために、LaMP-BertScore メトリクスを導入します。
複数のデータセットに関する広範な実験結果は、3 つのタスクすべてにおいて以前の方法に比べて大幅な改善を示しています。
私たちのメソッドのコードは公開されます。

要約(オリジナル)

Language plays a vital role in the realm of human motion. Existing methods have largely depended on CLIP text embeddings for motion generation, yet they fall short in effectively aligning language and motion due to CLIP’s pretraining on static image-text pairs. This work introduces LaMP, a novel Language-Motion Pretraining model, which transitions from a language-vision to a more suitable language-motion latent space. It addresses key limitations by generating motion-informative text embeddings, significantly enhancing the relevance and semantics of generated motion sequences. With LaMP, we advance three key tasks: text-to-motion generation, motion-text retrieval, and motion captioning through aligned language-motion representation learning. For generation, we utilize LaMP to provide the text condition instead of CLIP, and an autoregressive masked prediction is designed to achieve mask modeling without rank collapse in transformers. For retrieval, motion features from LaMP’s motion transformer interact with query tokens to retrieve text features from the text transformer, and vice versa. For captioning, we finetune a large language model with the language-informative motion features to develop a strong motion captioning model. In addition, we introduce the LaMP-BertScore metric to assess the alignment of generated motions with textual descriptions. Extensive experimental results on multiple datasets demonstrate substantial improvements over previous methods across all three tasks. The code of our method will be made public.

arxiv情報

著者 Zhe Li,Weihao Yuan,Yisheng He,Lingteng Qiu,Shenhao Zhu,Xiaodong Gu,Weichao Shen,Yuan Dong,Zilong Dong,Laurence T. Yang
発行日 2024-10-09 17:33:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Topologically Faithful Multi-class Segmentation in Medical Images

要約

医用画像セグメンテーションにおけるトポロジカルな精度は、ネットワーク解析や血管内のフロー モデリング、細胞計数などの下流アプリケーションにとって非常に重要な特性です。
最近、方法論の大幅な進歩により、代数トポロジーからバイナリ セグメンテーションまで、十分に根拠のある概念がもたらされました。
ただし、これらのアプローチは、トポロジ エラーがよく発生するマルチクラス セグメンテーション シナリオでは十分に検討されていません。
我々は、永続性バーコードの誘導マッチングに基づく最近の Betti マッチング概念を拡張した、位相的に忠実なマルチクラス セグメンテーションのための一般的な損失関数を提案します。
N クラス セグメンテーション問題を N 個の単一クラス セグメンテーション タスクに投影すると、1 パラメーターの永続的相同性を使用できるようになり、ニューラル ネットワークのトレーニングが計算的に実行可能になります。
私たちは、非常に多様なトポロジ特性を持つ 4 つの医療データセットからなる包括的なセットで方法を検証します。
当社の損失定式化は、心臓、細胞、動脈静脈、ウィリス輪のセグメンテーションにおけるトポロジカルな正確性を大幅に強化します。

要約(オリジナル)

Topological accuracy in medical image segmentation is a highly important property for downstream applications such as network analysis and flow modeling in vessels or cell counting. Recently, significant methodological advancements have brought well-founded concepts from algebraic topology to binary segmentation. However, these approaches have been underexplored in multi-class segmentation scenarios, where topological errors are common. We propose a general loss function for topologically faithful multi-class segmentation extending the recent Betti matching concept, which is based on induced matchings of persistence barcodes. We project the N-class segmentation problem to N single-class segmentation tasks, which allows us to use 1-parameter persistent homology, making training of neural networks computationally feasible. We validate our method on a comprehensive set of four medical datasets with highly variant topological characteristics. Our loss formulation significantly enhances topological correctness in cardiac, cell, artery-vein, and Circle of Willis segmentation.

arxiv情報

著者 Alexander H. Berger,Nico Stucki,Laurin Lux,Vincent Buergin,Suprosanna Shit,Anna Banaszak,Daniel Rueckert,Ulrich Bauer,Johannes C. Paetzold
発行日 2024-10-09 17:44:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | コメントする

Continual Learning: Less Forgetting, More OOD Generalization via Adaptive Contrastive Replay

要約

機械学習モデルは、新しいクラスを学習するときに、以前に学習した知識を壊滅的に忘れてしまうという問題に悩まされることがよくあります。
この問題を軽減するために、さまざまな方法が提案されています。
ただし、以前のクラスのサンプルを保持するリハーサルベースの学習は、通常、優れたパフォーマンスを達成しますが、特定のインスタンスを記憶する傾向があり、配布外 (OOD) 一般化に苦労します。
これは、多くの場合、高い忘却率と貧弱な一般化につながります。
驚くべきことに、これらのメソッドの OOD 一般化機能はほとんど調査されていません。
このホワイトペーパーでは、この問題に焦点を当て、それに対処するための対照学習とデータ中心の原則にヒントを得た、シンプルかつ効果的な戦略を提案します。
Adaptive Contrastive Replay (ACR) を導入します。これは、二重最適化を採用してエンコーダーと分類器の両方を同時にトレーニングする方法です。
ACR は、クラスとタスクのバランスの取れた表現を保証しながら、誤って分類されたサンプルをリプレイ バッファーに適応的に設定します。
このように決定境界を改良することにより、ACR は安定性と可塑性のバランスを実現します。
私たちの方法は、OOD 一般化の点で以前のアプローチを大幅に上回り、Split CIFAR-100 で 13.41\%、Split Mini-ImageNet で 9.91\%、Split Tiny-ImageNet で 5.98\% の改善を達成しました。

要約(オリジナル)

Machine learning models often suffer from catastrophic forgetting of previously learned knowledge when learning new classes. Various methods have been proposed to mitigate this issue. However, rehearsal-based learning, which retains samples from previous classes, typically achieves good performance but tends to memorize specific instances, struggling with Out-of-Distribution (OOD) generalization. This often leads to high forgetting rates and poor generalization. Surprisingly, the OOD generalization capabilities of these methods have been largely unexplored. In this paper, we highlight this issue and propose a simple yet effective strategy inspired by contrastive learning and data-centric principles to address it. We introduce Adaptive Contrastive Replay (ACR), a method that employs dual optimization to simultaneously train both the encoder and the classifier. ACR adaptively populates the replay buffer with misclassified samples while ensuring a balanced representation of classes and tasks. By refining the decision boundary in this way, ACR achieves a balance between stability and plasticity. Our method significantly outperforms previous approaches in terms of OOD generalization, achieving an improvement of 13.41\% on Split CIFAR-100, 9.91\% on Split Mini-ImageNet, and 5.98\% on Split Tiny-ImageNet.

arxiv情報

著者 Hossein Rezaei,Mohammad Sabokrou
発行日 2024-10-09 17:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

VHELM: A Holistic Evaluation of Vision Language Models

要約

視覚言語モデル (VLM) を評価するための現在のベンチマークは、多くの場合、その認識能力や問題解決能力に重点を置き、公平性、多言語性、有害性などの他の重要な側面を無視しています。
さらに、評価手順や評価範囲が異なるため、モデルの比較が困難になります。
これらの問題に対処するために、HELM フレームワークを VLM に拡張して、ビジョン言語モデルの全体的評価 (VHELM) を提示します。
VHELM は、視覚認識、知識、推論、偏見、公平性、多言語性、堅牢性、毒性、安全性の 9 つの側面のうち 1 つ以上をカバーするためにさまざまなデータセットを集約します。
そうすることで、これらの重要な要素全体にわたる VLM の機能について、包括的かつ多次元のビューを作成します。
さらに、モデル間の公平な比較を可能にするために、標準的な推論パラメータ、プロンプトの方法、および評価指標を標準化します。
私たちのフレームワークは軽量かつ自動になるように設計されているため、評価の実行が安価かつ迅速になります。
最初の実行では、21 の既存のデータセットで 22 の VLM を評価し、モデルの全体的なスナップショットを提供します。
効率重視のモデル (Claude 3 Haiku や Gemini 1.5 Flash など) は、バイアス ベンチマークではフル モデル (Claude 3 Opus や Gemini 1.5 Pro) よりも大幅にパフォーマンスが低いものの、そうではないという事実など、新たな重要な発見を発見しました。
他の側面から評価すると。
透明性を確保するために、生のモデル生成と完全な結果を Web サイト (https://crfm.stanford.edu/helm/vhelm/v2.0.1) で公開します。
VHELM は生きたベンチマークとなることを目的としており、今後も新しいデータセットとモデルを追加し続けたいと考えています。

要約(オリジナル)

Current benchmarks for assessing vision-language models (VLMs) often focus on their perception or problem-solving capabilities and neglect other critical aspects such as fairness, multilinguality, or toxicity. Furthermore, they differ in their evaluation procedures and the scope of the evaluation, making it difficult to compare models. To address these issues, we extend the HELM framework to VLMs to present the Holistic Evaluation of Vision Language Models (VHELM). VHELM aggregates various datasets to cover one or more of the 9 aspects: visual perception, knowledge, reasoning, bias, fairness, multilinguality, robustness, toxicity, and safety. In doing so, we produce a comprehensive, multi-dimensional view of the capabilities of the VLMs across these important factors. In addition, we standardize the standard inference parameters, methods of prompting, and evaluation metrics to enable fair comparisons across models. Our framework is designed to be lightweight and automatic so that evaluation runs are cheap and fast. Our initial run evaluates 22 VLMs on 21 existing datasets to provide a holistic snapshot of the models. We uncover new key findings, such as the fact that efficiency-focused models (e.g., Claude 3 Haiku or Gemini 1.5 Flash) perform significantly worse than their full models (e.g., Claude 3 Opus or Gemini 1.5 Pro) on the bias benchmark but not when evaluated on the other aspects. For transparency, we release the raw model generations and complete results on our website (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM is intended to be a living benchmark, and we hope to continue adding new datasets and models over time.

arxiv情報

著者 Tony Lee,Haoqin Tu,Chi Heem Wong,Wenhao Zheng,Yiyang Zhou,Yifan Mai,Josselin Somerville Roberts,Michihiro Yasunaga,Huaxiu Yao,Cihang Xie,Percy Liang
発行日 2024-10-09 17:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

Personalized Visual Instruction Tuning

要約

マルチモーダル大規模言語モデル (MLLM) の最近の進歩は、顕著な進歩を示しています。
ただし、これらのモデルには、「顔の盲目」と呼ばれる顕著な制限があります。
具体的には、一般的な会話には参加できますが、特定の個人を対象としたパーソナライズされた会話を行うことができません。
この欠陥により、モバイル デバイス上のカスタマイズされた視覚アシスタントや、家族のメンバーを認識する必要がある家庭用ロボットなど、個人化された環境での MLLM の適用が妨げられます。
このペーパーでは、MLLM が画像内のターゲット個人を識別し、パーソナライズされた一貫した対話を行えるように設計された新しいデータ キュレーションおよびトレーニング フレームワークである Personalized Visual structs Tuning (PVIT) について紹介します。
私たちのアプローチには、パーソナライズされた会話を含むトレーニング データを自律的に生成する洗練されたパイプラインの開発が含まれます。
このパイプラインは、さまざまなビジュアル エキスパート、画像生成モデル、および (マルチモーダル) 大規模言語モデルの機能を活用します。
MLLM のパーソナライズされた可能性を評価するために、さまざまな難易度のさまざまな質問タイプを網羅する P-Bench と呼ばれるベンチマークを提示します。
この実験では、厳選されたデータセットを使用して微調整した後、パーソナライズされたパフォーマンスが大幅に向上することが実証されています。

要約(オリジナル)

Recent advancements in multimodal large language models (MLLMs) have demonstrated significant progress; however, these models exhibit a notable limitation, which we refer to as ‘face blindness’. Specifically, they can engage in general conversations but fail to conduct personalized dialogues targeting at specific individuals. This deficiency hinders the application of MLLMs in personalized settings, such as tailored visual assistants on mobile devices, or domestic robots that need to recognize members of the family. In this paper, we introduce Personalized Visual Instruction Tuning (PVIT), a novel data curation and training framework designed to enable MLLMs to identify target individuals within an image and engage in personalized and coherent dialogues. Our approach involves the development of a sophisticated pipeline that autonomously generates training data containing personalized conversations. This pipeline leverages the capabilities of various visual experts, image generation models, and (multi-modal) large language models. To evaluate the personalized potential of MLLMs, we present a benchmark called P-Bench, which encompasses various question types with different levels of difficulty. The experiments demonstrate a substantial personalized performance enhancement after fine-tuning with our curated dataset.

arxiv情報

著者 Renjie Pi,Jianshu Zhang,Tianyang Han,Jipeng Zhang,Rui Pan,Tong Zhang
発行日 2024-10-09 17:46:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Thing2Reality: Transforming 2D Content into Conditioned Multiviews and 3D Gaussian Objects for XR Communication

要約

リモートコミュニケーション中、参加者は相互理解を高めるために、製品デザイン、デジタル資産、環境などのデジタルコンテンツと物理コンテンツの両方を共有することがよくあります。
最近の拡張通信の進歩により、ユーザーはビデオ フィードから物理オブジェクトのデジタル 2D コピーを迅速に作成し、共有スペースに共有できるようになりました。
しかし、デジタル オブジェクトの従来の 2D 表現では、共有没入型環境でユーザーがアイテムを空間的に参照する能力が制限されます。
これに対処するために、リモート セッション中にデジタルと物理的なアイテムの両方についての自発的なディスカッションを強化する拡張現実 (XR) コミュニケーション プラットフォームである Thing2Reality を提案します。
Thing2Reality を使用すると、ユーザーは没入型環境でアイデアや物理オブジェクトをすばやく実現し、それらを条件付きマルチビュー レンダリングまたは 3D ガウスとして共有できます。
Thing2Reality を使用すると、ユーザーはリモート オブジェクトと対話したり、協力して概念について話し合ったりできます。
私たちのユーザー調査により、オブジェクトの 3D 表現を操作して対話する機能により、ディスカッションの効率が大幅に向上し、2D アーティファクトのディスカッションが強化される可能性があることが明らかになりました。

要約(オリジナル)

During remote communication, participants often share both digital and physical content, such as product designs, digital assets, and environments, to enhance mutual understanding. Recent advances in augmented communication have facilitated users to swiftly create and share digital 2D copies of physical objects from video feeds into a shared space. However, conventional 2D representations of digital objects restricts users’ ability to spatially reference items in a shared immersive environment. To address this, we propose Thing2Reality, an Extended Reality (XR) communication platform that enhances spontaneous discussions of both digital and physical items during remote sessions. With Thing2Reality, users can quickly materialize ideas or physical objects in immersive environments and share them as conditioned multiview renderings or 3D Gaussians. Thing2Reality enables users to interact with remote objects or discuss concepts in a collaborative manner. Our user study revealed that the ability to interact with and manipulate 3D representations of objects significantly enhances the efficiency of discussions, with the potential to augment discussion of 2D artifacts.

arxiv情報

著者 Erzhen Hu,Mingyi Li,Jungtaek Hong,Xun Qian,Alex Olwal,David Kim,Seongkook Heo,Ruofei Du
発行日 2024-10-09 17:49:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC | コメントする

EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

要約

生成モデルの最近の進歩により、素晴らしいコンテンツを生成する際の顕著な機能が実証されました。
ただし、そのほとんどは独自の高品質データでトレーニングされており、一部のモデルはパラメーターを差し控え、アクセス可能なアプリケーション プログラミング インターフェイス (API) のみを提供するため、下流タスクでの利点が制限されます。
公開されているリソースを使用して、高度なモデルに匹敵するテキストから画像への生成モデルをトレーニングする実現可能性を検討するために、EvolveDirector を紹介します。
このフレームワークは、パブリック API を通じて高度なモデルと対話し、基本モデルをトレーニングするためのテキストと画像のデータのペアを取得します。
広範なデータを用いた実験により、高度なモデルの生成データでトレーニングされたモデルがその生成能力を近似できることが示されました。
ただし、1,000万以上の大規模サンプルが必要です。
これにより、時間、計算リソース、特に有料 API の呼び出しに関連するコストが大幅に増加します。
この問題に対処するために、事前トレーニングされた大規模ビジョン言語モデル (VLM) を活用して、基本モデルの進化をガイドします。
VLM はトレーニング中にベース モデルを継続的に評価し、識別、拡張、削除、突然変異の操作によってトレーニング データセットを動的に更新および改良します。
実験結果は、このパラダイムにより必要なデータ量が大幅に削減されることを示しています。
さらに、複数の高度なモデルに近づくと、EvolveDirector はそれらのモデルによって生成された最良のサンプルを選択して、強力でバランスのとれた能力を学習できます。
最終的にトレーニングされたモデル Edgen は、これらの高度なモデルよりも優れたパフォーマンスを発揮することが実証されています。
コードとモデルの重みは https://github.com/showlab/EvolveDirector で入手できます。

要約(オリジナル)

Recent advancements in generation models have showcased remarkable capabilities in generating fantastic content. However, most of them are trained on proprietary high-quality data, and some models withhold their parameters and only provide accessible application programming interfaces (APIs), limiting their benefits for downstream tasks. To explore the feasibility of training a text-to-image generation model comparable to advanced models using publicly available resources, we introduce EvolveDirector. This framework interacts with advanced models through their public APIs to obtain text-image data pairs to train a base model. Our experiments with extensive data indicate that the model trained on generated data of the advanced model can approximate its generation capability. However, it requires large-scale samples of 10 million or more. This incurs significant expenses in time, computational resources, and especially the costs associated with calling fee-based APIs. To address this problem, we leverage pre-trained large vision-language models (VLMs) to guide the evolution of the base model. VLM continuously evaluates the base model during training and dynamically updates and refines the training dataset by the discrimination, expansion, deletion, and mutation operations. Experimental results show that this paradigm significantly reduces the required data volume. Furthermore, when approaching multiple advanced models, EvolveDirector can select the best samples generated by them to learn powerful and balanced abilities. The final trained model Edgen is demonstrated to outperform these advanced models. The code and model weights are available at https://github.com/showlab/EvolveDirector.

arxiv情報

著者 Rui Zhao,Hangjie Yuan,Yujie Wei,Shiwei Zhang,Yuchao Gu,Lingmin Ran,Xiang Wang,Zhangjie Wu,Junhao Zhang,Yingya Zhang,Mike Zheng Shou
発行日 2024-10-09 17:52:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする