Analysis and Benchmarking of Extending Blind Face Image Restoration to Videos

要約

ブラインドフェイス復元における最近の進歩により、静止画像に対して高品質の復元結果が得られるようになりました。
しかし、包括的かつ公正な比較を可能にするベンチマークが存在しないこともあり、これらの進歩をビデオ シナリオに拡張する取り組みは最小限に抑えられています。
この研究では、まず公平な評価ベンチマークを提示します。このベンチマークでは、最初に現実世界の低品質顔ビデオ ベンチマーク (RFV-LQ) を導入し、いくつかの主要な画像ベースの顔復元アルゴリズムを評価し、徹底的な体系的分析を実施します。
ブラインド顔画像復元アルゴリズムを劣化した顔ビデオに拡張することに関連する利点と課題。
私たちの分析では、主に 2 つの側面に分類されるいくつかの重要な問題を特定しました。それは、顔コンポーネントの大きなジッターとフレーム間のノイズ形状のちらつきです。
これらの問題に対処するために、復元されたビデオのジッターやちらつきを軽減するために、アライメント スムージングと連携した時間整合性ネットワーク (TCN) を提案します。
TCN は、最先端の顔画像復元アルゴリズムにシームレスに接続できる柔軟なコンポーネントであり、画像ベースの復元の品質を可能な限り維持することができます。
私たちが提案する TCN とアライメント平滑化操作の有効性と効率を評価するために、広範な実験が行われました。
プロジェクトページ: https://wzhouxiff.github.io/projects/FIR2FVR/FIR2FVR。

要約(オリジナル)

Recent progress in blind face restoration has resulted in producing high-quality restored results for static images. However, efforts to extend these advancements to video scenarios have been minimal, partly because of the absence of benchmarks that allow for a comprehensive and fair comparison. In this work, we first present a fair evaluation benchmark, in which we first introduce a Real-world Low-Quality Face Video benchmark (RFV-LQ), evaluate several leading image-based face restoration algorithms, and conduct a thorough systematical analysis of the benefits and challenges associated with extending blind face image restoration algorithms to degraded face videos. Our analysis identifies several key issues, primarily categorized into two aspects: significant jitters in facial components and noise-shape flickering between frames. To address these issues, we propose a Temporal Consistency Network (TCN) cooperated with alignment smoothing to reduce jitters and flickers in restored videos. TCN is a flexible component that can be seamlessly plugged into the most advanced face image restoration algorithms, ensuring the quality of image-based restoration is maintained as closely as possible. Extensive experiments have been conducted to evaluate the effectiveness and efficiency of our proposed TCN and alignment smoothing operation. Project page: https://wzhouxiff.github.io/projects/FIR2FVR/FIR2FVR.

arxiv情報

著者 Zhouxia Wang,Jiawei Zhang,Xintao Wang,Tianshui Chen,Ying Shan,Wenping Wang,Ping Luo
発行日 2024-10-15 17:53:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Analysis and Benchmarking of Extending Blind Face Image Restoration to Videos はコメントを受け付けていません

MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding

要約

クロスモーダルな対話を通じて複雑な人間の意図を理解するためのマルチモーダル大規模言語モデル (MLLM) は大幅に進歩しましたが、複雑な画像の詳細をキャプチャすることは依然として困難です。
複数のビジョンエンコーダを統合して視覚的な詳細を強化する以前の方法では、冗長性と計算オーバーヘッドが発生します。
ほとんどの MLLM は、視覚的表現にビジョン エンコーダの最後の層の特徴マップのみを利用し、浅い特徴マップ内の豊富で詳細な情報を無視していることがわかります。
この問題に対処するために、ビジョン トランスフォーマー (ViT) の深い特徴と浅い特徴を効率的に統合する、シンプルかつ効果的な多層特徴フューザーである \modelname を提案します。
具体的には、意味的に調整された深い特徴をクエリとして利用して、浅い特徴から欠落している詳細を動的に抽出することで、意味的な調整を維持しながら、きめの細かい情報で表現を強化します。
LLaVA-1.5 モデルに適用された \modelname~ は、視覚表現とベンチマーク パフォーマンスの大幅な向上を実現し、マルチ エンコーダ アンサンブル手法と比較して、より柔軟で軽量なソリューションを提供します。
コードとモデルは https://github.com/yuecao0119/MMFuser で公開されています。

要約(オリジナル)

Despite significant advancements in Multimodal Large Language Models (MLLMs) for understanding complex human intentions through cross-modal interactions, capturing intricate image details remains challenging. Previous methods integrating multiple vision encoders to enhance visual detail introduce redundancy and computational overhead. We observe that most MLLMs utilize only the last-layer feature map of the vision encoder for visual representation, neglecting the rich fine-grained information in shallow feature maps. To address this issue, we propose \modelname, a simple yet effective multi-layer feature fuser that efficiently integrates deep and shallow features from Vision Transformers (ViTs). Specifically, it leverages semantically aligned deep features as queries to dynamically extract missing details from shallow features, thus preserving semantic alignment while enriching the representation with fine-grained information. Applied to the LLaVA-1.5 model, \modelname~achieves significant improvements in visual representation and benchmark performance, providing a more flexible and lightweight solution compared to multi-encoder ensemble methods. The code and model have been released at https://github.com/yuecao0119/MMFuser.

arxiv情報

著者 Yue Cao,Yangzhou Liu,Zhe Chen,Guangchen Shi,Wenhai Wang,Danhuai Zhao,Tong Lu
発行日 2024-10-15 17:55:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding はコメントを受け付けていません

CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

要約

このタスクのために実際のビデオに注釈を付けるのは難しいため、ほとんどの最先端のポイント トラッカーは合成データでトレーニングされます。
ただし、合成ビデオと実際のビデオの間の統計的なギャップにより、最適なパフォーマンスが得られない可能性があります。
これらの問題をよりよく理解するために、新しい追跡モデルと新しい半教師ありトレーニング レシピで構成される CoTracker3 を紹介します。
これにより、既製の教師を使用して疑似ラベルを生成することで、トレーニング中に注釈のない実際のビデオを使用できるようになります。
新しいモデルでは、以前のトラッカーからコンポーネントが削除または簡素化され、その結果、アーキテクチャがよりシンプルになり、多くの場合、より小型になりました。
このトレーニング スキームは以前の作業よりもはるかに単純で、1,000 分の 1 のデータを使用してより良い結果が得られます。
ポイント追跡でより実際の教師なしデータを使用することの影響を理解するために、スケーリング動作をさらに研究します。
このモデルはオンラインとオフラインのバージョンで利用でき、可視ポイントと遮蔽ポイントを確実に追跡します。

要約(オリジナル)

Most state-of-the-art point trackers are trained on synthetic data due to the difficulty of annotating real videos for this task. However, this can result in suboptimal performance due to the statistical gap between synthetic and real videos. In order to understand these issues better, we introduce CoTracker3, comprising a new tracking model and a new semi-supervised training recipe. This allows real videos without annotations to be used during training by generating pseudo-labels using off-the-shelf teachers. The new model eliminates or simplifies components from previous trackers, resulting in a simpler and often smaller architecture. This training scheme is much simpler than prior work and achieves better results using 1,000 times less data. We further study the scaling behaviour to understand the impact of using more real unsupervised data in point tracking. The model is available in online and offline variants and reliably tracks visible and occluded points.

arxiv情報

著者 Nikita Karaev,Iurii Makarov,Jianyuan Wang,Natalia Neverova,Andrea Vedaldi,Christian Rupprecht
発行日 2024-10-15 17:56:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos はコメントを受け付けていません

On the Effectiveness of Dataset Alignment for Fake Image Detection

要約

潜在拡散モデル (LDM) によって画像生成機能が民主化されるにつれ、偽の画像を検出する必要性が高まっています。
優れた検出器は、セマンティック コンテンツ、解像度、ファイル形式などの画像プロパティを無視して、生成モデルのフィンガープリントに焦点を当てる必要があります。偽画像検出器は通常、データ駆動型の方法で構築され、本物の画像と偽の画像を区別するようにモデルがトレーニングされます。
既存の研究では、主にネットワーク アーキテクチャの選択とトレーニング レシピを調査しています。
この研究では、これらのアルゴリズムの選択に加えて、堅牢な検出器をトレーニングするには、適切に調整された本物/偽画像のデータセットも必要であると主張します。
LDM ファミリについては、これを達成するための非常に簡単な方法を提案します。つまり、ノイズ除去操作を行わずに、LDM オートエンコーダを使用してすべての実際の画像を再構成します。
次に、これらの実画像を再構成画像から分離するためにモデルをトレーニングします。
この方法で作成された偽物は、ほぼすべての側面 (サイズ、アスペクト比、セマンティック コンテンツなど) において本物と非常に似ているため、モデルは LDM デコーダのアーティファクトを探す必要があります。
私たちは、位置合わせされた本物/偽のデータセットを作成するこの方法が、計算コストのかかるノイズ除去プロセスを回避し、非常に一般的な既存の方法が影響を受けやすい誤った相関をあまり重視しない検出器の構築に役立つことを経験的に示しています。
最後に、データセット内の位置合わせがどれほど効果的であるかを実証するために、自然物体ではない画像を使用して検出器を構築し、有望な結果を示します。
全体として、私たちの研究は、偽画像検出器をトレーニングする際に生じる微妙だが重要な問題を特定し、これらの問題に対処するためのシンプルで安価なソリューションを提案します。

要約(オリジナル)

As latent diffusion models (LDMs) democratize image generation capabilities, there is a growing need to detect fake images. A good detector should focus on the generative models fingerprints while ignoring image properties such as semantic content, resolution, file format, etc. Fake image detectors are usually built in a data driven way, where a model is trained to separate real from fake images. Existing works primarily investigate network architecture choices and training recipes. In this work, we argue that in addition to these algorithmic choices, we also require a well aligned dataset of real/fake images to train a robust detector. For the family of LDMs, we propose a very simple way to achieve this: we reconstruct all the real images using the LDMs autoencoder, without any denoising operation. We then train a model to separate these real images from their reconstructions. The fakes created this way are extremely similar to the real ones in almost every aspect (e.g., size, aspect ratio, semantic content), which forces the model to look for the LDM decoders artifacts. We empirically show that this way of creating aligned real/fake datasets, which also sidesteps the computationally expensive denoising process, helps in building a detector that focuses less on spurious correlations, something that a very popular existing method is susceptible to. Finally, to demonstrate just how effective the alignment in a dataset can be, we build a detector using images that are not natural objects, and present promising results. Overall, our work identifies the subtle but significant issues that arise when training a fake image detector and proposes a simple and inexpensive solution to address these problems.

arxiv情報

著者 Anirudh Sundara Rajan,Utkarsh Ojha,Jedidiah Schloesser,Yong Jae Lee
発行日 2024-10-15 17:58:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | On the Effectiveness of Dataset Alignment for Fake Image Detection はコメントを受け付けていません

High-Resolution Frame Interpolation with Patch-based Cascaded Diffusion

要約

最近の進歩にもかかわらず、既存のフレーム補間方法は、非常に高解像度の入力を処理したり、反復的なテクスチャ、薄いオブジェクト、大きな動きなどの困難なケースを処理したりするのに依然として苦労しています。
これらの問題に対処するために、標準ベンチマークで競争力のあるパフォーマンスを達成しながら、これらのシナリオで優れたフレーム補間用のパッチベースのカスケード ピクセル拡散モデル HiFI を導入します。
低解像度から高解像度までの一連の画像を生成するカスケードは、大まかなソリューションのグローバル コンテキストと高解像度出力の詳細なコンテキストの両方を必要とする大規模または複雑なモーションに非常に役立ちます。
ただし、ますます大きな解像度で拡散を実行するカスケード拡散モデルに関する以前の研究とは対照的に、常に同じ解像度で拡散を実行し、入力と以前のソリューションのパッチを処理することによってアップサンプリングを実行する単一のモデルを使用します。
この手法により、推論時のメモリ使用量が大幅に削減され、テスト時に単一のモデルを使用できるようになり、フレーム補間と空間アップサンプリングの両方が解決され、トレーニング コストが節約されることを示します。
HiFI が、グローバル コンテキストを必要とする高解像度および複雑な繰り返しテクスチャに大きく役立つことを示します。
HiFI は、複数のベンチマーク (Vimeo、Xiph、X-Test、SEPE-8K) で同等またはそれを超える最先端のパフォーマンスを実証します。
特に困難なケースに焦点を当てた新しく導入されたデータセットでも、HiFI はこれらのケースで他のベースラインを大幅に上回っています。
ビデオ結果についてはプロジェクト ページをご覧ください: https://hifi-diffusion.github.io

要約(オリジナル)

Despite the recent progress, existing frame interpolation methods still struggle with processing extremely high resolution input and handling challenging cases such as repetitive textures, thin objects, and large motion. To address these issues, we introduce a patch-based cascaded pixel diffusion model for frame interpolation, HiFI, that excels in these scenarios while achieving competitive performance on standard benchmarks. Cascades, which generate a series of images from low- to high-resolution, can help significantly with large or complex motion that require both global context for a coarse solution and detailed context for high resolution output. However, contrary to prior work on cascaded diffusion models which perform diffusion on increasingly large resolutions, we use a single model that always performs diffusion at the same resolution and upsamples by processing patches of the inputs and the prior solution. We show that this technique drastically reduces memory usage at inference time and also allows us to use a single model at test time, solving both frame interpolation and spatial up-sampling, saving training cost. We show that HiFI helps significantly with high resolution and complex repeated textures that require global context. HiFI demonstrates comparable or beyond state-of-the-art performance on multiple benchmarks (Vimeo, Xiph, X-Test, SEPE-8K). On our newly introduced dataset that focuses on particularly challenging cases, HiFI also significantly outperforms other baselines on these cases. Please visit our project page for video results: https://hifi-diffusion.github.io

arxiv情報

著者 Junhwa Hur,Charles Herrmann,Saurabh Saxena,Janne Kontkanen,Wei-Sheng Lai,Yichang Shih,Michael Rubinstein,David J. Fleet,Deqing Sun
発行日 2024-10-15 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | High-Resolution Frame Interpolation with Patch-based Cascaded Diffusion はコメントを受け付けていません

MoH: Multi-Head Attention as Mixture-of-Head Attention

要約

この作業では、Transformer モデルの中核であるマルチヘッド アテンション メカニズムをアップグレードし、以前の精度レベルを維持または上回ると同時に効率を向上させます。
複数の頭の注意が合計形式で表現できることを示します。
すべてのアテンションヘッドが同等の重要性を持つわけではないという洞察に基づいて、我々は、アテンションヘッドを混合専門家 (MoE) メカニズムの専門家として扱う新しいアーキテクチャである混合ヘッド注意 (MoH) を提案します。
MoH には 2 つの大きな利点があります。 まず、MoH により、各トークンが適切なアテンション ヘッドを選択できるようになり、精度を犠牲にしたりパラメータの数を増やすことなく推論効率が向上します。
第 2 に、MoH はマルチヘッド アテンションの標準的な合計を重み付けされた合計に置き換え、アテンション メカニズムに柔軟性を導入し、さらなるパフォーマンスの可能性を解き放ちます。
ViT、DiT、および LLM に関する広範な実験により、MoH はアテンション ヘッドの 50 ~ 90% のみを使用することで、マルチヘッド アテンションよりも優れたパフォーマンスを発揮することが実証されました。
さらに、LLaMA3-8B などの事前トレーニング済みマルチヘッド アテンション モデルを MoH モデルにさらに継続的に調整できることを示します。
特に、MoH-LLaMA3-8B は 14 のベンチマーク全体で 64.0% の平均精度を達成し、アテンション ヘッドの 75% のみを利用することで LLaMA3-8B を 2.4% 上回っています。
私たちは、提案された MoH がマルチヘッド アテンションに代わる有望な代替品であり、高度で効率的なアテンション ベースのモデルを開発するための強力な基盤を提供すると信じています。

要約(オリジナル)

In this work, we upgrade the multi-head attention mechanism, the core of the Transformer model, to improve efficiency while maintaining or surpassing the previous accuracy level. We show that multi-head attention can be expressed in the summation form. Drawing on the insight that not all attention heads hold equal significance, we propose Mixture-of-Head attention (MoH), a new architecture that treats attention heads as experts in the Mixture-of-Experts (MoE) mechanism. MoH has two significant advantages: First, MoH enables each token to select the appropriate attention heads, enhancing inference efficiency without compromising accuracy or increasing the number of parameters. Second, MoH replaces the standard summation in multi-head attention with a weighted summation, introducing flexibility to the attention mechanism and unlocking extra performance potential. Extensive experiments on ViT, DiT, and LLMs demonstrate that MoH outperforms multi-head attention by using only 50%-90% of the attention heads. Moreover, we demonstrate that pre-trained multi-head attention models, such as LLaMA3-8B, can be further continue-tuned into our MoH models. Notably, MoH-LLaMA3-8B achieves an average accuracy of 64.0% across 14 benchmarks, outperforming LLaMA3-8B by 2.4% by utilizing only 75% of the attention heads. We believe the proposed MoH is a promising alternative to multi-head attention and provides a strong foundation for developing advanced and efficient attention-based models.

arxiv情報

著者 Peng Jin,Bo Zhu,Li Yuan,Shuicheng Yan
発行日 2024-10-15 17:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | MoH: Multi-Head Attention as Mixture-of-Head Attention はコメントを受け付けていません

TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models

要約

マルチモーダルビデオの理解と生成には、きめの細かい時間ダイナミクスを理解することが重要です。
きめの細かい時間的アノテーションが欠如しているため、既存のビデオ ベンチマークはほとんどが静止画像ベンチマークに似ており、時間的理解のためのモデルを評価する能力がありません。
このペーパーでは、ビデオのきめ細かい時間的理解を評価することに特化した新しいベンチマークである TemporalBench を紹介します。
TemporalBench は、ビデオ クリップの時間的ダイナミクスを詳細に説明する約 2,000 の高品質人間による注釈から派生した、約 10,000 のビデオ質問と回答のペアで構成されています。
その結果、当社のベンチマークは、アクションの頻度、動きの大きさ、イベントの順序など、さまざまな時間的理解と推論能力を評価するための独自のテストベッドを提供します。さらに、ビデオの質問応答やキャプションなど、短いものと短いものの両方のさまざまなタスクの評価が可能になります。
長時間ビデオの理解に加え、マルチモーダルビデオ埋め込みモデルやテキスト生成モデルなどのさまざまなモデルもサポートします。
結果は、GPT-4o のような最先端のモデルは、TemporalBench で質問応答精度が 38.5% しか達成できないことを示し、時間的理解において人間と AI の間に大きなギャップ (~30%) があることを示しています。
さらに、LLM がネガティブなキャプションの微妙な変化を検出し、その予測の手がかりとして一元的な説明を見つけることができるという、多肢選択 QA の重大な落とし穴に気づきました。そこで私たちは、そのようなバイアスを修正するために Multiple Binary Accuracy (MBA) を提案します。
私たちは、TemporalBench がモデルの時間的推論能力を向上させる研究を促進できることを願っています。
データセットと評価コードの両方が利用可能になります。

要約(オリジナル)

Understanding fine-grained temporal dynamics is crucial for multimodal video comprehension and generation. Due to the lack of fine-grained temporal annotations, existing video benchmarks mostly resemble static image benchmarks and are incompetent at evaluating models for temporal understanding. In this paper, we introduce TemporalBench, a new benchmark dedicated to evaluating fine-grained temporal understanding in videos. TemporalBench consists of ~10K video question-answer pairs, derived from ~2K high-quality human annotations detailing the temporal dynamics in video clips. As a result, our benchmark provides a unique testbed for evaluating various temporal understanding and reasoning abilities such as action frequency, motion magnitude, event order, etc. Moreover, it enables evaluations on various tasks like both video question answering and captioning, both short and long video understanding, as well as different models such as multimodal video embedding models and text generation models. Results show that state-of-the-art models like GPT-4o achieve only 38.5% question answering accuracy on TemporalBench, demonstrating a significant gap (~30%) between humans and AI in temporal understanding. Furthermore, we notice a critical pitfall for multi-choice QA where LLMs can detect the subtle changes in negative captions and find a centralized description as a cue for its prediction, where we propose Multiple Binary Accuracy (MBA) to correct such bias. We hope that TemporalBench can foster research on improving models’ temporal reasoning capabilities. Both dataset and evaluation code will be made available.

arxiv情報

著者 Mu Cai,Reuben Tan,Jianrui Zhang,Bocheng Zou,Kai Zhang,Feng Yao,Fangrui Zhu,Jing Gu,Yiwu Zhong,Yuzhang Shang,Yao Dou,Jaden Park,Jianfeng Gao,Yong Jae Lee,Jianwei Yang
発行日 2024-10-15 17:55:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models はコメントを受け付けていません

Learning Quadruped Locomotion Using Differentiable Simulation

要約

この研究では、四足歩行の学習に微分可能なシミュレーションを使用する可能性を探ります。
微分可能なシミュレーションは、ロボット ダイナミクスを使用して分散の低い一次勾配を計算することで、高速な収束と安定したトレーニングを約束します。
ただし、脚式ロボットの用途は依然としてシミュレーションに限定されています。
主な課題は、不連続なダイナミクスによるロボット タスクの複雑な最適化環境にあります。
この研究は、これらの課題を克服するための新しい微分可能なシミュレーション フレームワークを提案します。
私たちのアプローチは、順ダイナミクス用の高忠実度の非微分可能シミュレーターと、勾配逆伝播用の簡略化されたサロゲート モデルを組み合わせています。
このアプローチでは、サロゲート モデルのロボットの状態を正確な微分不可能なシミュレーターの状態と調整することで、シミュレーションの精度を維持します。
私たちのフレームワークでは、並列化を行わずにシミュレーションで四足歩行を数分で学習できます。
私たちのアプローチを GPU 並列化で強化すると、四足ロボットは困難な地形での多様な移動スキルを数分で習得できるようになります。
私たちは、微分可能シミュレーションが、大規模環境の処理における有効性を維持しながら、大幅に優れたサンプル効率を達成することにより、強化学習アルゴリズム (PPO) よりも優れたパフォーマンスを発揮することを実証します。
私たちの手法は、現実世界の四足歩行への微分可能シミュレーションの最初の成功した応用の 1 つであり、従来の RL 手法に代わる魅力的な手法を提供します。

要約(オリジナル)

This work explores the potential of using differentiable simulation for learning quadruped locomotion. Differentiable simulation promises fast convergence and stable training by computing low-variance first-order gradients using robot dynamics. However, its usage for legged robots is still limited to simulation. The main challenge lies in the complex optimization landscape of robotic tasks due to discontinuous dynamics. This work proposes a new differentiable simulation framework to overcome these challenges. Our approach combines a high-fidelity, non-differentiable simulator for forward dynamics with a simplified surrogate model for gradient backpropagation. This approach maintains simulation accuracy by aligning the robot states from the surrogate model with those of the precise, non-differentiable simulator. Our framework enables learning quadruped walking in simulation in minutes without parallelization. When augmented with GPU parallelization, our approach allows the quadruped robot to master diverse locomotion skills on challenging terrains in minutes. We demonstrate that differentiable simulation outperforms a reinforcement learning algorithm (PPO) by achieving significantly better sample efficiency while maintaining its effectiveness in handling large-scale environments. Our method represents one of the first successful applications of differentiable simulation to real-world quadruped locomotion, offering a compelling alternative to traditional RL methods.

arxiv情報

著者 Yunlong Song,Sangbae Kim,Davide Scaramuzza
発行日 2024-10-15 13:30:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Learning Quadruped Locomotion Using Differentiable Simulation はコメントを受け付けていません

SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers

要約

最大 4096$\times$4096 の解像度の画像を効率的に生成できるテキストから画像へのフレームワークである Sana を紹介します。
Sana は、強力なテキストと画像の位置合わせを備えた高解像度、高品質の画像を驚くほど高速で合成でき、ラップトップの GPU に展開できます。
コア設計には以下が含まれます: (1) 高度な圧縮オートエンコーダー: 画像を 8$\times$ しか圧縮しない従来の AE とは異なり、画像を 32$\times$ 圧縮できる AE をトレーニングし、潜在トークンの数を効果的に削減しました。
(2) リニア DiT: DiT 内のすべてのバニラ アテンションをリニア アテンションに置き換えます。これは、品質を犠牲にすることなく高解像度でより効率的です。
(3) デコーダ専用のテキスト エンコーダ: テキスト エンコーダとして T5 を最新のデコーダ専用の小型 LLM に置き換え、画像とテキストの位置合わせを強化するためにコンテキスト内学習を備えた複雑な人間による命令を設計しました。
(4) 効率的なトレーニングとサンプリング: 収束を加速する効率的なキャプションのラベル付けと選択により、サンプリング ステップを削減する Flow-DPM-Solver を提案します。
その結果、Sana-0.6B は現代の巨大拡散モデル (Flux-12B など) と非常に競争力があり、測定されたスループットでは 20 倍小さく、100 倍以上高速です。
さらに、Sana-0.6B は 16GB ラップトップ GPU に展開でき、1024$\times$1024 解像度の画像を生成するのに 1 秒もかかりません。
Sanaは低コストでコンテンツ制作を可能にします。
コードとモデルは公開されます。

要約(オリジナル)

We introduce Sana, a text-to-image framework that can efficiently generate images up to 4096$\times$4096 resolution. Sana can synthesize high-resolution, high-quality images with strong text-image alignment at a remarkably fast speed, deployable on laptop GPU. Core designs include: (1) Deep compression autoencoder: unlike traditional AEs, which compress images only 8$\times$, we trained an AE that can compress images 32$\times$, effectively reducing the number of latent tokens. (2) Linear DiT: we replace all vanilla attention in DiT with linear attention, which is more efficient at high resolutions without sacrificing quality. (3) Decoder-only text encoder: we replaced T5 with modern decoder-only small LLM as the text encoder and designed complex human instruction with in-context learning to enhance the image-text alignment. (4) Efficient training and sampling: we propose Flow-DPM-Solver to reduce sampling steps, with efficient caption labeling and selection to accelerate convergence. As a result, Sana-0.6B is very competitive with modern giant diffusion model (e.g. Flux-12B), being 20 times smaller and 100+ times faster in measured throughput. Moreover, Sana-0.6B can be deployed on a 16GB laptop GPU, taking less than 1 second to generate a 1024$\times$1024 resolution image. Sana enables content creation at low cost. Code and model will be publicly released.

arxiv情報

著者 Enze Xie,Junsong Chen,Junyu Chen,Han Cai,Haotian Tang,Yujun Lin,Zhekai Zhang,Muyang Li,Ligeng Zhu,Yao Lu,Song Han
発行日 2024-10-15 06:19:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers はコメントを受け付けていません

Ensemble of ConvNeXt V2 and MaxViT for Long-Tailed CXR Classification with View-Based Aggregation

要約

この研究では、MICCAI 2024 CXR-LT チャレンジのソリューションを紹介し、サブタスク 2 で 4 位、サブタスク 1 で 5 位を獲得しました。外部の胸部 X 線データセットで事前トレーニングされた ConvNeXt V2 モデルと MaxViT モデルのアンサンブルを活用しました。
胸部所見のロングテール分布に対処するため。
提案された方法は、最先端の画像分類技術、クラスの不均衡を処理するための非対称損失、およびビューベースの予測集約を組み合わせて、分類パフォーマンスを向上させます。
実験を通じて、検出精度とCXR結果のロングテール分布の処理の両方を向上させるアプローチの利点を実証します。
コードは https://github.com/yamagishi0824/cxrlt24-multiview-pp で入手できます。

要約(オリジナル)

In this work, we present our solution for the MICCAI 2024 CXR-LT challenge, achieving 4th place in Subtask 2 and 5th in Subtask 1. We leveraged an ensemble of ConvNeXt V2 and MaxViT models, pretrained on an external chest X-ray dataset, to address the long-tailed distribution of chest findings. The proposed method combines state-of-the-art image classification techniques, asymmetric loss for handling class imbalance, and view-based prediction aggregation to enhance classification performance. Through experiments, we demonstrate the advantages of our approach in improving both detection accuracy and the handling of the long-tailed distribution in CXR findings. The code is available at https://github.com/yamagishi0824/cxrlt24-multiview-pp.

arxiv情報

著者 Yosuke Yamagishi,Shouhei Hanaoka
発行日 2024-10-15 06:11:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Ensemble of ConvNeXt V2 and MaxViT for Long-Tailed CXR Classification with View-Based Aggregation はコメントを受け付けていません