Training Better Deep Learning Models Using Human Saliency

要約

この研究では、画像の顕著な領域に関する人間の判断をディープ畳み込みニューラル ネットワーク (DCNN) トレーニングにどのように導入できるかを調査します。
従来、DCNN のトレーニングは純粋にデータ駆動型でした。
これにより、クラス ラベルと偶然に関連付けられただけのデータの特徴が学習されることがよくあります。
人間の顕著性は、私たちが提案する損失関数の新しいコンポーネントである ConveYs Brain Oversight to Raise Generalization (CYBORG) を使用してネットワーク トレーニングをガイドし、非顕著領域の使用に対してモデルにペナルティを与えることができます。
このメカニズムにより、人間の顕著性のない同じトレーニング データを使用する場合と比較して、より高い精度と一般化を実現する DCNN が生成されます。
実験結果は、CYBORG が複数のネットワーク アーキテクチャと問題領域 (合成顔、虹彩提示攻撃、胸部 X 線写真の異常の検出) に適用できる一方、人間の顕著性ガイダンスなしのトレーニングよりも必要なデータが大幅に少ないことを示しています。
視覚化により、CYBORG でトレーニングされたモデルの顕著性は、従来のトレーニングされたモデルよりも独立したトレーニングの実行全体でより一貫しており、人間との一致性も高いことが示されています。
人間によるアノテーションの収集コストを削減するために、深層学習を使用して自動化されたアノテーションを提供することも検討しています。
CNN の CYBORG トレーニングは、新しいタイプのデータをより適切に一般化することで、大規模なトレーニング セットへの欲求の軽減、解釈可能性の向上、脆弱性の軽減などの重要な問題に対処します。

要約(オリジナル)

This work explores how human judgement about salient regions of an image can be introduced into deep convolutional neural network (DCNN) training. Traditionally, training of DCNNs is purely data-driven. This often results in learning features of the data that are only coincidentally correlated with class labels. Human saliency can guide network training using our proposed new component of the loss function that ConveYs Brain Oversight to Raise Generalization (CYBORG) and penalizes the model for using non-salient regions. This mechanism produces DCNNs achieving higher accuracy and generalization compared to using the same training data without human salience. Experimental results demonstrate that CYBORG applies across multiple network architectures and problem domains (detection of synthetic faces, iris presentation attacks and anomalies in chest X-rays), while requiring significantly less data than training without human saliency guidance. Visualizations show that CYBORG-trained models’ saliency is more consistent across independent training runs than traditionally-trained models, and also in better agreement with humans. To lower the cost of collecting human annotations, we also explore using deep learning to provide automated annotations. CYBORG training of CNNs addresses important issues such as reducing the appetite for large training sets, increasing interpretability, and reducing fragility by generalizing better to new types of data.

arxiv情報

著者 Aidan Boyd,Patrick Tinsley,Kevin W. Bowyer,Adam Czajka
発行日 2024-10-21 16:52:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Training Better Deep Learning Models Using Human Saliency はコメントを受け付けていません

Improve Vision Language Model Chain-of-thought Reasoning

要約

ビジョン言語モデル (VLM) における思考連鎖 (CoT) 推論は、解釈可能性と信頼性を向上させるために重要です。
ただし、現在のトレーニング レシピには堅牢な CoT 推論データが不足しており、最小限の根拠を備えた短いアノテーションが大半を占めるデータセットに依存しています。
この研究では、短い回答に関する VLM のトレーニングが、より詳細な回答を必要とする推論タスクにはうまく一般化できないことを示しています。
これに対処するために、私たちは 2 つのアプローチを提案します。
まず、GPT-4o モデルから理論的根拠を抽出してトレーニング データを強化し、VLM を微調整して、CoT パフォーマンスを向上させます。
次に、強化学習を適用して推論の品質をさらに調整します。
具体的には、予測を注釈付きの短い回答と比較することにより、モデルが生成した推論チェーンの正 (正しい) と負 (不正確) のペアを構築します。
このペアごとのデータを使用して、直接優先最適化アルゴリズムを適用して、モデルの推論能力を磨きます。
私たちの実験では、ベンチマーク データセットでの CoT 推論の大幅な改善と、直接的な回答予測に対する一般化の向上が実証されました。
この研究では、トレーニングに詳細な理論的根拠を組み込み、強化学習を活用して VLM の推論能力を強化することの重要性を強調しています。

要約(オリジナル)

Chain-of-thought (CoT) reasoning in vision language models (VLMs) is crucial for improving interpretability and trustworthiness. However, current training recipes lack robust CoT reasoning data, relying on datasets dominated by short annotations with minimal rationales. In this work, we show that training VLM on short answers does not generalize well to reasoning tasks that require more detailed responses. To address this, we propose a two-fold approach. First, we distill rationales from GPT-4o model to enrich the training data and fine-tune VLMs, boosting their CoT performance. Second, we apply reinforcement learning to further calibrate reasoning quality. Specifically, we construct positive (correct) and negative (incorrect) pairs of model-generated reasoning chains, by comparing their predictions with annotated short answers. Using this pairwise data, we apply the Direct Preference Optimization algorithm to refine the model’s reasoning abilities. Our experiments demonstrate significant improvements in CoT reasoning on benchmark datasets and better generalization to direct answer prediction as well. This work emphasizes the importance of incorporating detailed rationales in training and leveraging reinforcement learning to strengthen the reasoning capabilities of VLMs.

arxiv情報

著者 Ruohong Zhang,Bowen Zhang,Yanghao Li,Haotian Zhang,Zhiqing Sun,Zhe Gan,Yinfei Yang,Ruoming Pang,Yiming Yang
発行日 2024-10-21 17:00:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.CV | Improve Vision Language Model Chain-of-thought Reasoning はコメントを受け付けていません

Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP

要約

最近の研究では、CLIP の共有画像テキスト表現空間を活用することにより、CLIP-ViT モデルの個々のコンポーネントが最終表現にどのように寄与するかを調査しました。
アテンション ヘッドや MLP などのこれらのコンポーネントは、形状、色、テクスチャなどの明確な画像特徴をキャプチャすることが示されています。
ただし、任意のビジョン トランスフォーマー (ViT) におけるこれらのコンポーネントの役割を理解するのは困難です。
この目的を達成するために、CLIP を超えて ViT のさまざまなコンポーネントの役割を特定できる一般的なフレームワークを導入します。
具体的には、(a) 最終表現のさまざまなモデル コンポーネントからの寄与への分解を自動化し、(b) これらの寄与を CLIP 空間に線形にマッピングしてテキスト経由で解釈します。
さらに、特定の機能に関する重要度によってコンポーネントをランク付けする新しいスコアリング関数を導入します。
私たちのフレームワークをさまざまな ViT バリアント (例: DeiT、DINO、DINOv2、Swin、MaxViT) に適用することで、特定の画像特徴に関するさまざまなコンポーネントの役割についての洞察が得られます。
これらの洞察により、テキスト説明や参照画像を使用した画像検索、トークン重要度のヒートマップの視覚化、偽の相関関係の軽減などのアプリケーションが容易になります。
実験を再現するコードを https://github.com/SriramB-98/vit-decompose で公開します。

要約(オリジナル)

Recent work has explored how individual components of the CLIP-ViT model contribute to the final representation by leveraging the shared image-text representation space of CLIP. These components, such as attention heads and MLPs, have been shown to capture distinct image features like shape, color or texture. However, understanding the role of these components in arbitrary vision transformers (ViTs) is challenging. To this end, we introduce a general framework which can identify the roles of various components in ViTs beyond CLIP. Specifically, we (a) automate the decomposition of the final representation into contributions from different model components, and (b) linearly map these contributions to CLIP space to interpret them via text. Additionally, we introduce a novel scoring function to rank components by their importance with respect to specific features. Applying our framework to various ViT variants (e.g. DeiT, DINO, DINOv2, Swin, MaxViT), we gain insights into the roles of different components concerning particular image features. These insights facilitate applications such as image retrieval using text descriptions or reference images, visualizing token importance heatmaps, and mitigating spurious correlations. We release our code to reproduce the experiments at https://github.com/SriramB-98/vit-decompose

arxiv情報

著者 Sriram Balasubramanian,Samyadeep Basu,Soheil Feizi
発行日 2024-10-21 17:25:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.5.1 | Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP はコメントを受け付けていません

Managing Bandwidth: The Key to Cloud-Assisted Autonomous Driving

要約

一般的な通念では、自動運転車のような重要なリアルタイム制御システムをクラウドに依存することはできないと主張されています。
私たちはそれが可能であり、そうしなければならないと主張します。
モデル サイズの増大、ハードウェアの改善、モバイル ネットワークの進化に伴い、時間に敏感でレイテンシー クリティカルなコンピューティングの一部をクラウドにオフロードする機会を特定しています。
これを行うには、車両へのメリットを最大化しながら、厳格な遅延 SLO を満たすように帯域幅を慎重に割り当てる必要があります。

要約(オリジナル)

Prevailing wisdom asserts that one cannot rely on the cloud for critical real-time control systems like self-driving cars. We argue that we can, and must. Following the trends of increasing model sizes, improvements in hardware, and evolving mobile networks, we identify an opportunity to offload parts of time-sensitive and latency-critical compute to the cloud. Doing so requires carefully allocating bandwidth to meet strict latency SLOs, while maximizing benefit to the car.

arxiv情報

著者 Alexander Krentsel,Peter Schafhalter,Joseph E. Gonzalez,Sylvia Ratnasamy,Scott Shenker,Ion Stoica
発行日 2024-10-21 17:32:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.NI, cs.SY, eess.SY | Managing Bandwidth: The Key to Cloud-Assisted Autonomous Driving はコメントを受け付けていません

LLaVA-KD: A Framework of Distilling Multimodal Large Language Models

要約

大規模言語モデル (LLM) の成功により、研究者は統合された視覚的および言語的理解を目的としたマルチモーダル大規模言語モデル (MLLM) を探索するようになりました。
ただし、MLLM のモデル サイズと計算の複雑さの増大により、リソースに制約のある環境での使用は制限されます。
小規模 MLLM (s-MLLM) は、大規模モデル (l-MLLM) の機能を保持しながら計算要求を削減することを目的としていますが、パフォーマンスが大幅に低下します。
前述の問題に対処するために、l-MLLM から s-MLLM に知識を転送するための新しい LLaVA-KD フレームワークを提案します。
具体的には、l-MLLM と s-MLLM の視覚とテキストの出力分布間の乖離を最小限に抑えるためのマルチモーダル蒸留 (MDist) と、視覚的特徴間の相関関係をモデル化する l-MLLM の機能を伝達するための関係蒸留 (RDist) を導入します。
さらに、s-MLLM の可能性を最大限に活用するための 3 段階のトレーニング スキームを提案します。1) 視覚的テキスト表現を調整するための抽出された事前トレーニング、2) モデルにマルチモーダルな理解を備えるための教師あり微調整、および 3)
l-MLLM 機能をさらに継承するための精密な調整。
私たちのアプローチは、小規模モデルのアーキテクチャを変更することなく、パフォーマンスを大幅に向上させます。
広範な実験とアブレーション研究により、提案された各コンポーネントの有効性が検証されています。
コードは https://github.com/caiyuxuan1120/LLaVA-KD で入手できます。

要約(オリジナル)

The success of Large Language Models (LLM) has led researchers to explore Multimodal Large Language Models (MLLM) for unified visual and linguistic understanding. However, the increasing model size and computational complexity of MLLM limit their use in resource-constrained environments. Small-scale MLLM (s-MLLM) aims to retain the capabilities of the large-scale model (l-MLLM) while reducing computational demands, but resulting in a significant decline in performance. To address the aforementioned issues, we propose a novel LLaVA-KD framework to transfer knowledge from l-MLLM to s-MLLM. Specifically, we introduce Multimodal Distillation (MDist) to minimize the divergence between the visual-textual output distributions of l-MLLM and s-MLLM, and Relation Distillation (RDist) to transfer l-MLLM’s ability to model correlations between visual features. Additionally, we propose a three-stage training scheme to fully exploit the potential of s-MLLM: 1) Distilled Pre-Training to align visual-textual representations, 2) Supervised Fine-Tuning to equip the model with multimodal understanding, and 3) Distilled Fine-Tuning to further transfer l-MLLM capabilities. Our approach significantly improves performance without altering the small model’s architecture. Extensive experiments and ablation studies validate the effectiveness of each proposed component. Code will be available at https://github.com/caiyuxuan1120/LLaVA-KD.

arxiv情報

著者 Yuxuan Cai,Jiangning Zhang,Haoyang He,Xinwei He,Ao Tong,Zhenye Gan,Chengjie Wang,Xiang Bai
発行日 2024-10-21 17:41:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LLaVA-KD: A Framework of Distilling Multimodal Large Language Models はコメントを受け付けていません

Deep Radiomics Detection of Clinically Significant Prostate Cancer on Multicenter MRI: Initial Comparison to PI-RADS Assessment

要約

目的: 臨床的に重要な前立腺がん (csPCa、グレード グループ >= 2) 検出のためのディープ ラジオミクス モデルを開発および評価し、そのパフォーマンスを多施設コホートにおける前立腺画像レポートおよびデータ システム (PI-RADS) 評価と比較する。
材料と方法:この後ろ向き研究では、2010 年から 2020 年の間に取得された 4 つのデータセット(PROSTATEx チャレンジ、Prostate158 チャレンジ、PCaMAP 試験、および
社内 (NTNU/St. Olavs Hospital) データセット。
専門家の注釈をグラウンド トゥルースとして使用して、前立腺の nnU-Net セグメンテーション、ボクセル単位のラジオミクス特徴抽出、極端な勾配ブースト分類、csPCa 検出マップへの腫瘍確率マップの後処理を含むディープ ラジオミクス モデルがトレーニングされました。
トレーニングには、PROSTATEx (n=199)、Prostate158 (n=138)、および PCaMAP (n=78) データセットを使用した 5 重交差検証と、社内 (n=200) データセットでのテストが含まれていました。
患者および病変レベルのパフォーマンスは、ROC 曲線下面積 (AUROC [95% CI])、感度、および特異性分析を使用して PI-RADS と比較されました。
結果: 検査データに関して、放射線科医は、PI-RADS >= 3 で感度 94% (75/80) および特異度 77% (92/120) で、患者レベルの AUROC 0.94 [0.91-0.98] を達成しました。
腫瘍確率カットオフ >= 0.76 のラジオミクス モデルは、90% (72/80) の感度と 73% (87/120) の特異性を備えた 0.91 [0.86-0.95] AUROC を達成し、PI-と有意差はありません (p = 0.068)。
ラッズ。
病変レベルでは、PI-RADS カットオフ >= 3 では、患者あたり 0.2 (40/200) の偽陽性で 84% (91/108) の感度が得られましたが、ディープ ラジオミクスは同じ条件で 68% (73/108) の感度を達成しました。
偽陽性率。
結論: ディープラジオミクス機械学習モデルは、患者レベルでの csPCa 検出において PI-RADS 評価と同等のパフォーマンスを達成しましたが、病変レベルでは達成できませんでした。

要約(オリジナル)

Objective: To develop and evaluate a deep radiomics model for clinically significant prostate cancer (csPCa, grade group >= 2) detection and compare its performance to Prostate Imaging Reporting and Data System (PI-RADS) assessment in a multicenter cohort. Materials and Methods: This retrospective study analyzed biparametric (T2W and DW) prostate MRI sequences of 615 patients (mean age, 63.1 +/- 7 years) from four datasets acquired between 2010 and 2020: PROSTATEx challenge, Prostate158 challenge, PCaMAP trial, and an in-house (NTNU/St. Olavs Hospital) dataset. With expert annotations as ground truth, a deep radiomics model was trained, including nnU-Net segmentation of the prostate gland, voxel-wise radiomic feature extraction, extreme gradient boost classification, and post-processing of tumor probability maps into csPCa detection maps. Training involved 5-fold cross-validation using the PROSTATEx (n=199), Prostate158 (n=138), and PCaMAP (n=78) datasets, and testing on the in-house (n=200) dataset. Patient- and lesion-level performance were compared to PI-RADS using area under ROC curve (AUROC [95% CI]), sensitivity, and specificity analysis. Results: On the test data, the radiologist achieved a patient-level AUROC of 0.94 [0.91-0.98] with 94% (75/80) sensitivity and 77% (92/120) specificity at PI-RADS >= 3. The deep radiomics model at a tumor probability cut-off >= 0.76 achieved 0.91 [0.86-0.95] AUROC with 90% (72/80) sensitivity and 73% (87/120) specificity, not significantly different (p = 0.068) from PI-RADS. On the lesion level, PI-RADS cut-off >= 3 had 84% (91/108) sensitivity at 0.2 (40/200) false positives per patient, while deep radiomics attained 68% (73/108) sensitivity at the same false positive rate. Conclusion: Deep radiomics machine learning model achieved comparable performance to PI-RADS assessment in csPCa detection at the patient-level but not at the lesion-level.

arxiv情報

著者 G. A. Nketiah,M. R. Sunoqrot,E. Sandsmark,S. Langørgen,K. M. Selnæs,H. Bertilsson,M. Elschot,T. F. Bathen
発行日 2024-10-21 17:41:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Deep Radiomics Detection of Clinically Significant Prostate Cancer on Multicenter MRI: Initial Comparison to PI-RADS Assessment はコメントを受け付けていません

MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report

要約

この論文では、X 線、心電図 (ECG)、および放射線学/心臓病学のレポートを相乗的に組み合わせる、新しいマルチモーダル造影事前トレーニング フレームワークを紹介します。
私たちのアプローチは、トランスフォーマーを活用してこれらの多様なモダリティを統一された表現空間にエンコードし、診断精度を高め、包括的な患者評価を促進することを目指しています。
LoRA-Peft を利用して LLM のトレーニング可能なパラメータを大幅に削減し、視覚トランスフォーマー (ViT) に最近の線形注意低下戦略を組み込んで、よりスムーズな注意を実現します。
さらに、モデルに対して新しいマルチモーダルな注意の説明と検索を提供します。
私たちの知る限り、X 線、ECG、および放射線科/心臓病レポートとこのアプローチを組み合わせた統合モデルを提案したのは当社が初めてです。
MoRE は、コントラスト損失を利用することで、モダリティ固有の特徴をコヒーレントな埋め込みに効果的に調整し、ゼロショット分類やマルチモーダル検索などのさまざまな下流タスクをサポートします。
私たちが提案した方法論を採用することで、Mimic-IV、CheXpert、浮腫重症度、および PtbXl の下流データセットで、既存のマルチモーダル アプローチを超える最先端 (SOTA) を実現します。
私たちが提案したフレームワークは、複雑なモード間の関係の把握と医療診断における堅牢性の大幅な改善を示しており、医療分野におけるマルチモーダル学習の将来の研究のフレームワークを確立します。

要約(オリジナル)

In this paper, we introduce a novel Multi-Modal Contrastive Pre-training Framework that synergistically combines X-rays, electrocardiograms (ECGs), and radiology/cardiology reports. Our approach leverages transformers to encode these diverse modalities into a unified representation space, aiming to enhance diagnostic accuracy and facilitate comprehensive patient assessments. We utilize LoRA-Peft to significantly reduce trainable parameters in the LLM and incorporate recent linear attention dropping strategy in the Vision Transformer(ViT) for smoother attention. Furthermore, we provide novel multimodal attention explanations and retrieval for our model. To the best of our knowledge, we are the first to propose an integrated model that combines X-ray, ECG, and Radiology/Cardiology Report with this approach. By utilizing contrastive loss, MoRE effectively aligns modality-specific features into a coherent embedding, which supports various downstream tasks such as zero-shot classification and multimodal retrieval. Employing our proposed methodology, we achieve state-of-the-art (SOTA) on the Mimic-IV, CheXpert, Edema Severity, and PtbXl downstream datasets, surpassing existing multimodal approaches. Our proposed framework shows significant improvements in capturing intricate inter-modal relationships and its robustness in medical diagnosis that establishes a framework for future research in multimodal learning in the healthcare sector.

arxiv情報

著者 Samrajya Thapa,Koushik Howlader,Subhankar Bhattacharjee,Wei le
発行日 2024-10-21 17:42:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report はコメントを受け付けていません

Revisiting Deep Feature Reconstruction for Logical and Structural Industrial Anomaly Detection

要約

産業用異常検出は品質管理と予知保全にとって重要ですが、トレーニング データが限られていること、異常の種類が多様であること、物体の外観を変える外部要因により課題が生じます。
既存の方法は一般に、事前に訓練された深いネットワークを通じて抽出された画像パッチからのマルチスケール特徴を活用することで、へこみや傷などの構造異常を検出します。
ただし、多くのメモリと計算の需要により、実際の応用が制限されることがよくあります。
さらに、要素が欠落している、または過剰な画像などの論理的な異常を検出するには、従来のパッチベースの方法では捉えることができない空間的関係を理解する必要があります。
この研究では、構造異常を検出するためのメモリ効率と計算効率の高いアプローチである深層特徴再構成 (DFR) に焦点を当てることで、これらの制限に対処します。
私たちは DFR をさらに強化して、構造的異常と論理的異常の両方を検出できる ULSAD と呼ばれる統合フレームワークに組み込みます。
具体的には、構造異常検出のパフォーマンスを向上させるために DFR トレーニング目標を改良するとともに、論理異常検出を処理するためにグローバル オートエンコーダのようなネットワークを使用した注意ベースの損失メカニズムを導入します。
5 つのベンチマーク データセットにわたる当社の経験的評価では、構造的異常と論理的異常の両方を検出して位置特定する際の ULSAD のパフォーマンスが、8 つの最先端の手法を上回っていることが実証されました。
広範なアブレーション研究により、全体的なパフォーマンス向上に対する各コンポーネントの貢献がさらに強調されています。
私たちのコードは https://github.com/sukanyapatra1997/ULSAD-2024.git で入手できます。

要約(オリジナル)

Industrial anomaly detection is crucial for quality control and predictive maintenance, but it presents challenges due to limited training data, diverse anomaly types, and external factors that alter object appearances. Existing methods commonly detect structural anomalies, such as dents and scratches, by leveraging multi-scale features from image patches extracted through deep pre-trained networks. However, significant memory and computational demands often limit their practical application. Additionally, detecting logical anomalies-such as images with missing or excess elements-requires an understanding of spatial relationships that traditional patch-based methods fail to capture. In this work, we address these limitations by focusing on Deep Feature Reconstruction (DFR), a memory- and compute-efficient approach for detecting structural anomalies. We further enhance DFR into a unified framework, called ULSAD, which is capable of detecting both structural and logical anomalies. Specifically, we refine the DFR training objective to improve performance in structural anomaly detection, while introducing an attention-based loss mechanism using a global autoencoder-like network to handle logical anomaly detection. Our empirical evaluation across five benchmark datasets demonstrates the performance of ULSAD in detecting and localizing both structural and logical anomalies, outperforming eight state-of-the-art methods. An extensive ablation study further highlights the contribution of each component to the overall performance improvement. Our code is available at https://github.com/sukanyapatra1997/ULSAD-2024.git

arxiv情報

著者 Sukanya Patra,Souhaib Ben Taieb
発行日 2024-10-21 17:56:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Revisiting Deep Feature Reconstruction for Logical and Structural Industrial Anomaly Detection はコメントを受け付けていません

Elucidating the design space of language models for image generation

要約

テキスト生成における自己回帰 (AR) 言語モデルの成功により、コンピューター ビジョン コミュニティは画像生成に大規模言語モデル (LLM) を採用するようになりました。
しかし、テキストと画像のモダリティの本質的な違いを考慮すると、画像生成のための言語モデルの設計空間は依然として十分に研究されていません。
画像トークンはテキスト トークンと比較してより大きなランダム性を示し、トークン予測を使用してトレーニングする際に課題が生じることが観察されました。
それにもかかわらず、AR モデルは、一見最適ではない最適化問題からでもパターンを効果的に学習することでその可能性を実証します。
私たちの分析では、すべてのモデルが画像生成におけるローカル情報の重要性をうまく把握している一方で、より小さなモデルはグローバルなコンテキストを把握するのに苦労していることも明らかになりました。
対照的に、より大きなモデルではこの領域の機能が向上しており、モデル サイズをスケールアップしたときに達成されるパフォーマンスの向上を説明するのに役立ちます。
広範な比較実験を通じて、トークナイザーの選択、モデルの選択、モデルのスケーラビリティ、語彙設計、サンプリング戦略など、ビジョン生成のための言語モデルの設計空間をさらに解明します。
私たちの研究は、ビジョン生成における言語モデルの最適化動作を初めて分析したものであり、LM を他のドメインに適用する際に、より効果的な設計を促すことができると考えています。
最後に、ELM と呼ばれる画像生成用の解明された言語モデルは、ImageNet 256*256 ベンチマークで最先端のパフォーマンスを達成します。
コードは https://github.com/Pepperlll/LMforImageGeneration.git で入手できます。

要約(オリジナル)

The success of autoregressive (AR) language models in text generation has inspired the computer vision community to adopt Large Language Models (LLMs) for image generation. However, considering the essential differences between text and image modalities, the design space of language models for image generation remains underexplored. We observe that image tokens exhibit greater randomness compared to text tokens, which presents challenges when training with token prediction. Nevertheless, AR models demonstrate their potential by effectively learning patterns even from a seemingly suboptimal optimization problem. Our analysis also reveals that while all models successfully grasp the importance of local information in image generation, smaller models struggle to capture the global context. In contrast, larger models showcase improved capabilities in this area, helping to explain the performance gains achieved when scaling up model size. We further elucidate the design space of language models for vision generation, including tokenizer choice, model choice, model scalability, vocabulary design, and sampling strategy through extensive comparative experiments. Our work is the first to analyze the optimization behavior of language models in vision generation, and we believe it can inspire more effective designs when applying LMs to other domains. Finally, our elucidated language model for image generation, termed as ELM, achieves state-of-the-art performance on the ImageNet 256*256 benchmark. The code is available at https://github.com/Pepperlll/LMforImageGeneration.git.

arxiv情報

著者 Xuantong Liu,Shaozhe Hao,Xianbiao Qi,Tianyang Hu,Jun Wang,Rong Xiao,Yuan Yao
発行日 2024-10-21 17:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Elucidating the design space of language models for image generation はコメントを受け付けていません

Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos

要約

我々は、カジュアルな縦断ビデオコレクションから 3D エージェントのインタラクティブな行動モデルを学習するためのフレームワークである Agent-to-Sim (ATS) を紹介します。
マーカーベースの追跡や多視点カメラに依存するこれまでの研究とは異なり、ATS は、単一環境で長期間 (1 か月など) にわたって記録されたビデオ観察を通じて、動物と人間のエージェントの自然な行動を非侵襲的に学習します。
エージェントの 3D 動作をモデル化するには、長期間にわたる持続的な 3D 追跡 (たとえば、どの点がどの点に対応するかを知る) が必要です。
このようなデータを取得するために、標準 3D 空間を通じてエージェントとカメラを時間の経過とともに追跡する、粗いから細かいまでの位置合わせ方法を開発し、その結果、完全で永続的な時空 4D 表現が得られます。
次に、4D 再構成からクエリされたエージェントの知覚と動作のペアのデータを使用して、エージェントの行動の生成モデルをトレーニングします。
ATS により、エージェントのビデオ録画から対話型行動シミュレーターへのリアルからシムへの転送が可能になります。
ペット (猫、犬、ウサギなど) と人間のスマートフォンで撮影した単眼 RGBD ビデオの結果を示します。

要約(オリジナル)

We present Agent-to-Sim (ATS), a framework for learning interactive behavior models of 3D agents from casual longitudinal video collections. Different from prior works that rely on marker-based tracking and multiview cameras, ATS learns natural behaviors of animal and human agents non-invasively through video observations recorded over a long time-span (e.g., a month) in a single environment. Modeling 3D behavior of an agent requires persistent 3D tracking (e.g., knowing which point corresponds to which) over a long time period. To obtain such data, we develop a coarse-to-fine registration method that tracks the agent and the camera over time through a canonical 3D space, resulting in a complete and persistent spacetime 4D representation. We then train a generative model of agent behaviors using paired data of perception and motion of an agent queried from the 4D reconstruction. ATS enables real-to-sim transfer from video recordings of an agent to an interactive behavior simulator. We demonstrate results on pets (e.g., cat, dog, bunny) and human given monocular RGBD videos captured by a smartphone.

arxiv情報

著者 Gengshan Yang,Andrea Bajcsy,Shunsuke Saito,Angjoo Kanazawa
発行日 2024-10-21 17:57:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.RO | Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos はコメントを受け付けていません