Unraveling the Truth: Do VLMs really Understand Charts? A Deep Dive into Consistency and Robustness

要約

図表質問応答(CQA)は、視覚言語理解の重要な分野である。しかし、この分野における現在の視覚言語モデル(VLM)の頑健性と一貫性は、まだ十分に検討されていない。この論文では、この研究のために特別に開発された、多様な質問カテゴリとチャート形式を含む包括的なデータセットを用いて、最先端のVLMを評価する。我々は2つの重要な側面を調査する:1)様々なレベルの図表と質問の複雑さを扱うモデルの能力、2)同じ基礎データの異なる視覚的表現に対するモデルの頑健性。我々の分析により、質問と図表の種類によって性能が大きく異なることが明らかになり、現在のモデルの長所と短所の両方が浮き彫りになった。さらに、よりロバストで信頼性の高いCQAシステムを構築するために、改善すべき領域を特定し、今後の研究の方向性を提案する。本研究は、現在のモデルの限界に光を当て、この分野における将来の進歩への道を開くものである。

要約(オリジナル)

Chart question answering (CQA) is a crucial area of Visual Language Understanding. However, the robustness and consistency of current Visual Language Models (VLMs) in this field remain under-explored. This paper evaluates state-of-the-art VLMs on comprehensive datasets, developed specifically for this study, encompassing diverse question categories and chart formats. We investigate two key aspects: 1) the models’ ability to handle varying levels of chart and question complexity, and 2) their robustness across different visual representations of the same underlying data. Our analysis reveals significant performance variations based on question and chart types, highlighting both strengths and weaknesses of current models. Additionally, we identify areas for improvement and propose future research directions to build more robust and reliable CQA systems. This study sheds light on the limitations of current models and paves the way for future advancements in the field.

arxiv情報

著者 Srija Mukhopadhyay,Adnan Qidwai,Aparna Garimella,Pritika Ramu,Vivek Gupta,Dan Roth
発行日 2024-10-04 16:52:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC, cs.LG | コメントする

AID: Attention Interpolation of Text-to-Image Diffusion

要約

条件拡散モデルは、様々な環境において未見の画像を作成し、画像補間を支援することができる。潜在空間での補間はよく研究されているが、テキストやポーズなどの特定の条件での補間はあまり理解されていない。条件の空間における線形補間のような単純なアプローチは、しばしば一貫性、滑らかさ、忠実さに欠ける画像になる。そのため、我々はAttention Interpolation via Diffusion (AID)と名付けた、トレーニング不要の新しい手法を紹介する。我々の主な貢献は、1)内側/外側に補間された注意層を提案すること、2)補間された注意を自己注意と融合させて忠実度を高めること、3)ベータ分布を選択に適用して滑らかさを高めること、などである。また、補間過程を条件依存の生成過程と見なす、拡散を介したプロンプト誘導型注意補間法(PAID)も紹介する。この方法は、より高い一貫性、滑らかさ、効率性を持つ新しい画像の生成を可能にし、補間の正確な経路を制御することができる。我々のアプローチは、概念的補間と空間的補間の有効性を実証している。コードとデモはhttps://github.com/QY-H00/attention-interpolation-diffusion。

要約(オリジナル)

Conditional diffusion models can create unseen images in various settings, aiding image interpolation. Interpolation in latent spaces is well-studied, but interpolation with specific conditions like text or poses is less understood. Simple approaches, such as linear interpolation in the space of conditions, often result in images that lack consistency, smoothness, and fidelity. To that end, we introduce a novel training-free technique named Attention Interpolation via Diffusion (AID). Our key contributions include 1) proposing an inner/outer interpolated attention layer; 2) fusing the interpolated attention with self-attention to boost fidelity; and 3) applying beta distribution to selection to increase smoothness. We also present a variant, Prompt-guided Attention Interpolation via Diffusion (PAID), that considers interpolation as a condition-dependent generative process. This method enables the creation of new images with greater consistency, smoothness, and efficiency, and offers control over the exact path of interpolation. Our approach demonstrates effectiveness for conceptual and spatial interpolation. Code and demo are available at https://github.com/QY-H00/attention-interpolation-diffusion.

arxiv情報

著者 Qiyuan He,Jinghao Wang,Ziwei Liu,Angela Yao
発行日 2024-10-04 17:09:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | コメントする

HyperCMR: Enhanced Multi-Contrast CMR Reconstruction with Eagle Loss

要約

心臓磁気共鳴画像法(CMRI)の画像取得を高速化することは重要な課題である。CMRxRecon2024チャレンジは、マルチコントラストCMR再構成の最先端技術を確立することを目的としている。本稿では、マルチコントラスト心臓磁気共鳴(CMR)画像の再構成を高速化するために設計された新しいフレームワークであるHyperCMRを紹介する。HyperCMRは、既存のPromptMRモデルを高度な損失関数、特にアンダーサンプリングされたk空間において欠落した高周波数情報を回復するために特別に設計された革新的なEagle Lossを組み込むことによって強化する。CMRxRecon2024チャレンジデータセットで実施された広範な実験では、HyperCMRが複数の評価指標において一貫してベースラインを上回り、優れたSSIMとPSNRスコアを達成していることが実証されています。

要約(オリジナル)

Accelerating image acquisition for cardiac magnetic resonance imaging (CMRI) is a critical task. CMRxRecon2024 challenge aims to set the state of the art for multi-contrast CMR reconstruction. This paper presents HyperCMR, a novel framework designed to accelerate the reconstruction of multi-contrast cardiac magnetic resonance (CMR) images. HyperCMR enhances the existing PromptMR model by incorporating advanced loss functions, notably the innovative Eagle Loss, which is specifically designed to recover missing high-frequency information in undersampled k-space. Extensive experiments conducted on the CMRxRecon2024 challenge dataset demonstrate that HyperCMR consistently outperforms the baseline across multiple evaluation metrics, achieving superior SSIM and PSNR scores.

arxiv情報

著者 Ruru Xu,Caner Özer,Ilkay Oksuz
発行日 2024-10-04 17:29:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | コメントする

Scattering Spectra Models for Physics

要約

物理学者は、パラメータ推論や場の新しい実像の生成など、多くの作業において確率モデルを日常的に必要としている。高度に非ガウス的な場に対するそのようなモデルを確立することは、特にサンプル数が限られている場合には困難である。本論文では、定常場の散乱スペクトルモデルを紹介し、物理学で遭遇する広範な場の正確で頑健な統計的記述を提供することを示す。これらのモデルは散乱係数の共分散、すなわち場のウェーブレット分解と点ごとのモジュラスに基づいている。回転とスケーリングの下での場の規則性を利用した有用な次元削減を導入した後、これらのモデルを様々なマルチスケールの物理場で検証し、4次までの空間モーメントを含む標準的な統計量を再現することを示す。これらの散乱スペクトルは、広範な物理分野で遭遇する重要な性質を捉えた低次元の構造化表現を提供する。これらの一般的なモデルは、データ探索、分類、パラメータ推論、対称性の検出、成分分離に用いることができる。

要約(オリジナル)

Physicists routinely need probabilistic models for a number of tasks such as parameter inference or the generation of new realizations of a field. Establishing such models for highly non-Gaussian fields is a challenge, especially when the number of samples is limited. In this paper, we introduce scattering spectra models for stationary fields and we show that they provide accurate and robust statistical descriptions of a wide range of fields encountered in physics. These models are based on covariances of scattering coefficients, i.e. wavelet decomposition of a field coupled with a point-wise modulus. After introducing useful dimension reductions taking advantage of the regularity of a field under rotation and scaling, we validate these models on various multi-scale physical fields and demonstrate that they reproduce standard statistics, including spatial moments up to 4th order. These scattering spectra provide us with a low-dimensional structured representation that captures key properties encountered in a wide range of physical fields. These generic models can be used for data exploration, classification, parameter inference, symmetry detection, and component separation.

arxiv情報

著者 Sihao Cheng,Rudy Morel,Erwan Allys,Brice Ménard,Stéphane Mallat
発行日 2024-10-04 17:46:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: astro-ph.IM, cs.CV, cs.LG, physics.data-an | コメントする

Unlearnable 3D Point Clouds: Class-wise Transformation Is All You Need

要約

従来の学習不可能な戦略は、2D画像データに対する不正ユーザーの学習を防止するために提案されてきた。より多くの3次元点群データが機密情報を含むようになり、この新しいタイプのデータの不正使用も深刻な問題となっている。(i)カテゴリ適応的な割り当て戦略によって確立されたクラス単位の設定と、サンプルに割り当てられた多重変換を含む、学習不可能なデータ保護スキームを提案する。(ii)クラス単位の逆行列変換を利用するデータ復元スキームを提案し、学習不可能なデータに対する許可された訓練のみを可能にする。(ii)クラス毎の逆行列変換を利用したデータ復元スキームを提案し、未学習データに対する認可者のみの学習を可能にする。この復元プロセスは、既存の未学習データに関する文献の多くで見落とされている現実的な問題である。理論的・実証的な結果(6つのデータセット、16のモデル、2つのタスクを含む)は、我々の提案する学習不可能なフレームワークの有効性を示している。我々のコードは ﹑https://github.com/CGCL-codes/UnlearnablePC ﹑ で入手可能である。

要約(オリジナル)

Traditional unlearnable strategies have been proposed to prevent unauthorized users from training on the 2D image data. With more 3D point cloud data containing sensitivity information, unauthorized usage of this new type data has also become a serious concern. To address this, we propose the first integral unlearnable framework for 3D point clouds including two processes: (i) we propose an unlearnable data protection scheme, involving a class-wise setting established by a category-adaptive allocation strategy and multi-transformations assigned to samples; (ii) we propose a data restoration scheme that utilizes class-wise inverse matrix transformation, thus enabling authorized-only training for unlearnable data. This restoration process is a practical issue overlooked in most existing unlearnable literature, \ie, even authorized users struggle to gain knowledge from 3D unlearnable data. Both theoretical and empirical results (including 6 datasets, 16 models, and 2 tasks) demonstrate the effectiveness of our proposed unlearnable framework. Our code is available at \url{https://github.com/CGCL-codes/UnlearnablePC}

arxiv情報

著者 Xianlong Wang,Minghui Li,Wei Liu,Hangtao Zhang,Shengshan Hu,Yechao Zhang,Ziqi Zhou,Hai Jin
発行日 2024-10-04 17:49:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs

要約

今日のロボットシミュレーションは、多様なシミュレーションタスクとシーンを作成するために必要な人的努力のために、スケールアップが困難なままです。また、シミュレーションで訓練されたポリシーも、多くのシミュレーションからリアルへの手法が単一のタスクに焦点を当てるため、スケーラビリティの問題に直面している。これらの課題に対処するため、本研究では、マルチモーダルおよび推論機能を備えた符号化LLMを活用し、多関節オブジェクトを含むロングホライズンタスクを含む複雑でリアルなシミュレーションタスクを作成するスケーラブルなフレームワークであるGenSim2を提案する。これらのタスクの実証データを大規模に自動生成するために、オブジェクトカテゴリ内で汎化するプランニングとRLソルバを提案する。このパイプラインは、最大100の多関節タスクと200のオブジェクトのデータを生成することができ、必要な人間の労力を削減することができる。このようなデータを利用するために、我々は、生成されたデモンストレーションから学習し、強力なシムからリアルへのゼロショット転送を示す、固有知覚点群変換器(PPT)と呼ばれる、効果的なマルチタスク言語条件付きポリシーアーキテクチャを提案する。提案するパイプラインと政策アーキテクチャを組み合わせることで、GenSim2の有望な利用法を示す。生成されたデータをゼロショット転送に利用したり、実世界で収集されたデータと協調学習することで、限られた実データのみで学習する場合と比較して、政策性能を20%向上させることができる。

要約(オリジナル)

Robotic simulation today remains challenging to scale up due to the human efforts required to create diverse simulation tasks and scenes. Simulation-trained policies also face scalability issues as many sim-to-real methods focus on a single task. To address these challenges, this work proposes GenSim2, a scalable framework that leverages coding LLMs with multi-modal and reasoning capabilities for complex and realistic simulation task creation, including long-horizon tasks with articulated objects. To automatically generate demonstration data for these tasks at scale, we propose planning and RL solvers that generalize within object categories. The pipeline can generate data for up to 100 articulated tasks with 200 objects and reduce the required human efforts. To utilize such data, we propose an effective multi-task language-conditioned policy architecture, dubbed proprioceptive point-cloud transformer (PPT), that learns from the generated demonstrations and exhibits strong sim-to-real zero-shot transfer. Combining the proposed pipeline and the policy architecture, we show a promising usage of GenSim2 that the generated data can be used for zero-shot transfer or co-train with real-world collected data, which enhances the policy performance by 20% compared with training exclusively on limited real data.

arxiv情報

著者 Pu Hua,Minghuan Liu,Annabella Macaluso,Yunfeng Lin,Weinan Zhang,Huazhe Xu,Lirui Wang
発行日 2024-10-04 17:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする

DiffusionPID: Interpreting Diffusion via Partial Information Decomposition

要約

テキストから画像への拡散モデルは、テキスト入力から自然な画像を生成する上で大きな進歩を遂げており、複雑な視覚的意味関係を学習し表現する能力を示している。これらの拡散モデルは目覚ましい成功を収めたが、その性能を駆動する根本的なメカニズムはまだ十分に説明されておらず、拡散モデルが何を学習するのか、どのように視覚的意味関係を表現するのか、なぜ汎化に失敗することがあるのか、など多くの未解決の疑問がある。本研究では、情報理論的原理を応用して入力テキストプロンプトを基本要素に分解し、個々のトークンとその相互作用が生成された画像をどのように形成するかを詳細に調べることができる新しい手法である拡散部分情報分解(DiffusionPID)を紹介する。PIDを画像とピクセルの両方のレベルでノイズ除去モデルに適用することで、一意性、冗長性、相乗効果の項を分析する形式的アプローチを導入する。このアプローチにより、個々のトークンとその相互作用がモデル出力にどのような影響を与えるかを特徴付けることができる。我々はまず、特定の概念を一意に定位させるためにモデルによって利用される特性のきめ細かな分析を提示し、次に我々のアプローチをバイアス分析に適用し、性別と民族性のバイアスを回復できることを示す。最後に、モデルの観点から単語の曖昧性と類似性を視覚的に特徴付けるために我々の方法を使用し、迅速な介入に対する我々の方法の有効性を示す。我々の結果は、PIDがテキストから画像への拡散モデルの評価と診断のための強力なツールであることを示している。

要約(オリジナル)

Text-to-image diffusion models have made significant progress in generating naturalistic images from textual inputs, and demonstrate the capacity to learn and represent complex visual-semantic relationships. While these diffusion models have achieved remarkable success, the underlying mechanisms driving their performance are not yet fully accounted for, with many unanswered questions surrounding what they learn, how they represent visual-semantic relationships, and why they sometimes fail to generalize. Our work presents Diffusion Partial Information Decomposition (DiffusionPID), a novel technique that applies information-theoretic principles to decompose the input text prompt into its elementary components, enabling a detailed examination of how individual tokens and their interactions shape the generated image. We introduce a formal approach to analyze the uniqueness, redundancy, and synergy terms by applying PID to the denoising model at both the image and pixel level. This approach enables us to characterize how individual tokens and their interactions affect the model output. We first present a fine-grained analysis of characteristics utilized by the model to uniquely localize specific concepts, we then apply our approach in bias analysis and show it can recover gender and ethnicity biases. Finally, we use our method to visually characterize word ambiguity and similarity from the model’s perspective and illustrate the efficacy of our method for prompt intervention. Our results show that PID is a potent tool for evaluating and diagnosing text-to-image diffusion models.

arxiv情報

著者 Shaurya Dewan,Rushikesh Zawar,Prakanshul Saxena,Yingshan Chang,Andrew Luo,Yonatan Bisk
発行日 2024-10-04 17:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Unraveling Cross-Modality Knowledge Conflict in Large Vision-Language Models

要約

大規模視覚言語モデル(LVLM)は、マルチモーダル入力をキャプチャし、推論するための素晴らしい能力を実証してきた。しかし、これらのモデルは、視覚と言語の構成要素間で表現される知識の矛盾から生じるパラメトリック知識衝突を起こしやすい。本稿では、$textbf{cross-modality parametric knowledge conflict}$問題を正式に定義し、それを検出、解釈、緩和する体系的なアプローチを示す。我々は、視覚的な答えとテキスト的な答えの間の衝突を識別するパイプラインを導入し、モデルサイズに関係なく、最近のLVLMにおいてモダリティ間の衝突率が持続的に高いことを示す。さらに、これらの競合が推論プロセスをどのように妨害するかを調査し、競合するサンプルを他のサンプルから識別するための対照的なメトリックを提案する。これらの洞察に基づき、答えの確信度に基づいて、確信度の低いモダリティ成分から推論された望ましくないロジットを除去する、新しい動的な対照的デコーディング手法を開発する。ロジットを提供しないモデルに対しては、矛盾を緩和する2つのプロンプトベースの戦略も導入する。我々の手法は、ViQuAEとInfoSeekの両データセットにおいて、有望な精度向上を達成した。具体的には、LLaVA-34Bを用いた場合、我々の提案する動的コントラスト復号化により、平均2.24%の精度向上を達成した。

要約(オリジナル)

Large Vision-Language Models (LVLMs) have demonstrated impressive capabilities for capturing and reasoning over multimodal inputs. However, these models are prone to parametric knowledge conflicts, which arise from inconsistencies of represented knowledge between their vision and language components. In this paper, we formally define the problem of $\textbf{cross-modality parametric knowledge conflict}$ and present a systematic approach to detect, interpret, and mitigate them. We introduce a pipeline that identifies conflicts between visual and textual answers, showing a persistently high conflict rate across modalities in recent LVLMs regardless of the model size. We further investigate how these conflicts interfere with the inference process and propose a contrastive metric to discern the conflicting samples from the others. Building on these insights, we develop a novel dynamic contrastive decoding method that removes undesirable logits inferred from the less confident modality components based on answer confidence. For models that do not provide logits, we also introduce two prompt-based strategies to mitigate the conflicts. Our methods achieve promising improvements in accuracy on both the ViQuAE and InfoSeek datasets. Specifically, using LLaVA-34B, our proposed dynamic contrastive decoding improves an average accuracy of 2.24%.

arxiv情報

著者 Tinghui Zhu,Qin Liu,Fei Wang,Zhengzhong Tu,Muhao Chen
発行日 2024-10-04 17:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV | コメントする

Estimating Body and Hand Motion in an Ego-sensed World

要約

我々は、ヘッドマウントデバイスから人間の動きを推定するシステムEgoAlloを発表する。エゴセントリックなSLAMポーズと画像のみを用いて、EgoAlloは条件付き拡散モデルからのサンプリングをガイドし、シーンのアロセントリックな座標フレームにおける装着者の行動を捉える3D身体ポーズ、身長、手のパラメータを推定する。これを実現するために、我々の重要な洞察は表現にある。我々は、モデルの性能を向上させるための空間的・時間的不変性基準を提案し、そこから、推定を最大18%向上させる頭部運動条件付けパラメータ化を導出する。また、我々のシステムによって推定された身体が、どのように手を改善することができるかを示す。結果として得られる運動学的および時間的制約により、ノイズの多い単眼推定と比較して、手の推定誤差が40%以上減少する。プロジェクトページ: https://egoallo.github.io/

要約(オリジナル)

We present EgoAllo, a system for human motion estimation from a head-mounted device. Using only egocentric SLAM poses and images, EgoAllo guides sampling from a conditional diffusion model to estimate 3D body pose, height, and hand parameters that capture the wearer’s actions in the allocentric coordinate frame of the scene. To achieve this, our key insight is in representation: we propose spatial and temporal invariance criteria for improving model performance, from which we derive a head motion conditioning parameterization that improves estimation by up to 18%. We also show how the bodies estimated by our system can improve the hands: the resulting kinematic and temporal constraints result in over 40% lower hand estimation errors compared to noisy monocular estimates. Project page: https://egoallo.github.io/

arxiv情報

著者 Brent Yi,Vickie Ye,Maya Zheng,Lea Müller,Georgios Pavlakos,Yi Ma,Jitendra Malik,Angjoo Kanazawa
発行日 2024-10-04 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | コメントする

Learning 3D Perception from Others’ Predictions

要約

実世界環境における正確な3D物体検出には、高品質で膨大な量のアノテーションデータが必要である。このようなデータの取得は面倒で高価であり、新しいセンサの採用時や検出器が新しい環境に配置されたときに、しばしば繰り返しの労力を必要とする。我々は、3次元物体検出器を構築するための新しいシナリオとして、高精度な検出器を搭載した近くのユニットの予測から学習することを検討する。例えば、自動運転車が新しいエリアに入ったとき、そのエリアに最適化された検出器を持つ他の交通参加者から学習することができる。この設定はラベル効率に優れ、センサーに依存せず、通信効率に優れています。近くのユニットはエゴエージェント(例えば車)と予測を共有するだけでよいのです。しかしながら、エゴ・カー用の検出器を訓練するために、受信した予測値を基底真理としてナイーブに使用すると、性能が劣ることになる。我々はこの問題を系統的に研究し、視点の不一致と(同期やGPSエラーによる)ミスローカライゼーションが主な原因であることを特定する。我々は、距離ベースのカリキュラムを提案する。まず、同じような視点を持つより近いユニットから学習し、その後、自己訓練によって他のユニットの予測の質を向上させる。さらに、効果的な擬似ラベル精密化モジュールが、わずかな注釈付きデータで学習できることを実証し、物体検出器の学習に必要なデータ量を大幅に削減する。最近公開された実世界の協調運転データセットにおいて、参照車の予測をエゴ・カーの擬似ラベルとして用いて、本アプローチを検証する。いくつかのシナリオ(例えば、異なるセンサー、検出器、ドメイン)を含む広範な実験により、他のユニットの予測から3D知覚のラベル効率的学習に対する我々のアプローチの有効性を実証する。

要約(オリジナル)

Accurate 3D object detection in real-world environments requires a huge amount of annotated data with high quality. Acquiring such data is tedious and expensive, and often needs repeated effort when a new sensor is adopted or when the detector is deployed in a new environment. We investigate a new scenario to construct 3D object detectors: learning from the predictions of a nearby unit that is equipped with an accurate detector. For example, when a self-driving car enters a new area, it may learn from other traffic participants whose detectors have been optimized for that area. This setting is label-efficient, sensor-agnostic, and communication-efficient: nearby units only need to share the predictions with the ego agent (e.g., car). Naively using the received predictions as ground-truths to train the detector for the ego car, however, leads to inferior performance. We systematically study the problem and identify viewpoint mismatches and mislocalization (due to synchronization and GPS errors) as the main causes, which unavoidably result in false positives, false negatives, and inaccurate pseudo labels. We propose a distance-based curriculum, first learning from closer units with similar viewpoints and subsequently improving the quality of other units’ predictions via self-training. We further demonstrate that an effective pseudo label refinement module can be trained with a handful of annotated data, largely reducing the data quantity necessary to train an object detector. We validate our approach on the recently released real-world collaborative driving dataset, using reference cars’ predictions as pseudo labels for the ego car. Extensive experiments including several scenarios (e.g., different sensors, detectors, and domains) demonstrate the effectiveness of our approach toward label-efficient learning of 3D perception from other units’ predictions.

arxiv情報

著者 Jinsu Yoo,Zhenyang Feng,Tai-Yu Pan,Yihong Sun,Cheng Perng Phoo,Xiangyu Chen,Mark Campbell,Kilian Q. Weinberger,Bharath Hariharan,Wei-Lun Chao
発行日 2024-10-04 16:35:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする