Measuring and Improving Persuasiveness of Generative Models

要約

LLMは、人間が消費するコンテンツを生成するワークフロー(マーケティングなど)や、人間と直接対話するワークフロー(チャットボットなど)で使用されるようになってきている。検証可能な説得力のあるメッセージを生成できるこのようなシステムの開発は、社会にとってチャンスであると同時に課題でもある。一方では、このようなシステムは、広告や薬物中毒への対処のような社会的善のような領域にプラスの影響を与える可能性があり、他方では、誤った情報の拡散や政治的意見の形成に悪用される可能性がある。LLMが社会に与える影響を調整するために、我々はLLMの説得力を測定し、ベンチマークするシステムを開発する必要がある。このような動機から、我々は、生成モデルの説得力を自動的に測定するためのタスク群を含む、初の大規模ベンチマークとアリーナであるPersuasionBenchとPersuasionArenaを紹介する。我々は、LLMがより説得力のある言語を生成するのに役立つ言語パターンをどの程度知っており、活用しているかを調査する。その結果、LLMの説得力はモデルの大きさと正の相関があるが、より小さなモデルでも、より大きなモデルよりも高い説得力を持たせることができることがわかった。注目すべきは、合成データセットと自然データセットを用いた的を絞った訓練が、小規模モデルの説得力を著しく向上させ、規模依存の仮定に挑戦することである。我々の発見は、モデル開発者と政策立案者の双方に重要な示唆を与える。例えば、EUのAI法やカリフォルニア州のSB-1047は、浮動小数点演算の数に基づいてAIモデルを規制することを目指しているが、我々は、このような単純な指標だけではAIの社会的影響の全容を捉えることができないことを実証している。我々は、AIによる説得とその社会的意味合いについての理解を深めるために、https://bit.ly/measure-persuasion で利用可能な PersuasionArena と PersuasionBench を探求し、貢献することをコミュニティに呼びかける。

要約(オリジナル)

LLMs are increasingly being used in workflows involving generating content to be consumed by humans (e.g., marketing) and also in directly interacting with humans (e.g., through chatbots). The development of such systems that are capable of generating verifiably persuasive messages presents both opportunities and challenges for society. On the one hand, such systems could positively impact domains like advertising and social good, such as addressing drug addiction, and on the other, they could be misused for spreading misinformation and shaping political opinions. To channel LLMs’ impact on society, we need to develop systems to measure and benchmark their persuasiveness. With this motivation, we introduce PersuasionBench and PersuasionArena, the first large-scale benchmark and arena containing a battery of tasks to measure the persuasion ability of generative models automatically. We investigate to what extent LLMs know and leverage linguistic patterns that can help them generate more persuasive language. Our findings indicate that the persuasiveness of LLMs correlates positively with model size, but smaller models can also be made to have a higher persuasiveness than much larger models. Notably, targeted training using synthetic and natural datasets significantly enhances smaller models’ persuasive capabilities, challenging scale-dependent assumptions. Our findings carry key implications for both model developers and policymakers. For instance, while the EU AI Act and California’s SB-1047 aim to regulate AI models based on the number of floating point operations, we demonstrate that simple metrics like this alone fail to capture the full scope of AI’s societal impact. We invite the community to explore and contribute to PersuasionArena and PersuasionBench, available at https://bit.ly/measure-persuasion, to advance our understanding of AI-driven persuasion and its societal implications.

arxiv情報

著者 Somesh Singh,Yaman K Singla,Harini SI,Balaji Krishnamurthy
発行日 2024-10-03 16:36:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV | コメントする

Evaluating Perceptual Distance Models by Fitting Binomial Distributions to Two-Alternative Forced Choice Data

要約

2択強制選択(2AFC)実験法は、視覚知覚の文献でよく用いられている。実験者は、基準画像と2つの歪んだ画像からなる3連画像内の距離を、人間がどのように知覚するかを理解することを目的としている。従来、この実験法は管理された環境で行われ、3つ組の画像を共有することで、知覚される品質に順位をつけることが可能であった。このランキングは、実験データに対する知覚距離モデルの評価に使用される。近年、クラウドソーシングによる知覚データセットが登場し、トリプレット間で画像が共有されないため、ランキングをつけることが不可能になっている。このデータを用いて知覚距離モデルを評価することは、トリプレットに対する判断を二値的な判断、すなわち距離モデルが人間の判断と一致するか否かに還元することになるが、これは最適ではなく、誤解を招く結論になりやすい。その代わりに、二項分布を用いて、2AFC実験中の根本的な意思決定プロセスを統計的にモデル化する。十分な経験的データがあるため、各距離モデルに従って、参照歪み距離平面上の判断の滑らかで一貫性のある分布を推定する。最尤法を適用することにより、局所的な二項分布のパラメータを推定し、測定された応答の期待対数尤度の大域的な測定を行う。我々は、トリプレットあたりの判定数が変化する場合でも、単なる一致率としての予測精度を超えて、距離モデルに対して意味のある十分な根拠のある測定基準を計算する。

要約(オリジナル)

The two-alternative forced choice (2AFC) experimental method is popular in the visual perception literature, where practitioners aim to understand how human observers perceive distances within triplets made of a reference image and two distorted versions. In the past, this had been conducted in controlled environments, with triplets sharing images, so it was possible to rank the perceived quality. This ranking would then be used to evaluate perceptual distance models against the experimental data. Recently, crowd-sourced perceptual datasets have emerged, with no images shared between triplets, making ranking infeasible. Evaluating perceptual distance models using this data reduces the judgements on a triplet to a binary decision, namely, whether the distance model agrees with the human decision – which is suboptimal and prone to misleading conclusions. Instead, we statistically model the underlying decision-making process during 2AFC experiments using a binomial distribution. Having enough empirical data, we estimate a smooth and consistent distribution of the judgements on the reference-distorted distance plane, according to each distance model. By applying maximum likelihood, we estimate the parameter of the local binomial distribution, and a global measurement of the expected log-likelihood of the measured responses. We calculate meaningful and well-founded metrics for the distance model, beyond the mere prediction accuracy as percentage agreement, even with variable numbers of judgements per triplet — key advantages over both classical and neural network methods.

arxiv情報

著者 Alexander Hepburn,Raul Santos-Rodriguez,Javier Portilla
発行日 2024-10-03 17:10:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Generalizing Medical Image Representations via Quaternion Wavelet Networks

要約

ニューラルネットワークの汎化可能性は、様々なソースからの様々なタスクのデータセットが利用可能になりつつあるため、広範な研究分野になりつつある。この問題は、方法論的標準の欠如により、異なる画像診断センターから提供されたり、様々な装置や因子を用いて取得されたりして、大きなばらつきがある医療データを処理する場合に、さらに大きくなる。これらの制限を克服するために、我々は、医療画像から顕著な特徴を抽出することができる、データおよびタスクにとらわれない、一般化可能な新しいフレームワークを紹介する。提案する四元ウェーブレットネットワーク(QUAVE)は、既存の医用画像解析や合成タスクと容易に統合することができ、実数値、四元値、超複素数値モデルを扱うことができ、シングルチャンネルデータへの適用を一般化する。QUAVEはまず、クウォータニオンウェーブレット変換により異なるサブバンドを抽出し、低周波/近似バンドと高周波/細粒度の特徴の両方を得る。次に、標準的なデータサンプルの代わりに、画像処理用の他のニューラルモデルの入力として関与する、最も代表的なサブバンドのセットを計量する。さまざまなデータセット、多様な画像解析、再構成、セグメンテーション、モダリティ変換を含む合成タスクからなる広範な実験的評価を実施する。また、QUAVEを実数値モデルと四元数値モデルの両方と組み合わせて評価する。その結果、提案するフレームワークの有効性と汎用性が実証された。このフレームワークは、ネットワークの性能を向上させるとともに、多様なシナリオに柔軟に対応し、ドメインのシフトに頑健である。全コードはhttps://github.com/ispamm/QWT。

要約(オリジナル)

Neural network generalizability is becoming a broad research field due to the increasing availability of datasets from different sources and for various tasks. This issue is even wider when processing medical data, where a lack of methodological standards causes large variations being provided by different imaging centers or acquired with various devices and cofactors. To overcome these limitations, we introduce a novel, generalizable, data- and task-agnostic framework able to extract salient features from medical images. The proposed quaternion wavelet network (QUAVE) can be easily integrated with any pre-existing medical image analysis or synthesis task, and it can be involved with real, quaternion, or hypercomplex-valued models, generalizing their adoption to single-channel data. QUAVE first extracts different sub-bands through the quaternion wavelet transform, resulting in both low-frequency/approximation bands and high-frequency/fine-grained features. Then, it weighs the most representative set of sub-bands to be involved as input to any other neural model for image processing, replacing standard data samples. We conduct an extensive experimental evaluation comprising different datasets, diverse image analysis, and synthesis tasks including reconstruction, segmentation, and modality translation. We also evaluate QUAVE in combination with both real and quaternion-valued models. Results demonstrate the effectiveness and the generalizability of the proposed framework that improves network performance while being flexible to be adopted in manifold scenarios and robust to domain shifts. The full code is available at: https://github.com/ispamm/QWT.

arxiv情報

著者 Luigi Sigillo,Eleonora Grassucci,Aurelio Uncini,Danilo Comminiello
発行日 2024-10-03 17:13:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, eess.IV | コメントする

Lie Algebra Canonicalization: Equivariant Neural Operators under arbitrary Lie Groups

要約

ロバストで汎化可能な機械学習モデルの探求は、等変量ニューラルネットワークを通して対称性を利用することへの最近の関心を駆り立てている。PDEソルバーの文脈では、最近の研究により、リー点対称性が、データと損失の増大を通じて、物理情報ニューラルネットワーク(PINN)の有用な帰納的バイアスになり得ることが示されている。にもかかわらず、このような問題に対してモデル・アーキテクチャの中で直接的に等変数を強制することは依然として困難である。これは、多くのPDEが非コンパクトな対称群を持つためであり、しばしば、その無限小世代を越えて研究されていないため、既存のほとんどの等変量アーキテクチャと互換性がない。本研究では、Lie aLgebrA Canonicalization (LieLAC)を提案する。LieLACは、対称群の無限小演算子の作用のみを利用する新しいアプローチであり、完全な群構造の知識を必要としない。これを実現するために、我々は正準化の文献における既存の理論的問題に取り組み、連続的な非コンパクト群の場合のフレーム平均化との関連を確立する。正準化の枠組みの中で動作するLieLACは、制約のない事前訓練されたモデルと容易に統合することができ、既存のモデルに入力する前に入力を正準形式に変換し、許容される対称性に従ってモデル推論のための入力を効果的に整列させる。LieLACは標準的なリー群降下スキームを利用し、事前訓練されたモデルにおける等変数を達成する。最後に、事前に訓練されたモデルを用いた不変画像分類とリー点対称等変量ニューラルPDEソルバーのタスクにおけるLieLACの有効性を示す。

要約(オリジナル)

The quest for robust and generalizable machine learning models has driven recent interest in exploiting symmetries through equivariant neural networks. In the context of PDE solvers, recent works have shown that Lie point symmetries can be a useful inductive bias for Physics-Informed Neural Networks (PINNs) through data and loss augmentation. Despite this, directly enforcing equivariance within the model architecture for these problems remains elusive. This is because many PDEs admit non-compact symmetry groups, oftentimes not studied beyond their infinitesimal generators, making them incompatible with most existing equivariant architectures. In this work, we propose Lie aLgebrA Canonicalization (LieLAC), a novel approach that exploits only the action of infinitesimal generators of the symmetry group, circumventing the need for knowledge of the full group structure. To achieve this, we address existing theoretical issues in the canonicalization literature, establishing connections with frame averaging in the case of continuous non-compact groups. Operating within the framework of canonicalization, LieLAC can easily be integrated with unconstrained pre-trained models, transforming inputs to a canonical form before feeding them into the existing model, effectively aligning the input for model inference according to allowed symmetries. LieLAC utilizes standard Lie group descent schemes, achieving equivariance in pre-trained models. Finally, we showcase LieLAC’s efficacy on tasks of invariant image classification and Lie point symmetry equivariant neural PDE solvers using pre-trained models.

arxiv情報

著者 Zakhar Shumaylov,Peter Zaika,James Rowbottom,Ferdia Sherry,Melanie Weber,Carola-Bibiane Schönlieb
発行日 2024-10-03 17:21:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.NA, math.NA | コメントする

ControlAR: Controllable Image Generation with Autoregressive Models

要約

自己回帰(AR)モデルは、画像生成をネクストトーク予測として再構築し、顕著な可能性を示し、拡散モデルの強力な競争相手として台頭してきた。しかし、ControlNetのようなControl-to-Image生成は、ARモデルではほとんど未解明である。大規模言語モデルの進歩に触発された自然なアプローチは、制御画像をトークンにトークン化し、画像トークンをデコードする前に自己回帰モデルにプレフィルすることであるが、ControlNetと比較して生成品質がまだ不十分であり、非効率に悩まされている。このため、空間制御を自己回帰画像生成モデルに統合するための効率的かつ効果的なフレームワークであるControlARを紹介する。まず、ARモデルのための制御エンコーディングを探求し、空間入力(例えば、キャニーエッジや深度マップ)を制御トークンに変換する軽量制御エンコーダを提案する。次にControlARは、位置エンコーディングと同様に、制御トークンと画像トークン間のトークン毎の融合を条件として次の画像トークンを生成する条件付き復号法を利用する。トークンの前詰めに比べて、条件付き復号を用いることで、ARモデルの制御能力が大幅に強化されるだけでなく、モデルの効率も維持される。さらに、提案されたControlARは、条件付き復号と特定の制御により、任意解像度の画像生成でARモデルを驚くほど強化する。広範な実験により、エッジ、深度、セグメンテーションマスクを含む多様な入力に対して、自己回帰制御による画像生成のための提案ControlARの制御性を実証することができる。さらに、定量的かつ定性的な結果は、ControlARが、ControlNet++など、これまでの最先端の制御可能な拡散モデルを凌駕していることを示している。コード、モデル、デモは近日中にhttps://github.com/hustvl/ControlAR。

要約(オリジナル)

Autoregressive (AR) models have reformulated image generation as next-token prediction, demonstrating remarkable potential and emerging as strong competitors to diffusion models. However, control-to-image generation, akin to ControlNet, remains largely unexplored within AR models. Although a natural approach, inspired by advancements in Large Language Models, is to tokenize control images into tokens and prefill them into the autoregressive model before decoding image tokens, it still falls short in generation quality compared to ControlNet and suffers from inefficiency. To this end, we introduce ControlAR, an efficient and effective framework for integrating spatial controls into autoregressive image generation models. Firstly, we explore control encoding for AR models and propose a lightweight control encoder to transform spatial inputs (e.g., canny edges or depth maps) into control tokens. Then ControlAR exploits the conditional decoding method to generate the next image token conditioned on the per-token fusion between control and image tokens, similar to positional encodings. Compared to prefilling tokens, using conditional decoding significantly strengthens the control capability of AR models but also maintains the model’s efficiency. Furthermore, the proposed ControlAR surprisingly empowers AR models with arbitrary-resolution image generation via conditional decoding and specific controls. Extensive experiments can demonstrate the controllability of the proposed ControlAR for the autoregressive control-to-image generation across diverse inputs, including edges, depths, and segmentation masks. Furthermore, both quantitative and qualitative results indicate that ControlAR surpasses previous state-of-the-art controllable diffusion models, e.g., ControlNet++. Code, models, and demo will soon be available at https://github.com/hustvl/ControlAR.

arxiv情報

著者 Zongming Li,Tianheng Cheng,Shoufa Chen,Peize Sun,Haocheng Shen,Longjin Ran,Xiaoxin Chen,Wenyu Liu,Xinggang Wang
発行日 2024-10-03 17:28:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

LLaVA-Critic: Learning to Evaluate Multimodal Models

要約

LLaVA-Criticを紹介する。LLaVA-Criticは、幅広いマルチモーダルなタスクのパフォーマンスを評価するためのジェネラリスト評価器として設計された、初のオープンソース大規模マルチモーダルモデル(LMM)である。LLaVA-Criticは、多様な評価基準とシナリオを組み込んだ、高品質な批評家の指示に従うデータセットを用いて学習される。(1)LMM-as-a-Judgeでは、LLaVA-Criticは信頼性の高い評価スコアを提供し、複数の評価ベンチマークにおいてGPTモデルと同等か、GPTモデルを上回るパフォーマンスを示す。この研究は、オープンソースLMMの自己批評と評価の可能性を強調し、スケーラブルで超人的なLMMのアライメントフィードバックメカニズムの将来の研究のための舞台を提供する。

要約(オリジナル)

We introduce LLaVA-Critic, the first open-source large multimodal model (LMM) designed as a generalist evaluator to assess performance across a wide range of multimodal tasks. LLaVA-Critic is trained using a high-quality critic instruction-following dataset that incorporates diverse evaluation criteria and scenarios. Our experiments demonstrate the model’s effectiveness in two key areas: (1) LMM-as-a-Judge, where LLaVA-Critic provides reliable evaluation scores, performing on par with or surpassing GPT models on multiple evaluation benchmarks; and (2) Preference Learning, where it generates reward signals for preference learning, enhancing model alignment capabilities. This work underscores the potential of open-source LMMs in self-critique and evaluation, setting the stage for future research into scalable, superhuman alignment feedback mechanisms for LMMs.

arxiv情報

著者 Tianyi Xiong,Xiyao Wang,Dong Guo,Qinghao Ye,Haoqi Fan,Quanquan Gu,Heng Huang,Chunyuan Li
発行日 2024-10-03 17:36:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV | コメントする

Video Instruction Tuning With Synthetic Data

要約

動画ラージ・マルチモーダルモデル(LMM)の開発は、ウェブから大量の高品質な生データを収集することの困難さによって妨げられてきた。この問題に対処するため、我々はLLaVA-Video-178Kという、動画指示追従に特化した高品質な合成データセットを作成することで、代替アプローチを提案する。このデータセットには、詳細なキャプション、自由形式の質疑応答(QA)、多肢選択式のQAなどの主要なタスクが含まれている。このデータセットと既存の視覚命令チューニングデータを組み合わせて学習することで、新しいビデオLMMであるLLaVA-Videoを導入する。我々の実験により、LLaVA-Videoは様々なビデオベンチマークにおいて高い性能を達成し、我々のデータセットの有効性を明らかにした。今後、データセット、生成パイプライン、モデルのチェックポイントを公開する予定である。

要約(オリジナル)

The development of video large multimodal models (LMMs) has been hindered by the difficulty of curating large amounts of high-quality raw data from the web. To address this, we propose an alternative approach by creating a high-quality synthetic dataset specifically for video instruction-following, namely LLaVA-Video-178K. This dataset includes key tasks such as detailed captioning, open-ended question-answering (QA), and multiple-choice QA. By training on this dataset, in combination with existing visual instruction tuning data, we introduce LLaVA-Video, a new video LMM. Our experiments demonstrate that LLaVA-Video achieves strong performance across various video benchmarks, highlighting the effectiveness of our dataset. We plan to release the dataset, its generation pipeline, and the model checkpoints.

arxiv情報

著者 Yuanhan Zhang,Jinming Wu,Wei Li,Bo Li,Zejun Ma,Ziwei Liu,Chunyuan Li
発行日 2024-10-03 17:36:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV | コメントする

AlzhiNet: Traversing from 2DCNN to 3DCNN, Towards Early Detection and Diagnosis of Alzheimer’s Disease

要約

アルツハイマー病(AD)は進行性の神経変性疾患であり、高齢化社会の中で有病率が増加しているため、効果的な疾患管理のために早期かつ正確な診断が必要とされている。本研究では、2次元畳み込みニューラルネットワーク(2D-CNN)と3次元畳み込みニューラルネットワーク(3D-CNN)の両方を統合し、カスタム損失関数とボリューメトリックデータ補強を加えた、新しいハイブリッドディープラーニングフレームワークを提示することで、特徴抽出を強化し、AD診断における分類性能を向上させる。広範な実験によると、AlzhiNetは単独の2Dモデルや3Dモデルを凌駕しており、これらの補完的なデータ表現を組み合わせることの重要性を強調している。拡張された2Dスライスから得られる3Dボリュームの深さと質も、モデルの性能に大きく影響する。この結果は、最適な結果を得るためには、ハイブリッド予測における重み付け係数を注意深く選択することが不可欠であることを示している。我々のフレームワークはKaggleとMIRIADのMRIデータセットで検証され、それぞれ98.9%と99.99%の精度と100%のAUCを得た。さらに、AlzhiNetは、Alzheimer’s Kaggleデータセットにおいて、ガウスノイズ、明るさ、コントラスト、ソルト&ペッパーノイズ、カラージッター、オクルージョンなどの様々な摂動シナリオの下で研究された。その結果、AlzhiNetはResNet-18よりも摂動に強く、実世界のアプリケーションに最適であることがわかった。このアプローチは、アルツハイマー病の早期診断と治療計画における有望な進歩である。

要約(オリジナル)

Alzheimer’s disease (AD) is a progressive neurodegenerative disorder with increasing prevalence among the aging population, necessitating early and accurate diagnosis for effective disease management. In this study, we present a novel hybrid deep learning framework that integrates both 2D Convolutional Neural Networks (2D-CNN) and 3D Convolutional Neural Networks (3D-CNN), along with a custom loss function and volumetric data augmentation, to enhance feature extraction and improve classification performance in AD diagnosis. According to extensive experiments, AlzhiNet outperforms standalone 2D and 3D models, highlighting the importance of combining these complementary representations of data. The depth and quality of 3D volumes derived from the augmented 2D slices also significantly influence the model’s performance. The results indicate that carefully selecting weighting factors in hybrid predictions is imperative for achieving optimal results. Our framework has been validated on the Magnetic Resonance Imaging (MRI) from Kaggle and MIRIAD datasets, obtaining accuracies of 98.9% and 99.99%, respectively, with an AUC of 100%. Furthermore, AlzhiNet was studied under a variety of perturbation scenarios on the Alzheimer’s Kaggle dataset, including Gaussian noise, brightness, contrast, salt and pepper noise, color jitter, and occlusion. The results obtained show that AlzhiNet is more robust to perturbations than ResNet-18, making it an excellent choice for real-world applications. This approach represents a promising advancement in the early diagnosis and treatment planning for Alzheimer’s disease.

arxiv情報

著者 Romoke Grace Akindele,Samuel Adebayo,Paul Shekonya Kanda,Ming Yu
発行日 2024-10-03 17:37:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, eess.IV | コメントする

Autoregressive Pre-Training on Pixels and Texts

要約

視覚情報とテキスト情報の統合は、言語モデルの進歩において有望な方向性を示している。本論文では、文書画像とテキストの両方で事前訓練された自己回帰フレームワークの中で、視覚とテキストの両方の言語の二重モダリティを探求する。我々の手法はマルチモーダルな学習戦略を採用しており、回帰ヘッドによる次のパッチ予測を通じて視覚データを利用し、分類ヘッドによる次のトークン予測を通じてテキストデータを利用する。我々は、これら2つのモダリティ間の相互作用と、それらの組み合わせがモデルの性能に与える影響を理解することに重点を置いている。広範なベンチマークにおける我々の広範な評価により、ビジュアルデータとテキストデータの両方を組み込むことで、ピクセルベースの言語モデルの性能が大幅に向上することが示された。驚くべきことに、視覚データのみで訓練された一方向のピクセルベースモデルが、いくつかの言語理解タスクにおいて、最先端の双方向モデルと同等の結果を達成できることがわかった。この研究は、より効果的な言語モデリングのために、視覚的モダリティとテキスト的モダリティを統合することの未開発の可能性を明らかにするものである。私たちのコード、データ、モデルのチェックポイントは୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)୨⃛で公開しています。

要約(オリジナル)

The integration of visual and textual information represents a promising direction in the advancement of language models. In this paper, we explore the dual modality of language–both visual and textual–within an autoregressive framework, pre-trained on both document images and texts. Our method employs a multimodal training strategy, utilizing visual data through next patch prediction with a regression head and/or textual data through next token prediction with a classification head. We focus on understanding the interaction between these two modalities and their combined impact on model performance. Our extensive evaluation across a wide range of benchmarks shows that incorporating both visual and textual data significantly improves the performance of pixel-based language models. Remarkably, we find that a unidirectional pixel-based model trained solely on visual data can achieve comparable results to state-of-the-art bidirectional models on several language understanding tasks. This work uncovers the untapped potential of integrating visual and textual modalities for more effective language modeling. We release our code, data, and model checkpoints at \url{https://github.com/ernie-research/pixelgpt}.

arxiv情報

著者 Yekun Chai,Qingyi Liu,Jingwu Xiao,Shuohuan Wang,Yu Sun,Hua Wu
発行日 2024-10-03 17:46:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV | コメントする

DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects

要約

未知の環境におけるオブジェクトナビゲーションは、実世界のアプリケーションに具現化エージェントを導入する上で極めて重要である。大規模なシーンデータセット、より高速なシミュレータ、より強力なモデルにより、我々は大きな進歩を目の当たりにしてきたが、先行研究は主に限られたシーンタイプとターゲットオブジェクトに焦点を当てている。本論文では、多数のシーンタイプにおける多様なターゲットオブジェクトへのナビゲートという新しいタスクを研究する。この問題のベンチマークとして、81の異なるタイプにわたる4,614のシーンを含む大規模なシーンデータセットDivSceneを提示する。このデータセットを用いて、模倣学習により大型視覚言語モデル(LVLM)を微調整することで、エンドツーエンドの具現化エージェントNatVLMを構築する。LVLMは、環境からの過去の観測を取り込み、次の行動を生成するように訓練される。また、LVLMをチューニングする際に、より良いパフォーマンスを得るために、行動予測のCoT説明トレースを導入する。我々の広範な実験により、BFSプランナにより構築された最短経路を模倣学習することで、人間の監視なしに高性能なLVLMベースのエージェントを構築できることがわかった。我々のエージェントはGPT-4oを20%以上上回る成功率を達成した。また、我々のエージェントの汎化能力を示す様々な分析を行う。

要約(オリジナル)

Object navigation in unknown environments is crucial for deploying embodied agents in real-world applications. While we have witnessed huge progress due to large-scale scene datasets, faster simulators, and stronger models, previous studies mainly focus on limited scene types and target objects. In this paper, we study a new task of navigating to diverse target objects in a large number of scene types. To benchmark the problem, we present a large-scale scene dataset, DivScene, which contains 4,614 scenes across 81 different types. With the dataset, we build an end-to-end embodied agent, NatVLM, by fine-tuning a Large Vision Language Model (LVLM) through imitation learning. The LVLM is trained to take previous observations from the environment and generate the next actions. We also introduce CoT explanation traces of the action prediction for better performance when tuning LVLMs. Our extensive experiments find that we can build a performant LVLM-based agent through imitation learning on the shortest paths constructed by a BFS planner without any human supervision. Our agent achieves a success rate that surpasses GPT-4o by over 20%. Meanwhile, we carry out various analyses showing the generalization ability of our agent.

arxiv情報

著者 Zhaowei Wang,Hongming Zhang,Tianqing Fang,Ye Tian,Yue Yang,Kaixin Ma,Xiaoman Pan,Yangqiu Song,Dong Yu
発行日 2024-10-03 17:49:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.RO | コメントする