Neutral residues: revisiting adapters for model extension

要約

我々は、事前に学習された大規模言語モデルを、元のモデルが学習データを見たことがない、あるいはほとんど見たことがない言語を追加するなど、学習時には見られなかった新しいドメインに拡張する問題を扱う。fine-tuningやlow-rank adaptationのような一般的な解決策はドメイン適応に成功するが、形式的には余分な能力を追加せず、元のドメインでの性能を低下させる。 本論文では、この拡張問題を、データ、アーキテクチャ、学習手順という3つの角度から分析し、これらを合同で考慮することで、有利に解決する。特に、我々はアダプタを改良し、ニューラルネットワークの出力が元のドメインでほとんど変わらないことを保証しながら、新しい言語全体を学習できるようにする。この目的のために、それぞれの新しい残差ブロックが元の領域でゼロに近い出力をするように、新しい残差ブロックを修正する。 この中立残差の解決策は、専門家の混合物からアーキテクチャの構成要素を借用するもので、効果的である。英語で学習した元のモデルと比較して、学習可能な重みをわずか20%追加するだけで、新しい言語の学習と英語を忘れないこととのトレードオフの点で、同時並行のアプローチ(ファインチューニング、低ランクまたはバニラアダプター)よりも大幅に優れた結果を得ることができる。

要約(オリジナル)

We address the problem of extending a pretrained large language model to a new domain that was not seen at training time, like adding a language for which the original model has seen no or little training data. Popular solutions like fine-tuning or low-rank adaptation are successful at domain adaptation, but formally they do not add any extra capacity and degrade the performance in the original domain. Our paper analyzes this extension problem under three angles: data, architecture and training procedure, which are advantageously considered jointly. In particular, we improve adapters and make it possible to learn an entire new language while ensuring that the output of the neural network is almost unchanged in the original domain. For this purpose, we modify the new residual blocks in a way that leads each new residual block to output near-zeros in the original domain. This solution of neutral residues, which borrows architectural components from mixture of experts, is effective: with only 20% extra learnable weights compared to an original model trained on English, we get results that are significantly better than concurrent approaches (fine-tuning, low-rank or vanilla adapters) in terms of the trade-off between learning a new language and not forgetting English.

arxiv情報

著者 Franck Signe Talla,Herve Jegou,Edouard Grave
発行日 2024-10-03 17:55:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing

要約

個人的なコンテンツを効果的に編集することは、個人の創造性を表現し、ビジュアルストーリーの中に魅力的な物語を織り込み、ビジュアルコンテンツの全体的な品質とインパクトを高める上で極めて重要な役割を担っている。そこで本研究では、コンテキストを変更せずに、画像内の任意のオブジェクトを、参照によって与えられたパーソナライズされたコンセプトと交換することができる、新しいフレームワークであるSwapAnythingを紹介する。既存のパーソナライズされた被写体の入れ替え手法と比較して、SwapAnythingには3つのユニークな利点がある:(1)メインの被写体ではなく、任意のオブジェクトやパーツを正確に制御できる、(2)コンテキストピクセルをより忠実に保持できる、(3)パーソナライズされたコンセプトをより適切に画像に適応できる。まず、潜在特徴マップに対して領域制御を適用し、忠実な文脈保存と初期意味概念の入れ替えのために、マスクされた変数を入れ替えるターゲット変数の入れ替えを提案する。次に、画像生成プロセスにおいて、対象位置、形状、スタイル、内容などの観点から、意味概念を元の画像にシームレスに適応させるための外観適応を導入する。人間による評価と自動評価の両方における広範な結果は、パーソナライズされたスワッピングに関するベースライン手法に対する我々のアプローチの大幅な改善を実証している。さらに、SwapAnythingは、単一オブジェクト、複数オブジェクト、部分オブジェクト、およびクロスドメインスワッピングタスクにおいて、その正確で忠実なスワッピング能力を示す。SwapAnythingはまた、テキストベースのスワッピングや、オブジェクト挿入のようなスワッピング以外のタスクにおいても優れた性能を達成している。

要約(オリジナル)

Effective editing of personal content holds a pivotal role in enabling individuals to express their creativity, weaving captivating narratives within their visual stories, and elevate the overall quality and impact of their visual content. Therefore, in this work, we introduce SwapAnything, a novel framework that can swap any objects in an image with personalized concepts given by the reference, while keeping the context unchanged. Compared with existing methods for personalized subject swapping, SwapAnything has three unique advantages: (1) precise control of arbitrary objects and parts rather than the main subject, (2) more faithful preservation of context pixels, (3) better adaptation of the personalized concept to the image. First, we propose targeted variable swapping to apply region control over latent feature maps and swap masked variables for faithful context preservation and initial semantic concept swapping. Then, we introduce appearance adaptation, to seamlessly adapt the semantic concept into the original image in terms of target location, shape, style, and content during the image generation process. Extensive results on both human and automatic evaluation demonstrate significant improvements of our approach over baseline methods on personalized swapping. Furthermore, SwapAnything shows its precise and faithful swapping abilities across single object, multiple objects, partial object, and cross-domain swapping tasks. SwapAnything also achieves great performance on text-based swapping and tasks beyond swapping such as object insertion.

arxiv情報

著者 Jing Gu,Nanxuan Zhao,Wei Xiong,Qing Liu,Zhifei Zhang,He Zhang,Jianming Zhang,HyunJoon Jung,Yilin Wang,Xin Eric Wang
発行日 2024-10-03 17:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | コメントする

CriSPO: Multi-Aspect Critique-Suggestion-guided Automatic Prompt Optimization for Text Generation

要約

大規模言語モデル(LLM)は、プロンプト技術を用いることで、領域横断的に流暢な要約を生成することができる。しかし、LLMが適切な詳細度と書き方で要約を生成するよう導く効果的なプロンプトを作成することは、依然として課題である。本稿では、要約プロンプトを強化するために、ソース文書から抽出された顕著な情報の利用を検討する。プロンプトにキーフレーズを追加することで、ROUGE F1とリコールが改善され、生成される要約が参考文献により近く、より完全なものになることを示す。キーフレーズの数は精度と再現率のトレードオフを制御することができる。さらに、我々の分析から、フレーズレベルの顕著な情報を取り入れることは、単語レベルや文レベルよりも優れていることが明らかになった。しかし、幻覚への影響はLLM間で普遍的にプラスに働くわけではない。この分析を行うために、我々はKeyphrase Signal Extractor (CriSPO)を導入する。CriSPOは、顕著なキーフレーズを抽出するために微調整が可能な軽量モデルである。CriSPOを使用することで、LLMをカスタマイズすることなく、データセット、オープンウェイトLLM、プロプライエタリLLMを問わず、一貫したROUGEの改善を達成した。我々の発見は、プロンプトベースの要約システムを構築する際に、顕著な情報を活用するための洞察を提供する。

要約(オリジナル)

Large language models (LLMs) can generate fluent summaries across domains using prompting techniques, reducing the need to train models for summarization applications. However, crafting effective prompts that guide LLMs to generate summaries with the appropriate level of detail and writing style remains a challenge. In this paper, we explore the use of salient information extracted from the source document to enhance summarization prompts. We show that adding keyphrases in prompts can improve ROUGE F1 and recall, making the generated summaries more similar to the reference and more complete. The number of keyphrases can control the precision-recall trade-off. Furthermore, our analysis reveals that incorporating phrase-level salient information is superior to word- or sentence-level. However, the impact on hallucination is not universally positive across LLMs. To conduct this analysis, we introduce Keyphrase Signal Extractor (CriSPO), a lightweight model that can be finetuned to extract salient keyphrases. By using CriSPO, we achieve consistent ROUGE improvements across datasets and open-weight and proprietary LLMs without any LLM customization. Our findings provide insights into leveraging salient information in building prompt-based summarization systems.

arxiv情報

著者 Han He,Qianchu Liu,Lei Xu,Chaitanya Shivade,Yi Zhang,Sundararajan Srinivasan,Katrin Kirchhoff
発行日 2024-10-03 17:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

LML-DAP: Language Model Learning a Dataset for Data-Augmented Prediction

要約

分類タスクは通常、機械学習(ML)モデルを用いて処理されるが、精度と解釈可能性のバランスがとれていない。本稿では、説明可能な方法で分類タスクに大規模言語モデル(LLM)を使用する新しいアプローチを紹介する。データクリーニングと特徴量エンジニアリングに大きく依存するMLモデルとは異なり、この手法はLLMを用いてプロセスを効率化する。本論文では、「データ拡張予測(DAP)」と呼ばれる新しい手法により、「言語モデル学習(LML)」と呼ばれる新しい概念を提案する。LLMは、人間が手作業でデータを探索・理解し、データを参照しながら分類を決定するのと同様の方法を用いて分類を行う。LMLのプロセスでは、データセットを要約して評価し、各ラベルの分類に最もつながる特徴を決定する。DAPのプロセスでは、システムはデータの要約とテストデータセットの行を使用してクエリを自動生成し、このクエリを使用してデータセットから関連する行を検索する。LLMはデータの要約と関連する行を使用して分類を生成し、文脈を考慮した意思決定により複雑なデータでも十分な精度を確保する。LMLとDAPは新しいアプリケーションの可能性を解き放つ。提案された方法では、プロンプトに「説明可能な機械学習モデルとして機能する」という言葉を使用し、各予測の背後にあるロジックをユーザーが確認できるようにすることで、予測の解釈可能性を高めている。いくつかのテストケースにおいて、システムは90%を超える精度を獲得し、システムの有効性と、様々なシナリオにおいて従来のMLモデルを凌駕する可能性を証明した。コードはhttps://github.com/Pro-GenAI/LML-DAP

要約(オリジナル)

Classification tasks are typically handled using Machine Learning (ML) models, which lack a balance between accuracy and interpretability. This paper introduces a new approach to using Large Language Models (LLMs) for classification tasks in an explainable way. Unlike ML models that rely heavily on data cleaning and feature engineering, this method streamlines the process using LLMs. This paper proposes a new concept called ‘Language Model Learning (LML)’ powered by a new method called ‘Data-Augmented Prediction (DAP)’. The classification is performed by LLMs using a method similar to humans manually exploring and understanding the data and deciding classifications using data as a reference. In the LML process, a dataset is summarized and evaluated to determine the features that lead to the classification of each label the most. In the process of DAP, the system uses the data summary and a row of the testing dataset to automatically generate a query, which is used to retrieve relevant rows from the dataset. A classification is generated by the LLM using data summary and relevant rows, ensuring satisfactory accuracy even with complex data using context-aware decision-making. LML and DAP unlock the possibilities of new applications. The proposed method uses the words ‘Act as an Explainable Machine Learning Model’ in the prompt to enhance the interpretability of the predictions by allowing users to review the logic behind each prediction. In some test cases, the system scored an accuracy above 90%, proving the effectiveness of the system and its potential to outperform conventional ML models in various scenarios. The code is available at https://github.com/Pro-GenAI/LML-DAP

arxiv情報

著者 Praneeth Vadlapati
発行日 2024-10-03 17:57:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | コメントする

Accelerating Training with Neuron Interaction and Nowcasting Networks

要約

古典的な適応オプティマイザ(Adamなど)の代わりに学習可能な更新ルールを使用すると、ニューラルネットワークの学習を加速できる。しかし、学習可能な更新ルールは、学習や使用にコストがかかり、不安定になる可能性がある。最近、Jangら(2023)は、ウェイト・ナウキャスター・ネットワーク(WNN)に基づく、より単純な学習高速化アプローチを提案した。彼らのアプローチでは、最適化ステップのほとんどにAdamが使われ、数ステップごとにだけ定期的に、WNNがパラメータをナウキャスト(近未来を予測)する。我々は、ニューロン相互作用とナウキャスティング(NiNo)ネットワークを提案することで、WNNを改良する。WNNとは対照的に、NiNoはニューロンの結合性とグラフニューラルネットワークを活用し、より正確にパラメータをナウキャストする。さらに、Transformersのようないくつかのネットワークでは、ニューロンの結合性を正確にモデル化することが困難であることを示す。NiNoは、視覚と言語タスクにおいて、アダムの学習を最大50%加速することができる。

要約(オリジナル)

Neural network training can be accelerated when a learnable update rule is used in lieu of classic adaptive optimizers (e.g. Adam). However, learnable update rules can be costly and unstable to train and use. Recently, Jang et al. (2023) proposed a simpler approach to accelerate training based on weight nowcaster networks (WNNs). In their approach, Adam is used for most of the optimization steps and periodically, only every few steps, a WNN nowcasts (predicts near future) parameters. We improve WNNs by proposing neuron interaction and nowcasting (NiNo) networks. In contrast to WNNs, NiNo leverages neuron connectivity and graph neural networks to more accurately nowcast parameters. We further show that in some networks, such as Transformers, modeling neuron connectivity accurately is challenging. We address this and other limitations, which allows NiNo to accelerate Adam training by up to 50% in vision and language tasks.

arxiv情報

著者 Boris Knyazev,Abhinav Moudgil,Guillaume Lajoie,Eugene Belilovsky,Simon Lacoste-Julien
発行日 2024-10-03 17:57:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ML | コメントする

CMP: Cooperative Motion Prediction with Multi-Agent Communication

要約

自律走行車(AV)の進化とV2X(Vehicle-to-Everything)通信の成熟が合流することで、協調的なコネクテッドカー(CAV)と自動運転車(CAV)の実現が可能になった。本稿では、協調的知覚の上に、協調的運動予測の実現可能性と有効性を探る。我々の手法であるCMPは、LiDAR信号をモデル入力とし、追跡と予測能力を強化する。我々の知る限り、CAVが知覚と予測の両方のモジュールで情報を共有するという統一的な問題に取り組んだのは、我々のフレームワークが初めてである。私たちの設計には、現実的なV2Xの帯域幅の制限と伝送遅延を許容するユニークな機能が組み込まれており、同時にかさばる知覚表現を扱うことができます。また、異なるCAVによって得られた予測を統合し、最終的な予測を生成する予測集約モジュールを提案します。OPV2VとV2V4Realデータセットでの広範な実験とアブレーション研究を通じて、協調的知覚、追跡、および動き予測における我々の手法の有効性を実証する。特に、CMPは、協調なし設定と比較して、より少ない欠落検出で平均予測誤差を16.4%減少させ、最も強いベースラインと比較して12.3%減少させる。我々の研究は、CAVの協調能力における重要な一歩であり、複雑なシナリオにおいて強化された性能を示している。コードはプロジェクトのウェブサイトhttps://cmp-cooperative-prediction.github.io/。

要約(オリジナル)

The confluence of the advancement of Autonomous Vehicles (AVs) and the maturity of Vehicle-to-Everything (V2X) communication has enabled the capability of cooperative connected and automated vehicles (CAVs). Building on top of cooperative perception, this paper explores the feasibility and effectiveness of cooperative motion prediction. Our method, CMP, takes LiDAR signals as model input to enhance tracking and prediction capabilities. Unlike previous work that focuses separately on either cooperative perception or motion prediction, our framework, to the best of our knowledge, is the first to address the unified problem where CAVs share information in both perception and prediction modules. Incorporated into our design is the unique capability to tolerate realistic V2X bandwidth limitations and transmission delays, while dealing with bulky perception representations. We also propose a prediction aggregation module, which unifies the predictions obtained by different CAVs and generates the final prediction. Through extensive experiments and ablation studies on the OPV2V and V2V4Real datasets, we demonstrate the effectiveness of our method in cooperative perception, tracking, and motion prediction. In particular, CMP reduces the average prediction error by 16.4\% with fewer missing detections compared with the no cooperation setting and by 12.3\% compared with the strongest baseline. Our work marks a significant step forward in the cooperative capabilities of CAVs, showcasing enhanced performance in complex scenarios. The code can be found on the project website: https://cmp-cooperative-prediction.github.io/.

arxiv情報

著者 Zehao Wang,Yuping Wang,Zhuoyuan Wu,Hengbo Ma,Zhaowei Li,Hang Qiu,Jiachen Li
発行日 2024-10-03 17:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MA, cs.RO | コメントする

FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models

要約

ジェネレーティブAIの急速な発展は、コンテンツ作成を容易にするだけでなく、画像操作を容易にし、検出を困難にするという諸刃の剣でもある。現在の画像偽造検出・位置特定(IFDL)手法は一般的に有効であるが、2つの課題に直面する傾向がある:\例えば、Photoshop、DeepFake、AIGC-Editingなど)。これらの問題に対処するため、我々は説明可能なIFDLタスクを提案し、画像の真正性を評価し、改ざん領域マスクを生成し、ピクセルレベルと画像レベルの改ざんの手がかりに基づく判断基準を提供できるマルチモーダルフレームワークであるFakeShieldを設計する。さらに、GPT-4oを活用して既存のIFDLデータセットを拡張し、FakeShieldの改ざん解析能力を訓練するためのマルチモーダル改ざん記述データセット(MMTD-Set)を作成する。一方、我々は、様々なタイプの改ざん検出解釈に対処し、詳細なテキスト記述によって誘導される偽造ローカライゼーションを実現するために、ドメインタグ誘導型説明可能偽造検出モジュール(DTE-FDM)とマルチモーダル偽造ローカライゼーションモジュール(MFLM)を組み込んだ。広範な実験により、FakeShieldが様々な改ざん技術を効果的に検出し、ローカライズすることが実証されており、従来のIFDL手法と比較して説明可能で優れたソリューションを提供しています。

要約(オリジナル)

The rapid development of generative AI is a double-edged sword, which not only facilitates content creation but also makes image manipulation easier and more difficult to detect. Although current image forgery detection and localization (IFDL) methods are generally effective, they tend to face two challenges: \textbf{1)} black-box nature with unknown detection principle, \textbf{2)} limited generalization across diverse tampering methods (e.g., Photoshop, DeepFake, AIGC-Editing). To address these issues, we propose the explainable IFDL task and design FakeShield, a multi-modal framework capable of evaluating image authenticity, generating tampered region masks, and providing a judgment basis based on pixel-level and image-level tampering clues. Additionally, we leverage GPT-4o to enhance existing IFDL datasets, creating the Multi-Modal Tamper Description dataSet (MMTD-Set) for training FakeShield’s tampering analysis capabilities. Meanwhile, we incorporate a Domain Tag-guided Explainable Forgery Detection Module (DTE-FDM) and a Multi-modal Forgery Localization Module (MFLM) to address various types of tamper detection interpretation and achieve forgery localization guided by detailed textual descriptions. Extensive experiments demonstrate that FakeShield effectively detects and localizes various tampering techniques, offering an explainable and superior solution compared to previous IFDL methods.

arxiv情報

著者 Zhipei Xu,Xuanyu Zhang,Runyi Li,Zecheng Tang,Qing Huang,Jian Zhang
発行日 2024-10-03 17:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | コメントする

Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos

要約

最近、最新の大規模マルチモーダルモデル(LMM)は、短編ビデオの理解に関連する重要な課題のほとんどに対処しているとの見方が広まっている。その結果、学界も産業界も、長尺ビデオの理解という、より複雑な課題に徐々に関心を移しつつある。しかし、本当にそうなのだろうか?我々の研究によると、LMMは短い動画を扱う場合でも、多くの基本的な推論能力を欠いている。Vinogroundを紹介する。Vinogroundは時間的な反実仮想LMM評価ベンチマークであり、1000組の短い自然なビデオキャプションを含む。既存のLMMでは、異なるアクションやオブジェクトの変換の時間的な違いを区別することが困難であることを示す。例えば、最良のモデルGPT-4oは、テキストとビデオのスコアで〜50%しか得られず、人間のベースラインである〜90%と比較すると大きな隔たりがある。すべてのオープンソースのマルチモーダルモデルとCLIPベースのモデルは、はるかに悪いパフォーマンスを示し、ほとんどランダムな偶然のパフォーマンスを生成します。この研究を通して、短い動画における時間的推論は、まだ完全に解決されていない問題であるという事実に光を当てる。データセットと評価コードはhttps://vinoground.github.io。

要約(オリジナル)

There has been growing sentiment recently that modern large multimodal models (LMMs) have addressed most of the key challenges related to short video comprehension. As a result, both academia and industry are gradually shifting their attention towards the more complex challenges posed by understanding long-form videos. However, is this really the case? Our studies indicate that LMMs still lack many fundamental reasoning capabilities even when dealing with short videos. We introduce Vinoground, a temporal counterfactual LMM evaluation benchmark encompassing 1000 short and natural video-caption pairs. We demonstrate that existing LMMs severely struggle to distinguish temporal differences between different actions and object transformations. For example, the best model GPT-4o only obtains ~50% on our text and video scores, showing a large gap compared to the human baseline of ~90%. All open-source multimodal models and CLIP-based models perform much worse, producing mostly random chance performance. Through this work, we shed light onto the fact that temporal reasoning in short videos is a problem yet to be fully solved. The dataset and evaluation code are available at https://vinoground.github.io.

arxiv情報

著者 Jianrui Zhang,Mu Cai,Yong Jae Lee
発行日 2024-10-03 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントする

$\mathcal{D(R,O)}$ Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping

要約

器用な把持は、ロボットハンドと物体との間の正確な相互作用を必要とする、ロボット操作の基本的でありながら困難なスキルである。本論文では、把持ポーズをとるロボットハンドと物体との相互作用をモデル化する新しいフレームワーク$mathcal{D(R,O)}$ Graspを紹介する。我々のモデルは、ロボットハンドの記述と物体点群を入力とし、運動学的に有効で安定した把持を効率的に予測し、多様なロボットの形態と物体形状に強い適応性を示す。シミュレーション環境と実環境の両方で行われた広範な実験により、複数のロボットハンドにおいて、成功率、把持の多様性、推論速度が大幅に改善され、我々のアプローチの有効性が検証された。我々の手法は、3つの異なる器用なロボットハンドでテストした結果、シミュレーションでは平均87.53%の成功率を1秒未満で達成した。また、LeapHandを用いた実際の実験においても、本手法は平均89%の成功率を示す。Graspは、複雑で多様な環境で器用に把持するためのロバストなソリューションを提供する。コード、付録、ビデオはプロジェクトのウェブサイトhttps://nus-lins-lab.github.io/drograspweb/。

要約(オリジナル)

Dexterous grasping is a fundamental yet challenging skill in robotic manipulation, requiring precise interaction between robotic hands and objects. In this paper, we present $\mathcal{D(R,O)}$ Grasp, a novel framework that models the interaction between the robotic hand in its grasping pose and the object, enabling broad generalization across various robot hands and object geometries. Our model takes the robot hand’s description and object point cloud as inputs and efficiently predicts kinematically valid and stable grasps, demonstrating strong adaptability to diverse robot embodiments and object geometries. Extensive experiments conducted in both simulated and real-world environments validate the effectiveness of our approach, with significant improvements in success rate, grasp diversity, and inference speed across multiple robotic hands. Our method achieves an average success rate of 87.53% in simulation in less than one second, tested across three different dexterous robotic hands. In real-world experiments using the LeapHand, the method also demonstrates an average success rate of 89%. $\mathcal{D(R,O)}$ Grasp provides a robust solution for dexterous grasping in complex and varied environments. The code, appendix, and videos are available on our project website at https://nus-lins-lab.github.io/drograspweb/.

arxiv情報

著者 Zhenyu Wei,Zhixuan Xu,Jingxiang Guo,Yiwen Hou,Chongkai Gao,Zhehao Cai,Jiayu Luo,Lin Shao
発行日 2024-10-03 16:05:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

Quantifying Generalization Complexity for Large Language Models

要約

大規模言語モデル(LLM)は、複雑なクエリを理解し、高度なタスクを実行する上で卓越した能力を示しているが、その汎化能力はしばしば記憶と深く関わっており、より正確な評価が必要である。この課題を解決するために、LLMの汎化能力を定量的に測定する動的評価フレームワークScyllaを紹介する。Scyllaは、5つの複雑度に渡る20のタスクを通して、分布内(ID)と分布外(OOD)の両方のデータに対するモデルのパフォーマンスを評価することで、汎化を記憶から分離する。広範な実験を通して、タスクの複雑さと、IDデータとOODデータ間のパフォーマンスギャップとの間に非単調な関係があることを明らかにした。具体的には、この現象は、LLMの汎化能力の上限を示す、非汎化挙動への依存がピークに達する臨界閾値(臨界複雑度と呼ばれる)を明らかにする。モデルサイズが大きくなるにつれて、臨界複雑度はタスクの複雑さのレベルが高くなる方向にシフトし、より大きなモデルは、記憶に過度に依存する前に、より複雑な推論タスクを処理できることが示唆される。Scyllaと臨界複雑度の概念を活用し、LLaMAやQwenファミリーのようなオープンソースモデルと、ClaudeやGPTのようなクローズソースモデルの両方を含む28のLLMをベンチマークし、よりロバストな評価を提供し、LLMの汎化能力をより明確に理解する。

要約(オリジナル)

While large language models (LLMs) have shown exceptional capabilities in understanding complex queries and performing sophisticated tasks, their generalization abilities are often deeply entangled with memorization, necessitating more precise evaluation. To address this challenge, we introduce Scylla, a dynamic evaluation framework that quantitatively measures the generalization abilities of LLMs. Scylla disentangles generalization from memorization via assessing model performance on both in-distribution (ID) and out-of-distribution (OOD) data through 20 tasks across 5 levels of complexity. Through extensive experiments, we uncover a non-monotonic relationship between task complexity and the performance gap between ID and OOD data, which we term the generalization valley. Specifically, this phenomenon reveals a critical threshold – referred to as critical complexity – where reliance on non-generalizable behavior peaks, indicating the upper bound of LLMs’ generalization capabilities. As model size increases, the critical complexity shifts toward higher levels of task complexity, suggesting that larger models can handle more complex reasoning tasks before over-relying on memorization. Leveraging Scylla and the concept of critical complexity, we benchmark 28LLMs including both open-sourced models such as LLaMA and Qwen families, and close-sourced models like Claude and GPT, providing a more robust evaluation and establishing a clearer understanding of LLMs’ generalization capabilities.

arxiv情報

著者 Zhenting Qi,Hongyin Luo,Xuliang Huang,Zhuokai Zhao,Yibo Jiang,Xiangjun Fan,Himabindu Lakkaraju,James Glass
発行日 2024-10-03 15:30:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする