Large Language Models as Markov Chains

要約

大規模言語モデル(LLM)は、自然言語処理タスクの広い範囲において、またそれ以上のタスクにおいても、驚くほど効率的であることが証明されている。しかしながら、その素晴らしい性能の起源に関する包括的な理論的解析は、未だ手つかずのままである。本論文では、サイズ$T$の語彙とサイズ$K$の文脈窓を持つ一般的な自己回帰言語モデルと、サイズ$mathcal{O}(T^K)$の有限状態空間上で定義されるマルコフ連鎖との等価性を描くことで、この困難な課題にアプローチする。LLMの推論力、LLMへの収束速度、LLMへの温度の影響などを捉えるマルコフ連鎖の定常分布の存在に関するいくつかの驚くべき知見を導く。次に、事前学習と文脈内汎化境界を証明し、描かれた同値性によってその解釈がどのように豊かになるかを示す。最後に、理論的な保証を、いくつかの最近のLLMを用いた実験によって説明し、それらが実際に観測された振る舞いをどのように捉えているかを強調する。

要約(オリジナル)

Large language models (LLMs) have proven to be remarkably efficient, both across a wide range of natural language processing tasks and well beyond them. However, a comprehensive theoretical analysis of the origins of their impressive performance remains elusive. In this paper, we approach this challenging task by drawing an equivalence between generic autoregressive language models with vocabulary of size $T$ and context window of size $K$ and Markov chains defined on a finite state space of size $\mathcal{O}(T^K)$. We derive several surprising findings related to the existence of a stationary distribution of Markov chains that capture the inference power of LLMs, their speed of convergence to it, and the influence of the temperature on the latter. We then prove pre-training and in-context generalization bounds and show how the drawn equivalence allows us to enrich their interpretation. Finally, we illustrate our theoretical guarantees with experiments on several recent LLMs to highlight how they capture the behavior observed in practice.

arxiv情報

著者 Oussama Zekri,Ambroise Odonnat,Abdelhakim Benechehab,Linus Bleistein,Nicolas Boullé,Ievgen Redko
発行日 2024-10-03 17:45:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | コメントする

Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation

要約

推論時間計算は、大規模言語モデル(LLM)の性能を向上させるための強力なパラダイムであり、Best-of-Nサンプリングは広く用いられている手法である。しかし、この方法は計算コストが高く、(1)外部の報酬モデルと(2)複数のサンプルの生成が必要である。本研究では、性能を維持あるいは向上させながら、生成サンプル数を適応的に削減するように設計された、新しい生成的自己評価スキームを紹介する。我々は生成的報酬モデル定式化を用い、LLMが世代途中で、世代を再スタートした方がより良い応答が得られる確率を予測することを可能にする。これらの予測は外部の報酬モデルなしで得られ、より多くのサンプルを生成するかどうか、有望でないサンプルを早い段階で刈り取るかどうか、あるいは最良のサンプルを選ぶかどうかを決定するために使用できる。この機能は、定義済みのトークンを1つ生成するだけなので、非常に安価である。フィルタリングされていない実際のLMSYSユーザープロンプトで構築されたデータセットを使用してトレーニングした結果、Llama 3.1 8BのGPT-4に対する勝率は、16サンプルで21%から34%に向上し、GSM8Kの数学性能は84%から91%に向上しました。LLMが有益と判断した場合にのみサンプリングを行い、温度アニーリングを適応的に調整することで、16サンプルの使用による改善の74%を平均1.2サンプルのみで達成できることを実証しました。さらに、50~75%のサンプルは生成の初期段階で切り捨てることができ、性能の低下は最小限であることを示す。全体として、我々の手法はLLMの推論において、より効率的でスケーラブルな計算利用を可能にする。

要約(オリジナル)

Inference-time computation is a powerful paradigm to enhance the performance of large language models (LLMs), with Best-of-N sampling being a widely used technique. However, this method is computationally expensive, requiring both (1) an external reward model and (2) the generation of multiple samples. In this work, we introduce a new generative self-evaluation scheme designed to adaptively reduce the number of generated samples while maintaining or even improving performance. We use a generative reward model formulation, allowing the LLM to predict mid-generation the probability that restarting the generation will yield a better response. These predictions are obtained without an external reward model and can be used to decide whether or not to generate more samples, prune unpromising samples early on, or to pick the best sample. This capability is very inexpensive as it involves generating a single predefined token. Trained using a dataset constructed with real unfiltered LMSYS user prompts, Llama 3.1 8B’s win rate against GPT-4 on AlpacaEval increases from 21% to 34% with 16 samples and math performance on GSM8K improves from 84% to 91%. By sampling only when the LLM determines that it is beneficial to do so and adaptively adjusting temperature annealing, we demonstrate that 74% of the improvement from using 16 samples can be achieved with only 1.2 samples on average. We further demonstrate that 50-75% of samples can be pruned early in generation with minimal degradation in performance. Overall, our methods enable more efficient and scalable compute utilization during inference for LLMs.

arxiv情報

著者 Rohin Manvi,Anikait Singh,Stefano Ermon
発行日 2024-10-03 17:47:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Unified Multi-Modal Interleaved Document Representation for Information Retrieval

要約

情報検索(IR)手法は、与えられたクエリに応答する関連文書を特定することを目的としており、様々な自然言語タスクへの適用が成功していることから、注目されている。しかしながら、既存のアプローチは、通常、文書内のテキスト情報のみを考慮するものであり、文書がテキスト、画像、表などの複数のモダリティを含み得るという事実を見落としている。さらに、これらのアプローチは、長い文書を埋め込むために複数の個別の文章に分割することが多く、文書全体の文脈や段落間の相互作用を捉えることができない。我々は、これら2つの制約が、検索に最適とは言えない文書表現につながると主張する。本研究では、これらに対処するため、異なるモダリティでインターリーブされた文書を全体的に埋め込むことで、より包括的でニュアンスのある文書表現を生成することを目指す。具体的には、テキスト、画像、表を統一的なフォーマットと表現に処理・統合することを可能にする最近の視覚言語モデルの能力を活用することにより、これを実現する。さらに、文書をパッセージに分割することによる情報損失を軽減するために、パッセージを個々に表現し検索するのではなく、分割されたパッセージの表現をさらに1つの単一の文書表現に統合する一方、必要に応じて文書内の関連パッセージを切り離し識別するためのリランキング戦略を導入する。そして、テキストクエリとマルチモーダルクエリの両方を考慮した多様な情報検索シナリオに対する広範な実験を通して、文書内にインターリーブされたマルチモーダル情報を統一的な方法で考慮することにより、我々のアプローチが関連するベースラインを大幅に上回ることを示す。

要約(オリジナル)

Information Retrieval (IR) methods aim to identify relevant documents in response to a given query, which have gained remarkable attention due to their successful application in various natural language tasks. However, existing approaches typically consider only the textual information within the documents, which overlooks the fact that documents can contain multiple modalities, including texts, images, and tables. Further, they often segment each long document into multiple discrete passages for embedding, preventing them from capturing the overall document context and interactions between paragraphs. We argue that these two limitations lead to suboptimal document representations for retrieval. In this work, to address them, we aim to produce more comprehensive and nuanced document representations by holistically embedding documents interleaved with different modalities. Specifically, we achieve this by leveraging the capability of recent vision-language models that enable the processing and integration of text, images, and tables into a unified format and representation. Moreover, to mitigate the information loss from segmenting documents into passages, instead of representing and retrieving passages individually, we further merge the representations of segmented passages into one single document representation, while we additionally introduce a reranking strategy to decouple and identify the relevant passage within the document if necessary. Then, through extensive experiments on diverse information retrieval scenarios considering both the textual and multimodal queries, we show that our approach substantially outperforms relevant baselines, thanks to the consideration of the multimodal information interleaved within the documents in a unified way.

arxiv情報

著者 Jaewoo Lee,Joonho Ko,Jinheon Baek,Soyeong Jeong,Sung Ju Hwang
発行日 2024-10-03 17:49:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR | コメントする

Custom Non-Linear Model Predictive Control for Obstacle Avoidance in Indoor and Outdoor Environments

要約

複雑な環境を航行するには、無人航空機(UAV)や自律システムがリアルタイムで軌道追跡や障害物回避を行う必要がある。多くの制御戦略は線形近似を効果的に利用してきたが、UAVの非線形ダイナミクス、特に障害物が密集した環境での非線形ダイナミクスへの対処は、さらなる研究を必要とする重要な課題である。本論文では、DJI Matrice 100のための非線形モデル予測制御(NMPC)フレームワークを紹介し、動的モデルとBスプライン補間を使用して滑らかな基準軌道を実現し、安全制約を尊重しながら最小偏差を確保することで、これらの課題に取り組みます。このフレームワークは様々な軌道タイプをサポートし、タイトな操縦における制御精度のためにペナルティベースのコスト関数を採用しています。このフレームワークでは、CasADiを利用して効率的なリアルタイム最適化を行うことで、厳しい計算制約下でもUAVのロバストな動作を維持することができる。シミュレーションと実際の屋内外実験により、NMPCの外乱適応能力が実証され、衝突のないスムーズなナビゲーションが実現した。

要約(オリジナル)

Navigating complex environments requires Unmanned Aerial Vehicles (UAVs) and autonomous systems to perform trajectory tracking and obstacle avoidance in real-time. While many control strategies have effectively utilized linear approximations, addressing the non-linear dynamics of UAV, especially in obstacle-dense environments, remains a key challenge that requires further research. This paper introduces a Non-linear Model Predictive Control (NMPC) framework for the DJI Matrice 100, addressing these challenges by using a dynamic model and B-spline interpolation for smooth reference trajectories, ensuring minimal deviation while respecting safety constraints. The framework supports various trajectory types and employs a penalty-based cost function for control accuracy in tight maneuvers. The framework utilizes CasADi for efficient real-time optimization, enabling the UAV to maintain robust operation even under tight computational constraints. Simulation and real-world indoor and outdoor experiments demonstrated the NMPC ability to adapt to disturbances, resulting in smooth, collision-free navigation.

arxiv情報

著者 Lara Laban,Mariusz Wzorek,Piotr Rudol,Tommy Persson
発行日 2024-10-03 17:50:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: (Primary), 68T40, 93B52, C.4, cs.AI, cs.AR, cs.CE, cs.RO, cs.SY, eess.SY | コメントする

Anchor-Controlled Generative Adversarial Network for High-Fidelity Electromagnetic and Structurally Diverse Metasurface Design

要約

サブ波長スケールで光を操作できるメタサーフェスは、オプトエレクトロニクス・アプリケーションを発展させる大きな可能性を秘めている。生成モデル、特にGenerative Adversarial Networks(GAN)は、複雑な設計空間を効率的にナビゲートし、基礎となるデータ・パターンを捉えることによって、メタサーフェスの逆設計に有望なアプローチを提供する。しかし、既存の生成モデルは、高い電磁気的忠実度と構造的多様性を達成するのに苦労しています。これらの課題は、学習中に明示的な電磁気的制約がないため、正確な構造から電磁気的応答へのマッピングができないことや、1対多のマッピングジレンマを扱うメカニズムがないため、構造多様性が不十分であることから生じる。これらの問題に対処するために、我々は、電磁気的忠実性と構造的多様性の両方を向上させる新しいフレームワークであるアンカー制御生成アドバーサリアルネットワーク(AcGAN)を提案する。高い電磁気的忠実度を達成するために、AcGANは正確なスペクトル忠実度評価のためのスペクトル重なり係数(SOC)を提案し、構造から電磁気へのマッピングを改良するために電磁気的性能に関するリアルタイムフィードバックを提供するアンカーネットを開発する。構造の多様性を高めるために、AcGANは、入力処理を洗練し、マルチレベルのスペクトル統合を保証するクラスタ誘導制御器を組み込み、同じスペクトルターゲットに対して複数の構成を探索するように生成プロセスを誘導する。さらに、動的損失関数は、データ駆動型学習から、スペクトル忠実度と構造多様性の両方を最適化することに徐々に焦点を移す。実証分析によると、AcGANは、現在の最先端のGAN手法と比較して、平均二乗誤差(MSE)を73%削減し、正確なスペクトル要求を満たす多様なメタサーフェスアーキテクチャを生成するための設計空間を大幅に拡張する。

要約(オリジナル)

Metasurfaces, capable of manipulating light at subwavelength scales, hold great potential for advancing optoelectronic applications. Generative models, particularly Generative Adversarial Networks (GANs), offer a promising approach for metasurface inverse design by efficiently navigating complex design spaces and capturing underlying data patterns. However, existing generative models struggle to achieve high electromagnetic fidelity and structural diversity. These challenges arise from the lack of explicit electromagnetic constraints during training, which hinders accurate structure-to-electromagnetic response mapping, and the absence of mechanisms to handle one-to-many mappings dilemma, resulting in insufficient structural diversity. To address these issues, we propose the Anchor-controlled Generative Adversarial Network (AcGAN), a novel framework that improves both electromagnetic fidelity and structural diversity. To achieve high electromagnetic fidelity, AcGAN proposes the Spectral Overlap Coefficient (SOC) for precise spectral fidelity assessment and develops AnchorNet, which provides real-time feedback on electromagnetic performance to refine the structure-to-electromagnetic mapping. To enhance structural diversity, AcGAN incorporates a cluster-guided controller that refines input processing and ensures multi-level spectral integration, guiding the generation process to explore multiple configurations for the same spectral target. Additionally, a dynamic loss function progressively shifts the focus from data-driven learning to optimizing both spectral fidelity and structural diversity. Empirical analysis shows that AcGAN reduces the Mean Squared Error (MSE) by 73% compared to current state-of-the-art GANs methods and significantly expands the design space to generate diverse metasurface architectures that meet precise spectral demands.

arxiv情報

著者 Yunhui Zeng,Hongkun Cao,Xin Jin
発行日 2024-10-03 17:53:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, physics.app-ph, physics.optics | コメントする

Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge

要約

LLM-as-a-Judgeは、様々なベンチマークにおける評価手法として広く利用され、モデル学習における教師付き報酬として役立ってきた。しかし、多くの領域でLLM-as-a-Judgeが優れているにもかかわらず、潜在的な問題は十分に調査されておらず、LLM-as-a-Judgeの信頼性と有用性の範囲を損なっている。そこで、我々は12の主要な潜在的なバイアスを特定し、自動化されたバイアスを定量化するフレームワーク-CALM-を提案する。我々の実験は、複数の一般的な言語モデルを対象としており、その結果、先進的なモデルが総合的な性能は高く評価できるものの、特定のタスクでは重大なバイアスが残っていることが示された。実証結果は、LLM-as-a-Judgeの信頼性には改善の余地が残されていることを示唆している。さらに、これらのバイアスの明示的・暗黙的な影響についても議論し、LLM-as-a-Judgeの信頼性の高い適用のためのいくつかの提案を行う。我々の研究は、関係者がこれらの問題に取り組む必要性を強調し、LLM-as-a-Judgeの適用に注意を払うよう利用者に喚起する。

要約(オリジナル)

LLM-as-a-Judge has been widely utilized as an evaluation method in various benchmarks and served as supervised rewards in model training. However, despite their excellence in many domains, potential issues are under-explored, undermining their reliability and the scope of their utility. Therefore, we identify 12 key potential biases and propose a new automated bias quantification framework-CALM-which systematically quantifies and analyzes each type of bias in LLM-as-a-Judge by using automated and principle-guided modification. Our experiments cover multiple popular language models, and the results indicate that while advanced models have achieved commendable overall performance, significant biases persist in certain specific tasks. Empirical results suggest that there remains room for improvement in the reliability of LLM-as-a-Judge. Moreover, we also discuss the explicit and implicit influence of these biases and give some suggestions for the reliable application of LLM-as-a-Judge. Our work highlights the need for stakeholders to address these issues and remind users to exercise caution in LLM-as-a-Judge applications.

arxiv情報

著者 Jiayi Ye,Yanbo Wang,Yue Huang,Dongping Chen,Qihui Zhang,Nuno Moniz,Tian Gao,Werner Geyer,Chao Huang,Pin-Yu Chen,Nitesh V Chawla,Xiangliang Zhang
発行日 2024-10-03 17:53:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | コメントする

Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models

要約

マルチモーダルモデルにおける最近の進歩は、パフォーマンスを向上させるためにキャプションを書き換えることの価値を強調しているが、まだ重要な課題が残っている。例えば、合成キャプションはしばしば優れた品質と画像とテキストの整合を提供するが、AltTextを完全に置き換えることができるかどうかは明らかではない。事前学習における合成キャプションの役割と、ウェブクローリングされたオリジナルのAltTextとの相互作用は、まだよく理解されていない。さらに、異なるマルチモーダル基礎モデルは、特定のキャプション形式に対して独自の嗜好を持つ可能性があるが、各モデルに最適なキャプションを特定する努力はまだ限定的である。本研究では、様々なマルチモーダルモデルに合わせた多様なキャプションフォーマットを生成するように設計された、新規で制御可能かつスケーラブルなキャプションパイプラインを提案する。短い合成キャプション(SSC)と密な合成キャプション(DSC+)をケーススタディとして検討することにより、CLIP、マルチモーダルLLM、拡散モデルなどのモデルを横断して、それらの効果とAltTextsとの相互作用を系統的に探索する。その結果、合成キャプションとAltTextの両方を保持するハイブリッドアプローチが、合成キャプションのみの使用を上回り、アラインメントとパフォーマンスの両方を改善できることが明らかになりました。この包括的な分析は、キャプション戦略を最適化するための貴重な洞察を提供し、それによってマルチモーダル基礎モデルの事前学習を促進する。

要約(オリジナル)

Recent advancements in multimodal models highlight the value of rewritten captions for improving performance, yet key challenges remain. For example, while synthetic captions often provide superior quality and image-text alignment, it is not clear whether they can fully replace AltTexts: the role of synthetic captions and their interaction with original web-crawled AltTexts in pre-training is still not well understood. Moreover, different multimodal foundation models may have unique preferences for specific caption formats, but efforts to identify the optimal captions for each model remain limited. In this work, we propose a novel, controllable, and scalable captioning pipeline designed to generate diverse caption formats tailored to various multimodal models. By examining Short Synthetic Captions (SSC) towards Dense Synthetic Captions (DSC+) as case studies, we systematically explore their effects and interactions with AltTexts across models such as CLIP, multimodal LLMs, and diffusion models. Our findings reveal that a hybrid approach that keeps both synthetic captions and AltTexts can outperform the use of synthetic captions alone, improving both alignment and performance, with each model demonstrating preferences for particular caption formats. This comprehensive analysis provides valuable insights into optimizing captioning strategies, thereby advancing the pre-training of multimodal foundation models.

arxiv情報

著者 Zhengfeng Lai,Vasileios Saveris,Chen Chen,Hong-You Chen,Haotian Zhang,Bowen Zhang,Juan Lao Tebar,Wenze Hu,Zhe Gan,Peter Grasch,Meng Cao,Yinfei Yang
発行日 2024-10-03 17:54:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

Salient Information Prompting to Steer Content in Prompt-based Abstractive Summarization

要約

大規模言語モデル(LLM)は、プロンプト技術を用いることで、領域横断的に流暢な要約を生成することができる。しかし、LLMが適切な詳細度と書き方で要約を生成するよう導く効果的なプロンプトを作成することは、依然として課題である。本稿では、要約プロンプトを強化するために、ソース文書から抽出された顕著な情報の利用を検討する。プロンプトにキーフレーズを追加することで、ROUGE F1とリコールが改善され、生成される要約が参考文献により近く、より完全なものになることを示す。キーフレーズの数は精度と再現率のトレードオフを制御することができる。さらに、我々の分析から、フレーズレベルの顕著な情報を取り入れることは、単語レベルや文レベルよりも優れていることが明らかになった。しかし、幻覚への影響はLLM間で普遍的にプラスに働くわけではない。この分析を行うために、我々は、顕著なキーフレーズを抽出するために微調整可能な軽量モデルであるKeyphrase Signal Extractor (SigExt)を導入する。SigExtを使用することで、LLMをカスタマイズすることなく、データセット、オープンウェイトLLM、プロプライエタリLLMにおいて一貫したROUGEの改善を達成した。我々の発見は、プロンプトベースの要約システムを構築する際に、顕著な情報を活用するための洞察を提供する。

要約(オリジナル)

Large language models (LLMs) can generate fluent summaries across domains using prompting techniques, reducing the need to train models for summarization applications. However, crafting effective prompts that guide LLMs to generate summaries with the appropriate level of detail and writing style remains a challenge. In this paper, we explore the use of salient information extracted from the source document to enhance summarization prompts. We show that adding keyphrases in prompts can improve ROUGE F1 and recall, making the generated summaries more similar to the reference and more complete. The number of keyphrases can control the precision-recall trade-off. Furthermore, our analysis reveals that incorporating phrase-level salient information is superior to word- or sentence-level. However, the impact on hallucination is not universally positive across LLMs. To conduct this analysis, we introduce Keyphrase Signal Extractor (SigExt), a lightweight model that can be finetuned to extract salient keyphrases. By using SigExt, we achieve consistent ROUGE improvements across datasets and open-weight and proprietary LLMs without any LLM customization. Our findings provide insights into leveraging salient information in building prompt-based summarization systems.

arxiv情報

著者 Lei Xu,Mohammed Asad Karim,Saket Dingliwal,Aparna Elangovan
発行日 2024-10-03 17:54:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Neutral residues: revisiting adapters for model extension

要約

我々は、事前に学習された大規模言語モデルを、元のモデルが学習データを見たことがない、あるいはほとんど見たことがない言語を追加するなど、学習時には見られなかった新しいドメインに拡張する問題を扱う。fine-tuningやlow-rank adaptationのような一般的な解決策はドメイン適応に成功するが、形式的には余分な能力を追加せず、元のドメインでの性能を低下させる。 本論文では、この拡張問題を、データ、アーキテクチャ、学習手順という3つの角度から分析し、これらを合同で考慮することで、有利に解決する。特に、我々はアダプタを改良し、ニューラルネットワークの出力が元のドメインでほとんど変わらないことを保証しながら、新しい言語全体を学習できるようにする。この目的のために、それぞれの新しい残差ブロックが元の領域でゼロに近い出力をするように、新しい残差ブロックを修正する。 この中立残差の解決策は、専門家の混合物からアーキテクチャの構成要素を借用するもので、効果的である。英語で学習した元のモデルと比較して、学習可能な重みをわずか20%追加するだけで、新しい言語の学習と英語を忘れないこととのトレードオフの点で、同時並行のアプローチ(ファインチューニング、低ランクまたはバニラアダプター)よりも大幅に優れた結果を得ることができる。

要約(オリジナル)

We address the problem of extending a pretrained large language model to a new domain that was not seen at training time, like adding a language for which the original model has seen no or little training data. Popular solutions like fine-tuning or low-rank adaptation are successful at domain adaptation, but formally they do not add any extra capacity and degrade the performance in the original domain. Our paper analyzes this extension problem under three angles: data, architecture and training procedure, which are advantageously considered jointly. In particular, we improve adapters and make it possible to learn an entire new language while ensuring that the output of the neural network is almost unchanged in the original domain. For this purpose, we modify the new residual blocks in a way that leads each new residual block to output near-zeros in the original domain. This solution of neutral residues, which borrows architectural components from mixture of experts, is effective: with only 20% extra learnable weights compared to an original model trained on English, we get results that are significantly better than concurrent approaches (fine-tuning, low-rank or vanilla adapters) in terms of the trade-off between learning a new language and not forgetting English.

arxiv情報

著者 Franck Signe Talla,Herve Jegou,Edouard Grave
発行日 2024-10-03 17:55:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing

要約

個人的なコンテンツを効果的に編集することは、個人の創造性を表現し、ビジュアルストーリーの中に魅力的な物語を織り込み、ビジュアルコンテンツの全体的な品質とインパクトを高める上で極めて重要な役割を担っている。そこで本研究では、コンテキストを変更せずに、画像内の任意のオブジェクトを、参照によって与えられたパーソナライズされたコンセプトと交換することができる、新しいフレームワークであるSwapAnythingを紹介する。既存のパーソナライズされた被写体の入れ替え手法と比較して、SwapAnythingには3つのユニークな利点がある:(1)メインの被写体ではなく、任意のオブジェクトやパーツを正確に制御できる、(2)コンテキストピクセルをより忠実に保持できる、(3)パーソナライズされたコンセプトをより適切に画像に適応できる。まず、潜在特徴マップに対して領域制御を適用し、忠実な文脈保存と初期意味概念の入れ替えのために、マスクされた変数を入れ替えるターゲット変数の入れ替えを提案する。次に、画像生成プロセスにおいて、対象位置、形状、スタイル、内容などの観点から、意味概念を元の画像にシームレスに適応させるための外観適応を導入する。人間による評価と自動評価の両方における広範な結果は、パーソナライズされたスワッピングに関するベースライン手法に対する我々のアプローチの大幅な改善を実証している。さらに、SwapAnythingは、単一オブジェクト、複数オブジェクト、部分オブジェクト、およびクロスドメインスワッピングタスクにおいて、その正確で忠実なスワッピング能力を示す。SwapAnythingはまた、テキストベースのスワッピングや、オブジェクト挿入のようなスワッピング以外のタスクにおいても優れた性能を達成している。

要約(オリジナル)

Effective editing of personal content holds a pivotal role in enabling individuals to express their creativity, weaving captivating narratives within their visual stories, and elevate the overall quality and impact of their visual content. Therefore, in this work, we introduce SwapAnything, a novel framework that can swap any objects in an image with personalized concepts given by the reference, while keeping the context unchanged. Compared with existing methods for personalized subject swapping, SwapAnything has three unique advantages: (1) precise control of arbitrary objects and parts rather than the main subject, (2) more faithful preservation of context pixels, (3) better adaptation of the personalized concept to the image. First, we propose targeted variable swapping to apply region control over latent feature maps and swap masked variables for faithful context preservation and initial semantic concept swapping. Then, we introduce appearance adaptation, to seamlessly adapt the semantic concept into the original image in terms of target location, shape, style, and content during the image generation process. Extensive results on both human and automatic evaluation demonstrate significant improvements of our approach over baseline methods on personalized swapping. Furthermore, SwapAnything shows its precise and faithful swapping abilities across single object, multiple objects, partial object, and cross-domain swapping tasks. SwapAnything also achieves great performance on text-based swapping and tasks beyond swapping such as object insertion.

arxiv情報

著者 Jing Gu,Nanxuan Zhao,Wei Xiong,Qing Liu,Zhifei Zhang,He Zhang,Jianming Zhang,HyunJoon Jung,Yilin Wang,Xin Eric Wang
発行日 2024-10-03 17:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | コメントする