Anchor-Controlled Generative Adversarial Network for High-Fidelity Electromagnetic and Structurally Diverse Metasurface Design

要約

サブ波長スケールで光を操作できるメタサーフェスは、オプトエレクトロニクス・アプリケーションを発展させる大きな可能性を秘めている。生成モデル、特にGenerative Adversarial Networks(GAN)は、複雑な設計空間を効率的にナビゲートし、基礎となるデータ・パターンを捉えることによって、メタサーフェスの逆設計に有望なアプローチを提供する。しかし、既存の生成モデルは、高い電磁気的忠実度と構造的多様性を達成するのに苦労しています。これらの課題は、学習中に明示的な電磁気的制約がないため、正確な構造から電磁気的応答へのマッピングができないことや、1対多のマッピングジレンマを扱うメカニズムがないため、構造多様性が不十分であることから生じる。これらの問題に対処するために、我々は、電磁気的忠実性と構造的多様性の両方を向上させる新しいフレームワークであるアンカー制御生成アドバーサリアルネットワーク(AcGAN)を提案する。高い電磁気的忠実度を達成するために、AcGANは正確なスペクトル忠実度評価のためのスペクトル重なり係数(SOC)を提案し、構造から電磁気へのマッピングを改良するために電磁気的性能に関するリアルタイムフィードバックを提供するアンカーネットを開発する。構造の多様性を高めるために、AcGANは、入力処理を洗練し、マルチレベルのスペクトル統合を保証するクラスタ誘導制御器を組み込み、同じスペクトルターゲットに対して複数の構成を探索するように生成プロセスを誘導する。さらに、動的損失関数は、データ駆動型学習から、スペクトル忠実度と構造多様性の両方を最適化することに徐々に焦点を移す。実証分析によると、AcGANは、現在の最先端のGAN手法と比較して、平均二乗誤差(MSE)を73%削減し、正確なスペクトル要求を満たす多様なメタサーフェスアーキテクチャを生成するための設計空間を大幅に拡張する。

要約(オリジナル)

Metasurfaces, capable of manipulating light at subwavelength scales, hold great potential for advancing optoelectronic applications. Generative models, particularly Generative Adversarial Networks (GANs), offer a promising approach for metasurface inverse design by efficiently navigating complex design spaces and capturing underlying data patterns. However, existing generative models struggle to achieve high electromagnetic fidelity and structural diversity. These challenges arise from the lack of explicit electromagnetic constraints during training, which hinders accurate structure-to-electromagnetic response mapping, and the absence of mechanisms to handle one-to-many mappings dilemma, resulting in insufficient structural diversity. To address these issues, we propose the Anchor-controlled Generative Adversarial Network (AcGAN), a novel framework that improves both electromagnetic fidelity and structural diversity. To achieve high electromagnetic fidelity, AcGAN proposes the Spectral Overlap Coefficient (SOC) for precise spectral fidelity assessment and develops AnchorNet, which provides real-time feedback on electromagnetic performance to refine the structure-to-electromagnetic mapping. To enhance structural diversity, AcGAN incorporates a cluster-guided controller that refines input processing and ensures multi-level spectral integration, guiding the generation process to explore multiple configurations for the same spectral target. Additionally, a dynamic loss function progressively shifts the focus from data-driven learning to optimizing both spectral fidelity and structural diversity. Empirical analysis shows that AcGAN reduces the Mean Squared Error (MSE) by 73% compared to current state-of-the-art GANs methods and significantly expands the design space to generate diverse metasurface architectures that meet precise spectral demands.

arxiv情報

著者 Yunhui Zeng,Hongkun Cao,Xin Jin
発行日 2024-10-03 17:53:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, physics.app-ph, physics.optics | コメントする

Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge

要約

LLM-as-a-Judgeは、様々なベンチマークにおける評価手法として広く利用され、モデル学習における教師付き報酬として役立ってきた。しかし、多くの領域でLLM-as-a-Judgeが優れているにもかかわらず、潜在的な問題は十分に調査されておらず、LLM-as-a-Judgeの信頼性と有用性の範囲を損なっている。そこで、我々は12の主要な潜在的なバイアスを特定し、自動化されたバイアスを定量化するフレームワーク-CALM-を提案する。我々の実験は、複数の一般的な言語モデルを対象としており、その結果、先進的なモデルが総合的な性能は高く評価できるものの、特定のタスクでは重大なバイアスが残っていることが示された。実証結果は、LLM-as-a-Judgeの信頼性には改善の余地が残されていることを示唆している。さらに、これらのバイアスの明示的・暗黙的な影響についても議論し、LLM-as-a-Judgeの信頼性の高い適用のためのいくつかの提案を行う。我々の研究は、関係者がこれらの問題に取り組む必要性を強調し、LLM-as-a-Judgeの適用に注意を払うよう利用者に喚起する。

要約(オリジナル)

LLM-as-a-Judge has been widely utilized as an evaluation method in various benchmarks and served as supervised rewards in model training. However, despite their excellence in many domains, potential issues are under-explored, undermining their reliability and the scope of their utility. Therefore, we identify 12 key potential biases and propose a new automated bias quantification framework-CALM-which systematically quantifies and analyzes each type of bias in LLM-as-a-Judge by using automated and principle-guided modification. Our experiments cover multiple popular language models, and the results indicate that while advanced models have achieved commendable overall performance, significant biases persist in certain specific tasks. Empirical results suggest that there remains room for improvement in the reliability of LLM-as-a-Judge. Moreover, we also discuss the explicit and implicit influence of these biases and give some suggestions for the reliable application of LLM-as-a-Judge. Our work highlights the need for stakeholders to address these issues and remind users to exercise caution in LLM-as-a-Judge applications.

arxiv情報

著者 Jiayi Ye,Yanbo Wang,Yue Huang,Dongping Chen,Qihui Zhang,Nuno Moniz,Tian Gao,Werner Geyer,Chao Huang,Pin-Yu Chen,Nitesh V Chawla,Xiangliang Zhang
発行日 2024-10-03 17:53:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | コメントする

Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models

要約

マルチモーダルモデルにおける最近の進歩は、パフォーマンスを向上させるためにキャプションを書き換えることの価値を強調しているが、まだ重要な課題が残っている。例えば、合成キャプションはしばしば優れた品質と画像とテキストの整合を提供するが、AltTextを完全に置き換えることができるかどうかは明らかではない。事前学習における合成キャプションの役割と、ウェブクローリングされたオリジナルのAltTextとの相互作用は、まだよく理解されていない。さらに、異なるマルチモーダル基礎モデルは、特定のキャプション形式に対して独自の嗜好を持つ可能性があるが、各モデルに最適なキャプションを特定する努力はまだ限定的である。本研究では、様々なマルチモーダルモデルに合わせた多様なキャプションフォーマットを生成するように設計された、新規で制御可能かつスケーラブルなキャプションパイプラインを提案する。短い合成キャプション(SSC)と密な合成キャプション(DSC+)をケーススタディとして検討することにより、CLIP、マルチモーダルLLM、拡散モデルなどのモデルを横断して、それらの効果とAltTextsとの相互作用を系統的に探索する。その結果、合成キャプションとAltTextの両方を保持するハイブリッドアプローチが、合成キャプションのみの使用を上回り、アラインメントとパフォーマンスの両方を改善できることが明らかになりました。この包括的な分析は、キャプション戦略を最適化するための貴重な洞察を提供し、それによってマルチモーダル基礎モデルの事前学習を促進する。

要約(オリジナル)

Recent advancements in multimodal models highlight the value of rewritten captions for improving performance, yet key challenges remain. For example, while synthetic captions often provide superior quality and image-text alignment, it is not clear whether they can fully replace AltTexts: the role of synthetic captions and their interaction with original web-crawled AltTexts in pre-training is still not well understood. Moreover, different multimodal foundation models may have unique preferences for specific caption formats, but efforts to identify the optimal captions for each model remain limited. In this work, we propose a novel, controllable, and scalable captioning pipeline designed to generate diverse caption formats tailored to various multimodal models. By examining Short Synthetic Captions (SSC) towards Dense Synthetic Captions (DSC+) as case studies, we systematically explore their effects and interactions with AltTexts across models such as CLIP, multimodal LLMs, and diffusion models. Our findings reveal that a hybrid approach that keeps both synthetic captions and AltTexts can outperform the use of synthetic captions alone, improving both alignment and performance, with each model demonstrating preferences for particular caption formats. This comprehensive analysis provides valuable insights into optimizing captioning strategies, thereby advancing the pre-training of multimodal foundation models.

arxiv情報

著者 Zhengfeng Lai,Vasileios Saveris,Chen Chen,Hong-You Chen,Haotian Zhang,Bowen Zhang,Juan Lao Tebar,Wenze Hu,Zhe Gan,Peter Grasch,Meng Cao,Yinfei Yang
発行日 2024-10-03 17:54:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

Salient Information Prompting to Steer Content in Prompt-based Abstractive Summarization

要約

大規模言語モデル(LLM)は、プロンプト技術を用いることで、領域横断的に流暢な要約を生成することができる。しかし、LLMが適切な詳細度と書き方で要約を生成するよう導く効果的なプロンプトを作成することは、依然として課題である。本稿では、要約プロンプトを強化するために、ソース文書から抽出された顕著な情報の利用を検討する。プロンプトにキーフレーズを追加することで、ROUGE F1とリコールが改善され、生成される要約が参考文献により近く、より完全なものになることを示す。キーフレーズの数は精度と再現率のトレードオフを制御することができる。さらに、我々の分析から、フレーズレベルの顕著な情報を取り入れることは、単語レベルや文レベルよりも優れていることが明らかになった。しかし、幻覚への影響はLLM間で普遍的にプラスに働くわけではない。この分析を行うために、我々は、顕著なキーフレーズを抽出するために微調整可能な軽量モデルであるKeyphrase Signal Extractor (SigExt)を導入する。SigExtを使用することで、LLMをカスタマイズすることなく、データセット、オープンウェイトLLM、プロプライエタリLLMにおいて一貫したROUGEの改善を達成した。我々の発見は、プロンプトベースの要約システムを構築する際に、顕著な情報を活用するための洞察を提供する。

要約(オリジナル)

Large language models (LLMs) can generate fluent summaries across domains using prompting techniques, reducing the need to train models for summarization applications. However, crafting effective prompts that guide LLMs to generate summaries with the appropriate level of detail and writing style remains a challenge. In this paper, we explore the use of salient information extracted from the source document to enhance summarization prompts. We show that adding keyphrases in prompts can improve ROUGE F1 and recall, making the generated summaries more similar to the reference and more complete. The number of keyphrases can control the precision-recall trade-off. Furthermore, our analysis reveals that incorporating phrase-level salient information is superior to word- or sentence-level. However, the impact on hallucination is not universally positive across LLMs. To conduct this analysis, we introduce Keyphrase Signal Extractor (SigExt), a lightweight model that can be finetuned to extract salient keyphrases. By using SigExt, we achieve consistent ROUGE improvements across datasets and open-weight and proprietary LLMs without any LLM customization. Our findings provide insights into leveraging salient information in building prompt-based summarization systems.

arxiv情報

著者 Lei Xu,Mohammed Asad Karim,Saket Dingliwal,Aparna Elangovan
発行日 2024-10-03 17:54:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Neutral residues: revisiting adapters for model extension

要約

我々は、事前に学習された大規模言語モデルを、元のモデルが学習データを見たことがない、あるいはほとんど見たことがない言語を追加するなど、学習時には見られなかった新しいドメインに拡張する問題を扱う。fine-tuningやlow-rank adaptationのような一般的な解決策はドメイン適応に成功するが、形式的には余分な能力を追加せず、元のドメインでの性能を低下させる。 本論文では、この拡張問題を、データ、アーキテクチャ、学習手順という3つの角度から分析し、これらを合同で考慮することで、有利に解決する。特に、我々はアダプタを改良し、ニューラルネットワークの出力が元のドメインでほとんど変わらないことを保証しながら、新しい言語全体を学習できるようにする。この目的のために、それぞれの新しい残差ブロックが元の領域でゼロに近い出力をするように、新しい残差ブロックを修正する。 この中立残差の解決策は、専門家の混合物からアーキテクチャの構成要素を借用するもので、効果的である。英語で学習した元のモデルと比較して、学習可能な重みをわずか20%追加するだけで、新しい言語の学習と英語を忘れないこととのトレードオフの点で、同時並行のアプローチ(ファインチューニング、低ランクまたはバニラアダプター)よりも大幅に優れた結果を得ることができる。

要約(オリジナル)

We address the problem of extending a pretrained large language model to a new domain that was not seen at training time, like adding a language for which the original model has seen no or little training data. Popular solutions like fine-tuning or low-rank adaptation are successful at domain adaptation, but formally they do not add any extra capacity and degrade the performance in the original domain. Our paper analyzes this extension problem under three angles: data, architecture and training procedure, which are advantageously considered jointly. In particular, we improve adapters and make it possible to learn an entire new language while ensuring that the output of the neural network is almost unchanged in the original domain. For this purpose, we modify the new residual blocks in a way that leads each new residual block to output near-zeros in the original domain. This solution of neutral residues, which borrows architectural components from mixture of experts, is effective: with only 20% extra learnable weights compared to an original model trained on English, we get results that are significantly better than concurrent approaches (fine-tuning, low-rank or vanilla adapters) in terms of the trade-off between learning a new language and not forgetting English.

arxiv情報

著者 Franck Signe Talla,Herve Jegou,Edouard Grave
発行日 2024-10-03 17:55:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing

要約

個人的なコンテンツを効果的に編集することは、個人の創造性を表現し、ビジュアルストーリーの中に魅力的な物語を織り込み、ビジュアルコンテンツの全体的な品質とインパクトを高める上で極めて重要な役割を担っている。そこで本研究では、コンテキストを変更せずに、画像内の任意のオブジェクトを、参照によって与えられたパーソナライズされたコンセプトと交換することができる、新しいフレームワークであるSwapAnythingを紹介する。既存のパーソナライズされた被写体の入れ替え手法と比較して、SwapAnythingには3つのユニークな利点がある:(1)メインの被写体ではなく、任意のオブジェクトやパーツを正確に制御できる、(2)コンテキストピクセルをより忠実に保持できる、(3)パーソナライズされたコンセプトをより適切に画像に適応できる。まず、潜在特徴マップに対して領域制御を適用し、忠実な文脈保存と初期意味概念の入れ替えのために、マスクされた変数を入れ替えるターゲット変数の入れ替えを提案する。次に、画像生成プロセスにおいて、対象位置、形状、スタイル、内容などの観点から、意味概念を元の画像にシームレスに適応させるための外観適応を導入する。人間による評価と自動評価の両方における広範な結果は、パーソナライズされたスワッピングに関するベースライン手法に対する我々のアプローチの大幅な改善を実証している。さらに、SwapAnythingは、単一オブジェクト、複数オブジェクト、部分オブジェクト、およびクロスドメインスワッピングタスクにおいて、その正確で忠実なスワッピング能力を示す。SwapAnythingはまた、テキストベースのスワッピングや、オブジェクト挿入のようなスワッピング以外のタスクにおいても優れた性能を達成している。

要約(オリジナル)

Effective editing of personal content holds a pivotal role in enabling individuals to express their creativity, weaving captivating narratives within their visual stories, and elevate the overall quality and impact of their visual content. Therefore, in this work, we introduce SwapAnything, a novel framework that can swap any objects in an image with personalized concepts given by the reference, while keeping the context unchanged. Compared with existing methods for personalized subject swapping, SwapAnything has three unique advantages: (1) precise control of arbitrary objects and parts rather than the main subject, (2) more faithful preservation of context pixels, (3) better adaptation of the personalized concept to the image. First, we propose targeted variable swapping to apply region control over latent feature maps and swap masked variables for faithful context preservation and initial semantic concept swapping. Then, we introduce appearance adaptation, to seamlessly adapt the semantic concept into the original image in terms of target location, shape, style, and content during the image generation process. Extensive results on both human and automatic evaluation demonstrate significant improvements of our approach over baseline methods on personalized swapping. Furthermore, SwapAnything shows its precise and faithful swapping abilities across single object, multiple objects, partial object, and cross-domain swapping tasks. SwapAnything also achieves great performance on text-based swapping and tasks beyond swapping such as object insertion.

arxiv情報

著者 Jing Gu,Nanxuan Zhao,Wei Xiong,Qing Liu,Zhifei Zhang,He Zhang,Jianming Zhang,HyunJoon Jung,Yilin Wang,Xin Eric Wang
発行日 2024-10-03 17:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | コメントする

CriSPO: Multi-Aspect Critique-Suggestion-guided Automatic Prompt Optimization for Text Generation

要約

大規模言語モデル(LLM)は、プロンプト技術を用いることで、領域横断的に流暢な要約を生成することができる。しかし、LLMが適切な詳細度と書き方で要約を生成するよう導く効果的なプロンプトを作成することは、依然として課題である。本稿では、要約プロンプトを強化するために、ソース文書から抽出された顕著な情報の利用を検討する。プロンプトにキーフレーズを追加することで、ROUGE F1とリコールが改善され、生成される要約が参考文献により近く、より完全なものになることを示す。キーフレーズの数は精度と再現率のトレードオフを制御することができる。さらに、我々の分析から、フレーズレベルの顕著な情報を取り入れることは、単語レベルや文レベルよりも優れていることが明らかになった。しかし、幻覚への影響はLLM間で普遍的にプラスに働くわけではない。この分析を行うために、我々はKeyphrase Signal Extractor (CriSPO)を導入する。CriSPOは、顕著なキーフレーズを抽出するために微調整が可能な軽量モデルである。CriSPOを使用することで、LLMをカスタマイズすることなく、データセット、オープンウェイトLLM、プロプライエタリLLMを問わず、一貫したROUGEの改善を達成した。我々の発見は、プロンプトベースの要約システムを構築する際に、顕著な情報を活用するための洞察を提供する。

要約(オリジナル)

Large language models (LLMs) can generate fluent summaries across domains using prompting techniques, reducing the need to train models for summarization applications. However, crafting effective prompts that guide LLMs to generate summaries with the appropriate level of detail and writing style remains a challenge. In this paper, we explore the use of salient information extracted from the source document to enhance summarization prompts. We show that adding keyphrases in prompts can improve ROUGE F1 and recall, making the generated summaries more similar to the reference and more complete. The number of keyphrases can control the precision-recall trade-off. Furthermore, our analysis reveals that incorporating phrase-level salient information is superior to word- or sentence-level. However, the impact on hallucination is not universally positive across LLMs. To conduct this analysis, we introduce Keyphrase Signal Extractor (CriSPO), a lightweight model that can be finetuned to extract salient keyphrases. By using CriSPO, we achieve consistent ROUGE improvements across datasets and open-weight and proprietary LLMs without any LLM customization. Our findings provide insights into leveraging salient information in building prompt-based summarization systems.

arxiv情報

著者 Han He,Qianchu Liu,Lei Xu,Chaitanya Shivade,Yi Zhang,Sundararajan Srinivasan,Katrin Kirchhoff
発行日 2024-10-03 17:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

LML-DAP: Language Model Learning a Dataset for Data-Augmented Prediction

要約

分類タスクは通常、機械学習(ML)モデルを用いて処理されるが、精度と解釈可能性のバランスがとれていない。本稿では、説明可能な方法で分類タスクに大規模言語モデル(LLM)を使用する新しいアプローチを紹介する。データクリーニングと特徴量エンジニアリングに大きく依存するMLモデルとは異なり、この手法はLLMを用いてプロセスを効率化する。本論文では、「データ拡張予測(DAP)」と呼ばれる新しい手法により、「言語モデル学習(LML)」と呼ばれる新しい概念を提案する。LLMは、人間が手作業でデータを探索・理解し、データを参照しながら分類を決定するのと同様の方法を用いて分類を行う。LMLのプロセスでは、データセットを要約して評価し、各ラベルの分類に最もつながる特徴を決定する。DAPのプロセスでは、システムはデータの要約とテストデータセットの行を使用してクエリを自動生成し、このクエリを使用してデータセットから関連する行を検索する。LLMはデータの要約と関連する行を使用して分類を生成し、文脈を考慮した意思決定により複雑なデータでも十分な精度を確保する。LMLとDAPは新しいアプリケーションの可能性を解き放つ。提案された方法では、プロンプトに「説明可能な機械学習モデルとして機能する」という言葉を使用し、各予測の背後にあるロジックをユーザーが確認できるようにすることで、予測の解釈可能性を高めている。いくつかのテストケースにおいて、システムは90%を超える精度を獲得し、システムの有効性と、様々なシナリオにおいて従来のMLモデルを凌駕する可能性を証明した。コードはhttps://github.com/Pro-GenAI/LML-DAP

要約(オリジナル)

Classification tasks are typically handled using Machine Learning (ML) models, which lack a balance between accuracy and interpretability. This paper introduces a new approach to using Large Language Models (LLMs) for classification tasks in an explainable way. Unlike ML models that rely heavily on data cleaning and feature engineering, this method streamlines the process using LLMs. This paper proposes a new concept called ‘Language Model Learning (LML)’ powered by a new method called ‘Data-Augmented Prediction (DAP)’. The classification is performed by LLMs using a method similar to humans manually exploring and understanding the data and deciding classifications using data as a reference. In the LML process, a dataset is summarized and evaluated to determine the features that lead to the classification of each label the most. In the process of DAP, the system uses the data summary and a row of the testing dataset to automatically generate a query, which is used to retrieve relevant rows from the dataset. A classification is generated by the LLM using data summary and relevant rows, ensuring satisfactory accuracy even with complex data using context-aware decision-making. LML and DAP unlock the possibilities of new applications. The proposed method uses the words ‘Act as an Explainable Machine Learning Model’ in the prompt to enhance the interpretability of the predictions by allowing users to review the logic behind each prediction. In some test cases, the system scored an accuracy above 90%, proving the effectiveness of the system and its potential to outperform conventional ML models in various scenarios. The code is available at https://github.com/Pro-GenAI/LML-DAP

arxiv情報

著者 Praneeth Vadlapati
発行日 2024-10-03 17:57:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | コメントする

Accelerating Training with Neuron Interaction and Nowcasting Networks

要約

古典的な適応オプティマイザ(Adamなど)の代わりに学習可能な更新ルールを使用すると、ニューラルネットワークの学習を加速できる。しかし、学習可能な更新ルールは、学習や使用にコストがかかり、不安定になる可能性がある。最近、Jangら(2023)は、ウェイト・ナウキャスター・ネットワーク(WNN)に基づく、より単純な学習高速化アプローチを提案した。彼らのアプローチでは、最適化ステップのほとんどにAdamが使われ、数ステップごとにだけ定期的に、WNNがパラメータをナウキャスト(近未来を予測)する。我々は、ニューロン相互作用とナウキャスティング(NiNo)ネットワークを提案することで、WNNを改良する。WNNとは対照的に、NiNoはニューロンの結合性とグラフニューラルネットワークを活用し、より正確にパラメータをナウキャストする。さらに、Transformersのようないくつかのネットワークでは、ニューロンの結合性を正確にモデル化することが困難であることを示す。NiNoは、視覚と言語タスクにおいて、アダムの学習を最大50%加速することができる。

要約(オリジナル)

Neural network training can be accelerated when a learnable update rule is used in lieu of classic adaptive optimizers (e.g. Adam). However, learnable update rules can be costly and unstable to train and use. Recently, Jang et al. (2023) proposed a simpler approach to accelerate training based on weight nowcaster networks (WNNs). In their approach, Adam is used for most of the optimization steps and periodically, only every few steps, a WNN nowcasts (predicts near future) parameters. We improve WNNs by proposing neuron interaction and nowcasting (NiNo) networks. In contrast to WNNs, NiNo leverages neuron connectivity and graph neural networks to more accurately nowcast parameters. We further show that in some networks, such as Transformers, modeling neuron connectivity accurately is challenging. We address this and other limitations, which allows NiNo to accelerate Adam training by up to 50% in vision and language tasks.

arxiv情報

著者 Boris Knyazev,Abhinav Moudgil,Guillaume Lajoie,Eugene Belilovsky,Simon Lacoste-Julien
発行日 2024-10-03 17:57:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ML | コメントする

CMP: Cooperative Motion Prediction with Multi-Agent Communication

要約

自律走行車(AV)の進化とV2X(Vehicle-to-Everything)通信の成熟が合流することで、協調的なコネクテッドカー(CAV)と自動運転車(CAV)の実現が可能になった。本稿では、協調的知覚の上に、協調的運動予測の実現可能性と有効性を探る。我々の手法であるCMPは、LiDAR信号をモデル入力とし、追跡と予測能力を強化する。我々の知る限り、CAVが知覚と予測の両方のモジュールで情報を共有するという統一的な問題に取り組んだのは、我々のフレームワークが初めてである。私たちの設計には、現実的なV2Xの帯域幅の制限と伝送遅延を許容するユニークな機能が組み込まれており、同時にかさばる知覚表現を扱うことができます。また、異なるCAVによって得られた予測を統合し、最終的な予測を生成する予測集約モジュールを提案します。OPV2VとV2V4Realデータセットでの広範な実験とアブレーション研究を通じて、協調的知覚、追跡、および動き予測における我々の手法の有効性を実証する。特に、CMPは、協調なし設定と比較して、より少ない欠落検出で平均予測誤差を16.4%減少させ、最も強いベースラインと比較して12.3%減少させる。我々の研究は、CAVの協調能力における重要な一歩であり、複雑なシナリオにおいて強化された性能を示している。コードはプロジェクトのウェブサイトhttps://cmp-cooperative-prediction.github.io/。

要約(オリジナル)

The confluence of the advancement of Autonomous Vehicles (AVs) and the maturity of Vehicle-to-Everything (V2X) communication has enabled the capability of cooperative connected and automated vehicles (CAVs). Building on top of cooperative perception, this paper explores the feasibility and effectiveness of cooperative motion prediction. Our method, CMP, takes LiDAR signals as model input to enhance tracking and prediction capabilities. Unlike previous work that focuses separately on either cooperative perception or motion prediction, our framework, to the best of our knowledge, is the first to address the unified problem where CAVs share information in both perception and prediction modules. Incorporated into our design is the unique capability to tolerate realistic V2X bandwidth limitations and transmission delays, while dealing with bulky perception representations. We also propose a prediction aggregation module, which unifies the predictions obtained by different CAVs and generates the final prediction. Through extensive experiments and ablation studies on the OPV2V and V2V4Real datasets, we demonstrate the effectiveness of our method in cooperative perception, tracking, and motion prediction. In particular, CMP reduces the average prediction error by 16.4\% with fewer missing detections compared with the no cooperation setting and by 12.3\% compared with the strongest baseline. Our work marks a significant step forward in the cooperative capabilities of CAVs, showcasing enhanced performance in complex scenarios. The code can be found on the project website: https://cmp-cooperative-prediction.github.io/.

arxiv情報

著者 Zehao Wang,Yuping Wang,Zhuoyuan Wu,Hengbo Ma,Zhaowei Li,Hang Qiu,Jiachen Li
発行日 2024-10-03 17:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MA, cs.RO | コメントする