CriSPO: Multi-Aspect Critique-Suggestion-guided Automatic Prompt Optimization for Text Generation

要約

大規模言語モデル(LLM)は、プロンプト技術を用いることで、領域横断的に流暢な要約を生成することができる。しかし、LLMが適切な詳細度と書き方で要約を生成するよう導く効果的なプロンプトを作成することは、依然として課題である。本稿では、要約プロンプトを強化するために、ソース文書から抽出された顕著な情報の利用を検討する。プロンプトにキーフレーズを追加することで、ROUGE F1とリコールが改善され、生成される要約が参考文献により近く、より完全なものになることを示す。キーフレーズの数は精度と再現率のトレードオフを制御することができる。さらに、我々の分析から、フレーズレベルの顕著な情報を取り入れることは、単語レベルや文レベルよりも優れていることが明らかになった。しかし、幻覚への影響はLLM間で普遍的にプラスに働くわけではない。この分析を行うために、我々はKeyphrase Signal Extractor (CriSPO)を導入する。CriSPOは、顕著なキーフレーズを抽出するために微調整が可能な軽量モデルである。CriSPOを使用することで、LLMをカスタマイズすることなく、データセット、オープンウェイトLLM、プロプライエタリLLMを問わず、一貫したROUGEの改善を達成した。我々の発見は、プロンプトベースの要約システムを構築する際に、顕著な情報を活用するための洞察を提供する。

要約(オリジナル)

Large language models (LLMs) can generate fluent summaries across domains using prompting techniques, reducing the need to train models for summarization applications. However, crafting effective prompts that guide LLMs to generate summaries with the appropriate level of detail and writing style remains a challenge. In this paper, we explore the use of salient information extracted from the source document to enhance summarization prompts. We show that adding keyphrases in prompts can improve ROUGE F1 and recall, making the generated summaries more similar to the reference and more complete. The number of keyphrases can control the precision-recall trade-off. Furthermore, our analysis reveals that incorporating phrase-level salient information is superior to word- or sentence-level. However, the impact on hallucination is not universally positive across LLMs. To conduct this analysis, we introduce Keyphrase Signal Extractor (CriSPO), a lightweight model that can be finetuned to extract salient keyphrases. By using CriSPO, we achieve consistent ROUGE improvements across datasets and open-weight and proprietary LLMs without any LLM customization. Our findings provide insights into leveraging salient information in building prompt-based summarization systems.

arxiv情報

著者 Han He,Qianchu Liu,Lei Xu,Chaitanya Shivade,Yi Zhang,Sundararajan Srinivasan,Katrin Kirchhoff
発行日 2024-10-03 17:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

LML-DAP: Language Model Learning a Dataset for Data-Augmented Prediction

要約

分類タスクは通常、機械学習(ML)モデルを用いて処理されるが、精度と解釈可能性のバランスがとれていない。本稿では、説明可能な方法で分類タスクに大規模言語モデル(LLM)を使用する新しいアプローチを紹介する。データクリーニングと特徴量エンジニアリングに大きく依存するMLモデルとは異なり、この手法はLLMを用いてプロセスを効率化する。本論文では、「データ拡張予測(DAP)」と呼ばれる新しい手法により、「言語モデル学習(LML)」と呼ばれる新しい概念を提案する。LLMは、人間が手作業でデータを探索・理解し、データを参照しながら分類を決定するのと同様の方法を用いて分類を行う。LMLのプロセスでは、データセットを要約して評価し、各ラベルの分類に最もつながる特徴を決定する。DAPのプロセスでは、システムはデータの要約とテストデータセットの行を使用してクエリを自動生成し、このクエリを使用してデータセットから関連する行を検索する。LLMはデータの要約と関連する行を使用して分類を生成し、文脈を考慮した意思決定により複雑なデータでも十分な精度を確保する。LMLとDAPは新しいアプリケーションの可能性を解き放つ。提案された方法では、プロンプトに「説明可能な機械学習モデルとして機能する」という言葉を使用し、各予測の背後にあるロジックをユーザーが確認できるようにすることで、予測の解釈可能性を高めている。いくつかのテストケースにおいて、システムは90%を超える精度を獲得し、システムの有効性と、様々なシナリオにおいて従来のMLモデルを凌駕する可能性を証明した。コードはhttps://github.com/Pro-GenAI/LML-DAP

要約(オリジナル)

Classification tasks are typically handled using Machine Learning (ML) models, which lack a balance between accuracy and interpretability. This paper introduces a new approach to using Large Language Models (LLMs) for classification tasks in an explainable way. Unlike ML models that rely heavily on data cleaning and feature engineering, this method streamlines the process using LLMs. This paper proposes a new concept called ‘Language Model Learning (LML)’ powered by a new method called ‘Data-Augmented Prediction (DAP)’. The classification is performed by LLMs using a method similar to humans manually exploring and understanding the data and deciding classifications using data as a reference. In the LML process, a dataset is summarized and evaluated to determine the features that lead to the classification of each label the most. In the process of DAP, the system uses the data summary and a row of the testing dataset to automatically generate a query, which is used to retrieve relevant rows from the dataset. A classification is generated by the LLM using data summary and relevant rows, ensuring satisfactory accuracy even with complex data using context-aware decision-making. LML and DAP unlock the possibilities of new applications. The proposed method uses the words ‘Act as an Explainable Machine Learning Model’ in the prompt to enhance the interpretability of the predictions by allowing users to review the logic behind each prediction. In some test cases, the system scored an accuracy above 90%, proving the effectiveness of the system and its potential to outperform conventional ML models in various scenarios. The code is available at https://github.com/Pro-GenAI/LML-DAP

arxiv情報

著者 Praneeth Vadlapati
発行日 2024-10-03 17:57:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | コメントする

Accelerating Training with Neuron Interaction and Nowcasting Networks

要約

古典的な適応オプティマイザ(Adamなど)の代わりに学習可能な更新ルールを使用すると、ニューラルネットワークの学習を加速できる。しかし、学習可能な更新ルールは、学習や使用にコストがかかり、不安定になる可能性がある。最近、Jangら(2023)は、ウェイト・ナウキャスター・ネットワーク(WNN)に基づく、より単純な学習高速化アプローチを提案した。彼らのアプローチでは、最適化ステップのほとんどにAdamが使われ、数ステップごとにだけ定期的に、WNNがパラメータをナウキャスト(近未来を予測)する。我々は、ニューロン相互作用とナウキャスティング(NiNo)ネットワークを提案することで、WNNを改良する。WNNとは対照的に、NiNoはニューロンの結合性とグラフニューラルネットワークを活用し、より正確にパラメータをナウキャストする。さらに、Transformersのようないくつかのネットワークでは、ニューロンの結合性を正確にモデル化することが困難であることを示す。NiNoは、視覚と言語タスクにおいて、アダムの学習を最大50%加速することができる。

要約(オリジナル)

Neural network training can be accelerated when a learnable update rule is used in lieu of classic adaptive optimizers (e.g. Adam). However, learnable update rules can be costly and unstable to train and use. Recently, Jang et al. (2023) proposed a simpler approach to accelerate training based on weight nowcaster networks (WNNs). In their approach, Adam is used for most of the optimization steps and periodically, only every few steps, a WNN nowcasts (predicts near future) parameters. We improve WNNs by proposing neuron interaction and nowcasting (NiNo) networks. In contrast to WNNs, NiNo leverages neuron connectivity and graph neural networks to more accurately nowcast parameters. We further show that in some networks, such as Transformers, modeling neuron connectivity accurately is challenging. We address this and other limitations, which allows NiNo to accelerate Adam training by up to 50% in vision and language tasks.

arxiv情報

著者 Boris Knyazev,Abhinav Moudgil,Guillaume Lajoie,Eugene Belilovsky,Simon Lacoste-Julien
発行日 2024-10-03 17:57:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ML | コメントする

CMP: Cooperative Motion Prediction with Multi-Agent Communication

要約

自律走行車(AV)の進化とV2X(Vehicle-to-Everything)通信の成熟が合流することで、協調的なコネクテッドカー(CAV)と自動運転車(CAV)の実現が可能になった。本稿では、協調的知覚の上に、協調的運動予測の実現可能性と有効性を探る。我々の手法であるCMPは、LiDAR信号をモデル入力とし、追跡と予測能力を強化する。我々の知る限り、CAVが知覚と予測の両方のモジュールで情報を共有するという統一的な問題に取り組んだのは、我々のフレームワークが初めてである。私たちの設計には、現実的なV2Xの帯域幅の制限と伝送遅延を許容するユニークな機能が組み込まれており、同時にかさばる知覚表現を扱うことができます。また、異なるCAVによって得られた予測を統合し、最終的な予測を生成する予測集約モジュールを提案します。OPV2VとV2V4Realデータセットでの広範な実験とアブレーション研究を通じて、協調的知覚、追跡、および動き予測における我々の手法の有効性を実証する。特に、CMPは、協調なし設定と比較して、より少ない欠落検出で平均予測誤差を16.4%減少させ、最も強いベースラインと比較して12.3%減少させる。我々の研究は、CAVの協調能力における重要な一歩であり、複雑なシナリオにおいて強化された性能を示している。コードはプロジェクトのウェブサイトhttps://cmp-cooperative-prediction.github.io/。

要約(オリジナル)

The confluence of the advancement of Autonomous Vehicles (AVs) and the maturity of Vehicle-to-Everything (V2X) communication has enabled the capability of cooperative connected and automated vehicles (CAVs). Building on top of cooperative perception, this paper explores the feasibility and effectiveness of cooperative motion prediction. Our method, CMP, takes LiDAR signals as model input to enhance tracking and prediction capabilities. Unlike previous work that focuses separately on either cooperative perception or motion prediction, our framework, to the best of our knowledge, is the first to address the unified problem where CAVs share information in both perception and prediction modules. Incorporated into our design is the unique capability to tolerate realistic V2X bandwidth limitations and transmission delays, while dealing with bulky perception representations. We also propose a prediction aggregation module, which unifies the predictions obtained by different CAVs and generates the final prediction. Through extensive experiments and ablation studies on the OPV2V and V2V4Real datasets, we demonstrate the effectiveness of our method in cooperative perception, tracking, and motion prediction. In particular, CMP reduces the average prediction error by 16.4\% with fewer missing detections compared with the no cooperation setting and by 12.3\% compared with the strongest baseline. Our work marks a significant step forward in the cooperative capabilities of CAVs, showcasing enhanced performance in complex scenarios. The code can be found on the project website: https://cmp-cooperative-prediction.github.io/.

arxiv情報

著者 Zehao Wang,Yuping Wang,Zhuoyuan Wu,Hengbo Ma,Zhaowei Li,Hang Qiu,Jiachen Li
発行日 2024-10-03 17:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MA, cs.RO | コメントする

FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models

要約

ジェネレーティブAIの急速な発展は、コンテンツ作成を容易にするだけでなく、画像操作を容易にし、検出を困難にするという諸刃の剣でもある。現在の画像偽造検出・位置特定(IFDL)手法は一般的に有効であるが、2つの課題に直面する傾向がある:\例えば、Photoshop、DeepFake、AIGC-Editingなど)。これらの問題に対処するため、我々は説明可能なIFDLタスクを提案し、画像の真正性を評価し、改ざん領域マスクを生成し、ピクセルレベルと画像レベルの改ざんの手がかりに基づく判断基準を提供できるマルチモーダルフレームワークであるFakeShieldを設計する。さらに、GPT-4oを活用して既存のIFDLデータセットを拡張し、FakeShieldの改ざん解析能力を訓練するためのマルチモーダル改ざん記述データセット(MMTD-Set)を作成する。一方、我々は、様々なタイプの改ざん検出解釈に対処し、詳細なテキスト記述によって誘導される偽造ローカライゼーションを実現するために、ドメインタグ誘導型説明可能偽造検出モジュール(DTE-FDM)とマルチモーダル偽造ローカライゼーションモジュール(MFLM)を組み込んだ。広範な実験により、FakeShieldが様々な改ざん技術を効果的に検出し、ローカライズすることが実証されており、従来のIFDL手法と比較して説明可能で優れたソリューションを提供しています。

要約(オリジナル)

The rapid development of generative AI is a double-edged sword, which not only facilitates content creation but also makes image manipulation easier and more difficult to detect. Although current image forgery detection and localization (IFDL) methods are generally effective, they tend to face two challenges: \textbf{1)} black-box nature with unknown detection principle, \textbf{2)} limited generalization across diverse tampering methods (e.g., Photoshop, DeepFake, AIGC-Editing). To address these issues, we propose the explainable IFDL task and design FakeShield, a multi-modal framework capable of evaluating image authenticity, generating tampered region masks, and providing a judgment basis based on pixel-level and image-level tampering clues. Additionally, we leverage GPT-4o to enhance existing IFDL datasets, creating the Multi-Modal Tamper Description dataSet (MMTD-Set) for training FakeShield’s tampering analysis capabilities. Meanwhile, we incorporate a Domain Tag-guided Explainable Forgery Detection Module (DTE-FDM) and a Multi-modal Forgery Localization Module (MFLM) to address various types of tamper detection interpretation and achieve forgery localization guided by detailed textual descriptions. Extensive experiments demonstrate that FakeShield effectively detects and localizes various tampering techniques, offering an explainable and superior solution compared to previous IFDL methods.

arxiv情報

著者 Zhipei Xu,Xuanyu Zhang,Runyi Li,Zecheng Tang,Qing Huang,Jian Zhang
発行日 2024-10-03 17:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | コメントする

Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos

要約

最近、最新の大規模マルチモーダルモデル(LMM)は、短編ビデオの理解に関連する重要な課題のほとんどに対処しているとの見方が広まっている。その結果、学界も産業界も、長尺ビデオの理解という、より複雑な課題に徐々に関心を移しつつある。しかし、本当にそうなのだろうか?我々の研究によると、LMMは短い動画を扱う場合でも、多くの基本的な推論能力を欠いている。Vinogroundを紹介する。Vinogroundは時間的な反実仮想LMM評価ベンチマークであり、1000組の短い自然なビデオキャプションを含む。既存のLMMでは、異なるアクションやオブジェクトの変換の時間的な違いを区別することが困難であることを示す。例えば、最良のモデルGPT-4oは、テキストとビデオのスコアで〜50%しか得られず、人間のベースラインである〜90%と比較すると大きな隔たりがある。すべてのオープンソースのマルチモーダルモデルとCLIPベースのモデルは、はるかに悪いパフォーマンスを示し、ほとんどランダムな偶然のパフォーマンスを生成します。この研究を通して、短い動画における時間的推論は、まだ完全に解決されていない問題であるという事実に光を当てる。データセットと評価コードはhttps://vinoground.github.io。

要約(オリジナル)

There has been growing sentiment recently that modern large multimodal models (LMMs) have addressed most of the key challenges related to short video comprehension. As a result, both academia and industry are gradually shifting their attention towards the more complex challenges posed by understanding long-form videos. However, is this really the case? Our studies indicate that LMMs still lack many fundamental reasoning capabilities even when dealing with short videos. We introduce Vinoground, a temporal counterfactual LMM evaluation benchmark encompassing 1000 short and natural video-caption pairs. We demonstrate that existing LMMs severely struggle to distinguish temporal differences between different actions and object transformations. For example, the best model GPT-4o only obtains ~50% on our text and video scores, showing a large gap compared to the human baseline of ~90%. All open-source multimodal models and CLIP-based models perform much worse, producing mostly random chance performance. Through this work, we shed light onto the fact that temporal reasoning in short videos is a problem yet to be fully solved. The dataset and evaluation code are available at https://vinoground.github.io.

arxiv情報

著者 Jianrui Zhang,Mu Cai,Yong Jae Lee
発行日 2024-10-03 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントする

$\mathcal{D(R,O)}$ Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping

要約

器用な把持は、ロボットハンドと物体との間の正確な相互作用を必要とする、ロボット操作の基本的でありながら困難なスキルである。本論文では、把持ポーズをとるロボットハンドと物体との相互作用をモデル化する新しいフレームワーク$mathcal{D(R,O)}$ Graspを紹介する。我々のモデルは、ロボットハンドの記述と物体点群を入力とし、運動学的に有効で安定した把持を効率的に予測し、多様なロボットの形態と物体形状に強い適応性を示す。シミュレーション環境と実環境の両方で行われた広範な実験により、複数のロボットハンドにおいて、成功率、把持の多様性、推論速度が大幅に改善され、我々のアプローチの有効性が検証された。我々の手法は、3つの異なる器用なロボットハンドでテストした結果、シミュレーションでは平均87.53%の成功率を1秒未満で達成した。また、LeapHandを用いた実際の実験においても、本手法は平均89%の成功率を示す。Graspは、複雑で多様な環境で器用に把持するためのロバストなソリューションを提供する。コード、付録、ビデオはプロジェクトのウェブサイトhttps://nus-lins-lab.github.io/drograspweb/。

要約(オリジナル)

Dexterous grasping is a fundamental yet challenging skill in robotic manipulation, requiring precise interaction between robotic hands and objects. In this paper, we present $\mathcal{D(R,O)}$ Grasp, a novel framework that models the interaction between the robotic hand in its grasping pose and the object, enabling broad generalization across various robot hands and object geometries. Our model takes the robot hand’s description and object point cloud as inputs and efficiently predicts kinematically valid and stable grasps, demonstrating strong adaptability to diverse robot embodiments and object geometries. Extensive experiments conducted in both simulated and real-world environments validate the effectiveness of our approach, with significant improvements in success rate, grasp diversity, and inference speed across multiple robotic hands. Our method achieves an average success rate of 87.53% in simulation in less than one second, tested across three different dexterous robotic hands. In real-world experiments using the LeapHand, the method also demonstrates an average success rate of 89%. $\mathcal{D(R,O)}$ Grasp provides a robust solution for dexterous grasping in complex and varied environments. The code, appendix, and videos are available on our project website at https://nus-lins-lab.github.io/drograspweb/.

arxiv情報

著者 Zhenyu Wei,Zhixuan Xu,Jingxiang Guo,Yiwen Hou,Chongkai Gao,Zhehao Cai,Jiayu Luo,Lin Shao
発行日 2024-10-03 16:05:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | コメントする

Quantifying Generalization Complexity for Large Language Models

要約

大規模言語モデル(LLM)は、複雑なクエリを理解し、高度なタスクを実行する上で卓越した能力を示しているが、その汎化能力はしばしば記憶と深く関わっており、より正確な評価が必要である。この課題を解決するために、LLMの汎化能力を定量的に測定する動的評価フレームワークScyllaを紹介する。Scyllaは、5つの複雑度に渡る20のタスクを通して、分布内(ID)と分布外(OOD)の両方のデータに対するモデルのパフォーマンスを評価することで、汎化を記憶から分離する。広範な実験を通して、タスクの複雑さと、IDデータとOODデータ間のパフォーマンスギャップとの間に非単調な関係があることを明らかにした。具体的には、この現象は、LLMの汎化能力の上限を示す、非汎化挙動への依存がピークに達する臨界閾値(臨界複雑度と呼ばれる)を明らかにする。モデルサイズが大きくなるにつれて、臨界複雑度はタスクの複雑さのレベルが高くなる方向にシフトし、より大きなモデルは、記憶に過度に依存する前に、より複雑な推論タスクを処理できることが示唆される。Scyllaと臨界複雑度の概念を活用し、LLaMAやQwenファミリーのようなオープンソースモデルと、ClaudeやGPTのようなクローズソースモデルの両方を含む28のLLMをベンチマークし、よりロバストな評価を提供し、LLMの汎化能力をより明確に理解する。

要約(オリジナル)

While large language models (LLMs) have shown exceptional capabilities in understanding complex queries and performing sophisticated tasks, their generalization abilities are often deeply entangled with memorization, necessitating more precise evaluation. To address this challenge, we introduce Scylla, a dynamic evaluation framework that quantitatively measures the generalization abilities of LLMs. Scylla disentangles generalization from memorization via assessing model performance on both in-distribution (ID) and out-of-distribution (OOD) data through 20 tasks across 5 levels of complexity. Through extensive experiments, we uncover a non-monotonic relationship between task complexity and the performance gap between ID and OOD data, which we term the generalization valley. Specifically, this phenomenon reveals a critical threshold – referred to as critical complexity – where reliance on non-generalizable behavior peaks, indicating the upper bound of LLMs’ generalization capabilities. As model size increases, the critical complexity shifts toward higher levels of task complexity, suggesting that larger models can handle more complex reasoning tasks before over-relying on memorization. Leveraging Scylla and the concept of critical complexity, we benchmark 28LLMs including both open-sourced models such as LLaMA and Qwen families, and close-sourced models like Claude and GPT, providing a more robust evaluation and establishing a clearer understanding of LLMs’ generalization capabilities.

arxiv情報

著者 Zhenting Qi,Hongyin Luo,Xuliang Huang,Zhuokai Zhao,Yibo Jiang,Xiangjun Fan,Himabindu Lakkaraju,James Glass
発行日 2024-10-03 15:30:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks

要約

テキストリッチ画像は、テキストが全体的な理解を導く中心的な視覚要素として機能するものであり、プレゼンテーションのスライド、スキャンした文書、ウェブページのスナップショットなど、実世界のアプリケーションに広く普及している。個々の画像の内容を理解するだけでなく、複数の視覚入力の相互関係や論理的な流れを推論する必要があるため、複数のテキストが豊富な画像を含むタスクは特に困難である。このようなシナリオの重要性にもかかわらず、現在のマルチモーダル大規模言語モデル(MLLM)は、(1)テキストリッチな複数画像シナリオのための高品質な命令チューニングデータセットの不足、(2)画像の解像度と視覚的特徴列の長さのバランスの難しさという2つの重要な課題のために、このようなタスクを処理するのに苦労している。これらの課題を解決するために、我々はLeopardを提案する。Leopardは、複数のテキストが豊富な画像を含む視覚言語タスクを処理するために特別に設計されたMLLMである。まず、テキストリッチな複数画像のシナリオに合わせた、約100万件の高品質なマルチモーダル命令チューニングデータを収集した。次に、入力画像のアスペクト比と解像度に基づき、視覚シーケンスの長さの割り当てを動的に最適化する適応型高解像度マルチ画像エンコーディングモジュールを開発した。広範なベンチマークでの実験により、テキストリッチな多画像評価における我々のモデルの優れた能力と、一般的なドメイン評価における競争力が実証された。

要約(オリジナル)

Text-rich images, where text serves as the central visual element guiding the overall understanding, are prevalent in real-world applications, such as presentation slides, scanned documents, and webpage snapshots. Tasks involving multiple text-rich images are especially challenging, as they require not only understanding the content of individual images but reasoning about inter-relationships and logical flows across multiple visual inputs. Despite the importance of these scenarios, current multimodal large language models (MLLMs) struggle to handle such tasks due to two key challenges: (1) the scarcity of high-quality instruction tuning datasets for text-rich multi-image scenarios, and (2) the difficulty in balancing image resolution with visual feature sequence length. To address these challenges, we propose Leopard, a MLLM designed specifically for handling vision-language tasks involving multiple text-rich images. First, we curated about one million high-quality multimodal instruction-tuning data, tailored to text-rich, multi-image scenarios. Second, we developed an adaptive high-resolution multi-image encoding module to dynamically optimize the allocation of visual sequence length based on the original aspect ratios and resolutions of the input images. Experiments across a wide range of benchmarks demonstrate our model’s superior capabilities in text-rich, multi-image evaluations and competitive performance in general domain evaluations.

arxiv情報

著者 Mengzhao Jia,Wenhao Yu,Kaixin Ma,Tianqing Fang,Zhihan Zhang,Siru Ouyang,Hongming Zhang,Meng Jiang,Dong Yu
発行日 2024-10-03 15:57:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV | コメントする

Fake It Until You Break It: On the Adversarial Robustness of AI-generated Image Detectors

要約

ジェネレーティブAI(GenAI)は創造的で生産的なタスクに無数の可能性を提供する一方で、人工的に生成されたメディアは詐欺、操作、詐欺、誤報キャンペーンなどに悪用される可能性がある。悪意を持って生成されたメディアに関連するリスクを軽減するために、AIが生成したコンテンツを識別するためのフォレンジック分類器が採用されている。しかし、現在のフォレンジック分類器は、攻撃者の存在や、ソーシャルメディアの劣化のような現実世界のアーティファクトが画像に影響を与える場合など、実際に関連するシナリオでは評価されないことが多い。本稿では、様々な攻撃シナリオの下で、最先端のAI生成画像(AIGI)検出器を評価する。攻撃者がターゲットモデルにアクセスできず、ソーシャルメディアプラットフォームで標準的な、敵対的な例が作成された後に後処理が行われる場合でも、フォレンジック分類器が現実的な設定で効果的に攻撃される可能性があることを実証する。このような攻撃は、検出器に頼ることのリスクがその利点を上回るほど、検出精度を著しく低下させる可能性がある。最後に、現在最高性能の検出器であるCLIPベースの検出器を、これらの攻撃に対して頑健にするための簡単な防御メカニズムを提案する。

要約(オリジナル)

While generative AI (GenAI) offers countless possibilities for creative and productive tasks, artificially generated media can be misused for fraud, manipulation, scams, misinformation campaigns, and more. To mitigate the risks associated with maliciously generated media, forensic classifiers are employed to identify AI-generated content. However, current forensic classifiers are often not evaluated in practically relevant scenarios, such as the presence of an attacker or when real-world artifacts like social media degradations affect images. In this paper, we evaluate state-of-the-art AI-generated image (AIGI) detectors under different attack scenarios. We demonstrate that forensic classifiers can be effectively attacked in realistic settings, even when the attacker does not have access to the target model and post-processing occurs after the adversarial examples are created, which is standard on social media platforms. These attacks can significantly reduce detection accuracy to the extent that the risks of relying on detectors outweigh their benefits. Finally, we propose a simple defense mechanism to make CLIP-based detectors, which are currently the best-performing detectors, robust against these attacks.

arxiv情報

著者 Sina Mavali,Jonas Ricker,David Pape,Yash Sharma,Asja Fischer,Lea Schönherr
発行日 2024-10-03 10:11:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | コメントする