Fantastic Copyrighted Beasts and How (Not) to Generate Them

要約

最近の研究では、画像とビデオ生成モデルをトレーニングデータから著作権で保護されたコンテンツを再現し、著作権侵害に関する深刻な法的懸念を提起することができることが示されています。
著作権で保護されたキャラクター(マリオ、バットマンなど)は重要な課題を提示します。少なくとも1つの訴訟は、そのようなキャラクターの生成に基づいてすでに損害を与えています。
その結果、Dall-Eのような商業サービスは介入の展開を開始しました。
ただし、これらの問題を体系的に調査する研究はほとんどありません。(1)ユーザーは、たとえ意図的でなくても、モデルに著作権で保護された文字を生成するように簡単に促すことができますか?
(2)既存の緩和戦略はどの程度効果的ですか?
これらの質問に対処するために、生成された画像の著作権で保護されたキャラクターとの類似性の両方を評価するメトリックと、多様なスタジオや地域の人気のある著作権で保護されたキャラクターのセットに基づいたユーザー意図との一貫性の両方を評価する新しい評価フレームワークを紹介します。
キャラクターの名前が明示的に言及されていない場合でも、最先端の画像およびビデオ生成モデルが依然としてキャラクターを生成できることを示します。たとえば、2つの一般的なキーワードのみ(たとえば、「ビデオゲーム、配管」が一貫して任天堂のマリオキャラクターを生成します)。
また、半自動技術を紹介して、文字生成をトリガーするこのようなキーワードまたは説明を特定します。
このフレームワークを使用して、迅速な書き換えや提案する新しいアプローチなど、緩和戦略を評価します。
私たちの調査結果は、Dall-Eの迅速な書き換えなどの一般的な方法は単独で不十分であり、否定的なプロンプトなどの補足戦略が必要であることを明らかにしています。
私たちの仕事は、著作権緩和戦略に関する議論の実証的な基盤を提供し、これらの保護手段を実装するモデル展開者のための実用的な洞察を提供します。

要約(オリジナル)

Recent studies show that image and video generation models can be prompted to reproduce copyrighted content from their training data, raising serious legal concerns about copyright infringement. Copyrighted characters (e.g., Mario, Batman) present a significant challenge: at least one lawsuit has already awarded damages based on the generation of such characters. Consequently, commercial services like DALL-E have started deploying interventions. However, little research has systematically examined these problems: (1) Can users easily prompt models to generate copyrighted characters, even if it is unintentional?; (2) How effective are the existing mitigation strategies? To address these questions, we introduce a novel evaluation framework with metrics that assess both the generated image’s similarity to copyrighted characters and its consistency with user intent, grounded in a set of popular copyrighted characters from diverse studios and regions. We show that state-of-the-art image and video generation models can still generate characters even if characters’ names are not explicitly mentioned, sometimes with only two generic keywords (e.g., prompting with ‘videogame, plumber’ consistently generates Nintendo’s Mario character). We also introduce semi-automatic techniques to identify such keywords or descriptions that trigger character generation. Using this framework, we evaluate mitigation strategies, including prompt rewriting and new approaches we propose. Our findings reveal that common methods, such as DALL-E’s prompt rewriting, are insufficient alone and require supplementary strategies like negative prompting. Our work provides empirical grounding for discussions on copyright mitigation strategies and offers actionable insights for model deployers implementing these safeguards.

arxiv情報

著者 Luxi He,Yangsibo Huang,Weijia Shi,Tinghao Xie,Haotian Liu,Yue Wang,Luke Zettlemoyer,Chiyuan Zhang,Danqi Chen,Peter Henderson
発行日 2025-03-26 12:21:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG | Fantastic Copyrighted Beasts and How (Not) to Generate Them はコメントを受け付けていません

Bayesian Modeling of Zero-Shot Classifications for Urban Flood Detection

要約

ストリートビューまたはダッシュボードカメラから収集されたストリートシーンのデータセットは、都市のオブジェクトや街路洪水などのインシデントを検出する有望な手段を提供します。
ただし、これらのデータセットを使用する上での大きな課題は、信頼できるラベルの欠如です。無数のタイプのインシデントがあり、多くのタイプが発生することはほとんどありません。また、インシデントが発生した場所の根本的な測定が不足しています。
ここでは、この困難を回避する2段階のアプローチであるBayfloodを提案します。
まず、事前に守られた視覚言語モデル(VLM)を使用してインシデントが発生する場所のゼロショット分類を実行します。
第二に、VLM分類に空間ベイジアンモデルを適合させます。
ゼロショットアプローチは、大規模なトレーニングセットに注釈を付ける必要性を回避し、ベイジアンモデルは都市の設定で頻繁に設計されています – 不確実性の原則的な尺度、場所を滑らかにし、雨水蓄積ゾーンなどの外部データの組み込みを提供します。
この2段階のアプローチを包括的に検証し、VLMSが複数の都市と期間にわたって洪水に強いゼロショット信号を提供することを示し、ベイジアンモデルはベースライン方法と比較してサンプル外予測を改善し、推定される洪水リスクは既知の外部予測因子とリスクの外部予測因子と相関しています。
私たちのアプローチを検証して、都市の洪水の検出を改善するために使用できることを示します。分析では、現在の方法で見落とされがちな洪水のリスクが高い113,738人が明らかになり、既存の方法で人口統計学的バイアスを特定し、新しい洪水センサーの場所を提案します。
さらに広く言えば、我々の結果は、ゼロショットLMアノテーションのベイジアンモデリングが、大きなラベル付きデータセットを収集する必要性を回避し、ベイジアンモデルの表現力と不確実性の定量化を提供しながら基礎モデルの力を活用するため、有望なパラダイムをどのように表しているかを示しています。

要約(オリジナル)

Street scene datasets, collected from Street View or dashboard cameras, offer a promising means of detecting urban objects and incidents like street flooding. However, a major challenge in using these datasets is their lack of reliable labels: there are myriad types of incidents, many types occur rarely, and ground-truth measures of where incidents occur are lacking. Here, we propose BayFlood, a two-stage approach which circumvents this difficulty. First, we perform zero-shot classification of where incidents occur using a pretrained vision-language model (VLM). Second, we fit a spatial Bayesian model on the VLM classifications. The zero-shot approach avoids the need to annotate large training sets, and the Bayesian model provides frequent desiderata in urban settings – principled measures of uncertainty, smoothing across locations, and incorporation of external data like stormwater accumulation zones. We comprehensively validate this two-stage approach, showing that VLMs provide strong zero-shot signal for floods across multiple cities and time periods, the Bayesian model improves out-of-sample prediction relative to baseline methods, and our inferred flood risk correlates with known external predictors of risk. Having validated our approach, we show it can be used to improve urban flood detection: our analysis reveals 113,738 people who are at high risk of flooding overlooked by current methods, identifies demographic biases in existing methods, and suggests locations for new flood sensors. More broadly, our results showcase how Bayesian modeling of zero-shot LM annotations represents a promising paradigm because it avoids the need to collect large labeled datasets and leverages the power of foundation models while providing the expressiveness and uncertainty quantification of Bayesian models.

arxiv情報

著者 Matt Franchi,Nikhil Garg,Wendy Ju,Emma Pierson
発行日 2025-03-26 12:25:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Bayesian Modeling of Zero-Shot Classifications for Urban Flood Detection はコメントを受け付けていません

Towards Efficient and General-Purpose Few-Shot Misclassification Detection for Vision-Language Models

要約

分類器による信頼できる予測は、セキュリティが高く、動的に変化する状況での展開に不可欠です。
ただし、最新のニューラルネットワークは、誤分類された予測に自信過剰を示すことが多く、エラーを検出するための信頼性推定の必要性を強調しています。
小規模データセットの既存の方法によって得られた成果にもかかわらず、それらはすべてゼロからのトレーニングを必要とし、効率的で効果的な誤分類検出(MISD)メソッドはありません。
この論文では、Vision言語モデル(VLM)を活用する方法を開き、テキスト情報を活用して、効率的で汎用の誤分類検出フレームワークを確立します。
VLMの力を活用することにより、FSMISDを構築します。FSMISDは、MISDがゼロからトレーニングを控え、したがってチューニング効率を改善するためのいくつかのショット迅速な学習フレームワークです。
誤分類検出能力を高めるために、適応性のある擬似サンプルの生成と新規の負の損失を使用して、擬似機能からカテゴリプロンプトを押し出すことにより、自信過剰の問題を軽減します。
迅速な学習方法で包括的な実験を実施し、ドメインシフトを備えたさまざまなデータセット全体で一般化能力を検証します。
重要かつ一貫した改善は、アプローチの有効性、効率性、一般化可能性を示しています。

要約(オリジナル)

Reliable prediction by classifiers is crucial for their deployment in high security and dynamically changing situations. However, modern neural networks often exhibit overconfidence for misclassified predictions, highlighting the need for confidence estimation to detect errors. Despite the achievements obtained by existing methods on small-scale datasets, they all require training from scratch and there are no efficient and effective misclassification detection (MisD) methods, hindering practical application towards large-scale and ever-changing datasets. In this paper, we pave the way to exploit vision language model (VLM) leveraging text information to establish an efficient and general-purpose misclassification detection framework. By harnessing the power of VLM, we construct FSMisD, a Few-Shot prompt learning framework for MisD to refrain from training from scratch and therefore improve tuning efficiency. To enhance misclassification detection ability, we use adaptive pseudo sample generation and a novel negative loss to mitigate the issue of overconfidence by pushing category prompts away from pseudo features. We conduct comprehensive experiments with prompt learning methods and validate the generalization ability across various datasets with domain shift. Significant and consistent improvement demonstrates the effectiveness, efficiency and generalizability of our approach.

arxiv情報

著者 Fanhu Zeng,Zhen Cheng,Fei Zhu,Xu-Yao Zhang
発行日 2025-03-26 12:31:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Towards Efficient and General-Purpose Few-Shot Misclassification Detection for Vision-Language Models はコメントを受け付けていません

Design and Evaluation of Neural Network-Based Receiver Architectures for Reliable Communication

要約

ニューラルネットワークベースのレシーバーは、ディープラーニングを活用して信号の検出とデコードを最適化し、困難な環境でビットエラーレート(BER)とブロックエラーレート(BLER)を大幅に改善します。
この研究では、さまざまなアーキテクチャを評価し、異なるノイズレベルでBERとBLERのパフォーマンスを比較します。
2つの新しいモデル、デュアルアテンショントランス(DAT)と残留デュアル非ローカル注意ネットワーク(RDNLA)は、自己関節と残留学習を統合して信号の再構築を強化します。
これらのモデルは、ノイズの分散を追加の入力として、受信シグナルからの対数尤度比(LLR)を直接予測することにより、従来のチャネルの推定と均等化をバイパスします。
シミュレーションは、DATおよびRDNLAがさまざまな信号対雑音比(SNR)で従来のニューラルレシーバーモデルよりも優れていることを示していますが、計算効率は次世代通信システムの実現可能性をサポートしています。

要約(オリジナル)

Neural network-based receivers leverage deep learning to optimize signal detection and decoding, significantly improving bit-error rate (BER) and block-error rate (BLER) in challenging environments. This study evaluates various architectures and compares their BER and BLER performance across different noise levels. Two novel models, the Dual Attention Transformer (DAT) and the Residual Dual Non-Local Attention Network (RDNLA), integrate self-attention and residual learning to enhance signal reconstruction. These models bypass conventional channel estimation and equalization by directly predicting log-likelihood ratios (LLRs) from received signals, with noise variance as an additional input. Simulations show that DAT and RDNLA outperform traditional and other neural receiver models under varying signal-to-noise ratios (SNR), while their computational efficiency supports their feasibility for next-generation communication systems.

arxiv情報

著者 Hüseyin Çevik,Erhan Karakoca,İbrahim Hökelek,Ali Görçin
発行日 2025-03-26 12:39:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.SP | Design and Evaluation of Neural Network-Based Receiver Architectures for Reliable Communication はコメントを受け付けていません

GAIA-2: A Controllable Multi-View Generative World Model for Autonomous Driving

要約

生成モデルは、複雑な環境をシミュレートするためのスケーラブルで柔軟なパラダイムを提供しますが、現在のアプローチは、マルチエージェントの相互作用、細粒コントロール、マルチカメラの一貫性など、自律運転のドメイン固有の要件に対処するのに不十分です。
単一の生成フレームワーク内でこれらの機能を統合する潜在的な拡散世界モデルである自律性の生成AI GAIA-2を紹介します。
GAIA-2は、エゴ車のダイナミクス、エージェント構成、環境要因、道路セマンティクスの豊富な構造化入力セットを条件付けられた制御可能なビデオ生成をサポートします。
地理的に多様な運転環境(英国、米国、ドイツ)にわたって、高解像度の空間的に一貫したマルチカメラビデオを生成します。
このモデルは、構造化された条件付けと外部潜在的な埋め込み(たとえば、独自の運転モデル​​から)の両方を統合して、柔軟で意味的に接地されたシーンの統合を促進します。
この統合を通じて、GAIA-2は、一般的なドライビングシナリオとレアの両方の運転シナリオのスケーラブルなシミュレーションを可能にし、自律システムの開発におけるコアツールとしての生成世界モデルの使用を進めます。
ビデオはhttps://wayve.ai/thinking/gaia-2で入手できます。

要約(オリジナル)

Generative models offer a scalable and flexible paradigm for simulating complex environments, yet current approaches fall short in addressing the domain-specific requirements of autonomous driving – such as multi-agent interactions, fine-grained control, and multi-camera consistency. We introduce GAIA-2, Generative AI for Autonomy, a latent diffusion world model that unifies these capabilities within a single generative framework. GAIA-2 supports controllable video generation conditioned on a rich set of structured inputs: ego-vehicle dynamics, agent configurations, environmental factors, and road semantics. It generates high-resolution, spatiotemporally consistent multi-camera videos across geographically diverse driving environments (UK, US, Germany). The model integrates both structured conditioning and external latent embeddings (e.g., from a proprietary driving model) to facilitate flexible and semantically grounded scene synthesis. Through this integration, GAIA-2 enables scalable simulation of both common and rare driving scenarios, advancing the use of generative world models as a core tool in the development of autonomous systems. Videos are available at https://wayve.ai/thinking/gaia-2.

arxiv情報

著者 Lloyd Russell,Anthony Hu,Lorenzo Bertoni,George Fedoseev,Jamie Shotton,Elahe Arani,Gianluca Corrado
発行日 2025-03-26 13:11:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | GAIA-2: A Controllable Multi-View Generative World Model for Autonomous Driving はコメントを受け付けていません

StableToolBench-MirrorAPI: Modeling Tool Environments as Mirrors of 7,000+ Real-World APIs

要約

大規模な言語モデル(LLMS)の急速な進歩は、LLMが複雑なタスクに取り組むために外部ツールで増強されているツール学習に大きな関心を抱いています。
ただし、既存のツール環境は、特にベンチマークの目的で、安定性、スケーラビリティ、および現実のバランスをとる上で課題に直面しています。
この問題に対処するために、Mirrorapiを提案します。Mirrorapiは、実際のAPI応答を正確にシミュレートし、ツール環境に「ミラー」として機能するように特殊なLLMSを訓練する新しいフレームワークであることを提案します。
7,000以上のAPIからのリクエスト応答ペアの包括的なデータセットを使用して、シミュレーションの忠実度を高めるために、監視された微調整とチェーンの推論を採用しています。
Mirrorapiは、新しく構築されたMirrorapi-BenchでのパフォーマンスとStabletoolbenchへの統合によって示されるように、最先端の方法と比較して優れた精度と安定性を実現します。

要約(オリジナル)

The rapid advancement of large language models (LLMs) has spurred significant interest in tool learning, where LLMs are augmented with external tools to tackle complex tasks. However, existing tool environments face challenges in balancing stability, scalability, and realness, particularly for benchmarking purposes. To address this problem, we propose MirrorAPI, a novel framework that trains specialized LLMs to accurately simulate real API responses, effectively acting as ‘mirrors’ to tool environments. Using a comprehensive dataset of request-response pairs from 7,000+ APIs, we employ supervised fine-tuning and chain-of-thought reasoning to enhance simulation fidelity. MirrorAPI achieves superior accuracy and stability compared to state-of-the-art methods, as demonstrated by its performance on the newly constructed MirrorAPI-Bench and its integration into StableToolBench.

arxiv情報

著者 Zhicheng Guo,Sijie Cheng,Yuchen Niu,Hao Wang,Sicheng Zhou,Wenbing Huang,Yang Liu
発行日 2025-03-26 13:13:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | StableToolBench-MirrorAPI: Modeling Tool Environments as Mirrors of 7,000+ Real-World APIs はコメントを受け付けていません

OASST-ETC Dataset: Alignment Signals from Eye-tracking Analysis of LLM Responses

要約

大規模な言語モデル(LLM)には自然言語処理が大幅に進歩していますが、それらを人間の好みに合わせて調整することは依然としてオープンな課題です。
現在のアラインメント方法は主に明示的なフィードバックに依存していますが、アイトラッキング(ET)データは、読書中のリアルタイムの認知処理に関する洞察を提供します。
このホワイトペーパーでは、OASST1データセットからのLLM生成された応答を評価しながら、24人の参加者から読み取りパターンをキャプチャする新しい目追跡コーパスであるOasst-ETCを紹介します。
私たちの分析では、優先される応答と非優先応答の間の明確な読み取りパターンが明らかになり、合成の視線追跡データと比較されます。
さらに、さまざまな変圧器ベースのモデルからの人間の読解尺度と注意パターンとの相関関係を調べ、好みの応答のより強い相関を発見します。
この作業は、LLM評価で人間の認知処理を研究するためのユニークなリソースを導入し、目を見張るようなデータを調整方法に組み込むための有望な方向を示唆しています。
データセットと分析コードは公開されています。

要約(オリジナル)

While Large Language Models (LLMs) have significantly advanced natural language processing, aligning them with human preferences remains an open challenge. Although current alignment methods rely primarily on explicit feedback, eye-tracking (ET) data offers insights into real-time cognitive processing during reading. In this paper, we present OASST-ETC, a novel eye-tracking corpus capturing reading patterns from 24 participants, while evaluating LLM-generated responses from the OASST1 dataset. Our analysis reveals distinct reading patterns between preferred and non-preferred responses, which we compare with synthetic eye-tracking data. Furthermore, we examine the correlation between human reading measures and attention patterns from various transformer-based models, discovering stronger correlations in preferred responses. This work introduces a unique resource for studying human cognitive processing in LLM evaluation and suggests promising directions for incorporating eye-tracking data into alignment methods. The dataset and analysis code are publicly available.

arxiv情報

著者 Angela Lopez-Cardona,Sebastian Idesis,Miguel Barreda-Ángeles,Sergi Abadal,Ioannis Arapakis
発行日 2025-03-26 13:24:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | OASST-ETC Dataset: Alignment Signals from Eye-tracking Analysis of LLM Responses はコメントを受け付けていません

PG-SAM: Prior-Guided SAM with Medical for Multi-organ Segmentation

要約

セグメントAnything Model(SAM)は、強力なゼロショット機能を示しています。
ただし、医療画像セグメンテーションに適用すると、その精度と堅牢性は大幅に減少します。
既存の方法は、モダリティの融合を通じてこの問題に対処し、テキスト情報と画像情報を統合して、より詳細なプライアーを提供します。
この研究では、テキストの粒度とドメインギャップがプライアーの精度に影響すると主張します。
さらに、画像の高レベルの抽象セマンティクスとピクセルレベルの境界の詳細との矛盾は、融合プロセスにノイズを導入する可能性があります。
これに対処するために、事前に誘導されたSAM(PG-SAM)を提案します。これは、より良いモダリティアライメントのために専門的な医療知識を活用するために、きめ細かい密集したモダリティ以前のアライナーを採用しています。
私たちの方法の中核は、医療LLMからのきめの細かいテキストでドメインギャップに効率的に対処することにあります。
一方、モダリティのアラインメント後のプライアーズの品質も向上し、より正確なセグメンテーションを確保します。
さらに、デコーダーは、マルチレベルの特徴融合および反復マスクオプティマイザー操作を通じて、モデルの表現力を高め、採用されていない学習をサポートします。
また、高品質のセマンティック情報をSAMに効果的に提供する統一されたパイプラインを提案します。
シナプスデータセットでの広範な実験は、提案されたPG-SAMが最先端のパフォーマンスを達成することを示しています。
私たちのコードはhttps://github.com/logan-0623/pg-samでリリースされています。

要約(オリジナル)

Segment Anything Model (SAM) demonstrates powerful zero-shot capabilities; however, its accuracy and robustness significantly decrease when applied to medical image segmentation. Existing methods address this issue through modality fusion, integrating textual and image information to provide more detailed priors. In this study, we argue that the granularity of text and the domain gap affect the accuracy of the priors. Furthermore, the discrepancy between high-level abstract semantics and pixel-level boundary details in images can introduce noise into the fusion process. To address this, we propose Prior-Guided SAM (PG-SAM), which employs a fine-grained modality prior aligner to leverage specialized medical knowledge for better modality alignment. The core of our method lies in efficiently addressing the domain gap with fine-grained text from a medical LLM. Meanwhile, it also enhances the priors’ quality after modality alignment, ensuring more accurate segmentation. In addition, our decoder enhances the model’s expressive capabilities through multi-level feature fusion and iterative mask optimizer operations, supporting unprompted learning. We also propose a unified pipeline that effectively supplies high-quality semantic information to SAM. Extensive experiments on the Synapse dataset demonstrate that the proposed PG-SAM achieves state-of-the-art performance. Our code is released at https://github.com/logan-0623/PG-SAM.

arxiv情報

著者 Yiheng Zhong,Zihong Luo,Chengzhi Liu,Feilong Tang,Zelin Peng,Ming Hu,Yingzhen Hu,Jionglong Su,Zongyuan Ge,Imran Razzak
発行日 2025-03-26 13:38:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | PG-SAM: Prior-Guided SAM with Medical for Multi-organ Segmentation はコメントを受け付けていません

Fully Distributed Fog Load Balancing with Multi-Agent Reinforcement Learning

要約

リアルタイムのモノのインターネット(IoT)アプリケーションでは、IoTワークロードを処理するためのコンピューティングリソースに対する増え続ける需要を処理するためのリアルタイムサポートが必要です。
FOGコンピューティングは、このようなリソースの高可用性を分散した方法で提供します。
ただし、これらのリソースは、不均一な霧リソース間に予測不可能なトラフィックの需要を配布するために効率的に管理する必要があります。
このホワイトペーパーでは、FOGネットワ​​ークで公正なリソース利用を提供しながら、待機時間を最適化するためにIoTワークロードをインテリジェントに配布するマルチエージェント補強学習(MARL)を備えた完全に分散された負荷分散ソリューションを提案します。
これらのエージェントは、生涯にわたる自己適応のために転送学習を使用して、環境の動的な変化を行います。
分散意思決定を活用することにより、MARLエージェントは、単一の集中エージェントソリューションと他のベースラインと比較して待機時間を効果的に最小化し、エンドツーエンドの実行遅延を強化します。
パフォーマンスゲインに加えて、完全に分散されたソリューションにより、エージェントが小さなコラボレーション地域で独立して作業できるグローバルスケールの実装が可能になり、近くのローカルリソースを活用できます。
さらに、必要なアクションごとに観察をリアルタイムで容易に入手できる文献の非現実的な一般的な仮定とは異なり、環境の状態を観察するために現実的な頻度の影響を分析します。
この調査結果は、生成されたすべてのワークロードのリアルタイム観測の可用性を想定することに対して、インターバルベースのゴシップベースのマルチキャスティングプロトコルを使用して、リアリズムとパフォーマンスのトレードオフを強調しています。

要約(オリジナル)

Real-time Internet of Things (IoT) applications require real-time support to handle the ever-growing demand for computing resources to process IoT workloads. Fog Computing provides high availability of such resources in a distributed manner. However, these resources must be efficiently managed to distribute unpredictable traffic demands among heterogeneous Fog resources. This paper proposes a fully distributed load-balancing solution with Multi-Agent Reinforcement Learning (MARL) that intelligently distributes IoT workloads to optimize the waiting time while providing fair resource utilization in the Fog network. These agents use transfer learning for life-long self-adaptation to dynamic changes in the environment. By leveraging distributed decision-making, MARL agents effectively minimize the waiting time compared to a single centralized agent solution and other baselines, enhancing end-to-end execution delay. Besides performance gain, a fully distributed solution allows for a global-scale implementation where agents can work independently in small collaboration regions, leveraging nearby local resources. Furthermore, we analyze the impact of a realistic frequency to observe the state of the environment, unlike the unrealistic common assumption in the literature of having observations readily available in real-time for every required action. The findings highlight the trade-off between realism and performance using an interval-based Gossip-based multi-casting protocol against assuming real-time observation availability for every generated workload.

arxiv情報

著者 Maad Ebrahim,Abdelhakim Hafid
発行日 2025-03-26 14:25:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG, cs.MA | Fully Distributed Fog Load Balancing with Multi-Agent Reinforcement Learning はコメントを受け付けていません

PRECTR: A Synergistic Framework for Integrating Personalized Search Relevance Matching and CTR Prediction

要約

検索推奨システムの2つの主要なタスクは、検索関連のマッチングとクリックスルーレート(CTR)予測です。前者は、ユーザークエリに関連するアイテムを探すことに焦点を当てていますが、後者はユーザーの関心をよりよく一致させる可能性があります。
通常、以前の研究では、CTRと検索の関連性を個別に予測するために2つのモデルを開発し、2つの出力の融合に基づいて候補アイテムをランキングします。
ただし、このような分割征服パラダイムは、異なるモデル間で矛盾を生み出します。
一方、検索関連モデルは、主に異なるユーザー間のパーソナライズされた違いを無視しながら、客観的なテキストの一致の程度に集中し、モデルのパフォーマンスが制限されます。
これらの問題に取り組むために、統一されたパーソナライズされた検索関連のマッチングとCTR予測融合モデル(PRECTR)を提案します。
具体的には、条件付き確率融合メカニズムに基づいて、PRECTRはCTRの予測と検索関連性を1つのフレームワークに統合して、2つのモジュールの相互作用と一貫性を強化します。
ただし、CTRバイナリ分類の損失を直接最適化すると、Fusionモデルの収束に課題をもたらし、検索関連性に関係なく、CTRの高いアイテムの露出を無期限に促進する可能性があります。
したがって、モデルの収束を加速し、無関係なアイテムの推奨を抑制するために、2段階のトレーニングとセマンティックの一貫性の正則化をさらに導入します。
最後に、さまざまなユーザーが関連性の好みを変えている可能性があることを認めて、それに応じて、類似のクエリに対する過去のユーザーの好みを分析し、異なる候補項目のカスタマイズされたインセンティブを分析することにより、現在のユーザーの関連性の好みを評価しました。
生産データセットとオンラインのA/Bテストでの広範な実験結果は、提案されたPRECTR法の有効性と優位性を示しています。

要約(オリジナル)

The two primary tasks in the search recommendation system are search relevance matching and click-through rate (CTR) prediction — the former focuses on seeking relevant items for user queries whereas the latter forecasts which item may better match user interest. Prior research typically develops two models to predict the CTR and search relevance separately, then ranking candidate items based on the fusion of the two outputs. However, such a divide-and-conquer paradigm creates the inconsistency between different models. Meanwhile, the search relevance model mainly concentrates on the degree of objective text matching while neglecting personalized differences among different users, leading to restricted model performance. To tackle these issues, we propose a unified Personalized Search RElevance Matching and CTR Prediction Fusion Model(PRECTR). Specifically, based on the conditional probability fusion mechanism, PRECTR integrates the CTR prediction and search relevance matching into one framework to enhance the interaction and consistency of the two modules. However, directly optimizing CTR binary classification loss may bring challenges to the fusion model’s convergence and indefinitely promote the exposure of items with high CTR, regardless of their search relevance. Hence, we further introduce two-stage training and semantic consistency regularization to accelerate the model’s convergence and restrain the recommendation of irrelevant items. Finally, acknowledging that different users may have varied relevance preferences, we assessed current users’ relevance preferences by analyzing past users’ preferences for similar queries and tailored incentives for different candidate items accordingly. Extensive experimental results on our production dataset and online A/B testing demonstrate the effectiveness and superiority of our proposed PRECTR method.

arxiv情報

著者 Rong Chen,Shuzhi Cao,Ailong He,Shuguang Han,Jufeng Chen
発行日 2025-03-26 14:38:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | PRECTR: A Synergistic Framework for Integrating Personalized Search Relevance Matching and CTR Prediction はコメントを受け付けていません