Emojis Decoded: Leveraging ChatGPT for Enhanced Understanding in Social Media Communications

要約

単なる単語やフレーズを超えてセマンティクスをカプセル化する絵文字は、ソーシャルネットワークコミュニケーションで一般的になっています。
これは、属性と機能を探求することに対する学術的関心の高まりに拍車をかけています。
ただし、絵文字関連の研究とアプリケーションは、2つの主要な課題に直面しています。
第一に、研究者は通常、感情、使用意図、意味的な意味を理解するために、絵文字に注釈を付けるためにクラウドソーシングに依存しています。
第二に、ユーザーによる主観的な解釈は、多くの場合、絵文字の誤解につながり、コミュニケーションの障壁を引き起こす可能性があります。
大規模な言語モデル(LLMS)は、さまざまな注釈タスクで大幅に成功しており、ChatGptは複数のドメインにわたって専門知識を示しています。
私たちの研究では、以前に注釈付きおよび下流のタスクを処理する際のChatGptの有効性を評価します。
私たちの目的は、ChatGptが絵文字研究における人間のアノテーターの実行可能な代替として機能する可能性があり、絵文字の意味を説明する能力がオンラインコミュニケーションの明快さと透明性を高めることができるという仮説を検証することです。
私たちの調査結果は、ChatGptが絵文字の広範な知識を持っていることを示しています。
さまざまなアプリケーションシナリオで絵文字の意味を解明することに熟達しており、さまざまなタスクで人間のアノテーターを置き換える可能性を示しています。

要約(オリジナル)

Emojis, which encapsulate semantics beyond mere words or phrases, have become prevalent in social network communications. This has spurred increasing scholarly interest in exploring their attributes and functionalities. However, emoji-related research and application face two primary challenges. First, researchers typically rely on crowd-sourcing to annotate emojis in order to understand their sentiments, usage intentions, and semantic meanings. Second, subjective interpretations by users can often lead to misunderstandings of emojis and cause the communication barrier. Large Language Models (LLMs) have achieved significant success in various annotation tasks, with ChatGPT demonstrating expertise across multiple domains. In our study, we assess ChatGPT’s effectiveness in handling previously annotated and downstream tasks. Our objective is to validate the hypothesis that ChatGPT can serve as a viable alternative to human annotators in emoji research and that its ability to explain emoji meanings can enhance clarity and transparency in online communications. Our findings indicate that ChatGPT has extensive knowledge of emojis. It is adept at elucidating the meaning of emojis across various application scenarios and demonstrates the potential to replace human annotators in a range of tasks.

arxiv情報

著者 Yuhang Zhou,Paiheng Xu,Xiyao Wang,Xuan Lu,Ge Gao,Wei Ai
発行日 2025-04-07 15:00:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Emojis Decoded: Leveraging ChatGPT for Enhanced Understanding in Social Media Communications はコメントを受け付けていません

Addressing Label Leakage in Knowledge Tracing Models

要約

知識トレース(KT)は、インテリジェントな個別指導システムの学習項目に関する学生の将来のパフォーマンスを予測することに関係しています。
学習アイテムには、知識概念(KC)と呼ばれるスキルラベルが付いています。
多くのKTモデルは、学習アイテムを構成的なKCに置き換えることにより、アイテムの学生相互作用のシーケンスをKC-学生の相互作用に拡張します。
このアプローチは、まばらなアイテムと学生の相互作用の問題に対処し、モデルパラメーターの数を最小限に抑えます。
ただし、このアプローチでラベル漏れの問題を特定しました。
同じアイテムに属するKC間の相関を学習するモデルの能力は、特にアイテムあたりのKCの数が多いデータセットで、パフォーマンスの低下につながるグラウンドトゥルースラベルの漏れをもたらす可能性があります。
このホワイトペーパーでは、知識トレース(KT)モデルのラベル漏れを防ぐ方法を紹介します。
これらの方法を利用するモデルバリアントは、一貫して元のカウンターパートを上回っています。
これにより、モデルのパフォーマンスに対するラベルの漏れの影響がさらに強調されます。
さらに、これらの方法はKTモデルの全体的なパフォーマンスを向上させ、1つのモデルバリアントが異なるベンチマークでテストされたすべてのベースラインを上回ります。
特に、当社の方法は多用途であり、幅広いKTモデルに適用できます。

要約(オリジナル)

Knowledge Tracing (KT) is concerned with predicting students’ future performance on learning items in intelligent tutoring systems. Learning items are tagged with skill labels called knowledge concepts (KCs). Many KT models expand the sequence of item-student interactions into KC-student interactions by replacing learning items with their constituting KCs. This approach addresses the issue of sparse item-student interactions and minimises the number of model parameters. However, we identified a label leakage problem with this approach. The model’s ability to learn correlations between KCs belonging to the same item can result in the leakage of ground truth labels, which leads to decreased performance, particularly on datasets with a high number of KCs per item. In this paper, we present methods to prevent label leakage in knowledge tracing (KT) models. Our model variants that utilize these methods consistently outperform their original counterparts. This further underscores the impact of label leakage on model performance. Additionally, these methods enhance the overall performance of KT models, with one model variant surpassing all tested baselines on different benchmarks. Notably, our methods are versatile and can be applied to a wide range of KT models.

arxiv情報

著者 Yahya Badran,Christine Preisach
発行日 2025-04-07 15:00:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG | Addressing Label Leakage in Knowledge Tracing Models はコメントを受け付けていません

Evaluating Knowledge Graph Based Retrieval Augmented Generation Methods under Knowledge Incompleteness

要約

ナレッジグラフベースの検索生成(kg-rag)は、知識グラフ(KG)から関連情報を取得することにより、質問回答(QA)などのタスクの大規模な言語モデル(LLM)推論を強化する手法です。
ただし、実際のKGは不完全であることがよくあります。つまり、質問に答えるための重要な情報が欠落している可能性があります。
既存のベンチマークは、KG RAGパフォーマンスに対するKGの不完全性の影響を適切にキャプチャしません。
この論文では、異なる方法を使用してトリプルを削除し、結果として生じる効果を分析することにより、不完全なKGの下でKG-RAGメソッドを体系的に評価します。
KG-RAGメソッドはKGの不完全性に敏感であることを実証し、現実的な設定でより堅牢なアプローチの必要性を強調しています。

要約(オリジナル)

Knowledge Graph based Retrieval-Augmented Generation (KG-RAG) is a technique that enhances Large Language Model (LLM) inference in tasks like Question Answering (QA) by retrieving relevant information from knowledge graphs (KGs). However, real-world KGs are often incomplete, meaning that essential information for answering questions may be missing. Existing benchmarks do not adequately capture the impact of KG incompleteness on KG-RAG performance. In this paper, we systematically evaluate KG-RAG methods under incomplete KGs by removing triples using different methods and analyzing the resulting effects. We demonstrate that KG-RAG methods are sensitive to KG incompleteness, highlighting the need for more robust approaches in realistic settings.

arxiv情報

著者 Dongzhuoran Zhou,Yuqicheng Zhu,Yuan He,Jiaoyan Chen,Evgeny Kharlamov,Steffen Staab
発行日 2025-04-07 15:08:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Evaluating Knowledge Graph Based Retrieval Augmented Generation Methods under Knowledge Incompleteness はコメントを受け付けていません

RLBayes: a Bayesian Network Structure Learning Algorithm via Reinforcement Learning-Based Search Strategy

要約

ベイジアンネットワーク(BN)のスコアベースの構造学習は、BNモデルを学習するための効果的な方法であり、不確実性の下での表現と推論の分野で最も説得力のある確率的グラフィカルモデルのいくつかと見なされます。
ただし、構造学習の検索空間は、変数の数が増加するにつれて非常に明確に増加し、BN構造がNPハードの問題と組み合わせ最適化問題(COP)と同様に成長します。
多くのヒューリスティックな方法の成功にもかかわらず、BNの構造学習の結果は通常、不十分です。
Qラーニングに触発されたこのホワイトペーパーでは、強化学習ベース(RLベース)検索戦略、つまりRLBayesを介したベイジアンネットワーク構造学習アルゴリズムが提案されています。
この方法は、RLのアイデアを借用し、動的に維持されたQテーブルによって学習プロセスを記録およびガイドする傾向があります。
動的なQテーブルを作成および維持することにより、Rlbayesは限られたスペース内の無制限の検索スペースを保存することで、Qラーニングを介してBNの構造学習を実現します。
Rlbayesがグローバルな最適なBN構造に収束できることが理論的に証明されただけでなく、Rlbayesが他のほとんどすべてのヒューリスティック検索アルゴリズムよりも優れた効果があることも実験的に証明されています。

要約(オリジナル)

The score-based structure learning of Bayesian network (BN) is an effective way to learn BN models, which are regarded as some of the most compelling probabilistic graphical models in the field of representation and reasoning under uncertainty. However, the search space of structure learning grows super-exponentially as the number of variables increases, which makes BN structure learning an NP-hard problem, as well as a combination optimization problem (COP). Despite the successes of many heuristic methods on it, the results of the structure learning of BN are usually unsatisfactory. Inspired by Q-learning, in this paper, a Bayesian network structure learning algorithm via reinforcement learning-based (RL-based) search strategy is proposed, namely RLBayes. The method borrows the idea of RL and tends to record and guide the learning process by a dynamically maintained Q-table. By creating and maintaining the dynamic Q-table, RLBayes achieve storing the unlimited search space within limited space, thereby achieving the structure learning of BN via Q-learning. Not only is it theoretically proved that RLBayes can converge to the global optimal BN structure, but also it is experimentally proved that RLBayes has a better effect than almost all other heuristic search algorithms.

arxiv情報

著者 Mingcan Wang,Junchang Xin,Luxuan Qu,Qi Chen,Zhiqiong Wang
発行日 2025-04-07 15:11:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | RLBayes: a Bayesian Network Structure Learning Algorithm via Reinforcement Learning-Based Search Strategy はコメントを受け付けていません

Attention-Based Multi-Scale Temporal Fusion Network for Uncertain-Mode Fault Diagnosis in Multimode Processes

要約

マルチモードプロセスにおける障害診断は、複数のモードで産業システムの安全な動作を確保する上で重要な役割を果たします。
これはまだ対処されていない大きな課題に直面しています。つまり、複数のモードからの監視データ間の重要な分布の違いにより、モデルがシステムの健康状態に関連する共有機能表現を抽出することが困難です。
この問題に応じて、このペーパーでは、注意ベースのマルチスケール時間融合ネットワークと呼ばれる新しい方法を紹介します。
マルチスケールの深部回転畳み込みとゲートの再発ユニットが使用され、マルチスケールのコンテキストローカル機能と長期的な機能を抽出します。
一時的な注意メカニズムは、より高いクロスモード共有情報を備えた重要な時点に焦点を当てるように設計されているため、障害診断の精度を高めます。
提案されたモデルは、Tennessee Eastman Process Datasetおよび3フェーズフローファシリティデータセットに適用されます。
実験は、提案されたモデルが優れた診断パフォーマンスを達成し、小さなモデルサイズを維持することを示しています。

要約(オリジナル)

Fault diagnosis in multimode processes plays a critical role in ensuring the safe operation of industrial systems across multiple modes. It faces a great challenge yet to be addressed – that is, the significant distributional differences among monitoring data from multiple modes make it difficult for the models to extract shared feature representations related to system health conditions. In response to this problem, this paper introduces a novel method called attention-based multi-scale temporal fusion network. The multi-scale depthwise convolution and gated recurrent unit are employed to extract multi-scale contextual local features and long-short-term features. A temporal attention mechanism is designed to focus on critical time points with higher cross-mode shared information, thereby enhancing the accuracy of fault diagnosis. The proposed model is applied to Tennessee Eastman process dataset and three-phase flow facility dataset. The experiments demonstrate that the proposed model achieves superior diagnostic performance and maintains a small model size.

arxiv情報

著者 Guangqiang Li,M. Amine Atoui,Xiangshun Li
発行日 2025-04-07 15:16:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Attention-Based Multi-Scale Temporal Fusion Network for Uncertain-Mode Fault Diagnosis in Multimode Processes はコメントを受け付けていません

BRIDGES: Bridging Graph Modality and Large Language Models within EDA Tasks

要約

多くのEDAタスクにはすでにグラフベースのデータが含まれていますが、EDAの既存のLLMは主にグラフをシーケンシャルテキストとして表しているか、RTLコードのデータフローグラフのように有益なグラフ構造データを無視します。
最近の研究では、グラフがシーケンシャルテキストとして表されている場合、LLMのパフォーマンスが低下することがわかっており、追加のグラフ情報を使用するとパフォーマンスが大幅に向上しています。
これらの課題に対処するために、EDAタスク用のLLMにグラフモダリティを組み込むように設計されたフレームワークであるBridgesを紹介します。
Bridgesは、自動化されたデータ生成ワークフロー、グラフモダリティとLLMを組み合わせたソリューション、および包括的な評価スイートを統合します。
まず、LLM駆動型のワークフローを確立して、RTLとNetListレベルのデータを生成し、関数の説明を使用してデータフローとネットリストグラフに変換します。
このワークフローは、500,000を超えるグラフインスタンスと15億を超えるトークンで構成される大規模なデータセットを生成します。
第二に、グラフ表現をテキスト互換プロンプトにエンコードする軽量のクロスモーダルプロジェクターを提案し、LLMがアーキテクチャの変更なしでグラフデータを効果的に利用できるようにします。
実験結果は、テキストのみのベースラインと比較して、複数のタスクで2倍から10倍の改善が示されています。これには、機能記述の設計検索の精度、タイプ予測、困惑、無視できる計算オーバーヘッドがあります(1%のモデル重量が増加し、ランタイムのオーバーヘッドが30%未満)。
追加のLLM Finetuningがなくても、結果はテキストのみを大きなマージンで上回ります。
データセット、モデル、トレーニングフローを含むブリッジをリリースする予定です。

要約(オリジナル)

While many EDA tasks already involve graph-based data, existing LLMs in EDA primarily either represent graphs as sequential text, or simply ignore graph-structured data that might be beneficial like dataflow graphs of RTL code. Recent studies have found that LLM performance suffers when graphs are represented as sequential text, and using additional graph information significantly boosts performance. To address these challenges, we introduce BRIDGES, a framework designed to incorporate graph modality into LLMs for EDA tasks. BRIDGES integrates an automated data generation workflow, a solution that combines graph modality with LLM, and a comprehensive evaluation suite. First, we establish an LLM-driven workflow to generate RTL and netlist-level data, converting them into dataflow and netlist graphs with function descriptions. This workflow yields a large-scale dataset comprising over 500,000 graph instances and more than 1.5 billion tokens. Second, we propose a lightweight cross-modal projector that encodes graph representations into text-compatible prompts, enabling LLMs to effectively utilize graph data without architectural modifications. Experimental results demonstrate 2x to 10x improvements across multiple tasks compared to text-only baselines, including accuracy in design retrieval, type prediction and perplexity in function description, with negligible computational overhead (<1% model weights increase and <30% additional runtime overhead). Even without additional LLM finetuning, our results outperform text-only by a large margin. We plan to release BRIDGES, including the dataset, models, and training flow.

arxiv情報

著者 Wei Li,Yang Zou,Christopher Ellis,Ruben Purdy,Shawn Blanton,José M. F. Moura
発行日 2025-04-07 15:27:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | BRIDGES: Bridging Graph Modality and Large Language Models within EDA Tasks はコメントを受け付けていません

Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval

要約

生成情報検索(GENIR)は、ドキュメント識別子(DOCID)生成タスクとしてドキュメント検索を定式化する有望な神経検索パラダイムであり、統一されたグローバル検索目標に向けてエンドツーエンドの最適化を可能にします。
ただし、既存のGenirモデルは、トークンレベルの不整合に悩まされており、次のトークンを予測するために訓練されたモデルがドキュメントレベルの関連性を効果的にキャプチャできないことがよくあります。
関連するフィードバック(RLRF)からの強化学習などの強化学習ベースの方法は、報酬モデリングを通じてこの不整合に対処することを目的としていますが、補助報酬機能の最適化とそれに続く補強材の微調整が必​​要です。
これらの課題に対処するために、直接文書関連性最適化(DDRO)を提案します。これは、ペアワイズランキングを介した直接的な最適化を通じてトークンレベルのドキド生成をドキュメントレベルの関連性推定に合わせて、明示的な報酬モデリングと強化学習の必要性を排除します。
MS MARCO文書や自然な質問を含むベンチマークデータセットの実験結果は、DDROが補強学習ベースの方法よりも優れており、MR MRCO@10で7.4%の改善を達成し、自然な質問で19.9%の改善を達成することを示しています。
これらの調査結果は、単純化された最適化アプローチで検索の有効性を高めるDDROの可能性を強調しています。
直接最適化問題としてアラインメントをフレーミングすることにより、DDROは、補強学習ベースの方法に実行可能な代替品を提供しながら、Genirモデルのランキング最適化パイプラインを簡素化します。

要約(オリジナル)

Generative information retrieval (GenIR) is a promising neural retrieval paradigm that formulates document retrieval as a document identifier (docid) generation task, allowing for end-to-end optimization toward a unified global retrieval objective. However, existing GenIR models suffer from token-level misalignment, where models trained to predict the next token often fail to capture document-level relevance effectively. While reinforcement learning-based methods, such as reinforcement learning from relevance feedback (RLRF), aim to address this misalignment through reward modeling, they introduce significant complexity, requiring the optimization of an auxiliary reward function followed by reinforcement fine-tuning, which is computationally expensive and often unstable. To address these challenges, we propose direct document relevance optimization (DDRO), which aligns token-level docid generation with document-level relevance estimation through direct optimization via pairwise ranking, eliminating the need for explicit reward modeling and reinforcement learning. Experimental results on benchmark datasets, including MS MARCO document and Natural Questions, show that DDRO outperforms reinforcement learning-based methods, achieving a 7.4% improvement in MRR@10 for MS MARCO and a 19.9% improvement for Natural Questions. These findings highlight DDRO’s potential to enhance retrieval effectiveness with a simplified optimization approach. By framing alignment as a direct optimization problem, DDRO simplifies the ranking optimization pipeline of GenIR models while offering a viable alternative to reinforcement learning-based methods.

arxiv情報

著者 Kidist Amde Mekonnen,Yubao Tang,Maarten de Rijke
発行日 2025-04-07 15:27:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DL, cs.IR, cs.LG, H.3.3 | Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval はコメントを受け付けていません

GIScience in the Era of Artificial Intelligence: A Research Agenda Towards Autonomous GIS

要約

大規模な言語モデル(LLMS)によって例示された生成AIの出現は、地理的情報を表現および計算する新しい方法を開き、地理的知識生産のプロセスを超越し、地理情報システム(GIS)を自律GISに向けて推進します。
LLMSを決定コアとして活用すると、自律GISはジオプロセシングワークフローを独立して生成および実行して、空間分析を実行できます。
このビジョンペーパーでは、自律GISの概念についてさらに詳しく説明し、5つの自律目標、5つの自律レベル、5つのコア関数、および3つの運用スケールを定義する概念フレームワークを提示します。
自律GISが地理空間データの検索、空間分析、および4つの概念実証GISエージェントを使用してマップ作成を実行する方法を示します。
微調整および自己成長の意思決定コア、自律的なモデリング、自律的なGIの社会的および実際的な意味を調べるなど、重要な課題と将来の研究の方向性を特定することで締めくくります。
Giscienceのパラダイムシフトの基礎を確立することにより、このペーパーは、GISが従来のワークフローを超えて自律的に推論し、地理空間ソリューションを導き出し、革新し、進歩させて世界的な課題を差し引くように移動する未来を想定しています。
ますますインテリジェントな地理的システムを設計および展開するにつれて、それらが社会的責任のある方法で開発され、公共の利益に奉仕し、Ai-Aigmentedの未来における人間の地理的洞察の継続的な価値をサポートする責任があります。

要約(オリジナル)

The advent of generative AI exemplified by large language models (LLMs) opens new ways to represent and compute geographic information and transcends the process of geographic knowledge production, driving geographic information systems (GIS) towards autonomous GIS. Leveraging LLMs as the decision core, autonomous GIS can independently generate and execute geoprocessing workflows to perform spatial analysis. In this vision paper, we further elaborate on the concept of autonomous GIS and present a conceptual framework that defines its five autonomous goals, five autonomous levels, five core functions, and three operational scales. We demonstrate how autonomous GIS could perform geospatial data retrieval, spatial analysis, and map making with four proof-of-concept GIS agents. We conclude by identifying critical challenges and future research directions, including fine-tuning and self-growing decision-cores, autonomous modeling, and examining the societal and practical implications of autonomous GIS. By establishing the groundwork for a paradigm shift in GIScience, this paper envisions a future where GIS moves beyond traditional workflows to autonomously reason, derive, innovate, and advance geospatial solutions to pressing global challenges. As we design and deploy increasingly intelligent geospatial systems, we have a responsibility to ensure they are developed in socially responsible ways, serve the public good, and support the continued value of human geographic insight in an AI-augmented future.

arxiv情報

著者 Zhenlong Li,Huan Ning,Song Gao,Krzysztof Janowicz,Wenwen Li,Samantha T. Arundel,Chaowei Yang,Budhendra Bhaduri,Shaowen Wang,A-Xing Zhu,Mark Gahegan,Shashi Shekhar,Xinyue Ye,Grant McKenzie,Guido Cervone,Michael E. Hodgson
発行日 2025-04-07 15:29:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.SE | GIScience in the Era of Artificial Intelligence: A Research Agenda Towards Autonomous GIS はコメントを受け付けていません

Resource-Efficient Beam Prediction in mmWave Communications with Multimodal Realistic Simulation Framework

要約

ビームフォーミングは、方向性と強度を最適化することにより信号伝送を改善するミリ波(mmwave)通信の重要な技術です。
ただし、パイロット信号やビームスイープなどの従来のチャネル推定方法は、急速に変化する通信環境に適応できないことがよくあります。
この制限に対処するために、LIDAR、レーダー、GPS、RGB画像などのデバイスからのさまざまなセンシングデータを使用して、ユーザーの場所やネットワーク条件を予測するために、マルチモーダルセンシング支援ビーム予測が大きな注目を集めています。
その有望な可能性にもかかわらず、マルチモーダルセンシング支援ビーム予測の採用は、高い計算の複雑さ、高コスト、および限られたデータセットによって妨げられます。
したがって、この論文では、クロスモーダルリレーショナルナレッジ蒸留(CRKD)に基づいて、マルチモーダルネットワークから単モーダル(RADARのみ)ネットワークに知識を移転し、計算オーバーヘッドを減らし、予測精度を保存するために、リソース効率の高い学習アプローチを提案します。
現実的なデータを使用してマルチモーダル学習を可能にするために、MATLABベースのMMWAVEチャネルモデリングを使用して自律運転シミュレーターCarlaから生成されたセンサーデータを統合しながら、新しいマルチモーダルシミュレーションフレームワークが開発され、実際の条件を反映します。
提案されたCRKDは、さまざまな機能スペースに関係情報を蒸留することにより目的を達成し、高価なセンサーデータに依存することなくビーム予測のパフォーマンスを向上させます。
シミュレーション結果は、CRKDがマルチモーダルの知識を効率的に蒸留し、レーダーのみのモデルが教師のパフォーマンスの94.62%\%$を達成できることを示しています。
特に、これは教師ネットワークのパラメーターのわずか10ドル\%$で達成されるため、計算の複雑さとマルチモーダルセンサーデータへの依存を大幅に削減します。

要約(オリジナル)

Beamforming is a key technology in millimeter-wave (mmWave) communications that improves signal transmission by optimizing directionality and intensity. However, conventional channel estimation methods, such as pilot signals or beam sweeping, often fail to adapt to rapidly changing communication environments. To address this limitation, multimodal sensing-aided beam prediction has gained significant attention, using various sensing data from devices such as LiDAR, radar, GPS, and RGB images to predict user locations or network conditions. Despite its promising potential, the adoption of multimodal sensing-aided beam prediction is hindered by high computational complexity, high costs, and limited datasets. Thus, in this paper, a resource-efficient learning approach is proposed to transfer knowledge from a multimodal network to a monomodal (radar-only) network based on cross-modal relational knowledge distillation (CRKD), while reducing computational overhead and preserving predictive accuracy. To enable multimodal learning with realistic data, a novel multimodal simulation framework is developed while integrating sensor data generated from the autonomous driving simulator CARLA with MATLAB-based mmWave channel modeling, and reflecting real-world conditions. The proposed CRKD achieves its objective by distilling relational information across different feature spaces, which enhances beam prediction performance without relying on expensive sensor data. Simulation results demonstrate that CRKD efficiently distills multimodal knowledge, allowing a radar-only model to achieve $94.62\%$ of the teacher performance. In particular, this is achieved with just $10\%$ of the teacher network’s parameters, thereby significantly reducing computational complexity and dependence on multimodal sensor data.

arxiv情報

著者 Yu Min Park,Yan Kyaw Tun,Walid Saad,Choong Seon Hong
発行日 2025-04-07 15:38:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NI | Resource-Efficient Beam Prediction in mmWave Communications with Multimodal Realistic Simulation Framework はコメントを受け付けていません

A moving target in AI-assisted decision-making: Dataset shift, model updating, and the problem of update opacity

要約

機械学習(ML)システムは、データセットのシフトにより、時間の経過とともにパフォーマンスの低下に対して脆弱です。
この問題に対処するために、専門家はしばしば、MLシステムを定期的に更新して、継続的なパフォーマンスの安定性を確保する必要があることを示唆しています。
いくつかの学術文献は、さまざまな更新方法に関連する認識論的および倫理的課題に対処し始めました。
ただし、これまでのところ、MLアシストの意思決定プロセス自体、特にAI倫理およびAI認識論文献におけるモデル更新の影響にはほとんど注意が払われていません。
この記事は、文献のこのギャップに対処することを目的としています。
モデルの更新により、MLアシストの意思決定に不透明度の新しいサブタイプのサブタイプが導入されていると主張しています。これは、ユーザーが更新がMLシステムの推論または動作をどのように、または変更したかを理解できないときに発生します。
このタイプの不透明度は、MLのブラックボックスの問題に利用可能なソリューションが対処するのがほとんど装備されていないという、さまざまな独特の認識論的および安全性の懸念を示しています。
双幕の説明、動的モデルの報告、互換性の更新など、不透明度をより直接的に更新する問題に対処するために、さまざまな代替戦略を開発または追求することができます。
ただし、これらの戦略のそれぞれは、独自のリスクを提示するか、重大な制限をもたらします。
モデルの更新に関連する認識と安全性の懸念に対処し、今後の不透明度の更新に対処するには、さらなる研究が必要になります。

要約(オリジナル)

Machine learning (ML) systems are vulnerable to performance decline over time due to dataset shift. To address this problem, experts often suggest that ML systems should be regularly updated to ensure ongoing performance stability. Some scholarly literature has begun to address the epistemic and ethical challenges associated with different updating methodologies. Thus far, however, little attention has been paid to the impact of model updating on the ML-assisted decision-making process itself, particularly in the AI ethics and AI epistemology literatures. This article aims to address this gap in the literature. It argues that model updating introduces a new sub-type of opacity into ML-assisted decision-making — update opacity — that occurs when users cannot understand how or why an update has changed the reasoning or behaviour of an ML system. This type of opacity presents a variety of distinctive epistemic and safety concerns that available solutions to the black box problem in ML are largely ill-equipped to address. A variety of alternative strategies may be developed or pursued to address the problem of update opacity more directly, including bi-factual explanations, dynamic model reporting, and update compatibility. However, each of these strategies presents its own risks or carries significant limitations. Further research will be needed to address the epistemic and safety concerns associated with model updating and update opacity going forward.

arxiv情報

著者 Joshua Hatherley
発行日 2025-04-07 15:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC, cs.LG | A moving target in AI-assisted decision-making: Dataset shift, model updating, and the problem of update opacity はコメントを受け付けていません