Heterogeneous Graph Auto-Encoder for CreditCard Fraud Detection


デジタル革命は金融取引に大きな影響を与え、クレジット カードの使用量が顕著に増加しています。
この論文では、金融データの異種グラフ表現に適用されるアテンション メカニズムを備えたグラフ ニューラル ネットワーク (GNN) を活用する、クレジット カード詐欺検出のための新しいアプローチを提案します。
この研究では、次の 2 つの重要な質問を調査します。(1) アテンション メカニズムを備えた GNN を異種グラフに適用した場合、クレジット カード詐欺をどの程度効果的に検出して防止できるか?
(2) アテンションアプローチによるオートエンコーダの有効性は従来の方法とどのように比較されますか?
結果は有望であり、提案されたモデルが Graph Sage や FI-GRL などのベンチマーク アルゴリズムを上回り、0.89 という優れた AUC-PR と 0.81 の F1 スコアを達成していることを示しています。
この研究は、アテンション メカニズムを備えた GNN を活用し、オートエンコーダーを通じてクラスの不均衡に対処することにより、不正検出システムと金融取引の全体的なセキュリティを大幅に進歩させます。


The digital revolution has significantly impacted financial transactions, leading to a notable increase in credit card usage. However, this convenience comes with a trade-off: a substantial rise in fraudulent activities. Traditional machine learning methods for fraud detection often struggle to capture the inherent interconnectedness within financial data. This paper proposes a novel approach for credit card fraud detection that leverages Graph Neural Networks (GNNs) with attention mechanisms applied to heterogeneous graph representations of financial data. Unlike homogeneous graphs, heterogeneous graphs capture intricate relationships between various entities in the financial ecosystem, such as cardholders, merchants, and transactions, providing a richer and more comprehensive data representation for fraud analysis. To address the inherent class imbalance in fraud data, where genuine transactions significantly outnumber fraudulent ones, the proposed approach integrates an autoencoder. This autoencoder, trained on genuine transactions, learns a latent representation and flags deviations during reconstruction as potential fraud. This research investigates two key questions: (1) How effectively can a GNN with an attention mechanism detect and prevent credit card fraud when applied to a heterogeneous graph? (2) How does the efficacy of the autoencoder with attention approach compare to traditional methods? The results are promising, demonstrating that the proposed model outperforms benchmark algorithms such as Graph Sage and FI-GRL, achieving a superior AUC-PR of 0.89 and an F1-score of 0.81. This research significantly advances fraud detection systems and the overall security of financial transactions by leveraging GNNs with attention mechanisms and addressing class imbalance through an autoencoder.


著者 Moirangthem Tiken Singh,Rabinder Kumar Prasad,Gurumayum Robert Michael,N K Kaphungkui,N. Hemarjit Singh
発行日 2024-10-10 17:05:27+00:00
Mars: Situated Inductive Reasoning in an Open-World Environment


大規模なコーパスでトレーニングされた大規模言語モデル (LLM) は、知識集約的なタスクで目覚ましい成功を収めています。
特定の原則を守りながら、地形、生存設定、タスクの依存関係を変更することで、常識に反するゲーム メカニズムを導入します。
私たちはさまざまな RL ベースおよび LLM ベースの手法で実験を行ったところ、これらの手法はすべて、この困難な状況帰納的推論のベンチマークに苦戦していることがわかりました。
さらに、\textit{反射からの帰納} を探索し、エージェントに歴史の軌跡から帰納推論を実行するように指示します。
火星を通じて、私たちは状況に応じた帰納的推論の進歩を促進し、適応的かつ状況に応じた方法で推論できる次世代の AI システムを開発するための準備を整えることを目指しています。


Large Language Models (LLMs) trained on massive corpora have shown remarkable success in knowledge-intensive tasks. Yet, most of them rely on pre-stored knowledge. Inducing new general knowledge from a specific environment and performing reasoning with the acquired knowledge — \textit{situated inductive reasoning}, is crucial and challenging for machine intelligence. In this paper, we design Mars, an interactive environment devised for situated inductive reasoning. It introduces counter-commonsense game mechanisms by modifying terrain, survival setting and task dependency while adhering to certain principles. In Mars, agents need to actively interact with their surroundings, derive useful rules and perform decision-making tasks in specific contexts. We conduct experiments on various RL-based and LLM-based methods, finding that they all struggle on this challenging situated inductive reasoning benchmark. Furthermore, we explore \textit{Induction from Reflection}, where we instruct agents to perform inductive reasoning from history trajectory. The superior performance underscores the importance of inductive reasoning in Mars. Through Mars, we aim to galvanize advancements in situated inductive reasoning and set the stage for developing the next generation of AI systems that can reason in an adaptive and context-sensitive way.


著者 Xiaojuan Tang,Jiaqi Li,Yitao Liang,Song-chun Zhu,Muhan Zhang,Zilong Zheng
発行日 2024-10-10 17:10:34+00:00
Assessing Episodic Memory in LLMs with Sequence Order Recall Tasks


現在の LLM ベンチマークは、モデルの事実と意味関係の記憶を評価することに焦点を当てており、主に長期記憶の意味的側面を評価しています。
この形式のメモリは、既存のベンチマークを使用した LLM では評価されていません。
LLM における記憶評価のギャップに対処するために、認知心理学におけるエピソード記憶の研究に使用されるタスクを応用した Sequence Order Recall Tasks (SORT) を導入します。
SORT は、LLM がテキスト セグメントの正しい順序を呼び出すことを要求し、簡単に拡張可能で追加の注釈を必要としない一般的なフレームワークを提供します。
我々は、最近パブリックドメインに追加された 9 冊の書籍から抽出された 36,000 のセグメントのペアで構成される初期評価データセット Book-SORT を提示します。
155 人の参加者を対象とした人体実験に基づいて、人間は本の長期記憶に基づいて順序を思い出すことができることを示しました。
SORT 評価中に関連するテキストがコンテキスト内で与えられると、モデルが高精度でタスクを実行できることがわかりました。
ただし、トレーニング中にのみ書籍のテキストを提示した場合、LLM の SORT でのパフォーマンスは不十分です。
SORT はメモリのより多くの側面を評価できるようにすることで、メモリ拡張モデルの新たな開発に役立つと考えています。


Current LLM benchmarks focus on evaluating models’ memory of facts and semantic relations, primarily assessing semantic aspects of long-term memory. However, in humans, long-term memory also includes episodic memory, which links memories to their contexts, such as the time and place they occurred. The ability to contextualize memories is crucial for many cognitive tasks and everyday functions. This form of memory has not been evaluated in LLMs with existing benchmarks. To address the gap in evaluating memory in LLMs, we introduce Sequence Order Recall Tasks (SORT), which we adapt from tasks used to study episodic memory in cognitive psychology. SORT requires LLMs to recall the correct order of text segments, and provides a general framework that is both easily extendable and does not require any additional annotations. We present an initial evaluation dataset, Book-SORT, comprising 36k pairs of segments extracted from 9 books recently added to the public domain. Based on a human experiment with 155 participants, we show that humans can recall sequence order based on long-term memory of a book. We find that models can perform the task with high accuracy when relevant text is given in-context during the SORT evaluation. However, when presented with the book text only during training, LLMs’ performance on SORT falls short. By allowing to evaluate more aspects of memory, we believe that SORT will aid in the emerging development of memory-augmented models.


著者 Mathis Pink,Vy A. Vo,Qinyuan Wu,Jianing Mu,Javier S. Turek,Uri Hasson,Kenneth A. Norman,Sebastian Michelmann,Alexander Huth,Mariya Toneva
発行日 2024-10-10 17:17:38+00:00
Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction


離散データの生成モデリングは、ChatGPT のようなテキストベースのエージェントから、タンパク質配列におけるまさに生命の構成要素の設計に至るまで、重要なアプリケーションの基礎となります。
ただし、アプリケーション ドメインは、指定されたプロパティ、報酬、またはアフィニティ メトリックを満たすために、通常は RLHF を介して生成プロセスを操作することにより、生成されたデータを制御する必要があります。
この論文では、従来の自己回帰モデルに代わる強力な代替手段を提供する最近の離散拡散モデルであるマスク拡散モデル (MDM) のステアリングの問題を研究します。
ターゲットの事後ベイズからサンプリングすることを学習することで、事前トレーニングされた MDM を操作するタスクを確率的推論の問題としてキャストする新しいフレームワークである、離散ノイズ除去事後予測 (DDPP) を紹介します。
私たちの DDPP フレームワークは、すべてシミュレーション不要で、一般的な微分不可能な報酬関数に適用しながらスケーラブルな 3 つの新しい目標のファミリーにつながります。
経験的に、クラス条件付きのピクセルレベルの画像モデリング、テキストベースの報酬を使用した MDM の RLHF ベースのアライメント、およびより多様な二次構造と短いタンパク質を生成するタンパク質言語モデルの微調整を実行するように MDM を操作することにより、DDPP をインスタンス化します。


Generative modeling of discrete data underlies important applications spanning text-based agents like ChatGPT to the design of the very building blocks of life in protein sequences. However, application domains need to exert control over the generated data by steering the generative process – typically via RLHF – to satisfy a specified property, reward, or affinity metric. In this paper, we study the problem of steering Masked Diffusion Models (MDMs), a recent class of discrete diffusion models that offer a compelling alternative to traditional autoregressive models. We introduce Discrete Denoising Posterior Prediction (DDPP), a novel framework that casts the task of steering pre-trained MDMs as a problem of probabilistic inference by learning to sample from a target Bayesian posterior. Our DDPP framework leads to a family of three novel objectives that are all simulation-free, and thus scalable while applying to general non-differentiable reward functions. Empirically, we instantiate DDPP by steering MDMs to perform class-conditional pixel-level image modeling, RLHF-based alignment of MDMs using text-based rewards, and finetuning protein language models to generate more diverse secondary structures and shorter proteins. We substantiate our designs via wet-lab validation, where we observe transient expression of reward-optimized protein sequences.


著者 Jarrid Rector-Brooks,Mohsin Hasan,Zhangzhi Peng,Zachary Quinn,Chenghao Liu,Sarthak Mittal,Nouha Dziri,Michael Bronstein,Yoshua Bengio,Pranam Chatterjee,Alexander Tong,Avishek Joey Bose
発行日 2024-10-10 17:18:30+00:00
AutoRD: An Automatic and End-to-End System for Rare Disease Knowledge Graph Construction Based on Ontologies-enhanced Large Language Models


大規模言語モデル (LLM) の最近の進歩により、医療情報の抽出の自動化が期待され、医療の診断と管理が改善される可能性が示されています。
私たちの目的は、AutoRD と呼ばれるエンドツーエンドのシステムを作成することです。これは、希少疾患に関する医学書からの情報の抽出を自動化し、実体とその関係に焦点を当てています。
AutoRD は、最新の構造化された知識を統合し、希少疾患の抽出タスクにおいて優れたパフォーマンスを発揮します。
一般的な LLM や従来の手法を超えることを目指して、AutoRD のパフォーマンスを評価するためにさまざまな実験を行っています。


Rare diseases affect millions worldwide but often face limited research focus due to their low prevalence. This results in prolonged diagnoses and a lack of approved therapies. Recent advancements in Large Language Models (LLMs) have shown promise in automating the extraction of medical information, offering potential to improve medical diagnosis and management. However, most LLMs lack professional medical knowledge, especially concerning rare diseases, and struggle to handle the latest rare disease information. They also cannot effectively manage rare disease data and are not directly suitable for diagnosis and management tasks. Our objective is to create an end-to-end system called AutoRD, which automates the extraction of information from medical texts about rare diseases, focusing on entities and their relations. AutoRD integrates up-to-date structured knowledge and demonstrates superior performance in rare disease extraction tasks. We conduct various experiments to evaluate AutoRD’s performance, aiming to surpass common LLMs and traditional methods.


著者 Lang Cao,Jimeng Sun,Adam Cross
発行日 2024-10-10 17:24:01+00:00
Mini-batch Coresets for Memory-efficient Training of Large Language Models


ただし、大規模言語モデル (LLM) では、大規模な GPU メモリ要件が原因で、大規模なミニバッチを使用したトレーニングが法外になります。
この問題に対処するための効果的なアプローチは、より大きなミニバッチの勾配に厳密に一致する小さなミニバッチ コアセットを見つけることです。
ただし、言語データ内のソースの非常に不均衡な性質、Adam オプティマイザーの使用、および LLM の勾配次元が非常に大きいため、このアプローチは LLM では実行不可能で効果的ではありません。
この研究では、トレーニング LLM (CoLM) 用のコアセットを提案することで、上記の課題に対処します。
まず、勾配マッチングによって見つかったミニバッチ コアセットには、小さなソースの代表的な例が含まれていないため、最適なパフォーマンスを得るには、ミニバッチ コアセットに小さなソースのすべての例を含めることが重要であることを示します。
次に、履歴指数によって勾配を正規化し、Adam でトレーニングするためのミニバッチ コアセットを見つけます。
最後に、0 次法を活用して最後の V 射影行列の滑らかな勾配を見つけ、それをスパース化して、正規化された勾配の大きさが最大の次元を維持します。
CoLM を適用して、MathInstruct および SuperGLUE ベンチマークの LoRA を使用して Phi-2、Phi-3、および Zephyr を微調整します。
注目すべきことに、CoLM は微調整に必要なメモリを 2 分の 1 に削減し、さらに 4 倍大きいミニバッチを使用したトレーニングよりも優れたパフォーマンスを発揮します。
特に、CoLM は、LoRA などの既存のメモリ効率の高いトレーニング手法と簡単に積み重ねることができます。


Training with larger mini-batches improves the convergence rate and can yield superior performance. However, training with large mini-batches becomes prohibitive for Large Language Models (LLMs), due to the large GPU memory requirement. To address this problem, an effective approach is finding small mini-batch coresets that closely match the gradient of larger mini-batches. However, this approach becomes infeasible and ineffective for LLMs, due to the highly imbalanced nature of the sources in language data, use of the Adam optimizer, and the very large gradient dimensionality of LLMs. In this work, we address the above challenges by proposing Coresets for Training LLMs (CoLM). First, we show that mini-batch coresets found by gradient matching do not contain representative examples of the small sources w.h.p., and thus including all examples of the small sources in the mini-batch coresets is crucial for optimal performance. Second, we normalize the gradients by their historical exponential to find mini-batch coresets for training with Adam. Finally, we leverage zeroth-order methods to find smooth gradient of the last V -projection matrix and sparsify it to keep the dimensions with the largest normalized gradient magnitude. We apply CoLM to fine-tuning Phi-2, Phi-3, and Zephyr with LoRA on MathInstruct and SuperGLUE benchmark. Remarkably, CoLM reduces the memory requirement of fine-tuning by 2x and even outperforms training with 4x larger mini-batches. Notably, CoLM easily stack with existing memory-efficient training methods, such as LoRA.


著者 Dang Nguyen,Wenhan Yang,Rathul Anand,Yu Yang,Baharan Mirzasoleiman
発行日 2024-10-10 17:25:10+00:00
Hammer: Robust Function-Calling for On-Device Language Models via Function Masking


大規模な言語モデルは、外部ツールや API 呼び出しを備えた場合に自律エージェントとして実行する際に優れた価値を実証しています。
このような問題に対処するために、オンデバイス関数呼び出し用に特別に設計された新しい基盤モデル ファミリである Hammer を紹介します。
Hammer は、無関係な関数に対するモデルの感度を高め、誤解を招くことを最小限に抑えるために関数マスキング技術を組み込む拡張データセットを採用しています。
私たちの経験的評価により、Hammer が大規模なモデルよりも優れたパフォーマンスを発揮するだけでなく、さまざまなベンチマークにわたって堅牢な一般化を示し、sota 結果を達成できることが明らかになりました。
私たちのオープンソースへの貢献には、無関係性検出のための特殊なデータセット、強化された一般化のためのチューニング フレームワーク、および関数呼び出しパフォーマンスの新しい標準を確立する Hammer モデルが含まれます。


Large language models have demonstrated impressive value in performing as autonomous agents when equipped with external tools and API calls. Nonetheless, effectively harnessing their potential for executing complex tasks crucially relies on enhancements in their function calling capabilities. This paper identifies a critical gap in existing function calling models, where performance varies significantly across benchmarks, often due to being misled by specific naming conventions. To address such an issue, we introduce Hammer, a novel family of foundation models specifically engineered for on-device function calling. Hammer employs an augmented dataset that enhances models’ sensitivity to irrelevant functions and incorporates function masking techniques to minimize misleading. Our empirical evaluations reveal that Hammer not only outperforms larger models but also demonstrates robust generalization across diverse benchmarks, achieving sota results. Our open source contributions include a specialized dataset for irrelevance detection, a tuning framework for enhanced generalization, and the Hammer models, establishing a new standard for function calling performance.


著者 Qiqiang Lin,Muning Wen,Qiuying Peng,Guanyu Nie,Junwei Liao,Jun Wang,Xiaoyun Mo,Jiamu Zhou,Cheng Cheng,Yin Zhao,Jun Wang,Weinan Zhang
発行日 2024-10-10 17:29:52+00:00
DelTA: An Online Document-Level Translation Agent Based on Multi-Level Memory


大規模言語モデル (LLM) は、機械翻訳 (MT) の品質を合理的に向上させました。
しかし、MT-LLM に関する現在の研究のほとんどは、文書全体を処理する際に翻訳の一貫性と精度を維持するという大きな課題に依然として直面しています。
このホワイトペーパーでは、これらの制限を克服するために設計されたドキュメントレベルの翻訳エージェントである DelTA を紹介します。
DelTA は、固有名詞レコード、対訳要約、長期メモリ、短期メモリなど、さまざまな粒度とスパンにわたる情報を格納するマルチレベル メモリ構造を備えており、これらは補助的な LLM ベースのコンポーネントによって継続的に取得および更新されます。
実験結果は、4 つのオープン/クローズドソース LLM と 2 つの代表的な文書翻訳データセットにわたる翻訳の一貫性と品質の点で、DelTA が強力なベースラインを大幅に上回っており、一貫性スコアで最大 4.58 パーセント ポイント、COMET スコアで最大 5 の向上を達成していることを示しています。
DelTA は文ごとの翻訳戦略を採用しており、文の省略がないことを保証し、主流の方法と比較してメモリ効率の高いソリューションを提供します。
さらに、DelTA により代名詞の翻訳精度が向上し、エージェントの要約コンポーネントもクエリベースの要約タスクのツールとして期待されます。
コードとデータは https://github.com/YutongWang1216/DocMTAgent でリリースされています。


Large language models (LLMs) have achieved reasonable quality improvements in machine translation (MT). However, most current research on MT-LLMs still faces significant challenges in maintaining translation consistency and accuracy when processing entire documents. In this paper, we introduce DelTA, a Document-levEL Translation Agent designed to overcome these limitations. DelTA features a multi-level memory structure that stores information across various granularities and spans, including Proper Noun Records, Bilingual Summary, Long-Term Memory, and Short-Term Memory, which are continuously retrieved and updated by auxiliary LLM-based components. Experimental results indicate that DelTA significantly outperforms strong baselines in terms of translation consistency and quality across four open/closed-source LLMs and two representative document translation datasets, achieving an increase in consistency scores by up to 4.58 percentage points and in COMET scores by up to 3.16 points on average. DelTA employs a sentence-by-sentence translation strategy, ensuring no sentence omissions and offering a memory-efficient solution compared to the mainstream method. Furthermore, DelTA improves pronoun translation accuracy, and the summary component of the agent also shows promise as a tool for query-based summarization tasks. We release our code and data at https://github.com/YutongWang1216/DocMTAgent.


著者 Yutong Wang,Jiali Zeng,Xuebo Liu,Derek F. Wong,Fandong Meng,Jie Zhou,Min Zhang
発行日 2024-10-10 17:30:09+00:00
Asynchronous Graph Generator


マルチチャネル時系列の代入と予測のための新しいグラフ アテンション ネットワークである非同期グラフ ジェネレーター (AGG) を紹介します。
AGG は、反復コンポーネントや時間的/空間的規則性に関する仮定から解放され、学習可能な埋め込みを介して測定値、タイムスタンプ、チャネル固有の特徴をノードに直接エンコードします。
これらの埋め込みにより、アテンション メカニズムを通じて、均質なグラフの形式で対象の変数間の表現的な関係を発見することができます。
トレーニングが完了すると、AGG は \emph{条件付きアテンション生成} によって代入を実行します。つまり、指定されたタイムスタンプとチャネル仕様を条件とした新しいノードを作成します。
提案された AGG は文献内の関連手法と比較され、そのパフォーマンスがデータ拡張の観点から分析されます。
私たちの実験により、AGG がベンチマーク データセット \emph{北京大気質}、\emph{PhysioNet ICU 2012}、\emph{UCI ローカリゼーション} の時系列代入、分類、予測において最先端の結果を達成し、優れたパフォーマンスを達成したことが明らかになりました。


We introduce the asynchronous graph generator (AGG), a novel graph attention network for imputation and prediction of multi-channel time series. Free from recurrent components or assumptions about temporal/spatial regularity, AGG encodes measurements, timestamps and channel-specific features directly in the nodes via learnable embeddings. Through an attention mechanism, these embeddings allow for discovering expressive relationships among the variables of interest in the form of a homogeneous graph. Once trained, AGG performs imputation by \emph{conditional attention generation}, i.e., by creating a new node conditioned on given timestamps and channel specification. The proposed AGG is compared to related methods in the literature and its performance is analysed from a data augmentation perspective. Our experiments reveal that AGG achieved state-of-the-art results in time series imputation, classification and prediction for the benchmark datasets \emph{Beijing Air Quality}, \emph{PhysioNet ICU 2012} and \emph{UCI localisation}, outperforming other recent attention-based networks.


著者 Christopher P. Ley,Felipe Tobar
発行日 2024-10-10 17:44:12+00:00
Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models


マルチモーダル大規模言語モデル (MLLM) は、さまざまなタスクにわたって有望な進歩を示していますが、依然として重大な信頼性の問題に直面しています。
以前の研究では、言語モデリングに分割共形予測 (SCP) を適用して、統計的保証のある予測セットを構築しました。
このペーパーでは、オープンエンドとクローズドエンドの両方のシナリオでサンプリングをサポートするあらゆる MLLM に適用できる、リスク管理と評価のための 2 段階のフレームワークである TRON を紹介します。
TRON は 2 つの主なコンポーネントで構成されます: (1) 最小サイズの応答セットをサンプルする新しい等角スコア、および (2) 自己無撞着理論に基づいて高品質の応答を特定し、2 つの特定のリスク レベルでエラー率を制御する不適合スコア

さらに、オープンエンドのコンテキスト内の予測セットの意味的冗長性を初めて調査し、平均セットサイズに基づく MLLM の有望な評価指標につながります。
8 つの MLLM を利用した 4 つのビデオ質問応答 (VideoQA) データセットにわたる包括的な実験により、TRON はユーザーが指定した 2 つのリスク レベルの範囲内で望ましいエラー率を達成できることがわかりました。
さらに、重複排除された予測セットは適応性を維持しながら、さまざまなリスク レベルでのリスク評価の効率と安定性を高めます。


Multimodal Large Language Models (MLLMs) exhibit promising advancements across various tasks, yet they still encounter significant trustworthiness issues. Prior studies apply Split Conformal Prediction (SCP) in language modeling to construct prediction sets with statistical guarantees. However, these methods typically rely on internal model logits or are restricted to multiple-choice settings, which hampers their generalizability and adaptability in dynamic, open-ended environments. In this paper, we introduce TRON, a two-step framework for risk control and assessment, applicable to any MLLM that supports sampling in both open-ended and closed-ended scenarios. TRON comprises two main components: (1) a novel conformal score to sample response sets of minimum size, and (2) a nonconformity score to identify high-quality responses based on self-consistency theory, controlling the error rates by two specific risk levels. Furthermore, we investigate semantic redundancy in prediction sets within open-ended contexts for the first time, leading to a promising evaluation metric for MLLMs based on average set size. Our comprehensive experiments across four Video Question-Answering (VideoQA) datasets utilizing eight MLLMs show that TRON achieves desired error rates bounded by two user-specified risk levels. Additionally, deduplicated prediction sets maintain adaptiveness while being more efficient and stable for risk assessment under different risk levels.


著者 Qingni Wang,Tiantian Geng,Zhiyuan Wang,Teng Wang,Bo Fu,Feng Zheng
発行日 2024-10-10 17:50:42+00:00
