CaLMQA: Exploring culturally specific long-form question answering across 23 languages

要約

大規模な言語モデル(LLMS)のグローバルな使用量が増えているにもかかわらず、文化的に特定の質問に対する長期の回答を生成する能力は、多くの言語では未開拓のままです。
このギャップを埋めるために、23の異なる言語で51.7K文化的に特定の質問のデータセットであるCalmqaを作成することにより、テキスト多言語の長型QAの最初の研究を実行します。
文化的に特定の質問を、1つまたはいくつかの文化に固有の概念に言及するものとして定義しているか、文化的または地域的な文脈に応じて異なる答えを持っています。
私たちは、高リソース言語のコミュニティWebフォーラムからの自然に発生する質問をrawったり、ネイティブスピーカーを雇ってフィジアンやキルンディなどのめったにめったに研究されていない言語で質問を書くことによって、これらの質問を取得します。
私たちのデータ収集方法論は翻訳なしで、「Kuber Iki umwami wa mbere w’uburundi yitwa ntare」のような文化的にユニークな質問のコレクションを可能にします。
(Kirundi;英語翻訳:「なぜブルンジの最初の王がntare(ライオン)と呼ばれたのか?」)。
LLM生成された長型の回答の事実、関連性、表面レベルの品質を評価し、(1)多くの言語でさえ、最高のモデルでさえ重要な表面レベルのエラー(たとえば、間違った言語で回答する、繰り返し)を行うことを発見します。
(2)文化的に特定の質問への回答には、文化的に不可知論的な質問に対する回答よりも多くの事実上の誤りが含まれています。これは、多くの文化にわたって一貫した意味と答えを持っている質問です。
Calmqaをリリースして、文化的および多言語の長型QAの将来の研究を促進します。

要約(オリジナル)

Despite rising global usage of large language models (LLMs), their ability to generate long-form answers to culturally specific questions remains unexplored in many languages. To fill this gap, we perform the first study of textual multilingual long-form QA by creating CaLMQA, a dataset of 51.7K culturally specific questions across 23 different languages. We define culturally specific questions as those that refer to concepts unique to one or a few cultures, or have different answers depending on the cultural or regional context. We obtain these questions by crawling naturally-occurring questions from community web forums in high-resource languages, and by hiring native speakers to write questions in under-resourced, rarely-studied languages such as Fijian and Kirundi. Our data collection methodologies are translation-free, enabling the collection of culturally unique questions like ‘Kuber iki umwami wa mbere w’uburundi yitwa Ntare?’ (Kirundi; English translation: ‘Why was the first king of Burundi called Ntare (Lion)?’). We evaluate factuality, relevance and surface-level quality of LLM-generated long-form answers, finding that (1) for many languages, even the best models make critical surface-level errors (e.g., answering in the wrong language, repetition), especially for low-resource languages; and (2) answers to culturally specific questions contain more factual errors than answers to culturally agnostic questions — questions that have consistent meaning and answer across many cultures. We release CaLMQA to facilitate future research in cultural and multilingual long-form QA.

arxiv情報

著者 Shane Arora,Marzena Karpinska,Hung-Ting Chen,Ipsita Bhattacharjee,Mohit Iyyer,Eunsol Choi
発行日 2025-06-11 16:56:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | CaLMQA: Exploring culturally specific long-form question answering across 23 languages はコメントを受け付けていません

SAFE: Multitask Failure Detection for Vision-Language-Action Models

要約

ビジョン言語アクションモデル(VLA)は、多様な一連の操作タスクで有望なロボット行動を示していますが、すぐに新しいタスクに展開された場合、限られた成功率を達成します。
これらのポリシーが環境と安全に対話できるようにするには、ロボットが停止、バックトラック、または助けを求めることができるようにタイムリーなアラートを与える障害検出器が必要です。
ただし、既存の障害検出器は、1つまたはいくつかの特定のタスクでのみトレーニングおよびテストされますが、VLAは、目に見えないタスクや新しい環境でも障害を一般化および検出するために検出器を必要とします。
この論文では、マルチタスク障害検出問題を紹介し、VLASなどのジェネラリストロボットポリシーの障害検出器であるSafeを提案します。
VLA機能空間を分析し、VLAがタスクの成功と失敗について十分な高レベルの知識を持っていることがわかります。これは、さまざまなタスクにわたって一般的です。
この洞察に基づいて、VLAの内部機能から学習し、タスクの障害の可能性を示す単一のスカラーを予測するために安全に設計します。
SAFEは、成功したロールアウトと失敗したロールアウトの両方で訓練されており、目に見えないタスクで評価されます。
SAFEは、さまざまなポリシーアーキテクチャと互換性があります。
Simulated環境と実際の環境の両方で、OpenVLA、$ \ PI_0 $、および$ \ PI_0 $ -FASTでテストします。
安全性と多様なベースラインを比較し、安全性が最先端の障害検出パフォーマンスと、コンフォーマル予測を使用した精度と検出時間の最良のトレードオフを達成することを示しています。
より質的な結果は、https://vla-safe.github.io/で見つけることができます。

要約(オリジナル)

While vision-language-action models (VLAs) have shown promising robotic behaviors across a diverse set of manipulation tasks, they achieve limited success rates when deployed on novel tasks out-of-the-box. To allow these policies to safely interact with their environments, we need a failure detector that gives a timely alert such that the robot can stop, backtrack, or ask for help. However, existing failure detectors are trained and tested only on one or a few specific tasks, while VLAs require the detector to generalize and detect failures also in unseen tasks and novel environments. In this paper, we introduce the multitask failure detection problem and propose SAFE, a failure detector for generalist robot policies such as VLAs. We analyze the VLA feature space and find that VLAs have sufficient high-level knowledge about task success and failure, which is generic across different tasks. Based on this insight, we design SAFE to learn from VLA internal features and predict a single scalar indicating the likelihood of task failure. SAFE is trained on both successful and failed rollouts, and is evaluated on unseen tasks. SAFE is compatible with different policy architectures. We test it on OpenVLA, $\pi_0$, and $\pi_0$-FAST in both simulated and real-world environments extensively. We compare SAFE with diverse baselines and show that SAFE achieves state-of-the-art failure detection performance and the best trade-off between accuracy and detection time using conformal prediction. More qualitative results can be found at https://vla-safe.github.io/.

arxiv情報

著者 Qiao Gu,Yuanliang Ju,Shengxiang Sun,Igor Gilitschenski,Haruki Nishimura,Masha Itkina,Florian Shkurti
発行日 2025-06-11 16:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | SAFE: Multitask Failure Detection for Vision-Language-Action Models はコメントを受け付けていません

The Sample Complexity of Online Strategic Decision Making with Information Asymmetry and Knowledge Transportability

要約

情報の非対称性は、マルチエージェントシステムの広範な特徴であり、特に経済学や社会科学で明らかです。
これらの設定では、エージェントは個人情報に基づいてアクションを調整して、報酬を最大化します。
これらの戦略的行動は、多くの場合、交絡変数による複雑さをもたらします。
同時に、知識の輸送性は、ターゲット環境で実験を行うことの難しさから生じる別の重要な課題を提起します。
経験的データがより容易に利用できる環境から知識を転送する必要があります。
これらの背景に対して、このペーパーでは、オンライン学習における基本的な質問を探ります。NONI.I.Dを使用できますか。
知識移転を必要とする場合でも、交絡因子について学ぶための行動?
情報の非対称性の下でシステムのダイナミクスを正確に識別し、オンライン戦略的相互作用モデル内で編成された強化学習における知識移転の課題を効果的にナビゲートするように設計されたサンプル効率の高いアルゴリズムを提示します。
私たちの方法は、$ o(1/\ epsilon^2)$のタイトなサンプルの複雑さで$ \ epsilon $ -optimalポリシーの学習を実現します。

要約(オリジナル)

Information asymmetry is a pervasive feature of multi-agent systems, especially evident in economics and social sciences. In these settings, agents tailor their actions based on private information to maximize their rewards. These strategic behaviors often introduce complexities due to confounding variables. Simultaneously, knowledge transportability poses another significant challenge, arising from the difficulties of conducting experiments in target environments. It requires transferring knowledge from environments where empirical data is more readily available. Against these backdrops, this paper explores a fundamental question in online learning: Can we employ non-i.i.d. actions to learn about confounders even when requiring knowledge transfer? We present a sample-efficient algorithm designed to accurately identify system dynamics under information asymmetry and to navigate the challenges of knowledge transfer effectively in reinforcement learning, framed within an online strategic interaction model. Our method provably achieves learning of an $\epsilon$-optimal policy with a tight sample complexity of $O(1/\epsilon^2)$.

arxiv情報

著者 Jiachen Hu,Rui Ai,Han Zhong,Xiaoyu Chen,Liwei Wang,Zhaoran Wang,Zhuoran Yang
発行日 2025-06-11 17:06:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | The Sample Complexity of Online Strategic Decision Making with Information Asymmetry and Knowledge Transportability はコメントを受け付けていません

Let’s Fuse Step by Step: A Generative Fusion Decoding Algorithm with LLMs for Robust and Instruction-Aware ASR and OCR

要約

「生成融合デコード」(GFD)を提案します。これは、大規模な言語モデル(LLM)を自動音声認識(ASR)および光学特性認識(OCR)のためのクロスモーダルテキスト認識システムに統合するために設計された新しい浅い融合フレームワークです。
GFDがバイトレベルでの尤度を計算することにより、異なるモデルの不一致のトークンスペース全体で動作できるようにするために必要な定式化を導き出し、それにより、デコードプロセス中にシームレスな融合と同期進行を可能にします。
GFDはデザインごとにプラグアンドプレイであり、再トレーニングを必要とせずに、さまざまな自動回帰モデルと容易に互換性があります。
GFDは、LLMとの中間および頻繁な相互作用を通じて一般的なASRおよびOCRタスクに効果的であり、英語およびマンダリンのベンチマークでカスケードされた方法を上回ります。
さらに、GFDはLLMSのコンテキスト学習能力を転送し、命令対応および長いコンテキスト設定で適応性のあるASRを可能にし、最大17.7 \%の大幅な削減をもたらします。

要約(オリジナル)

We propose ‘Generative Fusion Decoding’ (GFD), a novel shallow fusion framework designed to integrate large language models (LLMs) into cross-modal text recognition systems for automatic speech recognition (ASR) and optical character recognition (OCR). We derive the necessary formulations to enable GFD to operate across mismatched token spaces of different models by calculating likelihood at the byte level, thereby enabling seamless fusion and synchronous progression during the decoding process. GFD is plug-and-play by design, making it readily compatible with various auto-regressive models without the need for any re-training. GFD proves effective for general ASR and OCR tasks through intermediate and frequent interactions with LLMs, surpassing cascaded methods in English and Mandarin benchmarks. In addition, GFD transfers in-context learning abilities of LLMs and allows for adaptive ASR in instruction-aware and long-context settings, yielding significant WER reductions of up to 17.7\%.

arxiv情報

著者 Chan-Jan Hsu,Yi-Chang Chen,Feng-Ting Liao,Pei-Chen Ho,Yu-Hsiang Wang,Po-Chun Hsu,Da-shan Shiu
発行日 2025-06-11 17:09:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Let’s Fuse Step by Step: A Generative Fusion Decoding Algorithm with LLMs for Robust and Instruction-Aware ASR and OCR はコメントを受け付けていません

VerIF: Verification Engineering for Reinforcement Learning in Instruction Following

要約

検証可能な報酬(RLVR)による強化学習は、大規模な言語モデル(LLMS)を強化するための重要なテクニックとなっており、検証エンジニアリングが中心的な役割を果たしています。
ただし、次の命令におけるRLのベストプラクティスは未掘削装置のままです。
この作業では、RLの検証課題について、命令をフォローし、Verifを提案します。これは、ルールベースのコード検証とLLMベースの大規模な検証を大規模な推論モデル(QWQ-32B)からのLLMベースの検証を組み合わせた検証方法です。
このアプローチをサポートするために、関連する検証信号を持つ約22,000のインスタンスを含む高品質の命令に従うデータセットVerinstructを構築します。
Verifを使用したRLトレーニングを2つのモデルに適用し、いくつかの代表的な指導に従うベンチマークで大幅な改善を達成します。
訓練されたモデルは、同等のサイズのモデル間で最先端のパフォーマンスに到達し、目に見えない制約に合わせてよく一般化します。
さらに、それらの一般的な能力は影響を受けていないことを観察し、Verifを使用したRLを既存のRLレシピに統合して、全体的なモデルのパフォーマンスを向上させることができることを示唆しています。
https://github.com/thu-keg/verifで将来の研究を促進するために、データセット、コード、モデルをリリースしました。

要約(オリジナル)

Reinforcement learning with verifiable rewards (RLVR) has become a key technique for enhancing large language models (LLMs), with verification engineering playing a central role. However, best practices for RL in instruction following remain underexplored. In this work, we explore the verification challenge in RL for instruction following and propose VerIF, a verification method that combines rule-based code verification with LLM-based verification from a large reasoning model (e.g., QwQ-32B). To support this approach, we construct a high-quality instruction-following dataset, VerInstruct, containing approximately 22,000 instances with associated verification signals. We apply RL training with VerIF to two models, achieving significant improvements across several representative instruction-following benchmarks. The trained models reach state-of-the-art performance among models of comparable size and generalize well to unseen constraints. We further observe that their general capabilities remain unaffected, suggesting that RL with VerIF can be integrated into existing RL recipes to enhance overall model performance. We have released our datasets, codes, and models to facilitate future research at https://github.com/THU-KEG/VerIF.

arxiv情報

著者 Hao Peng,Yunjia Qi,Xiaozhi Wang,Bin Xu,Lei Hou,Juanzi Li
発行日 2025-06-11 17:10:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | VerIF: Verification Engineering for Reinforcement Learning in Instruction Following はコメントを受け付けていません

7B Fully Open Source Moxin-LLM/VLM — From Pretraining to GRPO-based Reinforcement Learning Enhancement

要約

最近、大規模な言語モデル(LLM)は、人気と能力の両方が急速に上昇することによって特徴付けられる大きな変化を遂げています。
この進化をリードするのは、GPT-4やGPT-O1のような独自のLLMSであり、驚くべきパフォーマンスと汎用性のためにAIコミュニティで広く注目されています。
同時に、LlamaなどのオープンソースLLMは、多様なアプリケーション全体でモデルをカスタマイズおよび展開しやすくするため、LLMSの増え続ける人気に大きな貢献をしています。
オープンソースLLMは、革新と研究のための前例のない機会を提示しますが、LLMSの商業化は透明性、再現性、安全性に関する懸念を引き起こしました。
多くのオープンソースLLMSは、トレーニングコードやデータなどの重要なコンポーネントを差し控えることにより、基本的な透明性要件を満たすことができません。
この問題を軽減するために、オープンサイエンス、オープンソース、オープンデータ、オープンアクセスの原則を順守して、完全にオープンソースLLMを開発したMoxin 7Bを紹介します。
トレーニング前のコードと構成、トレーニングと微調整データセット、および中間および最終チェックポイントをリリースし、完全にオープンソースLLMに継続的にコミットすることを目指しています。
ベースモデルを事前にトレーニングした後、SOTAトレーニング後のフレームワークと命令データを使用して、モキシン指導モデルを取得するためのMoxin Baseモデルを微調整します。
推論能力を改善するために、DeepSeek R1から蒸留された考え方のデータで指示モデルをさらに微調整し、DeepSeek R1に続くグループ相対ポリシー最適化(GRPO)を使用してモデルを獲得し、Moxin Reasoningモデルにつながります。
さらに、モキシンモデルに基づいてビジョン言語モデルを開発します。
実験は、我々のモデルがゼロショット評価、少数のショット評価、COT評価などのさまざまな評価で優れたパフォーマンスを達成することを示しています。

要約(オリジナル)

Recently, Large Language Models (LLMs) have undergone a significant transformation, marked by a rapid rise in both their popularity and capabilities. Leading this evolution are proprietary LLMs like GPT-4 and GPT-o1, which have captured widespread attention in the AI community due to their remarkable performance and versatility. Simultaneously, open-source LLMs, such as LLaMA, have made great contributions to the ever-increasing popularity of LLMs due to the ease to customize and deploy the models across diverse applications. Although open-source LLMs present unprecedented opportunities for innovation and research, the commercialization of LLMs has raised concerns about transparency, reproducibility, and safety. Many open-source LLMs fail to meet fundamental transparency requirements by withholding essential components like training code and data, which may hinder further innovations on LLMs. To mitigate this issue, we introduce Moxin 7B, a fully open-source LLM developed, adhering to principles of open science, open source, open data, and open access. We release the pre-training code and configurations, training and fine-tuning datasets, and intermediate and final checkpoints, aiming to make continuous commitments to fully open-source LLMs. After pre-training the base model, we finetune the Moxin Base model with SOTA post-training framework and instruction data to obtain Moxin Instruct model. To improve the reasoning capability, we further finetune our Instruct model with chain-of-thought data distilled from DeepSeek R1, and then use Group Relative Policy Optimization (GRPO) following DeepSeek R1 to finetune our model, leading to the Moxin Reasoning model. Moreover, we develop our vision language model based on our Moxin model. Experiments show that our models achieve superior performance in various evaluations such as zero-shot evaluation, few-shot evaluation, and CoT evaluation.

arxiv情報

著者 Pu Zhao,Xuan Shen,Zhenglun Kong,Yixin Shen,Sung-En Chang,Timothy Rupprecht,Lei Lu,Enfu Nan,Changdi Yang,Yumei He,Weiyan Shi,Xingchen Xu,Yu Huang,Wei Jiang,Wei Wang,Yue Chen,Yong He,Yanzhi Wang
発行日 2025-06-11 17:10:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | 7B Fully Open Source Moxin-LLM/VLM — From Pretraining to GRPO-based Reinforcement Learning Enhancement はコメントを受け付けていません

Language Models Resist Alignment: Evidence From Data Compression

要約

大規模な言語モデル(LLMS)は、意図しないまたは望ましくない行動を示す場合があります。
最近の作品は、有害な出力を緩和するためにLLMSを調整することに集中しています。
これらの努力にもかかわらず、いくつかの異常は、意図的であろうと偶然であろうと、適切に伝導されたアライメントプロセスでさえ簡単に回​​避できることを示しています。
アラインメント微調整収量はモデルに堅牢な影響を及ぼしますか、それともその影響は単に表面的ですか?
この作業では、理論的および経験的な視点の両方からこの現象の最初の調査を行います。
経験的には、ポストアライメントモデルの$ \ mathbf {Elasticity} $、つまり、さらに微調整するとトレーニング前の段階で形成された動作分布に戻る傾向を示します。
圧縮理論を活用すると、微調整は、潜在的に桁違いに潜在的に訓練前にアラインメントを不均衡に損なうことを正式に推測します。
さまざまなタイプとスケールのモデルに関する実験を通じて弾力性の存在を検証します。
具体的には、トレーニング前分布に戻る前にモデルのパフォーマンスが急速に低下し、その後減少率が大幅に低下することがわかります。
さらに、弾力性は、モデルサイズの増加とトレーニング前のデータの拡張と正の相関があることをさらに明らかにします。
私たちの調査結果は、LLMSの固有の弾力性に対処して、アライメントに対する抵抗を軽減する必要性を強調しています。
モデルの重みとコードは、PKU-LM-Resist-Alignment.github.ioで利用できます。

要約(オリジナル)

Large language models (LLMs) may exhibit unintended or undesirable behaviors. Recent works have concentrated on aligning LLMs to mitigate harmful outputs. Despite these efforts, some anomalies indicate that even a well-conducted alignment process can be easily circumvented, whether intentionally or accidentally. Does alignment fine-tuning yield have robust effects on models, or are its impacts merely superficial? In this work, we make the first exploration of this phenomenon from both theoretical and empirical perspectives. Empirically, we demonstrate the $\mathbf{elasticity}$ of post-alignment models, i.e., the tendency to revert to the behavior distribution formed during the pre-training phase upon further fine-tuning. Leveraging compression theory, we formally deduce that fine-tuning disproportionately undermines alignment relative to pre-training, potentially by orders of magnitude. We validate the presence of elasticity through experiments on models of varying types and scales. Specifically, we find that model performance declines rapidly before reverting to the pre-training distribution, after which the rate of decline drops significantly. Furthermore, we further reveal that elasticity positively correlates with the increased model size and the expansion of pre-training data. Our findings underscore the need to address the inherent elasticity of LLMs to mitigate their resistance to alignment. The model weight and code are available at pku-lm-resist-alignment.github.io.

arxiv情報

著者 Jiaming Ji,Kaile Wang,Tianyi Qiu,Boyuan Chen,Jiayi Zhou,Changye Li,Hantao Lou,Juntao Dai,Yunhuai Liu,Yaodong Yang
発行日 2025-06-11 17:23:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Language Models Resist Alignment: Evidence From Data Compression はコメントを受け付けていません

LLMail-Inject: A Dataset from a Realistic Adaptive Prompt Injection Challenge

要約

間接的な迅速な噴射攻撃は、入力の命令とデータを区別するために、大規模な言語モデル(LLM)の固有の制限を活用します。
多数の防衛提案にもかかわらず、適応敵に対する体系的な評価は、成功した攻撃が幅広いセキュリティとプライバシーへの影響を与える可能性があり、多くの現実世界のLLMベースのアプリケーションが脆弱なままである場合でも、限られたままです。
LLMail-Injectの結果を提示します。これは、LLMベースの電子メールアシスタントで不正なツールコールをトリガーするために、参加者が悪意のある指示を電子メールに適応的に注入しようとする現実的なシナリオをシミュレートする公開課題です。
この課題は、複数の防衛戦略、LLMアーキテクチャ、および検索構成に及び、839人の参加者からの208,095人の一意の攻撃提出のデータセットに及びました。
チャレンジコード、送信の完全なデータセット、およびこのデータが命令データ分離問題に関する新しい洞察を提供する方法を示す分析をリリースします。
これが、注射を促すための実用的な構造ソリューションに向けた将来の研究の基盤として役立つことを願っています。

要約(オリジナル)

Indirect Prompt Injection attacks exploit the inherent limitation of Large Language Models (LLMs) to distinguish between instructions and data in their inputs. Despite numerous defense proposals, the systematic evaluation against adaptive adversaries remains limited, even when successful attacks can have wide security and privacy implications, and many real-world LLM-based applications remain vulnerable. We present the results of LLMail-Inject, a public challenge simulating a realistic scenario in which participants adaptively attempted to inject malicious instructions into emails in order to trigger unauthorized tool calls in an LLM-based email assistant. The challenge spanned multiple defense strategies, LLM architectures, and retrieval configurations, resulting in a dataset of 208,095 unique attack submissions from 839 participants. We release the challenge code, the full dataset of submissions, and our analysis demonstrating how this data can provide new insights into the instruction-data separation problem. We hope this will serve as a foundation for future research towards practical structural solutions to prompt injection.

arxiv情報

著者 Sahar Abdelnabi,Aideen Fay,Ahmed Salem,Egor Zverev,Kai-Chieh Liao,Chi-Huang Liu,Chun-Chih Kuo,Jannis Weigend,Danyael Manlangit,Alex Apostolov,Haris Umair,João Donato,Masayuki Kawakita,Athar Mahboob,Tran Huu Bach,Tsun-Han Chiang,Myeongjin Cho,Hajin Choi,Byeonghyeon Kim,Hyeonjin Lee,Benjamin Pannell,Conor McCauley,Mark Russinovich,Andrew Paverd,Giovanni Cherubin
発行日 2025-06-11 17:30:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | LLMail-Inject: A Dataset from a Realistic Adaptive Prompt Injection Challenge はコメントを受け付けていません

Griffin: Towards a Graph-Centric Relational Database Foundation Model

要約

リレーショナルデータベース(RDB)専用に設計された最初の基礎モデルの試みであるGriffinを紹介します。
単一のRDBタスクに焦点を当てた以前の小さなモデルとは異なり、Griffinはデータエンコーダとタスクデコーダーを統合して、多様なタスクを処理します。
さらに、クロスアテンションモジュールと新しいアグリゲーターを組み込むことにより、アーキテクチャを強化します。
Griffinは、シングルテーブルとRDBの両方のデータセットで前登録を利用して、カテゴリ、数値、およびメタデータ機能に高度なエンコーダを使用し、革新的なコンポーネントや革新的なコンポーネントを使用し、メッセージパッシングニューラルネットワーク(MPNN)などの革新的なコンポーネントを使用して、適切なデータの複雑さをキャプチャします。
Griffinは、さまざまなドメイン(1億5,000万節以上)にわたってRDBから抽出された大規模、不均一、および時間グラフで評価され、個別にトレーニングされたモデルに優れたまたは同等のパフォーマンスを示し、低データシナリオで優れており、新しいデータセットを超えて潜在的な根拠を越えて普及していることにおいて類似性と多様性を備えた強い移動性を示しています。
https://github.com/yanxwb/griffinで入手可能なコード。

要約(オリジナル)

We introduce Griffin, the first foundation model attemptation designed specifically for Relational Databases (RDBs). Unlike previous smaller models focused on single RDB tasks, Griffin unifies the data encoder and task decoder to handle diverse tasks. Additionally, we enhance the architecture by incorporating a cross-attention module and a novel aggregator. Griffin utilizes pretraining on both single-table and RDB datasets, employing advanced encoders for categorical, numerical, and metadata features, along with innovative components such as cross-attention modules and enhanced message-passing neural networks (MPNNs) to capture the complexities of relational data. Evaluated on large-scale, heterogeneous, and temporal graphs extracted from RDBs across various domains (spanning over 150 million nodes), Griffin demonstrates superior or comparable performance to individually trained models, excels in low-data scenarios, and shows strong transferability with similarity and diversity in pretraining across new datasets and tasks, highlighting its potential as a universally applicable foundation model for RDBs. Code available at https://github.com/yanxwb/Griffin.

arxiv情報

著者 Yanbo Wang,Xiyuan Wang,Quan Gan,Minjie Wang,Qibin Yang,David Wipf,Muhan Zhang
発行日 2025-06-11 17:37:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LG | Griffin: Towards a Graph-Centric Relational Database Foundation Model はコメントを受け付けていません

Gradient Aligned Regression via Pairwise Losses

要約

回帰は、過去数十年にわたって広範な注目を集めてきた機械学習の基本的なタスクです。
回帰のための従来のアプローチでは、主に個々のデータサンプルのグラウンドトゥルースとモデル予測の整列に集中する損失関数を採用することが含まれます。
最近の研究の努力により、潜在的な特徴空間に余分なペアワイズ正規化を課すことにより、ラベルの類似性を回帰に組み込むことにより、新しい視点が導入され、有効性が実証されました。
ただし、これらのアプローチには2つの欠点があります。i)潜在的な特徴空間でのペアワイズ操作は、従来の回帰損失よりも計算的に高価です。
ii)そのような正則化の背後にある理論的正当化が不足しています。
この作業では、従来の回帰損失と、マグニチュードと方向を含む勾配アライメントの2つのペアワイズラベル差損失によって構成されるラベル空間の競合的な代替方法として、GAR(勾配アライメント回帰)を提案します。
GARは次のとおりです。i)提案されたペアワイズ損失の二次複雑さは線形の複雑さまで減らすことができるため、従来の回帰損失と同じレベルの効率。
ii)ペアワイズラベルの違いを学習することから、グラウンドトゥルース関数の勾配の学習までの理論的洞察。
現在の範囲は、騒音、外れ値、または分布シフトなどのないクリーンデータ設定の回帰として制限されます。2つの合成データセットと、他の8つの競合ベースラインとの6つのベンチマークデータセットからの8つの広範な現実世界のタスクで、提案された方法の有効性を実質的に示します。
実行時間実験は、潜在的な特徴空間でペアワイズ正規化を伴う既存の方法よりも提案されたGARの優れた効率を示し、アブレーション研究はGARの各コンポーネントの有効性を示しています。

要約(オリジナル)

Regression is a fundamental task in machine learning that has garnered extensive attention over the past decades. The conventional approach for regression involves employing loss functions that primarily concentrate on aligning model prediction with the ground truth for each individual data sample. Recent research endeavors have introduced novel perspectives by incorporating label similarity to regression via imposing extra pairwise regularization on the latent feature space and demonstrated the effectiveness. However, there are two drawbacks for those approaches: i) their pairwise operation in latent feature space is computationally more expensive than conventional regression losses; ii) it lacks of theoretical justifications behind such regularization. In this work, we propose GAR (Gradient Aligned Regression) as a competitive alternative method in label space, which is constituted by a conventional regression loss and two pairwise label difference losses for gradient alignment including magnitude and direction. GAR enjoys: i) the same level efficiency as conventional regression loss because the quadratic complexity for the proposed pairwise losses can be reduced to linear complexity; ii) theoretical insights from learning the pairwise label difference to learning the gradient of the ground truth function. We limit our current scope as regression on the clean data setting without noises, outliers or distributional shifts, etc. We demonstrate the effectiveness of the proposed method practically on two synthetic datasets and on eight extensive real-world tasks from six benchmark datasets with other eight competitive baselines. Running time experiments demonstrate the superior efficiency of the proposed GAR over existing methods with pairwise regularization in latent feature space and ablation studies demonstrate the effectiveness of each component for GAR.

arxiv情報

著者 Dixian Zhu,Tianbao Yang,Livnat Jerby
発行日 2025-06-11 17:41:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Gradient Aligned Regression via Pairwise Losses はコメントを受け付けていません