TopoDiffusionNet: A Topology-aware Diffusion Model

要約

拡散モデルは、視覚的に印象的な画像の作成に優れていますが、指定されたトポロジーで画像を生成するのに苦労します。
画像内の構造の数を表すBetti数は、トポロジの基本的な尺度です。
しかし、拡散モデルは、この基本的な制約でさえ満たすことができません。
この制限により、ロボット工学や環境モデリングなど、正確な制御が必要なアプリケーションでのユーティリティが制限されます。
これに対処するために、拡散モデルを強制して望ましいトポロジを維持する新しいアプローチであるTopodiffusionNet(TDN)を提案します。
トポロジーデータ分析、特に永続的な相同性からツールを活用して、画像内のトポロジ構造を抽出します。
次に、トポロジベースの目的関数を設計して、ノイズの多い構造を抑制しながら、意図した構造を保存します。
4つのデータセットにわたる実験は、トポロジーの精度の大幅な改善を示しています。
TDNは、トポロジーを拡散モデルと統合した最初のものであり、この分野で新しい研究の道を開きます。
https://github.com/saumya-gupta-26/topodiffusionnetで入手可能なコード

要約(オリジナル)

Diffusion models excel at creating visually impressive images but often struggle to generate images with a specified topology. The Betti number, which represents the number of structures in an image, is a fundamental measure in topology. Yet, diffusion models fail to satisfy even this basic constraint. This limitation restricts their utility in applications requiring exact control, like robotics and environmental modeling. To address this, we propose TopoDiffusionNet (TDN), a novel approach that enforces diffusion models to maintain the desired topology. We leverage tools from topological data analysis, particularly persistent homology, to extract the topological structures within an image. We then design a topology-based objective function to guide the denoising process, preserving intended structures while suppressing noisy ones. Our experiments across four datasets demonstrate significant improvements in topological accuracy. TDN is the first to integrate topology with diffusion models, opening new avenues of research in this area. Code available at https://github.com/Saumya-Gupta-26/TopoDiffusionNet

arxiv情報

著者 Saumya Gupta,Dimitris Samaras,Chao Chen
発行日 2025-03-21 17:53:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TopoDiffusionNet: A Topology-aware Diffusion Model はコメントを受け付けていません

Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image

要約

多くのロボット工学およびVR/ARアプリケーションでは、カメラの動きが高速なモーションブラーを引き起こし、既存のカメラポーズ推定方法を失敗させます。
この作業では、モーションのぼやけを、それを望ましくないアーティファクトとして扱うのではなく、モーション推定の豊富な手がかりとして活用する新しいフレームワークを提案します。
私たちのアプローチは、単一のモーションブルーされた画像から直接、密なモーションフローフィールドと単眼深度マップを予測することで機能します。
次に、小さな動きの仮定の下で線形最小二乗問題を解くことにより、瞬時カメラ速度を回復します。
本質的に、私たちの方法は、高速で攻撃的なカメラの動きを堅牢にキャプチャするIMUのような測定を生成します。
モデルをトレーニングするために、Scannet ++ V2から導出された現実的な合成モーションブルールを使用して大規模なデータセットを構築し、完全に微分可能なパイプラインを使用して実際のデータでエンドツーエンドをトレーニングすることにより、モデルをさらに改良します。
現実世界のベンチマークでの広範な評価は、この方法が最先端の角度および翻訳速度推定値を達成し、Mast3RやColMapなどの現在の方法を上回ることを示しています。

要約(オリジナル)

In many robotics and VR/AR applications, fast camera motions cause a high level of motion blur, causing existing camera pose estimation methods to fail. In this work, we propose a novel framework that leverages motion blur as a rich cue for motion estimation rather than treating it as an unwanted artifact. Our approach works by predicting a dense motion flow field and a monocular depth map directly from a single motion-blurred image. We then recover the instantaneous camera velocity by solving a linear least squares problem under the small motion assumption. In essence, our method produces an IMU-like measurement that robustly captures fast and aggressive camera movements. To train our model, we construct a large-scale dataset with realistic synthetic motion blur derived from ScanNet++v2 and further refine our model by training end-to-end on real data using our fully differentiable pipeline. Extensive evaluations on real-world benchmarks demonstrate that our method achieves state-of-the-art angular and translational velocity estimates, outperforming current methods like MASt3R and COLMAP.

arxiv情報

著者 Jerred Chen,Ronald Clark
発行日 2025-03-21 17:58:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image はコメントを受け付けていません

Position: Interactive Generative Video as Next-Generation Game Engine

要約

現代のゲーム開発は、従来のゲームエンジンの所定のコンテンツにより、創造性とコストに大きな課題に直面しています。
現実的でインタラクティブな仮想環境を合成できるビデオ生成モデルの最近のブレークスルーは、ゲームの作成に革命をもたらす機会を提供します。
このポジションペーパーでは、インタラクティブな生成ビデオ(IGV)を生成ゲームエンジン(GGE)の基礎として提案し、次世代ゲームで無制限の新しいコンテンツ生成を可能にします。
GGEは、無制限の高品質のコンテンツ合成、物理的認識世界モデリング、ユーザー制御のインタラクティブ性、長期メモリ機能、因果推論におけるIGVの独自の強みを活用しています。
GGEのコアモジュールと階層的成熟ロードマップ(L0-L4)を詳細に詳細に説明し、その進化を導きます。
私たちの作業は、AI時代のゲーム開発のための新しいコースを示しており、AIを駆動した生成システムがゲームの作成方法と経験を根本的に再構築する未来を想定しています。

要約(オリジナル)

Modern game development faces significant challenges in creativity and cost due to predetermined content in traditional game engines. Recent breakthroughs in video generation models, capable of synthesizing realistic and interactive virtual environments, present an opportunity to revolutionize game creation. In this position paper, we propose Interactive Generative Video (IGV) as the foundation for Generative Game Engines (GGE), enabling unlimited novel content generation in next-generation gaming. GGE leverages IGV’s unique strengths in unlimited high-quality content synthesis, physics-aware world modeling, user-controlled interactivity, long-term memory capabilities, and causal reasoning. We present a comprehensive framework detailing GGE’s core modules and a hierarchical maturity roadmap (L0-L4) to guide its evolution. Our work charts a new course for game development in the AI era, envisioning a future where AI-powered generative systems fundamentally reshape how games are created and experienced.

arxiv情報

著者 Jiwen Yu,Yiran Qin,Haoxuan Che,Quande Liu,Xintao Wang,Pengfei Wan,Di Zhang,Xihui Liu
発行日 2025-03-21 17:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Position: Interactive Generative Video as Next-Generation Game Engine はコメントを受け付けていません

URLOST: Unsupervised Representation Learning without Stationarity or Topology

要約

監視されていない表現学習は、大きな進歩を遂げています。
ただし、ドメイン固有の定常性とトポロジーへの依存によって制約されています。これは、生物学的知能システムには見られない制限です。
たとえば、コンピュータービジョンとは異なり、ヒューマンビジョンは、非常に不規則および非定常センサーからサンプリングされた視覚信号を処理できます。
定常性とトポロジーを事前に知ることなく、高次元データから学習する新しいフレームワークを紹介します。
私たちのモデルは、Urlostとして略され、学習可能な自己組織化層、スペクトルクラスタリング、およびマスクされた自動エンコーダー(MAE)を組み合わせています。
シミュレートされた生物学的視力データ、主要な視覚皮質からのニューラル記録、遺伝子発現など、3つの多様なデータモダリティに対する有効性を評価します。
SIMCLRやMAEのような最先端の教師のない学習方法と比較して、私たちのモデルは、それらの定常性やトポロジーを知らずに、多様なモダリティ全体で意味のある表現を学習することに優れています。
また、これらの要因に依存しない他の方法よりも優れており、フィールドに新しいベンチマークを設定します。
この作業は、多様な高次元データモダリティ全体に一般化できる監視されていない学習方法への一歩として位置付けています。

要約(オリジナル)

Unsupervised representation learning has seen tremendous progress. However, it is constrained by its reliance on domain specific stationarity and topology, a limitation not found in biological intelligence systems. For instance, unlike computer vision, human vision can process visual signals sampled from highly irregular and non-stationary sensors. We introduce a novel framework that learns from high-dimensional data without prior knowledge of stationarity and topology. Our model, abbreviated as URLOST, combines a learnable self-organizing layer, spectral clustering, and a masked autoencoder (MAE). We evaluate its effectiveness on three diverse data modalities including simulated biological vision data, neural recordings from the primary visual cortex, and gene expressions. Compared to state-of-the-art unsupervised learning methods like SimCLR and MAE, our model excels at learning meaningful representations across diverse modalities without knowing their stationarity or topology. It also outperforms other methods that are not dependent on these factors, setting a new benchmark in the field. We position this work as a step toward unsupervised learning methods capable of generalizing across diverse high-dimensional data modalities.

arxiv情報

著者 Zeyu Yun,Juexiao Zhang,Yann LeCun,Yubei Chen
発行日 2025-03-21 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | URLOST: Unsupervised Representation Learning without Stationarity or Topology はコメントを受け付けていません

Bridging Technology and Humanities: Evaluating the Impact of Large Language Models on Social Sciences Research with DeepSeek-R1

要約

近年、大規模な言語モデル(LLMS)の開発は、自然言語処理の分野で大きなブレークスルーを行っており、徐々に人文科学と社会科学の研究の分野に適用されています。
LLMは、その強いテキスト理解、生成、推論能力のために、人文科学および社会科学の分野で幅広いアプリケーション価値を持っています。
人文科学と社会科学の研究では、LLMSは大規模なテキストデータを分析し、推論を行うことができます。
この記事では、低リソースの言語翻訳、教育的質問、高等教育の改善、論理的推論、教育測定と心理測定、公衆衛生政策分析、芸術教育の7つの側面からの大規模な言語モデルのDeepSeek-R1を分析します。
Deepseek-R1は人文科学と社会科学でうまく機能し、ほとんどの質問に正しくかつ論理的に答え、合理的な分析プロセスと説明を提供できます。
O1-Previewと比較して、推論プロセスを自動的に生成し、より詳細な説明を提供できます。これは、この知識を詳細に理解する必要がある初心者や人に適していますが、O1-Previewは迅速な読みに適しています。
分析を通じて、LLMは人文科学と社会科学の分野で幅広い応用の可能性を持ち、テキスト分析の効率、言語コミュニケーション、その他の分野を改善する上で大きな利点を示していることがわかります。
LLMの強力な言語理解と生成能力により、人文科学と社会科学の分野で複雑な問題を深く探求し、学術研究と実用的なアプリケーションのための革新的なツールを提供できます。

要約(オリジナル)

In recent years, the development of Large Language Models (LLMs) has made significant breakthroughs in the field of natural language processing and has gradually been applied to the field of humanities and social sciences research. LLMs have a wide range of application value in the field of humanities and social sciences because of its strong text understanding, generation and reasoning capabilities. In humanities and social sciences research, LLMs can analyze large-scale text data and make inferences. This article analyzes the large language model DeepSeek-R1 from seven aspects: low-resource language translation, educational question-answering, student writing improvement in higher education, logical reasoning, educational measurement and psychometrics, public health policy analysis, and art education.Then we compare the answers given by DeepSeek-R1 in the seven aspects with the answers given by o1-preview. DeepSeek-R1 performs well in the humanities and social sciences, answering most questions correctly and logically, and can give reasonable analysis processes and explanations. Compared with o1-preview, it can automatically generate reasoning processes and provide more detailed explanations, which is suitable for beginners or people who need to have a detailed understanding of this knowledge, while o1-preview is more suitable for quick reading. Through analysis, it is found that LLM has broad application potential in the field of humanities and social sciences, and shows great advantages in improving text analysis efficiency, language communication and other fields. LLM’s powerful language understanding and generation capabilities enable it to deeply explore complex problems in the field of humanities and social sciences, and provide innovative tools for academic research and practical applications.

arxiv情報

著者 Peiran Gu,Fuhao Duan,Wenhao Li,Bochen Xu,Ying Cai,Teng Yao,Chenxun Zhuo,Tianming Liu,Bao Ge
発行日 2025-03-21 16:34:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Bridging Technology and Humanities: Evaluating the Impact of Large Language Models on Social Sciences Research with DeepSeek-R1 はコメントを受け付けていません

Karyotype AI for Precision Oncology

要約

細胞分裂の中期段階の顕微鏡画像から直接血液がんを引き起こす染色体異常を正確に検出できる機械学習方法を提示します。
パイプラインは、一連の微調整された視覚変圧器の上に構築されています。
現在の最先端(および標準的な臨床診療)には、高価な手動の専門家分析が必要ですが、パイプラインは中期画像ごとに15秒しかかかりません。
データ不足の課題を緩和するために新しい前oraining-finetuning戦略を使用して、臨床的に重要なDEL(5Q)およびT(9; 22)の異常について、94%AUCの高精度リコールスコアを達成します。
また、私たちの方法は、モデル潜在埋め込みに基づいて、まれな異常のゼロショット検出のロックを解除します。
中期画像から直接遺伝的異常を迅速に、正確に、そして拡張する能力は、核型の実践を変換し、患者の転帰を改善する可能性があります。
コードを公開します。

要約(オリジナル)

We present a machine learning method capable of accurately detecting chromosome abnormalities that cause blood cancers directly from microscope images of the metaphase stage of cell division. The pipeline is built on a series of fine-tuned Vision Transformers. Current state of the art (and standard clinical practice) requires expensive, manual expert analysis, whereas our pipeline takes only 15 seconds per metaphase image. Using a novel pretraining-finetuning strategy to mitigate the challenge of data scarcity, we achieve a high precision-recall score of 94% AUC for the clinically significant del(5q) and t(9;22) anomalies. Our method also unlocks zero-shot detection of rare aberrations based on model latent embeddings. The ability to quickly, accurately, and scalably diagnose genetic abnormalities directly from metaphase images could transform karyotyping practice and improve patient outcomes. We will make code publicly available.

arxiv情報

著者 Zahra Shamsi,Isaac Reid,Drew Bryant,Jacob Wilson,Xiaoyu Qu,Avinava Dubey,Konik Kothari,Mostafa Dehghani,Mariya Chavarha,Valerii Likhosherstov,Brian Williams,Michael Frumkin,Fred Appelbaum,Krzysztof Choromanski,Ali Bashir,Min Fang
発行日 2025-03-21 16:34:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, q-bio.QM | Karyotype AI for Precision Oncology はコメントを受け付けていません

Uni-3DAR: Unified 3D Generation and Understanding via Autoregression on Compressed Spatial Tokens

要約

大規模な言語モデルとそのマルチモーダル拡張の最近の進歩は、自己回帰の次のトークン予測を通じて、生成と理解の統一の有効性を実証しています。
しかし、科学のためのAIにおける3D構造生成と理解(3D GU)の重要な役割にもかかわらず、これらのタスクは大部分が独立して進化しており、自己回帰方法は未定のままです。
このギャップを埋めるために、自己回帰予測を介して3D GUタスクをシームレスに統合する統合されたフレームワークであるUni-3DARを導入します。
その中心で、Uni-3DARは、3D構造の固有のスパース性を活用して、オクトリーを使用して3D空間を圧縮する新しい階層トークン化を採用しています。
次に、微細な3D構造の原子タイプや正確な空間座標などの重要な属性をキャプチャして、細粒の構造の詳細に追加のトークン化を適用します。
さらに、効率と有効性を高めるための2つの最適化を提案します。
1つ目は、2レベルのサブツリー圧縮戦略で、Octreeトークンシーケンスを最大8倍削減します。
2つ目は、動的に変化するトークン位置に合わせて調整されたマスクされた次のトークン予測メカニズムで、モデルのパフォーマンスが大幅に向上します。
これらの戦略を組み合わせることにより、UNI-3DARは、単一の自己回帰フレームワーク内で多様な3D GUタスクを正常に統合します。
分子、タンパク質、ポリマー、結晶などの複数の顕微鏡3D GUタスクにわたる広範な実験により、その有効性と汎用性が検証されます。
特に、UNI-3DARは、以前の最先端の拡散モデルをかなりのマージンで上回り、最大256%の相対的な改善を達成しながら、最大21.8倍の速度を速くします。
このコードは、https://github.com/dptech-corp/uni-3darで公開されています。

要約(オリジナル)

Recent advancements in large language models and their multi-modal extensions have demonstrated the effectiveness of unifying generation and understanding through autoregressive next-token prediction. However, despite the critical role of 3D structural generation and understanding (3D GU) in AI for science, these tasks have largely evolved independently, with autoregressive methods remaining underexplored. To bridge this gap, we introduce Uni-3DAR, a unified framework that seamlessly integrates 3D GU tasks via autoregressive prediction. At its core, Uni-3DAR employs a novel hierarchical tokenization that compresses 3D space using an octree, leveraging the inherent sparsity of 3D structures. It then applies an additional tokenization for fine-grained structural details, capturing key attributes such as atom types and precise spatial coordinates in microscopic 3D structures. We further propose two optimizations to enhance efficiency and effectiveness. The first is a two-level subtree compression strategy, which reduces the octree token sequence by up to 8x. The second is a masked next-token prediction mechanism tailored for dynamically varying token positions, significantly boosting model performance. By combining these strategies, Uni-3DAR successfully unifies diverse 3D GU tasks within a single autoregressive framework. Extensive experiments across multiple microscopic 3D GU tasks, including molecules, proteins, polymers, and crystals, validate its effectiveness and versatility. Notably, Uni-3DAR surpasses previous state-of-the-art diffusion models by a substantial margin, achieving up to 256\% relative improvement while delivering inference speeds up to 21.8x faster. The code is publicly available at https://github.com/dptech-corp/Uni-3DAR.

arxiv情報

著者 Shuqi Lu,Haowei Lin,Lin Yao,Zhifeng Gao,Xiaohong Ji,Weinan E,Linfeng Zhang,Guolin Ke
発行日 2025-03-21 13:32:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG, q-bio.BM | Uni-3DAR: Unified 3D Generation and Understanding via Autoregression on Compressed Spatial Tokens はコメントを受け付けていません

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos

要約

大規模なコーパスで事前に訓練された大規模な言語モデルの最近の開発は、微調整を最小限に抑えて、さまざまな自然言語処理タスクで大幅に成功しています。
この成功は、アクション標識データの高コストによって長い間制約されてきたロボット工学に新たな約束を提供します。
尋ねます:豊かな「コーパス」として利用可能な相互作用関連の知識を含む豊富なビデオデータを考えると、同様の生成前のトレーニングアプローチを効果的に適用してロボット学習を強化できますか?
重要な課題は、ロボットの操作タスクに役立つ自己回帰の事前トレーニングの効果的な表現を特定することです。
動的な環境を観察することで人間が新しいスキルを学ぶ方法に触発されて、効果的なロボット学習は、低レベルのアクションに密接に結びついており、実際のロボットアクションへの学習運動の移転を促進するモーション関連の知識を強調する必要があることを提案します。
この目的のために、ビデオコンテンツを潜在的な動きのトークナーによって潜在的な動きのトークンシーケンスに変換するMotoを紹介し、監視されていない方法でビデオから動画の「言語」を埋めることを学びます。
モーショントークンの自己網目上を介してモトを前に移動し、多様な視覚的な動きの知識をキャプチャできるようにします。
トレーニング前の後、Moto-GPTは、意味的に解釈可能なモーショントークンを生成し、もっともらしいモーション軌跡を予測し、出力の尤度を通じて軌跡の合理性を評価する有望な能力を実証します。
学習されたモーションプライアーを実際のロボットアクションに転送するために、潜在的なモーショントークン予測と実際のロボット制御をシームレスに橋渡しする共同調整戦略を実装します。
広範な実験では、微調整されたMoto-GPTがロボット操作ベンチマークで優れた堅牢性と効率性を示し、ビデオデータから下流の視覚操作タスクに知識を転送する際の有効性を強調しています。

要約(オリジナル)

Recent developments in Large Language Models pre-trained on extensive corpora have shown significant success in various natural language processing tasks with minimal fine-tuning. This success offers new promise for robotics, which has long been constrained by the high cost of action-labeled data. We ask: given the abundant video data containing interaction-related knowledge available as a rich ‘corpus’, can a similar generative pre-training approach be effectively applied to enhance robot learning? The key challenge is to identify an effective representation for autoregressive pre-training that benefits robot manipulation tasks. Inspired by the way humans learn new skills through observing dynamic environments, we propose that effective robotic learning should emphasize motion-related knowledge, which is closely tied to low-level actions and is hardware-agnostic, facilitating the transfer of learned motions to actual robot actions. To this end, we introduce Moto, which converts video content into latent Motion Token sequences by a Latent Motion Tokenizer, learning a bridging ‘language’ of motion from videos in an unsupervised manner. We pre-train Moto-GPT through motion token autoregression, enabling it to capture diverse visual motion knowledge. After pre-training, Moto-GPT demonstrates the promising ability to produce semantically interpretable motion tokens, predict plausible motion trajectories, and assess trajectory rationality through output likelihood. To transfer learned motion priors to real robot actions, we implement a co-fine-tuning strategy that seamlessly bridges latent motion token prediction and real robot control. Extensive experiments show that the fine-tuned Moto-GPT exhibits superior robustness and efficiency on robot manipulation benchmarks, underscoring its effectiveness in transferring knowledge from video data to downstream visual manipulation tasks.

arxiv情報

著者 Yi Chen,Yuying Ge,Weiliang Tang,Yizhuo Li,Yixiao Ge,Mingyu Ding,Ying Shan,Xihui Liu
発行日 2025-03-21 01:45:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos はコメントを受け付けていません

MKG-Rank: Enhancing Large Language Models with Knowledge Graph for Multilingual Medical Question Answering

要約

大規模な言語モデル(LLM)は、医療質問応答(QA)に顕著な進歩を示していますが、その有効性は、不均衡な多言語トレーニングデータと低リソース言語の医療資源の希少なため、主に英語に限定されています。
医療QAのこの重要な言語ギャップに対処するために、多言語の知識グラフベースの検索ランキング(MKG-Rank)を提案します。これは、英語中心のLLMが多言語医療QAを実行できるようにする知識グラフ強化フレームワークです。
単語レベルの翻訳メカニズムを通じて、当社のフレームワークは、包括的な英語中心の医療知識グラフを低コストでLLMの推論に効率的に統合し、言語間のセマンティックの歪みを緩和し、言語障壁全体で正確な医療QAを達成します。
効率を高めるために、キャッシュおよびマルチアングルランキング戦略を導入して、検索プロセスを最適化し、応答時間を大幅に削減し、関連する医学知識を優先します。
中国語、日本、韓国語、スワヒリ語にわたる多言語の医療QAベンチマークに関する広範な評価は、MKGランクが一貫してゼロショットLLMSを上回り、正確性が最大35.03%増加し、平均検索時間はわずか0.0009秒を維持することを示しています。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable progress in medical question answering (QA), yet their effectiveness remains predominantly limited to English due to imbalanced multilingual training data and scarce medical resources for low-resource languages. To address this critical language gap in medical QA, we propose Multilingual Knowledge Graph-based Retrieval Ranking (MKG-Rank), a knowledge graph-enhanced framework that enables English-centric LLMs to perform multilingual medical QA. Through a word-level translation mechanism, our framework efficiently integrates comprehensive English-centric medical knowledge graphs into LLM reasoning at a low cost, mitigating cross-lingual semantic distortion and achieving precise medical QA across language barriers. To enhance efficiency, we introduce caching and multi-angle ranking strategies to optimize the retrieval process, significantly reducing response times and prioritizing relevant medical knowledge. Extensive evaluations on multilingual medical QA benchmarks across Chinese, Japanese, Korean, and Swahili demonstrate that MKG-Rank consistently outperforms zero-shot LLMs, achieving maximum 35.03% increase in accuracy, while maintaining an average retrieval time of only 0.0009 seconds.

arxiv情報

著者 Feiyang Li,Yingjian Chen,Haoran Liu,Rui Yang,Han Yuan,Yuang Jiang,Tianxiao Li,Edison Marrese Taylor,Hossein Rouhizadeh,Yusuke Iwasawa,Douglas Teodoro,Yutaka Matsuo,Irene Li
発行日 2025-03-21 01:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MKG-Rank: Enhancing Large Language Models with Knowledge Graph for Multilingual Medical Question Answering はコメントを受け付けていません

Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning

要約

大きな言語モデルの推論は、さまざまなドメインで急速に進化しています。
ただし、複雑な財務タスクを処理する能力には、詳細な調査が必要です。
この論文では、FIN-R1を紹介します。Fin-R1は、金融セクター向けに特別に設計された大きな言語モデルを紹介します。
FIN-R1は、2段階のアーキテクチャを使用して構築され、DeepSeek-R1に基づいて蒸留および処理された金融推論データセットを活用します。
監視された微調整(SFT)および強化学習(RL)トレーニングにより、さまざまな財政的推論タスクにわたって70億のパラメーターサイズで、DeepSeek-R1に近いパフォーマンスを実証します。
私たちの評価において、これらのLLM間のFINQAおよびConvfinqAタスクの最先端(SOTA)を達成し、他のタスクでも大きなモデルを上回ります。
FIN-R1は、強力な推論と意思決定機能を紹介し、金融領域で遭遇するさまざまな問題の解決策を提供します。
私たちのコードは、https://github.com/sufe-aiflm-lab/fin-r1で入手できます。

要約(オリジナル)

Reasoning large language models are rapidly evolving across various domains. However, their capabilities in handling complex financial tasks still require in-depth exploration. In this paper, we introduce Fin-R1, a reasoning large language model specifically designed for the financial sector. Fin-R1 is built using a two-stage architecture, leveraging a financial reasoning dataset distilled and processed based on DeepSeek-R1. Through supervised fine-tuning (SFT) and reinforcement learning (RL) training, it demonstrates performance close to DeepSeek-R1 with a parameter size of 7 billion across a range of financial reasoning tasks. It achieves the state-of-the-art (SOTA) in the FinQA and ConvFinQA tasks between those LLMs in our evaluation, surpassing larger models in other tasks as well. Fin-R1 showcases strong reasoning and decision-making capabilities, providing solutions to various problems encountered in the financial domain. Our code is available at https://github.com/SUFE-AIFLM-Lab/Fin-R1.

arxiv情報

著者 Zhaowei Liu,Xin Guo,Fangqi Lou,Lingfeng Zeng,Jinyi Niu,Zixuan Wang,Jiajie Xu,Weige Cai,Ziwei Yang,Xueqian Zhao,Chao Li,Sheng Xu,Dezhi Chen,Yun Chen,Zuo Bai,Liwen Zhang
発行日 2025-03-21 01:57:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning はコメントを受け付けていません