Prediction of Frozen Region Growth in Kidney Cryoablation Intervention Using a 3D Flow-Matching Model

要約

この研究では、腎臓の凍結アブレーション中の凍結領域(氷玉)の進行を予測するように設計された3Dフローマッチングモデルを提示します。
正確な術中ガイダンスは、隣接する健康な組織を保存しながら、完全な腫瘍の根絶を確保するために凍結アブレーションにおいて重要です。
ただし、通常、物理学駆動型または拡散ベースのシミュレーションに基づいた従来の方法は、計算的に要求が厳しく、複雑な解剖学的構造を正確に表現するのに苦労しています。
これらの制限に対処するために、私たちのアプローチは術中CTイメージングを活用してモデルを通知します。
提案された3Dフローマッチングモデルは、初期段階のCTスキャンを将来の予測にマッピングする連続変形場を学習するように訓練されています。
この変換は、アイスボールの体積膨張を推定するだけでなく、対応するセグメンテーションマスクを生成し、時間の経過とともに空間的および形態学的変化を効果的にキャプチャします。
定量分析では、モデルの堅牢性を強調し、予測と地上真実のセグメンテーションとの強い一致を示しています。
このモデルは、0.61の組合(IOU)スコアと0.75のサイコロ係数を介した交差点を達成します。
リアルタイムのCTイメージングを高度なディープラーニングテクニックと統合することにより、このアプローチは、腎臓の凍結アブレーションの術中ガイダンスを強化し、手順の結果を改善し、低侵襲手術の分野を進める可能性があります。

要約(オリジナル)

This study presents a 3D flow-matching model designed to predict the progression of the frozen region (iceball) during kidney cryoablation. Precise intraoperative guidance is critical in cryoablation to ensure complete tumor eradication while preserving adjacent healthy tissue. However, conventional methods, typically based on physics driven or diffusion based simulations, are computationally demanding and often struggle to represent complex anatomical structures accurately. To address these limitations, our approach leverages intraoperative CT imaging to inform the model. The proposed 3D flow matching model is trained to learn a continuous deformation field that maps early-stage CT scans to future predictions. This transformation not only estimates the volumetric expansion of the iceball but also generates corresponding segmentation masks, effectively capturing spatial and morphological changes over time. Quantitative analysis highlights the model robustness, demonstrating strong agreement between predictions and ground-truth segmentations. The model achieves an Intersection over Union (IoU) score of 0.61 and a Dice coefficient of 0.75. By integrating real time CT imaging with advanced deep learning techniques, this approach has the potential to enhance intraoperative guidance in kidney cryoablation, improving procedural outcomes and advancing the field of minimally invasive surgery.

arxiv情報

著者 Siyeop Yoon,Yujin Oh,Matthew Tivnan,Sifan Song,Pengfei Jin,Sekeun Kim,Hyun Jin Cho,Dufan Wu,Raul Uppot,Quanzheng Li
発行日 2025-03-11 15:21:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Prediction of Frozen Region Growth in Kidney Cryoablation Intervention Using a 3D Flow-Matching Model はコメントを受け付けていません

Learning to Plan with Personalized Preferences

要約

AIエージェントを日常生活に効果的に統合するには、特に共同の役割において、個々の人間の好みを理解し、適応させる必要があります。
具体化された知性に関する最近の研究は大幅に進歩していますが、通常、計画における個人的な好みを見落とす一般化されたアプローチを採用しています。
私たちは、少数のデモンストレーションから好みを学ぶだけでなく、これらの好みに基づいて計画戦略を適応させることを学ぶエージェントを開発することにより、この制限に対処します。
私たちの研究は、最小限のデモンストレーションで暗黙的に表現されているものの、多様な計画シナリオ全体で一般化できるという観察を活用しています。
この仮説を体系的に評価するために、原子作用から複雑なシーケンスに至るまでの何百もの多様な好みを特徴とする具体化されたベンチマークである、優先ベースの計画(PBP)ベンチマークを導入します。
SOTAメソッドの評価により、シンボルベースのアプローチはスケーラビリティの可能性を示していますが、パーソナライズされた好みを満たす計画を生成および実行することを学習することには重要な課題が残っています。
さらに、学習された好みを計画に組み込むことにより、個人化された計画を構築するエージェントの能力が大幅に向上することを実証します。
これらの調査結果は、適応計画のための貴重な抽象化層としての選好を確立し、優先誘導計画の生成と実行における研究のための新しい方向性を開きます。

要約(オリジナル)

Effective integration of AI agents into daily life requires them to understand and adapt to individual human preferences, particularly in collaborative roles. Although recent studies on embodied intelligence have advanced significantly, they typically adopt generalized approaches that overlook personal preferences in planning. We address this limitation by developing agents that not only learn preferences from few demonstrations but also learn to adapt their planning strategies based on these preferences. Our research leverages the observation that preferences, though implicitly expressed through minimal demonstrations, can generalize across diverse planning scenarios. To systematically evaluate this hypothesis, we introduce Preference-based Planning (PbP) benchmark, an embodied benchmark featuring hundreds of diverse preferences spanning from atomic actions to complex sequences. Our evaluation of SOTA methods reveals that while symbol-based approaches show promise in scalability, significant challenges remain in learning to generate and execute plans that satisfy personalized preferences. We further demonstrate that incorporating learned preferences as intermediate representations in planning significantly improves the agent’s ability to construct personalized plans. These findings establish preferences as a valuable abstraction layer for adaptive planning, opening new directions for research in preference-guided plan generation and execution.

arxiv情報

著者 Manjie Xu,Xinyi Yang,Wei Liang,Chi Zhang,Yixin Zhu
発行日 2025-03-11 15:22:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Learning to Plan with Personalized Preferences はコメントを受け付けていません

PaCA: Partial Connection Adaptation for Efficient Fine-Tuning

要約

以前のパラメーター効率の高い微調整(PEFT)アルゴリズムは、モデル全体ではなく、いくつかの追加アダプターパラメーターのみをトレーニングすることにより、大規模なニューラルネットワークモデルの微調整のメモリ使用量と計算コストを削減します。
ただし、PEFTによる計算コストの削減は、必ずしもトレーニング時間の短縮につながるわけではありません。
アダプターレイヤーの計算コストは​​、事前に保護されたレイヤーよりもはるかに小さいですが、これらの2つのタイプの層がGPUで連続的に処理されていることがよく知られており、その結果、重大なレイテンシーオーバーヘッドになります。
LORAとそのバリアントは、低ランクアダプターマトリックスと推論中に前提条件の重みと融合しますが、トレーニング中は、アダプターマトリックスが継続的に更新されている間、トレーニング中に凍結したままになり、そのようなマージを防ぎます。
この問題を軽減するために、部分的な接続適応(PACA)を提案します。これは、モデルにアダプターレイヤーを導入する代わりに、事前に処理された重みの中に微調整された部分的な接続をランダムに選択しました。
PACAは、アダプターと前処理された層の連続処理のために時間オーバーヘッドを排除することによりトレーニング速度を向上させるだけでなく、完全な活性化ではなく部分的な活性化のみをグラデーション計算のために保存する必要があるため、活性化メモリも減少します。
LORAと比較して、PACAはトレーニング時間を22%減らし、メモリ合計の使用量を16%短縮し、MMLUデータセットでの微調整やOASST1データセットでの命令調整など、さまざまな微調整シナリオで同等の精度を維持します。
PACAは量子化と組み合わせることができ、llama3.1-70bなどの大規模なモデルの微調整を可能にします。
さらに、PACAは23%長いシーケンスでトレーニングを実施し、LORAと比較してNVIDIA A100 GPUとIntel Gaudi2 HPUの両方で16%スループットを改善します。
このコードはhttps://github.com/woosunghyeon/pacaで入手できます。

要約(オリジナル)

Prior parameter-efficient fine-tuning (PEFT) algorithms reduce memory usage and computational costs of fine-tuning large neural network models by training only a few additional adapter parameters, rather than the entire model. However, the reduction in computational costs due to PEFT does not necessarily translate to a reduction in training time; although the computational costs of the adapter layers are much smaller than the pretrained layers, it is well known that those two types of layers are processed sequentially on GPUs, resulting in significant latency overhead. LoRA and its variants merge low-rank adapter matrices with pretrained weights during inference to avoid latency overhead, but during training, the pretrained weights remain frozen while the adapter matrices are continuously updated, preventing such merging. To mitigate this issue, we propose Partial Connection Adaptation (PaCA), which fine-tunes randomly selected partial connections within the pretrained weights instead of introducing adapter layers in the model. PaCA not only enhances training speed by eliminating the time overhead due to the sequential processing of the adapter and pretrained layers but also reduces activation memory since only partial activations, rather than full activations, need to be stored for gradient computation. Compared to LoRA, PaCA reduces training time by 22% and total memory usage by 16%, while maintaining comparable accuracy across various fine-tuning scenarios, such as fine-tuning on the MMLU dataset and instruction tuning on the Oasst1 dataset. PaCA can also be combined with quantization, enabling the fine-tuning of large models such as LLaMA3.1-70B. In addition, PaCA enables training with 23% longer sequence and improves throughput by 16% on both NVIDIA A100 GPU and INTEL Gaudi2 HPU compared to LoRA. The code is available at https://github.com/WooSunghyeon/paca.

arxiv情報

著者 Sunghyeon Woo,Sol Namkung,Sunwoo Lee,Inho Jeong,Beomseok Kim,Dongsuk Jeon
発行日 2025-03-11 15:24:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | PaCA: Partial Connection Adaptation for Efficient Fine-Tuning はコメントを受け付けていません

Chemical reasoning in LLMs unlocks steerable synthesis planning and reaction mechanism elucidation

要約

機械学習アルゴリズムは特定の化学タスクに優れていることが示されていますが、専門家の化学的推論を特徴付ける戦略的思考を捉えるのに苦労しており、広範な採用を制限しています。
ここでは、従来の検索アルゴリズムと統合された場合、大規模な言語モデル(LLM)が強力な化学推論エンジンとして機能し、人間の専門家思考を反映するコンピューター支援化学への新しいアプローチを可能にすることを実証します。
LLMを使用して化学構造を直接操作するのではなく、化学戦略を評価し、化学的に意味のあるソリューションに検索アルゴリズムを導く能力を活用します。
このパラダイムは、2つの基本的な課題を通じて実証します。戦略を認識した補給計画とメカニズムの解明です。
レトロシンセティック計画では、私たちの方法により、化学者は自然言語で望ましい合成戦略を指定して、膨大な検索でこれらの制約を満たすルートを見つけることができます。
メカニズムの解明では、LLMSは化学原理と系統的探査を組み合わせることにより、もっともらしい反応メカニズムの検索を導きます。
私たちのアプローチは、多様な化学タスク全体で強力なパフォーマンスを示しており、より大きなモデルがますます洗練された化学的推論を示しています。
私たちのアプローチは、LLMの戦略的理解と従来の化学ツールの精度を組み合わせたコンピューター支援化学の新しいパラダイムを確立し、より直感的で強力な化学推論システムの可能性を開きます。

要約(オリジナル)

While machine learning algorithms have been shown to excel at specific chemical tasks, they have struggled to capture the strategic thinking that characterizes expert chemical reasoning, limiting their widespread adoption. Here we demonstrate that large language models (LLMs) can serve as powerful chemical reasoning engines when integrated with traditional search algorithms, enabling a new approach to computer-aided chemistry that mirrors human expert thinking. Rather than using LLMs to directly manipulate chemical structures, we leverage their ability to evaluate chemical strategies and guide search algorithms toward chemically meaningful solutions. We demonstrate this paradigm through two fundamental challenges: strategy-aware retrosynthetic planning and mechanism elucidation. In retrosynthetic planning, our method allows chemists to specify desired synthetic strategies in natural language to find routes that satisfy these constraints in vast searches. In mechanism elucidation, LLMs guide the search for plausible reaction mechanisms by combining chemical principles with systematic exploration. Our approach shows strong performance across diverse chemical tasks, with larger models demonstrating increasingly sophisticated chemical reasoning. Our approach establishes a new paradigm for computer-aided chemistry that combines the strategic understanding of LLMs with the precision of traditional chemical tools, opening possibilities for more intuitive and powerful chemical reasoning systems.

arxiv情報

著者 Andres M Bran,Theo A Neukomm,Daniel P Armstrong,Zlatko Jončev,Philippe Schwaller
発行日 2025-03-11 15:27:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.AI | Chemical reasoning in LLMs unlocks steerable synthesis planning and reaction mechanism elucidation はコメントを受け付けていません

Forgotten Polygons: Multimodal Large Language Models are Shape-Blind

要約

ビジョン言語のタスクでのパフォーマンスが強いにもかかわらず、マルチモーダルの大手言語モデル(MLLM)は数学的な問題解決に苦労しており、オープンソースと最先端のモデルの両方がビジュアルマスベンチマークでの人間のパフォーマンスに達していません。
MLLMの視覚的数学的推論を体系的に調べるために、(1)幾何学的プリミティブの理解を評価します。
私たちの調査結果は、形状認識の根本的な欠点を明らかにしており、トップモデルは通常のポリゴンを特定する際に50%未満の精度を達成しています。
これらの障害は、デュアルプロセス理論のレンズを介して分析し、MLLMがシステム2(意図的な推論)ではなく、システム1(直感的で記憶された関連性)に依存していることを示しています。
その結果、MLLMSは、おなじみの形状と新しい形状の両方の側面をカウントできず、辺の概念を学んだことも、視覚入力を効果的に処理していないことを示唆しています。
最後に、視覚的に手がかりのチェーンのチェーン(VC-COT)プロンプトを提案します。これは、図の視覚的注釈を明示的に参照し、不規則なポリゴンサイドカウントタスクでのGPT-4Oの精度を7%から93%に高めることにより、多段階の数学的推論を強化します。
私たちの調査結果は、MLLMSのシステム2推論が未解決の問題であり、視覚的に誘導されるプロンプトが視覚的推論をうまく関与させるために不可欠であることを示唆しています。
https://github.com/rsinghlab/shape-blindで利用可能なコード。

要約(オリジナル)

Despite strong performance on vision-language tasks, Multimodal Large Language Models (MLLMs) struggle with mathematical problem-solving, with both open-source and state-of-the-art models falling short of human performance on visual-math benchmarks. To systematically examine visual-mathematical reasoning in MLLMs, we (1) evaluate their understanding of geometric primitives, (2) test multi-step reasoning, and (3) explore a potential solution to improve visual reasoning capabilities. Our findings reveal fundamental shortcomings in shape recognition, with top models achieving under 50% accuracy in identifying regular polygons. We analyze these failures through the lens of dual-process theory and show that MLLMs rely on System 1 (intuitive, memorized associations) rather than System 2 (deliberate reasoning). Consequently, MLLMs fail to count the sides of both familiar and novel shapes, suggesting they have neither learned the concept of sides nor effectively process visual inputs. Finally, we propose Visually Cued Chain-of-Thought (VC-CoT) prompting, which enhances multi-step mathematical reasoning by explicitly referencing visual annotations in diagrams, boosting GPT-4o’s accuracy on an irregular polygon side-counting task from 7% to 93%. Our findings suggest that System 2 reasoning in MLLMs remains an open problem, and visually-guided prompting is essential for successfully engaging visual reasoning. Code available at: https://github.com/rsinghlab/Shape-Blind.

arxiv情報

著者 William Rudman,Michal Golovanesky,Amir Bar,Vedant Palit,Yann LeCun,Carsten Eickhoff,Ritambhara Singh
発行日 2025-03-11 15:28:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Forgotten Polygons: Multimodal Large Language Models are Shape-Blind はコメントを受け付けていません

Mellow: a small audio language model for reasoning

要約

マルチモーダルオーディオ言語モデル(ALMS)は、オーディオとテキストの両方を理解し、推論することができます。
通常、推論パフォーマンスはモデルサイズと相関しており、モデルが80億パラメーターを超える最良の結果が達成されます。
ただし、エッジデバイスの潜在的なアプリケーションにもかかわらず、推論タスクを実行できる小さなオーディオ言語モデルを可能にすることを検討したことはありません。
このギャップに対処するために、推論のために特別に設計された小さな音声言語モデルであるMellowを紹介します。
Mellowは、既存の小さなオーディオ言語モデル間で最先端のパフォーマンスを達成し、推論能力のいくつかの大きなモデルを上回ります。
たとえば、MMAUでMellowは52.11でスコアを記録します。これは、Sota QWen2オーディオ(52.5のスコア)に匹敵し、パラメーターの50倍を使用し、60倍のデータ(オーディオHR)でトレーニングされています。
まろやかな訓練をするために、モデルのオーディオグラウンドの推論を強化するために設計されたデータセットであるReasoaqaを紹介します。
既存のデータセット(データの30%)と合成生成データ(70%)の混合物で構成されています。
合成データセットは、オーディオモデル(LLM)がオーディオイベント、オブジェクト、アコースティックシーン、信号特性、セマンティクス、リスナーの感情に焦点を当てた詳細な複数選択の質問を生成するオーディオキャプションデータセットから派生しています。
Mellowの推論能力を評価するために、それを多様なタスクのセットにベンチマークし、オーディオ理解、演ductive的推論、比較推論など、分散型と分散型の両方のデータの両方を評価します。
最後に、投影層の選択、合成データ生成方法、および推論パフォーマンスに対する言語モデルの事前販売の影響を調査するために、広範なアブレーション研究を実施します。
当社のトレーニングデータセット、調査結果、ベースラインは、推論できる小さな施しを開発する方法を開きます。

要約(オリジナル)

Multimodal Audio-Language Models (ALMs) can understand and reason over both audio and text. Typically, reasoning performance correlates with model size, with the best results achieved by models exceeding 8 billion parameters. However, no prior work has explored enabling small audio-language models to perform reasoning tasks, despite the potential applications for edge devices. To address this gap, we introduce Mellow, a small Audio-Language Model specifically designed for reasoning. Mellow achieves state-of-the-art performance among existing small audio-language models and surpasses several larger models in reasoning capabilities. For instance, Mellow scores 52.11 on MMAU, comparable to SoTA Qwen2 Audio (which scores 52.5) while using 50 times fewer parameters and being trained on 60 times less data (audio hrs). To train Mellow, we introduce ReasonAQA, a dataset designed to enhance audio-grounded reasoning in models. It consists of a mixture of existing datasets (30% of the data) and synthetically generated data (70%). The synthetic dataset is derived from audio captioning datasets, where Large Language Models (LLMs) generate detailed and multiple-choice questions focusing on audio events, objects, acoustic scenes, signal properties, semantics, and listener emotions. To evaluate Mellow’s reasoning ability, we benchmark it on a diverse set of tasks, assessing on both in-distribution and out-of-distribution data, including audio understanding, deductive reasoning, and comparative reasoning. Finally, we conduct extensive ablation studies to explore the impact of projection layer choices, synthetic data generation methods, and language model pretraining on reasoning performance. Our training dataset, findings, and baseline pave the way for developing small ALMs capable of reasoning.

arxiv情報

著者 Soham Deshmukh,Satvik Dixit,Rita Singh,Bhiksha Raj
発行日 2025-03-11 15:29:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | Mellow: a small audio language model for reasoning はコメントを受け付けていません

DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering

要約

大規模な言語モデル(LLMS)の自由形式生成応答を評価することは、それらの多様でオープンエンドの性質のため、依然として課題のままです。
従来の監視されている信号ベースの自動メトリックは、セマンティックの等価性をキャプチャしたり、自由回答形式の応答の変動性を処理したりすることはできませんが、人間の評価は信頼できますが、リソース集約型です。
評価者としてLLMを活用すると、言語の理解と指導に従う能力が強いため、有望な代替手段が提供されます。
これらの機能を活用して、2つの主要なLLM-Judgesを採用し、意見の相違の場合にのみ3番目の仲裁人に関与する、評価のための動的な仲裁フレームワーク(DAFE)を提案します。
この選択的仲裁は、従来の多数決と比較して不必要な計算需要を減らしながら、評価の信頼性を優先します。
Dafeは、動的な仲裁でタスク固有の参照回答を使用して、判断の精度を高めるため、Macro F1やCohen’s Kappaなどの評価メトリックが大幅に改善されます。
包括的な人間の評価を含む実験を通じて、一貫したスケーラブルでリソース効率の高い評価を提供するDafeの能力を実証し、フリーフォームモデル出力を評価するための堅牢なフレームワークとしてそれを確立します。

要約(オリジナル)

Evaluating Large Language Models (LLMs) free-form generated responses remains a challenge due to their diverse and open-ended nature. Traditional supervised signal-based automatic metrics fail to capture semantic equivalence or handle the variability of open-ended responses, while human evaluation, though reliable, is resource-intensive. Leveraging LLMs as evaluators offers a promising alternative due to their strong language understanding and instruction-following capabilities. Taking advantage of these capabilities, we propose the Dynamic Arbitration Framework for Evaluation (DAFE), which employs two primary LLM-as-judges and engages a third arbitrator only in cases of disagreements. This selective arbitration prioritizes evaluation reliability while reducing unnecessary computational demands compared to conventional majority voting. DAFE utilizes task-specific reference answers with dynamic arbitration to enhance judgment accuracy, resulting in significant improvements in evaluation metrics such as Macro F1 and Cohen’s Kappa. Through experiments, including a comprehensive human evaluation, we demonstrate DAFE’s ability to provide consistent, scalable, and resource-efficient assessments, establishing it as a robust framework for evaluating free-form model outputs.

arxiv情報

著者 Sher Badshah,Hassan Sajjad
発行日 2025-03-11 15:29:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.0 | DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering はコメントを受け付けていません

Graph of AI Ideas: Leveraging Knowledge Graphs and LLMs for AI Research Idea Generation

要約

関連する科学論文を読み、研究開発の動向を分析することは、新しい科学的アイデアを生み出す上で重要なステップです。
しかし、研究文献の量と複雑な引用関係の急速な増加により、研究者は意味のある研究動向を迅速に分析して導き出すことが困難になります。
大規模な言語モデル(LLMS)の開発は、論文を自動的に要約し、革新的な研究のアイデアを生み出すための新しいアプローチを提供しました。
ただし、既存の紙ベースのアイデア生成方法は、これらの引用に組み込まれたセマンティック情報を完全に活用することなく、プロンプトを介してPaperをLLMに入力するか、引用関係に基づいて創造的な開発の論理チェーンを形成するだけです。
ナレッジグラフと人間の認知プロセスに触発されて、AI研究分野のAIアイデア(GOAI)のグラフと呼ばれるフレームワークを提案します。これは、オープンアクセスペーパーが支配しています。
このフレームワークは、知識グラフ内のエンティティに関連する文献を整理し、引用に含まれるセマンティック情報をグラフ内の関係にまとめています。
この組織は、2つの学術論文とAI研究分野の進歩との関係を効果的に反映しています。
このような組織は、研究の現在の進歩を捉える際にLLMを支援し、それによって彼らの創造性を高めます。
実験結果は、斬新で明確で効果的な研究のアイデアを生成する際のアプローチの有効性を示しています。

要約(オリジナル)

Reading relevant scientific papers and analyzing research development trends is a critical step in generating new scientific ideas. However, the rapid increase in the volume of research literature and the complex citation relationships make it difficult for researchers to quickly analyze and derive meaningful research trends. The development of large language models (LLMs) has provided a novel approach for automatically summarizing papers and generating innovative research ideas. However, existing paper-based idea generation methods either simply input papers into LLMs via prompts or form logical chains of creative development based on citation relationships, without fully exploiting the semantic information embedded in these citations. Inspired by knowledge graphs and human cognitive processes, we propose a framework called the Graph of AI Ideas (GoAI) for the AI research field, which is dominated by open-access papers. This framework organizes relevant literature into entities within a knowledge graph and summarizes the semantic information contained in citations into relations within the graph. This organization effectively reflects the relationships between two academic papers and the advancement of the AI research field. Such organization aids LLMs in capturing the current progress of research, thereby enhancing their creativity. Experimental results demonstrate the effectiveness of our approach in generating novel, clear, and effective research ideas.

arxiv情報

著者 Xian Gao,Zongyun Zhang,Mingye Xie,Ting Liu,Yuzhuo Fu
発行日 2025-03-11 15:36:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Graph of AI Ideas: Leveraging Knowledge Graphs and LLMs for AI Research Idea Generation はコメントを受け付けていません

(How) Do Language Models Track State?

要約

トランス語モデル(LMS)は、進化する世界の観察されていない状態を追跡する必要があるように見えるように見える、ストーリーテリングからコード生成までの行動を示します。
彼らはどのようにそうしますか?
順列を構成するためにトレーニングまたは微調整されたLMSで状態追跡を研究します(つまり、一連のスワップの後にオブジェクトのセットの順序を計算するため)。
この問題の単純な代数構造にもかかわらず、他の多くのタスク(例えば、有限のオートマトンのシミュレーションとブール式の評価)は順列組成に縮小することができ、一般的な状態追跡のための自然なモデルになります。
LMSは、このタスクの2つの状態追跡メカニズムのいずれかを常に学習することを示しています。
最初のものは、Liu et alによる最近の理論的研究で使用されている「連想スキャン」構造に非常に似ています。
(2023)およびMerrill et al。
(2024)。
2番目は、計算が容易な機能(順列パリティ)を使用して出力のスペースを部分的にプルンし、連想スキャンで洗練します。
2つのメカニズムは、著しく異なる堅牢性特性を示し、ヒューリスティックを促進または抑制する中間トレーニングタスクで、どちらか一方に向かってLMSを導く方法を示します。
我々の結果は、Transformer LMSは、前処理されていないか微調整されていようと、効率的で解釈可能な状態追跡メカニズムを実装することを学ぶことができ、これらのメカニズムの出現を予測および制御できることを示しています。

要約(オリジナル)

Transformer language models (LMs) exhibit behaviors — from storytelling to code generation — that appear to require tracking the unobserved state of an evolving world. How do they do so? We study state tracking in LMs trained or fine-tuned to compose permutations (i.e., to compute the order of a set of objects after a sequence of swaps). Despite the simple algebraic structure of this problem, many other tasks (e.g., simulation of finite automata and evaluation of boolean expressions) can be reduced to permutation composition, making it a natural model for state tracking in general. We show that LMs consistently learn one of two state tracking mechanisms for this task. The first closely resembles the ‘associative scan’ construction used in recent theoretical work by Liu et al. (2023) and Merrill et al. (2024). The second uses an easy-to-compute feature (permutation parity) to partially prune the space of outputs, then refines this with an associative scan. The two mechanisms exhibit markedly different robustness properties, and we show how to steer LMs toward one or the other with intermediate training tasks that encourage or suppress the heuristics. Our results demonstrate that transformer LMs, whether pretrained or fine-tuned, can learn to implement efficient and interpretable state tracking mechanisms, and the emergence of these mechanisms can be predicted and controlled.

arxiv情報

著者 Belinda Z. Li,Zifan Carl Guo,Jacob Andreas
発行日 2025-03-11 15:36:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | (How) Do Language Models Track State? はコメントを受け付けていません

Building Interval Type-2 Fuzzy Membership Function: A Deck of Cards based Co-constructive Approach

要約

Fuzzyセットは、設立以来、意思決定における不確実性と不正確さを処理するために広く使用されてきました。
ただし、多くの場合、タイプ1ファジーセット(T1FSS)と呼ばれる従来のファジーセットは、特に意思決定者(DM)がメンバーシップの程度でためらいや曖昧さを表明する場合、より高いレベルの不確実性を捉えることに制限があります。
これに対処するために、インターバルタイプ-2ファジーセット(IT2FSS)は、メンバーシップ度の割り当てに不確実性を組み込むことにより導入されました。
その利点にもかかわらず、既存のIT2FS構築方法はDMSからの積極的な関与に欠け、決定モデルの解釈可能性と有効性を制限します。
この研究では、優先誘発におけるDMSの積極的な関与とマルチリテリアの意思決定(MCDM)問題におけるその応用を促進することにより、言語用語のIT2FSモデルを開発するための社会技術的な共同構築アプローチを提案しています。
私たちの方法論は、2つのフェーズで構成されています。
最初のフェーズには、DMと意思決定アナリストの間のインタラクティブなプロセスが含まれます。このプロセスでは、Deck-of-Cards(doc)メソッドの変更されたバージョンが比率スケールでT1FSメンバーシップ関数を構築することが提案されています。
次に、この方法を主観的な判断に曖昧さを組み込むために拡張し、その結果、DMの言語評価の不確実性をよりよく捉えるIT2FSモデルが生じました。
第2フェーズは、そのような情報、集約規則、および許容される秩序原則の適切な数学的表現を定義することにより、MCDMでのアプリケーションのための構築されたIT2FSモデルを形式化します。
提案されたフレームワークは、DMの言語情報のパーソナライズされたセマンティクスを正確に表すだけでなく、ファジーな意思決定の信頼性と有効性を高めます。

要約(オリジナル)

Since its inception, Fuzzy Set has been widely used to handle uncertainty and imprecision in decision-making. However, conventional fuzzy sets, often referred to as type-1 fuzzy sets (T1FSs) have limitations in capturing higher levels of uncertainty, particularly when decision-makers (DMs) express hesitation or ambiguity in membership degree. To address this, Interval Type-2 Fuzzy Sets (IT2FSs) have been introduced by incorporating uncertainty in membership degree allocation, which enhanced flexibility in modelling subjective judgments. Despite their advantages, existing IT2FS construction methods often lack active involvement from DMs and that limits the interpretability and effectiveness of decision models. This study proposes a socio-technical co-constructive approach for developing IT2FS models of linguistic terms by facilitating the active involvement of DMs in preference elicitation and its application in multicriteria decision-making (MCDM) problems. Our methodology is structured in two phases. The first phase involves an interactive process between the DM and the decision analyst, in which a modified version of Deck-of-Cards (DoC) method is proposed to construct T1FS membership functions on a ratio scale. We then extend this method to incorporate ambiguity in subjective judgment and that resulted in an IT2FS model that better captures uncertainty in DM’s linguistic assessments. The second phase formalizes the constructed IT2FS model for application in MCDM by defining an appropriate mathematical representation of such information, aggregation rules, and an admissible ordering principle. The proposed framework enhances the reliability and effectiveness of fuzzy decision-making not only by accurately representing DM’s personalized semantics of linguistic information.

arxiv情報

著者 Bapi Dutta,Diego García-Zamora,José Rui Figueira,Luis Martínez
発行日 2025-03-11 15:37:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, math.OC | Building Interval Type-2 Fuzzy Membership Function: A Deck of Cards based Co-constructive Approach はコメントを受け付けていません