SMART: Self-learning Meta-strategy Agent for Reasoning Tasks

要約

演繹的推論を必要とするタスク、特に複数のステップを伴うタスクでは、普遍的に最適な単一のアプローチは存在しないため、理論的根拠やプログラムの中間生成などの適応戦略が必要になることがよくあります。
言語モデル (LM) は、反復的な自己洗練と戦略調整を通じて出力を強化できますが、最初の試行では最も効果的な戦略を適用できないことがよくあります。
この非効率性により、LM は改良を必要とせずに、最初の試行で最適な戦略を選択できるようになるだろうか、という疑問が生じます。
この課題に対処するために、LM がさまざまな推論タスクに対して最も効果的な戦略を自律的に学習して選択できるようにする新しいフレームワークである SMART (推論タスク用自己学習メタ戦略エージェント) を紹介します。
戦略選択プロセスをマルコフ決定プロセスとしてモデル化し、強化学習による継続的な自己改善を活用して、モデルが特定のタスクを解決するための適切な戦略を見つけられるようにします。
複数の推論パスや外部フィードバックに依存する従来の自己洗練手法とは異なり、SMART では、LM が自身の推論プロセスの結果を内部化し、それに応じて戦略を調整し、最初の試行で正しい解決策を目指すことができます。
さまざまな推論データセットとさまざまなモデル アーキテクチャを使用した実験では、SMART が外部のガイダンスなしで最適な戦略を選択するモデルの能力を大幅に向上させることが実証されました (GSM8K データセットで +15 ポイント)。
単一の推論パスでより高い精度を達成することで、SMART はパフォーマンスを向上させるだけでなく、改良ベースの戦略の計算コストを削減し、LM でのより効率的でインテリジェントな推論への道を開きます。

要約(オリジナル)

Tasks requiring deductive reasoning, especially those involving multiple steps, often demand adaptive strategies such as intermediate generation of rationales or programs, as no single approach is universally optimal. While Language Models (LMs) can enhance their outputs through iterative self-refinement and strategy adjustments, they frequently fail to apply the most effective strategy in their first attempt. This inefficiency raises the question: Can LMs learn to select the optimal strategy in the first attempt, without a need for refinement? To address this challenge, we introduce SMART (Self-learning Meta-strategy Agent for Reasoning Tasks), a novel framework that enables LMs to autonomously learn and select the most effective strategies for various reasoning tasks. We model the strategy selection process as a Markov Decision Process and leverage reinforcement learning-driven continuous self-improvement to allow the model to find the suitable strategy to solve a given task. Unlike traditional self-refinement methods that rely on multiple inference passes or external feedback, SMART allows an LM to internalize the outcomes of its own reasoning processes and adjust its strategy accordingly, aiming for correct solutions on the first attempt. Our experiments across various reasoning datasets and with different model architectures demonstrate that SMART significantly enhances the ability of models to choose optimal strategies without external guidance (+15 points on the GSM8K dataset). By achieving higher accuracy with a single inference pass, SMART not only improves performance but also reduces computational costs for refinement-based strategies, paving the way for more efficient and intelligent reasoning in LMs.

arxiv情報

著者 Rongxing Liu,Kumar Shridhar,Manish Prajapat,Patrick Xia,Mrinmaya Sachan
発行日 2024-10-21 15:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | SMART: Self-learning Meta-strategy Agent for Reasoning Tasks はコメントを受け付けていません

A Data-driven Crowd Simulation Framework Integrating Physics-informed Machine Learning with Navigation Potential Fields

要約

従来のルールベースの物理モデルは、単一の物理式とパラメータに依存するため限界があり、群衆シミュレーションに関連する複雑なタスクに効果的に取り組むことが困難になっていました。
最近の研究では、これらの問題に取り組むために深層学習手法が導入されていますが、現在のアプローチのほとんどは主に歩行者の軌跡を生成することに焦点を当てており、多くの場合解釈可能性が欠けており、リアルタイムの動的シミュレーションを提供できません。前述の問題に対処するために、私たちは新しいデータ駆動型群集を提案します。
Physics-informed Machine Learning (PIML) とナビゲーション ポテンシャル フィールドを統合するシミュレーション フレームワーク。
私たちのアプローチは、物理モデルと PIML の両方の長所を活用しています。
具体的には、群衆の時空間データに基づいて歩行者の移動傾向を予測するためのデータ駆動型モジュールとして、革新的な物理情報に基づいた時空間グラフ畳み込みネットワーク (PI-STGCN) を設計します。
さらに、流れ場理論に基づいて歩行者の動きをガイドするナビゲーションポテンシャルフィールドの物理モデルを構築し、それによってシミュレーション中の物理的制約を強化します。
私たちのフレームワークでは、ナビゲーションの潜在的なフィールドは、PI-STGCN によって予測された移動傾向に基づいて動的に計算および更新されますが、これらのフィールドによって導かれた更新された群集ダイナミクスは、その後 PI-STGCN にフィードバックされます。
5 つのシーンにわたる 2 つの公的に利用可能な大規模な実世界データセットの比較実験により、私たちが提案したフレームワークが精度と忠実度において既存のルールベースの手法よりも優れていることが実証されました。
シミュレートされた歩行者の軌跡と実際の歩行者の軌跡の類似性は 10.8% 増加し、平均誤差は 4% 減少しました。
さらに、私たちのフレームワークは、軌道生成のために深層学習のみに依存する方法と比較して、より優れた適応性とより優れた解釈可能性を示します。

要約(オリジナル)

Traditional rule-based physical models are limited by their reliance on singular physical formulas and parameters, making it difficult to effectively tackle the intricate tasks associated with crowd simulation. Recent research has introduced deep learning methods to tackle these issues, but most current approaches focus primarily on generating pedestrian trajectories, often lacking interpretability and failing to provide real-time dynamic simulations.To address the aforementioned issues, we propose a novel data-driven crowd simulation framework that integrates Physics-informed Machine Learning (PIML) with navigation potential fields. Our approach leverages the strengths of both physical models and PIML. Specifically, we design an innovative Physics-informed Spatio-temporal Graph Convolutional Network (PI-STGCN) as a data-driven module to predict pedestrian movement trends based on crowd spatio-temporal data. Additionally, we construct a physical model of navigation potential fields based on flow field theory to guide pedestrian movements, thereby reinforcing physical constraints during the simulation. In our framework, navigation potential fields are dynamically computed and updated based on the movement trends predicted by the PI-STGCN, while the updated crowd dynamics, guided by these fields, subsequently feed back into the PI-STGCN. Comparative experiments on two publicly available large-scale real-world datasets across five scenes demonstrate that our proposed framework outperforms existing rule-based methods in accuracy and fidelity. The similarity between simulated and actual pedestrian trajectories increases by 10.8%, while the average error is reduced by 4%. Moreover, our framework exhibits greater adaptability and better interpretability compared to methods that rely solely on deep learning for trajectory generation.

arxiv情報

著者 Runkang Guo,Bin Chen,Qi Zhang,Yong Zhao,Xiao Wang,Zhengqiu Zhu
発行日 2024-10-21 15:56:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | A Data-driven Crowd Simulation Framework Integrating Physics-informed Machine Learning with Navigation Potential Fields はコメントを受け付けていません

MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs

要約

大規模言語モデル (LLM) は算術文章題を高精度で解くことができますが、トレーニングされた問題よりも複雑な問題に対して LLM がどの程度一般化できるかについてはほとんどわかっていません。
このような問題の実証的調査は、現在の評価の 2 つの大きな欠陥によって妨げられています。(i) 評価データの多くは、トレーニング中にすでに見られているという意味で汚染されています。(ii) ベンチマーク データセットは問題の証明方法を捉えていません。
さまざまな方法で任意に複雑になる可能性があります。
これらの問題に対処するためのステップとして、MathGAP と呼ばれる、任意に複雑な算術証明の問題について LLM を評価するためのフレームワークを紹介します。
MathGAP は、固定の証明仕様に従う問題を、思考連鎖推論の注釈とともに生成し、算術証明の複雑さに関する一般化に関する体系的な研究を可能にします。
MathGAP を適用して、コンテキスト内学習がより複雑な証明を持つ問題への一般化とどのように相互作用するかを分析します。
テストしたモデルのほとんどは、証明が深く広くなるにつれてパフォーマンスが大幅に低下することがわかりました。
この効果は、GPT-4o であっても困難な、複雑な非線形証明構造でより顕著になります。
驚くべきことに、テスト セットと同じディストリビューションからコンテキスト内の例を提供することは、パフォーマンスにとって常に有益であるとは限りません。
特に、ゼロショットのプロンプトだけでなく、テストデータよりも複雑ではないさまざまな例をデモンストレーションすると、同等またはより高い精度が得られる場合があります。

要約(オリジナル)

Large language models (LLMs) can solve arithmetic word problems with high accuracy, but little is known about how well they generalize to problems that are more complex than the ones on which they have been trained. Empirical investigations of such questions are impeded by two major flaws of current evaluations: (i) much of the evaluation data is contaminated, in the sense that it has already been seen during training, and (ii) benchmark datasets do not capture how problem proofs may be arbitrarily complex in various ways. As a step towards addressing these issues, we present a framework for evaluating LLMs on problems with arbitrarily complex arithmetic proofs, called MathGAP. MathGAP generates problems that follow fixed proof specifications — along with chain-of-thought reasoning annotations — enabling systematic studies on generalization with respect to arithmetic proof complexity. We apply MathGAP to analyze how in-context learning interacts with generalization to problems that have more complex proofs. We find that among the models tested, most show a significant decrease in performance as proofs get deeper and wider. This effect is more pronounced in complex, nonlinear proof structures, which are challenging even for GPT-4o. Surprisingly, providing in-context examples from the same distribution as the test set is not always beneficial for performance. In particular, zero-shot prompting as well as demonstrating a diverse range of examples that are less complex than the test data sometimes yield similar or higher accuracies.

arxiv情報

著者 Andreas Opedal,Haruki Shirakami,Bernhard Schölkopf,Abulhair Saparov,Mrinmaya Sachan
発行日 2024-10-21 15:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs はコメントを受け付けていません

Do Large Language Models Need a Content Delivery Network?

要約

大規模言語モデル (LLM) の使用が急速に拡大するにつれて、さまざまな LLM クエリを補足するために必要な知識の範囲も拡大しています。
したがって、LLM 推論において新しい知識を柔軟かつ効率的に注入できるようにすることが重要です。
3 つの高レベルのオプションが存在します: (i) LLM の重みに知識を埋め込む (つまり、微調整)、(ii) LLM のテキスト入力の一部として知識を含める (つまり、コンテキスト内学習)、または (iii)
プレフィル中に新しいナレッジの KV キャッシュを LLM に注入します。
この論文では、微調整とコンテキスト内学習が一般的ですが、知識の媒体として KV キャッシュを使用すると、知識注入のよりモジュール化された管理と、低コストで高速な応答によるより効率的な LLM サービスが同時に可能になる可能性があると主張しています。
これらのメリットを実現するために、私たちは、LLM エンジンやその他のコンピューティングおよびストレージ リソースにわたる KV キャッシュのストレージ、転送、構成を動的に最適化する、LLM サービスの新しいシステム コンポーネントである Knowledge Delivery Network (KDN) を構想しています。
Akamai などのコンテンツ配信ネットワーク (CDN) が効率的なデータ配信を通じてインターネット エコシステムの成功を可能にしたのと同様に、KDN は効率的なナレッジ配信を通じて LLM アプリケーションの成功に不可欠になると考えています。
KDN プロトタイプを https://github.com/LMCache/LMCache でオープンソース化しました。

要約(オリジナル)

As the use of large language models (LLMs) expands rapidly, so does the range of knowledge needed to supplement various LLM queries. Thus, enabling flexible and efficient injection of new knowledge in LLM inference is critical. Three high-level options exist: (i) embedding the knowledge in LLM’s weights (i.e., fine-tuning), (ii) including the knowledge as a part of LLM’s text input (i.e., in-context learning), or (iii) injecting the KV caches of the new knowledge to LLM during prefill. This paper argues that, although fine-tuning and in-context learning are popular, using KV caches as the medium of knowledge could simultaneously enable more modular management of knowledge injection and more efficient LLM serving with low cost and fast response. To realize these benefits, we envision a Knowledge Delivery Network (KDN), a new system component in LLM services that dynamically optimizes the storage, transfer, and composition of KV cache across LLM engines and other compute and storage resources. We believe that, just like content delivery networks (CDNs), such as Akamai, enabled the success of the Internet ecosystem through their efficient data delivery, KDNs will be critical to the success of LLM applications through their efficient knowledge delivery. We have open-sourced a KDN prototype at https://github.com/LMCache/LMCache.

arxiv情報

著者 Yihua Cheng,Kuntai Du,Jiayi Yao,Junchen Jiang
発行日 2024-10-21 15:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Do Large Language Models Need a Content Delivery Network? はコメントを受け付けていません

Exploring the Potential of Large Language Models for Heterophilic Graphs

要約

大規模言語モデル (LLM) は、グラフ ニューラル ネットワーク (GNN) を含むさまざまな機械学習アプリケーションを強化する重要な機会を提供します。
LLM 内の膨大なオープンワールドの知識を活用することで、テキスト データをより効果的に解釈して利用して、隣接するノードに異なるラベルが付いていることが多い異好性グラフの特徴をより適切に特徴付けることができます。
ただし、異好性グラフに対する既存のアプローチでは、ノードに関連付けられた豊富なテキスト データが見落とされており、異好性のコンテキストに対するより深い洞察が得られる可能性があります。
この研究では、異好性グラフをモデル化するための LLM の可能性を調査し、LLM 強化エッジ弁別器と LLM ガイド付きエッジ再重み付けという新しい 2 段階のフレームワークを提案します。
最初の段階では、LLM を微調整して、ノードのテキスト内容に基づいて同親和性エッジと異親和性エッジをより適切に識別します。
第 2 段階では、ノードの特徴、構造、異好性または同種性の特性に基づいて、さまざまなエッジ タイプの GNN でのメッセージ伝播を適応的に管理します。
実際のシナリオで LLM を展開する際の計算需要に対処するために、競争力のあるパフォーマンスを維持する、より小型で効率的なモデルを微調整するためのモデル抽出手法をさらに検討します。
広範な実験によりフレームワークの有効性が検証され、LLM を使用して異好性グラフ上のノード分類を強化する実現可能性が実証されました。

要約(オリジナル)

Large language models (LLMs) have presented significant opportunities to enhance various machine learning applications, including graph neural networks (GNNs). By leveraging the vast open-world knowledge within LLMs, we can more effectively interpret and utilize textual data to better characterize heterophilic graphs, where neighboring nodes often have different labels. However, existing approaches for heterophilic graphs overlook the rich textual data associated with nodes, which could unlock deeper insights into their heterophilic contexts. In this work, we explore the potential of LLMs for modeling heterophilic graphs and propose a novel two-stage framework: LLM-enhanced edge discriminator and LLM-guided edge reweighting. In the first stage, we fine-tune the LLM to better identify homophilic and heterophilic edges based on the textual content of their nodes. In the second stage, we adaptively manage message propagation in GNNs for different edge types based on node features, structures, and heterophilic or homophilic characteristics. To cope with the computational demands when deploying LLMs in practical scenarios, we further explore model distillation techniques to fine-tune smaller, more efficient models that maintain competitive performance. Extensive experiments validate the effectiveness of our framework, demonstrating the feasibility of using LLMs to enhance node classification on heterophilic graphs.

arxiv情報

著者 Yuxia Wu,Shujie Li,Yuan Fang,Chuan Shi
発行日 2024-10-21 15:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SI | Exploring the Potential of Large Language Models for Heterophilic Graphs はコメントを受け付けていません

Beyond 2:4: exploring V:N:M sparsity for efficient transformer inference on GPUs

要約

現在まで、2:4 スパース性は、GPU 上のスパース テンソル コアを使用して高速化できる唯一のスパース パターンです。
実際には、2:4 スパース性は実際の速度向上が低く ($\leq 1.3$)、固定のスパース比を必要とすることがよくあります。つまり、4:8、8:16、または 50% を超えるスパース性などの他の比率では影響がありません。
GPU の高速化。
最近の研究では、V:N:M スパース性が 2:4 スパース性の制限に対処する上で有望であることが示唆されています。
ただし、精度に関しては、ビジョン Transformer や大規模言語モデル (LLM) など、より広範な Transformer モデルに対する V:N:M スパース性の影響はほとんど調査されていません。
さらに、適切な V 値と M 値を選択する方法など、V:N:M スパース性に関連するいくつかの特定の問題は未解決のままです。
この研究では、下流のタスクに関連するものから、複数のタスクにわたるビジョン モデルと LLM における V:N:M スパース性の適用を徹底的に調査します。
我々は、ヒューリスティックな V および M 選択、V:N:M 固有のチャネル順列、および 3 段階の LoRA トレーニング手法を含む、V:N:M スパース トランスフォーマーの適用性と精度を向上させるための 3 つの主要なアプローチを提案します。
実験結果は、私たちの方法を使用すると、DeiT-small が 64:2:5 スパース性でロスレス精度を達成するのに対し、DeiT ベースは 64:2:8 スパース性でも精度を維持することを示しています。
さらに、64:2:5 スパースで微調整された LLama2-7B は、ダウンストリーム タスクにおいてトレーニング不要の 2:4 スパース代替案と同等以上のパフォーマンスを発揮します。
さらに重要なことは、V:N:M スパース トランスフォーマーは、2:4 スパースと比較して、高速化と精度のトレードオフの範囲が広いことです。
全体として、私たちの調査により、コスト重視の推論シナリオにおいて V:N:M スパース性が Transformer の真に効果的な加速ソリューションとして機能することが大幅に促進されました。

要約(オリジナル)

To date, 2:4 sparsity has stood as the only sparse pattern that can be accelerated using sparse tensor cores on GPUs. In practice, 2:4 sparsity often possesses low actual speedups ($\leq 1.3$) and requires fixed sparse ratios, meaning that other ratios, such as 4:8, 8:16, or those exceeding 50% sparsity, do not incur any speedups on GPUs. Recent studies suggest that V:N:M sparsity is promising in addressing these limitations of 2:4 sparsity. However, regarding accuracy, the effects of V:N:M sparsity on broader Transformer models, such as vision Transformers and large language models (LLMs), are largely unexamined. Moreover, Some specific issues related to V:N:M sparsity, such as how to select appropriate V and M values, remain unresolved. In this study, we thoroughly investigate the application of V:N:M sparsity in vision models and LLMs across multiple tasks, from pertaining to downstream tasks. We propose three key approaches to enhance the applicability and accuracy of V:N:M-sparse Transformers, including heuristic V and M selection, V:N:M-specific channel permutation, and three-staged LoRA training techniques. Experimental results show that, with our methods, the DeiT-small achieves lossless accuracy at 64:2:5 sparsity, while the DeiT-base maintains accuracy even at 64:2:8 sparsity. In addition, the fine-tuned LLama2-7B at 64:2:5 sparsity performs comparably or better than training-free 2:4 sparse alternatives on downstream tasks. More importantly, V:N:M-sparse Transformers offer a wider range of speedup-accuracy trade-offs compared to 2:4 sparsity. Overall, our exploration largely facilitates the V:N:M sparsity to act as a truly effective acceleration solution for Transformers in cost-sensitive inference scenarios.

arxiv情報

著者 Kang Zhao,Tao Yuan,Han Bao,Zhenfeng Su,Chang Gao,Zhaofeng Sun,Zichen Liang,Liping Jing,Jianfei Chen
発行日 2024-10-21 16:00:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Beyond 2:4: exploring V:N:M sparsity for efficient transformer inference on GPUs はコメントを受け付けていません

Modeling dynamic neural activity by combining naturalistic video stimuli and stimulus-independent latent factors

要約

脳が動的な自然刺激をどのように処理するかを理解することは、依然として神経科学における基本的な課題です。
現在の動的ニューラルエンコーディングモデルは、入力として刺激を受け取りますが、神経応答の共有変動を無視するか、視覚入力を無視して神経応答または動作から潜在的な埋め込みを導出することでこの変動をモデル化します。
このギャップに対処するために、我々はビデオ入力と刺激に依存しない潜在因子を組み込んでニューロン応答の変動を捉え、母集団全体の同時分布を予測する確率モデルを提案します。
マウス V1 ニューロン応答でモデルをトレーニングおよびテストした結果、対数尤度の点でビデオのみのモデルよりも優れており、他のニューロンからの応答に条件付けするとさらなる改善が達成されることがわかりました。
さらに、モデルは行動データなしでトレーニングされたにもかかわらず、学習された潜在的要因がマウスの行動と強く相関していることがわかりました。

要約(オリジナル)

Understanding how the brain processes dynamic natural stimuli remains a fundamental challenge in neuroscience. Current dynamic neural encoding models either take stimuli as input but ignore shared variability in neural responses, or they model this variability by deriving latent embeddings from neural responses or behavior while ignoring the visual input. To address this gap, we propose a probabilistic model that incorporates video inputs along with stimulus-independent latent factors to capture variability in neuronal responses, predicting a joint distribution for the entire population. After training and testing our model on mouse V1 neuronal responses, we found that it outperforms video-only models in terms of log-likelihood and achieves further improvements when conditioned on responses from other neurons. Furthermore, we find that the learned latent factors strongly correlate with mouse behavior, although the model was trained without behavior data.

arxiv情報

著者 Finn Schmidt,Suhas Shrinivasan,Polina Turishcheva,Fabian H. Sinz
発行日 2024-10-21 16:01:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.NC | Modeling dynamic neural activity by combining naturalistic video stimuli and stimulus-independent latent factors はコメントを受け付けていません

PODTILE: Facilitating Podcast Episode Browsing with Auto-generated Chapters

要約

ポッドキャスト エピソードなどの長いトーク オーディオ コンテンツのリスナーは、全体の構造を理解し、関連するセクションを見つけるのが難しいと感じることがよくあります。
実際的な解決策は、エピソードを章、つまりタイトルとタイムスタンプでラベル付けされた意味的に一貫したセグメントに分割することです。
現在、Spotify のプラットフォーム上のほとんどのエピソードにはクリエイターが提供するチャプターが欠けているため、チャプターの作成を自動化することが不可欠です。
ポッドキャスト エピソードのチャプタ化を拡大するには、特有の課題が伴います。
まず、エピソードは書かれたテキストよりも構造化されていない傾向があり、微妙な変化を伴う自発的な議論が特徴です。
第 2 に、トランスクリプトは通常、平均約 16,000 トークンと長く、コンテキストを維持できる効率的な処理が必要です。
これらの課題に対処するために、会話データをセグメント化するための微調整されたエンコーダー デコーダー トランスフォーマーである PODTILE を導入します。
このモデルは、入力トランスクリプトの章遷移とタイトルを同時に生成します。
コンテキストを保持するために、各入力テキストはエピソードのタイトル、説明、前の章のタイトルなどのグローバル コンテキストで強化されます。
当社の本質的な評価では、PODTILE は最も強力なベースラインと比較して ROUGE スコアで 11% の改善を達成しました。
さらに、エピソード コンテンツをナビゲートするリスナーにとって、自動生成されたチャプターの実際的な利点についての洞察も提供します。
私たちの調査結果は、自動生成されたチャプターが、あまり人気のないポッドキャストに参加するための便利なツールとして機能することを示しています。
最後に、章タイトルを使用すると、検索タスクにおけるスパース検索の有効性が向上するという経験的証拠を示します。

要約(オリジナル)

Listeners of long-form talk-audio content, such as podcast episodes, often find it challenging to understand the overall structure and locate relevant sections. A practical solution is to divide episodes into chapters–semantically coherent segments labeled with titles and timestamps. Since most episodes on our platform at Spotify currently lack creator-provided chapters, automating the creation of chapters is essential. Scaling the chapterization of podcast episodes presents unique challenges. First, episodes tend to be less structured than written texts, featuring spontaneous discussions with nuanced transitions. Second, the transcripts are usually lengthy, averaging about 16,000 tokens, which necessitates efficient processing that can preserve context. To address these challenges, we introduce PODTILE, a fine-tuned encoder-decoder transformer to segment conversational data. The model simultaneously generates chapter transitions and titles for the input transcript. To preserve context, each input text is augmented with global context, including the episode’s title, description, and previous chapter titles. In our intrinsic evaluation, PODTILE achieved an 11% improvement in ROUGE score over the strongest baseline. Additionally, we provide insights into the practical benefits of auto-generated chapters for listeners navigating episode content. Our findings indicate that auto-generated chapters serve as a useful tool for engaging with less popular podcasts. Finally, we present empirical evidence that using chapter titles can enhance effectiveness of sparse retrieval in search tasks.

arxiv情報

著者 Azin Ghazimatin,Ekaterina Garmash,Gustavo Penha,Kristen Sheets,Martin Achenbach,Oguz Semerci,Remi Galvez,Marcus Tannenberg,Sahitya Mantravadi,Divya Narayanan,Ofeliya Kalaydzhyan,Douglas Cole,Ben Carterette,Ann Clifton,Paul N. Bennett,Claudia Hauff,Mounia Lalmas
発行日 2024-10-21 16:17:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68P20, cs.AI, cs.IR, H.3.3 | PODTILE: Facilitating Podcast Episode Browsing with Auto-generated Chapters はコメントを受け付けていません

Small Contributions, Small Networks: Efficient Neural Network Pruning Based on Relative Importance

要約

最近の進歩により、ニューラル ネットワークは前例のないサイズに拡張され、幅広いタスクにわたって驚くべきパフォーマンスが達成されました。
ただし、リソースに制約のあるデバイスにこれらの大規模モデルを展開すると、大量のストレージとコンピューティング要件が発生するため、重大な課題が生じます。
ニューラル ネットワーク プルーニングは、モデルのサイズと複雑さを軽減することでこれらの制限を軽減する効果的な手法として登場しました。
この論文では、情報理論と統計分析に基づいた、活性化統計に基づく直感的で解釈可能な枝刈り手法を紹介します。
私たちのアプローチは、ニューロン活性化の統計的特性を利用して、ニューロン出力への寄与を最小限に抑えた重みを特定して削除します。
具体的には、データセット全体にわたる重み寄与の分布を構築し、そのパラメーターを利用して枝刈りプロセスをガイドします。
さらに、枝刈り手法の有効性を高めるために追加の正則化項を組み込んだ枝刈りを意識したトレーニング戦略を提案します。
複数のデータセットとネットワーク アーキテクチャに関する広範な実験により、私たちの手法がいくつかのベースラインおよび最先端の枝刈り手法よりも一貫して優れていることが実証されました。

要約(オリジナル)

Recent advancements have scaled neural networks to unprecedented sizes, achieving remarkable performance across a wide range of tasks. However, deploying these large-scale models on resource-constrained devices poses significant challenges due to substantial storage and computational requirements. Neural network pruning has emerged as an effective technique to mitigate these limitations by reducing model size and complexity. In this paper, we introduce an intuitive and interpretable pruning method based on activation statistics, rooted in information theory and statistical analysis. Our approach leverages the statistical properties of neuron activations to identify and remove weights with minimal contributions to neuron outputs. Specifically, we build a distribution of weight contributions across the dataset and utilize its parameters to guide the pruning process. Furthermore, we propose a Pruning-aware Training strategy that incorporates an additional regularization term to enhance the effectiveness of our pruning method. Extensive experiments on multiple datasets and network architectures demonstrate that our method consistently outperforms several baseline and state-of-the-art pruning techniques.

arxiv情報

著者 Mostafa Hussien,Mahmoud Afifi,Kim Khoa Nguyen,Mohamed Cheriet
発行日 2024-10-21 16:18:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE | Small Contributions, Small Networks: Efficient Neural Network Pruning Based on Relative Importance はコメントを受け付けていません

GenAI Assisting Medical Training

要約

静脈穿刺やカニューレ挿入などの医療処置は看護師にとって不可欠であり、正確なスキルが要求されます。
また、クラスあたりの教師の数とタスクの複雑さにより、このスキルを学習することは教育者にとっての課題となります。
この研究は、静脈穿刺やカニューレ挿入などの医療処置に関するリアルタイムのフィードバックを提供する生成 AI 手法を統合することで、学生のスキル習得を支援し、教育者の負担を軽減することを目的としています。

要約(オリジナル)

Medical procedures such as venipuncture and cannulation are essential for nurses and require precise skills. Learning this skill, in turn, is a challenge for educators due to the number of teachers per class and the complexity of the task. The study aims to help students with skill acquisition and alleviate the educator’s workload by integrating generative AI methods to provide real-time feedback on medical procedures such as venipuncture and cannulation.

arxiv情報

著者 Stefan Fritsch,Matthias Tschoepe,Vitor Fortes Rey,Lars Krupp,Agnes Gruenerbl,Eloise Monger,Sarah Travenna
発行日 2024-10-21 16:31:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | GenAI Assisting Medical Training はコメントを受け付けていません