Reasoning-Based AI for Startup Evaluation (R.A.I.S.E.): A Memory-Augmented, Multi-Step Decision Framework

要約

意思決定ツリーの解釈可能性と、スタートアップの成功を予測するための大規模な言語モデル(LLM)の高度な推論能力とのギャップを埋める新しいフレームワークを提示します。
私たちのアプローチは、詳細な推論ログを生成するためにチェーンの考え方を活用しており、その後、構造化された人間に理解しやすい論理ルールに蒸留されます。
パイプラインは、安定した意思決定と透明な出力の両方を確保するために、複数の強化 – 効率的なデータ摂取、2段階の洗練プロセス、アンサンブル候補サンプリング、シミュレーション補強学習スコアリング、および永続的なメモリを統合します。
キュレーションされたスタートアップデータセットでの実験的評価は、合計パイプラインが0.225から0.346に54%、精度が0.46から0.70に50%を50%に改善することを示しています。
特に、私たちのモデルは、ランダム分類器の精度(16%)の2倍以上を達成します。
最先端のAI推論と明示的なルールベースの説明を組み合わせることにより、私たちの方法は、従来の意思決定プロセスを強化するだけでなく、専門家の介入と継続的な政策改良を促進します。
この作業は、ハイステークス投資環境および透明性およびデータ駆動型の洞察を必要とするハイステークス投資環境およびその他のドメインにおける解釈可能なLLM駆動型決定フレームワークを実装するための基盤となります。

要約(オリジナル)

We present a novel framework that bridges the gap between the interpretability of decision trees and the advanced reasoning capabilities of large language models (LLMs) to predict startup success. Our approach leverages chain-of-thought prompting to generate detailed reasoning logs, which are subsequently distilled into structured, human-understandable logical rules. The pipeline integrates multiple enhancements – efficient data ingestion, a two-step refinement process, ensemble candidate sampling, simulated reinforcement learning scoring, and persistent memory – to ensure both stable decision-making and transparent output. Experimental evaluations on curated startup datasets demonstrate that our combined pipeline improves precision by 54% from 0.225 to 0.346 and accuracy by 50% from 0.46 to 0.70 compared to a standalone OpenAI o3 model. Notably, our model achieves over 2x the precision of a random classifier (16%). By combining state-of-the-art AI reasoning with explicit rule-based explanations, our method not only augments traditional decision-making processes but also facilitates expert intervention and continuous policy refinement. This work lays the foundation for the implementation of interpretable LLM-powered decision frameworks in high-stakes investment environments and other domains that require transparent and data-driven insights.

arxiv情報

著者 Jack Preuveneers,Joseph Ternasky,Fuat Alican,Yigit Ihlamur
発行日 2025-04-16 13:53:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, I.2.7 | Reasoning-Based AI for Startup Evaluation (R.A.I.S.E.): A Memory-Augmented, Multi-Step Decision Framework はコメントを受け付けていません

Towards LLM Agents for Earth Observation

要約

地球観察(EO)は、環境監視、災害管理、気候科学、およびその他の科学的領域のための重要な惑星データを提供します。
ここで尋ねます:AIシステムは信頼できる地球観測の準備ができていますか?
13のトピックと17の衛星センサーにわたってNASA Earth Observatory Articleからの140のはい/いいえの質問のベンチマークである\ datasetnamenospaceを紹介します。
Google Earth Engine APIをツールとして使用すると、LLMエージェントは58%以上の時間を実行できないため、33%の精度しか達成できません。
合成データを微調整することにより、オープンモデルの故障率を改善し、はるかに小さなモデル(llama-3.1-8b)を可能にして、はるかに大きな精度(deepseek-r1など)に匹敵する精度を達成します。
まとめると、私たちの調査結果は、AIエージェントが地球の観察を自動化し、前進することを示唆する前に、解決すべき重要な課題を特定します。
プロジェクトページは、https://iandrover.github.io/univearthで入手できます。

要約(オリジナル)

Earth Observation (EO) provides critical planetary data for environmental monitoring, disaster management, climate science, and other scientific domains. Here we ask: Are AI systems ready for reliable Earth Observation? We introduce \datasetnamenospace, a benchmark of 140 yes/no questions from NASA Earth Observatory articles across 13 topics and 17 satellite sensors. Using Google Earth Engine API as a tool, LLM agents can only achieve an accuracy of 33% because the code fails to run over 58% of the time. We improve the failure rate for open models by fine-tuning synthetic data, allowing much smaller models (Llama-3.1-8B) to achieve comparable accuracy to much larger ones (e.g., DeepSeek-R1). Taken together, our findings identify significant challenges to be solved before AI agents can automate earth observation, and suggest paths forward. The project page is available at https://iandrover.github.io/UnivEarth.

arxiv情報

著者 Chia Hsiang Kao,Wenting Zhao,Shreelekha Revankar,Samuel Speas,Snehal Bhagat,Rajeev Datta,Cheng Perng Phoo,Utkarsh Mall,Carl Vondrick,Kavita Bala,Bharath Hariharan
発行日 2025-04-16 14:19:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Towards LLM Agents for Earth Observation はコメントを受け付けていません

LLM Unlearning Reveals a Stronger-Than-Expected Coreset Effect in Current Benchmarks

要約

大規模な言語モデルの未解決は、一般的なユーティリティを維持しながら、未抑制モデルから望ましくないデータモデルの影響を除去することにより、安全性と制御されたモデルの行動を確保する上で重要な課題となっています。
最近の大幅な取り組みは、WMDP(武器の大量破壊プロキシ)やMuse(6方向評価の学習マシン)などのLLM学習ベンチマークの開発に専念しており、標準化されたパフォーマンス評価と方法比較を促進しています。
それらの有用性にもかかわらず、これらのベンチマーク内で初めて新しいコアセット効果を明らかにします。
具体的には、オリジナル(フル)忘却セットで達成されたLLMの未解決は、ランダムに選択された場合でも、忘却セットの5%(「コアセット」として機能する)を使用して効果的に維持できることがわかります。
これは、これらのベンチマークで学習することは、非常に低い乳田体制であっても、驚くほど簡単に実行できることを示唆しています。
これらのベンチマークで人気のものであるNPO(ネガティブ優先最適化)やRMU(表現の誤った方向の解除)など、使用されるLLMの学習方法に関係なく、このコアセット効果は強力なままであることを実証します。
驚くほど強いコアセット効果は、ランダム選択からより洗練されたヒューリスティックアプローチに至るまで、さまざまなデータ選択方法にわたって堅牢です。
キーワードベースの視点を介してLLMのコアセット効果を説明し、忘れられたセットだけから抽出されたキーワードが有効性の不足に大きく貢献し、現在の学習がデータセット全体ではなくコンパクトな衝撃トークンによって駆動されることを示します。
さらに、モードの接続性や侵入攻撃への堅牢性など、追加の寸法に沿ったCoreset-Unlearnedモデルの忠実さを正当化します。
コードはhttps://github.com/optml-group/mu-coretetで入手できます。

要約(オリジナル)

Large language model unlearning has become a critical challenge in ensuring safety and controlled model behavior by removing undesired data-model influences from the pretrained model while preserving general utility. Significant recent efforts have been dedicated to developing LLM unlearning benchmarks such as WMDP (Weapons of Mass Destruction Proxy) and MUSE (Machine Unlearning Six-way Evaluation), facilitating standardized unlearning performance assessment and method comparison. Despite their usefulness, we uncover for the first time a novel coreset effect within these benchmarks. Specifically, we find that LLM unlearning achieved with the original (full) forget set can be effectively maintained using a significantly smaller subset (functioning as a ‘coreset’), e.g., as little as 5% of the forget set, even when selected at random. This suggests that LLM unlearning in these benchmarks can be performed surprisingly easily, even in an extremely low-data regime. We demonstrate that this coreset effect remains strong, regardless of the LLM unlearning method used, such as NPO (Negative Preference Optimization) and RMU (Representation Misdirection Unlearning), the popular ones in these benchmarks. The surprisingly strong coreset effect is also robust across various data selection methods, ranging from random selection to more sophisticated heuristic approaches. We explain the coreset effect in LLM unlearning through a keyword-based perspective, showing that keywords extracted from the forget set alone contribute significantly to unlearning effectiveness and indicating that current unlearning is driven by a compact set of high-impact tokens rather than the entire dataset. We further justify the faithfulness of coreset-unlearned models along additional dimensions, such as mode connectivity and robustness to jailbreaking attacks. Codes are available at https://github.com/OPTML-Group/MU-Coreset.

arxiv情報

著者 Soumyadeep Pal,Changsheng Wang,James Diffenderfer,Bhavya Kailkhura,Sijia Liu
発行日 2025-04-16 14:45:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | LLM Unlearning Reveals a Stronger-Than-Expected Coreset Effect in Current Benchmarks はコメントを受け付けていません

Task Memory Engine (TME): A Structured Memory Framework with Graph-Aware Extensions for Multi-Step LLM Agent Tasks

要約

大規模な言語モデル(LLM)は、マルチステップタスクの自律エージェントとしてますます使用されています。
ただし、ほとんどの既存のフレームワークは、タスク状態の構造化された理解を維持することができず、多くの場合、線形プロンプトの連結または浅いメモリバッファに依存しています。
これは、脆い性能、頻繁な幻覚、および長距離の依存性の低さにつながります。
この作業では、階層タスクメモリツリー(TMT)を使用してタスクの実行を追跡する軽量で構造化されたメモリモジュールであるタスクメモリエンジン(TME)を提案します。
ツリー内の各ノードはタスクステップに対応し、関連する入力、出力、ステータス、およびサブタスクの関係を保存します。
アクティブなノードパスに基づいてLLMプロンプトを動的に生成するプロンプト合成方法を導入し、実行の一貫性とコンテキスト接地を大幅に改善します。
マルチステップエージェントタスクに関するケーススタディと比較実験を通じて、TMEが最小限の実装のオーバーヘッドでより良いタスク完了精度とより解釈可能な動作につながることを実証します。
コアTMEコンポーネントの参照実装は、https://github.com/biubiutomato/tme-agentで入手できます。これには、基本的な例と構造化されたメモリ統合が含まれます。
現在の実装ではツリーベースの構造を使用していますが、TMEはグラフ認識として設計されており、再利用可能なサブセンプ、収束タスクパス、共有依存関係をサポートしています。
これは、将来のDAGベースのメモリアーキテクチャの基礎となります。

要約(オリジナル)

Large Language Models (LLMs) are increasingly used as autonomous agents for multi-step tasks. However, most existing frameworks fail to maintain a structured understanding of the task state, often relying on linear prompt concatenation or shallow memory buffers. This leads to brittle performance, frequent hallucinations, and poor long-range coherence. In this work, we propose the Task Memory Engine (TME), a lightweight and structured memory module that tracks task execution using a hierarchical Task Memory Tree (TMT). Each node in the tree corresponds to a task step, storing relevant input, output, status, and sub-task relationships. We introduce a prompt synthesis method that dynamically generates LLM prompts based on the active node path, significantly improving execution consistency and contextual grounding. Through case studies and comparative experiments on multi-step agent tasks, we demonstrate that TME leads to better task completion accuracy and more interpretable behavior with minimal implementation overhead. A reference implementation of the core TME components is available at https://github.com/biubiutomato/TME-Agent, including basic examples and structured memory integration. While the current implementation uses a tree-based structure, TME is designed to be graph-aware, supporting reusable substeps, converging task paths, and shared dependencies. This lays the groundwork for future DAG-based memory architectures.

arxiv情報

著者 Ye Ye
発行日 2025-04-16 14:48:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, cs.AI, cs.CL, H.3.3 | Task Memory Engine (TME): A Structured Memory Framework with Graph-Aware Extensions for Multi-Step LLM Agent Tasks はコメントを受け付けていません

ARCeR: an Agentic RAG for the Automated Definition of Cyber Ranges

要約

サイバーセキュリティの脅威の成長と進化する状況は、サイバー範囲(CR)として仮想的で制御された設定内で動作する現実的なIT環境の作成を可能にするサポートツールとプラットフォームの開発を必要とします。
CRSは、脆弱性を分析し、考案された対策の有効性を実験するために活用され、ITオペレーターのサイバーセキュリティスキルと能力を構築するためのトレーニング環境として機能することができます。
この論文は、自然言語でのユーザーが提供する説明から始まるCRSの自動生成と展開のための革新的なソリューションとしてArcerを提案しています。
アーサーはエージェントRAGパラダイムに依存しており、最先端のAIテクノロジーを完全に活用できます。
実験結果は、LLMSまたは基本的なRAGシステムが対処できない場合でも、アーサーがプロンプトをうまく処理できることを示しています。
さらに、特定の知識が利用可能になった場合、ArcerはCRフレームワークをターゲットにすることができます。

要約(オリジナル)

The growing and evolving landscape of cybersecurity threats necessitates the development of supporting tools and platforms that allow for the creation of realistic IT environments operating within virtual, controlled settings as Cyber Ranges (CRs). CRs can be exploited for analyzing vulnerabilities and experimenting with the effectiveness of devised countermeasures, as well as serving as training environments for building cyber security skills and abilities for IT operators. This paper proposes ARCeR as an innovative solution for the automatic generation and deployment of CRs, starting from user-provided descriptions in a natural language. ARCeR relies on the Agentic RAG paradigm, which allows it to fully exploit state-of-art AI technologies. Experimental results show that ARCeR is able to successfully process prompts even in cases that LLMs or basic RAG systems are not able to cope with. Furthermore, ARCeR is able to target any CR framework provided that specific knowledge is made available to it.

arxiv情報

著者 Matteo Lupinacci,Francesco Blefari,Francesco Romeo,Francesco Aurelio Pironti,Angelo Furfaro
発行日 2025-04-16 14:53:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | ARCeR: an Agentic RAG for the Automated Definition of Cyber Ranges はコメントを受け付けていません

Heimdall: test-time scaling on the generative verification

要約

AIシステムは、知識自体を確認できる範囲でのみ、知識を作成および維持できます。
長い考え方の推論に関する最近の研究は、競争上の問題を解決するためのLLMの大きな可能性を実証していますが、その検証能力は弱く、十分に調査されていないことを示しています。
この論文では、ソリューションの正確性を正確に判断できる長いCOT検証LLMであるHeimdallを提案します。
純粋な強化学習により、競争力のある数学の問題で検証精度を62.5%から94.5%に増やします。
サンプリングを繰り返してスケーリングすることにより、精度はさらに97.5%に増加します。
Heimdallは、人間の評価を通じて、印象的な一般化能力を実証し、挑戦的な数学の証明のほとんどの問題をうまく検出します。トレーニング中には含まれていません。
さらに、Heimdallの機能を拡張して問題解決を拡大するために、悲観的な検証を提案します。
ソルバーモデルからソリューションを判断し、悲観的な原理に基づいて、Heimdallを呼び出して、不確実性が最も少ない最も可能性の高いソリューションを選択します。
DeepSeek-R1-Distill-Qwen-32Bをソルバーモデルとして採用すると、悲観的な検証により、AIME2025のソリューションの精度が54.2%から70.0%に16倍の計算予算で、より多くの計算予算で83.3%になります。
Solver Gemini 2.5 Proが強いと、スコアは93.0%に達します。
最後に、自動知識発見システムをプロトタイプ化します。これは、質問を提起する三元システムであり、別の人がソリューションを提供し、3番目のシステムがソリューションを検証します。
最初の2つのコンポーネントにデータ合成作業nuniNamathを使用すると、Heimdallはデータセット内の問題のあるレコードを効果的に識別し、データのほぼ半分が欠陥があることを明らかにします。

要約(オリジナル)

An AI system can create and maintain knowledge only to the extent that it can verify that knowledge itself. Recent work on long Chain-of-Thought reasoning has demonstrated great potential of LLMs on solving competitive problems, but their verification ability remains to be weak and not sufficiently investigated. In this paper, we propose Heimdall, the long CoT verification LLM that can accurately judge the correctness of solutions. With pure reinforcement learning, we boost the verification accuracy from 62.5% to 94.5% on competitive math problems. By scaling with repeated sampling, the accuracy further increases to 97.5%. Through human evaluation, Heimdall demonstrates impressive generalization capabilities, successfully detecting most issues in challenging math proofs, the type of which is not included during training. Furthermore, we propose Pessimistic Verification to extend the functionality of Heimdall to scaling up the problem solving. It calls Heimdall to judge the solutions from a solver model and based on the pessimistic principle, selects the most likely correct solution with the least uncertainty. Taking DeepSeek-R1-Distill-Qwen-32B as the solver model, Pessimistic Verification improves the solution accuracy on AIME2025 from 54.2% to 70.0% with 16x compute budget and to 83.3% with more compute budget. With the stronger solver Gemini 2.5 Pro, the score reaches 93.0%. Finally, we prototype an automatic knowledge discovery system, a ternary system where one poses questions, another provides solutions, and the third verifies the solutions. Using the data synthesis work NuminaMath for the first two components, Heimdall effectively identifies problematic records within the dataset and reveals that nearly half of the data is flawed, which interestingly aligns with the recent ablation studies from NuminaMath.

arxiv情報

著者 Wenlei Shi,Xing Jin
発行日 2025-04-16 14:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, I.2.7 | Heimdall: test-time scaling on the generative verification はコメントを受け付けていません

VeriMind: Agentic LLM for Automated Verilog Generation with a Novel Evaluation Metric

要約

Verilogモジュールを設計するには、正確性、効率、および設計仕様の順守に細心の注意が必要です。
ただし、Verilogコードを手動で書くことは、専門知識と反復改良の両方を要求する複雑で時間のかかるタスクのままです。
大規模な言語モデル(LLMS)とその構造化されたテキスト生成機能の最近の進歩を活用して、合成プロセスを大幅に自動化および最適化するVerilogコード生成のエージェントLLMフレームワークであるVerimindを提案します。
従来のLLMベースのコードジェネレーターとは異なり、Verimindは構造化された推論アプローチを採用しています。設計要件を説明するユーザーが提供するプロンプトを考えると、システムは最初に最終Verilogコードが生成される前に詳細な思考列を策定します。
このマルチステップの方法論は、ハードウェア設計における解釈可能性、精度、適応性を高めます。
さらに、従来のPass@Kメジャーと平均洗練サイクル(ARC)を組み合わせて、成功率と反復改良の効率の両方をキャプチャする新しい評価Metric-Pass@arc-arcを紹介します。
多様なハードウェア設計タスクの実験結果は、私たちのアプローチがPass@Kメトリックで最大$ 8.3 \%$の改善とPass@arcメトリックで$ 8.1 \%$を達成したことを実証しました。
これらの調査結果は、自動化されたハードウェア設計、RTL開発、デジタルシステムの合成におけるエージェントLLMの変革の可能性を強調しています。

要約(オリジナル)

Designing Verilog modules requires meticulous attention to correctness, efficiency, and adherence to design specifications. However, manually writing Verilog code remains a complex and time-consuming task that demands both expert knowledge and iterative refinement. Leveraging recent advancements in large language models (LLMs) and their structured text generation capabilities, we propose VeriMind, an agentic LLM framework for Verilog code generation that significantly automates and optimizes the synthesis process. Unlike traditional LLM-based code generators, VeriMind employs a structured reasoning approach: given a user-provided prompt describing design requirements, the system first formulates a detailed train of thought before the final Verilog code is generated. This multi-step methodology enhances interpretability, accuracy, and adaptability in hardware design. In addition, we introduce a novel evaluation metric-pass@ARC-which combines the conventional pass@k measure with Average Refinement Cycles (ARC) to capture both success rate and the efficiency of iterative refinement. Experimental results on diverse hardware design tasks demonstrated that our approach achieved up to $8.3\%$ improvement on pass@k metric and $8.1\%$ on pass@ARC metric. These findings underscore the transformative potential of agentic LLMs in automated hardware design, RTL development, and digital system synthesis.

arxiv情報

著者 Bardia Nadimi,Ghali Omar Boutaib,Hao Zheng
発行日 2025-04-16 14:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.LG, cs.PL | VeriMind: Agentic LLM for Automated Verilog Generation with a Novel Evaluation Metric はコメントを受け付けていません

Towards Explainable Fusion and Balanced Learning in Multimodal Sentiment Analysis

要約

マルチモーダルセンチメント分析(MSA)は、2つの重要な課題に直面しています。マルチモーダル融合の決定論理と、モーダル間情報密度の格差によって引き起こされるモダリティの不均衡の欠如です。
これらの問題に対処するために、Kan-MCPを提案します。これは、Kolmogorov-Arnold Networks(Kan)の解釈可能性をマルチモーダルクリーンパレート(McPareto)フレームワークの堅牢性と統合する斬新なフレームワークです。
第一に、Kanはその単変量関数分解を活用して、クロスモーダル相互作用の透明な分析を実現します。
この構造設計により、外部解釈ツールに依存することなく、機能変換を直接検査することで、高い表現力と解釈可能性の両方を確保できます。
第二に、提案されたMCPARETOは、モダリティの不均衡とノイズ干渉に対処することにより、堅牢性を高めます。
具体的には、機能の次元性を共同で除去および削減するModal Information Bottleneck(DRD-MIB)メソッドの次元削減と除去を導入します。
このアプローチは、重要な感情関連情報を保存しながらKANのモデリングの複雑さを減らすために、Kanに識別的な低次元の入力を提供します。
さらに、MCPARETOは、DRD-MIBによる精製機能出力を使用して、モダリティ全体で勾配の寄与を動的にバランスさせ、補助信号のロスレス送信を確保し、モダリティの不均衡を効果的に緩和します。
解釈可能性と堅牢性のこの相乗効果は、CMU-Mosi、CMU-Mosei、CH-SIMS V2などのベンチマークデータセットで優れたパフォーマンスを達成するだけでなく、Kanの解釈可能なアーキテクチャを通じて直感的な視覚化インターフェイスを提供します。

要約(オリジナル)

Multimodal Sentiment Analysis (MSA) faces two critical challenges: the lack of interpretability in the decision logic of multimodal fusion and modality imbalance caused by disparities in inter-modal information density. To address these issues, we propose KAN-MCP, a novel framework that integrates the interpretability of Kolmogorov-Arnold Networks (KAN) with the robustness of the Multimodal Clean Pareto (MCPareto) framework. First, KAN leverages its univariate function decomposition to achieve transparent analysis of cross-modal interactions. This structural design allows direct inspection of feature transformations without relying on external interpretation tools, thereby ensuring both high expressiveness and interpretability. Second, the proposed MCPareto enhances robustness by addressing modality imbalance and noise interference. Specifically, we introduce the Dimensionality Reduction and Denoising Modal Information Bottleneck (DRD-MIB) method, which jointly denoises and reduces feature dimensionality. This approach provides KAN with discriminative low-dimensional inputs to reduce the modeling complexity of KAN while preserving critical sentiment-related information. Furthermore, MCPareto dynamically balances gradient contributions across modalities using the purified features output by DRD-MIB, ensuring lossless transmission of auxiliary signals and effectively alleviating modality imbalance. This synergy of interpretability and robustness not only achieves superior performance on benchmark datasets such as CMU-MOSI, CMU-MOSEI, and CH-SIMS v2 but also offers an intuitive visualization interface through KAN’s interpretable architecture.

arxiv情報

著者 Miaosen Luo,Yuncheng Jiang,Sijie Mai
発行日 2025-04-16 15:00:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Towards Explainable Fusion and Balanced Learning in Multimodal Sentiment Analysis はコメントを受け付けていません

Future Aware Safe Active Learning of Time Varying Systems using Gaussian Processes

要約

エンジニアリングアプリケーションで一般的な安全上の制約を伴う高コストシステムの実験的調査は、挑戦的な努力です。
データ駆動型モデルは有望なソリューションを提供しますが、必要なデータを取得することは高価なままであり、潜在的に安全ではありません。
安全な積極的な学習技術は不可欠であり、高価なデータポイントと高い安全性を備えた高品質モデルの学習を可能にします。
このペーパーでは、時変システムに合わせて調整された安全なアクティブな学習フレームワークを紹介し、動的な動作によるドリフト、季節の変化、複雑さに対処します。
提案された時間認識統合平均二乗予測誤差(T-IMSPE)メソッドは、現在および将来の状態にわたって後方分散を最小限に抑え、時間領域でも情報収集を最適化します。
経験的結果は、おもちゃや現実世界の例を通じて、モデル品質におけるT-IMSPEの利点を強調しています。
最先端のガウスプロセスは、t-imspeと互換性があります。
私たちの理論的貢献には、ガウスのプロセスカーネル、ドメイン、および重み付け測定がT-IMSPEに適していることがあり、それ以前のことではないIMSPEにさらに適している明確な描写が含まれます。

要約(オリジナル)

Experimental exploration of high-cost systems with safety constraints, common in engineering applications, is a challenging endeavor. Data-driven models offer a promising solution, but acquiring the requisite data remains expensive and is potentially unsafe. Safe active learning techniques prove essential, enabling the learning of high-quality models with minimal expensive data points and high safety. This paper introduces a safe active learning framework tailored for time-varying systems, addressing drift, seasonal changes, and complexities due to dynamic behavior. The proposed Time-aware Integrated Mean Squared Prediction Error (T-IMSPE) method minimizes posterior variance over current and future states, optimizing information gathering also in the time domain. Empirical results highlight T-IMSPE’s advantages in model quality through toy and real-world examples. State of the art Gaussian processes are compatible with T-IMSPE. Our theoretical contributions include a clear delineation which Gaussian process kernels, domains, and weighting measures are suitable for T-IMSPE and even beyond for its non-time aware predecessor IMSPE.

arxiv情報

著者 Markus Lange-Hegermann,Christoph Zimmer
発行日 2025-04-16 15:24:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, G.3, math.OC, math.PR | Future Aware Safe Active Learning of Time Varying Systems using Gaussian Processes はコメントを受け付けていません

Poem Meter Classification of Recited Arabic Poetry: Integrating High-Resource Systems for a Low-Resource Task

要約

アラビア語の詩は、アラビア語と文化の不可欠で不可欠な部分です。
アラブ人は、残忍な戦いや紛争の描写など、主要なイベントに光を当てるために使用されてきました。
彼らはまた、他の多くの言語のように、ロマンス、プライド、嘆きなどのさまざまな目的のためにそれを使用しました。アラビア語の詩は数十年にわたって言語学から大きな注目を集めてきました。
アラビア語の詩の主な特徴の1つは、散文とは対照的に、その特別なリズミカルな構造です。
この構造はメーターと呼ばれます。
メーターは、他の詩的な特徴とともに、「\ textit {aroud}」と呼ばれるアラビア語の言語分野で集中的に研究されています。
詩のためにこれらのメーターを特定することは、長く複雑なプロセスです。
また、\ textit {aruod}の技術的知識も必要です。
唱えられた詩には、処理の余分な層が追加されます。
唱えられた詩の詩メーターを自動的に識別するためのシステムを開発するには、大量のラベル付きデータが必要です。
この研究では、朗読されたアラビア語の詩の詩メーターを特定するための最先端のフレームワークを提案します。この詩では、2つの個別の高リソースシステムを統合して低リソースタスクを実行します。
提案されたアーキテクチャの一般化を確保するために、将来の研究のためにこのタスクのベンチマークを公開します。

要約(オリジナル)

Arabic poetry is an essential and integral part of Arabic language and culture. It has been used by the Arabs to spot lights on their major events such as depicting brutal battles and conflicts. They also used it, as in many other languages, for various purposes such as romance, pride, lamentation, etc. Arabic poetry has received major attention from linguistics over the decades. One of the main characteristics of Arabic poetry is its special rhythmic structure as opposed to prose. This structure is referred to as a meter. Meters, along with other poetic characteristics, are intensively studied in an Arabic linguistic field called ‘\textit{Aroud}’. Identifying these meters for a verse is a lengthy and complicated process. It also requires technical knowledge in \textit{Aruod}. For recited poetry, it adds an extra layer of processing. Developing systems for automatic identification of poem meters for recited poems need large amounts of labelled data. In this study, we propose a state-of-the-art framework to identify the poem meters of recited Arabic poetry, where we integrate two separate high-resource systems to perform the low-resource task. To ensure generalization of our proposed architecture, we publish a benchmark for this task for future research.

arxiv情報

著者 Maged S. Al-Shaibani,Zaid Alyafeai,Irfan Ahmad
発行日 2025-04-16 15:25:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Poem Meter Classification of Recited Arabic Poetry: Integrating High-Resource Systems for a Low-Resource Task はコメントを受け付けていません