cs.SE」カテゴリーアーカイブ

Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering

要約 言語モデル(LMS)は、標準化されたコーディングベンチマークでうまく機能し … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SE | Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering はコメントを受け付けていません

GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents

要約 高性能ソフトウェアの開発は、専門的な専門知識を必要とする複雑なタスクです。 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents はコメントを受け付けていません

LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents

要約 科学的具体化されたエージェントは、複雑な実験ワークフローを自動化することに … 続きを読む

カテゴリー: cs.RO, cs.SE | LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents はコメントを受け付けていません

GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git

要約 ソフトウェアエンジニアリング(SE)のベンチマーク(SE)AIエージェント … 続きを読む

カテゴリー: cs.AI, cs.SE | GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git はコメントを受け付けていません

Ontology- and LLM-based Data Harmonization for Federated Learning in Healthcare

要約 電子健康記録(EHRS)の台頭は、医学研究の新しい機会を解き放ちましたが、 … 続きを読む

カテゴリー: cs.LG, cs.SE | Ontology- and LLM-based Data Harmonization for Federated Learning in Healthcare はコメントを受け付けていません

Software Engineering for Self-Adaptive Robotics: A Research Agenda

要約 自己適応ロボットシステムは、動的で不確実な環境で自律的に動作するように設計 … 続きを読む

カテゴリー: cs.RO, cs.SE | Software Engineering for Self-Adaptive Robotics: A Research Agenda はコメントを受け付けていません

Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks

要約 大規模な言語モデル(LLMS)は、正式な仕様を生成することにより、自動化さ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LO, cs.SE | Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks はコメントを受け付けていません

StructEval: Benchmarking LLMs’ Capabilities to Generate Structural Outputs

要約 大規模な言語モデル(LLM)がソフトウェア開発ワークフローに不可欠になるに … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SE | StructEval: Benchmarking LLMs’ Capabilities to Generate Structural Outputs はコメントを受け付けていません

An Empirical Study on Strong-Weak Model Collaboration for Repo-level Code Generation

要約 弱いモデルがより低コストでシンプルなタスクを処理し、最も挑戦的なタスクが強 … 続きを読む

カテゴリー: cs.AI, cs.SE | An Empirical Study on Strong-Weak Model Collaboration for Repo-level Code Generation はコメントを受け付けていません

Evaluating Large Language Models for Code Review

要約 コンテキスト:ソフトウェアの品質にはコードレビューが重要です。 最近のAI … 続きを読む

カテゴリー: cs.AI, cs.SE | Evaluating Large Language Models for Code Review はコメントを受け付けていません