cs.SE」カテゴリーアーカイブ

ChartMimic: Evaluating LMM’s Cross-Modal Reasoning Capability via Chart-to-Code Generation

要約 大規模なマルチモーダルモデル(LMM)の視覚的に接地されたコード生成機能を … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SE | ChartMimic: Evaluating LMM’s Cross-Modal Reasoning Capability via Chart-to-Code Generation はコメントを受け付けていません

Pragmatic Reasoning improves LLM Code Generation

要約 大規模な言語モデル(LLM)は、自然言語(NL)の命令をプログラムコードに … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SE | Pragmatic Reasoning improves LLM Code Generation はコメントを受け付けていません

LLMs in the Heart of Differential Testing: A Case Study on a Medical Rule Engine

要約 ノルウェーのCancer Registry(CRN)は、自動癌登録サポート … 続きを読む

カテゴリー: cs.AI, cs.SE | LLMs in the Heart of Differential Testing: A Case Study on a Medical Rule Engine はコメントを受け付けていません

The BrowserGym Ecosystem for Web Agent Research

要約 Browsergym Ecosystemは、Webエージェントの効率的な評 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SE | The BrowserGym Ecosystem for Web Agent Research はコメントを受け付けていません

SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning

要約 主流の問題解決フレームワークは主に商業モデルに依存しており、高コストとプラ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SE | SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning はコメントを受け付けていません

Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation

要約 科学的発見を加速する言語モデル(LMS)の可能性についての興奮が高まってい … 続きを読む

カテゴリー: cs.LG, cs.SE | Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation はコメントを受け付けていません

Isolating Language-Coding from Problem-Solving: Benchmarking LLMs with PseudoEval

要約 HumanvalやMBPPなどの大規模な言語モデル(LLMS)の既存のコー … 続きを読む

カテゴリー: cs.CL, cs.SE | Isolating Language-Coding from Problem-Solving: Benchmarking LLMs with PseudoEval はコメントを受け付けていません

Learning Code-Edit Embedding to Model Student Debugging Behavior

要約 コンピューターサイエンス教育におけるプログラミングの割り当てのための効果的 … 続きを読む

カテゴリー: cs.CL, cs.SE | Learning Code-Edit Embedding to Model Student Debugging Behavior はコメントを受け付けていません

Drawing Pandas: A Benchmark for LLMs in Generating Plotting Code

要約 このペーパーでは、視覚データ探索のアシスタントとしての言語モデルの有効性を … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SE | Drawing Pandas: A Benchmark for LLMs in Generating Plotting Code はコメントを受け付けていません

Learning to Generate Unit Tests for Automated Debugging

要約 ユニットテスト(UT)は、コードの正確性を評価したり、大規模な言語モデル( … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | Learning to Generate Unit Tests for Automated Debugging はコメントを受け付けていません