cs.AI」カテゴリーアーカイブ

DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models

要約 モデルの編集は、時間のかかる完全な再訓練を必要とせずに、事前に訓練されたモ … 続きを読む

カテゴリー: cs.AI, cs.CV | DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models はコメントを受け付けていません

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

要約 GPT-4O様の大型マルチモーダルモデル(LMMS)の出現により、テキスト … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS | Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model はコメントを受け付けていません

Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning

要約 EGO-R1は、補強学習(RL)を介して訓練されたEGO-R1エージェント … 続きを読む

カテゴリー: cs.AI, cs.CV | Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning はコメントを受け付けていません

ROSA: Harnessing Robot States for Vision-Language and Action Alignment

要約 ビジョン言語モデル(VLM)の強力な一般化能力により、ビジョン言語アクショ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | ROSA: Harnessing Robot States for Vision-Language and Action Alignment はコメントを受け付けていません

VideoPDE: Unified Generative PDE Solving via Video Inpainting Diffusion Models

要約 ビデオインペインティング拡散トランスモデルを使用して、部分微分方程式(PD … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | VideoPDE: Unified Generative PDE Solving via Video Inpainting Diffusion Models はコメントを受け付けていません

Diagnosing and Improving Diffusion Models by Estimating the Optimal Loss Value

要約 拡散モデルは、生成モデリングで顕著な成功を収めています。 より安定したトレ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML | Diagnosing and Improving Diffusion Models by Estimating the Optimal Loss Value はコメントを受け付けていません

Towards a Cascaded LLM Framework for Cost-effective Human-AI Decision-Making

要約 効果的な人間と意思決定のバランスは、3つの重要な要素をバランスさせます。\ … 続きを読む

カテゴリー: cs.AI, cs.CL | Towards a Cascaded LLM Framework for Cost-effective Human-AI Decision-Making はコメントを受け付けていません

Foundation Models in Medical Imaging — A Review and Outlook

要約 ファンデーションモデル(FMS)は、非標識データの大規模なコレクションから … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | Foundation Models in Medical Imaging — A Review and Outlook はコメントを受け付けていません

Specification and Evaluation of Multi-Agent LLM Systems — Prototype and Cybersecurity Applications

要約 LLMの最近の進歩は、たとえば、最新のOpenaiおよびDeepseekモ … 続きを読む

カテゴリー: 68T01, cs.AI, cs.CR, I.2.1 | Specification and Evaluation of Multi-Agent LLM Systems — Prototype and Cybersecurity Applications はコメントを受け付けていません

VGR: Visual Grounded Reasoning

要約 マルチモーダルの考え方(COT)の推論の分野では、既存のアプローチは主に言 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | VGR: Visual Grounded Reasoning はコメントを受け付けていません