「cs.AI」カテゴリーアーカイブ

DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models

投稿日: 2025年6月17日作成者: jarxiv

要約モデルの編集は、時間のかかる完全な再訓練を必要とせずに、事前に訓練されたモ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

投稿日: 2025年6月17日作成者: jarxiv

要約 GPT-4O様の大型マルチモーダルモデル（LMMS）の出現により、テキスト … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning

投稿日: 2025年6月17日作成者: jarxiv

要約 EGO-R1は、補強学習（RL）を介して訓練されたEGO-R1エージェント … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

ROSA: Harnessing Robot States for Vision-Language and Action Alignment

投稿日: 2025年6月17日作成者: jarxiv

要約ビジョン言語モデル（VLM）の強力な一般化能力により、ビジョン言語アクショ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

VideoPDE: Unified Generative PDE Solving via Video Inpainting Diffusion Models

投稿日: 2025年6月17日作成者: jarxiv

要約ビデオインペインティング拡散トランスモデルを使用して、部分微分方程式（PD … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Diagnosing and Improving Diffusion Models by Estimating the Optimal Loss Value

投稿日: 2025年6月17日作成者: jarxiv

要約拡散モデルは、生成モデリングで顕著な成功を収めています。より安定したトレ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML | コメントを受け付けていません

Towards a Cascaded LLM Framework for Cost-effective Human-AI Decision-Making

投稿日: 2025年6月17日作成者: jarxiv

要約効果的な人間と意思決定のバランスは、3つの重要な要素をバランスさせます。\ … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Foundation Models in Medical Imaging — A Review and Outlook

投稿日: 2025年6月17日作成者: jarxiv

要約ファンデーションモデル（FMS）は、非標識データの大規模なコレクションから … 続きを読む →

カテゴリー: cs.AI, cs.CV, eess.IV | コメントを受け付けていません

Specification and Evaluation of Multi-Agent LLM Systems — Prototype and Cybersecurity Applications

投稿日: 2025年6月17日作成者: jarxiv

要約 LLMの最近の進歩は、たとえば、最新のOpenaiおよびDeepseekモ … 続きを読む →

カテゴリー: 68T01, cs.AI, cs.CR, I.2.1 | コメントを受け付けていません

VGR: Visual Grounded Reasoning

投稿日: 2025年6月17日作成者: jarxiv

要約マルチモーダルの考え方（COT）の推論の分野では、既存のアプローチは主に言 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning

ROSA: Harnessing Robot States for Vision-Language and Action Alignment

VideoPDE: Unified Generative PDE Solving via Video Inpainting Diffusion Models

Diagnosing and Improving Diffusion Models by Estimating the Optimal Loss Value

Towards a Cascaded LLM Framework for Cost-effective Human-AI Decision-Making

Foundation Models in Medical Imaging — A Review and Outlook

Specification and Evaluation of Multi-Agent LLM Systems — Prototype and Cybersecurity Applications

VGR: Visual Grounded Reasoning

最近の投稿

最近のコメント

アーカイブ

カテゴリー