cs.AI」カテゴリーアーカイブ

Neptune: The Long Orbit to Benchmarking Long Video Understanding

要約 このペーパーでは、長いビデオを理解するための難しい質問、回答、おとりのセッ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Neptune: The Long Orbit to Benchmarking Long Video Understanding はコメントを受け付けていません

InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

要約 人間の認知と同様に、長期間にわたって環境と対話できる AI システムを作成 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions はコメントを受け付けていません

Owl-1: Omni World Model for Consistent Long Video Generation

要約 ビデオ生成モデル (VGM) は最近大きな注目を集めており、汎用大型ビジョ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Owl-1: Omni World Model for Consistent Long Video Generation はコメントを受け付けていません

TimeRefine: Temporal Grounding with Time Refining Video LLM

要約 ビデオの時間的グラウンディングは、テキストのプロンプトが与えられたビデオ内 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | TimeRefine: Temporal Grounding with Time Refining Video LLM はコメントを受け付けていません

Hidden Biases of End-to-End Driving Datasets

要約 エンドツーエンドの駆動システムは急速に進歩していますが、これまでのところ、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Hidden Biases of End-to-End Driving Datasets はコメントを受け付けていません

Olympus: A Universal Task Router for Computer Vision Tasks

要約 マルチモーダル大規模言語モデル (MLLM) を、さまざまなコンピューター … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Olympus: A Universal Task Router for Computer Vision Tasks はコメントを受け付けていません

Doe-1: Closed-Loop Autonomous Driving with Large World Model

要約 エンドツーエンドの自動運転は、大量のデータから学習できる可能性があるため、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Doe-1: Closed-Loop Autonomous Driving with Large World Model はコメントを受け付けていません

Exact Algorithms for Multiagent Path Finding with Communication Constraints on Tree-Like Structures

要約 複数のエージェントがネットワーク内を最適な方法で移動し、各エージェントが衝 … 続きを読む

カテゴリー: cs.AI, cs.CC | Exact Algorithms for Multiagent Path Finding with Communication Constraints on Tree-Like Structures はコメントを受け付けていません

EmoSpeech: A Corpus of Emotionally Rich and Contextually Detailed Speech Annotations

要約 テキスト読み上げ (TTS) テクノロジーの進歩により、生成される音声の品 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | EmoSpeech: A Corpus of Emotionally Rich and Contextually Detailed Speech Annotations はコメントを受け付けていません

Annotation-guided Protein Design with Multi-Level Domain Alignment

要約 de novo タンパク質設計の中心的な課題は、特定の条件に従って、特定の … 続きを読む

カテゴリー: cs.AI, cs.LG, q-bio.QM | Annotation-guided Protein Design with Multi-Level Domain Alignment はコメントを受け付けていません