cs.AI」カテゴリーアーカイブ

D$^3$epth: Self-Supervised Depth Estimation with Dynamic Mask in Dynamic Scenes

要約 深度推定はロボット工学において重要な技術です。 最近、自己教師あり深度推定 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | D$^3$epth: Self-Supervised Depth Estimation with Dynamic Mask in Dynamic Scenes はコメントを受け付けていません

A multi-purpose automatic editing system based on lecture semantics for remote education

要約 遠隔授業は、その利便性と安全性により、特にパンデミックのような極端な状況下 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | A multi-purpose automatic editing system based on lecture semantics for remote education はコメントを受け付けていません

ZAHA: Introducing the Level of Facade Generalization and the Large-Scale Point Cloud Facade Semantic Segmentation Benchmark Dataset

要約 ファサードのセマンティック セグメンテーションは、写真測量とコンピュータ … 続きを読む

カテゴリー: cs.AI, cs.CV | ZAHA: Introducing the Level of Facade Generalization and the Large-Scale Point Cloud Facade Semantic Segmentation Benchmark Dataset はコメントを受け付けていません

C3T: Cross-modal Transfer Through Time for Human Action Recognition

要約 多様なセンサーの可能性を解き放つために、人間行動認識 (HAR) のための … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG, eess.SP | C3T: Cross-modal Transfer Through Time for Human Action Recognition はコメントを受け付けていません

Exploring QUIC Dynamics: A Large-Scale Dataset for Encrypted Traffic Analysis

要約 QUIC は、ますます使用されている新しいトランスポート プロトコルであり … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NI | Exploring QUIC Dynamics: A Large-Scale Dataset for Encrypted Traffic Analysis はコメントを受け付けていません

StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration

要約 AI 生成コンテンツ (AIGC) の出現により、従来のプロセスを合理化す … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MA | StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration はコメントを受け付けていません

DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

要約 このペーパーでは、ビデオ拡散を使用して単一の画像からフォトリアリスティック … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion はコメントを受け付けていません

M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding

要約 ドキュメントからの質問に答えるドキュメント ビジュアル質問応答 (DocV … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding はコメントを受け付けていません

Uncovering Hidden Subspaces in Video Diffusion Models Using Re-Identification

要約 潜在ビデオ拡散モデルは、生成された画質と時間的一貫性のおかげで、一般の観察 … 続きを読む

カテゴリー: cs.AI, cs.CV | Uncovering Hidden Subspaces in Video Diffusion Models Using Re-Identification はコメントを受け付けていません

HourVideo: 1-Hour Video-Language Understanding

要約 1 時間のビデオ言語理解のためのベンチマーク データセットである Hour … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | HourVideo: 1-Hour Video-Language Understanding はコメントを受け付けていません