cs.CV」カテゴリーアーカイブ

PillarMamba: Learning Local-Global Context for Roadside Point Cloud via Hybrid State Space Model

要約 インテリジェント輸送システム(ITS)および車両からすべての(V2X)タス … 続きを読む

カテゴリー: cs.CV | PillarMamba: Learning Local-Global Context for Roadside Point Cloud via Hybrid State Space Model はコメントを受け付けていません

TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation

要約 ChameleonやEMU3などの先駆的なトークンベースの作品は、マルチモ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation はコメントを受け付けていません

Automated detection of underdiagnosed medical conditions via opportunistic imaging

要約 腹部コンピューター断層撮影(CT)スキャンは、臨床環境で頻繁に行われます。 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Automated detection of underdiagnosed medical conditions via opportunistic imaging はコメントを受け付けていません

Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding

要約 テキストが豊富な視覚コンテンツの増加に伴い、視覚文書の理解が不可欠になりま … 続きを読む

カテゴリー: cs.CL, cs.CV | Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding はコメントを受け付けていません

SITE: towards Spatial Intelligence Thorough Evaluation

要約 Spatial Intelligence(SI)は、神経科学からロボット工 … 続きを読む

カテゴリー: cs.CV | SITE: towards Spatial Intelligence Thorough Evaluation はコメントを受け付けていません

StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant

要約 StreamBridgeを紹介します。これは、オフラインのビデオllmsを … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant はコメントを受け付けていません

Generating Physically Stable and Buildable LEGO Designs from Text

要約 テキストプロンプトから物理的に安定したレゴブリックモデルを生成するための最 … 続きを読む

カテゴリー: cs.CV | Generating Physically Stable and Buildable LEGO Designs from Text はコメントを受け付けていません

Flow-GRPO: Training Flow Matching Models via Online RL

要約 Flow-Grpoを提案します。これは、オンライン強化学習(RL)をフロー … 続きを読む

カテゴリー: cs.AI, cs.CV | Flow-GRPO: Training Flow Matching Models via Online RL はコメントを受け付けていません

Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation

要約 画像の理解と生成のための統一されたモデルの最近の進歩は印象的ですが、ほとん … 続きを読む

カテゴリー: cs.CV | Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation はコメントを受け付けていません

DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion

要約 現在の構造からの構造(SFM)メソッドは、通常、2段階のパイプラインに続き … 続きを読む

カテゴリー: cs.CV | DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion はコメントを受け付けていません