月別アーカイブ: 2025年3月

T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation

要約 最近のテキストからイメージまでの生成モデルは印象的なパフォーマンスを達成し … 続きを読む

カテゴリー: cs.CV | T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation はコメントを受け付けていません

V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning

要約 人間のプロセスビデオ推論を順次空間的推論ロジックで、最初に関連するフレーム … 続きを読む

カテゴリー: cs.CV | V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning はコメントを受け付けていません

Cognitive Disentanglement for Referring Multi-Object Tracking

要約 インテリジェント輸送知覚システムにおけるマルチソース情報融合の重要なアプリ … 続きを読む

カテゴリー: cs.CV | Cognitive Disentanglement for Referring Multi-Object Tracking はコメントを受け付けていません

Cloud2BIM: An open-source automatic pipeline for efficient conversion of large-scale point clouds into IFC format

要約 ビルディング情報モデリング(BIM)は、老化構造の持続可能な再構築と再生に … 続きを読む

カテゴリー: cs.CV, cs.SE | Cloud2BIM: An open-source automatic pipeline for efficient conversion of large-scale point clouds into IFC format はコメントを受け付けていません

TikZero: Zero-Shot Text-Guided Graphics Program Synthesis

要約 生成AIの増加に伴い、テキストキャプションからの合成図は説得力のあるアプリ … 続きを読む

カテゴリー: cs.CL, cs.CV | TikZero: Zero-Shot Text-Guided Graphics Program Synthesis はコメントを受け付けていません

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

要約 多様なロボットデータセットでトレーニングされた最近のビジョン言語アクション … 続きを読む

カテゴリー: cs.CV, cs.RO | Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy はコメントを受け付けていません

Alzheimer’s Disease Classification Using Retinal OCT: TransnetOCT and Swin Transformer Models

要約 網膜の光コヒーレンス断層撮影(OCT)画像は、有病率が上昇している神経変性 … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | Alzheimer’s Disease Classification Using Retinal OCT: TransnetOCT and Swin Transformer Models はコメントを受け付けていません

HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models

要約 テキストからビデオへの生成は、動画データの固有の複雑さにより、重大な課題を … 続きを読む

カテゴリー: cs.AI, cs.CV | HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models はコメントを受け付けていません

Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models

要約 現在のクロスモダリティ生成モデル(GMS)は、さまざまな生成タスクで顕著な … 続きを読む

カテゴリー: cs.CL, cs.CV | Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models はコメントを受け付けていません

AdaptGCD: Multi-Expert Adapter Tuning for Generalized Category Discovery

要約 密接な世界の仮定によって制約されている従来の半教師の学習パラダイムとは異な … 続きを読む

カテゴリー: cs.AI, cs.CV | AdaptGCD: Multi-Expert Adapter Tuning for Generalized Category Discovery はコメントを受け付けていません