月別アーカイブ: 2025年3月

T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation

投稿日: 2025年3月17日作成者: jarxiv

要約最近のテキストからイメージまでの生成モデルは印象的なパフォーマンスを達成し … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning

投稿日: 2025年3月17日作成者: jarxiv

要約人間のプロセスビデオ推論を順次空間的推論ロジックで、最初に関連するフレーム … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Cognitive Disentanglement for Referring Multi-Object Tracking

投稿日: 2025年3月17日作成者: jarxiv

要約インテリジェント輸送知覚システムにおけるマルチソース情報融合の重要なアプリ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Cloud2BIM: An open-source automatic pipeline for efficient conversion of large-scale point clouds into IFC format

投稿日: 2025年3月17日作成者: jarxiv

要約ビルディング情報モデリング（BIM）は、老化構造の持続可能な再構築と再生に … 続きを読む →

カテゴリー: cs.CV, cs.SE | コメントを受け付けていません

TikZero: Zero-Shot Text-Guided Graphics Program Synthesis

投稿日: 2025年3月17日作成者: jarxiv

要約生成AIの増加に伴い、テキストキャプションからの合成図は説得力のあるアプリ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

投稿日: 2025年3月17日作成者: jarxiv

要約多様なロボットデータセットでトレーニングされた最近のビジョン言語アクション … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Alzheimer’s Disease Classification Using Retinal OCT: TransnetOCT and Swin Transformer Models

投稿日: 2025年3月17日作成者: jarxiv

要約網膜の光コヒーレンス断層撮影（OCT）画像は、有病率が上昇している神経変性 … 続きを読む →

カテゴリー: cs.AI, cs.CV, eess.IV | コメントを受け付けていません

HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models

投稿日: 2025年3月17日作成者: jarxiv

要約テキストからビデオへの生成は、動画データの固有の複雑さにより、重大な課題を … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models

投稿日: 2025年3月17日作成者: jarxiv

要約現在のクロスモダリティ生成モデル（GMS）は、さまざまな生成タスクで顕著な … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

AdaptGCD: Multi-Expert Adapter Tuning for Generalized Category Discovery

投稿日: 2025年3月17日作成者: jarxiv

要約密接な世界の仮定によって制約されている従来の半教師の学習パラダイムとは異な … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年3月

T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation

V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning

Cognitive Disentanglement for Referring Multi-Object Tracking

Cloud2BIM: An open-source automatic pipeline for efficient conversion of large-scale point clouds into IFC format

TikZero: Zero-Shot Text-Guided Graphics Program Synthesis

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

Alzheimer’s Disease Classification Using Retinal OCT: TransnetOCT and Swin Transformer Models

HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models

Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models

AdaptGCD: Multi-Expert Adapter Tuning for Generalized Category Discovery

最近の投稿

最近のコメント

アーカイブ

カテゴリー