cs.CV」カテゴリーアーカイブ

More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding

要約 大規模な言語モデル(LLM)が3Dの物理的世界を理解できるようにすることは … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding はコメントを受け付けていません

ATR-Bench: A Federated Learning Benchmark for Adaptation, Trust, and Reasoning

要約 Federated Learning(FL)は、分散型の参加者全体でデータ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | ATR-Bench: A Federated Learning Benchmark for Adaptation, Trust, and Reasoning はコメントを受け付けていません

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

要約 強化学習(RL)は、ビジョン言語モデル(VLM)の推論を強化するための効果 … 続きを読む

カテゴリー: cs.AI, cs.CV | Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models はコメントを受け付けていません

Conditional Panoramic Image Generation via Masked Autoregressive Modeling

要約 パノラマ画像生成の最近の進歩は、既存のアプローチにおける2つの重要な制限を … 続きを読む

カテゴリー: cs.CV | Conditional Panoramic Image Generation via Masked Autoregressive Modeling はコメントを受け付けていません

Training-Free Efficient Video Generation via Dynamic Token Carving

要約 ビデオ拡散トランス(DIT)モデルの顕著な生成品質にもかかわらず、それらの … 続きを読む

カテゴリー: cs.CV | Training-Free Efficient Video Generation via Dynamic Token Carving はコメントを受け付けていません

T2I-ConBench: Text-to-Image Benchmark for Continual Post-training

要約 継続的なトレーニング後のテキストから画像間拡散モデルを適応させて、個別のモ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | T2I-ConBench: Text-to-Image Benchmark for Continual Post-training はコメントを受け付けていません

Tracking the Flight: Exploring a Computational Framework for Analyzing Escape Responses in Plains Zebra (Equus quagga)

要約 エステル研究は、ドローンの手頃な価格とアクセシビリティの高まりによりますま … 続きを読む

カテゴリー: cs.CV | Tracking the Flight: Exploring a Computational Framework for Analyzing Escape Responses in Plains Zebra (Equus quagga) はコメントを受け付けていません

MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning?

要約 大規模なファンデーションモデルは、特に剛性テンプレートまたは群衆発表の命令 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning? はコメントを受け付けていません

Remote Sensing Spatio-Temporal Vision-Language Models: A Comprehensive Survey

要約 多時代のリモートセンシング画像の解釈は、バイナリまたはセマンティックマスク … 続きを読む

カテゴリー: cs.CV | Remote Sensing Spatio-Temporal Vision-Language Models: A Comprehensive Survey はコメントを受け付けていません

RealEngine: Simulating Autonomous Driving in Realistic Context

要約 運転シミュレーションは、制御された評価環境を提供することにより、信頼できる … 続きを読む

カテゴリー: cs.CV, cs.RO | RealEngine: Simulating Autonomous Driving in Realistic Context はコメントを受け付けていません