月別アーカイブ: 2025年5月

Fact-R1: Towards Explainable Video Misinformation Detection with Deep Reasoning

投稿日: 2025年5月23日作成者: jarxiv

要約ソーシャルメディアでのマルチモーダル誤った情報の急速な広がりは、懸念の高ま … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

LaViDa: A Large Diffusion Language Model for Multimodal Understanding

投稿日: 2025年5月23日作成者: jarxiv

要約最新のビジョン言語モデル（VLM）は、視覚的な推論を必要とする幅広いタスク … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding

投稿日: 2025年5月23日作成者: jarxiv

要約大規模な言語モデル（LLM）が3Dの物理的世界を理解できるようにすることは … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

ATR-Bench: A Federated Learning Benchmark for Adaptation, Trust, and Reasoning

投稿日: 2025年5月23日作成者: jarxiv

要約 Federated Learning（FL）は、分散型の参加者全体でデータ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

投稿日: 2025年5月23日作成者: jarxiv

要約強化学習（RL）は、ビジョン言語モデル（VLM）の推論を強化するための効果 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Conditional Panoramic Image Generation via Masked Autoregressive Modeling

投稿日: 2025年5月23日作成者: jarxiv

要約パノラマ画像生成の最近の進歩は、既存のアプローチにおける2つの重要な制限を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Training-Free Efficient Video Generation via Dynamic Token Carving

投稿日: 2025年5月23日作成者: jarxiv

要約ビデオ拡散トランス（DIT）モデルの顕著な生成品質にもかかわらず、それらの … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

T2I-ConBench: Text-to-Image Benchmark for Continual Post-training

投稿日: 2025年5月23日作成者: jarxiv

要約継続的なトレーニング後のテキストから画像間拡散モデルを適応させて、個別のモ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Tracking the Flight: Exploring a Computational Framework for Analyzing Escape Responses in Plains Zebra (Equus quagga)

投稿日: 2025年5月23日作成者: jarxiv

要約エステル研究は、ドローンの手頃な価格とアクセシビリティの高まりによりますま … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning?

投稿日: 2025年5月23日作成者: jarxiv

要約大規模なファンデーションモデルは、特に剛性テンプレートまたは群衆発表の命令 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年5月

Fact-R1: Towards Explainable Video Misinformation Detection with Deep Reasoning

LaViDa: A Large Diffusion Language Model for Multimodal Understanding

More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding

ATR-Bench: A Federated Learning Benchmark for Adaptation, Trust, and Reasoning

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

Conditional Panoramic Image Generation via Masked Autoregressive Modeling

Training-Free Efficient Video Generation via Dynamic Token Carving

T2I-ConBench: Text-to-Image Benchmark for Continual Post-training

Tracking the Flight: Exploring a Computational Framework for Analyzing Escape Responses in Plains Zebra (Equus quagga)

MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning?

最近の投稿

最近のコメント

アーカイブ

カテゴリー