月別アーカイブ: 2025年3月

Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents

投稿日: 2025年3月12日作成者: jarxiv

要約以前の研究では、PLMベースの検索モデルがLLM生成コンテンツの好みを示す … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.IR | コメントを受け付けていません

GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis

投稿日: 2025年3月12日作成者: jarxiv

要約テキストからイメージ（T2I）の生成は、拡散モデルで大きな進歩を遂げており … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

TLA: Tactile-Language-Action Model for Contact-Rich Manipulation

投稿日: 2025年3月12日作成者: jarxiv

要約ビジョン言語モデルでは大きな進歩が遂げられています。ただし、特に触覚セン … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning

投稿日: 2025年3月12日作成者: jarxiv

要約ビジョン言語モデル（VLM）は、マルチモーダル推論タスクの顕著な進歩を示し … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

ComicsPAP: understanding comic strips by picking the correct panel

投稿日: 2025年3月12日作成者: jarxiv

要約大規模なマルチモーダルモデル（LMM）は、画像キャプション、VQA、ビデオ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CAD-Recode: Reverse Engineering CAD Code from Point Clouds

投稿日: 2025年3月12日作成者: jarxiv

要約コンピューター支援設計（CAD）モデルは、通常、パラメトリックスケッチを順 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Video-to-Audio Generation with Hidden Alignment

投稿日: 2025年3月12日作成者: jarxiv

要約ビデオ入力に従って意味的および一時的に整列したオーディオコンテンツを生成す … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Deformable Mamba for Wide Field of View Segmentation

投稿日: 2025年3月12日作成者: jarxiv

要約直線的な計算の複雑さを備えたマンバアーキテクチャの最近の進歩は、二次の複雑 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Collaborative Uncertainty Benefits Multi-Agent Multi-Modal Trajectory Forecasting

投稿日: 2025年3月12日作成者: jarxiv

要約マルチモーダルのマルチエージェント軌跡予測では、2つの主要な課題が完全に取 … 続きを読む →

カテゴリー: cs.CV, stat.ML | コメントを受け付けていません

Modular Customization of Diffusion Models via Blockwise-Parameterized Low-Rank Adaptation

投稿日: 2025年3月12日作成者: jarxiv

要約最近の拡散モデルのカスタマイズにより、テーマやスタイルの概念に少数の画像を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年3月

Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents

GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis

TLA: Tactile-Language-Action Model for Contact-Rich Manipulation

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning

ComicsPAP: understanding comic strips by picking the correct panel

CAD-Recode: Reverse Engineering CAD Code from Point Clouds

Video-to-Audio Generation with Hidden Alignment

Deformable Mamba for Wide Field of View Segmentation

Collaborative Uncertainty Benefits Multi-Agent Multi-Modal Trajectory Forecasting

Modular Customization of Diffusion Models via Blockwise-Parameterized Low-Rank Adaptation

最近の投稿

最近のコメント

アーカイブ

カテゴリー