投稿者「jarxiv」のアーカイブ

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

投稿日: 2025年3月20日作成者: jarxiv

要約計算病理学においてマルチモーダルラージランゲージモデル（MLLMS）が行っ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

TULIP: Towards Unified Language-Image Pretraining

投稿日: 2025年3月20日作成者: jarxiv

要約 ClipやSiglipなどの画像テキストコントラストモデルの最近の成功にも … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

投稿日: 2025年3月20日作成者: jarxiv

要約創造性は知性の基本的な側面であり、多様なコンテキスト全体で斬新で適切なソリ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Technical Report: Aggregation on Learnable Manifolds for Asynchronous Federated Optimization

投稿日: 2025年3月20日作成者: jarxiv

要約 Federated Learning（FL）では、クライアントモデルのサー … 続きを読む →

カテゴリー: cs.LG | コメントを受け付けていません

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

投稿日: 2025年3月20日作成者: jarxiv

要約視覚的理解と生成に必要な異なる表現スペースは、大規模な言語モデルの自己回帰 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

State Space Model Meets Transformer: A New Paradigm for 3D Object Detection

投稿日: 2025年3月20日作成者: jarxiv

要約マルチレイヤートランスデコーダーを使用してオブジェクトクエリを繰り返し改良 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

MoonCast: High-Quality Zero-Shot Podcast Generation

投稿日: 2025年3月20日作成者: jarxiv

要約テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

EvolvingGrasp: Evolutionary Grasp Generation via Efficient Preference Alignment

投稿日: 2025年3月20日作成者: jarxiv

要約器用なロボットの手は、低ダイバーシティデータで訓練されたモデルの制限により … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Advances in 4D Generation: A Survey

投稿日: 2025年3月20日作成者: jarxiv

要約生成人工知能（AI）は、近年、さまざまなドメインで大きな進歩を遂げています … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Playful DoggyBot: Learning Agile and Precise Quadrupedal Locomotion

投稿日: 2025年3月19日作成者: jarxiv

要約四葉型動物は、実際のオブジェクトと対話しながら、アジャイルで遊び心のあるタ … 続きを読む →

カテゴリー: cs.RO | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

TULIP: Towards Unified Language-Image Pretraining

Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

Technical Report: Aggregation on Learnable Manifolds for Asynchronous Federated Optimization

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

State Space Model Meets Transformer: A New Paradigm for 3D Object Detection

MoonCast: High-Quality Zero-Shot Podcast Generation

EvolvingGrasp: Evolutionary Grasp Generation via Efficient Preference Alignment

Advances in 4D Generation: A Survey

Playful DoggyBot: Learning Agile and Precise Quadrupedal Locomotion

最近の投稿

最近のコメント

アーカイブ

カテゴリー