月別アーカイブ: 2024年7月

PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators

投稿日: 2024年7月1日作成者: jarxiv

要約 PoliFormer (Policy Transformer) は、純粋に … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language

投稿日: 2024年7月1日作成者: jarxiv

要約拡散ベースのモデルは、さまざまなレイアウトで高品質の画像を生成する上で大き … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression

投稿日: 2024年7月1日作成者: jarxiv

要約大規模言語モデル (LLM) でのテキスト埋め込みの圧縮表現では大幅な進歩 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LLaRA: Supercharging Robot Learning Data for Vision-Language Policy

投稿日: 2024年7月1日作成者: jarxiv

要約広範な世界知識と強力な推論スキルを備えた大規模言語モデル (LLM) は、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs

投稿日: 2024年7月1日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、さまざまな理解および生成 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Odd-One-Out: Anomaly Detection by Comparing with Neighbors

投稿日: 2024年7月1日作成者: jarxiv

要約この論文では、シーン内の他のインスタンスと比較して「奇妙に見える」オブジェ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RuBLiMP: Russian Benchmark of Linguistic Minimal Pairs

投稿日: 2024年7月1日作成者: jarxiv

要約最小ペアは、言語モデルの文法知識を評価するための確立されたアプローチです。 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts

投稿日: 2024年7月1日作成者: jarxiv

要約視覚的な質問に答える既存のベンチマークには、特に空間推論スキルの評価におい … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.IR, cs.LG | コメントを受け付けていません

LiverUSRecon: Automatic 3D Reconstruction and Volumetry of the Liver with a Few Partial Ultrasound Scans

投稿日: 2024年7月1日作成者: jarxiv

要約容積測定のための肝臓の 3D 再構成は、定性分析と疾患診断にとって重要です … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues

投稿日: 2024年7月1日作成者: jarxiv

要約弱い教師付き医療画像のセグメンテーションは、セグメンテーションのパフォーマ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年7月

PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators

Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language

LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression

LLaRA: Supercharging Robot Learning Data for Vision-Language Policy

Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs

Odd-One-Out: Anomaly Detection by Comparing with Neighbors

RuBLiMP: Russian Benchmark of Linguistic Minimal Pairs

FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts

LiverUSRecon: Automatic 3D Reconstruction and Volumetry of the Liver with a Few Partial Ultrasound Scans

SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues

最近の投稿

最近のコメント

アーカイブ

カテゴリー