月別アーカイブ: 2024年7月

PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators

要約 PoliFormer (Policy Transformer) は、純粋に … 続きを読む

カテゴリー: cs.CV, cs.RO | PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators はコメントを受け付けていません

Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language

要約 拡散ベースのモデルは、さまざまなレイアウトで高品質の画像を生成する上で大き … 続きを読む

カテゴリー: cs.CV | Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language はコメントを受け付けていません

LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression

要約 大規模言語モデル (LLM) でのテキスト埋め込みの圧縮表現では大幅な進歩 … 続きを読む

カテゴリー: cs.CV | LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression はコメントを受け付けていません

LLaRA: Supercharging Robot Learning Data for Vision-Language Policy

要約 広範な世界知識と強力な推論スキルを備えた大規模言語モデル (LLM) は、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | LLaRA: Supercharging Robot Learning Data for Vision-Language Policy はコメントを受け付けていません

Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs

要約 マルチモーダル大規模言語モデル (MLLM) は、さまざまな理解および生成 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs はコメントを受け付けていません

Odd-One-Out: Anomaly Detection by Comparing with Neighbors

要約 この論文では、シーン内の他のインスタンスと比較して「奇妙に見える」オブジェ … 続きを読む

カテゴリー: cs.CV | Odd-One-Out: Anomaly Detection by Comparing with Neighbors はコメントを受け付けていません

RuBLiMP: Russian Benchmark of Linguistic Minimal Pairs

要約 最小ペアは、言語モデルの文法知識を評価するための確立されたアプローチです。 … 続きを読む

カテゴリー: cs.CL | RuBLiMP: Russian Benchmark of Linguistic Minimal Pairs はコメントを受け付けていません

FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts

要約 視覚的な質問に答える既存のベンチマークには、特に空間推論スキルの評価におい … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.IR, cs.LG | FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts はコメントを受け付けていません

LiverUSRecon: Automatic 3D Reconstruction and Volumetry of the Liver with a Few Partial Ultrasound Scans

要約 容積測定のための肝臓の 3D 再構成は、定性分析と疾患診断にとって重要です … 続きを読む

カテゴリー: cs.CV, eess.IV | LiverUSRecon: Automatic 3D Reconstruction and Volumetry of the Liver with a Few Partial Ultrasound Scans はコメントを受け付けていません

SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues

要約 弱い教師付き医療画像のセグメンテーションは、セグメンテーションのパフォーマ … 続きを読む

カテゴリー: cs.CV | SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues はコメントを受け付けていません