月別アーカイブ: 2024年6月

Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models

要約 この論文では、新しい多重解像度ネットワークと時間依存のレイヤー正規化を統合 … 続きを読む

カテゴリー: cs.CV | Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models はコメントを受け付けていません

An Image is Worth More Than 16×16 Patches: Exploring Transformers on Individual Pixels

要約 この作品は新しい手法を導入するものではありません。 その代わりに、現代のコ … 続きを読む

カテゴリー: cs.CV, cs.LG | An Image is Worth More Than 16×16 Patches: Exploring Transformers on Individual Pixels はコメントを受け付けていません

VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding

要約 言語モデルの進歩に基づいて構築された大規模マルチモーダル モデル (LMM … 続きを読む

カテゴリー: cs.CV | VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding はコメントを受け付けていません

Real2Code: Reconstruct Articulated Objects via Code Generation

要約 コード生成を通じて多関節オブジェクトを再構築する新しいアプローチである R … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Real2Code: Reconstruct Articulated Objects via Code Generation はコメントを受け付けていません

Co-designing a Child-Robot Relational Norm Intervention to Regulate Children’s Handwriting Posture

要約 説得力のあるソーシャル ロボットは、その社会的影響力を利用して、子供とロボ … 続きを読む

カテゴリー: cs.HC, cs.RO | Co-designing a Child-Robot Relational Norm Intervention to Regulate Children’s Handwriting Posture はコメントを受け付けていません

Predictive Linear Online Tracking for Unknown Targets

要約 この論文では、移動ターゲットを追跡することを目的とした線形制御システムにお … 続きを読む

カテゴリー: cs.LG, cs.SY, eess.SY, math.OC | Predictive Linear Online Tracking for Unknown Targets はコメントを受け付けていません

Is Programming by Example solved by LLMs?

要約 Programming-by-Examples (PBE) は、入出力サン … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PL, cs.SE | Is Programming by Example solved by LLMs? はコメントを受け付けていません

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

要約 マルチモーダル言語言語モデル (MLLM) は、「ワールド モデル」、つま … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos はコメントを受け付けていません

A3VLM: Actionable Articulation-Aware Vision Language Model

要約 ビジョン言語モデル (VLM) は、ロボット工学コミュニティで近年大きな注 … 続きを読む

カテゴリー: cs.RO | A3VLM: Actionable Articulation-Aware Vision Language Model はコメントを受け付けていません

CoXQL: A Dataset for Parsing Explanation Requests in Conversational XAI Systems

要約 大規模言語モデル (LLM) に基づく会話型説明可能人工知能 (ConvX … 続きを読む

カテゴリー: cs.CL | CoXQL: A Dataset for Parsing Explanation Requests in Conversational XAI Systems はコメントを受け付けていません