Algorithmic causal structure emerging through compression

要約

因果関係、対称性、および圧縮の関係を調査します。
因果モデルが識別できない設定への学習と圧縮の間の既知の接続を構築し、一般化します。
複数の環境でデータを圧縮した結果として因果関係が現れるフレームワークを提案します。
アルゴリズムの因果関係は、因果関係の因果関係の伝統的な仮定が成り立たない場合の因果関係の代替定義として定義します。
介入ターゲットの知識なしに、コルモゴロフの複雑さの上限を最小限に抑えることで、アルゴリズムの因果構造と対称構造がどのように出現するかを示します。
これらの洞察は、因果関係が明示的に識別できない大規模な言語モデルなど、機械学習モデルの因果関係の出現についても新しい視点を提供する可能性があると仮定します。

要約(オリジナル)

We explore the relationship between causality, symmetry, and compression. We build on and generalize the known connection between learning and compression to a setting where causal models are not identifiable. We propose a framework where causality emerges as a consequence of compressing data across multiple environments. We define algorithmic causality as an alternative definition of causality when traditional assumptions for causal identifiability do not hold. We demonstrate how algorithmic causal and symmetric structures can emerge from minimizing upper bounds on Kolmogorov complexity, without knowledge of intervention targets. We hypothesize that these insights may also provide a novel perspective on the emergence of causality in machine learning models, such as large language models, where causal relationships may not be explicitly identifiable.

arxiv情報

著者 Liang Wendong,Simon Buchholz,Bernhard Schölkopf
発行日 2025-03-21 14:54:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC, cs.IT, cs.LG, math.IT | Algorithmic causal structure emerging through compression はコメントを受け付けていません

Advanced Deep Learning Methods for Protein Structure Prediction and Design

要約

Alphafoldがノーベル賞を受賞した後、Deep Learningのタンパク質予測が再びホットな話題になりました。
タンパク質構造の予測と設計に適用される高度な深い学習方法を包括的に探求します。
予測アーキテクチャの最近の革新を調べることから始まり、拡散ベースのフレームワークや新しいペアワイズ注意モジュールなどの改善に関する詳細な議論があります。
このテキストは、構造生成、評価メトリック、複数のシーケンスアラインメント処理、ネットワークアーキテクチャなどの主要なコンポーネントを分析し、それによって計算タンパク質モデリングの現在の最新を示しています。
その後の章は、実用的なアプリケーションに焦点を当て、個々のタンパク質の予測から複雑な生体分子相互作用に至るまでのケーススタディを提示します。
予測の精度を高め、深い学習技術を実験的検証と統合するための戦略を徹底的に調査します。
後のセクションでは、タンパク質設計の業界景観をレビューし、バイオテクノロジーにおける人工知能の変革的役割を強調し、新興市場の動向と将来の課題について議論します。
補足付録は、データベースやオープンソースツールなどの重要なリソースを提供し、このボリュームを研究者と学生にとって貴重なリファレンスにします。

要約(オリジナル)

After AlphaFold won the Nobel Prize, protein prediction with deep learning once again became a hot topic. We comprehensively explore advanced deep learning methods applied to protein structure prediction and design. It begins by examining recent innovations in prediction architectures, with detailed discussions on improvements such as diffusion based frameworks and novel pairwise attention modules. The text analyses key components including structure generation, evaluation metrics, multiple sequence alignment processing, and network architecture, thereby illustrating the current state of the art in computational protein modelling. Subsequent chapters focus on practical applications, presenting case studies that range from individual protein predictions to complex biomolecular interactions. Strategies for enhancing prediction accuracy and integrating deep learning techniques with experimental validation are thoroughly explored. The later sections review the industry landscape of protein design, highlighting the transformative role of artificial intelligence in biotechnology and discussing emerging market trends and future challenges. Supplementary appendices provide essential resources such as databases and open source tools, making this volume a valuable reference for researchers and students.

arxiv情報

著者 Tianyang Wang,Yichao Zhang,Ningyuan Deng,Xinyuan Song,Ziqian Bi,Zheyu Yao,Keyu Chen,Ming Li,Qian Niu,Junyu Liu,Benji Peng,Sen Zhang,Ming Liu,Li Zhang,Xuanhe Pan,Jinlang Wang,Pohsun Feng,Yizhu Wen,Lawrence KQ Yan,Hongming Tseng,Yan Zhong,Yunze Wang,Ziyuan Qin,Bowen Jing,Junjie Yang,Jun Zhou,Chia Xin Liang,Junhao Song
発行日 2025-03-21 14:54:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.BM | Advanced Deep Learning Methods for Protein Structure Prediction and Design はコメントを受け付けていません

LitLLMs, LLMs for Literature Review: Are we there yet?

要約

文献レビューは科学研究の重要な要素ですが、特に最近の研究論文の流入のために、それらは時間を集中的かつ困難な執筆を続けています。
このペーパーでは、抽象に基づいた文献レビューの執筆を支援する際に、最近の大規模な言語モデル(LLMS)のゼロショット能力を探ります。
タスクを2つのコンポーネントに分解します。1。クエリの要約を与えられた関連作品の取得と、取得した結果に基づいて文献レビューを書く。
両方のコンポーネントに対してLLMがどれほど効果的であるかを分析します。
検索のために、最初にLLMを使用して論文の要約から意味のあるキーワードを抽出し、外部の知識ベースを照会して潜在的に関連する論文を取得する新しい2段階の検索戦略を導入します。
さらに、Attributionを使用したプロンプトベースの再ランクメカニズムを研究し、LLMの意思決定プロセスに関する洞察を提供しながら、再ランキングがナイーブ検索方法と比較して正規化されたリコールを2倍にすることを示します。
生成段階では、最初にレビューの計画を概説し、次に実際のレビューを生成するための計画の手順を実行する2段階のアプローチを提案します。
さまざまなLLMベースの文献レビュー方法を評価するために、ゼロショット評価でのテストセット汚染を回避するために、新しくリリースされたLLMSで使用するために設計されたプロトコルを使用して、ARXIVペーパーからテストセットを作成します。
この評価プロトコルをリリースして、この点で追加の研究開発を促進します。
私たちの経験的結果は、LLMSがタスクが検索と計画のより小さなコンポーネントに分解されたときに文献レビューを書くことの有望な可能性を示していることを示唆しています。
デモンストレーションシステムとツールキットを含むプロジェクトページには、https://litllm.github.ioにアクセスできます。

要約(オリジナル)

Literature reviews are an essential component of scientific research, but they remain time-intensive and challenging to write, especially due to the recent influx of research papers. This paper explores the zero-shot abilities of recent Large Language Models (LLMs) in assisting with the writing of literature reviews based on an abstract. We decompose the task into two components: 1. Retrieving related works given a query abstract, and 2. Writing a literature review based on the retrieved results. We analyze how effective LLMs are for both components. For retrieval, we introduce a novel two-step search strategy that first uses an LLM to extract meaningful keywords from the abstract of a paper and then retrieves potentially relevant papers by querying an external knowledge base. Additionally, we study a prompting-based re-ranking mechanism with attribution and show that re-ranking doubles the normalized recall compared to naive search methods, while providing insights into the LLM’s decision-making process. In the generation phase, we propose a two-step approach that first outlines a plan for the review and then executes steps in the plan to generate the actual review. To evaluate different LLM-based literature review methods, we create test sets from arXiv papers using a protocol designed for rolling use with newly released LLMs to avoid test set contamination in zero-shot evaluations. We release this evaluation protocol to promote additional research and development in this regard. Our empirical results suggest that LLMs show promising potential for writing literature reviews when the task is decomposed into smaller components of retrieval and planning. Our project page including a demonstration system and toolkit can be accessed here: https://litllm.github.io.

arxiv情報

著者 Shubham Agarwal,Gaurav Sahu,Abhay Puri,Issam H. Laradji,Krishnamurthy DJ Dvijotham,Jason Stanley,Laurent Charlin,Christopher Pal
発行日 2025-03-21 14:56:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DL, cs.LG | LitLLMs, LLMs for Literature Review: Are we there yet? はコメントを受け付けていません

GREEN-CODE: Learning to Optimize Energy Efficiency in LLM-based Code Generation

要約

大規模な言語モデル(LLM)は、日常生活に不可欠になり、さまざまな自然言語処理(NLP)タスクにわたって大きな可能性を示しています。
NLPを超えて、LLMSは、コードの完了、変更、バグ修正、コード翻訳など、ソフトウェア開発タスクでますます使用されています。
ソフトウェアエンジニアは、Github CopilotやAmazon Q、ワークフローの合理化、高精度でタスクの自動化などのツールを広く使用しています。
LLMトレーニングのリソースとエネルギーの強度はしばしば強調されていますが、多くの呼び出しを伴う継続的なプロセスであるため、推論は時間とともにさらにリソース集約的になる可能性があります。
したがって、LLM推論のためのリソース効率の高い代替品の開発は、持続可能性に不可欠です。
この作業は、LLMSのエネルギー認識コード生成のフレームワークであるグリーンコードを提案しています。
グリーンコードは、LLM推論中に動的な早期出口を実行します。
私たちは、精度、遅延、エネルギー消費のトレードオフのバランスをとることを学ぶ補強学習(RL)エージェントを訓練します。
私たちのアプローチは、JavacorpusとPY150データセットを使用して、2つのオープンソースLLM、Llama 3.2 3bおよびOpt 2.7bで評価されます。
結果は、私たちの方法が、精度に大きな影響を与えることなく、コード生成タスクの平均で23〜50%のエネルギー消費を減らすことを示しています。

要約(オリジナル)

Large Language Models (LLMs) are becoming integral to daily life, showcasing their vast potential across various Natural Language Processing (NLP) tasks. Beyond NLP, LLMs are increasingly used in software development tasks, such as code completion, modification, bug fixing, and code translation. Software engineers widely use tools like GitHub Copilot and Amazon Q, streamlining workflows and automating tasks with high accuracy. While the resource and energy intensity of LLM training is often highlighted, inference can be even more resource-intensive over time, as it’s a continuous process with a high number of invocations. Therefore, developing resource-efficient alternatives for LLM inference is crucial for sustainability. This work proposes GREEN-CODE, a framework for energy-aware code generation in LLMs. GREEN-CODE performs dynamic early exit during LLM inference. We train a Reinforcement Learning (RL) agent that learns to balance the trade-offs between accuracy, latency, and energy consumption. Our approach is evaluated on two open-source LLMs, Llama 3.2 3B and OPT 2.7B, using the JavaCorpus and PY150 datasets. Results show that our method reduces the energy consumption between 23-50 % on average for code generation tasks without significantly affecting accuracy.

arxiv情報

著者 Shashikant Ilager,Lukas Florian Briem,Ivona Brandic
発行日 2025-03-21 15:07:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.4, cs.AI, cs.DC, cs.PF, cs.SE | GREEN-CODE: Learning to Optimize Energy Efficiency in LLM-based Code Generation はコメントを受け付けていません

Automating Adjudication of Cardiovascular Events Using Large Language Models

要約

心臓発作や脳卒中などの心血管イベントは、臨床試験で細心の監視と裁定を必要とする、世界的な死亡率の主要な原因であり続けています。
伝統的に臨床専門家によって手動で実行されているこのプロセスは、時間がかかり、リソース集中的であり、レビュー間の変動性を発揮しやすく、バイアスを導入し、試験の進行を妨げる可能性があります。
この研究では、大規模な言語モデル(LLMS)を使用した臨床試験における心血管イベントの裁定を自動化するための新しいフレームワークを提示することにより、これらの重大な制限に対処します。
2段階のアプローチを開発しました。1つ目は、非構造化された臨床データからのイベント情報抽出のためにLLMベースのパイプラインを採用し、2つ目は、Tree of Thoughtのアプローチと臨床エンドポイント委員会(CEC)ガイドラインによって導かれるLLMベースの裁定プロセスを使用して使用します。
心血管イベント固有の臨床試験データを使用して、フレームワークはイベント抽出のために0.82のF1スコアと、裁定で0.68の精度を達成しました。
さらに、心血管イベントの裁定におけるAI生成された臨床推論の品質を評価するために特別に設計された新しい、自動化されたメトリックであるCleartスコアを導入します。
このアプローチは、臨床試験で高品質、一貫した、監査可能な結果を​​維持しながら、裁定の時間とコストを大幅に削減するための重要な可能性を示しています。
変動性の低下と標準化の強化により、心血管療法に関連するリスクのより速い識別と緩和も可能になります。

要約(オリジナル)

Cardiovascular events, such as heart attacks and strokes, remain a leading cause of mortality globally, necessitating meticulous monitoring and adjudication in clinical trials. This process, traditionally performed manually by clinical experts, is time-consuming, resource-intensive, and prone to inter-reviewer variability, potentially introducing bias and hindering trial progress. This study addresses these critical limitations by presenting a novel framework for automating the adjudication of cardiovascular events in clinical trials using Large Language Models (LLMs). We developed a two-stage approach: first, employing an LLM-based pipeline for event information extraction from unstructured clinical data and second, using an LLM-based adjudication process guided by a Tree of Thoughts approach and clinical endpoint committee (CEC) guidelines. Using cardiovascular event-specific clinical trial data, the framework achieved an F1-score of 0.82 for event extraction and an accuracy of 0.68 for adjudication. Furthermore, we introduce the CLEART score, a novel, automated metric specifically designed for evaluating the quality of AI-generated clinical reasoning in adjudicating cardiovascular events. This approach demonstrates significant potential for substantially reducing adjudication time and costs while maintaining high-quality, consistent, and auditable outcomes in clinical trials. The reduced variability and enhanced standardization also allow for faster identification and mitigation of risks associated with cardiovascular therapies.

arxiv情報

著者 Sonish Sivarajkumar,Kimia Ameri,Chuqin Li,Yanshan Wang,Min Jiang
発行日 2025-03-21 15:25:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Automating Adjudication of Cardiovascular Events Using Large Language Models はコメントを受け付けていません

FactSelfCheck: Fact-Level Black-Box Hallucination Detection for LLMs

要約

大規模な言語モデル(LLM)は頻繁に幻覚コンテンツを生成し、事実が重要なアプリケーションに大きな課題をもたらします。
既存の幻覚検出方法は通常、文レベルまたは通過レベルで動作しますが、微調整されたファクトレベルの検出を可能にする新しいブラックボックスサンプリングベースの方法であるFactSelfCheckを提案します。
私たちのアプローチは、トリプルの形での事実からなる知識グラフとしてテキストを表しています。
複数のLLM応答にわたる事実上の一貫性を分析することにより、外部リソースやトレーニングデータを必要とせずに、きめ細かい幻覚スコアを計算します。
私たちの評価は、FactSelfCheckがより詳細な洞察を提供しながら、主要なサンプリングベースの方法で競争力のあるパフォーマンスを発揮することを示しています。
最も注目すべきは、私たちの事実レベルのアプローチが幻覚補正を大幅に改善し、ベースラインと比較して実際のコンテンツで35%増加し、文レベルの自己確認は8%の改善しか得られません。
私たちの検出の粒度の性質により、幻覚コンテンツのより正確な識別と修正が可能になります。

要約(オリジナル)

Large Language Models (LLMs) frequently generate hallucinated content, posing significant challenges for applications where factuality is crucial. While existing hallucination detection methods typically operate at the sentence level or passage level, we propose FactSelfCheck, a novel black-box sampling-based method that enables fine-grained fact-level detection. Our approach represents text as knowledge graphs consisting of facts in the form of triples. Through analyzing factual consistency across multiple LLM responses, we compute fine-grained hallucination scores without requiring external resources or training data. Our evaluation demonstrates that FactSelfCheck performs competitively with leading sampling-based methods while providing more detailed insights. Most notably, our fact-level approach significantly improves hallucination correction, achieving a 35% increase in factual content compared to the baseline, while sentence-level SelfCheckGPT yields only an 8% improvement. The granular nature of our detection enables more precise identification and correction of hallucinated content.

arxiv情報

著者 Albert Sawczyn,Jakub Binkowski,Denis Janiak,Bogdan Gabrys,Tomasz Kajdanowicz
発行日 2025-03-21 15:32:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | FactSelfCheck: Fact-Level Black-Box Hallucination Detection for LLMs はコメントを受け付けていません

SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging

要約

下流のタスクでの大規模な言語モデル(LLMS)を微調整すると、良性の微調整データセットであっても、安全なアライメントを誤って侵食する可能性があります。
タスクユーティリティを維持しながら安全性を維持するファインポストチューニングフレームワークであるSafeMergeを提案することにより、この課題に対処します。
これは、コサインの類似性基準で測定された安全な行動から逸脱している場合にのみ、微調整された微調整されたモデル層を選択的に統合することにより達成します。
さまざまなマージ戦略を調査しながら、GSM8KおよびPubMedQAタスクのLLAMA-2-7B-ChatおよびQWEN-2-7B-Instructモデルの他の微調整および微調整後の段階的アプローチに対してSafemergeを評価します。
Safemergeは、パフォーマンスを大幅に犠牲にすることなく、他のベースラインと比較して一貫して有害な出力を減らし、時にはそれを強化することがあることがわかります。
結果は、我々の選択的、部分空間誘導、および層ごとの合併方法が、よりシンプルな調整後の段階防御を上回りながら、微調整されたLLMSの不注意な安全性の損失に対する効果的な保護を提供することを示唆しています。

要約(オリジナル)

Fine-tuning large language models (LLMs) on downstream tasks can inadvertently erode their safety alignment, even for benign fine-tuning datasets. We address this challenge by proposing SafeMERGE, a post-fine-tuning framework that preserves safety while maintaining task utility. It achieves this by selectively merging fine-tuned and safety-aligned model layers only when those deviate from safe behavior, measured by a cosine similarity criterion. We evaluate SafeMERGE against other fine-tuning- and post-fine-tuning-stage approaches for Llama-2-7B-Chat and Qwen-2-7B-Instruct models on GSM8K and PubMedQA tasks while exploring different merging strategies. We find that SafeMERGE consistently reduces harmful outputs compared to other baselines without significantly sacrificing performance, sometimes even enhancing it. The results suggest that our selective, subspace-guided, and per-layer merging method provides an effective safeguard against the inadvertent loss of safety in fine-tuned LLMs while outperforming simpler post-fine-tuning-stage defenses.

arxiv情報

著者 Aladin Djuhera,Swanand Ravindra Kadhe,Farhan Ahmed,Syed Zawad,Holger Boche
発行日 2025-03-21 15:44:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging はコメントを受け付けていません

KL3M Tokenizers: A Family of Domain-Specific and Character-Level Tokenizers for Legal, Financial, and Preprocessing Applications

要約

法的、財務、および政府のテキストのための専門のトークンザーのファミリーであるKL3Mトーナイザーを紹介します。
トークン化に関する確立された作業にもかかわらず、プロのドメイン向けの専門的なトークンザーは依然として研究されていません。
私たちの論文は、この分野への2つの主な貢献を提供しています。
まず、法的、財務、政府のテキストのためにドメイン固有のBPEトークナイザーを紹介します。
KL3M-004-128Kケースのトークネイザーは、より小さな語彙を持っているにもかかわらず、ドメイン固有のドキュメントにはGPT-4OおよびLLAMA3よりも9〜17%少ないトークンを使用します。
特殊な用語の場合、当社のケース型トークナイザーはさらに効率的であり、法的条件で最大83%少ないトークンを使用し、金融条件では39%少ないトークンを使用しています。
第二に、OCRポストプロセッシングなどのテキスト修正タスクのために、キャラクターレベルのBPEトークナイザー(4K、8K、および16Kの語彙サイズ)を開発します。
これらのトークンザーは、エラー含有テキストと正しいテキストの間の一貫したトークンの境界を維持するため、モデルが補正パターンを容易にします。
これらのトークンザーは、コンテキストウィンドウでより多くのテキストを適合させ、計算ニーズを減らし、ドメイン固有の用語の意味を維持することにより、専門的なアプリケーションを支援します。
私たちの分析は、これらの効率の向上が長い法的および財務文書の処理に直接利益をもたらすことを示しています。
GitHubとHugging Faceを介してすべてのトークンとコードをリリースし、専門のトークン化のさらなる研究をサポートします。

要約(オリジナル)

We present the KL3M tokenizers, a family of specialized tokenizers for legal, financial, and governmental text. Despite established work on tokenization, specialized tokenizers for professional domains remain understudied. Our paper offers two main contributions to this area. First, we introduce domain-specific BPE tokenizers for legal, financial, and governmental text. Our kl3m-004-128k-cased tokenizer uses 9-17% fewer tokens than GPT-4o and Llama3 for domain-specific documents, despite having a smaller vocabulary. For specialized terminology, our cased tokenizer is even more efficient, using up to 83% fewer tokens for legal terms and 39% fewer tokens for financial terms. Second, we develop character-level BPE tokenizers (4K, 8K, and 16K vocabulary sizes) for text correction tasks like OCR post-processing. These tokenizers keep consistent token boundaries between error-containing and correct text, making it easier for models to learn correction patterns. These tokenizers help professional applications by fitting more text in context windows, reducing computational needs, and preserving the meaning of domain-specific terms. Our analysis shows these efficiency gains directly benefit the processing of long legal and financial documents. We release all tokenizers and code through GitHub and Hugging Face to support further research in specialized tokenization.

arxiv情報

著者 Michael J Bommarito,Daniel Martin Katz,Jillian Bommarito
発行日 2025-03-21 15:51:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | KL3M Tokenizers: A Family of Domain-Specific and Character-Level Tokenizers for Legal, Financial, and Preprocessing Applications はコメントを受け付けていません

LazyDiT: Lazy Learning for the Acceleration of Diffusion Transformers

要約

拡散トランスは、さまざまなアプリケーションで優れたパフォーマンスと有効性を実証する、幅広い生成タスクの卓越したモデルとして登場しています。
有望な結果は、各除去ステップでは、大量のパラメーターでトランスモデル全体を実行する必要があるため、ゆっくりと推論の犠牲を払ってもたらされます。
このホワイトペーパーでは、前のステップの結果を怠lazに再利用することでいくつかの計算をスキップできるため、各拡散ステップでモデルの完全な計算を実行することは不要であることを示します。
さらに、連続したステップでの出力間の類似性の下限が特に高く、この類似性は入力を使用して直線的に近似できることを示します。
デモを検証するために、以前のステップからキャッシュされた結果を効率的に活用する怠zyな学習フレームワークである\ textbf {lazydit}を提案します。
具体的には、怠zyな学習レイヤーをモデルに組み込み、怠lazを最大化するために効果的に訓練され、冗長計算の動的なスキップを可能にします。
実験結果は、LazyDitがさまざまな解像度で複数の拡散トランスモデルでDDIMサンプラーを上回ることを示しています。
さらに、モバイルデバイスにメソッドを実装し、同様の遅延を持つDDIMよりも優れたパフォーマンスを実現します。
コード:https://github.com/shawnricecake/lazydit

要約(オリジナル)

Diffusion Transformers have emerged as the preeminent models for a wide array of generative tasks, demonstrating superior performance and efficacy across various applications. The promising results come at the cost of slow inference, as each denoising step requires running the whole transformer model with a large amount of parameters. In this paper, we show that performing the full computation of the model at each diffusion step is unnecessary, as some computations can be skipped by lazily reusing the results of previous steps. Furthermore, we show that the lower bound of similarity between outputs at consecutive steps is notably high, and this similarity can be linearly approximated using the inputs. To verify our demonstrations, we propose the \textbf{LazyDiT}, a lazy learning framework that efficiently leverages cached results from earlier steps to skip redundant computations. Specifically, we incorporate lazy learning layers into the model, effectively trained to maximize laziness, enabling dynamic skipping of redundant computations. Experimental results show that LazyDiT outperforms the DDIM sampler across multiple diffusion transformer models at various resolutions. Furthermore, we implement our method on mobile devices, achieving better performance than DDIM with similar latency. Code: https://github.com/shawnricecake/lazydit

arxiv情報

著者 Xuan Shen,Zhao Song,Yufa Zhou,Bo Chen,Yanyu Li,Yifan Gong,Kai Zhang,Hao Tan,Jason Kuen,Henghui Ding,Zhihao Shu,Wei Niu,Pu Zhao,Yanzhi Wang,Jiuxiang Gu
発行日 2025-03-21 15:52:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | LazyDiT: Lazy Learning for the Acceleration of Diffusion Transformers はコメントを受け付けていません

Breaking the Symmetries of Indistinguishable Objects

要約

区別できないオブジェクトは、制約プログラミングの問題をモデル化するとき、および他の関連するパラダイムでしばしば発生することがよくあります。
それらは、オブジェクトが一連の非標識オブジェクトから描かれていると見なされると発生し、それらに許可されている唯一の操作は平等テストです。
たとえば、ソーシャルゴルファーの問題のゴルファーは区別できません。
ゴルファーにラベルを付けると、1つのソリューションでゴルファーのリラベリングが別の有効なソリューションを提供します。
したがって、サイズ$ n $の対称グループは、$ n $の区別可能なオブジェクトのセットに作用すると見なすことができます。
この論文では、区別できないオブジェクトに起因する対称性をどのように破ることができるかを示します。
区別できないオブジェクトの対称性が、例えば区別できないオブジェクトによってインデックス付けされたマトリックスで、複雑なタイプでどのように適切に定義できるかを示します。
次に、結果の対称性を正しく壊す方法を示します。
本質的に、高レベルのモデリング言語である区別できないオブジェクトは、「無名のタイプ」でカプセル化されています。
本質的に無名のタイプの完全な対称性破壊の実装を提供します。

要約(オリジナル)

Indistinguishable objects often occur when modelling problems in constraint programming, as well as in other related paradigms. They occur when objects can be viewed as being drawn from a set of unlabelled objects, and the only operation allowed on them is equality testing. For example, the golfers in the social golfer problem are indistinguishable. If we do label the golfers, then any relabelling of the golfers in one solution gives another valid solution. Therefore, we can regard the symmetric group of size $n$ as acting on a set of $n$ indistinguishable objects. In this paper, we show how we can break the symmetries resulting from indistinguishable objects. We show how symmetries on indistinguishable objects can be defined properly in complex types, for example in a matrix indexed by indistinguishable objects. We then show how the resulting symmetries can be broken correctly. In Essence, a high-level modelling language, indistinguishable objects are encapsulated in ‘unnamed types’. We provide an implementation of complete symmetry breaking for unnamed types in Essence.

arxiv情報

著者 Ozgur Akgun,Mun See Chang,Ian P. Gent,Christopher Jefferson
発行日 2025-03-21 15:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Breaking the Symmetries of Indistinguishable Objects はコメントを受け付けていません