Post

📖 SaRA

📖 SaRA

SaRA (High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation)

Cite as: ICLR 2025

Submitted on 2025/04

Abstract

SaRA是一種用於預訓練擴散模型的高效微調方法。

SaRA旨在重新利用這些無效參數,使其重新變得有效,並使預訓練模型具備新的任務特定能力。

  1. 針對潛在有效參數的微調:SaRA首先識別預訓練模型中絕對值小於特定閾值 θt​ 的參數,這些被視為「暫時無效但潛在有效」的參數 。然後,它使用一個稀疏遮罩(sparse mask) M 來更新這些初始無效的參數 PM​=P⊙M,同時凍結初始有效的參數 P⊙(1−M) 。 漸進式稀疏低階模型 Adapter

這種方法允許模型學習新知識,同時保留先前的知識 。 slide 3 slide 3

  1. 基於核範數的低秩約束:為了解決稀疏參數矩陣 PM​ 可能因高秩而導致過擬合的問題,SaRA引入了基於Nuclear Norm-based Low-Rank Constraint。這有助於限制學習到的稀疏矩陣的秩,減輕過擬合的風險 。

slide 3 slide 3

漸進式稀疏低階模型 Adapter

  1. 漸進式參數調整策略(Progressive Parameter Adjustment):為了確保微調過程中幾乎所有參數都得到充分利用,SaRA提出了一種漸進式參數調整策略 。 它在微調的早期階段之後,重新選擇那些仍低於預定義閾值的無效參數作為新的可訓練參數,並在後續階段重點優化這些參數 。

參數的無效性主要是由訓練過程的隨機性造成的,而非模型結構的固有問題。

  1. 初始時看似”無用”的小參數,在合理的訓練過程中大多數都能重新獲得效用

  2. 一些初始時”有用”的大參數,可能因為訓練過程的隨機性而暫時變得無效

  3. 這種現象表明,那些絕對值較小的參數並非結構性冗餘,而是具有潛在價值的

slide 4

漸進式稀疏低階模型 Adapter

  1. 非結構化反向傳播:SaRA引入了一種新穎的非結構化反向傳播策略,以顯著降低微調過程中的記憶體成本 。與傳統方法需要保留整個參數矩陣的梯度不同,SaRA只為需要更新的選定子集參數保留梯度 。

這使得SaRA在記憶體效率上優於現有的PEFT方法 。

slide 5

This post is licensed under CC BY 4.0 by the author.