Post

📖 RGCL

📖 RGCL

Cite as: ACL 2024

Submitted on 2023/11

Problems

Confounder Memes(混淆梗圖)問題: 圖像或文本的微小差異可能導致完全不同的含義

現有CLIP-based系統的embedding space對細微差異不敏感

混淆梗圖在embedding space中距離過近,難以區分

→ 論文發現HateCLIPper等現有模型將相反標籤的混淆梗圖映射到embedding space的相似位置,導致分類錯誤。

Framework

slide 3

Retrieval-Guided Contrastive Learning (RGCL)

  1. Pseudo-Gold Positive
  • 定義: 與anchor meme同標籤且高相似度的訓練樣本

  • 作用: 將語義相似的同類梗圖在embedding space中拉近

  1. Hard Negative
  • 定義: 與anchor meme異標籤但高相似度的訓練樣本(通常是confounders)

  • 作用: 增強embedding space區分混淆梗圖的能力

  1. In-Batch Negative
  • 定義: 同batch中異標籤的所有樣本

  • 作用: 引入多樣化梯度信號,推開隨機負樣本

RGCL損失函數:

(LiCE)Cross-Entropy Loss: 讓模型學會基本的分類

目的: 告訴模型「雖然這兩張圖長得不太一樣,但它們語義很近,要拉近距離」。 slide 4

目的: 告訴模型「雖然這兩張圖長得很像,但意思完全相反,要用力推開」。 slide 4

slide 4

slide 4

This post is licensed under CC BY 4.0 by the author.