Paper Note: CVPR 2019 ArcFace

2023-08-02

當前挑戰

Triplet 的數量太多

人臉識別 (Face Recognition) 主要有兩種實作方向:

訓練一個 multi-class classifier，把FR當作分類任務，常見的loss function為softmax loss
訓練一個model去抽取圖片的embedding，做clustering的任務，常見的loss function為triplet loss

這兩個作法其實都存在缺點，對於softmax loss方法:

此方法為closed-set classification problem → 有新的分類對象加入，就必須重新訓練分類器!
分類器的參數量會隨著類別數量而線性增長。

而對於triplet loss方法:

在大訓練集下，triplet的數量會爆炸性的增長!
這使尋找semi-hard sample與hard sample的時間大幅增加，拖慢了訓練速度。

小筆記 2015年FaceNet的成功，證實了triplet loss在FR的任務上有更傑出的表現，過量的triplet卻造成了訓練上的負擔。
若有\(N\)個類別，每類有\(K\)個samples，這樣將有\(C^N_1C^K_2C^{N-1}_1C^K_1\)\(=N\cdot \frac{K(K-1)}{2}\cdot (N-1) \cdot K\)個triplets，相當於是\(O(K^3N^2)\)的龐大複雜度