Jun-Hyun Bae, Minho Lee, Heechul Jung
Kyungpook National University
Abstract
Training deep neural networks with empirical risk minimization (ERM) often captures dataset biases, hindering generalization to new or unseen data. Previous solutions either require prior knowledge of biases or utilize training intentionally biased models as auxiliaries; however, they still suffer from multiple biases. To address this, we introduce Adaptive Bias Discovery (ABD), a novel learning framework designed to mitigate the impact of multiple unknown biases. ABD trains an auxiliary model to be adapted to biases based on the debiased parameters from the debiasing phase, allowing it to navigate through multiple biases. Then, samples are reweighted based on the discovered biases to update debiased parameters. Extensive evaluations of synthetic experiments and real-world datasets demonstrate that ABD consistently outperforms existing methods, particularly in real-world applications where multiple unknown biases are prevalent.
Overview
์ฌ์ ๋ฐ์ด์ด์ค ์ ๋ณด ์์ด ๋ฐ์ดํฐ์ ์กด์ฌํ๋ ์ฌ๋ฌ ๋ฐ์ด์ด์ค๋ฅผ ์์ฐจ์ ์ผ๋ก ๋ฐ๊ฒฌํ๊ณ ์ ๊ฑฐํ๋ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
- Bias-adapted model โ Debiased ํ๋ผ๋ฏธํฐ \(\theta\) ์์ 1-step gradient descent๋ก ๋ฐ์ด์ด์ค์ ๋ฏผ๊ฐํ ๋ณด์กฐ ๋ชจ๋ธ \(f_\phi\) ๋ฅผ ์์ฑํ๋ค.
- Adaptive group formation โ \(f_\phi\) ์ ์์ธก์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ด์ด์ค ์ ๋ ฌ ๊ทธ๋ฃน(\(G^\odot\) )๊ณผ ๋น์ ๋ ฌ ๊ทธ๋ฃน(\(G^\otimes\) )์ผ๋ก ๋ถํ ํ๋ค.
- Iterative debiasing โ Group DRO๋ก worst-case ๊ทธ๋ฃน ์์ค์ ์ต์ํํ๋ฉฐ, \(\theta\) ๊ฐ ํ ๋ฐ์ด์ด์ค์ ๊ฐ๊ฑดํด์ง๋ฉด \(\phi\) ๊ฐ ์์ฐ์ค๋ฝ๊ฒ ๋ค์ ๋ฐ์ด์ด์ค๋ฅผ ๋ฐ๊ฒฌํ๋ค.

ABD ํ๋ ์์ํฌ ๊ฐ์. ๋ ๊ฐ์ง ๋ฐ์ด์ด์ค(Bias1, Bias2)์ ๋ ํ์ต ์คํ ์ ์์๋ก ๋์ํ.
Method
ERM์ผ๋ก ํ์ต๋ ๋ชจ๋ธ์ ๋ฐ์ดํฐ์ ์กด์ฌํ๋ spurious correlation์ ์ฝ๊ฒ ํฌ์ฐฉํ์ฌ ์ผ๋ฐํ ์ฑ๋ฅ์ด ์ ํ๋๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ฐ์ด์ด์ค ์ ๋ณด๋ฅผ ์ฌ์ ์ ์๊ณ ์๊ฑฐ๋, ๋จ์ผ ๋ฐ์ด์ด์ค๋ง ์ฒ๋ฆฌํ ์ ์๋ค๋ ํ๊ณ๊ฐ ์๋ค.
ABD๋ ๋ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋๋ค. ๋จผ์ debiased ํ๋ผ๋ฏธํฐ \(\theta\) ์์ ํ ์คํ gradient descent๋ก bias-adapted ํ๋ผ๋ฏธํฐ \(\phi = \theta - \alpha \nabla_\theta \mathcal{L}(f_\theta)\) ๋ฅผ ์ป๋๋ค. ์ด \(f_\phi\) ๋ ๋ฐ์ดํฐ์ ํ๋ฉด์ ํจํด์ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํ๋ฏ๋ก, ์์ธก ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ด์ด์ค ์ ๋ ฌ ๊ทธ๋ฃน(\(G^\odot\) )๊ณผ ๋น์ ๋ ฌ ๊ทธ๋ฃน(\(G^\otimes\) )์ผ๋ก ๋ถํ ํ๋ค. ์ดํ group DRO๋ฅผ ํตํด worst-case ๊ทธ๋ฃน์ ์์ค์ ์ต์ํํ๋๋ก \(\theta\) ๋ฅผ ์ ๋ฐ์ดํธํ๋ค.
ํต์ฌ์ \(\phi\) ๊ฐ ๋งค ์คํ ๋ง๋ค \(\theta\) ๋ก๋ถํฐ ์ฌ์์ฑ๋๋ค๋ ์ ์ด๋ค. \(\theta\) ๊ฐ ์ฒซ ๋ฒ์งธ ๋ฐ์ด์ด์ค์ ๋ํด ๊ฐ๊ฑดํด์ง๋ฉด, \(\phi\) ๋ ์์ฐ์ค๋ฝ๊ฒ ๋ค์์ผ๋ก ๋๋๋ฌ์ง ๋ฐ์ด์ด์ค๋ฅผ ํฌ์ฐฉํ๊ฒ ๋๋ค. ์ด MAML ์ ์ฌ ๊ตฌ์กฐ ๋๋ถ์ ์ฌ์ ๋ฐ์ด์ด์ค ์ ๋ณด ์์ด๋ ์ฌ๋ฌ ๋ฐ์ด์ด์ค๋ฅผ ์์ฐจ์ ์ผ๋ก ๋ฐ๊ฒฌํ๊ณ ์ ๊ฑฐํ ์ ์๋ค.
์๋ GradCAM ์๊ฐํ๋ biased model \(f_\phi\) ์ attention์ด ํ์ต์ด ์งํ๋จ์ ๋ฐ๋ผ ๋ค๋ฅธ ์์ญ์ผ๋ก ์ด๋ํ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ABD๊ฐ ํ์ต ๊ณผ์ ์์ ๋ค์ํ ๋ฐ์ด์ด์ค๋ฅผ ์ ์์ ์ผ๋ก ๋ฐ๊ฒฌํจ์ ํ์ธํ ์ ์๋ค.

ERM ๋ชจ๋ธ๊ณผ ABD์ biased model $f_\phi$์ GradCAM ์๊ฐํ. ํ์ต ์คํ ์ด ์งํ๋๋ฉด์ $f_\phi$์ attention์ด ๋ค๋ฅธ ๋ฐ์ด์ด์ค ํน์ง์ผ๋ก ์ด๋ํ๋ค.
Results
Colored MNIST
OoD test accuracy (%). Bias: Color๋ง ์๋ ๊ฒฝ์ฐ์ Color & Patch๊ฐ ๋์์ ์กด์ฌํ๋ ๊ฒฝ์ฐ.
| Algorithm | Color (OoD) | Color & Patch (OoD) |
|---|---|---|
| ERM | 16.4 | 14.0 |
| IRM | 66.9 | 13.4 |
| Group DRO | 13.6 | 14.1 |
| PI | 70.2 | 15.3 |
| ABD (Ours) | 70.7 | 62.3 |
| Optimal | 75.0 | 75.0 |
PI๋ ๊ฐ์ฅ ์ง๋ฐฐ์ ์ธ ๋ฐ์ด์ด์ค(Color)๋ง ๋ฐ๊ฒฌํ๋ ๋ฐ๋ฉด, ABD๋ Color โ Patch ์์ผ๋ก ์ฌ๋ฌ ๋ฐ์ด์ด์ค๋ฅผ ์์ฐจ์ ์ผ๋ก ๋ฐ๊ฒฌํ๋ค.

PI์ ๊ทธ๋ฃน ๋ด Pearson ์๊ด๊ณ์. PI๋ Color ๋ฐ์ด์ด์ค๋ง ๋ฐ๊ฒฌํ๊ณ Patch๋ ํฌ์ฐฉํ์ง ๋ชปํ๋ค.

ABD์ ๊ทธ๋ฃน ๋ด Pearson ์๊ด๊ณ์ ์๊ฐํ. ํ์ต์ด ์งํ๋๋ฉด์ Color โ Patch ์์ผ๋ก ๋ฐ์ด์ด์ค๋ฅผ ๋ฐ๊ฒฌํ๋ค.
Real-World Tasks
CivilComments (worst-case acc.), MultiNLI (worst-case acc.), Camelyon17 (OoD acc.), FMoW (worst-region acc.).
| Algorithm | CivilComments | MultiNLI | Camelyon17 | FMoW |
|---|---|---|---|---|
| ERM | 56.0 | 61.8 | 70.3 | 32.3 |
| Group DRO | 70.0 | 62.7 | 68.4 | 30.8 |
| JTT | 69.3 | 63.2 | 63.8 | 33.4 |
| PI | 61.1 | 61.5 | 71.7 | 31.2 |
| LISA | โ | โ | 77.1 | 35.5 |
| ABD (Ours) | 71.1 | 67.1 | 81.1 | 34.1 |

MultiNLI์์ ์ค๋ถ๋ฅ ๊ทธ๋ฃน $G^\otimes$์ ๋ฐ์ด์ด์ค ๊ตฌ์ฑ ๋ณํ. Negation ๋ฐ์ด์ด์ค ๋ฐ๊ฒฌ ํ Overlap ๋ฐ์ด์ด์ค๊ฐ ์ ์ฐจ ๋๋ฌ๋๋ค.

MetaShift ํ ์คํธ ๋ฐ์ดํฐ์ GradCAM ์๊ฐํ. ERM์ ๋ฐฐ๊ฒฝ์ ์์กดํ์ง๋ง, ABD๋ ๋์ ๊ฐ์ฒด์ ์ง์คํ๋ค.
BibTeX
@InProceedings{Bae_2024_ACCV,
author = {Bae, Jun-Hyun and Lee, Minho and Jung, Heechul},
title = {Adaptive Bias Discovery for Learning Debiased Classifier},
booktitle = {Proceedings of the Asian Conference on Computer Vision (ACCV)},
month = {December},
year = {2024},
pages = {3074-3090}
}