Computer Science/구글 BERT의 정석

Tinybert

728x90

Bert에서 모델 경량화를 시킨 모델이라고 생각해주면 된다.

모델 경량화 방법에는 다음과 같은 3가지 방법이 존재한다.

1. Quantization

2. Weight Pruning

3. Knowledge Distilation

위 3가지 중 본 논문은 3번째 방법인 Knowledge Distilation을 활용하여 모델을 경량화 하는 방법을 제안한다.

해당 방식을 사전 학습과 fine-tuning 단계 모두 진쟁하게 된다. 따라서 위 모델은 사전학습을 통해 얻을 수 있는 general domain에 대한 지식과 fine-tuning 단계에서 얻을 수 있는 task-specific한 지식까지 얻을 수 있게 되는 것이다.

위 모델의 핵심적인 내용은 3가지의 loss를 사용했다는 점과, 2단계의 distillation을 진행하였다는 것이다.

먼저 3가지 loss를 사용한 것에 대해서 살펴보도록 하자.

loss가 어떤 것인지 살펴보면 다음과 같다.

1. embedding layer의 output

2. Transformer layer에 있는 hidden vector와 attention matrix

3. prediction layer의 output

2단계의 distillation은 다음과 같다.

1. general distillation

2. task-specific distillation(1번에서 얻은 general한 모델을 시작점으로 하여, augmentation을 시키고 그것을 fine-tuning하는 단계를 거치게 된다.)

Knowledge distaillation은 비유하자면, 선생님 네트워크 T의 지식을 학생 네트워크 S에게 전달하는 것이다.

즉, 학생 네트워크는 선생님 네트워크의 행동을 비슷하게 수행하게끔 학습하는 것이다.