Computer Science/구글 BERT의 정석
-
Bert에서 모델 경량화를 시킨 모델이라고 생각해주면 된다. 모델 경량화 방법에는 다음과 같은 3가지 방법이 존재한다. 1. Quantization 2. Weight Pruning 3. Knowledge Distilation 위 3가지 중 본 논문은 3번째 방법인 Knowledge Distilation을 활용하여 모델을 경량화 하는 방법을 제안한다. 해당 방식을 사전 학습과 fine-tuning 단계 모두 진쟁하게 된다. 따라서 위 모델은 사전학습을 통해 얻을 수 있는 general domain에 대한 지식과 fine-tuning 단계에서 얻을 수 있는 task-specific한 지식까지 얻을 수 있게 되는 것이다. 위 모델의 핵심적인 내용은 3가지의 loss를 사용했다는 점과, 2단계의 distilla..
TinybertBert에서 모델 경량화를 시킨 모델이라고 생각해주면 된다. 모델 경량화 방법에는 다음과 같은 3가지 방법이 존재한다. 1. Quantization 2. Weight Pruning 3. Knowledge Distilation 위 3가지 중 본 논문은 3번째 방법인 Knowledge Distilation을 활용하여 모델을 경량화 하는 방법을 제안한다. 해당 방식을 사전 학습과 fine-tuning 단계 모두 진쟁하게 된다. 따라서 위 모델은 사전학습을 통해 얻을 수 있는 general domain에 대한 지식과 fine-tuning 단계에서 얻을 수 있는 task-specific한 지식까지 얻을 수 있게 되는 것이다. 위 모델의 핵심적인 내용은 3가지의 loss를 사용했다는 점과, 2단계의 distilla..
2022.03.01 -
Intro ELECTRA를 살펴보기에 앞서, 기존 BERT 모델이 어떤식으로 작동하는지를 recap해보도록 하자. BERT는 기본적으로 트랜스포머의 인코더 부분만 사용한 모델이다. 또한 추가적으로, MLM과 NSP라는 2가지의 사전학습 과정을 거쳐서 해당 모델이 언어를 이해할 수 있게끔 훈련시킨다. 이 중 MLM task의 경우, 다음과 같은 과정을 통해 진행된다. 주어진 corpus를 Tokenizing한다. (Wordpiece tokenizer) 전체 단어의 15% 정도를 무작위로 고르고, 이 중 80%는 MASK 토큰으로 바꾸고, 10%는 임의의 토큰으로 바꾸고, 10%는 아무런 처리를 하지 않는다.(80-10-10 규칙) 3가지의 임베딩 처리를 하고, concat한다.(Token embedding..
ELECTRAIntro ELECTRA를 살펴보기에 앞서, 기존 BERT 모델이 어떤식으로 작동하는지를 recap해보도록 하자. BERT는 기본적으로 트랜스포머의 인코더 부분만 사용한 모델이다. 또한 추가적으로, MLM과 NSP라는 2가지의 사전학습 과정을 거쳐서 해당 모델이 언어를 이해할 수 있게끔 훈련시킨다. 이 중 MLM task의 경우, 다음과 같은 과정을 통해 진행된다. 주어진 corpus를 Tokenizing한다. (Wordpiece tokenizer) 전체 단어의 15% 정도를 무작위로 고르고, 이 중 80%는 MASK 토큰으로 바꾸고, 10%는 임의의 토큰으로 바꾸고, 10%는 아무런 처리를 하지 않는다.(80-10-10 규칙) 3가지의 임베딩 처리를 하고, concat한다.(Token embedding..
2022.02.18 -
BERT는 다양한 자연어 처리 태스크 분야에서 가장 성능이 뛰어나고, 자연어 처리 분야에서 한 걸음 나아가는데 이바지한 모델이다. 2.1 Basic idea of BERT 기존의 word2vec와 같은 다른 인기있는 모델과 달리, BERT는 단어의 의미를 파악하는 과정에서 문맥을 고려하였다. 그 결과 질문에 대한 대답, 텍스트 생성, 문장 분류 등과 같은 태스크에서 가장 좋은 성능을 도출하여, 자연어 처리 분야에 크게 기여하였다. 단어의 의미를 파악하는 과정에서 문맥을 고려하는지 여부로 모델을 분류하면 다음과 같다. 문맥 독립 모델 (Context-free-model) : word2vec 문맥 기반 모델 (Context-based-model) : BERT 두 개념의 차이를 명확히 이해하기 위해, 다음과 ..
[구글 BERT의 정석] 2. BERT 이해하기BERT는 다양한 자연어 처리 태스크 분야에서 가장 성능이 뛰어나고, 자연어 처리 분야에서 한 걸음 나아가는데 이바지한 모델이다. 2.1 Basic idea of BERT 기존의 word2vec와 같은 다른 인기있는 모델과 달리, BERT는 단어의 의미를 파악하는 과정에서 문맥을 고려하였다. 그 결과 질문에 대한 대답, 텍스트 생성, 문장 분류 등과 같은 태스크에서 가장 좋은 성능을 도출하여, 자연어 처리 분야에 크게 기여하였다. 단어의 의미를 파악하는 과정에서 문맥을 고려하는지 여부로 모델을 분류하면 다음과 같다. 문맥 독립 모델 (Context-free-model) : word2vec 문맥 기반 모델 (Context-based-model) : BERT 두 개념의 차이를 명확히 이해하기 위해, 다음과 ..
2022.02.01 -
1. 1 트랜스포머 소개 기존의 RNN과 LSTM 네트워크의 경우 순차적 테스크에서 널리 사용되는 편이다. CS231n에서 학습한 것처럼 순차적으로 데이터들이 들어오고 이를 활용한다는 측면에서, 시간에 따른 데이터들의 동향을 예측하기에 유리한 측면이 존재한다. 하지만, 해당 2개의 네트워크는 장기 의존성 문제를 가지고 있다. 장기 의존성 문제란 hidden state를 통해 과거의 정보를 저장할 때 문장의 길이가 길어지면 앞의 과거 정보가 마지막까지 잘 전달되지 못하는 현상을 말한다. 즉, 문장의 길이가 길어지면 길어질수록 앞쪽 부분에 대한 정보를 거의 잊고, 최근에 들어온 정보를 중점적으로 판단하기에 발생하는 문제라고 이해해주면 된다. 또한 이는 Vanishing gradient problem과도 관련..
[구글 BERT의 정석] 1. 트랜스포머 입문1. 1 트랜스포머 소개 기존의 RNN과 LSTM 네트워크의 경우 순차적 테스크에서 널리 사용되는 편이다. CS231n에서 학습한 것처럼 순차적으로 데이터들이 들어오고 이를 활용한다는 측면에서, 시간에 따른 데이터들의 동향을 예측하기에 유리한 측면이 존재한다. 하지만, 해당 2개의 네트워크는 장기 의존성 문제를 가지고 있다. 장기 의존성 문제란 hidden state를 통해 과거의 정보를 저장할 때 문장의 길이가 길어지면 앞의 과거 정보가 마지막까지 잘 전달되지 못하는 현상을 말한다. 즉, 문장의 길이가 길어지면 길어질수록 앞쪽 부분에 대한 정보를 거의 잊고, 최근에 들어온 정보를 중점적으로 판단하기에 발생하는 문제라고 이해해주면 된다. 또한 이는 Vanishing gradient problem과도 관련..
2022.01.18