자연어처리 기술 중 가장 각광받고 있는 GPT에 대해서 학습해보자. GPT-3가 나오기 이전에, 이미 OpenAI에서는 GPT-1, GPT-2에 대해 발표를 했었다. 이 모든 모델들을 알아보자 지금까지의 핵심 모델 구조는 크게 BERT와 GPT로 나눌 수 있다. 이 둘은 모두 transformer의 encoder 구조를 사용하고 있다. 이 둘의 차이는 GPT는 pre-training task를 language modeling(다음 단어 예측)을 사용한 것이다. ELMO와는 달리, 오른쪽 단어만을 예측하도록 한 것이지, 왼쪽 단어도 예측하는 것이 아니다. BERT도 language modeling에 기반해서 pre-training한 모델이지만, Maked Language Modeling task를 통해서 ..