[DEVIEW 2019] Dialog-BERT: 100억 건의 메신저 대화로 일상대화 인공지능 서비스하기

AI 세미나

[DEVIEW 2019] Dialog-BERT: 100억 건의 메신저 대화로 일상대화 인공지능 서비스하기

이니니 2023. 1. 21. 21:09

DEVIEW 2019
발표자 : 이주홍(@roomylee) Pingpong, Scatter Lab

1. 일상대화와 BERT 이해하기

사람 → 내일 데뷰에서 발표하는데 너무 떨려
AI → ??? 이해를 하지 못했어요. 제가 할 수 없는 일이에요
사람 → 응…

위 대화는 사람이 AI 스피커에게 시도한 대화이다. AI는 위로하고 공감해주는 편안한 일상대화 능력이 부족하다.

왜 일상대화를 잘 못할까?

대화 주제가 무한하다
사람이 얘기하는 모든 주제를 커버해야 함

필요한 지식과 상식이 무한하다.
“사과는 빨갛다”, “동물은 숨을 쉰다”, “택시는 타는 것이다” 와 같은 지식과 상식은 인간이 살아가면서 당연하게 학습하지만, 모델은 그렇지 않다.

의도나 목적이 불분명하다 (=정답이 불분명하다)
“오늘 날씨가 어때?” → “(아하 날씨를 알려달라는 거구나!!)”
“아 커피 너무 맛있다” → “(??? 어쩌라고…)”

일상 대화 데이터가 많이 없는 한계점이 존재한다.

→ 핑퐁이는 대용량 데이터와 BERT를 통해 일상대화를 많이 이해할 수 있게 되었다!

도대체 BERT가 뭐길래..? (Devlin et al., 2018)

Bidirectional Encoder Representation from Transformer

11개의 다양한 NLP 태스크에서 SOTA 성능을 보였으며, 이 중 일부에서는 사람보다도 뛰어난 결과를 얻음

BERT 학습시키기

1. - Pre-training : 언어 전반에 대해 깊게 이해하는 단계
  - Fine-tuning : 깊은 언어의 이해를 바탕으로 특정 문제에 맞춰 적응하는 단계

BERT Pre-training

Next Sentence Prediction(NSP)

Input : 이순신은 그 즉시…. 파발을 보냈다. | 그 뒤 이순신은 …. 갖추도록 하였다.
Output : True

→ 두 문장이 주어지고, 앞문장 다음에 온 뒷문장이 맞는지 맞추는 문제

Masked Language Modeling(Masked LM)

Input : 이순신은 그 즉시 조정에 [MASK]를 올렸고, 아울러 …. 파발을 보냈다.
Output : 장계

→ 문장에 빈칸을 뚫고, 그 빈칸에 어떤 단어가 들어가면 좋을지 예측하는 문제

💡 BERT의 저자는 NSP, MLM를 푸는 것이 언어를 이해함에 있어서 큰 기여를 한다고 말했다.

BERT Fine-tuning

Question Answering (Machine Reading Comprehension)

Input : 이순신이 태어난 년도는 언제인가?
Output : 1545년

Sentiment Analysis

Input : 스토리면 스토리 액션이면 액션 너무 재밌네요!!
Output : Positive

2. 일상대화를 위한 Dialog-BERT 학습시키기(Pre-training)

일상대화 데이터

스캐터랩은 ‘연애의 과학’이라는 서비스로부터 100억건의 한국어 카카오톡 데이터, 2억 건의 일본어 라인 데이터를 수집함

일상대화 데이터 전처리 : Tokenization

형태소 분석 기반
- Mecab, Khaiii 등
- 한국어는 다른 언어와는 다르게 조사가 존재한다. 이 부분에 있어서 많은 효과를 보임
Subword 기반
- SentencePiece, WordPiece 등
- BERT의 tokenizer이다.
Combined Approach
- Mecab으로 먼저 자르고 SentencePiece로 또 자르고