Competition

[AI CONNECT] 노트북으로 GPT 맛보기 ( 6등 / 418팀 )

이니니 2023. 4. 7. 00:40

https://aiconnect.kr/competition/detail/223

 

AI CONNECT | AI competition Platform

No.1 인공지능 경진대회 플랫폼

aiconnect.kr

 

 

  • 대회 참여 기간 : 2023/03/20 ~ 2023/03/30
  • 주관 : 마인즈앤컴퍼니

 

대회 개요

  • 한국어 원본 텍스트를 한 문장으로 요약하는 생성 요약(Abstractive Summary) 문제를 푸는 대회

 

평가 지표

  • ROUGE-1, ROUGE-2, ROUGE-L

 

제공된 데이터

  • train : 40,400개
    • column 정보
      • id : 각 문단을 구분하는 ID 값
      • text : 원본 문단 텍스트
      • summary : text의 생성 요약문
  • test : 500개

 

리더보드에 제출했을 때, 가장 좋았던 방법

  • 사용 모델 : paust/pko-t5-large
    • huggingface에서 위 모델을 불러와 제공된 데이터로 fine-tuning하는 작업을 진행
  • 데이터 추가 : AI HUB의 '요약문 및 레포트 생성 데이터' 
    • 주어진 데이터의 일부가 해당 데이터셋에 포함되었기 때문에, 이 데이터셋으로 학습을 진행
  • prompt tuning 적용
  • contrastive learning을 이용한 ranker 구조 추가
    • 논문 : SimCLS : A Simple Framework for Contrastive Learning of Abstractive Summarization
  • 후처리 : 문장이 끝나는 시점을 파악하여 앞의 문장만 남기고 뒷부분은 지우는 작업 수행

 

👉 최종 leader board 점수는 아래와 같습니다.

1️⃣ ROUGE-1 : 0.50419

2️⃣ ROUGE-2 : 0.34122

3️⃣ ROUGE-L : 0.43622

 

시도했지만 성능이 잘 안나왔던 방법

  • LoRA
    • GPT 모델을 가지고 실험을 해봤지만... 전체적으로 평가지표가 0.05정도 낮게 나옵니다.
  • data의 종류가 3가지로 나뉘었습니다(news speech, news article, news dialogue). 데이터 EDA를 통해 test data에서 세 가지 종류를 구분하고, 각각 다른 데이터셋을 추가하여 학습을 진행하였지만, 최종적으로 가장 좋은 점수보다 0.05정도 낮은 점수가 나옴
    • 점수가 안좋게 나온 이유는 아마 추가한 데이터셋이 주어진 데이터셋과 유형이 맞지 않아 생긴 문제 같습니다.

 

최종 순위

6위 / 총 418팀

순위
팀명
ROUGE-1
ROUGE-2
ROUGE-3
6
gptgptgpt
0.504197310935916
0.341227628726192
0.436229370248755

 

대회 회고

  • 10일을 온전히 쏟아붓지는 못했던 대회였어서 아쉬웠습니다. 하지만, 생성 요약 task에 대한 다양한 지식을 얻을 수 있어서 좋았습니다ㅎㅎ 특히, 대회 운영진분들께서 처음에 baseline을 주셨는데, 그 덕분에 많은 지식을 얻어간 것 같습니다!! 특히 LoRA와 prompt tuning을 알 수 있어서 좋은 경험이었습니다. 다음 기회에는 이러한 경량화 기법을 더 잘 활용해서 좋은 결과를 얻고 싶습니다!! 그 때까지 계속해서 도전하겠습니다~~ 파이팅~!!