[AI CONNECT] 노트북으로 GPT 맛보기 ( 6등 / 418팀 )

Competition

[AI CONNECT] 노트북으로 GPT 맛보기 ( 6등 / 418팀 )

이니니 2023. 4. 7. 00:40

https://aiconnect.kr/competition/detail/223

AI CONNECT | AI competition Platform

No.1 인공지능 경진대회 플랫폼

aiconnect.kr

대회 참여 기간 : 2023/03/20 ~ 2023/03/30
주관 : 마인즈앤컴퍼니

대회 개요

한국어 원본 텍스트를 한 문장으로 요약하는 생성 요약(Abstractive Summary) 문제를 푸는 대회

평가 지표

ROUGE-1, ROUGE-2, ROUGE-L

제공된 데이터

train : 40,400개
- column 정보
  - id : 각 문단을 구분하는 ID 값
  - text : 원본 문단 텍스트
  - summary : text의 생성 요약문
test : 500개

리더보드에 제출했을 때, 가장 좋았던 방법

사용 모델 : paust/pko-t5-large
- huggingface에서 위 모델을 불러와 제공된 데이터로 fine-tuning하는 작업을 진행
데이터 추가 : AI HUB의 '요약문 및 레포트 생성 데이터'
- 주어진 데이터의 일부가 해당 데이터셋에 포함되었기 때문에, 이 데이터셋으로 학습을 진행
prompt tuning 적용
contrastive learning을 이용한 ranker 구조 추가
- 논문 : SimCLS : A Simple Framework for Contrastive Learning of Abstractive Summarization
후처리 : 문장이 끝나는 시점을 파악하여 앞의 문장만 남기고 뒷부분은 지우는 작업 수행

👉 최종 leader board 점수는 아래와 같습니다.

1️⃣ ROUGE-1 : 0.50419

2️⃣ ROUGE-2 : 0.34122

3️⃣ ROUGE-L : 0.43622

시도했지만 성능이 잘 안나왔던 방법

LoRA
- GPT 모델을 가지고 실험을 해봤지만... 전체적으로 평가지표가 0.05정도 낮게 나옵니다.
data의 종류가 3가지로 나뉘었습니다(news speech, news article, news dialogue). 데이터 EDA를 통해 test data에서 세 가지 종류를 구분하고, 각각 다른 데이터셋을 추가하여 학습을 진행하였지만, 최종적으로 가장 좋은 점수보다 0.05정도 낮은 점수가 나옴
- 점수가 안좋게 나온 이유는 아마 추가한 데이터셋이 주어진 데이터셋과 유형이 맞지 않아 생긴 문제 같습니다.

최종 순위

6위 / 총 418팀

순위	팀명	ROUGE-1	ROUGE-2	ROUGE-3
6	gptgptgpt	0.504197310935916	0.341227628726192	0.436229370248755

대회 회고

10일을 온전히 쏟아붓지는 못했던 대회였어서 아쉬웠습니다. 하지만, 생성 요약 task에 대한 다양한 지식을 얻을 수 있어서 좋았습니다ㅎㅎ 특히, 대회 운영진분들께서 처음에 baseline을 주셨는데, 그 덕분에 많은 지식을 얻어간 것 같습니다!! 특히 LoRA와 prompt tuning을 알 수 있어서 좋은 경험이었습니다. 다음 기회에는 이러한 경량화 기법을 더 잘 활용해서 좋은 결과를 얻고 싶습니다!! 그 때까지 계속해서 도전하겠습니다~~ 파이팅~!!

저작자표시 비영리 동일조건

'Competition' 카테고리의 다른 글

[LG Aimers] 자율주행 센서의 안테나 성능 예측 AI 경진대회 (private 38등) (0)	2022.08.29

현재글[AI CONNECT] 노트북으로 GPT 맛보기 ( 6등 / 418팀 )

댓글

티스토리툴바