이니의 공부일지

  • 홈
  • 태그
  • 방명록

GPU 1

Day 52. Training Multi-Billion Parameter LM

이번에는 조금 색다른 분야입니다. 언어 모델이 계속해서 커지면서, 이를 단순히 학습시키는 것조차 큰 문제가 되었습니다. 매우 큰 모델의 대명사인 GPT-3는 트랜스포머 디코더의 단 하나 레이어의 역전파를 계산하는 데에도 메모리 크기가 부족합니다. 이러한 거대 모델들이 어떻게 학습되었는지 알아보고, 우리가 사용해왔던 GPU가 가지는 특징 및 Multi-GPU의 활용 방법에 대해 알아봅시다. 최근 language model들은 데이터 크기와 모델 크기 모두를 늘리는 것이 추세였다. 이전에는 파라미터의 수가 그렇게 크지 않았지만, 모델의 크기가 크면 커질수록 성능이 좋아지는 것 때문에 GPT-3가 최종적으로 나오게 되었다. 175 billion 하지만, GPT-3 같이 너무 큰 모델은 학습시키는 것이 문제이다..

NLP/AI기술 자연어처리 전문가 양성 과정 3기_NLP 2022.07.14
이전
1
다음
프로필사진

열심히 공부하자~!!

  • 분류 전체보기 (63)
    • Python (27)
      • Algorithm (9)
      • 백준 알고리즘 (5)
      • 프로그래머스 (13)
    • Deep Learning (4)
      • 딥러닝 텐서플로 교과서 (4)
    • 부스트캠프 AI Tech (8)
    • NLP (7)
      • AI기술 자연어처리 전문가 양성 과정 3기_NLP (4)
    • Computer Vision (1)
    • 데이터 분석 (2)
      • 이것이 데이터 분석이다 with python (2)
    • 논문 리뷰 (0)
    • Competition (2)
    • AI 세미나 (1)
    • 자격증 따기 (2)
    • 도서 리뷰 (9)

Tag

Python, 자연어처리, 코딩, Algorithm, programmers, coding, 파이썬, NLP, 프로그래머스, goorm,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

  • 나의 백준 알고리즘 풀이 모음

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.