kongsberg
콩스버그
kongsberg
전체 방문자
오늘
어제
  • 분류 전체보기 (44)
    • DL&ML (31)
    • 웹프로그래밍 (2)
    • 상식 (3)
    • 재테크 (7)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • Llama
  • CSS 글자크기
  • pre-training
  • 네이버통장
  • GPT
  • synthetic data
  • CMA
  • pylint
  • TMUX
  • 네이버CMA
  • llm training
  • 거대언어모델
  • LLM
  • 재테크
  • html 글자크기
  • llama2
  • Pretraining
  • 토스뱅크
  • 글자크기 조절
  • pytorch

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
kongsberg
DL&ML

LLama1 review

LLama1 review
DL&ML

LLama1 review

2023. 7. 31. 19:09
728x90

- LLmam란: OpenAI의 GPT-3, Chinchilla, PaLM과 같은 “Foundation Model” 또는 “LLM”

- 다른 점: 다른 LLM들과는 달리 publicly available한 dataset으로 학습되었고, publicly model using이 가능함

- 강점: Parameter 13Billion짜리 모델이 175B 짜리 GPT-3보다 성능이 좋음

- 한정된 예산에서의 Best performance는 “large model”이 아닌 “small model의 더 많은 data학습” 이라고 주장함

- Llama-7B는 1T tokens에 학습

- GPT-3-175B는 0.4T tokens에 학습

- llama중 작은 모델(6B, 13B)은 Single Gpu(A100)에서 돌아감

Pre-training data 구성

- 전부 open source로만 이루어짐

English CommonCrawl[67%]

- CCNet pipeline을 이용하여 중복 data제거하고 non-english 제거함

n-gram language model을 이용하여 저품질 콘텐츠도 제거함

C4[15%]

- 구글 T5 학습 dataset

 

Github[4.5%]

 

Wikipedia [4.5%]

- 20 multilingual이지만 korean 없음

 

Gutenberg and Books3 [4.5%]

- 공공 책 dataset

 

학습방식

- 큰 model은 1.4T, 작은 model은 1T tokens 사용

- Wikipedia, Book dataset만 2 epoch 학습돌리고, 나머지는 1 epoch씩만 돌림

- Optimizer: AdamW

- Scheduler: Cosine learning rate scheduler 사용

- gradient clipping: 1.0

- warm-up: 2,000 warm-up sterps 사용

- batch-size: 4M tokens batch-size 사용

- training-time: 가장 큰 65B-parameter model의 경우 2048개의 A100 GPU로 1.4Token을 학습하는데 21 days가 걸렸음

- maximum input tokens: 2048

728x90

'DL&ML' 카테고리의 다른 글

UniversalNER  (0) 2023.08.29
llama2 간단 요약  (0) 2023.08.01
GPU란? AI와 가상화폐  (1) 2023.01.07
db에서 pk_col 이란?  (0) 2023.01.05
pytorch에서 num_workers의 역할과 적절한 수  (0) 2023.01.05
  • Pre-training data 구성
  • 학습방식
'DL&ML' 카테고리의 다른 글
  • UniversalNER
  • llama2 간단 요약
  • GPU란? AI와 가상화폐
  • db에서 pk_col 이란?
kongsberg
kongsberg

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.