LLama1 review

- LLmam란: OpenAI의 GPT-3, Chinchilla, PaLM과 같은 “Foundation Model” 또는 “LLM”

- 다른 점: 다른 LLM들과는 달리 publicly available한 dataset으로 학습되었고, publicly model using이 가능함

- 강점: Parameter 13Billion짜리 모델이 175B 짜리 GPT-3보다 성능이 좋음

- 한정된 예산에서의 Best performance는 “large model”이 아닌 “small model의 더 많은 data학습” 이라고 주장함

- Llama-7B는 1T tokens에 학습

- GPT-3-175B는 0.4T tokens에 학습

- llama중 작은 모델(6B, 13B)은 Single Gpu(A100)에서 돌아감

- 전부 open source로만 이루어짐

English CommonCrawl[67%]

- CCNet pipeline을 이용하여 중복 data제거하고 non-english 제거함

n-gram language model을 이용하여 저품질 콘텐츠도 제거함

C4[15%]

- 구글 T5 학습 dataset

Github[4.5%]

Wikipedia [4.5%]

- 20 multilingual이지만 korean 없음

Gutenberg and Books3 [4.5%]

- 공공 책 dataset

- 큰 model은 1.4T, 작은 model은 1T tokens 사용

- Wikipedia, Book dataset만 2 epoch 학습돌리고, 나머지는 1 epoch씩만 돌림

- Optimizer: AdamW

- Scheduler: Cosine learning rate scheduler 사용

- gradient clipping: 1.0

- warm-up: 2,000 warm-up sterps 사용

- batch-size: 4M tokens batch-size 사용

- training-time: 가장 큰 65B-parameter model의 경우 2048개의 A100 GPU로 1.4Token을 학습하는데 21 days가 걸렸음

- maximum input tokens: 2048

UniversalNER (0)	2023.08.29
llama2 간단 요약 (0)	2023.08.01
GPU란? AI와 가상화폐 (1)	2023.01.07
db에서 pk_col 이란? (0)	2023.01.05
pytorch에서 num_workers의 역할과 적절한 수 (0)	2023.01.05

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

티스토리툴바