- LLmam란: OpenAI의 GPT-3, Chinchilla, PaLM과 같은 “Foundation Model” 또는 “LLM”
- 다른 점: 다른 LLM들과는 달리 publicly available한 dataset으로 학습되었고, publicly model using이 가능함
- 강점: Parameter 13Billion짜리 모델이 175B 짜리 GPT-3보다 성능이 좋음
- 한정된 예산에서의 Best performance는 “large model”이 아닌 “small model의 더 많은 data학습” 이라고 주장함
- Llama-7B는 1T tokens에 학습
- GPT-3-175B는 0.4T tokens에 학습
- llama중 작은 모델(6B, 13B)은 Single Gpu(A100)에서 돌아감
Pre-training data 구성
- 전부 open source로만 이루어짐
English CommonCrawl[67%]
- CCNet pipeline을 이용하여 중복 data제거하고 non-english 제거함
n-gram language model을 이용하여 저품질 콘텐츠도 제거함
C4[15%]
- 구글 T5 학습 dataset
Github[4.5%]
Wikipedia [4.5%]
- 20 multilingual이지만 korean 없음
Gutenberg and Books3 [4.5%]
- 공공 책 dataset
학습방식
- 큰 model은 1.4T, 작은 model은 1T tokens 사용
- Wikipedia, Book dataset만 2 epoch 학습돌리고, 나머지는 1 epoch씩만 돌림
- Optimizer: AdamW
- Scheduler: Cosine learning rate scheduler 사용
- gradient clipping: 1.0
- warm-up: 2,000 warm-up sterps 사용
- batch-size: 4M tokens batch-size 사용
- training-time: 가장 큰 65B-parameter model의 경우 2048개의 A100 GPU로 1.4Token을 학습하는데 21 days가 걸렸음
- maximum input tokens: 2048
'DL&ML' 카테고리의 다른 글
UniversalNER (0) | 2023.08.29 |
---|---|
llama2 간단 요약 (0) | 2023.08.01 |
GPU란? AI와 가상화폐 (1) | 2023.01.07 |
db에서 pk_col 이란? (0) | 2023.01.05 |
pytorch에서 num_workers의 역할과 적절한 수 (0) | 2023.01.05 |