Llama
llama2 간단 요약
Framework: 일반적인 LLM 학습법임 Pretraining Ugrade 된 점 data cleaning 1.4T → 2T tokens 사용 grouped-query attention (GQA) 사용 (병목현상 줄임) Context length 2048 → 4096 변화 표 Pretraining 학습 그래프: 2T token을 한 번씩 다 학습했는데 아직 수렴이 안되는것을 확인할 수 있다. Finetuning Instruction tuning은 양 > 질임 실험결과: 아주 신경써서 만든 Instruction dataset에 training을 할 경우 수 만개의 sample 가지고도 high-quality의 결과가 나왔음. (27,540개의 annotations를 하였음) details epoch수:..
LLama1 review
- LLmam란: OpenAI의 GPT-3, Chinchilla, PaLM과 같은 “Foundation Model” 또는 “LLM” - 다른 점: 다른 LLM들과는 달리 publicly available한 dataset으로 학습되었고, publicly model using이 가능함 - 강점: Parameter 13Billion짜리 모델이 175B 짜리 GPT-3보다 성능이 좋음 - 한정된 예산에서의 Best performance는 “large model”이 아닌 “small model의 더 많은 data학습” 이라고 주장함 - Llama-7B는 1T tokens에 학습 - GPT-3-175B는 0.4T tokens에 학습 - llama중 작은 모델(6B, 13B)은 Single Gpu(A100)에서 돌아..