거대언어모델

llama2 간단 요약

2023.08.01

Framework: 일반적인 LLM 학습법임 Pretraining Ugrade 된 점 data cleaning 1.4T → 2T tokens 사용 grouped-query attention (GQA) 사용 (병목현상 줄임) Context length 2048 → 4096 변화 표 Pretraining 학습 그래프: 2T token을 한 번씩 다 학습했는데 아직 수렴이 안되는것을 확인할 수 있다. Finetuning Instruction tuning은 양 > 질임 실험결과: 아주 신경써서 만든 Instruction dataset에 training을 할 경우 수 만개의 sample 가지고도 high-quality의 결과가 나왔음. (27,540개의 annotations를 하였음) details epoch수:..

DL&ML

LLama1 review

2023.07.31

- LLmam란: OpenAI의 GPT-3, Chinchilla, PaLM과 같은 “Foundation Model” 또는 “LLM” - 다른 점: 다른 LLM들과는 달리 publicly available한 dataset으로 학습되었고, publicly model using이 가능함 - 강점: Parameter 13Billion짜리 모델이 175B 짜리 GPT-3보다 성능이 좋음 - 한정된 예산에서의 Best performance는 “large model”이 아닌 “small model의 더 많은 data학습” 이라고 주장함 - Llama-7B는 1T tokens에 학습 - GPT-3-175B는 0.4T tokens에 학습 - llama중 작은 모델(6B, 13B)은 Single Gpu(A100)에서 돌아..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

거대언어모델

llama2 간단 요약

LLama1 review

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역