728x90
배경: ‘EleutherAI’라는 연구소에서 GPT-NeoX-20B라는 모델을 먼저 만들고, non-english open LLM을 만드려고 하는데, 때, Korean을 먼저 만들어보기로 함. ‘Tunib’ 한국어 데이터를 제공하고 GPT-NeoX기반으로 Polyglot-Ko가 만들어짐. 한국어를 선택하게 된 이유는 창립멤버가 한국인들이 많고, 한국어 데이터 평가셋이 용이했기 때문
모델 크기 종류: 1.3B, 3.8B, 5.8B, 12.8B
Datasets
Preprocessing
- Empty text: text가 없는 Instance들 제거
- Unnecessary spaces: 불필요한 긴 스페이스 제거
- De-identification: 개인 식별 정보 제거
- Uncleaned HTML tags: HTML tag 제거
- Deduplication: exact match일 경우 deduplication
- Short text: 길이가 너무 짧은 data는 제거
- Repeated characters: 반복되는 글자들 제거
- Longer text 일수록 contextual training에 더 좋았음
Model
EleutherAI의 GPT-NeoX codebase를 사용 (256개의 A100s 사용)
Model별 Configuration Setting
1.3B: 213B token 학습, 1024 batch size / 100,000 steps
3.8B: 219B token 학습, 1024 batch size / 100,000 steps
5.8B: 172B token 학습, 256 batch size / 320,000 steps
12.8B: 167B token 학습, 256 batch size(gradient accumulation) / 301,000 steps
Tokenizer : Byte-Level BPE, mecab 형태소분석기 사용
vocab size: 30,003
Evaluation
KOBEST evaluation dataset의 5개 downstream task
- COPA
- HellaSwag
- BoolQ
- SentiNeg
- WiC
실험 결과
- 추후 Poly-Ko 40B 모델과 Asian(한,중,일 등), Romance 모델을 업데이트할 예정
728x90
'DL&ML' 카테고리의 다른 글
Instruction Pre-Training:Language Models are Supervised Multitask Learners 논문 리뷰 (0) | 2024.09.12 |
---|---|
[Transformer 쉽게 이해하기] - self-attention, multi-haed attention, cross-attention, causal attention 설명과 코드 설명 (0) | 2024.01.19 |
EcomGPT: Ecommerce LLM Instruct tuning paper 리뷰 (1) | 2023.10.11 |
UniversalNER (0) | 2023.08.29 |
llama2 간단 요약 (0) | 2023.08.01 |