polyglot
Polyglot-Ko (한국어 LLM) 논문 리뷰
배경: ‘EleutherAI’라는 연구소에서 GPT-NeoX-20B라는 모델을 먼저 만들고, non-english open LLM을 만드려고 하는데, 때, Korean을 먼저 만들어보기로 함. ‘Tunib’ 한국어 데이터를 제공하고 GPT-NeoX기반으로 Polyglot-Ko가 만들어짐. 한국어를 선택하게 된 이유는 창립멤버가 한국인들이 많고, 한국어 데이터 평가셋이 용이했기 때문 모델 크기 종류: 1.3B, 3.8B, 5.8B, 12.8B Datasets Preprocessing Empty text: text가 없는 Instance들 제거 Unnecessary spaces: 불필요한 긴 스페이스 제거 De-identification: 개인 식별 정보 제거 Uncleaned HTML tags: HTML ..