kongsberg
콩스버그
kongsberg
전체 방문자
오늘
어제
  • 분류 전체보기 (42)
    • DL&ML (29)
    • 웹프로그래밍 (2)
    • 상식 (3)
    • 재테크 (7)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • html 글자크기
  • 거대언어모델
  • 네이버CMA
  • llm pre-training
  • Llama
  • 글자크기 조절
  • llm code
  • 네이버통장
  • TMUX
  • llama2
  • 재테크
  • instruction-pt
  • 토스뱅크
  • pytorch
  • LLM
  • pylint
  • further pre-training
  • GPT
  • CSS 글자크기
  • CMA

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
kongsberg

콩스버그

Polyglot-Ko (한국어 LLM) 논문 리뷰
DL&ML

Polyglot-Ko (한국어 LLM) 논문 리뷰

2024. 1. 9. 14:54
728x90

배경: ‘EleutherAI’라는 연구소에서 GPT-NeoX-20B라는 모델을 먼저 만들고, non-english open LLM을 만드려고 하는데, 때, Korean을 먼저 만들어보기로 함. ‘Tunib’ 한국어 데이터를 제공하고 GPT-NeoX기반으로 Polyglot-Ko가 만들어짐. 한국어를 선택하게 된 이유는 창립멤버가 한국인들이 많고, 한국어 데이터 평가셋이 용이했기 때문

 

모델 크기 종류: 1.3B, 3.8B, 5.8B, 12.8B

 

Datasets

Preprocessing

  • Empty text: text가 없는 Instance들 제거
  • Unnecessary spaces: 불필요한 긴 스페이스 제거
  • De-identification: 개인 식별 정보 제거
  • Uncleaned HTML tags: HTML tag 제거
  • Deduplication: exact match일 경우 deduplication
  • Short text: 길이가 너무 짧은 data는 제거
  • Repeated characters: 반복되는 글자들 제거
  • Longer text 일수록 contextual training에 더 좋았음

Model

EleutherAI의 GPT-NeoX codebase를 사용 (256개의 A100s 사용)

Model별 Configuration Setting

1.3B: 213B token 학습, 1024 batch size / 100,000 steps

3.8B: 219B token 학습, 1024 batch size / 100,000 steps

5.8B: 172B token 학습, 256 batch size / 320,000 steps

12.8B: 167B token 학습, 256 batch size(gradient accumulation) / 301,000 steps

Tokenizer : Byte-Level BPE, mecab 형태소분석기 사용

vocab size: 30,003

 

Evaluation

 

KOBEST evaluation dataset의 5개 downstream task

  • COPA
  • HellaSwag
  • BoolQ
  • SentiNeg
  • WiC

실험 결과

 

- 추후 Poly-Ko 40B 모델과 Asian(한,중,일 등), Romance 모델을 업데이트할 예정

 

 

728x90

'DL&ML' 카테고리의 다른 글

Instruction Pre-Training:Language Models are Supervised Multitask Learners 논문 리뷰  (0) 2024.09.12
[Transformer 쉽게 이해하기] - self-attention, multi-haed attention, cross-attention, causal attention 설명과 코드 설명  (0) 2024.01.19
EcomGPT: Ecommerce LLM Instruct tuning paper 리뷰  (1) 2023.10.11
UniversalNER  (0) 2023.08.29
llama2 간단 요약  (0) 2023.08.01
    'DL&ML' 카테고리의 다른 글
    • Instruction Pre-Training:Language Models are Supervised Multitask Learners 논문 리뷰
    • [Transformer 쉽게 이해하기] - self-attention, multi-haed attention, cross-attention, causal attention 설명과 코드 설명
    • EcomGPT: Ecommerce LLM Instruct tuning paper 리뷰
    • UniversalNER
    kongsberg
    kongsberg

    티스토리툴바