728x90
1. 왜 도메인+일반 데이터를 섞어 사전학습하는지?
- 지식 소실(Catastrophic Forgetting) 방지 – 도메인 특화 성능을 지키면서도 일반 상식·언어 감각을 유지
- 제로샷‧리더링 성능 확보 – 다양한 입력 형태에 견고
1-1. 대표 연구 & 데이터 비율
| 연구/모델 | 도메인 : 일반 비율 | 반 데이터 source | 주요 결과 |
| BloombergGPT | 50 : 50 | The Pile, C4, Wikipedia | 금융 + 범용 모두 강력한 50B 모델 |
| ME-Llama (의료) | 80 : 20 | RedPajama (Llama 2 pre-train set) | 99 : 1이나 95 : 5보다 80 : 20에서 의료·일반 성능 모두 상승 |
실무 팁
- 폭넓은 언어 이해가 필요한 도메인은 50 : 50 혹은 80 : 20 두 비율을 우선 시험 → 작은 LoRA 실험으로 최적 비율 탐색
- 일반 데이터는 C4 + Wikipedia처럼 “깨끗한” 코퍼스를 쓰면 매끄럽게 믹싱됨
728x90
'DL&ML' 카테고리의 다른 글
| 합성(Synthetic) 데이터 기반 사전학습 (Pre-training) (0) | 2025.07.16 |
|---|---|
| Instruction Pre-Training:Language Models are Supervised Multitask Learners 논문 리뷰 (0) | 2024.09.12 |
| [Transformer 쉽게 이해하기] - self-attention, multi-haed attention, cross-attention, causal attention 설명과 코드 설명 (0) | 2024.01.19 |
| Polyglot-Ko (한국어 LLM) 논문 리뷰 (1) | 2024.01.09 |
| EcomGPT: Ecommerce LLM Instruct tuning paper 리뷰 (1) | 2023.10.11 |