LLM domain adaptation further pre-training에서 최적의 general domain 비율 — 콩스버그

1. 왜 도메인+일반 데이터를 섞어 사전학습하는지?

지식 소실(Catastrophic Forgetting) 방지 – 도메인 특화 성능을 지키면서도 일반 상식·언어 감각을 유지
제로샷‧리더링 성능 확보 – 다양한 입력 형태에 견고

1-1. 대표 연구 & 데이터 비율

연구/모델	도메인 : 일반 비율	반 데이터 source	주요 결과
BloombergGPT	50 : 50	The Pile, C4, Wikipedia	금융 + 범용 모두 강력한 50B 모델
ME-Llama (의료)	80 : 20	RedPajama (Llama 2 pre-train set)	99 : 1이나 95 : 5보다 80 : 20에서 의료·일반 성능 모두 상승

실무 팁

폭넓은 언어 이해가 필요한 도메인은 50 : 50 혹은 80 : 20 두 비율을 우선 시험 → 작은 LoRA 실험으로 최적 비율 탐색
일반 데이터는 C4 + Wikipedia처럼 “깨끗한” 코퍼스를 쓰면 매끄럽게 믹싱됨

'DL&ML' 카테고리의 다른 글

합성(Synthetic) 데이터 기반 사전학습 (Pre-training) (0)	2025.07.16
Instruction Pre-Training:Language Models are Supervised Multitask Learners 논문 리뷰 (0)	2024.09.12
[Transformer 쉽게 이해하기] - self-attention, multi-haed attention, cross-attention, causal attention 설명과 코드 설명 (0)	2024.01.19
Polyglot-Ko (한국어 LLM) 논문 리뷰 (1)	2024.01.09
EcomGPT: Ecommerce LLM Instruct tuning paper 리뷰 (1)	2023.10.11

티스토리툴바