kongsberg
콩스버그
kongsberg
전체 방문자
오늘
어제
  • 분류 전체보기 (44)
    • DL&ML (31)
    • 웹프로그래밍 (2)
    • 상식 (3)
    • 재테크 (7)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • synthetic data
  • TMUX
  • 재테크
  • 네이버통장
  • Pretraining
  • GPT
  • llm training
  • CSS 글자크기
  • pylint
  • 네이버CMA
  • pre-training
  • html 글자크기
  • 토스뱅크
  • LLM
  • pytorch
  • CMA
  • 글자크기 조절
  • Llama
  • llama2
  • 거대언어모델

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
kongsberg

콩스버그

DL&ML

LLM domain adaptation further pre-training에서 최적의 general domain 비율

2025. 7. 16. 11:43
728x90

 

1. 왜 도메인+일반 데이터를 섞어 사전학습하는지?

  • 지식 소실(Catastrophic Forgetting) 방지 – 도메인 특화 성능을 지키면서도 일반 상식·언어 감각을 유지
  • 제로샷‧리더링 성능 확보 – 다양한 입력 형태에 견고

 

1-1. 대표 연구 & 데이터 비율

연구/모델 도메인 : 일반 비율 반 데이터 source 주요 결과
BloombergGPT 50 : 50 The Pile, C4, Wikipedia 금융 + 범용 모두 강력한 50B 모델 
ME-Llama (의료) 80 : 20 RedPajama (Llama 2 pre-train set) 99 : 1이나 95 : 5보다 80 : 20에서 의료·일반 성능 모두 상승 

 

실무 팁
  • 폭넓은 언어 이해가 필요한 도메인은 50 : 50 혹은 80 : 20 두 비율을 우선 시험 → 작은 LoRA 실험으로 최적 비율 탐색
  • 일반 데이터는 C4 + Wikipedia처럼 “깨끗한” 코퍼스를 쓰면 매끄럽게 믹싱됨
728x90

'DL&ML' 카테고리의 다른 글

합성(Synthetic) 데이터 기반 사전학습 (Pre-training)  (0) 2025.07.16
Instruction Pre-Training:Language Models are Supervised Multitask Learners 논문 리뷰  (0) 2024.09.12
[Transformer 쉽게 이해하기] - self-attention, multi-haed attention, cross-attention, causal attention 설명과 코드 설명  (0) 2024.01.19
Polyglot-Ko (한국어 LLM) 논문 리뷰  (1) 2024.01.09
EcomGPT: Ecommerce LLM Instruct tuning paper 리뷰  (1) 2023.10.11
    'DL&ML' 카테고리의 다른 글
    • 합성(Synthetic) 데이터 기반 사전학습 (Pre-training)
    • Instruction Pre-Training:Language Models are Supervised Multitask Learners 논문 리뷰
    • [Transformer 쉽게 이해하기] - self-attention, multi-haed attention, cross-attention, causal attention 설명과 코드 설명
    • Polyglot-Ko (한국어 LLM) 논문 리뷰
    kongsberg
    kongsberg

    티스토리툴바