pre-training

    합성(Synthetic) 데이터 기반 사전학습 (Pre-training)

    1. 합성(Synthetic) 데이터 기반 사전학습1-1. Textbooks Are All You Need 시리즈 (phi 계열)버전| 파라미터| 합성 데이터 특징성과버전파라미터합성 데이터 특징성과phi-1 (2023)1.3 BGPT-3.5로 생성한 ‘코딩 교과서’코드·수학 소형 모델 Top 성능phi-1.51.3 B20 K 토픽, 다양한 프롬프트5배 큰 일반 LLM 능가 phi-4 (2024)14 BGPT-4 교사·고품질 커리큘럼GPT-4를 STEM QA에서 능가 핵심 아이디어 : Spoon-feedingLLM이 이미 ‘정답을 알고’ 쓰는 교재식 문장 → 다음 토큰 예측이 쉽고 노이즈 적음난이도·추론 깊이를 프롬프트로 조절 가능 1-2. 합성 데이터 다양성 연구On the Diversity of S..

    LLM domain adaptation further pre-training에서 최적의 general domain 비율

    1. 왜 도메인+일반 데이터를 섞어 사전학습하는지?지식 소실(Catastrophic Forgetting) 방지 – 도메인 특화 성능을 지키면서도 일반 상식·언어 감각을 유지제로샷‧리더링 성능 확보 – 다양한 입력 형태에 견고 1-1. 대표 연구 & 데이터 비율연구/모델도메인 : 일반 비율반 데이터 source주요 결과BloombergGPT50 : 50The Pile, C4, Wikipedia금융 + 범용 모두 강력한 50B 모델 ME-Llama (의료)80 : 20RedPajama (Llama 2 pre-train set)99 : 1이나 95 : 5보다 80 : 20에서 의료·일반 성능 모두 상승 실무 팁폭넓은 언어 이해가 필요한 도메인은 50 : 50 혹은 80 : 20 두 비율을 우선 시험 →..

    Instruction Pre-Training:Language Models are Supervised Multitask Learners 논문 리뷰

    Instruction Pre-Training:Language Models are Supervised Multitask Learners 논문 리뷰

    논문 핵심기존 "줄글"만 학습시키던 Pre training 대신, "줄글" + "질문&답변"(instruction)을 학습함으로써, 성능 upgrade"줄글"로부터 "질문&답변"(instruction)을 생성하는 LLM(Instruction synthesizer) 학습(Mistral 7B)한 후, inference해서 pre training data 생성Domain Specific에서도 좋은 성능을 보여줌 모델 process1. instruct synthesizer🚩 instruct synthesizer 학습- {본문 + QA}형식 instruction task dataset를 사용하여 raw text(줄글)로부터 instruction(질문+답변)을 생성하는 것을 학습 Mistral-7B로 학습Loss..