전체 글

콩스버그

    합성(Synthetic) 데이터 기반 사전학습 (Pre-training)

    1. 합성(Synthetic) 데이터 기반 사전학습1-1. Textbooks Are All You Need 시리즈 (phi 계열)버전| 파라미터| 합성 데이터 특징성과버전파라미터합성 데이터 특징성과phi-1 (2023)1.3 BGPT-3.5로 생성한 ‘코딩 교과서’코드·수학 소형 모델 Top 성능phi-1.51.3 B20 K 토픽, 다양한 프롬프트5배 큰 일반 LLM 능가 phi-4 (2024)14 BGPT-4 교사·고품질 커리큘럼GPT-4를 STEM QA에서 능가 핵심 아이디어 : Spoon-feedingLLM이 이미 ‘정답을 알고’ 쓰는 교재식 문장 → 다음 토큰 예측이 쉽고 노이즈 적음난이도·추론 깊이를 프롬프트로 조절 가능 1-2. 합성 데이터 다양성 연구On the Diversity of S..

    LLM domain adaptation further pre-training에서 최적의 general domain 비율

    1. 왜 도메인+일반 데이터를 섞어 사전학습하는지?지식 소실(Catastrophic Forgetting) 방지 – 도메인 특화 성능을 지키면서도 일반 상식·언어 감각을 유지제로샷‧리더링 성능 확보 – 다양한 입력 형태에 견고 1-1. 대표 연구 & 데이터 비율연구/모델도메인 : 일반 비율반 데이터 source주요 결과BloombergGPT50 : 50The Pile, C4, Wikipedia금융 + 범용 모두 강력한 50B 모델 ME-Llama (의료)80 : 20RedPajama (Llama 2 pre-train set)99 : 1이나 95 : 5보다 80 : 20에서 의료·일반 성능 모두 상승 실무 팁폭넓은 언어 이해가 필요한 도메인은 50 : 50 혹은 80 : 20 두 비율을 우선 시험 →..

    Instruction Pre-Training:Language Models are Supervised Multitask Learners 논문 리뷰

    Instruction Pre-Training:Language Models are Supervised Multitask Learners 논문 리뷰

    논문 핵심기존 "줄글"만 학습시키던 Pre training 대신, "줄글" + "질문&답변"(instruction)을 학습함으로써, 성능 upgrade"줄글"로부터 "질문&답변"(instruction)을 생성하는 LLM(Instruction synthesizer) 학습(Mistral 7B)한 후, inference해서 pre training data 생성Domain Specific에서도 좋은 성능을 보여줌 모델 process1. instruct synthesizer🚩 instruct synthesizer 학습- {본문 + QA}형식 instruction task dataset를 사용하여 raw text(줄글)로부터 instruction(질문+답변)을 생성하는 것을 학습 Mistral-7B로 학습Loss..

    [Transformer 쉽게 이해하기] - self-attention, multi-haed attention, cross-attention, causal attention 설명과 코드 설명

    [Transformer 쉽게 이해하기] - self-attention, multi-haed attention, cross-attention, causal attention 설명과 코드 설명

    GPT4와 Llama같은 large language models (LLMs)는 모두 transformer 구조를 차용하고 그 안에서 self-attention을 사용합니다. self-attention과 LLMs의 핵심 구성요소를 보도록 하겠습니다. 설명도 있지만, 코드도 함께 설명하도록 하겠습니다. LLM을 만드는 과정 이 글을 읽기에 앞서, 기본적으로 LLM, attention mechanism에 대해 대충이라도 어느정도는 이해하시는 수준이면 좋을것 같습니다. Self-Attention 소개 self-attention은 transformers(Attention is all you need)로부터 나온 개념인데, 요즘엔 어디에서나 쓰이고, 특히 NLP에서는 SoTA로써 여전히 사용되고 있는 모듈입니다. ..

    Polyglot-Ko (한국어 LLM) 논문 리뷰

    Polyglot-Ko (한국어 LLM) 논문 리뷰

    배경: ‘EleutherAI’라는 연구소에서 GPT-NeoX-20B라는 모델을 먼저 만들고, non-english open LLM을 만드려고 하는데, 때, Korean을 먼저 만들어보기로 함. ‘Tunib’ 한국어 데이터를 제공하고 GPT-NeoX기반으로 Polyglot-Ko가 만들어짐. 한국어를 선택하게 된 이유는 창립멤버가 한국인들이 많고, 한국어 데이터 평가셋이 용이했기 때문 모델 크기 종류: 1.3B, 3.8B, 5.8B, 12.8B Datasets Preprocessing Empty text: text가 없는 Instance들 제거 Unnecessary spaces: 불필요한 긴 스페이스 제거 De-identification: 개인 식별 정보 제거 Uncleaned HTML tags: HTML ..

    EcomGPT: Ecommerce LLM Instruct tuning paper 리뷰

    EcomGPT: Ecommerce LLM Instruct tuning paper 리뷰

    EcomGPT (arxiv, alibaba, 2023.08) Abstract 2.5M 짜리 EcomInstruct에 LLM(BLOOMZ)을 학습시킴 Ecommerce의 기본 데이터 타입인 상품 정보, 사용자 리뷰등을 이용해서 “atomic task”를 만들어서 data size, diversity를 키움 Atomic Task: Final task 해결에 의미적 연관성이 있는 task Atomic Task ~ Final task의 연관성을 Chain-of-Task라고 함 이를 통해 EcomGPT는 훌륭한 zero-shot generalization capability를 가짐 atomic task로 부터 배운 근본적인 이해 능력이 다른 unseen task를 해결하는데 도움을 줌 Instroduction E..

    UniversalNER

    UniversalNER

    UniversalNER 2023.08 UniversalNER: Targeted Distillation from Large Language Models for Open Named Entity Recognition entity(엔터티)란? : "Entity"는 텍스트에서 특정한 타입의 단어를 의미함. ex) 텍스트에서 사람 이름, 장소, 조직, 날짜 등 이 논문의 목적: 한가지 task(NER)에 집중적으로 instruction tuning을 시켜서 teacher LLM(GPT3.5)보다 성능이 좋거나 비슷한 sLLM을 만들어보자 —> targeted distillation with mission-focused instruction tuning instruction tuning을 학습시킨 후, 그 sLLM을..

    mac m1, m2에서 갑자기 tmux down되는 현상 해결

    ssh를 연결할때 TERM 환경변수를 받는 과정에서 생기는 오류입니다. 로컬 터미널에서 ~/ .ssh/config 창을 엽니다. Host * SetEnv TERM=screen-256color 추가해줍니다.