DL&ML

    Instruction Pre-Training:Language Models are Supervised Multitask Learners 논문 리뷰

    Instruction Pre-Training:Language Models are Supervised Multitask Learners 논문 리뷰

    논문 핵심기존 "줄글"만 학습시키던 Pre training 대신, "줄글" + "질문&답변"(instruction)을 학습함으로써, 성능 upgrade"줄글"로부터 "질문&답변"(instruction)을 생성하는 LLM(Instruction synthesizer) 학습(Mistral 7B)한 후, inference해서 pre training data 생성Domain Specific에서도 좋은 성능을 보여줌 모델 process1. instruct synthesizer🚩 instruct synthesizer 학습- {본문 + QA}형식 instruction task dataset를 사용하여 raw text(줄글)로부터 instruction(질문+답변)을 생성하는 것을 학습 Mistral-7B로 학습Loss..

    [Transformer 쉽게 이해하기] - self-attention, multi-haed attention, cross-attention, causal attention 설명과 코드 설명

    [Transformer 쉽게 이해하기] - self-attention, multi-haed attention, cross-attention, causal attention 설명과 코드 설명

    GPT4와 Llama같은 large language models (LLMs)는 모두 transformer 구조를 차용하고 그 안에서 self-attention을 사용합니다. self-attention과 LLMs의 핵심 구성요소를 보도록 하겠습니다. 설명도 있지만, 코드도 함께 설명하도록 하겠습니다. LLM을 만드는 과정 이 글을 읽기에 앞서, 기본적으로 LLM, attention mechanism에 대해 대충이라도 어느정도는 이해하시는 수준이면 좋을것 같습니다. Self-Attention 소개 self-attention은 transformers(Attention is all you need)로부터 나온 개념인데, 요즘엔 어디에서나 쓰이고, 특히 NLP에서는 SoTA로써 여전히 사용되고 있는 모듈입니다. ..

    Polyglot-Ko (한국어 LLM) 논문 리뷰

    Polyglot-Ko (한국어 LLM) 논문 리뷰

    배경: ‘EleutherAI’라는 연구소에서 GPT-NeoX-20B라는 모델을 먼저 만들고, non-english open LLM을 만드려고 하는데, 때, Korean을 먼저 만들어보기로 함. ‘Tunib’ 한국어 데이터를 제공하고 GPT-NeoX기반으로 Polyglot-Ko가 만들어짐. 한국어를 선택하게 된 이유는 창립멤버가 한국인들이 많고, 한국어 데이터 평가셋이 용이했기 때문 모델 크기 종류: 1.3B, 3.8B, 5.8B, 12.8B Datasets Preprocessing Empty text: text가 없는 Instance들 제거 Unnecessary spaces: 불필요한 긴 스페이스 제거 De-identification: 개인 식별 정보 제거 Uncleaned HTML tags: HTML ..

    EcomGPT: Ecommerce LLM Instruct tuning paper 리뷰

    EcomGPT: Ecommerce LLM Instruct tuning paper 리뷰

    EcomGPT (arxiv, alibaba, 2023.08) Abstract 2.5M 짜리 EcomInstruct에 LLM(BLOOMZ)을 학습시킴 Ecommerce의 기본 데이터 타입인 상품 정보, 사용자 리뷰등을 이용해서 “atomic task”를 만들어서 data size, diversity를 키움 Atomic Task: Final task 해결에 의미적 연관성이 있는 task Atomic Task ~ Final task의 연관성을 Chain-of-Task라고 함 이를 통해 EcomGPT는 훌륭한 zero-shot generalization capability를 가짐 atomic task로 부터 배운 근본적인 이해 능력이 다른 unseen task를 해결하는데 도움을 줌 Instroduction E..

    UniversalNER

    UniversalNER

    UniversalNER 2023.08 UniversalNER: Targeted Distillation from Large Language Models for Open Named Entity Recognition entity(엔터티)란? : "Entity"는 텍스트에서 특정한 타입의 단어를 의미함. ex) 텍스트에서 사람 이름, 장소, 조직, 날짜 등 이 논문의 목적: 한가지 task(NER)에 집중적으로 instruction tuning을 시켜서 teacher LLM(GPT3.5)보다 성능이 좋거나 비슷한 sLLM을 만들어보자 —> targeted distillation with mission-focused instruction tuning instruction tuning을 학습시킨 후, 그 sLLM을..

    llama2 간단 요약

    llama2 간단 요약

    Framework: 일반적인 LLM 학습법임 Pretraining Ugrade 된 점 data cleaning 1.4T → 2T tokens 사용 grouped-query attention (GQA) 사용 (병목현상 줄임) Context length 2048 → 4096 변화 표 Pretraining 학습 그래프: 2T token을 한 번씩 다 학습했는데 아직 수렴이 안되는것을 확인할 수 있다. Finetuning Instruction tuning은 양 > 질임 실험결과: 아주 신경써서 만든 Instruction dataset에 training을 할 경우 수 만개의 sample 가지고도 high-quality의 결과가 나왔음. (27,540개의 annotations를 하였음) details epoch수:..

    LLama1 review

    LLama1 review

    - LLmam란: OpenAI의 GPT-3, Chinchilla, PaLM과 같은 “Foundation Model” 또는 “LLM” - 다른 점: 다른 LLM들과는 달리 publicly available한 dataset으로 학습되었고, publicly model using이 가능함 - 강점: Parameter 13Billion짜리 모델이 175B 짜리 GPT-3보다 성능이 좋음 - 한정된 예산에서의 Best performance는 “large model”이 아닌 “small model의 더 많은 data학습” 이라고 주장함 - Llama-7B는 1T tokens에 학습 - GPT-3-175B는 0.4T tokens에 학습 - llama중 작은 모델(6B, 13B)은 Single Gpu(A100)에서 돌아..

    GPU란? AI와 가상화폐

    GPU란? GPU는 컴퓨터에서 사용할 수 있는 전용 그래픽 카드를 의미합니다. 컴퓨터의 CPU는 여러 가지 작업을 수행할 수 있지만, GPU는 주로 3D 그래픽과 비디오 처리를 위해 사용됩니다. GPU는 CPU에 비해 이러한 작업을 수행하는 것에 적합한 구조로 되어 있기 때문에, 3D 그래픽과 비디오 처리에서 CPU보다 훨씬 높은 성능을 발휘할 수 있습니다. GPU와 AI 관계 AI(Artificial Intelligence) 연구에서 GPU(Graphics Processing Unit)는 일반적으로 기계 학습 알고리즘의 성능을 극대화하기 위해 사용됩니다. 기계 학습 알고리즘은 많은 수의 수치 연산을 수행해야 하며, 이러한 연산을 수행할 때 GPU가 CPU에 비해 훨씬 높은 처리 속도를 제공합니다. 따라..