llm code
[Transformer 쉽게 이해하기] - self-attention, multi-haed attention, cross-attention, causal attention 설명과 코드 설명
GPT4와 Llama같은 large language models (LLMs)는 모두 transformer 구조를 차용하고 그 안에서 self-attention을 사용합니다. self-attention과 LLMs의 핵심 구성요소를 보도록 하겠습니다. 설명도 있지만, 코드도 함께 설명하도록 하겠습니다. LLM을 만드는 과정 이 글을 읽기에 앞서, 기본적으로 LLM, attention mechanism에 대해 대충이라도 어느정도는 이해하시는 수준이면 좋을것 같습니다. Self-Attention 소개 self-attention은 transformers(Attention is all you need)로부터 나온 개념인데, 요즘엔 어디에서나 쓰이고, 특히 NLP에서는 SoTA로써 여전히 사용되고 있는 모듈입니다. ..