논문리뷰

[LLM] 논문 리뷰 순서 정리

dangyee 2025. 2. 17. 15:53

chatgpt를 갈구는 시바

1. 들어가며

LLM 대표 논문 10개를 리뷰해보면서 ChatGPT같은 모델들이 어떤 방식으로 발전해왔는지 알아보며 LLM 트랜드를 따라가 보겠습니다.

 

2. 논문 순서

  • 🌱 Attention is All You Need (2017) - Vaswani et al.
    • 트랜스포머 아키텍처를 소개하며 LLM의 기반을 마련한 논문.
    • 🔗 논문 링크
  • 😷 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2019) - Devlin et al.
  • 🔫 GPT-2: Language Models are Few-Shot Learners (2019) - Radford et al. (OpenAI)
    • 사전 학습만으로 다양한 언어 작업을 수행할 수 있음을 보여준 논문.
    • 🔗 논문 링크
  • ⚔️ XLNet: Generalized Autoregressive Pretraining for Language Understanding (2019) - Yang et al.
  • 5️⃣ T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (2020) - Raffel et al.
    • 모든 NLP 작업을 텍스트-텍스트 형태로 통합한 접근 방식을 제안.
    • 🔗 논문 링크
  • 🔍 BART: Denoising Autoencoders for Pretraining Sequence-to-Sequence Models (2020) - Lewis et al.
    • 인코더-디코더 구조를 활용한 복원 기반 사전 학습 기법 소개.
    • 🔗 논문 링크
  • 🧠 GPT-3: Language Models are Few-Shot Learners (2020) - Brown et al. (OpenAI)
    • 초거대 모델이 제로샷, 원샷, 퓨샷 학습 능력을 갖췄음을 입증.
    • 🔗 논문 링크
  • ⚙️ Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity (2021) - Fedus et al.
    • 모델의 크기를 확장하며 연산 효율성을 개선하는 방법을 다룸.
    • 🔗 논문 링크
  • 🔬 PaLM: Scaling Language Modeling with Pathways (2022) - Chowdhery et al. (Google Research)
  • 🦙 LLaMA: Open and Efficient Foundation Language Models (2023) - Touvron et al. (Meta AI)

 

ps) LLM 논문 리뷰 한다고 생각만하고 있다가 이제서야 글을 써봅니다.