Multimodal & Reasoning LLMs
From transformer intuition to training a small VLM and reading reasoning model papers
A 10-week path for engineers who already get transformers conceptually but want to build deeper. You'll see attention visualized, build Llama from scratch in parallel code/video tracks, then extend into the two directions that actually matter today — multimodal models (build a VLM) and reasoning models (a visual guide before the DeepSeek-R1 paper).
Difficulty: Advanced · Total time: 10 weeks
Stage 1 — See Transformers Before You Read Them
Sequential · 1 week
Stage 2 — Llama from Scratch (parallel tracks)
Parallel · 2 weeks · pick one or do both
Track A: Code
Track B: Video
✓ Checkpoint — Rebuild Llama's attention block from memory
If you can write multi-head attention from a blank file, you're ready to go beyond text-only.
Stage 3 — Understand Multimodal LLMs Conceptually
Sequential · 1 week
Read it once end-to-end. Sketch the architecture from memory. Then read it again.
Stage 4 — Visual Guide to Reasoning LLMs
Sequential · 1 week
A primer on the other extension of base LLMs. Read this before the DeepSeek-R1 paper, not after.
Stage 5 — Build a VLM from Scratch
Sequential · 3 weeks
Walk through the codebase line by line. Train it on Colab. Don't optimize — understand.
✓ Checkpoint — Train a small VLM and explain its design choices
Train your nanoVLM on a small image-text dataset. Then explain — out loud, to a friend, or in a write-up — why the vision encoder fuses where it fuses, why the projection layer has the dimensions it has, and why the loss is computed only on text tokens. If you can't explain it, you didn't really build it.
Transformer를 개념으로는 알지만 더 깊이 파고들고 싶은 엔지니어에게 권하는 10주 코스. Attention을 시각으로 보고, Llama를 from-scratch로 코드와 영상 두 트랙에서 구현한 다음, 오늘 실제로 중요한 두 방향(멀티모달 모델은 VLM 직접 구현으로, 추론 모델은 DeepSeek-R1 논문 전 비주얼 가이드로)으로 확장하는 길입니다.
난이도: 고급 · 총 소요: 10주
1단계 — Transformer를 읽기 전에 보세요
순차 · 1주
2단계 — Llama from Scratch (병렬 트랙)
병렬 · 2주 · 하나 골라서 또는 둘 다
Track A: 코드
Track B: 영상
✓ 체크포인트 — Llama의 attention block을 기억으로 다시 짜보기
빈 파일에서 multi-head attention을 쓸 수 있다면, 텍스트 밖으로 나갈 준비가 된 셈입니다.
3단계 — 멀티모달 LLM을 개념으로 먼저 이해하기
순차 · 1주
한 번 끝까지 읽고, 기억으로 아키텍처를 그려본 다음 다시 읽습니다.
4단계 — 추론 LLM 비주얼 가이드
순차 · 1주
베이스 LLM의 다른 한 방향 확장. DeepSeek-R1 논문을 읽기 전에 이걸 먼저 읽으세요.
5단계 — VLM을 from scratch로 직접 구현
순차 · 3주
코드를 한 줄씩 읽습니다. Colab에서 학습시킵니다. 최적화하지 마세요. 이해하세요.
체크포인트 — 작은 VLM을 학습시키고 설계 설명하기
작은 이미지-텍스트 데이터셋으로 nanoVLM을 학습시킵니다. 학습이 끝나면 친구에게든 글로든, 왜 vision encoder가 그 지점에서 fuse하는지, 왜 projection layer의 dimension이 그것인지, 왜 loss가 텍스트 토큰에만 계산되는지 설명해 봅니다. 설명 못 하면, 실제로 짠 게 아닙니다.