블로그로 돌아가기

멀티모달 & 추론 LLM

Transformer 직관부터 작은 VLM 학습과 추론 모델 논문 읽기까지

10 weeks2026년 4월 25일

Transformer를 개념으로는 알지만 더 깊이 파고들고 싶은 엔지니어에게 권하는 10주 코스. Attention을 시각으로 보고, Llama를 from-scratch로 코드와 영상 두 트랙에서 구현한 다음, 오늘 실제로 중요한 두 방향(멀티모달 모델은 VLM 직접 구현으로, 추론 모델은 DeepSeek-R1 논문 전 비주얼 가이드로)으로 확장하는 길입니다.

난이도: 고급 · 총 소요: 10주


1단계 — Transformer를 읽기 전에 보세요

순차 · 1주

2단계 — Llama from Scratch (병렬 트랙)

병렬 · 2주 · 하나 골라서 또는 둘 다

Track A: 코드

Track B: 영상

✓ 체크포인트 — Llama의 attention block을 기억으로 다시 짜보기

빈 파일에서 multi-head attention을 쓸 수 있다면, 텍스트 밖으로 나갈 준비가 된 셈입니다.

3단계 — 멀티모달 LLM을 개념으로 먼저 이해하기

순차 · 1주

한 번 끝까지 읽고, 기억으로 아키텍처를 그려본 다음 다시 읽습니다.

4단계 — 추론 LLM 비주얼 가이드

순차 · 1주

베이스 LLM의 다른 한 방향 확장. DeepSeek-R1 논문을 읽기 전에 이걸 먼저 읽으세요.

5단계 — VLM을 from scratch로 직접 구현

순차 · 3주

코드를 한 줄씩 읽습니다. Colab에서 학습시킵니다. 최적화하지 마세요. 이해하세요.

체크포인트 — 작은 VLM을 학습시키고 설계 설명하기

작은 이미지-텍스트 데이터셋으로 nanoVLM을 학습시킵니다. 학습이 끝나면 친구에게든 글로든, vision encoder가 그 지점에서 fuse하는지, projection layer의 dimension이 그것인지, loss가 텍스트 토큰에만 계산되는지 설명해 봅니다. 설명 못 하면, 실제로 짠 게 아닙니다.