The RAG Curriculum - Build Your Own AI Information Engine
For everyone from weekend hobbyists to people who want to understand how a real production RAG service actually works.
Automation keeps absorbing more of the work, but building the knowledge system you actually want on top of that automation takes more than a "just do it for me." Off-the-shelf RAG packages exist - but knowing which knob to turn for your documents, your questions, your domain is something you have to learn yourself before you can change it the way you want. The people who get the most out of Claude Code are the ones who already understand development deeply; the same will be true of every knowledge tool that comes next. The people who know what's underneath will use them best.
This curriculum is built so you can enter at the stage you want. Haven't written Python yet? Start at Stage 0. Already comfortable? Start at Stage 1. Already shipping with LangChain? Skip to Stage 2.
Difficulty: Beginner to intermediate Total time: 4-14 weeks depending on where you enter

Stage 0 - If you don't know Python yet
Optional · 2–4 weeks
Every RAG snippet you'll see in this curriculum is Python. If variables, loops, lists, and dicts haven't sunk in yet, LangChain code will just look like noise. This is the standard intro course - five sections, free to audit, Korean subtitles available.
Once you finish lectures 3 (Web Data) and 4 (Databases), you're ready for Stage 1 - JSON, REST APIs, and reading SQL schemas are all roughly covered. pandas and numpy aren't taught here; pick those up reactively when Stage 3 code stops making sense.
Stage 1 - Get LangChain & LangGraph into your hands
Sequential · 1 week
Most of the RAG code you'll read in Stage 2 is LangChain, and the moment branching or loops enter the picture you need LangGraph. Finish LangChain Academy's official intro course inside a week, then port one small chain you've written into LangGraph as a forcing function.
Stage 2 - 22 RAG Techniques: the map
Sequential · 2 weeks
Skim every technique end-to-end. Goal isn't to run all the code - it's to understand what each method actually does so you can tell which ones fit your problem and which don't.
Stage 3 - Apply RAG techniques to a real PDF
Sequential · 4 weeks
Pick one PDF you actually want to query - a textbook, a contract, a manual, your company wiki, doesn't matter. Take that document and walk through the nine categories below in order. Implement at least one technique per category, measure retrieval quality every time, and keep a written log of which techniques pull the right information out of your PDF.
Week-by-week (4 weeks recommended)
- Week 1 / Foundational - Anchor on Simple RAG, then compare chunk size, Proposition, and Reliable RAG. The goal is a baseline number that every later technique gets evaluated against.
- Week 1 / Query Enhancement - Rewrite the user's question itself with Query Transformations, and find out firsthand why HyDE often underperforms. First lever to pull on top of the baseline.
- Week 2 / Context & Content Enrichment - HyPE, Contextual Chunk Headers, Relevant Segment Extraction, Semantic Chunking, Contextual Compression. See how far you can move retrieval quality by reshaping information before it's embedded.
- Week 2 / Advanced Retrieval - Fusion Retrieval, Intelligent Reranking, Hierarchical Indices, Multi-faceted Filtering. Usually the highest-leverage stretch - spend most of the week here.
- Week 3 / Iterative & Adaptive - Feedback Loops, Adaptive Retrieval. Build a feel for retrieval that refines itself across multiple passes instead of trying to nail it in one shot.
- Week 3 / Evaluation - DeepEval, GroUSE, Open-RAG-Eval. Take the baseline number from Week 1 and re-measure it under a real evaluation framework. Skip this and everything downstream runs on vibes.
- Week 4 / Memory-Augmented + Explainability - MemoRAG and Explainable Retrieval. Skim, but build at least one structure that can show the user why a given chunk was retrieved.
- Week 4 / Advanced Architectures - Agentic RAG, Graph RAG (Milvus / Microsoft), RAPTOR, Self RAG, Corrective RAG. Goal here is to judge which architecture fits your PDF, not to implement all seven.
- End of Week 4 / Controllable Agent - Close on the most complex case. By the time you finish this you'll naturally see where to tune any off-the-shelf RAG package.
Log answer quality on the same PDF after every category. After the four weeks you should be able to point at which technique stack actually solved your corpus - that's the only way you can keep improving from here.
Stage 4 - Multimodal Graph RAG, package-form
Sequential · 1 week
- RAG-Anything - Multimodal Graph RAG, Off the Shelf
- Graphify - Graph RAG for Code, PDFs, HTML, and Beyond
Now that you've spent four weeks hand-rolling, run these two packages and the internals will start surfacing. The same RAG pipeline can be built differently - RAG-Anything is a complete multimodal RAG service: drop in your PDFs and Word docs, get a queryable system back. Graphify is a Graph RAG layer aimed at coding agents - point it at a folder of code, PDFs, HTML, and screenshots, and the agent answers from the pre-built knowledge graph instead of touching the original files. Looking at packages built with different approaches teaches you a lot - you'll see how the strengths and limits of every Stage-3 technique show up inside each package, and what makes these heavily-starred RAG packages actually different from a stitched-together pipeline.
✓ What you'll walk away with - The minimum knowledge to ship your own
By here you understand how a production-grade RAG package actually works and you can rewire the whole pipeline however you want. Real services have a lot of plumbing on either side of this, of course. But knowing the core of how a knowledge system processes information is what separates you from anyone else who can only call an API.
Side note - When you can't get clean information out of a PDF
The hardest part of RAG isn't the model or the retrieval - it's PDF preprocessing. Tables, equations, images, and multi-column layouts mixed together will mangle context and formatting if you do plain text extraction, and the best pipeline downstream still fails on garbage input. The two videos below - both Korean - walk through preprocessing tricks that actually work. Worth it even with subtitles.
- 테디노트 - 🧑💻 Every PDF preprocessing trick I tried (Aug 2024, FastCampus "RAG 비밀노트" live replay, Korean): hands-on coverage of text extraction, layout recognition, table parsing, and OCR with honest pros and cons of each. Code: teddylee777/langchain-kr. Free Korean LangChain wikibook: wikidocs.net/book/14314.
- 모두의AI - How are you chunking for RAG? (Mar 2025, 25 min, Korean): comparison of
CharacterTextSplitter,RecursiveCharacterTextSplitter,MarkdownHeaderTextSplitter, andSemanticChunkerin LangChain. If "splitter" and "chunk" still feel abstract, head back to Stage 2 first.
자동화가 점점 더 많은 일을 대신해주는 시대지만, 그 자동화 위에서 내가 만들고 싶은 지식 저장소를 만들기 위해서는 "그냥 해줘"보다 더 많은 지식을 필요로 합니다. 잘 만들어진 RAG 패키지가 있긴 합니다. 그런데 어떤 문서, 어떤 질문, 어떤 도메인이냐에 따라 어디를 튜닝해야 하는지는 결국 본인이 알아야 원하는 대로 수정을 할 수 있지 않을까요? Claude Code를 가장 잘 쓰는 사람이 개발을 깊이 이해한 개발자인 것처럼, 앞으로의 데이터 및 지식 도구도 그 밑단을 아는 사람이 가장 잘 쓸겁니다.
이 커리큘럼은 본인이 원하는 단계에서 시작할 수 있게 구성되었습니다. Python을 아직 안 써봤다면 0단계부터, 이미 익숙하다면 1단계부터, LangChain까지 손에 익혔다면 2단계부터 시작하면 됩니다.
난이도: 입문~중급 총 소요: 본인 시작 단계에 따라 4~14주

0단계 - Python을 아직 잘 모른다면
선택 / 2~4주
여기에 적힌 모든 RAG 코드는 Python을 사용해요. 변수/반복문/리스트/딕셔너리가 손에 안 익은 상태로 LangChain 코드를 보면 글자가 글자로 안 읽힐겁니다. 5개의 섹션이 있는 기본 입문 코스이고, 무료 청강이 가능해요. 한국어 자막도 있어요.
3강(Web Data)과 4강(Databases)까지 끝나면 RAG 1단계로 넘어가도 됩니다 - JSON, REST API, SQL 스키마 읽기까지 대략 커버가 된 상태입니다. pandas나 numpy는 여기서 다루지 않지만, 3단계에서 코드 읽다 막히는 부분만 그때그때 찾아 메우면 충분해요.
1단계 - LangChain & LangGraph 손에 익히기
단계 / 1주
2단계에서 볼 RAG 코드 대부분이 LangChain으로 쓰여 있고, 분기/루프가 들어가는 순간 LangGraph가 필요해집니다. LangChain Academy 공식 입문 코스를 1주 안에 끝낸 다음, 본인이 짠 작은 체인 하나를 LangGraph로 다시 옮겨보세요.
2단계 - 22가지 RAG 기법:
단계 / 2주
관련 방법론들을 끝까지 한 번 쭉 훑습니다. 어떤 기법이 나에게 잘 맞는지 또는 내가 하고자 하는 방향성과 잘 맞는지를 알 수 있습니다. 코드를 다 돌릴 필요는 없고, 각 방법론들이 어떻게 작동 하는지 그 핵심을 파악을 하는 단계 입니다.
3단계 - 실제 PDF에 RAG 기법 적용하기
단계 / 4주
이제 실제 내가 활용하고 싶은 PDF 하나를 정합니다 - 교과서, 계약서, 매뉴얼, 회사 위키, 상관 없어요. 그 한 권을 들고 아래 9개 카테고리를 순서대로 진행해 보세요. 카테고리마다 하나씩 구현하고, 매번 retrieval 품질을 측정해 어떤 기법이 내 PDF에서 올바른 정보를 추출하는데 효과가 있는지 기록으로 남기세요.
주차별 진행 (4주 권장)
- 1주차 / 기초 (Foundational) - Simple RAG로 베이스라인을 잡고, 청크 사이즈 / Proposition / Reliable RAG까지 비교합니다. 이후 모든 기법의 평가 기준선이 되는 숫자를 확보하는 게 목표예요.
- 1주차 / 쿼리 가공 (Query Enhancement) - Query Transformations로 사용자 질문 자체를 재작성해보고, HyDE는 왜 잘 안 먹히는지 까지 직접 확인하세요. 베이스라인 위에서 첫 번째 레버를 당기는 단계입니다.
- 2주차 / 컨텍스트 보강 (Context & Content Enrichment) - HyPE, Contextual Chunk Headers, Relevant Segment Extraction, Semantic Chunking, Contextual Compression. 임베딩 전에 정보 모양을 손보면 검색 품질이 어디까지 올라가는지를 봅니다.
- 2주차 / 고급 검색 (Advanced Retrieval) - Fusion Retrieval, Intelligent Reranking, Hierarchical Indices, Multi-faceted Filtering. 보통 가성비가 가장 큰 구간이라 이번 주에 가장 많은 시간을 쓰게 될 거예요.
- 3주차 / 반복 + 적응 (Iterative & Adaptive) - Feedback Loops, Adaptive Retrieval. 한 번에 정답을 뽑지 않고 여러 번 다듬는 검색의 감각을 익힙니다.
- 3주차 / 평가 (Evaluation) - DeepEval, GroUSE, Open-RAG-Eval. 1주차에 잡은 베이스라인 숫자를 여기서 제대로 된 평가 프레임으로 다시 측정하세요. 이게 빠지면 이후 단계가 느낌 으로만 굴러갑니다.
- 4주차 / 메모리 + 설명가능성 (Memory-Augmented + Explainability) - MemoRAG와 Explainable Retrieval. 짧게 훑되, "왜 이 청크가 뽑혔는가"를 사용자에게 보여줄 수 있는 구조를 한 번은 만들어보세요.
- 4주차 / 고급 아키텍처 (Advanced Architectures) - Agentic RAG, Graph RAG (Milvus / Microsoft), RAPTOR, Self RAG, Corrective RAG. 본인 PDF에 어떤 아키텍처가 맞는지 판단하는 게 목표지, 7개를 다 구현할 필요는 없습니다.
- 4주차 마지막 / Controllable Agent - 가장 복잡한 케이스로 마무리. 여기까지 오면 4단계 패키지를 봤을 때 어디를 만질지 자연스럽게 보여요.
각 카테고리가 끝날 때마다 동일한 PDF를 활용해서 답변 품질을 기록해두세요. 4주가 끝났을 때 어떤 방법론이 원하는 결과물을 가장 잘 만들었는지 알아야 그 이후로도 발전을 시킬 수 있습니다.
4단계 - Multimodal Graph RAG, 패키지로 한 번에
단계 / 1주
직접 4주를 손으로 짜본 다음에 이 두 패키지를 써보면 원리가 조금씩 보이기 시작할 겁니다. 같은 RAG 파이프라인이더라도 각 패키지마다 구축하는 방식이 다른데요, RAG-Anything은 PDF/Word 문서를 넣으면 바로 질의 가능한 시스템을 돌려주는 완성형 멀티모달 RAG 서비스이에요. Graphify는 코딩 에이전트를 위한 Graph RAG 레이어로, 코드/PDF/HTML/스크린샷이 섞인 폴더를 지식 그래프로 묶어 에이전트가 원본 파일을 사용하지 않고, 미리 구축된 지식 그래프를 기반으로 답변을 합니다. 이런 다양한 패키지들을 살펴보면 좋은 점들이 많은데요, 3단계에서 배운 RAG 방법론들의 강점과 한계점이 각 패키지에서 어떻게 드러나는지, 그리고 이렇게 많은 관심을 받은 RAG 패키지들이 직접 짜깁기한 파이프라인과 무엇이 다른지를 확인하고 배울 수 있습니다.
✓ 무엇을 얻을 수 있는가 - 나만의 서비스를 만들기 위한 최소한의 지식
지금쯤이면 실제 상용 가능한 RAG 패키지의 작동 방식은 물론, 그 전체 파이프라인을 본인이 원하는 방식으로 바꿀 수 있는 능력이 생겼을 겁니다. 물론 실제 서비스에는 앞뒤로 굉장히 많은 기능들과 고려사항들이 있어요. 그래도 지식을 처리하는 시스템의 가장 핵심적인 기능을 알고 있는 것이 다른 무엇보다 훨씬 더 경쟁력이 있습니다.
사이드 노트 - PDF 내에서 정보를 추출하기 어려울 때
RAG에서 가장 어려운 단계는 모델도 검색도 아닌 PDF 전처리예요. 표/수식/이미지/여러 단 레이아웃이 섞인 상태에서 단순 텍스트 추출만 진행하면 정보의 컨텍스트와 포맷이 섞여 RAG 파이프라인을 아무리 잘 만들어도 결과가 안 될 확률이 굉장히 높아요. 다음 두 영상을 살펴 보면서 PDF에서 정보를 올바르게 추출 하는 방법을 터득 하고 적용해 보세요.
- 테디노트 - 🧑💻 #PDF 전처리 다 해봤습니다 (2024.08, FastCampus "RAG 비밀노트" 라이브 리플레이): 텍스트 추출, 레이아웃 인식, 표 처리, OCR까지 직접 시도해본 모든 전처리 트릭과 장단점을 알려줘요. 관련 코드는 teddylee777/langchain-kr, 무료 한국어 LangChain 위키북은 wikidocs.net/book/14314.
- 모두의AI - RAG를 위한 청킹 어떻게 하고 계신가요? (2025.03, 25분):
CharacterTextSplitter,RecursiveCharacterTextSplitter,MarkdownHeaderTextSplitter,SemanticChunker를 LangChain을 활용하여 비교해줘요. "splitter"와 "chunk"라는 단어가 아직 와닿지 않는다면 커리큘럼의 두 번째 단계로 돌아가 살펴보세요.