블로그로 돌아가기

RAG 커리큘럼 - 본인만의 AI 정보 처리 엔진 구축

단순 취미용부터, 실제 프로덕션 서비스는 어떻게 작동하는지 알아가고 싶은 분들을 위한 커리큘럼

8 weeks2026년 4월 26일

자동화가 점점 더 많은 일을 대신해주는 시대지만, 그 자동화 위에서 내가 만들고 싶은 지식 저장소를 만들기 위해서는 "그냥 해줘"보다 더 많은 지식을 필요로 합니다. 잘 만들어진 RAG 패키지가 있긴 합니다. 그런데 어떤 문서, 어떤 질문, 어떤 도메인이냐에 따라 어디를 튜닝해야 하는지는 결국 본인이 알아야 원하는 대로 수정을 할 수 있지 않을까요? Claude Code를 가장 잘 쓰는 사람이 개발을 깊이 이해한 개발자인 것처럼, 앞으로의 데이터 및 지식 도구도 그 밑단을 아는 사람이 가장 잘 쓸겁니다.

이 커리큘럼은 본인이 원하는 단계에서 시작할 수 있게 구성되었습니다. Python을 아직 안 써봤다면 0단계부터, 이미 익숙하다면 1단계부터, LangChain까지 손에 익혔다면 2단계부터 시작하면 됩니다.

난이도: 입문~중급 총 소요: 본인 시작 단계에 따라 4~14주

RAG 기법 한눈에 보기


0단계 - Python을 아직 잘 모른다면

선택 / 2~4주

여기에 적힌 모든 RAG 코드는 Python을 사용해요. 변수/반복문/리스트/딕셔너리가 손에 안 익은 상태로 LangChain 코드를 보면 글자가 글자로 안 읽힐겁니다. 5개의 섹션이 있는 기본 입문 코스이고, 무료 청강이 가능해요. 한국어 자막도 있어요.

3강(Web Data)과 4강(Databases)까지 끝나면 RAG 1단계로 넘어가도 됩니다 - JSON, REST API, SQL 스키마 읽기까지 대략 커버가 된 상태입니다. pandas나 numpy는 여기서 다루지 않지만, 3단계에서 코드 읽다 막히는 부분만 그때그때 찾아 메우면 충분해요.

1단계 - LangChain & LangGraph 손에 익히기

단계 / 1주

2단계에서 볼 RAG 코드 대부분이 LangChain으로 쓰여 있고, 분기/루프가 들어가는 순간 LangGraph가 필요해집니다. LangChain Academy 공식 입문 코스를 1주 안에 끝낸 다음, 본인이 짠 작은 체인 하나를 LangGraph로 다시 옮겨보세요.

2단계 - 22가지 RAG 기법:

단계 / 2주

관련 방법론들을 끝까지 한 번 쭉 훑습니다. 어떤 기법이 나에게 잘 맞는지 또는 내가 하고자 하는 방향성과 잘 맞는지를 알 수 있습니다. 코드를 다 돌릴 필요는 없고, 각 방법론들이 어떻게 작동 하는지 그 핵심을 파악을 하는 단계 입니다.

3단계 - 실제 PDF에 RAG 기법 적용하기

단계 / 4주

이제 실제 내가 활용하고 싶은 PDF 하나를 정합니다 - 교과서, 계약서, 매뉴얼, 회사 위키, 상관 없어요. 그 한 권을 들고 아래 9개 카테고리를 순서대로 진행해 보세요. 카테고리마다 하나씩 구현하고, 매번 retrieval 품질을 측정해 어떤 기법이 내 PDF에서 올바른 정보를 추출하는데 효과가 있는지 기록으로 남기세요.

주차별 진행 (4주 권장)

  • 1주차 / 기초 (Foundational) - Simple RAG로 베이스라인을 잡고, 청크 사이즈 / Proposition / Reliable RAG까지 비교합니다. 이후 모든 기법의 평가 기준선이 되는 숫자를 확보하는 게 목표예요.
  • 1주차 / 쿼리 가공 (Query Enhancement) - Query Transformations로 사용자 질문 자체를 재작성해보고, HyDE는 왜 잘 안 먹히는지 까지 직접 확인하세요. 베이스라인 위에서 첫 번째 레버를 당기는 단계입니다.
  • 2주차 / 컨텍스트 보강 (Context & Content Enrichment) - HyPE, Contextual Chunk Headers, Relevant Segment Extraction, Semantic Chunking, Contextual Compression. 임베딩 전에 정보 모양을 손보면 검색 품질이 어디까지 올라가는지를 봅니다.
  • 2주차 / 고급 검색 (Advanced Retrieval) - Fusion Retrieval, Intelligent Reranking, Hierarchical Indices, Multi-faceted Filtering. 보통 가성비가 가장 큰 구간이라 이번 주에 가장 많은 시간을 쓰게 될 거예요.
  • 3주차 / 반복 + 적응 (Iterative & Adaptive) - Feedback Loops, Adaptive Retrieval. 한 번에 정답을 뽑지 않고 여러 번 다듬는 검색의 감각을 익힙니다.
  • 3주차 / 평가 (Evaluation) - DeepEval, GroUSE, Open-RAG-Eval. 1주차에 잡은 베이스라인 숫자를 여기서 제대로 된 평가 프레임으로 다시 측정하세요. 이게 빠지면 이후 단계가 느낌 으로만 굴러갑니다.
  • 4주차 / 메모리 + 설명가능성 (Memory-Augmented + Explainability) - MemoRAG와 Explainable Retrieval. 짧게 훑되, "왜 이 청크가 뽑혔는가"를 사용자에게 보여줄 수 있는 구조를 한 번은 만들어보세요.
  • 4주차 / 고급 아키텍처 (Advanced Architectures) - Agentic RAG, Graph RAG (Milvus / Microsoft), RAPTOR, Self RAG, Corrective RAG. 본인 PDF에 어떤 아키텍처가 맞는지 판단하는 게 목표지, 7개를 다 구현할 필요는 없습니다.
  • 4주차 마지막 / Controllable Agent - 가장 복잡한 케이스로 마무리. 여기까지 오면 4단계 패키지를 봤을 때 어디를 만질지 자연스럽게 보여요.

각 카테고리가 끝날 때마다 동일한 PDF를 활용해서 답변 품질을 기록해두세요. 4주가 끝났을 때 어떤 방법론이 원하는 결과물을 가장 잘 만들었는지 알아야 그 이후로도 발전을 시킬 수 있습니다.

4단계 - Multimodal Graph RAG, 패키지로 한 번에

단계 / 1주

직접 4주를 손으로 짜본 다음에 이 두 패키지를 써보면 원리가 조금씩 보이기 시작할 겁니다. 같은 RAG 파이프라인이더라도 각 패키지마다 구축하는 방식이 다른데요, RAG-Anything은 PDF/Word 문서를 넣으면 바로 질의 가능한 시스템을 돌려주는 완성형 멀티모달 RAG 서비스이에요. Graphify는 코딩 에이전트를 위한 Graph RAG 레이어로, 코드/PDF/HTML/스크린샷이 섞인 폴더를 지식 그래프로 묶어 에이전트가 원본 파일을 사용하지 않고, 미리 구축된 지식 그래프를 기반으로 답변을 합니다. 이런 다양한 패키지들을 살펴보면 좋은 점들이 많은데요, 3단계에서 배운 RAG 방법론들의 강점과 한계점이 각 패키지에서 어떻게 드러나는지, 그리고 이렇게 많은 관심을 받은 RAG 패키지들이 직접 짜깁기한 파이프라인과 무엇이 다른지를 확인하고 배울 수 있습니다.

✓ 무엇을 얻을 수 있는가 - 나만의 서비스를 만들기 위한 최소한의 지식

지금쯤이면 실제 상용 가능한 RAG 패키지의 작동 방식은 물론, 그 전체 파이프라인을 본인이 원하는 방식으로 바꿀 수 있는 능력이 생겼을 겁니다. 물론 실제 서비스에는 앞뒤로 굉장히 많은 기능들과 고려사항들이 있어요. 그래도 지식을 처리하는 시스템의 가장 핵심적인 기능을 알고 있는 것이 다른 무엇보다 훨씬 더 경쟁력이 있습니다.


사이드 노트 - PDF 내에서 정보를 추출하기 어려울 때

RAG에서 가장 어려운 단계는 모델도 검색도 아닌 PDF 전처리예요. 표/수식/이미지/여러 단 레이아웃이 섞인 상태에서 단순 텍스트 추출만 진행하면 정보의 컨텍스트와 포맷이 섞여 RAG 파이프라인을 아무리 잘 만들어도 결과가 안 될 확률이 굉장히 높아요. 다음 두 영상을 살펴 보면서 PDF에서 정보를 올바르게 추출 하는 방법을 터득 하고 적용해 보세요.

  • 테디노트 - 🧑‍💻 #PDF 전처리 다 해봤습니다 (2024.08, FastCampus "RAG 비밀노트" 라이브 리플레이): 텍스트 추출, 레이아웃 인식, 표 처리, OCR까지 직접 시도해본 모든 전처리 트릭과 장단점을 알려줘요. 관련 코드는 teddylee777/langchain-kr, 무료 한국어 LangChain 위키북은 wikidocs.net/book/14314.
  • 모두의AI - RAG를 위한 청킹 어떻게 하고 계신가요? (2025.03, 25분): CharacterTextSplitter, RecursiveCharacterTextSplitter, MarkdownHeaderTextSplitter, SemanticChunker를 LangChain을 활용하여 비교해줘요. "splitter"와 "chunk"라는 단어가 아직 와닿지 않는다면 커리큘럼의 두 번째 단계로 돌아가 살펴보세요.