RAG یا Retrieval-Augmented Generation یکی از مهمترین تکنیکهای ۲ سال اخیر در حوزهی هوش مصنوعی است. بهجای اینکه فقط به دانش پایهی مدل تکیه کنی، اطلاعات روز و اختصاصی خودت را به آن میچسبانی. نتیجه: ChatGPT تو که روی اسناد شرکت، قوانین داخلی، یا کتابخانهی شخصیات، متخصص شده است. در این مقاله، RAG را از پایه تا کاربردهای عملی به فارسی توضیح میدهم.
RAG چیست؟ تعریف ساده
برای فهم RAG، اول این مسئله را بفهم: مدلهای زبانی فقط چیزهایی را میدانند که در آموزششان دیدهاند. ChatGPT دربارهی سیاستهای داخلی شرکت تو هیچ نمیداند. دربارهی فایلهای قرارداد PDF تو هیچ نمیداند. دربارهی محصولات کاتالوگ شما هیچ نمیداند.
RAG این مشکل را حل میکند با ۳ گام ساده:
- Retrieval (بازیابی): از سؤال کاربر، در بانک اطلاعاتی تو میگردد و مرتبطترین اسناد را پیدا میکند.
- Augmentation (تقویت): آن اسناد را بهعنوان «زمینه» همراه سؤال به مدل میفرستد.
- Generation (تولید): مدل بر اساس سؤال + اسناد مرتبط، پاسخ دقیق میدهد.
چرا به RAG نیاز داریم؟ — ۵ دلیل
- دانش روز: ChatGPT تا تاریخ مشخصی آموزش دیده. اگر بپرسی «اخبار امروز چیست؟»، نمیداند. RAG میتواند به اینترنت یا منابع روز وصل شود.
- دانش اختصاصی: هیچ مدل عمومی، اسناد داخلی شرکت تو را نمیداند. RAG این پل را میسازد.
- کاهش Hallucination: Hallucination یعنی AI چیزی را با اعتماد به نفس بگوید که اصلاً درست نیست. وقتی به مدل اسناد دقیق میدهی، احتمال این خطا چندین برابر کاهش مییابد.
- قابل اعتمادسازی: میتوانی به مدل بگویی «حتماً منبع هر ادعا را در پاسخ ذکر کن». این شفافیت در محیط حرفهای بحرانی است.
- بهروزرسانی بدون آموزش مجدد: اگر فردا یک سند جدید اضافه شود، فقط آن را در بانک اطلاعاتی بریز. نیاز به آموزش دوبارهی مدل نیست. این یعنی هزینهی نگهداری بسیار کم.
معماری RAG — چطور کار میکند؟
یک سیستم RAG از ۵ جزء اصلی تشکیل شده:
- Document Loader: اسناد (PDF، Word، صفحات وب، دیتابیس) را میخواند.
- Chunker: اسناد را به قطعات کوچک ۲۰۰ تا ۱۰۰۰ کلمهای میشکند. این قطعات «chunk» نامیده میشوند.
- Embedding Model: هر chunk را به یک «بردار عددی» تبدیل میکند. این بردارها معنای متن را نشان میدهند. متنهای هممعنا، بردارهای نزدیک به هم دارند.
- Vector Database: بردارها را ذخیره میکند. وقتی سؤال جدیدی میآید، آن هم به بردار تبدیل میشود و نزدیکترین chunk ها پیدا میشوند. معروفترین vector databaseها: Pinecone، Weaviate، Chroma، Qdrant.
- LLM (مدل زبانی): ChatGPT یا Claude. سؤال + chunk های پیدا شده را میگیرد و پاسخ نهایی میسازد.
تصور بصری
کاربر میپرسد: «سیاست مرخصی شرکت چیست؟»
↓
[Embedding Model] سؤال را به بردار تبدیل میکند
↓
[Vector DB] از بین ۱۰۰۰۰ chunk، ۳ مرتبطترین را پیدا میکند
↓
[LLM] دریافت میکند: «سؤال + ۳ chunk» → پاسخ تولید میکند
↓
کاربر پاسخ دقیق بر اساس اسناد واقعی شرکت دریافت میکند
کاربردهای واقعی RAG در ایران
- چتبات پشتیبانی: بهجای ۲۰ کارمند پشتیبانی، یک چتبات RAG-محور که روی ۵۰۰ صفحه سند راهنمای محصول و FAQ آموزش دیده. ۸۰٪ سؤالات را دقیق پاسخ میدهد.
- دستیار حقوقی: یک سیستم RAG روی قوانین جمهوری اسلامی + آرای دیوان عالی + نظریات مشورتی. وکیل سؤال میپرسد، سیستم منابع دقیق با شماره ماده و تاریخ به او میدهد.
- تحلیل قرارداد: یک قرارداد ۵۰ صفحهای را آپلود میکنی. میپرسی «بندهای ریسک کجاست؟»، «جریمهی تأخیر چقدر است؟» — پاسخ دقیق با ارجاع به صفحه.
- دستیار پزشک: یک سیستم روی ۱۰۰۰ مقالهی پزشکی جدید + گایدلاینهای وزارت بهداشت. پزشک میپرسد، سیستم تشخیص افتراقی و درمان بهروز میدهد. (با تأکید: ابزار کمکی، نه جایگزین تشخیص پزشک.)
- دستیار پژوهش دانشگاهی: دانشجو ۳۰ مقاله را آپلود میکند، میپرسد «نقطهنظرات متفاوت در این مقالات چیست؟» — RAG نقاط اختلاف و توافق را با ارجاع شناسایی میکند.
- دستیار آموزش شرکتی: کارمند جدید میتواند بهجای دیدن ۲۰ ساعت ویدیوی آموزشی، از چتبات RAG-محور هر سؤال خاصش را بپرسد و پاسخ مستقیم با ارجاع به منبع بگیرد.
RAG vs Fine-tuning — کدام برای چه کاری؟
این سؤال بسیار رایج است. هر دو روش، مدل را به دانش اختصاصی متصل میکنند، اما فلسفهی متفاوتی دارند:
| معیار | RAG | Fine-tuning |
|---|---|---|
| هزینه | کم (فقط vector DB + API calls) | بالا (آموزش مدل + سرور) |
| زمان راهاندازی | یک هفته | ۱-۳ ماه |
| بهروزرسانی داده | آنی (chunk جدید را اضافه کن) | نیاز به آموزش دوباره |
| دقت در دانش جدید | عالی (دادهی واقعی) | متوسط (مدل ممکن است فراموش کند) |
| دقت در سبک پاسخ | محدود | عالی |
| شفافیت منبع | قابل ارائه | غیرقابل ردیابی |
قانون کلی: اگر میخواهی مدل دانش جدید داشته باشد، RAG. اگر میخواهی مدل سبک یا رفتار جدید داشته باشد، Fine-tuning. برای ۹۰٪ کسبوکارها، RAG راهحل درست است.
ابزارهای ساخت سیستم RAG
کتابخانههای کد
- LangChain — پایتون، محبوبترین. اکوسیستم گسترده.
- LlamaIndex — پایتون، تخصصیتر در RAG. سادهتر برای سناریوهای پیچیده.
- Haystack — پایتون، گزینهی خوب برای production.
Vector Databases
- Pinecone — ابری، آماده، با plan رایگان
- Weaviate — open-source، self-host شدنی
- Chroma — سبک، برای پروژههای کوچک عالی
- Qdrant — سریع، مقیاسپذیر
راهحلهای No-Code
- OpenAI GPTs — میتوانی یک GPT اختصاصی بسازی و فایلهایت را به آن بچسبانی
- Anthropic Projects (Claude) — قابلیت مشابه با Claude Pro
- Custom GPTs در ChatGPT Plus — برای پروژههای شخصی کافی
چالشهای RAG و راهحل
- کیفیت chunking: اگر chunk ها بد بریده شوند، اطلاعات مهم در دو chunk جدا میافتند و سیستم نمیفهمد. راهحل: استفاده از Semantic Chunking بهجای تقسیم با اندازهی ثابت.
- اطلاعات متناقض در اسناد: اگر دو سند یک چیز را متفاوت بگویند، مدل گیج میشود. راهحل: تاریخگذاری اسناد، اولویتبندی، و دستور صریح به مدل که «جدیدترین منبع را اولویت بده».
- سؤالات چندبخشی: «X چیست و چه فرقی با Y دارد؟» — RAG ممکن است فقط X را بفهمد. راهحل: Query Decomposition — سؤال را به زیرسؤالات کوچکتر تبدیل کن.
- هزینهی Embedding: برای میلیونها سند، تبدیل به بردار هزینه دارد. راهحل: استفاده از مدلهای embedding ارزانتر (OpenAI Ada-002، یا Sentence Transformers رایگان).
-
زبان فارسی: بسیاری از مدلهای embedding برای انگلیسی بهینهاند. راهحل: استفاده از
text-embedding-3-largeاز OpenAI یا مدلهای چندزبانهی Cohere.
آیندهی RAG
RAG در حال تحول سریع است. روندهای ۲۰۲۶:
- Multi-modal RAG: بهجای فقط متن، میتوانی تصویر، صدا و ویدیو را هم بازیابی کنی. مثلاً سیستمی که از ۱۰۰۰ ساعت ویدیوی جلسات شرکت، صحنهی مرتبط را پیدا میکند.
- Agentic RAG: بهجای یک بازیابی ساده، AI خودش تصمیم میگیرد چندین بار جستجو کند، نتایج را ترکیب کند، و مسیر تحقیق را خودش طراحی کند.
- Hybrid Search: ترکیب جستجوی معنایی (Vector) با جستجوی کلیدواژهای (Keyword). دقت بسیار بالاتر.
- Long Context Models: با مدلهایی که ۲ میلیون توکن context دارند (Gemini)، گاهی میتوانی کل اسناد را مستقیم بدهی، بدون نیاز به vector DB.
اما حتی با این پیشرفتها، RAG اصول پایه باقی میماند: اطلاعات مرتبط را در زمان نیاز به مدل بده، نه قبل از آن.
سوالات متداول
RAG مخفف چیست؟
RAG مخفف Retrieval-Augmented Generation است که به فارسی به «تولید تقویتشده با بازیابی» ترجمه میشود. ترکیبی از سیستم جستجو و مدل زبانی است.
آیا برای ساختن RAG نیاز به برنامهنویسی دارم؟
نه لزوماً. اگر سناریوی سادهای داری (مثلاً ۱۰ سند شخصی)، با Custom GPT در ChatGPT یا Projects در Claude بدون کد میتوانی بسازی. برای سیستمهای production و حرفهای، آشنایی با پایتون و LangChain ضروری است.
RAG با Fine-tuning چه فرقی دارد؟
RAG به مدل «دانش» میدهد (با بازیابی اسناد در لحظه). Fine-tuning به مدل «رفتار/سبک جدید» میدهد (با آموزش مجدد). RAG ارزانتر، سریعتر و قابل بهروزرسانی است. Fine-tuning برای تغییر سبک پاسخ بهتر است.
بهترین Vector Database برای شروع کدام است؟
برای پروژههای کوچک و یادگیری، Chroma رایگان و ساده است و روی لپتاپ میچرخد. برای پروژههای production، Pinecone (با plan رایگان شروع کن) یا Qdrant توصیه میشود.
RAG برای زبان فارسی کار میکند؟
بله، اما با ملاحظات. باید از مدلهای embedding چندزبانه استفاده کنی (مثل OpenAI text-embedding-3-large یا Cohere multilingual). همچنین chunking برای فارسی باید با احتیاط بیشتری انجام شود چون مرز جملات گاهی واضح نیست.
هزینهی راهاندازی RAG چقدر است؟
برای پروژهی کوچک با Chroma + OpenAI API، میتوانی با کمتر از ۱۰ دلار/ماه شروع کنی. برای پروژهی متوسط با ۱۰۰هزار سند و Pinecone + GPT-4o، حدود ۱۰۰-۵۰۰ دلار/ماه. برای enterprise، چندین هزار دلار.
آیا RAG میتواند Hallucination را کاملاً حذف کند؟
نه کاملاً، اما بهشدت کاهش میدهد. اگر در پرامپت بگویی «فقط بر اساس اسناد ارائهشده پاسخ بده، اگر اطلاعات کافی نیست، بگو نمیدانی»، احتمال Hallucination به زیر ۵ درصد میرسد.
RAG چه ربطی به مهندسی پرامپت دارد؟
RAG یکی از پیشرفتهترین کاربردهای مهندسی پرامپت است. در RAG، شما باید پرامپت سیستم را خیلی دقیق طراحی کنی تا مدل بفهمد چگونه از اسناد بازیابیشده استفاده کند. در دورهی جامع مهندسی پرامپت یک فصل کامل به RAG اختصاص داده شده.
میخوای از تئوری به مهارت برسی؟
این مقاله یک شروع است. اگر میخواهی مهندسی پرامپت را بهصورت مدون، با پروژهی واقعی و پشتیبانی مستقیم یاد بگیری، دورهی جامع مهندسی پرامپت همان مسیری است که دنبالش هستی — ۱۳ فصل، ۵۸ جلسه، گروه پشتیبانی و ۳ روز ضمانت بازگشت کامل وجه.
شروع دوره