Fine-tuning یا RAG یا Prompt Engineering؟
کدام را انتخاب کنیم؟

راهنمای جامع تصمیم‌گیری با مقایسه‌ی هزینه، دقت و ۳ مورد استفاده‌ی واقعی ایرانی

وقتی می‌خواهی AI را برای پروژه‌ی خاص خودت customize کنی، سه راه پیش رو داری: Prompt Engineering (ارزان و سریع)، RAG (متوسط و انعطاف‌پذیر)، یا Fine-tuning (گران و دقیق). انتخاب اشتباه می‌تواند ماه‌ها وقت و میلیون‌ها تومان هدر بدهد. در این مقاله یک دیسیژن tree واضح + جدول مقایسه‌ی هزینه + ۳ مورد استفاده‌ی واقعی ایرانی به تو می‌دهیم تا با اطمینان انتخاب کنی.

پاسخ کوتاه: برای سفارشی‌کردن یک مدل سه راه دارید: Prompt Engineering (ارزان و سریع، برای اکثر کارها کافی)، RAG (برای افزودن دانش به‌روز و اختصاصی)، و Fine-tuning (برای تثبیت سبک یا رفتار خاص، گران‌تر). اکثر پروژه‌ها با ترکیب Prompt و RAG حل می‌شوند و به Fine-tuning نیاز ندارند.

سه راه برای customize کردن AI

تمام پروژه‌های AI سفارشی یکی یا ترکیبی از این سه روش هستند:

  • Prompt Engineering: فقط با نوشتن پرامپت مناسب، خروجی مدل را کنترل می‌کنی.
  • RAG (Retrieval-Augmented Generation): به مدل اجازه می‌دهی به یک پایگاه دانش خارجی دسترسی پیدا کند.
  • Fine-tuning: با داده‌های اختصاصی، مدل را دوباره آموزش می‌دهی.

Prompt Engineering — مزایا و معایب

هنر نوشتن دستورات بهینه به AI. در مقاله‌ی مهندسی پرامپت با جزئیات بررسی کردیم.

مزایا: ارزان‌ترین، سریع‌ترین، بدون نیاز به دیتاست، بدون پیچیدگی فنی.

معایب: محدود به دانش خود مدل، پرامپت‌های طولانی هزینه‌ی توکن زیاد، کنترل کامل لحن سخت.

RAG — مزایا و معایب

اتصال LLM به دانش خارجی از طریق embedding. جزئیات کامل را بخوان.

مزایا: دانش به‌روز، source citation، کمتر hallucination، یک مدل برای چندین پروژه.

معایب: پیچیدگی فنی متوسط، هزینه‌ی embedding، latency بیشتر، نمی‌تواند لحن خاص یاد بدهد.

Fine-tuning — مزایا و معایب

دوباره‌آموزش مدل با داده‌های اختصاصی:

  • Full Fine-tuning: همه‌ی پارامترها آپدیت می‌شوند. گران‌ترین ($1000-10000+).
  • LoRA: فقط چند ماتریس کوچک. ۹۰٪ ارزان‌تر.
  • PEFT: خانواده‌ای از روش‌ها شامل LoRA، Prefix Tuning، Adapter.

مزایا: بهترین کنترل لحن، کاهش هزینه‌ی توکن، سرعت inference بالاتر.

معایب: نیاز به دیتاست بزرگ، هزینه‌ی training بالا، زمان‌بر، دانش static، ریسک overfitting.

جدول مقایسه‌ی جامع

معیارPrompt EngRAGFine-tuning
هزینه راه‌اندازی$0$10-100$100-10,000
هزینه per queryپایه۱.۲-۱.۵×۰.۳-۰.۷×
زمان setupساعت‌هاروزهاهفته‌ها
دانش به‌روزخیربلهخیر
کنترل لحنمحدودمحدودعالی
دقت در domainمتوسطخوبعالی
Hallucinationزیادکممتوسط
Citationخیربلهخیر
پیچیدگیپایینمتوسطبالا

دیسیژن tree — ۵ سوال طلایی

  1. دانش اختصاصی (اسناد شرکت) نیاز است؟ اگر بله → RAG.
  2. دانش به‌روز روزانه/هفتگی نیاز است؟ اگر بله → RAG.
  3. حجم تعاملات > ۱۰۰ هزار در ماه؟ اگر بله → Fine-tuning.
  4. لحن/فرمت خروجی خیلی خاص است؟ اگر بله و بودجه داری → Fine-tuning.
  5. با پرامپت‌نویسی خوب نتیجه می‌گیری؟ اگر بله → Prompt Engineering کافی است.
قانون طلایی: همیشه با Prompt Engineering شروع کن. اگر کافی نبود، RAG اضافه کن. Fine-tuning آخرین گزینه است.

۵ اشتباه رایج در انتخاب بین این سه

بیشترِ هزینه‌های هدررفته از انتخابِ اشتباهِ روش می‌آید، نه از اجرای بد. این پنج اشتباه را زیاد می‌بینم:

  1. پریدن به Fine-tuning قبل از تستِ جدیِ Prompt و RAG. گران‌ترین اشتباه؛ معمولاً ۸۰٪ نتیجه را با پرامپتِ خوب + RAG می‌گیری، با کسری از هزینه.
  2. Fine-tuning برای دانشی که مدام عوض می‌شود (قیمت، موجودی، اخبار، اسناد). مدلِ fine-tune‌شده «منجمد» است؛ هر تغییر یعنی آموزشِ دوباره — این دقیقاً کارِ RAG است.
  3. انتظارِ ذکرِ منبع (Citation) از Fine-tuning. نمی‌دهد. اگر باید بگویی پاسخ از کجا آمده (پشتیبانی، حقوقی، پزشکی)، به RAG نیاز داری.
  4. نادیده‌گرفتنِ هزینه‌ی پنهانِ نگهداریِ RAG: به‌روزرسانیِ embeddingها، میزبانیِ Vector DB و کیفیتِ reranking — هزینه‌ی راه‌اندازی فقط بخشی از ماجراست.
  5. این تصورِ غلط که فقط یکی را باید انتخاب کنی. در عمل بهترین سیستم‌ها ترکیب‌اند: پرامپتِ دقیق + RAG برای دانش، و در مقیاسِ بالا Fine-tuning روی همان جریان.
قاعده‌ی هزینه: هر پله که بالا می‌روی (Prompt → RAG → Fine-tuning)، هزینه و پیچیدگی چند برابر می‌شود ولی بهبودِ نتیجه کم‌تر. تا وقتی پله‌ی فعلی جواب می‌دهد، بالا نرو.

مورد ۱: چت‌بات پشتیبانی شرکت ایرانی

سناریو: شرکت بیمه که می‌خواهد چت‌بات بر اساس قوانین داخلی، تعرفه‌ها و سوابق مشتری پاسخ دهد.

پاسخ: RAG. دانش دائماً به‌روز می‌شود. مشتری باید بداند پاسخ از کدام سند است. Fine-tuning غیرضروری.

پیاده‌سازی: اسناد + FAQ را با embedding در pgvector ذخیره. هر سوال: embed → ۵ chunk نزدیک‌ترین → context برای GPT-4o → پاسخ.

مورد ۲: تولید محتوای با لحن خاص

سناریو: پیج اینستاگرام با لحن طنز خاص که می‌خواهد ۱۰۰ پست در ماه تولید کند.

پاسخ: Fine-tuning + Prompt Engineering. لحن طنز با پرامپت قابل دستیابی نیست. اگر ۳۰۰-۵۰۰ پست موفق به‌عنوان دیتاست داشته باشی، مدل سبک را یاد می‌گیرد.

مورد ۳: دستیار ساده‌ی کاربری

سناریو: سایت e-commerce که می‌خواهد دستیار پیشنهاددهنده‌ی محصول و پاسخگوی ارسال داشته باشد.

پاسخ: Prompt Engineering (+ کمی RAG). با system prompt خوب + Function Calling برای دسترسی به دیتابیس، نیازی به fine-tuning نیست.

ترکیب هر سه — Stack حرفه‌ای

در پروژه‌های production بزرگ، هر سه روش با هم استفاده می‌شوند:

  1. Fine-tuning برای لحن و فرمت پایه
  2. RAG برای دانش به‌روز
  3. Prompt Engineering برای کنترل گردش کار

این الگو در شرکت‌هایی مثل Klarna، Notion و Intercom دیده می‌شود.

سوالات متداول

برای پروژه‌ی شخصی کوچک چه پیشنهاد می‌کنی؟

Prompt Engineering تنها.

برای شرکت متوسط ایرانی؟

Prompt Engineering + RAG. ۹۰٪ پروژه‌ها را پوشش می‌دهد.

LoRA یا Full Fine-tuning؟

همیشه با LoRA شروع کن.

هزینه واقعی fine-tuning روی OpenAI؟

GPT-4o-mini با ۵۰۰ مثال: $۳-۸ هزینه‌ی training.

آیا RAG hallucination را کاملاً حذف می‌کند؟

کاملاً نه، ولی تا ۸۰٪ کم می‌کند.

کدام مدل برای fine-tuning ایرانی؟

GPT-4o-mini برای کیفیت/قیمت. اگر self-host، Llama 3.1 8B با LoRA.

می‌خوای پروژه‌ی واقعی AI بسازی؟

دوره‌ی جامع مهندسی پرامپت از Prompt Engineering تا RAG و ساخت ایجنت.

شروع دوره
متین لب‌خندق

متین لب‌خندق

مهندس هوش مصنوعی و مدرس مهندسی پرامپت

۱۰ سال تجربه برنامه‌نویسی، ۵ سال تخصص در طراحی stack هوش مصنوعی برای پروژه‌های ایرانی. پروفایل کامل.

نویسنده: متین لب‌خندق — مهندس هوش مصنوعی با ۱۰ سال برنامه‌نویسی و ۵ سال تمرکز روی مدل‌های زبانی (LLM)؛ سازنده‌ی سیستم‌های واقعیِ production با ChatGPT، Claude و Gemini و بنیان‌گذار آکادمی متین لب‌خندق. مقاله‌ی پایه: راهنمای جامع مهندسی پرامپت.