یک اشتباه رایج که تازه متوجه شدم:
خیلیها فکر میکنن fine-tuning همیشه جوابه
نه دوستان، خیلی وقتها RAG بهتره
بذارید ساده بگم:
Fine-tuning = آموزش دوباره مدل
زمانبر، پرهزینه، نیاز به GPU قوی
وقتی دادهتون تغییر کنه، باید دوباره تیون کنید
RAG = دادن اطلاعات در لحظه به مدل
سریع، ارزون، فقط یک vector database لازمه
داده تغییر کرد؟ فقط دیتابیس رو آپدیت کنید
قاعده ساده:
دادهتون ثابته و میخواید سبک نوشتار تغییر کنه؟ → Fine-tune
دادهتون مدام عوض میشه و میخواید مدل بهش دسترسی داشته باشه؟ → RAG
برای شروع یادگیری RAG
LangChain + ChromaDB + OpenAI API
یک آخر هفته کافیه برای یادگیریش
خیلیها فکر میکنن fine-tuning همیشه جوابه
نه دوستان، خیلی وقتها RAG بهتره
بذارید ساده بگم:
Fine-tuning = آموزش دوباره مدل
زمانبر، پرهزینه، نیاز به GPU قوی
وقتی دادهتون تغییر کنه، باید دوباره تیون کنید
RAG = دادن اطلاعات در لحظه به مدل
سریع، ارزون، فقط یک vector database لازمه
داده تغییر کرد؟ فقط دیتابیس رو آپدیت کنید
قاعده ساده:
دادهتون ثابته و میخواید سبک نوشتار تغییر کنه؟ → Fine-tune
دادهتون مدام عوض میشه و میخواید مدل بهش دسترسی داشته باشه؟ → RAG
برای شروع یادگیری RAG
LangChain + ChromaDB + OpenAI API
یک آخر هفته کافیه برای یادگیریش
👍10❤4
یک پند به دوستان جونیور:
دیروز یک نفر پرسید: "چطور میتونم سریعتر کد بزنم؟"
جوابم این بود: "کپیپیست کردن سریع نیست، تکرار کردنه"
توضیح میدم:
وقتی از ChatGPT یا Copilot استفاده میکنید، کد رو کپی نکنید
بخونید، بفهمید، خودتون دوباره بنویسید
چرا؟
چون مغز شما باید الگوها رو یاد بگیره
کپیپیست = حافظه کوتاهمدت
تایپ کردن = حافظه بلندمدت
یک تمرین ساده:
۱. کد AI رو بخونید
۲. پنجره رو ببندید
۳. خودتون از حفظ بنویسید
۴. مقایسه کنید
قطعا اول کاری سخته، ولی بعد از ۱۰ بار، دیگه نیاز به AI ندارید
این فرق یک junior که copy-paste میکنه با یک mid-level که واقعا بلده
دیروز یک نفر پرسید: "چطور میتونم سریعتر کد بزنم؟"
جوابم این بود: "کپیپیست کردن سریع نیست، تکرار کردنه"
توضیح میدم:
وقتی از ChatGPT یا Copilot استفاده میکنید، کد رو کپی نکنید
بخونید، بفهمید، خودتون دوباره بنویسید
چرا؟
چون مغز شما باید الگوها رو یاد بگیره
کپیپیست = حافظه کوتاهمدت
تایپ کردن = حافظه بلندمدت
یک تمرین ساده:
۱. کد AI رو بخونید
۲. پنجره رو ببندید
۳. خودتون از حفظ بنویسید
۴. مقایسه کنید
قطعا اول کاری سخته، ولی بعد از ۱۰ بار، دیگه نیاز به AI ندارید
این فرق یک junior که copy-paste میکنه با یک mid-level که واقعا بلده
❤28👍1
یک چیز عجیب دیدم توی LinkedIn:
یک نفر نوشته بود: "من 15تا مدل machine learning train کردم"
ولی هیچ کدوم deploy نکرده بود
رفقا، مدل train کردن ۲۰٪ کاره
دیپلوی کردن و نگهداری کردنش ۸۰٪ کاره
یک مدل که روی Jupyter Notebook کار میکنه، هنوز آماده محیط واقعی نیست
چیزایی که باید یاد بگیرید:
۱. Docker → از مدلتون کانتینر بسازید.
۲. FastAPI → یک ای پی آی ساده بسازید
۳. AWS/GCP → یاد بگیرید چطور دیپلوی کنید
یک پروژه عملی:
یک مدل ساده بسازید، با FastAPI براش API بنویسید، با Docker یک کانتینر ازش بسازید، روی Heroku یا Railway اونو deploy کنید
این یک پروژه، ارزش ۱۰ تا notebook توی GitHub داره
برای شروع:
FastAPI: https://fastapi.tiangolo.com
Railway: https://railway.app
یک نفر نوشته بود: "من 15تا مدل machine learning train کردم"
ولی هیچ کدوم deploy نکرده بود
رفقا، مدل train کردن ۲۰٪ کاره
دیپلوی کردن و نگهداری کردنش ۸۰٪ کاره
یک مدل که روی Jupyter Notebook کار میکنه، هنوز آماده محیط واقعی نیست
چیزایی که باید یاد بگیرید:
۱. Docker → از مدلتون کانتینر بسازید.
۲. FastAPI → یک ای پی آی ساده بسازید
۳. AWS/GCP → یاد بگیرید چطور دیپلوی کنید
یک پروژه عملی:
یک مدل ساده بسازید، با FastAPI براش API بنویسید، با Docker یک کانتینر ازش بسازید، روی Heroku یا Railway اونو deploy کنید
این یک پروژه، ارزش ۱۰ تا notebook توی GitHub داره
برای شروع:
FastAPI: https://fastapi.tiangolo.com
Railway: https://railway.app
Tiangolo
FastAPI framework, high performance, easy to learn, fast to code, ready for production
👍16❤3
امروز میخوام یک مفهوم رو ساده کنم که خیلیها ازش میترسن:
Mixture of Experts (MoE)
بذارید با یک مثال توضیح بدم:
فرض کنید یک رستوران دارید
به جای اینکه یک آشپز همه غذاها رو بپزه
۱۰ تا آشپز دارید، هرکدوم متخصص یک نوع غذا
وقتی سفارش میگیرید، فقط آشپز مربوطه کار میکنه
نتیجه: سریعتر، بهتر، کارآمدتر
تکنیک MoE دقیقا همینه:
به جای یک مدل بزرگ، چندتا مدل کوچیک (experts) و
یک router تکه صمیم میگیره کدوم expert باید کار کنه
مثال واقعی: Mixtral 8x7B
۸ تا expert داره، ولی فقط ۲ تا برای هر input فعال میشن
نتیجه: سرعت بالا، مصرف واحد پردازشی کمتر
چرا مهمه؟
کممصرفتر، سریعتر، مقیاسپذیرتر
اگر میخواید با MoE کار کنید:
مدل Mixtral رو از Hugging Face امتحان کنید
لینک: https://huggingface.co/mistralai/Mixtral-8x7B-v0.1
Mixture of Experts (MoE)
بذارید با یک مثال توضیح بدم:
فرض کنید یک رستوران دارید
به جای اینکه یک آشپز همه غذاها رو بپزه
۱۰ تا آشپز دارید، هرکدوم متخصص یک نوع غذا
وقتی سفارش میگیرید، فقط آشپز مربوطه کار میکنه
نتیجه: سریعتر، بهتر، کارآمدتر
تکنیک MoE دقیقا همینه:
به جای یک مدل بزرگ، چندتا مدل کوچیک (experts) و
یک router تکه صمیم میگیره کدوم expert باید کار کنه
مثال واقعی: Mixtral 8x7B
۸ تا expert داره، ولی فقط ۲ تا برای هر input فعال میشن
نتیجه: سرعت بالا، مصرف واحد پردازشی کمتر
چرا مهمه؟
کممصرفتر، سریعتر، مقیاسپذیرتر
اگر میخواید با MoE کار کنید:
مدل Mixtral رو از Hugging Face امتحان کنید
لینک: https://huggingface.co/mistralai/Mixtral-8x7B-v0.1
huggingface.co
mistralai/Mixtral-8x7B-v0.1 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍8
امروز یک چیز کاربردی براتون دارم
میخواید ببینید مدل زبانیتون چقدر دقیقه؟
این متریک رو حتما اندازه بگیرید:
معیار Perplexity
Perplexity = میزان سردرگمی مدل
عدد کمتر = مدل مطمئنتر
کد ساده با پایتون:
عدد زیر ۲۰؟ مدلتون خوبه
عدد بالای ۵۰؟ یک جایی مشکل داره
درسته که این یک معیار سادست ولی خیلی کمک میکنه بفهمید مدلتون چقدر روی دادهتون خوب کار میکنه، البته معیارهای مکمل هم باید در نظر بگیرین
میخواید ببینید مدل زبانیتون چقدر دقیقه؟
این متریک رو حتما اندازه بگیرید:
معیار Perplexity
Perplexity = میزان سردرگمی مدل
عدد کمتر = مدل مطمئنتر
کد ساده با پایتون:
from transformers import GPT2LMHeadModel, GPT2Tokenizer
import torch
model = GPT2LMHeadModel.from_pretrained('gpt2')
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
text = "Your text here"
inputs = tokenizer(text, return_tensors='pt')
with torch.no_grad():
outputs = model(**inputs, labels=inputs['input_ids'])
loss = outputs.loss
perplexity = torch.exp(loss)
print(f"Perplexity: {perplexity.item()}")
عدد زیر ۲۰؟ مدلتون خوبه
عدد بالای ۵۰؟ یک جایی مشکل داره
درسته که این یک معیار سادست ولی خیلی کمک میکنه بفهمید مدلتون چقدر روی دادهتون خوب کار میکنه، البته معیارهای مکمل هم باید در نظر بگیرین
👍10❤1
نرخ نامه خدمات طراحی گرافیک 1404.pdf
434.4 KB
هی بهتون میگم برنامه نویسی نون و آب نداره😂
برید سمت طراحی
گوش نمیدین😁
یک نگاه به تعرفه هاشون بندازید، وسوسه انگیزه
تازه تعرفه هاشون واسه نیمه اول امسال بوده
برید سمت طراحی
گوش نمیدین😁
یک نگاه به تعرفه هاشون بندازید، وسوسه انگیزه
تازه تعرفه هاشون واسه نیمه اول امسال بوده
❤2
این پست جدیدم توی لینکدین خیلی دوست دارم
سعی کردم یک سوالی که خیلی پرسیده میشد و دغدغه خیلی ها بود را با مثال واقعی بررسی کنم
لینک پست
سعی کردم یک سوالی که خیلی پرسیده میشد و دغدغه خیلی ها بود را با مثال واقعی بررسی کنم
لینک پست
Linkedin
آیا واقعا هوش مصنوعی "داره جای کپیرایترا رو میگیره؟"
این مدل سوال ها خوراک خودمه و سرم درد میکنه برای پاسخ بهش
پس هفته پیش یه…
این مدل سوال ها خوراک خودمه و سرم درد میکنه برای پاسخ بهش
پس هفته پیش یه…
آیا واقعا هوش مصنوعی "داره جای کپیرایترا رو میگیره؟"
این مدل سوال ها خوراک خودمه و سرم درد میکنه برای پاسخ بهش
پس هفته پیش یه تست ساده کردم تا ببینم واقعاً چقدر این ادعا درسته.
به ChatGPT گفتم: "یه Caption برای پست اینستاگرام واسه یه کافه بنویس."
نوشت:…
این مدل سوال ها خوراک خودمه و سرم درد میکنه برای پاسخ بهش
پس هفته پیش یه تست ساده کردم تا ببینم واقعاً چقدر این ادعا درسته.
به ChatGPT گفتم: "یه Caption برای پست اینستاگرام واسه یه کافه بنویس."
نوشت:…
❤4
یکی از بچه ها می پرسید: "چرا مدلم overfitting میشه؟"
نگاه کردم به کدش، ۵۰۰ تا سمپل داشت
۱۵ تا فیچر ساخته بود
مدلش ۱۰ لایه داشت
بهش گفتم مشتی، تو داری با تفنگ ژ3 به گنجشک شلیک میکنی!
قاعده کوچولوی امروزمون:
اگر دیتاست کوچیک داری، مدل ساده بساز
اگر دیتاست بزرگ داری، مدل پیچیده
ترین مدل سنگین و مصرف کلی GPU هنر نیست و جایزه نمیدن بابتش
توی محیط صنعت اتفاقا گاهی با روش های ساده تر حل کردن، ترندتره
اگه بخام نکته کنکوریش بگم: (علمی و وحی منزل نیست)
کمتر از ۱۰۰۰ سمپل → Logistic Regression یا Decision Tree
۱۰۰۰ تا ۱۰۰۰۰ → Random Forest یا XGBoost
بیشتر از ۱۰۰۰۰ → حالا میتونی سراغ Deep Learning بری
پند نهایی☺️
همیشه از ساده شروع کنید
بعد پیچیدهترش کنید، نه برعکس
پ.ن: گاهی مشکلاتمون با یک مدل ساده حل میشه، نه GPT-5 😅
نگاه کردم به کدش، ۵۰۰ تا سمپل داشت
۱۵ تا فیچر ساخته بود
مدلش ۱۰ لایه داشت
بهش گفتم مشتی، تو داری با تفنگ ژ3 به گنجشک شلیک میکنی!
قاعده کوچولوی امروزمون:
اگر دیتاست کوچیک داری، مدل ساده بساز
اگر دیتاست بزرگ داری، مدل پیچیده
ترین مدل سنگین و مصرف کلی GPU هنر نیست و جایزه نمیدن بابتش
توی محیط صنعت اتفاقا گاهی با روش های ساده تر حل کردن، ترندتره
اگه بخام نکته کنکوریش بگم: (علمی و وحی منزل نیست)
کمتر از ۱۰۰۰ سمپل → Logistic Regression یا Decision Tree
۱۰۰۰ تا ۱۰۰۰۰ → Random Forest یا XGBoost
بیشتر از ۱۰۰۰۰ → حالا میتونی سراغ Deep Learning بری
پند نهایی☺️
همیشه از ساده شروع کنید
بعد پیچیدهترش کنید، نه برعکس
پ.ن: گاهی مشکلاتمون با یک مدل ساده حل میشه، نه GPT-5 😅
👍17❤2
یک چیز جالب امروز فهمیدم:
مدل Claude یک ویژگی داره به اسم "Extended Thinking"
یعنی چی؟
یعنی مدل قبل از جواب دادن، چند ثانیه فکر میکنه
مثل وقتی که شما یک مسئله ریاضی دارید و قبل جواب دادن، روی کاغذ محاسبه میکنین
و اینش برام جالبه که این مدل ها تا می تونن از هوش انسانی تقلید می کنن
یعنی هر ویژگی مغزمون داره را دارن به هوش مصنوعی اضافه میکنن و شده منبع الهامشون (صحبتم شبیه کلاس دینی راهنمایی شد😂)
مدل Claude یک ویژگی داره به اسم "Extended Thinking"
یعنی چی؟
یعنی مدل قبل از جواب دادن، چند ثانیه فکر میکنه
مثل وقتی که شما یک مسئله ریاضی دارید و قبل جواب دادن، روی کاغذ محاسبه میکنین
و اینش برام جالبه که این مدل ها تا می تونن از هوش انسانی تقلید می کنن
یعنی هر ویژگی مغزمون داره را دارن به هوش مصنوعی اضافه میکنن و شده منبع الهامشون (صحبتم شبیه کلاس دینی راهنمایی شد😂)
❤6
در سال ۲۰۲۴، سازمان غذا و دارو آمریکا ۲۲۳ دستگاه پزشکی مبتنی بر AI رو تایید کرد، در حالی که ۲۰۱۵ فقط ۶ تا بودش
و این یعنی AI واقعا داره وارد زندگی روزمره میشه
آمارش خیلی عجیب بود و آدم حسابی به فکر فرو میبره که چقدر فرصت و ظرفیت پول در آوردن هست
و این یعنی AI واقعا داره وارد زندگی روزمره میشه
آمارش خیلی عجیب بود و آدم حسابی به فکر فرو میبره که چقدر فرصت و ظرفیت پول در آوردن هست
❤8
این سوال توی یک گروه تلگرامی دیدم:
"ما میخوایم یک مدل custom بسازیم، چقدر هزینه داره؟"
برام سوال شد: "چرا custom؟ مدلهای آماده رو امتحان کردن؟"
چی میخام بگم؟ حرف اینه که توی کشوری که قیمت جی پی یو سر به فلک کشیده و از هر نوع خدمت و سرویس خارجی به واسطه کاغذ پاره های تحریم، محروم هستیم
چه اصراریه به تیون کردن مدل های سنگین
قشنگ شبیه مسابقه شده، مدل من بزرگتره...
یا من پول بیشتری خرج کردم...
"ما میخوایم یک مدل custom بسازیم، چقدر هزینه داره؟"
برام سوال شد: "چرا custom؟ مدلهای آماده رو امتحان کردن؟"
چی میخام بگم؟ حرف اینه که توی کشوری که قیمت جی پی یو سر به فلک کشیده و از هر نوع خدمت و سرویس خارجی به واسطه کاغذ پاره های تحریم، محروم هستیم
چه اصراریه به تیون کردن مدل های سنگین
قشنگ شبیه مسابقه شده، مدل من بزرگتره...
یا من پول بیشتری خرج کردم...
👍8
خب اخر سال میلادی هستش و داشتم به ترندهای ۲۰۲۵ نگاه میکردم یک چیز خیلی جالب به چشمم خورد:
در کمتر از ۲ سال، هزینه انجام یک تسک مشابه با MMLU چندین برابر برابر کاهش پیدا کرده
یعنی الان کارایی که سال پیش هزار دلار هزینه داشت، حالا با چند دلار انجام میشه
یک مثال ملموس و بغل گوشمون:
دو سال پیش میشد این حرف زد
"نمیتونیم از GPT-4 استفاده کنیم، خیلی گرونه"
الان ولی خیلی هزینه ها کمتر شده
تحقیقات اخیر میگفتن که بهبود الگوریتمی سالانه حدود ۴۰۰٪ هست (به نظرم در این حد هم نیست البته)
یعنی نتایج امروز رو میشه یک سال بعد با ربع compute بدست آورد (طبق همون تحقیقاتی که دیدم)
خلاصه دیگه بهونه نداریم که AI گرونه
راستی
اگه قبلا پروژهای داشتید که به دلیل گرون بودن API کنسلش کردین، دوباره امتحان کنید احتمالا الان ارزونتر شده😂😂😂
در کمتر از ۲ سال، هزینه انجام یک تسک مشابه با MMLU چندین برابر برابر کاهش پیدا کرده
یعنی الان کارایی که سال پیش هزار دلار هزینه داشت، حالا با چند دلار انجام میشه
یک مثال ملموس و بغل گوشمون:
دو سال پیش میشد این حرف زد
"نمیتونیم از GPT-4 استفاده کنیم، خیلی گرونه"
الان ولی خیلی هزینه ها کمتر شده
تحقیقات اخیر میگفتن که بهبود الگوریتمی سالانه حدود ۴۰۰٪ هست (به نظرم در این حد هم نیست البته)
یعنی نتایج امروز رو میشه یک سال بعد با ربع compute بدست آورد (طبق همون تحقیقاتی که دیدم)
خلاصه دیگه بهونه نداریم که AI گرونه
راستی
اگه قبلا پروژهای داشتید که به دلیل گرون بودن API کنسلش کردین، دوباره امتحان کنید احتمالا الان ارزونتر شده😂😂😂
👍5
ترند این روزها که همه دارن در موردش حرف میزنن: Agentic AI
یه بنده خدایی میگفت
ما دنبال کسی هستیم که بتونه AI Agent بسازه
پرسیدم: "میدونید چیه؟"
گفتن: "خب چیزیه که خودش کار میکنه دیگه!"
ولی خب Agentic AI یعنی سیستمی که خودش تصمیم میگیره و چند مرحلهای کار رو انجام میده
یک مثال ساده:
شما میگید "یک گزارش از فروش سه ماهه بساز"
حالا Agent خودش داده رو جمع میکنه، تحلیل میکنه، نمودار میسازه، گزارش مینویسه
البته اگه میخواید وارد این حوزه بشید، اول workflow رو بفهمید
بعد Agent رو بسازید چون
تحقیقات Gartner نشون میده که بیش از ۴۰٪ از پروژههای Agentic AI تا پایان ۲۰۲۷ کنسل میشن😂😂😂
چرا؟ چون همه دنبال هایپ رفتن، نه حل مشکل واقعی
یه بنده خدایی میگفت
ما دنبال کسی هستیم که بتونه AI Agent بسازه
پرسیدم: "میدونید چیه؟"
گفتن: "خب چیزیه که خودش کار میکنه دیگه!"
ولی خب Agentic AI یعنی سیستمی که خودش تصمیم میگیره و چند مرحلهای کار رو انجام میده
یک مثال ساده:
شما میگید "یک گزارش از فروش سه ماهه بساز"
حالا Agent خودش داده رو جمع میکنه، تحلیل میکنه، نمودار میسازه، گزارش مینویسه
البته اگه میخواید وارد این حوزه بشید، اول workflow رو بفهمید
بعد Agent رو بسازید چون
تحقیقات Gartner نشون میده که بیش از ۴۰٪ از پروژههای Agentic AI تا پایان ۲۰۲۷ کنسل میشن😂😂😂
چرا؟ چون همه دنبال هایپ رفتن، نه حل مشکل واقعی
🔥10