LLM Engineers – Telegram
LLM Engineers
1.87K subscribers
103 photos
6 videos
3 files
142 links
A highly technical blog tailored for LLM engineers.

Contact me:
linkedin.com/in/mshojaei77
Download Telegram
LLM Engineers
با Unsloth الان می‌تونید Kimi K2 رو به صورت لوکال با Dynamic 1.8-bit GGUF اجرا کنید! کل مدل 1.1TB رو به فقط 245GB کاهش دادن(۸۰٪ کاهش حجم). Guide: docs.unsloth.ai/basics/kimi-k2
یه کوانتایز دیگه از Kimi K2 منتشر شده
Kimi-K2-Instruct-quantized.w4a16
این یک مدل کوانتایزشده‌ی ۴ بیتی است (وزن‌های کوچک اما اکتیویشن‌ها هنوز با دقت ۱۶ بیت کار می‌کنند) که با کمترین افت کیفیت، عملکرد خوبی نشون دادن طبق readme توی بنچمارک GSM8k 5-shot، امتیاز ۹۴.۸۴٪ دقت را کسب کرده که تقریباً پا‌به‌پای مدل کامل Kimi-K2 با امتیاز ۹۴.۹۲٪ هست.

https://huggingface.co/RedHatAI/Kimi-K2-Instruct-quantized.w4a16

🛠️ Join @LLMEngineers Community
تا حالا به این فکر کردی که چرا شرکت‌ها همش دنبال نیروی هوش مصنوعی‌ان ولی در عین حال استخدام شدن تو این حوزه نزدیک به غیرممکنه؟ 🤔

قضیه یه دور باطله که بهش میگن پارادوکس تجربه: شرکت‌ها برای موقعیت‌های شغلیِ به‌اصطلاح «پایین‌رده» هم سابقه کار مرتبط می‌خوان؛ در حالی که تا وقتی استخدام نشی، نمی‌تونی اون سابقه رو به دست بیاری!

این مشکل اصلی‌ترین مانع برای ورود به حوزه AI/ML هست، حتی بزرگ‌تر از چالش‌های فنی. اما دلایل دیگه‌ای هم کار رو سخت‌تر می‌کنه:

🔹 شکاف فنی عمیق: یاد گرفتن ریاضیات (جبر خطی، آمار) و ابزارهایی مثل TensorFlow و PyTorch واقعاً زمان‌بره و خیلی‌ها رو وسط راه دلسرد می‌کنه.

🔹 ساخت پورتفولیو: دیگه پروژه‌های دانشگاهی کافی نیست. باید پروژه‌هایی بسازی که یه مشکل واقعی رو حل کنن و ارزش تجاری داشته باشن؛ از جمع‌آوری دیتا تا دیپلوی کردن مدل.

🔹 رقابت سنگین: فقط تو نیستی که می‌خوای وارد این حوزه بشی. داری با فارغ‌التحصیل‌های دکترا و مهندس‌های باتجربه‌ای رقابت می‌کنی که اونا هم دنبال همین موقعیت‌ها هستن.

🔹 پیشرفت سرسام‌آور: هر هفته ابزار و مقاله‌ٔ جدیدی میاد. هم باید مبانی رو محکم یاد بگیری و هم از آخرین ترندها عقب نمونی که خودش خیلی فرسایشیه.

💡 به نظرت بهترین راه برای دور زدن این پارادوکس چیه؟ مشارکت تو پروژه‌های اوپن‌سورس؟ یا شاید پیدا کردن یه کارآموزی هرچند کوچیک؟

منبع

🛠️ Join @LLMEngineers Community
فرهنگ کار کردن تو OpenAI، یعنی همون شرکت سازنده ChatGPT، واقعاً چه شکلیه؟

یکی از کارمندای سابق‌شون که تازه از شرکت اومده بیرون، یه روایت دست‌اول و بدون سانسور از فرهنگ داخلی‌شون نوشته. خلاصه‌ش اینه که اونجا یه دنیای عجیب و غریبه: ترکیبی از سرعت یه استارتاپ کوچیک با جاه‌طلبی‌های دیوانه‌وار و فشار رقابت جهانی.

چند تا نکتهٔ جالب از داخل این شرکت:

🔹 ایمیل مرده! اونجا ایمیل تقریباً وجود نداره و همه‌چیز، تاکید می‌کنم همه‌چیز، روی Slack می‌چرخه. اگه حواست نباشه، غرق نوتیفیکیشن می‌شی.

🔹 اجازه نگیر، بساز. فرهنگ‌شون به شدت از پایین به بالاست. یه ایدهٔ خوب داشته باشی، لازم نیست از کسی اجازه بگیری، فقط شروع می‌کنی به ساختنش! برای همین چند تا تیم مختلف ممکنه همزمان روی یه ایدهٔ مشابه کار کنن.

🔹 سریع و بی‌قرار. شرکت با اینکه خیلی بزرگ شده، ولی مثل قایق تندرو جهت عوض می‌کنه. برخلاف غول‌هایی مثل گوگل، منتظر برنامه‌ریزی فصلی و جلسه‌های طولانی نمی‌مونن.

🔹 رازدارتر از چیزی که فکرشو بکنی. به خاطر توجه بیش از حد رسانه‌ها، به شدت مخفی‌کارن. نویسنده می‌گه بعضی وقتا خبرهای جدید رو اول تو توییتر می‌دیده بعد داخل شرکت می‌شنیده!

💡 جالبه که نویسنده می‌گه مسابقه برای رسیدن به AGI الان یه رقابت سه‌جانبه بین OpenAI، گوگل و انتروپیکه. به نظرتون کدوم‌شون با این فرهنگ‌های کاری متفاوت زودتر به مقصد می‌رسه؟ 🤔

منبع

🛠 Join @LLMEngineers Community
تیم Unsloth یه ویدیوی آموزشی کامل و جمع‌وجور منتشر کرده که خیلی خلاصه و بدون پیچیدگی می‌ری سر اصل مطلب و یاد می‌گیری که:

🔹 چطور مدل و روش آموزش مناسب (مثل LoRA) رو انتخاب کنی.
🔹 چطور دیتاست و تمپلیتِ چت مخصوص خودت رو بسازی.
🔹 چطور با نو‌ت‌بوک‌های خود Unsloth مدل رو عملاً آموزش بدی.
🔹 و در نهایت، چطور خروجی رو با ابزارهایی مثل Ollama و llama.cpp اجرا کنی.

لینک ویدیو

🛠 Join @LLMEngineers Community
یه نوت‌بوک آموزشی خفن از طرف یکی از کارکنان Hugging Face منتشر شده که قدم‌به‌قدم یاد می‌ده چطور می‌شه مدل جدید Gemma3n رو روی ترکیبی از تصویر، صدا و متن فاین-تیون (fine-tune) کرد.

این کار قبلاً خیلی سنگین بود، ولی این نوت‌بوک با چندتا ترفند این کار رو راحت کرده:

🔹 برای سخت‌افزار مناسب: کل فرایند طوری طراحی شده که روی یه GPU A100 توی گوگل کولب (با کمتر از ۴۰ گیگابایت VRAM) هم اجرا بشه.
🔹 تکنیک‌های بهینه: برای سبک‌سازی، از LoRA، نمونه‌برداری مجدد صدا (audio resampling) و کاهش کیفیت ویدیو (video downsampling) استفاده می‌کنه.
🔹 هدفش آموزشه: این نوت‌بوک بیشتر جنبهٔ آموزشی داره و بهتون نشون می‌ده چطور با چند نوع ورودی مختلف (صدا، تصویر، متن) کار کنید.
🔹 مدل اصلی: جدیدترین مدل چندوجهی گوگل، یعنی Gemma3n، که برای همین کارها ساخته شده.

لینک کولب

🛠 Join @LLMEngineers Community
تاحالا فکر کردین چرا آپدیت کردن وزن‌های یه مدل بزرگ انقدر پیچیده‌ست؟ یه تیم از MIT یه ایدهٔ قدیمی ولی جالب رو زنده کردن که شاید جواب همین سؤال باشه.

قضیه اینه که گرادیان‌ها و وزن‌های مدل یه جورایی دو تا زبون مختلف حرف می‌زنن و نمی‌شه همین‌طوری گرادیان رو از وزن کم کرد. این تیم یه چارچوب نظری به اسم «دوگانگی ماژولار» (Modular Duality) ساختن که مثل یه مترجم بین این دو تا عمل می‌کنه.

این روش جدید چطوری کار می‌کنه و چرا مهمه؟
🔹 برای هر لایه از شبکه (مثل Linear یا Conv2D) یه «نقشه»ی ریاضی می‌سازه تا گرادیان‌ها رو قبل از آپدیت وزن‌ها، به فضای درست «ترجمه» کنه.
🔹 بهینه‌سازهایی (optimizers) که هم فوق‌العاده سریع هستن و هم با بزرگ شدن مدل، عملکردشون افت نمی‌کنه و مقیاس‌پذیر باقی می‌مونن.
🔹 بر اساس این تئوری، یه زبان به اسم Modula هم ساختن که طراحی این بهینه‌سازهای هوشمند رو راحت‌تر می‌کنه.
🔹 یه نسخه از این الگوریتم‌ها تونسته رکورد سرعت آموزش مدل NanoGPT رو بشکنه!

خلاصه این کار یه دید عمیق‌تر و اصولی‌تر برای ساختن نسل بعدی Optimizerهاست که می‌تونه آموزش مدل‌های غول‌پیکر رو خیلی بهینه‌تر کنه.

paper
docs
code
یه خبر جالب، هاگینگ‌فیس جدیداً یه ربات کوچولوی رومیزی و بامزه به اسم Reachy Mini رو معرفی کرده که فقط تو پنج روز اول، یک میلیون دلار فروش داشته!

قضیه اینه که این ربات قرار نیست مثل ربات‌های دیگه کارهای خونه رو انجام بده. توماس ولف، یکی از بنیان‌گذارهای هاگینگ‌فیس، میگه Reachy Mini بیشتر شبیه یه «آیفون خالی» می‌مونه؛ یه دیوایس هک‌پذیر و سرگرم‌کننده که هر کسی بتونه اپ‌های خودش رو براش بنویسه و با مدل‌های AI به‌صورت لوکال ور بره.

ایده‌شون اینه که با یه محصول دوست‌داشتنی و نسبتاً ارزون، پای ربات‌های اپن‌سورس رو به خونه‌ها باز کنن و مردم با حضورشون احساس راحتی کنن. یه جورایی دارن بازار ربات‌های خانگی رو از سمت سرگرمی و دولوپرهای کنجکاو هدف می‌گیرن، نه کارهای خدماتی. باید دید این استراتژی در آینده چطور جواب می‌ده. 🤖

متن کامل مصاحبه

🛠 Join @LLMEngineers Community
احتمالاً مازیار پناهی رو می‌شناسید. یکی از چهره‌های شناخته‌شده‌ی هاگینگ فیس که سال‌هاست تو حوزه‌ی LMM ها کار می‌کنه و همیشه هم پای ثابت اوپن‌سورس بوده. این رفیقمون که تو پاریس مستقره، امروز یه حرکت زد و پروژه‌ی OpenMed رو ریلیز کرد.

قضیه چیه؟ تا حالا گیر مدلای پولی حوزه‌ی سلامت افتادین؟ که نه می‌دونی پشت صحنه چی می‌گذره، نه راحت می‌تونی ازش استفاده کنی. OpenMed اومده این بازی رو عوض کنه.

چند تا نکته‌ی کلیدی که این حرکت رو خفن می‌کنه:

* کمیّت و کیفیت با هم: +۳۸۰ تا مدل NER پزشکی رو رایگان و با لایسنس Apache 2.0 در دسترس گذاشته. اینا فقط رایگان نیستن؛ بنچمارک‌ها نشون می‌ده که از خیلی از رقبای پولی مثل Spark NLP هم بهترن. مثلاً روی دیتاست Gellus اختلاف F1 score با نسخه‌ی پولی +۳۶٪ بوده! 📊
* پروداکشن-رِدی و منعطف: مدل‌ها از سایز ۱۰۹ میلیون پارامتر تا نزدیک ۶۰۰ میلیون هستن. یعنی هم برای تسک‌های سبک و سریع، هم برای کارهای سنگین و دقیق، گزینه روی میزه. دردسر دیپلوی هم نداره.
* پوشش جامع: تقریباً هر دامنه‌ی پزشکی، از تشخیص دارو و بیماری گرفته تا ژن، آناتومی و آنکولوژی رو پوشش می‌ده. یه جعبه‌ابزار کامل برای هرکی تو این حوزه کار می‌کنه.

چرا مهمه؟ چون داره دسترسی به ابزارهای SOTA توی یه حوزه‌ی حساس و گرون مثل پزشکی رو دموکراتیک می‌کنه. این یعنی شتاب گرفتن تحقیق و توسعه برای استارتاپ‌ها و تیم‌های کوچیک‌تر.

البته باید دید در عمل و روی دیتاهای real-world چالش‌هاش چیه، ولی قدم اولش واقعاً خوبه. مدل‌ها رو می‌تونید از صفحه‌ی OpenMed چک کنید.

منبع

🛠 Join @LLMEngineers Community
🎯 100 Days of Reading LLM Papers Challenge

Day 2: Artificial Neural Networks for Beginners

🔗 https://arxiv.org/pdf/cs/0308031

Additional Resources:
📄 Article: Neural Network Fundamentals
🎬 Playlist: Neural networks, 3Blue1Brown
🎬 Playlist: Neural Networks: Zero to Hero, Andrej Karpathy



🛠 @LLMEngineers
سریع‌تر یا دقیق‌تر؟ بین Kimi K2 و Grok-4 ⚔️

خلاصه بگم: طبق بنچمارک Stagehand که برای اتوماسیون مرورگره، مدل چینی Kimi K2 با اینکه دقتش *فقط کمی* از Grok-4 پایین‌تره، سرعت Inferenceـش (روی LPU های Groq البته) هفت برابر بیشتره. یعنی برای تسک‌های real-time یا جاهایی که latency مهمه، Kimi یه غول به حساب میاد.

این کندی Grok-4 اتفاقی نیست. خود ایلان ماسک هم توییت زده و اعتراف کرده که مدلشون زیادی به مسائل ساده گیر می‌ده. انگار داره با هر پرامپتی مثل یه سوال سخت فلسفی برخورد می‌کنه.

Grok 4 treats everything as a hard question. We are hoping to fix that today." — Elon Musk


این یعنی تیم xAI از مشکل خبر داره و احتمالاً یه آپدیت برای بهینه‌سازی مدل تو راهه. در مقابل، Kimi K2 با ۱ تریلیون پارامتر (البته اگه این ادعا دقیق باشه) توی one-shot coding فوق‌العاده عمل می‌کنه. اگه ضعف Kimi توی reasoning اذیتت می‌کنه، می‌تونی با ابزارهایی مثل mcp-reasoner بهش قابلیت استدلال تزریق کنین.

---
🛠 Join @LLMEngineers Community
میسترال دو تا مدل صوتی speech understanding ریلیز کرده: Voxtral Small و Voxtral Mini. 🎙

یه نسخه ۲۴ میلیارد پارامتری برای پروداکشن و یه ۳ میلیاردی جمع‌وجور برای دیپلوی لوکال و روی دستگاه‌های Edge. هر دو هم اوپن‌سورس شدن که دمشون گرم.

ادعاشون اینه که Whisper large-v3 و Gemini 2.5 Flash رو راحت می‌زنن. روی کاغذ که قوی به نظر می‌رسه، ولی خب... می‌دونیم این بنچمارک‌ها داستان دارن.

برای اجرای لوکال پیشنهاد خودشون `vLLM`ئه.

یه ایرادی که گزارش شده اینه که نمی‌شه مدل رو قانع کرد که به دستورات داخل صوت گوش نده. مثلاً اگه فایل صوتی بگه «یه جوک بگو» و سیستم پرامپت بگه «فقط ترنسکرایب کن»، مدل باز هم جوک تحویلت می‌ده. 🤔

راه حل عملی: میسترال یه API جدا فقط برای ترنسکریپشن داده بیرون. اون نقطه ضعف instruction following رو نداره و فایل هم مستقیم قبول می‌کنه. پس اگه ترنسکریپت تمیز می‌خوای، برو سراغ اون یکی.

لینک دانلود مدل‌ها از هاگینگ‌فیس:
[Small]
[Mini]

🛠 Join @LLMEngineers Community
اپل توی یه مقاله‌ی جدید یه متد داده به اسم BETR که به جای اینکه برای ترین دنبال دیتای با کیفیت بگرده، میاد دیتای pretraining رو مستقیماً بر اساس شباهت به بنچمارک‌های هدف انتخاب می‌کنه.

ایده‌ش ساده‌ست: امبدینگ بنچمارک‌ها و نمونه‌ای از دیتاست اصلی رو می‌گیره، شباهت‌شون رو حساب می‌کنه و بعد یه مدل سبک (FastText) رو ترین می‌کنه که یاد بگیره کدوم داکیومنت‌ها به درد تسک‌های هدف می‌خورن. نتیجه؟ ۲ تا ۴.۷ برابر بهبود در بهره‌وری محاسباتی (compute multiplier) نسبت به بیس‌لاین‌های قوی مثل DCLM.

اما نکته‌ی مهم‌ترش اینه: اگه مدل رو فقط برای بنچمارک‌های مشخصی بهینه کنی (مثلاً Core benchmarks)، توی همون‌ها خفن می‌شه ولی روی تسک‌های ندیده، ضعیف عمل می‌کنه. دقیقاً مصداق قانون گودهارت. 🧠

«بنچمارک‌ها فقط پیشرفت رو اندازه نمی‌گیرن، بلکه به طور ضمنی اون رو هدایت می‌کنن.»


مقاله اصلی (BETR)
مقاله بیس‌لاین (DCLM)

🛠 Join @LLMEngineers Community
تیم GLM مدل GLM-4.1V-Thinking رو ریلیز کرده یه VLM که تمرکزش روی multimodal reasoning هست و برای این کار از یه تکنیک جالب استفاده کرده. 🧠

اصل داستان Reinforcement Learning with Curriculum Sampling یا RLCS هست . یعنی چی؟ یعنی مدل رو اول با مسئله‌های آسونتر تمرین می‌دن کم کم مدل که بهتر شد مسئله هارو سخت تر میکنن.
نتیجه‌ش این شده که مدل ۹ میلیارد پارامتری‌شون روی بنچمارک‌ها داره Qwen2.5-VL-72B رو می‌زنه و حتی توی بعضی تسک‌های سخت مثل استدلال علمی (STEM) با GPT-4o رقابت می‌کنه.

نکته‌ی کلیدی که خود تیم هم بهش اعتراف کرده اینه:
یک سیستم پاداش قوی و دقیق برای RL چند-دامنه حیاتی است.

یه reward ضعیف برای یه تسک می‌تونه کل ترینینگ رو ببره هوا.

البته خودشون هم می‌گن بی‌نقص نیست. گاهی جواب درسته ولی مسیر استدلال چرنده. چون سیستم پاداش فعلاً فقط به جواب نهایی نگاه می‌کنه، نه به «چطوری» بهش رسیدی. با این حال، یه قدم رو به جلوی خیلی مهمه، مخصوصاً که اپن‌سورس هم هست.

🤗 وزن مدل
📃 مقاله


🛠 Join @LLMEngineers Community
خب، خبر داغ از دنیای اپن‌سورس: دیتاست Nous Hermes 3 ریلیز شده و چند ساعت پیش، خود مدیرعامل هاگینگ‌فیس تویبت زد که شده رتبه‌ی یک ترندینگ توی دیتاست ها.

این دیتاست یه مجموعه‌ی غول‌پیکر با نزدیک به یک میلیون مکالمه‌ی سینتتیک و بدون سانسور که تیم Nous Research برای فاین‌تیون خانواده‌ی Hermes 3 روی Llama 3.1 جمع کرده. تمرکز اصلی روی reasoning، کدنویسی، tool-use و دنبال کردن دقیق دستوراته.

> به قول یکی از سازنده‌هاش، هدفشون «رسیدن به پرفرمنس SOTA بدون سانسور» بوده و به نظر می‌رسه به هدفشون رسیدن.

این دیتاست برای Supervised Fine-Tuning (SFT) عالیه. فقط حواست باشه که بایاس‌های مدل معلم (احتمالاً GPT-4o) ممکنه توش باشه.
دیتاست روی هاگینگ‌فیس موجوده میتونید بررسی و استفاده کنین.

---
🛠 Join @LLMEngineers Community
هفت سال از تولد اولین GPT گذشته و با اینکه کلی مدل خفن مثل DeepSeek-V3 و Llama 4 اومدن، ولی تهِش همشون هنوز یه شباهت‌هایی به جدّ بزرگشون، ترنسفورمر، دارن. سباستین راشکا تو مقاله‌ی جدیدش کالبدشکافی کرده که این مدل‌های مدرن واقعاً چه فرقی با هم دارن.

به قول خودش
شاید تعجب‌آوره که این مدل‌ها از نظر ساختاری چقدر هنوز شبیه به هم هستن.

اما این بهینه‌سازی‌های کوچیک، دنیایی از تفاوت رو رقم می‌زنن. 🧠

مهم‌ترین ترند امسال، بی‌شک Mixture-of-Experts (MoE) هست. به جای اینکه کل مدل رو برای هر توکن لود کنی، فقط چندتا «متخصص» (expert) رو فعال می‌کنی. اینجوری مدل‌هایی مثل DeepSeek-V3 (با ۶۷۱ میلیارد پارامتر) موقع inference فقط ۳۷ میلیارد پارامتر فعال دارن. کاربردش واضحه: مدل‌های غول‌پیکر با هزینه inference پایین‌تر.

توی Attention هم دعواست. DeepSeek به جای GQA (که دیگه استاندارد شده) از Multi-Head Latent Attention (MLA) استفاده می‌کنه. MLA میاد Key و Value رو فشرده می‌کنه تا توی KV cache جای کمتری بگیره؛ یک تیر و دو نشون. از اون‌ور Gemma 3 با Sliding Window Attention حافظه‌ی KV cache رو بهینه می‌کنه. یعنی هر توکن فقط به همسایه‌های نزدیکش نگاه می‌کنه.

یک سری هم رفتن سراغ Normalization. مدل OLMo 2 با جابجایی RMSNorm و اضافه کردن QK-Norm (نرمالایز کردن Query و Key قبل از RoPE) تونسته پایداری ترینینگ رو بالا ببره. حتی SmolLM3 هم پاشو فراتر گذاشته و با NoPE کلاً positional encoding رو حذف کرده و به causal attention mask اعتماد کرده تا مدل ترتیب رو بفهمه.

و در آخر هم Kimi K2 که ترکونده، از نظر معماری تقریباً همون DeepSeek-V3ـه که بزرگ‌ترش کردن. خلاصه که جنگ، جنگِ بهینه‌سازیه، نه انقلاب ساختاری. 🚀

📃 مقاله The Big LLM Architecture Comparison

🛠 Join @LLMEngineers Community
اگه تو حوزه LLMها فعال باشید، حتماً متوجه شدید که موج جدیدی راه افتاده و کلمه‌ی «مهندسی کانتکست» (Context Engineering) همه‌جا شنیده می‌شه. انگار feautre engineering در دوران کلاسیک ML یا prompt engineering در ابتدای راه LLMها، حالا جاشو به این مفهوم جدید داده.

اما این فقط یه buzzword جدید برای رزومه نیست. این یه شیفت پارادایم اساسیه. ما دیگه دنبال نوشتن یه پرامپت ۵ خطی بی‌نقص نیستیم؛ داریم درباره معماری سیستم‌های داینامیک صحبت می‌کنیم که اطلاعات، ابزارها و حافظه رو به شکلی بهینه مدیریت می‌کنن تا LLM بتونه یک تسک پیچیده رو با موفقیت انجام بده.

البته صدای مخالف هم کم نیست. خیلیا می‌گن: «این که همون RAG خودمونه که لباس پلوخوری پوشیده» یا «شما مهندسای نرم‌افزار، اسم معماری سیستم رو عوض کردین و به اسم خودتون زدین». این نقدها تا حدی درسته. مفاهیمی مثل Separation of Concerns یا مدیریت state، سال‌هاست که در مهندسی نرم‌افزار وجود داره.

پس تفاوت کجاست؟ تفاوت در قلب سیستم ماست. ما دیگه با یه API یا دیتابیس deterministic سروکار نداریم. ما با یک مدل زبانی طرفیم: یک موجود غیرقطعی (non-deterministic) که تمام حافظه فعالش به یک پنجره کانتکست (Context Window) به شدت محدود خلاصه می‌شه. این محدودیت، تمام قواعد بازی رو عوض می‌کنه. مهندسی کانتکست، یعنی طراحی معماری جریان اطلاعات با در نظر گرفتن این تنگنای اساسی.

وقتی کانتکست به درستی مهندسی نشه، با پدیده‌هایی مثل Context Poisoning (یه داده غلط کل استدلال رو خراب می‌کنه) یا Context Distraction (مدل بین انبوه اطلاعات بی‌ربط گم می‌شه) مواجه می‌شیم که عملکرد ایجنت رو نابود می‌کنه.

برای مقابله با این چالش‌ها، ۴ استراتژی اصلی در حال شکل‌گیریه که هرکدوم دنیایی از تکنیک‌ها رو شامل می‌شن:

۱. نوشتن و تداوم (Write & Persist): اطلاعات نباید بی‌دلیل در کانتکست باقی بمونن. باید اون‌ها رو به صورت ساختاریافته در یک حافظه‌ی خارجی persist کرد. این کار با استفاده از یک Scratchpad برای یادداشت‌های موقت حین اجرای تسک، یا پیاده‌سازی Memory بلندمدت (مثل کاری که Reflexion یا Generative Agents کردن) انجام می‌شه. این حافظه می‌تونه یه فایل ساده، یه key-value store یا حتی یک دیتابیس وکتوری باشه.

۲. انتخاب و بازیابی (Select & Retrieve): اینجا جاییه که RAG وارد می‌شه، ولی خیلی پیشرفته‌تر از یه جستجوی ساده‌ی وکتوری. ما در مورد Agentic RAG صحبت می‌کنیم. یعنی بازیابی هوشمندانه‌ی ابزارها (Tool Selection RAG)، خاطرات مرتبط (Memory Retrieval) یا قطعه کدهای لازم برای تسک. تکنیک‌هایی مثل Hybrid Search، Re-ranking و استفاده از Knowledge Graphها برای درک روابط بین داده‌ها، اینجا نقش کلیدی بازی می‌کنن تا فقط مرتبط‌ترین اطلاعات به کانتکست تزریق بشه.

۳. فشرده‌سازی و هرس (Compress & Prune): کانتکست بی‌نهایت نیست. باید دائماً بهینه‌سازی بشه. Summarization یکی از راه‌هاست؛ از خلاصه‌سازی بازگشتی (Recursive Summarization) برای مکالمات طولانی گرفته تا استفاده از یک مدل fine-tune شده فقط برای خلاصه‌سازی خروجی ابزارها (رویکردی که Cognition AI استفاده می‌کنه). در کنارش، Pruning یا هرس کردن هم وجود داره؛ یعنی حذف هوشمندانه پیام‌های قدیمی یا اطلاعاتی که دیگه به درد نمی‌خورن.

۴. ایزوله‌سازی و پارتیشن‌بندی (Isolate & Partition): یکی از بهترین راه‌ها برای مدیریت پیچیدگی، شکستن اون به اجزای کوچکتره. معماری Multi-agent (مثل OpenAI Swarm) همین کار رو می‌کنه. هر ایجنت، کانتکست، ابزارها و حافظه‌ی ایزوله‌ی خودشو داره و فقط روی یه تخصص متمرکز می‌شه. یک رویکرد دیگه، استفاده از محیط‌های اجرایی ایزوله (Sandboxed Environments) هست. در این مدل (که HuggingFace استفاده می‌کنه)، LLM به جای فراخوانی مستقیم API، کدی رو تولید می‌کنه که در یک Sandbox اجرا می‌شه. اینطوری اشیای سنگین (مثل دیتافریم‌ها یا فایل‌های حجیم) هرگز وارد کانتکست مدل نمی‌شن و فقط نتیجه‌ی نهایی بهش برگردونده می‌شه.

نتیجه‌گیری نهایی:
مهندسی کانتکست فقط یک اسم جدید نیست، بلکه نشونه‌ی بلوغ حوزه‌ی ماست. ما از کلنجار رفتن با یک فایل `prompt.txt`، به سمت معماری پایپ‌لاین‌های پیچیده‌ی اطلاعاتی حرکت کردیم. این یعنی ساختن ایجنت‌های هوشمند، روزبه‌روز بیشتر شبیه به مهندسی سیستم‌های نرم‌افزاری پیچیده و کمتر شبیه به هنر و شهود می‌شه.

برای مطالعه عمیق‌تر، این دو مقاله فوق‌العاده‌ان:
https://rlancemartin.github.io/2025/06/23/context_engineering/
https://blog.langchain.com/the-rise-of-context-engineering/

🛠 Join @LLMEngineers Community
یه ابزار اپن‌سورس به اسم MegaParse پیدا کردم که ادعای بزرگی داره: پارس کردن هر نوع داکیومنتی بدون اینکه اطلاعاتی از دست بره. از PDF و Word گرفته تا پاورپوینت و CSV.

قسمت خفنش MegaParseVision هست. این ماژول مستقیم از مدل‌های مولتی‌مودال مثل GPT-4o و Claude 3.5 استفاده می‌کنه تا ساختار داکیومنت رو "ببینه". یعنی دیگه لازم نیست با جدول‌ها و نمودارها کشتی بگیری. خود مدل محتوا رو درک می‌کنه. تستش کردم، برای استخراج جدول از چندتا PDF سنگین واقعاً خوب جواب داد.

توی بنچمارک‌های خودشون، ابزارهای معروفی مثل unstructured و llama_parser رو با اختلاف شکست دادن. البته که بنچمارک رو خودشون منتشر کردن، ولی همین که جرئت کردن این مقایسه رو بذارن یعنی به کارشون ایمان دارن.

ابزار هنوز کاملاً پایدار نیست و بخش‌هایی مثل خروجی ساختاریافته (Structured Output) هنوز در حال توسعه‌ست، ولی پتانسیلش بالاست.

💻 https://github.com/QuivrHQ/MegaParse

🛠 Join @LLMEngineers Community
این عکس اومده اکتیویشن فانکشن‌ها رو به رقص تشبیه کرده. ایده‌ش برای یه مبتدی بامزه‌ست؛ از Step که رباتیه تا Sigmoid که نرمه.
فانکشن‌های Sigmoid و Tanh، با اون مشکل معروف vanishing gradients، رسماً مدل‌های عمیق رو فلج می‌کنن. امروز فقط ته یه شبکه برای طبقه‌بندی باینری یا توی گیت‌های یک RNN کلاسیک پیداشون می‌کنی. خودکشیه اگه توی لایه‌های اصلی بذاریشون.

اصل کار هنوز با ReLU و فک و فامیلشه (Leaky, PReLU). سریع و بی‌دردسر. تنها ریسکش اینه که نورون‌ها بمیرن (Dying ReLU Problem) و دیگه یاد نگیرن. برای اکثر CNNها هنوزم انتخاب اوله.

اما تو دنیای LLMها، بازی فرق کرده. اینجا GeLU و Swish و به‌خصوص نسخه‌های ترکیبی مثل SwiGLU حکمرانی می‌کنن. اینا ورژن‌های اسموث و پیوسته‌ی ReLU هستن که به گرادیان اجازه‌ی جریان بهتری می‌دن و برای معماری Transformer بهینه‌ترن. Llama 3 و DeepSeek و Qwen هم از همین SwiGLU استفاده می‌کنه که نشون می‌ده چقدر قضیه جدیه. البته گوگل با Gemma یه ذره متفاوت عمل کرده و از GeGLU استفاده می‌کنه که همین منطق رو با GELU پیاده کرده.


🛠 Join @LLMEngineers Community
بنظر میاد هنوز کلی راه مونده تا AGI.

فرانسوا شوله (François Chollet)، نسخه جدید بنچمارک ARC-AGI-3 رو منتشر کرده. هدف این بنچمارک تست AGI واقعیه، نه حفظیات و الگوهای تکراری.

تفاوت بزرگ این نسخه با قبل اینه که دیگه استاتیک نیست؛ تبدیل شده به چندتا مینی‌گیم تعاملی. ایجنت AI باید خودش با آزمون و خطا قوانین بازی رو کشف کنه و هدف رو بفهمه. دقیقاً مثل کاری که ما آدما وقتی با یه بازی جدید روبرو می‌شیم انجام می‌دیم.

نتیجه؟ فاجعه‌بار برای AIها! آدما بازی‌ها رو تو چند دقیقه حل می‌کنن، ولی تا این لحظه هیچ مدل AI نتونسته حتی یه امتیاز بگیره. این نشون می‌ده سیستم‌های فعلی چقدر تو استدلال انتزاعی ضعیفن و بیشتر یه ماشین پیشرفته‌ی تطبیق الگو هستن تا یه موجود متفکر.

البته HuggingFace یه مسابقه با جایزه ۱۰ هزار دلاری گذاشته برای کسی که بتونه بهترین ایجنت رو برای این بازی‌ها بسازه. اگه کسی از بچه‌ها پایه‌ست، فرصت خوبیه خودشو به چالش بکشه.

📃 https://arcprize.org/

🛠 Join @LLMEngineers Community