LLM Engineers
🎯 100 Days of Reading LLM Papers Challenge Day 1: A Comprehensive Overview of Large Language Models 🔗 https://arxiv.org/abs/2307.06435 Additional Resources: ⦁ 📄 Article: Large Language Models - An Up‑to‑Date Pocket Guide ⦁ 📄 Article: Understanding Language…
دوستان گفتن که مقاله طولانیه و فرصت نکردن تموم کنن
به همین خاطر فردا رو هم به همین مقاله اختصاص میدیم
البته یه خلاصه ازش همین امشب منتشر میکنیم برای کسایی که وقت نمیکنن همشو بخونن خلاصه رو بخونن کافیه
به همین خاطر فردا رو هم به همین مقاله اختصاص میدیم
البته یه خلاصه ازش همین امشب منتشر میکنیم برای کسایی که وقت نمیکنن همشو بخونن خلاصه رو بخونن کافیه
LLM Engineers
🎯 100 Days of Reading LLM Papers Challenge Day 1: A Comprehensive Overview of Large Language Models 🔗 https://arxiv.org/abs/2307.06435 Additional Resources: ⦁ 📄 Article: Large Language Models - An Up‑to‑Date Pocket Guide ⦁ 📄 Article: Understanding Language…
خلاصه مقاله برای دوستانی که وقت ندارن یا حوصله خوندن مقاله کامل ندارن، اینو با دقت بخونن کفایت میکنه :
https://mshojaei77.github.io/Blog/llms_intro.html
https://mshojaei77.github.io/Blog/llms_intro.html
LLMs: From Foundations to Production
Intro to LLMs
A comprehensive tutorial for mastering Large Language Models (LLMs) – from core mathematics and computing principles to production deployment, advanced applications, and emerging research trends.
LLM Engineers
با Unsloth الان میتونید Kimi K2 رو به صورت لوکال با Dynamic 1.8-bit GGUF اجرا کنید! کل مدل 1.1TB رو به فقط 245GB کاهش دادن(۸۰٪ کاهش حجم). Guide: docs.unsloth.ai/basics/kimi-k2
یه کوانتایز دیگه از Kimi K2 منتشر شده
این یک مدل کوانتایزشدهی ۴ بیتی است (وزنهای کوچک اما اکتیویشنها هنوز با دقت ۱۶ بیت کار میکنند) که با کمترین افت کیفیت، عملکرد خوبی نشون دادن طبق readme توی بنچمارک GSM8k 5-shot، امتیاز ۹۴.۸۴٪ دقت را کسب کرده که تقریباً پابهپای مدل کامل Kimi-K2 با امتیاز ۹۴.۹۲٪ هست.
https://huggingface.co/RedHatAI/Kimi-K2-Instruct-quantized.w4a16
🛠️ Join @LLMEngineers Community
Kimi-K2-Instruct-quantized.w4a16این یک مدل کوانتایزشدهی ۴ بیتی است (وزنهای کوچک اما اکتیویشنها هنوز با دقت ۱۶ بیت کار میکنند) که با کمترین افت کیفیت، عملکرد خوبی نشون دادن طبق readme توی بنچمارک GSM8k 5-shot، امتیاز ۹۴.۸۴٪ دقت را کسب کرده که تقریباً پابهپای مدل کامل Kimi-K2 با امتیاز ۹۴.۹۲٪ هست.
https://huggingface.co/RedHatAI/Kimi-K2-Instruct-quantized.w4a16
🛠️ Join @LLMEngineers Community
huggingface.co
RedHatAI/Kimi-K2-Instruct-quantized.w4a16 · Hugging Face
This model was obtained by quantizing weights of moonshotai/Kimi-K2-Instruct to INT4 data type.
تا حالا به این فکر کردی که چرا شرکتها همش دنبال نیروی هوش مصنوعیان ولی در عین حال استخدام شدن تو این حوزه نزدیک به غیرممکنه؟ 🤔
قضیه یه دور باطله که بهش میگن پارادوکس تجربه: شرکتها برای موقعیتهای شغلیِ بهاصطلاح «پایینرده» هم سابقه کار مرتبط میخوان؛ در حالی که تا وقتی استخدام نشی، نمیتونی اون سابقه رو به دست بیاری!
این مشکل اصلیترین مانع برای ورود به حوزه AI/ML هست، حتی بزرگتر از چالشهای فنی. اما دلایل دیگهای هم کار رو سختتر میکنه:
🔹 شکاف فنی عمیق: یاد گرفتن ریاضیات (جبر خطی، آمار) و ابزارهایی مثل TensorFlow و PyTorch واقعاً زمانبره و خیلیها رو وسط راه دلسرد میکنه.
🔹 ساخت پورتفولیو: دیگه پروژههای دانشگاهی کافی نیست. باید پروژههایی بسازی که یه مشکل واقعی رو حل کنن و ارزش تجاری داشته باشن؛ از جمعآوری دیتا تا دیپلوی کردن مدل.
🔹 رقابت سنگین: فقط تو نیستی که میخوای وارد این حوزه بشی. داری با فارغالتحصیلهای دکترا و مهندسهای باتجربهای رقابت میکنی که اونا هم دنبال همین موقعیتها هستن.
🔹 پیشرفت سرسامآور: هر هفته ابزار و مقالهٔ جدیدی میاد. هم باید مبانی رو محکم یاد بگیری و هم از آخرین ترندها عقب نمونی که خودش خیلی فرسایشیه.
💡 به نظرت بهترین راه برای دور زدن این پارادوکس چیه؟ مشارکت تو پروژههای اوپنسورس؟ یا شاید پیدا کردن یه کارآموزی هرچند کوچیک؟
منبع
🛠️ Join @LLMEngineers Community
قضیه یه دور باطله که بهش میگن پارادوکس تجربه: شرکتها برای موقعیتهای شغلیِ بهاصطلاح «پایینرده» هم سابقه کار مرتبط میخوان؛ در حالی که تا وقتی استخدام نشی، نمیتونی اون سابقه رو به دست بیاری!
این مشکل اصلیترین مانع برای ورود به حوزه AI/ML هست، حتی بزرگتر از چالشهای فنی. اما دلایل دیگهای هم کار رو سختتر میکنه:
🔹 شکاف فنی عمیق: یاد گرفتن ریاضیات (جبر خطی، آمار) و ابزارهایی مثل TensorFlow و PyTorch واقعاً زمانبره و خیلیها رو وسط راه دلسرد میکنه.
🔹 ساخت پورتفولیو: دیگه پروژههای دانشگاهی کافی نیست. باید پروژههایی بسازی که یه مشکل واقعی رو حل کنن و ارزش تجاری داشته باشن؛ از جمعآوری دیتا تا دیپلوی کردن مدل.
🔹 رقابت سنگین: فقط تو نیستی که میخوای وارد این حوزه بشی. داری با فارغالتحصیلهای دکترا و مهندسهای باتجربهای رقابت میکنی که اونا هم دنبال همین موقعیتها هستن.
🔹 پیشرفت سرسامآور: هر هفته ابزار و مقالهٔ جدیدی میاد. هم باید مبانی رو محکم یاد بگیری و هم از آخرین ترندها عقب نمونی که خودش خیلی فرسایشیه.
💡 به نظرت بهترین راه برای دور زدن این پارادوکس چیه؟ مشارکت تو پروژههای اوپنسورس؟ یا شاید پیدا کردن یه کارآموزی هرچند کوچیک؟
منبع
🛠️ Join @LLMEngineers Community
Medium
The Experience Paradox: The Harsh Reality of AI/ML Career Transitions
TL;DR: Successful transitions are still possible, but that demand persistence, planning and strategy.
فرهنگ کار کردن تو OpenAI، یعنی همون شرکت سازنده ChatGPT، واقعاً چه شکلیه؟
یکی از کارمندای سابقشون که تازه از شرکت اومده بیرون، یه روایت دستاول و بدون سانسور از فرهنگ داخلیشون نوشته. خلاصهش اینه که اونجا یه دنیای عجیب و غریبه: ترکیبی از سرعت یه استارتاپ کوچیک با جاهطلبیهای دیوانهوار و فشار رقابت جهانی.
چند تا نکتهٔ جالب از داخل این شرکت:
🔹 ایمیل مرده! اونجا ایمیل تقریباً وجود نداره و همهچیز، تاکید میکنم همهچیز، روی Slack میچرخه. اگه حواست نباشه، غرق نوتیفیکیشن میشی.
🔹 اجازه نگیر، بساز. فرهنگشون به شدت از پایین به بالاست. یه ایدهٔ خوب داشته باشی، لازم نیست از کسی اجازه بگیری، فقط شروع میکنی به ساختنش! برای همین چند تا تیم مختلف ممکنه همزمان روی یه ایدهٔ مشابه کار کنن.
🔹 سریع و بیقرار. شرکت با اینکه خیلی بزرگ شده، ولی مثل قایق تندرو جهت عوض میکنه. برخلاف غولهایی مثل گوگل، منتظر برنامهریزی فصلی و جلسههای طولانی نمیمونن.
🔹 رازدارتر از چیزی که فکرشو بکنی. به خاطر توجه بیش از حد رسانهها، به شدت مخفیکارن. نویسنده میگه بعضی وقتا خبرهای جدید رو اول تو توییتر میدیده بعد داخل شرکت میشنیده!
💡 جالبه که نویسنده میگه مسابقه برای رسیدن به AGI الان یه رقابت سهجانبه بین OpenAI، گوگل و انتروپیکه. به نظرتون کدومشون با این فرهنگهای کاری متفاوت زودتر به مقصد میرسه؟ 🤔
منبع
🛠 Join @LLMEngineers Community
یکی از کارمندای سابقشون که تازه از شرکت اومده بیرون، یه روایت دستاول و بدون سانسور از فرهنگ داخلیشون نوشته. خلاصهش اینه که اونجا یه دنیای عجیب و غریبه: ترکیبی از سرعت یه استارتاپ کوچیک با جاهطلبیهای دیوانهوار و فشار رقابت جهانی.
چند تا نکتهٔ جالب از داخل این شرکت:
🔹 ایمیل مرده! اونجا ایمیل تقریباً وجود نداره و همهچیز، تاکید میکنم همهچیز، روی Slack میچرخه. اگه حواست نباشه، غرق نوتیفیکیشن میشی.
🔹 اجازه نگیر، بساز. فرهنگشون به شدت از پایین به بالاست. یه ایدهٔ خوب داشته باشی، لازم نیست از کسی اجازه بگیری، فقط شروع میکنی به ساختنش! برای همین چند تا تیم مختلف ممکنه همزمان روی یه ایدهٔ مشابه کار کنن.
🔹 سریع و بیقرار. شرکت با اینکه خیلی بزرگ شده، ولی مثل قایق تندرو جهت عوض میکنه. برخلاف غولهایی مثل گوگل، منتظر برنامهریزی فصلی و جلسههای طولانی نمیمونن.
🔹 رازدارتر از چیزی که فکرشو بکنی. به خاطر توجه بیش از حد رسانهها، به شدت مخفیکارن. نویسنده میگه بعضی وقتا خبرهای جدید رو اول تو توییتر میدیده بعد داخل شرکت میشنیده!
💡 جالبه که نویسنده میگه مسابقه برای رسیدن به AGI الان یه رقابت سهجانبه بین OpenAI، گوگل و انتروپیکه. به نظرتون کدومشون با این فرهنگهای کاری متفاوت زودتر به مقصد میرسه؟ 🤔
منبع
🛠 Join @LLMEngineers Community
تیم Unsloth یه ویدیوی آموزشی کامل و جمعوجور منتشر کرده که خیلی خلاصه و بدون پیچیدگی میری سر اصل مطلب و یاد میگیری که:
🔹 چطور مدل و روش آموزش مناسب (مثل LoRA) رو انتخاب کنی.
🔹 چطور دیتاست و تمپلیتِ چت مخصوص خودت رو بسازی.
🔹 چطور با نوتبوکهای خود Unsloth مدل رو عملاً آموزش بدی.
🔹 و در نهایت، چطور خروجی رو با ابزارهایی مثل Ollama و llama.cpp اجرا کنی.
لینک ویدیو
🛠 Join @LLMEngineers Community
🔹 چطور مدل و روش آموزش مناسب (مثل LoRA) رو انتخاب کنی.
🔹 چطور دیتاست و تمپلیتِ چت مخصوص خودت رو بسازی.
🔹 چطور با نوتبوکهای خود Unsloth مدل رو عملاً آموزش بدی.
🔹 و در نهایت، چطور خروجی رو با ابزارهایی مثل Ollama و llama.cpp اجرا کنی.
لینک ویدیو
🛠 Join @LLMEngineers Community
YouTube
How to Fine-tune LLMs with Unsloth: Complete Guide
In this guide, you'll learn how to fine-tune your own LLMs using Unsloth. Fine-tuning Large Language Models with LoRa and QLoRA has become popular due to its efficiency and low resource requirements. This step-by-step guide covers everything from how OpenAI…
یه نوتبوک آموزشی خفن از طرف یکی از کارکنان Hugging Face منتشر شده که قدمبهقدم یاد میده چطور میشه مدل جدید
این کار قبلاً خیلی سنگین بود، ولی این نوتبوک با چندتا ترفند این کار رو راحت کرده:
🔹 برای سختافزار مناسب: کل فرایند طوری طراحی شده که روی یه GPU A100 توی گوگل کولب (با کمتر از ۴۰ گیگابایت VRAM) هم اجرا بشه.
🔹 تکنیکهای بهینه: برای سبکسازی، از LoRA، نمونهبرداری مجدد صدا (audio resampling) و کاهش کیفیت ویدیو (video downsampling) استفاده میکنه.
🔹 هدفش آموزشه: این نوتبوک بیشتر جنبهٔ آموزشی داره و بهتون نشون میده چطور با چند نوع ورودی مختلف (صدا، تصویر، متن) کار کنید.
🔹 مدل اصلی: جدیدترین مدل چندوجهی گوگل، یعنی Gemma3n، که برای همین کارها ساخته شده.
لینک کولب
🛠 Join @LLMEngineers Community
Gemma3n رو روی ترکیبی از تصویر، صدا و متن فاین-تیون (fine-tune) کرد.این کار قبلاً خیلی سنگین بود، ولی این نوتبوک با چندتا ترفند این کار رو راحت کرده:
🔹 برای سختافزار مناسب: کل فرایند طوری طراحی شده که روی یه GPU A100 توی گوگل کولب (با کمتر از ۴۰ گیگابایت VRAM) هم اجرا بشه.
🔹 تکنیکهای بهینه: برای سبکسازی، از LoRA، نمونهبرداری مجدد صدا (audio resampling) و کاهش کیفیت ویدیو (video downsampling) استفاده میکنه.
🔹 هدفش آموزشه: این نوتبوک بیشتر جنبهٔ آموزشی داره و بهتون نشون میده چطور با چند نوع ورودی مختلف (صدا، تصویر، متن) کار کنید.
🔹 مدل اصلی: جدیدترین مدل چندوجهی گوگل، یعنی Gemma3n، که برای همین کارها ساخته شده.
لینک کولب
🛠 Join @LLMEngineers Community
تاحالا فکر کردین چرا آپدیت کردن وزنهای یه مدل بزرگ انقدر پیچیدهست؟ یه تیم از MIT یه ایدهٔ قدیمی ولی جالب رو زنده کردن که شاید جواب همین سؤال باشه.
قضیه اینه که گرادیانها و وزنهای مدل یه جورایی دو تا زبون مختلف حرف میزنن و نمیشه همینطوری گرادیان رو از وزن کم کرد. این تیم یه چارچوب نظری به اسم «دوگانگی ماژولار» (Modular Duality) ساختن که مثل یه مترجم بین این دو تا عمل میکنه.
این روش جدید چطوری کار میکنه و چرا مهمه؟
🔹 برای هر لایه از شبکه (مثل Linear یا Conv2D) یه «نقشه»ی ریاضی میسازه تا گرادیانها رو قبل از آپدیت وزنها، به فضای درست «ترجمه» کنه.
🔹 بهینهسازهایی (optimizers) که هم فوقالعاده سریع هستن و هم با بزرگ شدن مدل، عملکردشون افت نمیکنه و مقیاسپذیر باقی میمونن.
🔹 بر اساس این تئوری، یه زبان به اسم Modula هم ساختن که طراحی این بهینهسازهای هوشمند رو راحتتر میکنه.
🔹 یه نسخه از این الگوریتمها تونسته رکورد سرعت آموزش مدل NanoGPT رو بشکنه!
خلاصه این کار یه دید عمیقتر و اصولیتر برای ساختن نسل بعدی Optimizerهاست که میتونه آموزش مدلهای غولپیکر رو خیلی بهینهتر کنه.
paper
docs
code
قضیه اینه که گرادیانها و وزنهای مدل یه جورایی دو تا زبون مختلف حرف میزنن و نمیشه همینطوری گرادیان رو از وزن کم کرد. این تیم یه چارچوب نظری به اسم «دوگانگی ماژولار» (Modular Duality) ساختن که مثل یه مترجم بین این دو تا عمل میکنه.
این روش جدید چطوری کار میکنه و چرا مهمه؟
🔹 برای هر لایه از شبکه (مثل Linear یا Conv2D) یه «نقشه»ی ریاضی میسازه تا گرادیانها رو قبل از آپدیت وزنها، به فضای درست «ترجمه» کنه.
🔹 بهینهسازهایی (optimizers) که هم فوقالعاده سریع هستن و هم با بزرگ شدن مدل، عملکردشون افت نمیکنه و مقیاسپذیر باقی میمونن.
🔹 بر اساس این تئوری، یه زبان به اسم Modula هم ساختن که طراحی این بهینهسازهای هوشمند رو راحتتر میکنه.
🔹 یه نسخه از این الگوریتمها تونسته رکورد سرعت آموزش مدل NanoGPT رو بشکنه!
خلاصه این کار یه دید عمیقتر و اصولیتر برای ساختن نسل بعدی Optimizerهاست که میتونه آموزش مدلهای غولپیکر رو خیلی بهینهتر کنه.
paper
docs
code
یه خبر جالب، هاگینگفیس جدیداً یه ربات کوچولوی رومیزی و بامزه به اسم Reachy Mini رو معرفی کرده که فقط تو پنج روز اول، یک میلیون دلار فروش داشته!
قضیه اینه که این ربات قرار نیست مثل رباتهای دیگه کارهای خونه رو انجام بده. توماس ولف، یکی از بنیانگذارهای هاگینگفیس، میگه Reachy Mini بیشتر شبیه یه «آیفون خالی» میمونه؛ یه دیوایس هکپذیر و سرگرمکننده که هر کسی بتونه اپهای خودش رو براش بنویسه و با مدلهای AI بهصورت لوکال ور بره.
ایدهشون اینه که با یه محصول دوستداشتنی و نسبتاً ارزون، پای رباتهای اپنسورس رو به خونهها باز کنن و مردم با حضورشون احساس راحتی کنن. یه جورایی دارن بازار رباتهای خانگی رو از سمت سرگرمی و دولوپرهای کنجکاو هدف میگیرن، نه کارهای خدماتی. باید دید این استراتژی در آینده چطور جواب میده. 🤖
متن کامل مصاحبه
🛠 Join @LLMEngineers Community
قضیه اینه که این ربات قرار نیست مثل رباتهای دیگه کارهای خونه رو انجام بده. توماس ولف، یکی از بنیانگذارهای هاگینگفیس، میگه Reachy Mini بیشتر شبیه یه «آیفون خالی» میمونه؛ یه دیوایس هکپذیر و سرگرمکننده که هر کسی بتونه اپهای خودش رو براش بنویسه و با مدلهای AI بهصورت لوکال ور بره.
ایدهشون اینه که با یه محصول دوستداشتنی و نسبتاً ارزون، پای رباتهای اپنسورس رو به خونهها باز کنن و مردم با حضورشون احساس راحتی کنن. یه جورایی دارن بازار رباتهای خانگی رو از سمت سرگرمی و دولوپرهای کنجکاو هدف میگیرن، نه کارهای خدماتی. باید دید این استراتژی در آینده چطور جواب میده. 🤖
متن کامل مصاحبه
🛠 Join @LLMEngineers Community
احتمالاً مازیار پناهی رو میشناسید. یکی از چهرههای شناختهشدهی هاگینگ فیس که سالهاست تو حوزهی LMM ها کار میکنه و همیشه هم پای ثابت اوپنسورس بوده. این رفیقمون که تو پاریس مستقره، امروز یه حرکت زد و پروژهی OpenMed رو ریلیز کرد.
قضیه چیه؟ تا حالا گیر مدلای پولی حوزهی سلامت افتادین؟ که نه میدونی پشت صحنه چی میگذره، نه راحت میتونی ازش استفاده کنی. OpenMed اومده این بازی رو عوض کنه.
چند تا نکتهی کلیدی که این حرکت رو خفن میکنه:
* کمیّت و کیفیت با هم: +۳۸۰ تا مدل NER پزشکی رو رایگان و با لایسنس Apache 2.0 در دسترس گذاشته. اینا فقط رایگان نیستن؛ بنچمارکها نشون میده که از خیلی از رقبای پولی مثل Spark NLP هم بهترن. مثلاً روی دیتاست Gellus اختلاف F1 score با نسخهی پولی +۳۶٪ بوده! 📊
* پروداکشن-رِدی و منعطف: مدلها از سایز ۱۰۹ میلیون پارامتر تا نزدیک ۶۰۰ میلیون هستن. یعنی هم برای تسکهای سبک و سریع، هم برای کارهای سنگین و دقیق، گزینه روی میزه. دردسر دیپلوی هم نداره.
* پوشش جامع: تقریباً هر دامنهی پزشکی، از تشخیص دارو و بیماری گرفته تا ژن، آناتومی و آنکولوژی رو پوشش میده. یه جعبهابزار کامل برای هرکی تو این حوزه کار میکنه.
چرا مهمه؟ چون داره دسترسی به ابزارهای SOTA توی یه حوزهی حساس و گرون مثل پزشکی رو دموکراتیک میکنه. این یعنی شتاب گرفتن تحقیق و توسعه برای استارتاپها و تیمهای کوچیکتر.
البته باید دید در عمل و روی دیتاهای real-world چالشهاش چیه، ولی قدم اولش واقعاً خوبه. مدلها رو میتونید از صفحهی OpenMed چک کنید.
منبع
🛠 Join @LLMEngineers Community
قضیه چیه؟ تا حالا گیر مدلای پولی حوزهی سلامت افتادین؟ که نه میدونی پشت صحنه چی میگذره، نه راحت میتونی ازش استفاده کنی. OpenMed اومده این بازی رو عوض کنه.
چند تا نکتهی کلیدی که این حرکت رو خفن میکنه:
* کمیّت و کیفیت با هم: +۳۸۰ تا مدل NER پزشکی رو رایگان و با لایسنس Apache 2.0 در دسترس گذاشته. اینا فقط رایگان نیستن؛ بنچمارکها نشون میده که از خیلی از رقبای پولی مثل Spark NLP هم بهترن. مثلاً روی دیتاست Gellus اختلاف F1 score با نسخهی پولی +۳۶٪ بوده! 📊
* پروداکشن-رِدی و منعطف: مدلها از سایز ۱۰۹ میلیون پارامتر تا نزدیک ۶۰۰ میلیون هستن. یعنی هم برای تسکهای سبک و سریع، هم برای کارهای سنگین و دقیق، گزینه روی میزه. دردسر دیپلوی هم نداره.
* پوشش جامع: تقریباً هر دامنهی پزشکی، از تشخیص دارو و بیماری گرفته تا ژن، آناتومی و آنکولوژی رو پوشش میده. یه جعبهابزار کامل برای هرکی تو این حوزه کار میکنه.
چرا مهمه؟ چون داره دسترسی به ابزارهای SOTA توی یه حوزهی حساس و گرون مثل پزشکی رو دموکراتیک میکنه. این یعنی شتاب گرفتن تحقیق و توسعه برای استارتاپها و تیمهای کوچیکتر.
البته باید دید در عمل و روی دیتاهای real-world چالشهاش چیه، ولی قدم اولش واقعاً خوبه. مدلها رو میتونید از صفحهی OpenMed چک کنید.
منبع
🛠 Join @LLMEngineers Community
🎯 100 Days of Reading LLM Papers Challenge
Day 2: Artificial Neural Networks for Beginners
🔗 https://arxiv.org/pdf/cs/0308031
🛠 @LLMEngineers
Day 2: Artificial Neural Networks for Beginners
🔗 https://arxiv.org/pdf/cs/0308031
Additional Resources:
⦁ 📄 Article: Neural Network Fundamentals
⦁ 🎬 Playlist: Neural networks, 3Blue1Brown
⦁ 🎬 Playlist: Neural Networks: Zero to Hero, Andrej Karpathy
🛠 @LLMEngineers
سریعتر یا دقیقتر؟ بین Kimi K2 و Grok-4 ⚔️
خلاصه بگم: طبق بنچمارک
این کندی Grok-4 اتفاقی نیست. خود ایلان ماسک هم توییت زده و اعتراف کرده که مدلشون زیادی به مسائل ساده گیر میده. انگار داره با هر پرامپتی مثل یه سوال سخت فلسفی برخورد میکنه.
این یعنی تیم xAI از مشکل خبر داره و احتمالاً یه آپدیت برای بهینهسازی مدل تو راهه. در مقابل، Kimi K2 با ۱ تریلیون پارامتر (البته اگه این ادعا دقیق باشه) توی one-shot coding فوقالعاده عمل میکنه. اگه ضعف Kimi توی reasoning اذیتت میکنه، میتونی با ابزارهایی مثل
---
🛠 Join @LLMEngineers Community
خلاصه بگم: طبق بنچمارک
Stagehand که برای اتوماسیون مرورگره، مدل چینی Kimi K2 با اینکه دقتش *فقط کمی* از Grok-4 پایینتره، سرعت Inferenceـش (روی LPU های Groq البته) هفت برابر بیشتره. یعنی برای تسکهای real-time یا جاهایی که latency مهمه، Kimi یه غول به حساب میاد.این کندی Grok-4 اتفاقی نیست. خود ایلان ماسک هم توییت زده و اعتراف کرده که مدلشون زیادی به مسائل ساده گیر میده. انگار داره با هر پرامپتی مثل یه سوال سخت فلسفی برخورد میکنه.
Grok 4 treats everything as a hard question. We are hoping to fix that today." — Elon Musk
این یعنی تیم xAI از مشکل خبر داره و احتمالاً یه آپدیت برای بهینهسازی مدل تو راهه. در مقابل، Kimi K2 با ۱ تریلیون پارامتر (البته اگه این ادعا دقیق باشه) توی one-shot coding فوقالعاده عمل میکنه. اگه ضعف Kimi توی reasoning اذیتت میکنه، میتونی با ابزارهایی مثل
mcp-reasoner بهش قابلیت استدلال تزریق کنین.---
🛠 Join @LLMEngineers Community
میسترال دو تا مدل صوتی speech understanding ریلیز کرده:
یه نسخه ۲۴ میلیارد پارامتری برای پروداکشن و یه ۳ میلیاردی جمعوجور برای دیپلوی لوکال و روی دستگاههای Edge. هر دو هم اوپنسورس شدن که دمشون گرم.
ادعاشون اینه که
برای اجرای لوکال پیشنهاد خودشون `vLLM`ئه.
یه ایرادی که گزارش شده اینه که نمیشه مدل رو قانع کرد که به دستورات داخل صوت گوش نده. مثلاً اگه فایل صوتی بگه «یه جوک بگو» و سیستم پرامپت بگه «فقط ترنسکرایب کن»، مدل باز هم جوک تحویلت میده. 🤔
راه حل عملی: میسترال یه API جدا فقط برای ترنسکریپشن داده بیرون. اون نقطه ضعف instruction following رو نداره و فایل هم مستقیم قبول میکنه. پس اگه ترنسکریپت تمیز میخوای، برو سراغ اون یکی.
لینک دانلود مدلها از هاگینگفیس:
[Small]
[Mini]
🛠 Join @LLMEngineers Community
Voxtral Small و Voxtral Mini. 🎙یه نسخه ۲۴ میلیارد پارامتری برای پروداکشن و یه ۳ میلیاردی جمعوجور برای دیپلوی لوکال و روی دستگاههای Edge. هر دو هم اوپنسورس شدن که دمشون گرم.
ادعاشون اینه که
Whisper large-v3 و Gemini 2.5 Flash رو راحت میزنن. روی کاغذ که قوی به نظر میرسه، ولی خب... میدونیم این بنچمارکها داستان دارن.برای اجرای لوکال پیشنهاد خودشون `vLLM`ئه.
یه ایرادی که گزارش شده اینه که نمیشه مدل رو قانع کرد که به دستورات داخل صوت گوش نده. مثلاً اگه فایل صوتی بگه «یه جوک بگو» و سیستم پرامپت بگه «فقط ترنسکرایب کن»، مدل باز هم جوک تحویلت میده. 🤔
راه حل عملی: میسترال یه API جدا فقط برای ترنسکریپشن داده بیرون. اون نقطه ضعف instruction following رو نداره و فایل هم مستقیم قبول میکنه. پس اگه ترنسکریپت تمیز میخوای، برو سراغ اون یکی.
لینک دانلود مدلها از هاگینگفیس:
[Small]
[Mini]
🛠 Join @LLMEngineers Community
اپل توی یه مقالهی جدید یه متد داده به اسم BETR که به جای اینکه برای ترین دنبال دیتای با کیفیت بگرده، میاد دیتای pretraining رو مستقیماً بر اساس شباهت به بنچمارکهای هدف انتخاب میکنه.
ایدهش سادهست: امبدینگ بنچمارکها و نمونهای از دیتاست اصلی رو میگیره، شباهتشون رو حساب میکنه و بعد یه مدل سبک (FastText) رو ترین میکنه که یاد بگیره کدوم داکیومنتها به درد تسکهای هدف میخورن. نتیجه؟ ۲ تا ۴.۷ برابر بهبود در بهرهوری محاسباتی (compute multiplier) نسبت به بیسلاینهای قوی مثل DCLM.
اما نکتهی مهمترش اینه: اگه مدل رو فقط برای بنچمارکهای مشخصی بهینه کنی (مثلاً Core benchmarks)، توی همونها خفن میشه ولی روی تسکهای ندیده، ضعیف عمل میکنه. دقیقاً مصداق قانون گودهارت. 🧠
مقاله اصلی (BETR)
مقاله بیسلاین (DCLM)
🛠 Join @LLMEngineers Community
ایدهش سادهست: امبدینگ بنچمارکها و نمونهای از دیتاست اصلی رو میگیره، شباهتشون رو حساب میکنه و بعد یه مدل سبک (FastText) رو ترین میکنه که یاد بگیره کدوم داکیومنتها به درد تسکهای هدف میخورن. نتیجه؟ ۲ تا ۴.۷ برابر بهبود در بهرهوری محاسباتی (compute multiplier) نسبت به بیسلاینهای قوی مثل DCLM.
اما نکتهی مهمترش اینه: اگه مدل رو فقط برای بنچمارکهای مشخصی بهینه کنی (مثلاً Core benchmarks)، توی همونها خفن میشه ولی روی تسکهای ندیده، ضعیف عمل میکنه. دقیقاً مصداق قانون گودهارت. 🧠
«بنچمارکها فقط پیشرفت رو اندازه نمیگیرن، بلکه به طور ضمنی اون رو هدایت میکنن.»
مقاله اصلی (BETR)
مقاله بیسلاین (DCLM)
🛠 Join @LLMEngineers Community
تیم GLM مدل
اصل داستان
نتیجهش این شده که مدل ۹ میلیارد پارامتریشون روی بنچمارکها داره
نکتهی کلیدی که خود تیم هم بهش اعتراف کرده اینه:
یه reward ضعیف برای یه تسک میتونه کل ترینینگ رو ببره هوا.
البته خودشون هم میگن بینقص نیست. گاهی جواب درسته ولی مسیر استدلال چرنده. چون سیستم پاداش فعلاً فقط به جواب نهایی نگاه میکنه، نه به «چطوری» بهش رسیدی. با این حال، یه قدم رو به جلوی خیلی مهمه، مخصوصاً که اپنسورس هم هست.
🤗 وزن مدل
📃 مقاله
🛠 Join @LLMEngineers Community
GLM-4.1V-Thinking رو ریلیز کرده یه VLM که تمرکزش روی multimodal reasoning هست و برای این کار از یه تکنیک جالب استفاده کرده. 🧠اصل داستان
Reinforcement Learning with Curriculum Sampling یا RLCS هست . یعنی چی؟ یعنی مدل رو اول با مسئلههای آسونتر تمرین میدن کم کم مدل که بهتر شد مسئله هارو سخت تر میکنن.نتیجهش این شده که مدل ۹ میلیارد پارامتریشون روی بنچمارکها داره
Qwen2.5-VL-72B رو میزنه و حتی توی بعضی تسکهای سخت مثل استدلال علمی (STEM) با GPT-4o رقابت میکنه.نکتهی کلیدی که خود تیم هم بهش اعتراف کرده اینه:
یک سیستم پاداش قوی و دقیق برای RL چند-دامنه حیاتی است.
یه reward ضعیف برای یه تسک میتونه کل ترینینگ رو ببره هوا.
البته خودشون هم میگن بینقص نیست. گاهی جواب درسته ولی مسیر استدلال چرنده. چون سیستم پاداش فعلاً فقط به جواب نهایی نگاه میکنه، نه به «چطوری» بهش رسیدی. با این حال، یه قدم رو به جلوی خیلی مهمه، مخصوصاً که اپنسورس هم هست.
🤗 وزن مدل
📃 مقاله
🛠 Join @LLMEngineers Community
خب، خبر داغ از دنیای اپنسورس: دیتاست Nous Hermes 3 ریلیز شده و چند ساعت پیش، خود مدیرعامل هاگینگفیس تویبت زد که شده رتبهی یک ترندینگ توی دیتاست ها.
این دیتاست یه مجموعهی غولپیکر با نزدیک به یک میلیون مکالمهی سینتتیک و بدون سانسور که تیم Nous Research برای فاینتیون خانوادهی Hermes 3 روی Llama 3.1 جمع کرده. تمرکز اصلی روی
> به قول یکی از سازندههاش، هدفشون «رسیدن به پرفرمنس SOTA بدون سانسور» بوده و به نظر میرسه به هدفشون رسیدن.
این دیتاست برای Supervised Fine-Tuning (SFT) عالیه. فقط حواست باشه که بایاسهای مدل معلم (احتمالاً GPT-4o) ممکنه توش باشه.
دیتاست روی هاگینگفیس موجوده میتونید بررسی و استفاده کنین.
---
🛠 Join @LLMEngineers Community
این دیتاست یه مجموعهی غولپیکر با نزدیک به یک میلیون مکالمهی سینتتیک و بدون سانسور که تیم Nous Research برای فاینتیون خانوادهی Hermes 3 روی Llama 3.1 جمع کرده. تمرکز اصلی روی
reasoning، کدنویسی، tool-use و دنبال کردن دقیق دستوراته.> به قول یکی از سازندههاش، هدفشون «رسیدن به پرفرمنس SOTA بدون سانسور» بوده و به نظر میرسه به هدفشون رسیدن.
این دیتاست برای Supervised Fine-Tuning (SFT) عالیه. فقط حواست باشه که بایاسهای مدل معلم (احتمالاً GPT-4o) ممکنه توش باشه.
دیتاست روی هاگینگفیس موجوده میتونید بررسی و استفاده کنین.
---
🛠 Join @LLMEngineers Community
هفت سال از تولد اولین GPT گذشته و با اینکه کلی مدل خفن مثل DeepSeek-V3 و Llama 4 اومدن، ولی تهِش همشون هنوز یه شباهتهایی به جدّ بزرگشون، ترنسفورمر، دارن. سباستین راشکا تو مقالهی جدیدش کالبدشکافی کرده که این مدلهای مدرن واقعاً چه فرقی با هم دارن.
به قول خودش
اما این بهینهسازیهای کوچیک، دنیایی از تفاوت رو رقم میزنن. 🧠
مهمترین ترند امسال، بیشک Mixture-of-Experts (MoE) هست. به جای اینکه کل مدل رو برای هر توکن لود کنی، فقط چندتا «متخصص» (expert) رو فعال میکنی. اینجوری مدلهایی مثل DeepSeek-V3 (با ۶۷۱ میلیارد پارامتر) موقع inference فقط ۳۷ میلیارد پارامتر فعال دارن. کاربردش واضحه: مدلهای غولپیکر با هزینه inference پایینتر.
توی Attention هم دعواست. DeepSeek به جای GQA (که دیگه استاندارد شده) از Multi-Head Latent Attention (MLA) استفاده میکنه. MLA میاد Key و Value رو فشرده میکنه تا توی KV cache جای کمتری بگیره؛ یک تیر و دو نشون. از اونور Gemma 3 با Sliding Window Attention حافظهی KV cache رو بهینه میکنه. یعنی هر توکن فقط به همسایههای نزدیکش نگاه میکنه.
یک سری هم رفتن سراغ Normalization. مدل OLMo 2 با جابجایی RMSNorm و اضافه کردن QK-Norm (نرمالایز کردن Query و Key قبل از RoPE) تونسته پایداری ترینینگ رو بالا ببره. حتی SmolLM3 هم پاشو فراتر گذاشته و با NoPE کلاً positional encoding رو حذف کرده و به causal attention mask اعتماد کرده تا مدل ترتیب رو بفهمه.
و در آخر هم Kimi K2 که ترکونده، از نظر معماری تقریباً همون DeepSeek-V3ـه که بزرگترش کردن. خلاصه که جنگ، جنگِ بهینهسازیه، نه انقلاب ساختاری. 🚀
📃 مقاله The Big LLM Architecture Comparison
🛠 Join @LLMEngineers Community
به قول خودش
شاید تعجبآوره که این مدلها از نظر ساختاری چقدر هنوز شبیه به هم هستن.
اما این بهینهسازیهای کوچیک، دنیایی از تفاوت رو رقم میزنن. 🧠
مهمترین ترند امسال، بیشک Mixture-of-Experts (MoE) هست. به جای اینکه کل مدل رو برای هر توکن لود کنی، فقط چندتا «متخصص» (expert) رو فعال میکنی. اینجوری مدلهایی مثل DeepSeek-V3 (با ۶۷۱ میلیارد پارامتر) موقع inference فقط ۳۷ میلیارد پارامتر فعال دارن. کاربردش واضحه: مدلهای غولپیکر با هزینه inference پایینتر.
توی Attention هم دعواست. DeepSeek به جای GQA (که دیگه استاندارد شده) از Multi-Head Latent Attention (MLA) استفاده میکنه. MLA میاد Key و Value رو فشرده میکنه تا توی KV cache جای کمتری بگیره؛ یک تیر و دو نشون. از اونور Gemma 3 با Sliding Window Attention حافظهی KV cache رو بهینه میکنه. یعنی هر توکن فقط به همسایههای نزدیکش نگاه میکنه.
یک سری هم رفتن سراغ Normalization. مدل OLMo 2 با جابجایی RMSNorm و اضافه کردن QK-Norm (نرمالایز کردن Query و Key قبل از RoPE) تونسته پایداری ترینینگ رو بالا ببره. حتی SmolLM3 هم پاشو فراتر گذاشته و با NoPE کلاً positional encoding رو حذف کرده و به causal attention mask اعتماد کرده تا مدل ترتیب رو بفهمه.
و در آخر هم Kimi K2 که ترکونده، از نظر معماری تقریباً همون DeepSeek-V3ـه که بزرگترش کردن. خلاصه که جنگ، جنگِ بهینهسازیه، نه انقلاب ساختاری. 🚀
📃 مقاله The Big LLM Architecture Comparison
🛠 Join @LLMEngineers Community
Sebastianraschka
The Big LLM Architecture Comparison
From DeepSeek-V3 to Kimi K2: A Look At Modern LLM Architecture Design
اگه تو حوزه LLMها فعال باشید، حتماً متوجه شدید که موج جدیدی راه افتاده و کلمهی «مهندسی کانتکست» (Context Engineering) همهجا شنیده میشه. انگار feautre engineering در دوران کلاسیک ML یا prompt engineering در ابتدای راه LLMها، حالا جاشو به این مفهوم جدید داده.
اما این فقط یه buzzword جدید برای رزومه نیست. این یه شیفت پارادایم اساسیه. ما دیگه دنبال نوشتن یه پرامپت ۵ خطی بینقص نیستیم؛ داریم درباره معماری سیستمهای داینامیک صحبت میکنیم که اطلاعات، ابزارها و حافظه رو به شکلی بهینه مدیریت میکنن تا LLM بتونه یک تسک پیچیده رو با موفقیت انجام بده.
البته صدای مخالف هم کم نیست. خیلیا میگن: «این که همون RAG خودمونه که لباس پلوخوری پوشیده» یا «شما مهندسای نرمافزار، اسم معماری سیستم رو عوض کردین و به اسم خودتون زدین». این نقدها تا حدی درسته. مفاهیمی مثل Separation of Concerns یا مدیریت state، سالهاست که در مهندسی نرمافزار وجود داره.
پس تفاوت کجاست؟ تفاوت در قلب سیستم ماست. ما دیگه با یه API یا دیتابیس deterministic سروکار نداریم. ما با یک مدل زبانی طرفیم: یک موجود غیرقطعی (non-deterministic) که تمام حافظه فعالش به یک پنجره کانتکست (Context Window) به شدت محدود خلاصه میشه. این محدودیت، تمام قواعد بازی رو عوض میکنه. مهندسی کانتکست، یعنی طراحی معماری جریان اطلاعات با در نظر گرفتن این تنگنای اساسی.
وقتی کانتکست به درستی مهندسی نشه، با پدیدههایی مثل Context Poisoning (یه داده غلط کل استدلال رو خراب میکنه) یا Context Distraction (مدل بین انبوه اطلاعات بیربط گم میشه) مواجه میشیم که عملکرد ایجنت رو نابود میکنه.
برای مقابله با این چالشها، ۴ استراتژی اصلی در حال شکلگیریه که هرکدوم دنیایی از تکنیکها رو شامل میشن:
۱. نوشتن و تداوم (Write & Persist): اطلاعات نباید بیدلیل در کانتکست باقی بمونن. باید اونها رو به صورت ساختاریافته در یک حافظهی خارجی persist کرد. این کار با استفاده از یک
۲. انتخاب و بازیابی (Select & Retrieve): اینجا جاییه که RAG وارد میشه، ولی خیلی پیشرفتهتر از یه جستجوی سادهی وکتوری. ما در مورد Agentic RAG صحبت میکنیم. یعنی بازیابی هوشمندانهی ابزارها (Tool Selection RAG)، خاطرات مرتبط (Memory Retrieval) یا قطعه کدهای لازم برای تسک. تکنیکهایی مثل Hybrid Search، Re-ranking و استفاده از Knowledge Graphها برای درک روابط بین دادهها، اینجا نقش کلیدی بازی میکنن تا فقط مرتبطترین اطلاعات به کانتکست تزریق بشه.
۳. فشردهسازی و هرس (Compress & Prune): کانتکست بینهایت نیست. باید دائماً بهینهسازی بشه. Summarization یکی از راههاست؛ از خلاصهسازی بازگشتی (Recursive Summarization) برای مکالمات طولانی گرفته تا استفاده از یک مدل fine-tune شده فقط برای خلاصهسازی خروجی ابزارها (رویکردی که Cognition AI استفاده میکنه). در کنارش، Pruning یا هرس کردن هم وجود داره؛ یعنی حذف هوشمندانه پیامهای قدیمی یا اطلاعاتی که دیگه به درد نمیخورن.
۴. ایزولهسازی و پارتیشنبندی (Isolate & Partition): یکی از بهترین راهها برای مدیریت پیچیدگی، شکستن اون به اجزای کوچکتره. معماری Multi-agent (مثل OpenAI Swarm) همین کار رو میکنه. هر ایجنت، کانتکست، ابزارها و حافظهی ایزولهی خودشو داره و فقط روی یه تخصص متمرکز میشه. یک رویکرد دیگه، استفاده از محیطهای اجرایی ایزوله (Sandboxed Environments) هست. در این مدل (که HuggingFace استفاده میکنه)، LLM به جای فراخوانی مستقیم API، کدی رو تولید میکنه که در یک Sandbox اجرا میشه. اینطوری اشیای سنگین (مثل دیتافریمها یا فایلهای حجیم) هرگز وارد کانتکست مدل نمیشن و فقط نتیجهی نهایی بهش برگردونده میشه.
نتیجهگیری نهایی:
مهندسی کانتکست فقط یک اسم جدید نیست، بلکه نشونهی بلوغ حوزهی ماست. ما از کلنجار رفتن با یک فایل `prompt.txt`، به سمت معماری پایپلاینهای پیچیدهی اطلاعاتی حرکت کردیم. این یعنی ساختن ایجنتهای هوشمند، روزبهروز بیشتر شبیه به مهندسی سیستمهای نرمافزاری پیچیده و کمتر شبیه به هنر و شهود میشه.
برای مطالعه عمیقتر، این دو مقاله فوقالعادهان:
https://rlancemartin.github.io/2025/06/23/context_engineering/
https://blog.langchain.com/the-rise-of-context-engineering/
🛠 Join @LLMEngineers Community
اما این فقط یه buzzword جدید برای رزومه نیست. این یه شیفت پارادایم اساسیه. ما دیگه دنبال نوشتن یه پرامپت ۵ خطی بینقص نیستیم؛ داریم درباره معماری سیستمهای داینامیک صحبت میکنیم که اطلاعات، ابزارها و حافظه رو به شکلی بهینه مدیریت میکنن تا LLM بتونه یک تسک پیچیده رو با موفقیت انجام بده.
البته صدای مخالف هم کم نیست. خیلیا میگن: «این که همون RAG خودمونه که لباس پلوخوری پوشیده» یا «شما مهندسای نرمافزار، اسم معماری سیستم رو عوض کردین و به اسم خودتون زدین». این نقدها تا حدی درسته. مفاهیمی مثل Separation of Concerns یا مدیریت state، سالهاست که در مهندسی نرمافزار وجود داره.
پس تفاوت کجاست؟ تفاوت در قلب سیستم ماست. ما دیگه با یه API یا دیتابیس deterministic سروکار نداریم. ما با یک مدل زبانی طرفیم: یک موجود غیرقطعی (non-deterministic) که تمام حافظه فعالش به یک پنجره کانتکست (Context Window) به شدت محدود خلاصه میشه. این محدودیت، تمام قواعد بازی رو عوض میکنه. مهندسی کانتکست، یعنی طراحی معماری جریان اطلاعات با در نظر گرفتن این تنگنای اساسی.
وقتی کانتکست به درستی مهندسی نشه، با پدیدههایی مثل Context Poisoning (یه داده غلط کل استدلال رو خراب میکنه) یا Context Distraction (مدل بین انبوه اطلاعات بیربط گم میشه) مواجه میشیم که عملکرد ایجنت رو نابود میکنه.
برای مقابله با این چالشها، ۴ استراتژی اصلی در حال شکلگیریه که هرکدوم دنیایی از تکنیکها رو شامل میشن:
۱. نوشتن و تداوم (Write & Persist): اطلاعات نباید بیدلیل در کانتکست باقی بمونن. باید اونها رو به صورت ساختاریافته در یک حافظهی خارجی persist کرد. این کار با استفاده از یک
Scratchpad برای یادداشتهای موقت حین اجرای تسک، یا پیادهسازی Memory بلندمدت (مثل کاری که Reflexion یا Generative Agents کردن) انجام میشه. این حافظه میتونه یه فایل ساده، یه key-value store یا حتی یک دیتابیس وکتوری باشه.۲. انتخاب و بازیابی (Select & Retrieve): اینجا جاییه که RAG وارد میشه، ولی خیلی پیشرفتهتر از یه جستجوی سادهی وکتوری. ما در مورد Agentic RAG صحبت میکنیم. یعنی بازیابی هوشمندانهی ابزارها (Tool Selection RAG)، خاطرات مرتبط (Memory Retrieval) یا قطعه کدهای لازم برای تسک. تکنیکهایی مثل Hybrid Search، Re-ranking و استفاده از Knowledge Graphها برای درک روابط بین دادهها، اینجا نقش کلیدی بازی میکنن تا فقط مرتبطترین اطلاعات به کانتکست تزریق بشه.
۳. فشردهسازی و هرس (Compress & Prune): کانتکست بینهایت نیست. باید دائماً بهینهسازی بشه. Summarization یکی از راههاست؛ از خلاصهسازی بازگشتی (Recursive Summarization) برای مکالمات طولانی گرفته تا استفاده از یک مدل fine-tune شده فقط برای خلاصهسازی خروجی ابزارها (رویکردی که Cognition AI استفاده میکنه). در کنارش، Pruning یا هرس کردن هم وجود داره؛ یعنی حذف هوشمندانه پیامهای قدیمی یا اطلاعاتی که دیگه به درد نمیخورن.
۴. ایزولهسازی و پارتیشنبندی (Isolate & Partition): یکی از بهترین راهها برای مدیریت پیچیدگی، شکستن اون به اجزای کوچکتره. معماری Multi-agent (مثل OpenAI Swarm) همین کار رو میکنه. هر ایجنت، کانتکست، ابزارها و حافظهی ایزولهی خودشو داره و فقط روی یه تخصص متمرکز میشه. یک رویکرد دیگه، استفاده از محیطهای اجرایی ایزوله (Sandboxed Environments) هست. در این مدل (که HuggingFace استفاده میکنه)، LLM به جای فراخوانی مستقیم API، کدی رو تولید میکنه که در یک Sandbox اجرا میشه. اینطوری اشیای سنگین (مثل دیتافریمها یا فایلهای حجیم) هرگز وارد کانتکست مدل نمیشن و فقط نتیجهی نهایی بهش برگردونده میشه.
نتیجهگیری نهایی:
مهندسی کانتکست فقط یک اسم جدید نیست، بلکه نشونهی بلوغ حوزهی ماست. ما از کلنجار رفتن با یک فایل `prompt.txt`، به سمت معماری پایپلاینهای پیچیدهی اطلاعاتی حرکت کردیم. این یعنی ساختن ایجنتهای هوشمند، روزبهروز بیشتر شبیه به مهندسی سیستمهای نرمافزاری پیچیده و کمتر شبیه به هنر و شهود میشه.
برای مطالعه عمیقتر، این دو مقاله فوقالعادهان:
https://rlancemartin.github.io/2025/06/23/context_engineering/
https://blog.langchain.com/the-rise-of-context-engineering/
🛠 Join @LLMEngineers Community
rlancemartin.github.io
Context Engineering for Agents
Patterns for managing agent context.
یه ابزار اپنسورس به اسم
قسمت خفنش
توی بنچمارکهای خودشون، ابزارهای معروفی مثل
ابزار هنوز کاملاً پایدار نیست و بخشهایی مثل خروجی ساختاریافته (Structured Output) هنوز در حال توسعهست، ولی پتانسیلش بالاست.
💻 https://github.com/QuivrHQ/MegaParse
🛠 Join @LLMEngineers Community
MegaParse پیدا کردم که ادعای بزرگی داره: پارس کردن هر نوع داکیومنتی بدون اینکه اطلاعاتی از دست بره. از PDF و Word گرفته تا پاورپوینت و CSV.قسمت خفنش
MegaParseVision هست. این ماژول مستقیم از مدلهای مولتیمودال مثل GPT-4o و Claude 3.5 استفاده میکنه تا ساختار داکیومنت رو "ببینه". یعنی دیگه لازم نیست با جدولها و نمودارها کشتی بگیری. خود مدل محتوا رو درک میکنه. تستش کردم، برای استخراج جدول از چندتا PDF سنگین واقعاً خوب جواب داد.توی بنچمارکهای خودشون، ابزارهای معروفی مثل
unstructured و llama_parser رو با اختلاف شکست دادن. البته که بنچمارک رو خودشون منتشر کردن، ولی همین که جرئت کردن این مقایسه رو بذارن یعنی به کارشون ایمان دارن.ابزار هنوز کاملاً پایدار نیست و بخشهایی مثل خروجی ساختاریافته (Structured Output) هنوز در حال توسعهست، ولی پتانسیلش بالاست.
💻 https://github.com/QuivrHQ/MegaParse
🛠 Join @LLMEngineers Community