LLM Engineers – Telegram
LLM Engineers
1.87K subscribers
103 photos
6 videos
3 files
142 links
A highly technical blog tailored for LLM engineers.

Contact me:
linkedin.com/in/mshojaei77
Download Telegram
مقایسه ابزارهای OCR و PDF parsing بر اساس سرعت، دقت و بازخورد کامیونیتی

ابزار Smoldocling با حجم خیلی کم (زیر ۵۰۰ مگابایت VRAM) می‌تونه هر صفحه رو روی یه GPU معمولی توی فقط ۰.۳۵ ثانیه پردازش کنه. نکته‌ی جالبش اینه که توی بنچمارک‌ها مدل‌های ۲۷ برابر بزرگ‌تر از خودشو شکست داده.

مدل‌هایی مثل dots.ocr و MonkeyOCR برای پردازش اسناد چندزبانه جداول پیچیده و حفظ ساختار کلی داکیومنت عملکرد فوق‌العاده‌ای دارن. MonkeyOCR با اینکه فقط ۲۵۶ میلیون پارامتر داره، روی اسناد انگلیسی حتی از مدل‌های بزرگ مثل Gemini 2.5 Pro هم بهتر عمل کرده. ابزار olmOCR هم دقت بالایی داره ولی بعضی کاربرها توی ردیت گزارش کردن که با جداول پیچیده کمی مشکل داره و گاهی دچار hallucination میشه.

اگر با اسناد علمی، فرمول‌های LaTeX و جداول پیچیده سروکار دارید، Nanonets-OCR-s (که بخشی از Mathpix هست) بهترین عملکرد رو داره. برای استخراج از PDF ایزار llamaparse گزینه‌ی خیلی خوبیه. این ابزار برای استخراج جداول و عناصر بصری از دل PDF های پیچیده بهینه شده و مستقیماً برای این کار ساخته شده.

🛠 Join @LLMEngineers Community
خب، OpenAI بالاخره دو تا مدل open-weight واقعی منتشر کرد. اسم این خانواده gpt-oss هست و فعلاً دو تا عضو داره:

gpt-oss-120b:
مدل بزرگ با ۱۱۷ میلیارد پارامتر (۵.۱ میلیارد پارامتر فعال) برای پروداکشن و تسک‌های سنگین استدلالی.

gpt-oss-20b:
مدل کوچیک با ۲۱ میلیارد پارامتر (۳.۶ میلیارد پارامتر فعال) برای سخت‌افزارهای ضعیف‌تر و کاربردهای on-device.

کاربرد اصلیشون برای تسک‌های agentic و استدلاله. مدل‌ها text-only هستن و با لایسنس Apache 2.0 منتشر شدن که برای استفاده تجاری عالیه.

برای اجرا، می‌تونید از فریمورک‌های استاندارد مثل transformers، vLLM و Ollama استفاده کنید.

این مدل‌ها قابلیت‌های agentic خوبی دارن مثل function calling، وب‌گردی و اجرای کد پایتون. همچنین می‌شه سطح استدلال مدل رو از طریق system prompt روی سه حالت low، medium و high تنظیم کرد.

💻 دمو (gpt-oss.com)

نکات کلیدی فنی و معماری:

معماری اصلی این مدل‌ها Mixture-of-Experts یا MoE هست.
مدل 120B دارای ۱۲۸ اکسپرت محلی و مدل 20B دارای ۳۲ اکسپرته.
برای هر توکن، ۴ اکسپرت فعال میشه (experts_per_token: 4).

یک نوآوری مهم، استفاده از کوانتایزیشن MXFP4 به صورت native هست. این کوانتایزیشن ۴ بیتی فقط روی وزن‌های MoE اعمال شده. نتیجه اینه که مدل 120B روی یک کارت H100 با ۸۰ گیگ VRAM و مدل 20B روی سخت‌افزار معمولی با ۱۶ گیگ VRAM جا میشه. این برای چنین مدل‌های بزرگی، یک دستاورد عالیه.

مکانیزم attention هم ترکیبی طراحی شده. لایه‌ها به صورت یکی در میون از full attention و sliding window attention (با پنجره ۱۲۸ توکنی) استفاده می‌کنن. از GQA استفاده شده
برای positional encoding هم از Yarn RoPE scaling استفاده شده که به مدل اجازه میده کانتکست طولانی تا 128K توکن رو پشتیبانی کنه.

🤗 مدل gpt-oss-120b در هاگینگ فیس
🤗 مدل gpt-oss-20b در هاگینگ فیس


🛠 Join @LLMEngineers Community
همچنین OpenAI یه مجموعه Cookbook برای مدل‌های gpt-oss منتشر کرده:

- چطور مدل‌های gpt-oss رو با Hugging Face Transformers فاین‌تیون کنیم.

- چطور مدل‌ها رو با فریمورک‌های بهینه‌ای مثل vLLM یا به صورت محلی با Ollama اجرا کنیم.

- چطور chain-of-thought خام مدل رو مدیریت و ازش استفاده کنیم.

- و مهم‌تر از همه، توضیح فرمت پاسخ‌دهی OpenAI Harmony.

این دو مورد آخر خیلی مهمن. چون این مدل‌ها با فرمت Harmony آموزش دیدن و برای استفاده درست و گرفتن Chain-of-Thought، باید با این فرمت آشنا بود.

gpt-oss cookbook

🛠 Join @LLMEngineers Community
این نمودار عملکرد مدل‌های gpt-oss رو در بنچمارک Humanity's Last Exam نشون میده که شامل سوالات بسیار تخصصی در حوزه‌های مختلفه. این بنچمارک، توانایی استدلال عمیق و دانش تخصصی مدل رو به چالش می‌کشه.

مدل gpt-oss-120b با استفاده از ابزار (with tools) به دقت ۱۹٪ میرسه. این بهترین عملکرد در بین مدل‌های open-weight موجود در این نموداره.

با این حال، هنوز فاصله قابل توجهی با مدل‌های بسته و قدرتمندتر مثل o3 وجود داره که به دقت ۲۴.۹٪ رسیده.

مهم‌ترین نکته، تأثیر ابزارهاست. دقت gpt-oss-120b بدون ابزار از ۱۹٪ به ۱۴.۹٪ سقوط می‌کنه. این الگو برای مدل gpt-oss-20b هم تکرار می‌شه (۱۷.۳٪ در مقابل ۱۰.۹٪).

نکته جالب اینه که gpt-oss-120b با ابزار (۱۹٪) عملکرد بهتری از o4-mini با ابزار (۱۷.۷٪) داره که این یک امتیاز مثبت برای این مدل اپن سورس محسوب میشه.

🛠 Join @LLMEngineers Community
این نمودار عملکرد کدنویسی مدل‌های gpt-oss رو در مسائل مسابقات برنامه‌نویسی Codeforces، نشون می‌ده.

مدل gpt-oss-120b با استفاده از tools (ابزارهایی مثل مفسر پایتون) به ریتینگ قابل احترام ۲۶۲۲ رسیده. این امتیاز خیلی بالاست و نشون‌دهنده توانایی بالای استدلال الگوریتمیه.

با این حال، هنوز از مدل‌های بسته مثل o4-mini که ریتینگ ۲۷۱۹ داره، کمی ضعیف‌تره.

عملکرد مدل gpt-oss-20b هست. این مدل کوچیک وقتی از ابزار استفاده می‌کنه، به ریتینگ ۲۵۱۶ میرسه که حتی از مدل ۱۲۰ میلیاردی بدون ابزار هم بهتره. این نشون میده معماری و آموزش برای استفاده از ابزار چقدر بهینه‌ست.

🛠 Join @LLMEngineers Community
بنچمارک های دیگه


🛠 Join @LLMEngineers Community
با انتشار مدل های gpt-oss-20b و gpt-oss-120b به صورت اوپن سورس OpenAI کاملاً داره رقیباشو له میکنه
مقایسه با مدل های Qwen با اینکه اینا حدود ۵ برابر پارامترهای فعال کمتر دارن

🛠 Join @LLMEngineers Community
oai_gpt-oss_model_card.pdf
3 MB
gpt-oss-120b & gpt-oss-20b Model Card
LLM Engineers
Photo
فرمت Harmony که OpenAI با مدل‌های gpt-oss معرفی کرده، یه پروتکل ساختاریافته برای تعامل با مدل‌های ایجنت‌محوره.

چند تا از کلیدی‌ترین ویژگی‌های این فرمت:

کانال‌های مجزا (Channels): این نوآورانه‌ترین بخش فرمته. به جای اینکه کل جواب مدل یه تیکه تکست باشه، به کانال‌های مختلف تقسیم میشه:

کانال analysis: اینجا جاییه که Chain-of-Thought (CoT) یا همون فرآیند فکری مدل قرار می‌گیره. این همون بخشیه که فیلتر نشده و نباید مستقیم به کاربر نشون داده بشه.

کانال commentary: برای فراخوانی ابزارها (tool calls) استفاده میشه. مدل توی این کانال، پارامترهای فانکشن مورد نظرش رو به صورت ساختاریافته برمی‌گردونه.

کانال final: این کانال حاوی جواب تمیز و نهاییه که برای نمایش به کاربر در نظر گرفته شده.

نقش Developer و سلسله‌مراتب: علاوه بر نقش System و User، یه نقش جدید به اسم Developer اضافه شده. این نقش برای تعریف ابزارها و دادن دستورالعمل‌های سطح بالا به مدل استفاده میشه. نکته حیاتی، سلسله‌مراتب دستوریه: System > Developer > User. این یعنی دستورات System به Developer و دستورات Developer به User ارجحیت دارن و این به دولوپر کنترل دقیقی روی رفتار مدل میده.

تنظیم سطح استدلال (Reasoning Effort): داخل System پراپمت می‌تونید مشخص کنید که مدل چقدر برای رسیدن به جواب تلاش کنه. سه سطح low، medium و high وجود داره که به شما اجازه میده بین سرعت و دقت، یه تریدآف هوشمندانه برقرار کنید.

کتابخانه رسمی: برای اینکه درگیر پیچیدگی‌های رندر و پارس کردن این فرمت رشته‌ای نشید، OpenAI یه کتابخونه رسمی به اسم openai-harmony منتشر کرده. این کتابخونه که هسته‌ش با Rust برای پرفورمنس بالا نوشته شده و با pyo3 به پایتون متصل شده، به شما اجازه میده با آبجکت‌های پایتونی مثل Conversation و Message کار کنید و خود کتابخونه زحمت تبدیلش به توکن‌های مورد نیاز مدل رو می‌کشه.

به نظر من، فرمت Harmony یه شمشیر دولبه‌ست. از یه طرف، با جدا کردن CoT از جواب نهایی، شفافیت و کنترل بی‌نظیری به دولوپر میده و راه رو برای ساخت ایجنت‌های پیچیده باز می‌کنه. از طرف دیگه، پیچیدگی پیاده‌سازی رو به شدت بالا می‌بره و مسئولیت مدیریت این فرمت کاملاً روی دوش دولوپره. در واقع OpenAI داره یه استاندارد جدید رو به کامیونیتی تحمیل می‌کنه که برای استفاده از مدل‌هاش باید ازش پیروی کنید.


💻 اطلاعات بیشتر و کتابخانه Harmony

🛠 Join @LLMEngineers Community
این جدول ارزیابی Hallucination مدل‌های gpt-oss خیلی چیزها رو روشن می‌کنه.

نتایج فاجعه‌باره. مدل gpt-oss-20b روی بنچمارک SimpleQA نرخ توهم یا همون hallucination rate حدود ۹۱٪ داره. یعنی از هر ۱۰ تا جواب، ۹ تاش اشتباه یا ساختگیه. دقتش هم طبیعتاً خیلی پایینه، فقط حدود ۷٪.

نسخه بزرگتر یعنی gpt-oss-120b یکم بهتره ولی هنوز نرخ توهم ۷۸٪ داره که اصلاً قابل قبول نیست. در مقایسه، مدل OpenAI o4-mini با اینکه خودش هم بی‌نقص نیست، نرخ توهم و دقت به مراتب بهتری رو ثبت کرده.

🛠 Join @LLMEngineers Community
نتایج بنچمارک‌های EQ-Bench و نویسندگی خلاقانه برای مدل‌های gpt-oss منتشر شده و خب، ناامیدکننده‌ست. این مدل‌ها در زمینه‌هایی که نیاز به هوش هیجانی و خلاقیت داره، عملکرد ضعیفی از خودشون نشون دادن.

این ضعف احتمالاً به خاطر معماری MoE و تعداد پایین پارامترهای فعال (active parameters) در هر لحظه‌ست. با اینکه مدل کلی مثلاً ۱۲۰ میلیارد پارامتر داره، اما برای پردازش هر توکن فقط بخش کوچکی از این پارامترها فعال می‌شن. این موضوع می‌تونه روی غنای زبانی و خلاقیت خروجی تأثیر منفی بذاره. البته عملکرد بالای این مدل‌ها در بنچمارک‌های دیگه نشون می‌ده که اولویت‌های OpenAI جای دیگه‌ای بوده؛ احتمالاً روی کدنویسی، استدلال منطقی و tool use

🛠 Join @LLMEngineers Community
بزودی خودم یسری بنچمارک روی عملکرد مدل روی دانش زبان فارسی و ایرانی اجرا میکنم و مدل های مختلف رو تست میزنم از جمله مدل های gpt-oss
ملکرد مدل‌های gpt-oss که OpenAI منتشر کرده روی بنچمارک ترکیبی Artificial Analysis Intelligence Index قابل قبوله، ولی بهترین نیست. این مدل‌ها بیشتر از اینکه یکه‌تاز باشن، یه بیس‌لاین قدرتمند برای جامعه اپن‌سورس محسوب میشن.

در نهایت، این مدل‌ها بیشتر برای تحقیق و توسعه و ساختن مدل‌های فاین‌تیون شده روی یک معماری قوی کاربرد دارن تا اینکه مستقیماً در پروداکشن، بهترین نتیجه رو بدن. رقابت در فضای اپن‌سورس خیلی جدیه.

🛠 Join @LLMEngineers Community
LLM Engineers
بزودی خودم یسری بنچمارک روی عملکرد مدل روی دانش زبان فارسی و ایرانی اجرا میکنم و مدل های مختلف رو تست میزنم از جمله مدل های gpt-oss
یه بنچمارک برای ارزیابی مدل‌های زبان بزرگ روی زبان فارسی ساختم به اسم ParsiEval. هدفم این بود که یه ابزار عملی و استاندارد بسازم تا بتونیم عملکرد واقعی مدل‌ها رو بدون هایپ و تبلیغات، روی زبان فارسی بسنجیم.

این پروژه شامل ۳۶۴ سوال چهارگزینه‌ای تو حوزه‌های مختلف مثل علم، تاریخ و دانش عمومیه. سعی کردم سوالات جوری باشه که فهم و استدلال مدل‌ها رو به زبان فارسی به چالش بکشه.

نتایجی که از ارزیابی مدل‌های مختلف گرفتم خیلی جالبه. همونطور که انتظار می‌رفت، gpt-4o با حدود ۷۹٪ دقت، بهترین عملکرد رو داشت. اما نکته مهم‌تر برای من، عملکرد خوب مدل‌های اپن‌سورس مثل kimi-k2 با دقت 77٪ بود.

به نظر من، یکی از کلیدی‌ترین یافته‌های این پروژه، افت عملکرد شدید بعضی مدل‌ها مثل سری Qwen موقع فعال کردن حالت thinking یا همون reasoning بود. برای مثال، مدل ۲۳۵ میلیارد پارامتری Qwen وقتی این قابلیت روشنه، دقتش از ۷۰٪ به زیر ۳۰٪ سقوط می‌کنه. این یعنی این قابلیت‌ها هنوز برای تسک‌های فارسی بهینه نشدن و گاهی نتیجه عکس میدن.

این نسخه اول پروژه هست. دارم روی نسخه دوم کار می‌کنم که دیتاست ارزیابی خیلی بزرگتری خواهد داشت و مدل‌های جدیدتر رو هم پوشش میده تا بتونیم تصویر دقیق‌تری از وضعیت مدل‌های فارسی داشته باشیم.

کل پروژه، دیتاست و نتایج روی گیت‌هاب موجوده. اگه براتون مفید بود یا از این حرکت حمایت می‌کنید، یه استار ⭐️ تو گیت‌هاب خیلی کمک‌کننده‌ست و بهم انگیزه میده که پروژه رو با قدرت بیشتری ادامه بدم.

🧑‍💻 پروژه ParsiEval در گیت‌هاب

🛠 Join @LLMEngineers Community
اینم از نتایج دقت مدل‌ها روی بنچمارک ParsiEval که ساختم.

مدل gpt-4o با ۷۹٪ دقت در صدره بعدشم horizon-beta (احتمالا gpt-5-mini) ولی مدل‌های اوپن سورس kimi و llama-4 هم خیلی نزدیک دنبالش می‌کنن. مدل‌های جدید اپن‌سورس OpenAI یعنی gpt-oss هم عملکرد نسبتا خوبی داشتن و نسخه ۱۲۰ میلیارد پارامتریش به دقت ۷۰٪ رسیده.

🛠 Join @LLMEngineers Community
تو تستای خودم و به نظر شخصی خودم مدلای gpt-oss مزخرف هستن !!
همچنان kimi‌ و qwen رو ترجیح میدم
تیم Qwen دو مدل جدید ۴ میلیاردی از سری Qwen3 منتشر کرده که برای سیستم‌های شخصی یا حتی موبایل ها گزینه‌های خیلی خوبی به حساب میان.

این سری جدید شامل دو نسخه تخصصی می‌شه:

نسخه Instruct: بدون reasoning : برای تسک‌های عمومی، پشتیبانی چندزبانه و کار با متن‌های طولانی (long-context) بهینه‌سازی شده.

نسخه Thinking: با (reasoning) : برای استدلال در حوزه‌های منطق، ریاضی، علوم و کدنویسی طراحی شده.


🤗 مدل Instruct در Hugging Face

🤗 مدل Thinking در Hugging Face

🛠 Join @LLMEngineers Community
LLM Engineers
تیم Qwen دو مدل جدید ۴ میلیاردی از سری Qwen3 منتشر کرده که برای سیستم‌های شخصی یا حتی موبایل ها گزینه‌های خیلی خوبی به حساب میان. این سری جدید شامل دو نسخه تخصصی می‌شه: نسخه Instruct: بدون reasoning : برای تسک‌های عمومی، پشتیبانی چندزبانه و کار با متن‌های…
این مدل با ۴ میلیارد پارامتر به صورت نیتیو از طول محتوای ۲۵۶ هزار توکن پشتیبانی می‌کنه. این یعنی برای کار با اسناد خیلی طولانی روی سیستم‌های با منابع محدود، گزینه‌ی مناسبیه.

نکته جالب اینجاست که این مدل ۴ میلیاردی توی بعضی بنچمارک‌های استدلال و دانش، از نسخه 30B-A3B هم بهتر عمل کرده. مثلا در بنچمارک استدلال منطقی ZebraLogic امتیاز ۸۰.۲ رو گرفته در حالی که نسخه ۳۰ میلیاردی امتیاز ۳۳.۲ داره. یا در بنچمارک ریاضی AIME25 امتیاز ۴۷.۴ رو در مقابل ۲۱.۶ کسب کرده. این جهش عملکردی توی تسک‌های پیچیده برای یه مدل با این سایز خیلی قابل توجهه.

همچنین در بنچمارک Arena-Hard v2 که همسویی مدل با ترجیحات انسانی رو می‌سنجه، امتیاز ۴۳.۴ رو گرفته که نسبت به امتیاز ۹.۵ نسخه قبلی، یک بهبود چشمگیر محسوب می‌شه و نشون می‌ده که مدل در پاسخ به سوالات باز و تولید متن باکیفیت، خیلی بهتر شده.

به نظر من، این نتایج نشون می‌ده که با post-training هدفمند و دیتاست‌های باکیفیت، می‌شه مدل‌های کوچک رو به سطح عملکردی مدل‌های خیلی بزرگ‌تر رسوند، مخصوصا در حوزه‌های تخصصی.

برای استفاده عملی، این مدل به راحتی با ابزارهایی مثل vLLM و sglang برای دیپلوی و با Ollama و llama.cpp برای اجرا روی سیستم‌های لوکال سازگاره. قابلیت tool-calling قوی هم داره که برای Agent ها به قابل استفاده‌ست.

🛠 Join @LLMEngineers Community