مقایسه ابزارهای OCR و PDF parsing بر اساس سرعت، دقت و بازخورد کامیونیتی
ابزار Smoldocling با حجم خیلی کم (زیر ۵۰۰ مگابایت VRAM) میتونه هر صفحه رو روی یه GPU معمولی توی فقط ۰.۳۵ ثانیه پردازش کنه. نکتهی جالبش اینه که توی بنچمارکها مدلهای ۲۷ برابر بزرگتر از خودشو شکست داده.
مدلهایی مثل dots.ocr و MonkeyOCR برای پردازش اسناد چندزبانه جداول پیچیده و حفظ ساختار کلی داکیومنت عملکرد فوقالعادهای دارن. MonkeyOCR با اینکه فقط ۲۵۶ میلیون پارامتر داره، روی اسناد انگلیسی حتی از مدلهای بزرگ مثل Gemini 2.5 Pro هم بهتر عمل کرده. ابزار olmOCR هم دقت بالایی داره ولی بعضی کاربرها توی ردیت گزارش کردن که با جداول پیچیده کمی مشکل داره و گاهی دچار hallucination میشه.
اگر با اسناد علمی، فرمولهای LaTeX و جداول پیچیده سروکار دارید، Nanonets-OCR-s (که بخشی از Mathpix هست) بهترین عملکرد رو داره. برای استخراج از PDF ایزار llamaparse گزینهی خیلی خوبیه. این ابزار برای استخراج جداول و عناصر بصری از دل PDF های پیچیده بهینه شده و مستقیماً برای این کار ساخته شده.
🛠 Join @LLMEngineers Community
ابزار Smoldocling با حجم خیلی کم (زیر ۵۰۰ مگابایت VRAM) میتونه هر صفحه رو روی یه GPU معمولی توی فقط ۰.۳۵ ثانیه پردازش کنه. نکتهی جالبش اینه که توی بنچمارکها مدلهای ۲۷ برابر بزرگتر از خودشو شکست داده.
مدلهایی مثل dots.ocr و MonkeyOCR برای پردازش اسناد چندزبانه جداول پیچیده و حفظ ساختار کلی داکیومنت عملکرد فوقالعادهای دارن. MonkeyOCR با اینکه فقط ۲۵۶ میلیون پارامتر داره، روی اسناد انگلیسی حتی از مدلهای بزرگ مثل Gemini 2.5 Pro هم بهتر عمل کرده. ابزار olmOCR هم دقت بالایی داره ولی بعضی کاربرها توی ردیت گزارش کردن که با جداول پیچیده کمی مشکل داره و گاهی دچار hallucination میشه.
اگر با اسناد علمی، فرمولهای LaTeX و جداول پیچیده سروکار دارید، Nanonets-OCR-s (که بخشی از Mathpix هست) بهترین عملکرد رو داره. برای استخراج از PDF ایزار llamaparse گزینهی خیلی خوبیه. این ابزار برای استخراج جداول و عناصر بصری از دل PDF های پیچیده بهینه شده و مستقیماً برای این کار ساخته شده.
🛠 Join @LLMEngineers Community
خب، OpenAI بالاخره دو تا مدل open-weight واقعی منتشر کرد. اسم این خانواده gpt-oss هست و فعلاً دو تا عضو داره:
gpt-oss-120b:
مدل بزرگ با ۱۱۷ میلیارد پارامتر (۵.۱ میلیارد پارامتر فعال) برای پروداکشن و تسکهای سنگین استدلالی.
gpt-oss-20b:
مدل کوچیک با ۲۱ میلیارد پارامتر (۳.۶ میلیارد پارامتر فعال) برای سختافزارهای ضعیفتر و کاربردهای on-device.
کاربرد اصلیشون برای تسکهای agentic و استدلاله. مدلها text-only هستن و با لایسنس Apache 2.0 منتشر شدن که برای استفاده تجاری عالیه.
برای اجرا، میتونید از فریمورکهای استاندارد مثل transformers، vLLM و Ollama استفاده کنید.
این مدلها قابلیتهای agentic خوبی دارن مثل function calling، وبگردی و اجرای کد پایتون. همچنین میشه سطح استدلال مدل رو از طریق system prompt روی سه حالت low، medium و high تنظیم کرد.
💻 دمو (gpt-oss.com)
نکات کلیدی فنی و معماری:
معماری اصلی این مدلها Mixture-of-Experts یا MoE هست.
مدل 120B دارای ۱۲۸ اکسپرت محلی و مدل 20B دارای ۳۲ اکسپرته.
برای هر توکن، ۴ اکسپرت فعال میشه (experts_per_token: 4).
یک نوآوری مهم، استفاده از کوانتایزیشن MXFP4 به صورت native هست. این کوانتایزیشن ۴ بیتی فقط روی وزنهای MoE اعمال شده. نتیجه اینه که مدل 120B روی یک کارت H100 با ۸۰ گیگ VRAM و مدل 20B روی سختافزار معمولی با ۱۶ گیگ VRAM جا میشه. این برای چنین مدلهای بزرگی، یک دستاورد عالیه.
مکانیزم attention هم ترکیبی طراحی شده. لایهها به صورت یکی در میون از full attention و sliding window attention (با پنجره ۱۲۸ توکنی) استفاده میکنن. از GQA استفاده شده
برای positional encoding هم از Yarn RoPE scaling استفاده شده که به مدل اجازه میده کانتکست طولانی تا 128K توکن رو پشتیبانی کنه.
🤗 مدل gpt-oss-120b در هاگینگ فیس
🤗 مدل gpt-oss-20b در هاگینگ فیس
🛠 Join @LLMEngineers Community
gpt-oss-120b:
مدل بزرگ با ۱۱۷ میلیارد پارامتر (۵.۱ میلیارد پارامتر فعال) برای پروداکشن و تسکهای سنگین استدلالی.
gpt-oss-20b:
مدل کوچیک با ۲۱ میلیارد پارامتر (۳.۶ میلیارد پارامتر فعال) برای سختافزارهای ضعیفتر و کاربردهای on-device.
کاربرد اصلیشون برای تسکهای agentic و استدلاله. مدلها text-only هستن و با لایسنس Apache 2.0 منتشر شدن که برای استفاده تجاری عالیه.
برای اجرا، میتونید از فریمورکهای استاندارد مثل transformers، vLLM و Ollama استفاده کنید.
این مدلها قابلیتهای agentic خوبی دارن مثل function calling، وبگردی و اجرای کد پایتون. همچنین میشه سطح استدلال مدل رو از طریق system prompt روی سه حالت low، medium و high تنظیم کرد.
💻 دمو (gpt-oss.com)
نکات کلیدی فنی و معماری:
معماری اصلی این مدلها Mixture-of-Experts یا MoE هست.
مدل 120B دارای ۱۲۸ اکسپرت محلی و مدل 20B دارای ۳۲ اکسپرته.
برای هر توکن، ۴ اکسپرت فعال میشه (experts_per_token: 4).
یک نوآوری مهم، استفاده از کوانتایزیشن MXFP4 به صورت native هست. این کوانتایزیشن ۴ بیتی فقط روی وزنهای MoE اعمال شده. نتیجه اینه که مدل 120B روی یک کارت H100 با ۸۰ گیگ VRAM و مدل 20B روی سختافزار معمولی با ۱۶ گیگ VRAM جا میشه. این برای چنین مدلهای بزرگی، یک دستاورد عالیه.
مکانیزم attention هم ترکیبی طراحی شده. لایهها به صورت یکی در میون از full attention و sliding window attention (با پنجره ۱۲۸ توکنی) استفاده میکنن. از GQA استفاده شده
برای positional encoding هم از Yarn RoPE scaling استفاده شده که به مدل اجازه میده کانتکست طولانی تا 128K توکن رو پشتیبانی کنه.
🤗 مدل gpt-oss-120b در هاگینگ فیس
🤗 مدل gpt-oss-20b در هاگینگ فیس
🛠 Join @LLMEngineers Community
همچنین OpenAI یه مجموعه Cookbook برای مدلهای gpt-oss منتشر کرده:
- چطور مدلهای gpt-oss رو با Hugging Face Transformers فاینتیون کنیم.
- چطور مدلها رو با فریمورکهای بهینهای مثل vLLM یا به صورت محلی با Ollama اجرا کنیم.
- چطور chain-of-thought خام مدل رو مدیریت و ازش استفاده کنیم.
- و مهمتر از همه، توضیح فرمت پاسخدهی OpenAI Harmony.
این دو مورد آخر خیلی مهمن. چون این مدلها با فرمت Harmony آموزش دیدن و برای استفاده درست و گرفتن Chain-of-Thought، باید با این فرمت آشنا بود.
gpt-oss cookbook
🛠 Join @LLMEngineers Community
- چطور مدلهای gpt-oss رو با Hugging Face Transformers فاینتیون کنیم.
- چطور مدلها رو با فریمورکهای بهینهای مثل vLLM یا به صورت محلی با Ollama اجرا کنیم.
- چطور chain-of-thought خام مدل رو مدیریت و ازش استفاده کنیم.
- و مهمتر از همه، توضیح فرمت پاسخدهی OpenAI Harmony.
این دو مورد آخر خیلی مهمن. چون این مدلها با فرمت Harmony آموزش دیدن و برای استفاده درست و گرفتن Chain-of-Thought، باید با این فرمت آشنا بود.
gpt-oss cookbook
🛠 Join @LLMEngineers Community
این نمودار عملکرد مدلهای gpt-oss رو در بنچمارک Humanity's Last Exam نشون میده که شامل سوالات بسیار تخصصی در حوزههای مختلفه. این بنچمارک، توانایی استدلال عمیق و دانش تخصصی مدل رو به چالش میکشه.
مدل gpt-oss-120b با استفاده از ابزار (with tools) به دقت ۱۹٪ میرسه. این بهترین عملکرد در بین مدلهای open-weight موجود در این نموداره.
با این حال، هنوز فاصله قابل توجهی با مدلهای بسته و قدرتمندتر مثل o3 وجود داره که به دقت ۲۴.۹٪ رسیده.
مهمترین نکته، تأثیر ابزارهاست. دقت gpt-oss-120b بدون ابزار از ۱۹٪ به ۱۴.۹٪ سقوط میکنه. این الگو برای مدل gpt-oss-20b هم تکرار میشه (۱۷.۳٪ در مقابل ۱۰.۹٪).
نکته جالب اینه که gpt-oss-120b با ابزار (۱۹٪) عملکرد بهتری از o4-mini با ابزار (۱۷.۷٪) داره که این یک امتیاز مثبت برای این مدل اپن سورس محسوب میشه.
🛠 Join @LLMEngineers Community
مدل gpt-oss-120b با استفاده از ابزار (with tools) به دقت ۱۹٪ میرسه. این بهترین عملکرد در بین مدلهای open-weight موجود در این نموداره.
با این حال، هنوز فاصله قابل توجهی با مدلهای بسته و قدرتمندتر مثل o3 وجود داره که به دقت ۲۴.۹٪ رسیده.
مهمترین نکته، تأثیر ابزارهاست. دقت gpt-oss-120b بدون ابزار از ۱۹٪ به ۱۴.۹٪ سقوط میکنه. این الگو برای مدل gpt-oss-20b هم تکرار میشه (۱۷.۳٪ در مقابل ۱۰.۹٪).
نکته جالب اینه که gpt-oss-120b با ابزار (۱۹٪) عملکرد بهتری از o4-mini با ابزار (۱۷.۷٪) داره که این یک امتیاز مثبت برای این مدل اپن سورس محسوب میشه.
🛠 Join @LLMEngineers Community
این نمودار عملکرد کدنویسی مدلهای gpt-oss رو در مسائل مسابقات برنامهنویسی Codeforces، نشون میده.
مدل gpt-oss-120b با استفاده از tools (ابزارهایی مثل مفسر پایتون) به ریتینگ قابل احترام ۲۶۲۲ رسیده. این امتیاز خیلی بالاست و نشوندهنده توانایی بالای استدلال الگوریتمیه.
با این حال، هنوز از مدلهای بسته مثل o4-mini که ریتینگ ۲۷۱۹ داره، کمی ضعیفتره.
عملکرد مدل gpt-oss-20b هست. این مدل کوچیک وقتی از ابزار استفاده میکنه، به ریتینگ ۲۵۱۶ میرسه که حتی از مدل ۱۲۰ میلیاردی بدون ابزار هم بهتره. این نشون میده معماری و آموزش برای استفاده از ابزار چقدر بهینهست.
🛠 Join @LLMEngineers Community
مدل gpt-oss-120b با استفاده از tools (ابزارهایی مثل مفسر پایتون) به ریتینگ قابل احترام ۲۶۲۲ رسیده. این امتیاز خیلی بالاست و نشوندهنده توانایی بالای استدلال الگوریتمیه.
با این حال، هنوز از مدلهای بسته مثل o4-mini که ریتینگ ۲۷۱۹ داره، کمی ضعیفتره.
عملکرد مدل gpt-oss-20b هست. این مدل کوچیک وقتی از ابزار استفاده میکنه، به ریتینگ ۲۵۱۶ میرسه که حتی از مدل ۱۲۰ میلیاردی بدون ابزار هم بهتره. این نشون میده معماری و آموزش برای استفاده از ابزار چقدر بهینهست.
🛠 Join @LLMEngineers Community
با انتشار مدل های gpt-oss-20b و gpt-oss-120b به صورت اوپن سورس OpenAI کاملاً داره رقیباشو له میکنه
مقایسه با مدل های Qwen با اینکه اینا حدود ۵ برابر پارامترهای فعال کمتر دارن
🛠 Join @LLMEngineers Community
مقایسه با مدل های Qwen با اینکه اینا حدود ۵ برابر پارامترهای فعال کمتر دارن
🛠 Join @LLMEngineers Community
LLM Engineers
Photo
فرمت Harmony که OpenAI با مدلهای gpt-oss معرفی کرده، یه پروتکل ساختاریافته برای تعامل با مدلهای ایجنتمحوره.
چند تا از کلیدیترین ویژگیهای این فرمت:
کانالهای مجزا (Channels): این نوآورانهترین بخش فرمته. به جای اینکه کل جواب مدل یه تیکه تکست باشه، به کانالهای مختلف تقسیم میشه:
کانال analysis: اینجا جاییه که Chain-of-Thought (CoT) یا همون فرآیند فکری مدل قرار میگیره. این همون بخشیه که فیلتر نشده و نباید مستقیم به کاربر نشون داده بشه.
کانال commentary: برای فراخوانی ابزارها (tool calls) استفاده میشه. مدل توی این کانال، پارامترهای فانکشن مورد نظرش رو به صورت ساختاریافته برمیگردونه.
کانال final: این کانال حاوی جواب تمیز و نهاییه که برای نمایش به کاربر در نظر گرفته شده.
نقش Developer و سلسلهمراتب: علاوه بر نقش System و User، یه نقش جدید به اسم Developer اضافه شده. این نقش برای تعریف ابزارها و دادن دستورالعملهای سطح بالا به مدل استفاده میشه. نکته حیاتی، سلسلهمراتب دستوریه: System > Developer > User. این یعنی دستورات System به Developer و دستورات Developer به User ارجحیت دارن و این به دولوپر کنترل دقیقی روی رفتار مدل میده.
تنظیم سطح استدلال (Reasoning Effort): داخل System پراپمت میتونید مشخص کنید که مدل چقدر برای رسیدن به جواب تلاش کنه. سه سطح low، medium و high وجود داره که به شما اجازه میده بین سرعت و دقت، یه تریدآف هوشمندانه برقرار کنید.
کتابخانه رسمی: برای اینکه درگیر پیچیدگیهای رندر و پارس کردن این فرمت رشتهای نشید، OpenAI یه کتابخونه رسمی به اسم openai-harmony منتشر کرده. این کتابخونه که هستهش با Rust برای پرفورمنس بالا نوشته شده و با pyo3 به پایتون متصل شده، به شما اجازه میده با آبجکتهای پایتونی مثل Conversation و Message کار کنید و خود کتابخونه زحمت تبدیلش به توکنهای مورد نیاز مدل رو میکشه.
به نظر من، فرمت Harmony یه شمشیر دولبهست. از یه طرف، با جدا کردن CoT از جواب نهایی، شفافیت و کنترل بینظیری به دولوپر میده و راه رو برای ساخت ایجنتهای پیچیده باز میکنه. از طرف دیگه، پیچیدگی پیادهسازی رو به شدت بالا میبره و مسئولیت مدیریت این فرمت کاملاً روی دوش دولوپره. در واقع OpenAI داره یه استاندارد جدید رو به کامیونیتی تحمیل میکنه که برای استفاده از مدلهاش باید ازش پیروی کنید.
💻 اطلاعات بیشتر و کتابخانه Harmony
🛠 Join @LLMEngineers Community
چند تا از کلیدیترین ویژگیهای این فرمت:
کانالهای مجزا (Channels): این نوآورانهترین بخش فرمته. به جای اینکه کل جواب مدل یه تیکه تکست باشه، به کانالهای مختلف تقسیم میشه:
کانال analysis: اینجا جاییه که Chain-of-Thought (CoT) یا همون فرآیند فکری مدل قرار میگیره. این همون بخشیه که فیلتر نشده و نباید مستقیم به کاربر نشون داده بشه.
کانال commentary: برای فراخوانی ابزارها (tool calls) استفاده میشه. مدل توی این کانال، پارامترهای فانکشن مورد نظرش رو به صورت ساختاریافته برمیگردونه.
کانال final: این کانال حاوی جواب تمیز و نهاییه که برای نمایش به کاربر در نظر گرفته شده.
نقش Developer و سلسلهمراتب: علاوه بر نقش System و User، یه نقش جدید به اسم Developer اضافه شده. این نقش برای تعریف ابزارها و دادن دستورالعملهای سطح بالا به مدل استفاده میشه. نکته حیاتی، سلسلهمراتب دستوریه: System > Developer > User. این یعنی دستورات System به Developer و دستورات Developer به User ارجحیت دارن و این به دولوپر کنترل دقیقی روی رفتار مدل میده.
تنظیم سطح استدلال (Reasoning Effort): داخل System پراپمت میتونید مشخص کنید که مدل چقدر برای رسیدن به جواب تلاش کنه. سه سطح low، medium و high وجود داره که به شما اجازه میده بین سرعت و دقت، یه تریدآف هوشمندانه برقرار کنید.
کتابخانه رسمی: برای اینکه درگیر پیچیدگیهای رندر و پارس کردن این فرمت رشتهای نشید، OpenAI یه کتابخونه رسمی به اسم openai-harmony منتشر کرده. این کتابخونه که هستهش با Rust برای پرفورمنس بالا نوشته شده و با pyo3 به پایتون متصل شده، به شما اجازه میده با آبجکتهای پایتونی مثل Conversation و Message کار کنید و خود کتابخونه زحمت تبدیلش به توکنهای مورد نیاز مدل رو میکشه.
به نظر من، فرمت Harmony یه شمشیر دولبهست. از یه طرف، با جدا کردن CoT از جواب نهایی، شفافیت و کنترل بینظیری به دولوپر میده و راه رو برای ساخت ایجنتهای پیچیده باز میکنه. از طرف دیگه، پیچیدگی پیادهسازی رو به شدت بالا میبره و مسئولیت مدیریت این فرمت کاملاً روی دوش دولوپره. در واقع OpenAI داره یه استاندارد جدید رو به کامیونیتی تحمیل میکنه که برای استفاده از مدلهاش باید ازش پیروی کنید.
💻 اطلاعات بیشتر و کتابخانه Harmony
🛠 Join @LLMEngineers Community
GitHub
GitHub - openai/harmony: Renderer for the harmony response format to be used with gpt-oss
Renderer for the harmony response format to be used with gpt-oss - openai/harmony
این جدول ارزیابی Hallucination مدلهای gpt-oss خیلی چیزها رو روشن میکنه.
نتایج فاجعهباره. مدل gpt-oss-20b روی بنچمارک SimpleQA نرخ توهم یا همون hallucination rate حدود ۹۱٪ داره. یعنی از هر ۱۰ تا جواب، ۹ تاش اشتباه یا ساختگیه. دقتش هم طبیعتاً خیلی پایینه، فقط حدود ۷٪.
نسخه بزرگتر یعنی gpt-oss-120b یکم بهتره ولی هنوز نرخ توهم ۷۸٪ داره که اصلاً قابل قبول نیست. در مقایسه، مدل OpenAI o4-mini با اینکه خودش هم بینقص نیست، نرخ توهم و دقت به مراتب بهتری رو ثبت کرده.
🛠 Join @LLMEngineers Community
نتایج فاجعهباره. مدل gpt-oss-20b روی بنچمارک SimpleQA نرخ توهم یا همون hallucination rate حدود ۹۱٪ داره. یعنی از هر ۱۰ تا جواب، ۹ تاش اشتباه یا ساختگیه. دقتش هم طبیعتاً خیلی پایینه، فقط حدود ۷٪.
نسخه بزرگتر یعنی gpt-oss-120b یکم بهتره ولی هنوز نرخ توهم ۷۸٪ داره که اصلاً قابل قبول نیست. در مقایسه، مدل OpenAI o4-mini با اینکه خودش هم بینقص نیست، نرخ توهم و دقت به مراتب بهتری رو ثبت کرده.
🛠 Join @LLMEngineers Community
نتایج بنچمارکهای EQ-Bench و نویسندگی خلاقانه برای مدلهای gpt-oss منتشر شده و خب، ناامیدکنندهست. این مدلها در زمینههایی که نیاز به هوش هیجانی و خلاقیت داره، عملکرد ضعیفی از خودشون نشون دادن.
این ضعف احتمالاً به خاطر معماری MoE و تعداد پایین پارامترهای فعال (active parameters) در هر لحظهست. با اینکه مدل کلی مثلاً ۱۲۰ میلیارد پارامتر داره، اما برای پردازش هر توکن فقط بخش کوچکی از این پارامترها فعال میشن. این موضوع میتونه روی غنای زبانی و خلاقیت خروجی تأثیر منفی بذاره. البته عملکرد بالای این مدلها در بنچمارکهای دیگه نشون میده که اولویتهای OpenAI جای دیگهای بوده؛ احتمالاً روی کدنویسی، استدلال منطقی و tool use
🛠 Join @LLMEngineers Community
این ضعف احتمالاً به خاطر معماری MoE و تعداد پایین پارامترهای فعال (active parameters) در هر لحظهست. با اینکه مدل کلی مثلاً ۱۲۰ میلیارد پارامتر داره، اما برای پردازش هر توکن فقط بخش کوچکی از این پارامترها فعال میشن. این موضوع میتونه روی غنای زبانی و خلاقیت خروجی تأثیر منفی بذاره. البته عملکرد بالای این مدلها در بنچمارکهای دیگه نشون میده که اولویتهای OpenAI جای دیگهای بوده؛ احتمالاً روی کدنویسی، استدلال منطقی و tool use
🛠 Join @LLMEngineers Community
بزودی خودم یسری بنچمارک روی عملکرد مدل روی دانش زبان فارسی و ایرانی اجرا میکنم و مدل های مختلف رو تست میزنم از جمله مدل های gpt-oss
ملکرد مدلهای gpt-oss که OpenAI منتشر کرده روی بنچمارک ترکیبی Artificial Analysis Intelligence Index قابل قبوله، ولی بهترین نیست. این مدلها بیشتر از اینکه یکهتاز باشن، یه بیسلاین قدرتمند برای جامعه اپنسورس محسوب میشن.
در نهایت، این مدلها بیشتر برای تحقیق و توسعه و ساختن مدلهای فاینتیون شده روی یک معماری قوی کاربرد دارن تا اینکه مستقیماً در پروداکشن، بهترین نتیجه رو بدن. رقابت در فضای اپنسورس خیلی جدیه.
🛠 Join @LLMEngineers Community
در نهایت، این مدلها بیشتر برای تحقیق و توسعه و ساختن مدلهای فاینتیون شده روی یک معماری قوی کاربرد دارن تا اینکه مستقیماً در پروداکشن، بهترین نتیجه رو بدن. رقابت در فضای اپنسورس خیلی جدیه.
🛠 Join @LLMEngineers Community
LLM Engineers
بزودی خودم یسری بنچمارک روی عملکرد مدل روی دانش زبان فارسی و ایرانی اجرا میکنم و مدل های مختلف رو تست میزنم از جمله مدل های gpt-oss
یه بنچمارک برای ارزیابی مدلهای زبان بزرگ روی زبان فارسی ساختم به اسم ParsiEval. هدفم این بود که یه ابزار عملی و استاندارد بسازم تا بتونیم عملکرد واقعی مدلها رو بدون هایپ و تبلیغات، روی زبان فارسی بسنجیم.
این پروژه شامل ۳۶۴ سوال چهارگزینهای تو حوزههای مختلف مثل علم، تاریخ و دانش عمومیه. سعی کردم سوالات جوری باشه که فهم و استدلال مدلها رو به زبان فارسی به چالش بکشه.
نتایجی که از ارزیابی مدلهای مختلف گرفتم خیلی جالبه. همونطور که انتظار میرفت، gpt-4o با حدود ۷۹٪ دقت، بهترین عملکرد رو داشت. اما نکته مهمتر برای من، عملکرد خوب مدلهای اپنسورس مثل kimi-k2 با دقت 77٪ بود.
به نظر من، یکی از کلیدیترین یافتههای این پروژه، افت عملکرد شدید بعضی مدلها مثل سری Qwen موقع فعال کردن حالت thinking یا همون reasoning بود. برای مثال، مدل ۲۳۵ میلیارد پارامتری Qwen وقتی این قابلیت روشنه، دقتش از ۷۰٪ به زیر ۳۰٪ سقوط میکنه. این یعنی این قابلیتها هنوز برای تسکهای فارسی بهینه نشدن و گاهی نتیجه عکس میدن.
این نسخه اول پروژه هست. دارم روی نسخه دوم کار میکنم که دیتاست ارزیابی خیلی بزرگتری خواهد داشت و مدلهای جدیدتر رو هم پوشش میده تا بتونیم تصویر دقیقتری از وضعیت مدلهای فارسی داشته باشیم.
کل پروژه، دیتاست و نتایج روی گیتهاب موجوده. اگه براتون مفید بود یا از این حرکت حمایت میکنید، یه استار ⭐️ تو گیتهاب خیلی کمککنندهست و بهم انگیزه میده که پروژه رو با قدرت بیشتری ادامه بدم.
🧑💻 پروژه ParsiEval در گیتهاب
🛠 Join @LLMEngineers Community
این پروژه شامل ۳۶۴ سوال چهارگزینهای تو حوزههای مختلف مثل علم، تاریخ و دانش عمومیه. سعی کردم سوالات جوری باشه که فهم و استدلال مدلها رو به زبان فارسی به چالش بکشه.
نتایجی که از ارزیابی مدلهای مختلف گرفتم خیلی جالبه. همونطور که انتظار میرفت، gpt-4o با حدود ۷۹٪ دقت، بهترین عملکرد رو داشت. اما نکته مهمتر برای من، عملکرد خوب مدلهای اپنسورس مثل kimi-k2 با دقت 77٪ بود.
به نظر من، یکی از کلیدیترین یافتههای این پروژه، افت عملکرد شدید بعضی مدلها مثل سری Qwen موقع فعال کردن حالت thinking یا همون reasoning بود. برای مثال، مدل ۲۳۵ میلیارد پارامتری Qwen وقتی این قابلیت روشنه، دقتش از ۷۰٪ به زیر ۳۰٪ سقوط میکنه. این یعنی این قابلیتها هنوز برای تسکهای فارسی بهینه نشدن و گاهی نتیجه عکس میدن.
این نسخه اول پروژه هست. دارم روی نسخه دوم کار میکنم که دیتاست ارزیابی خیلی بزرگتری خواهد داشت و مدلهای جدیدتر رو هم پوشش میده تا بتونیم تصویر دقیقتری از وضعیت مدلهای فارسی داشته باشیم.
کل پروژه، دیتاست و نتایج روی گیتهاب موجوده. اگه براتون مفید بود یا از این حرکت حمایت میکنید، یه استار ⭐️ تو گیتهاب خیلی کمککنندهست و بهم انگیزه میده که پروژه رو با قدرت بیشتری ادامه بدم.
🧑💻 پروژه ParsiEval در گیتهاب
🛠 Join @LLMEngineers Community
اینم از نتایج دقت مدلها روی بنچمارک ParsiEval که ساختم.
مدل gpt-4o با ۷۹٪ دقت در صدره بعدشم horizon-beta (احتمالا gpt-5-mini) ولی مدلهای اوپن سورس kimi و llama-4 هم خیلی نزدیک دنبالش میکنن. مدلهای جدید اپنسورس OpenAI یعنی gpt-oss هم عملکرد نسبتا خوبی داشتن و نسخه ۱۲۰ میلیارد پارامتریش به دقت ۷۰٪ رسیده.
🛠 Join @LLMEngineers Community
مدل gpt-4o با ۷۹٪ دقت در صدره بعدشم horizon-beta (احتمالا gpt-5-mini) ولی مدلهای اوپن سورس kimi و llama-4 هم خیلی نزدیک دنبالش میکنن. مدلهای جدید اپنسورس OpenAI یعنی gpt-oss هم عملکرد نسبتا خوبی داشتن و نسخه ۱۲۰ میلیارد پارامتریش به دقت ۷۰٪ رسیده.
🛠 Join @LLMEngineers Community
تو تستای خودم و به نظر شخصی خودم مدلای gpt-oss مزخرف هستن !!
همچنان kimi و qwen رو ترجیح میدم
همچنان kimi و qwen رو ترجیح میدم
تیم Qwen دو مدل جدید ۴ میلیاردی از سری Qwen3 منتشر کرده که برای سیستمهای شخصی یا حتی موبایل ها گزینههای خیلی خوبی به حساب میان.
این سری جدید شامل دو نسخه تخصصی میشه:
نسخه Instruct: بدون reasoning : برای تسکهای عمومی، پشتیبانی چندزبانه و کار با متنهای طولانی (long-context) بهینهسازی شده.
نسخه Thinking: با (reasoning) : برای استدلال در حوزههای منطق، ریاضی، علوم و کدنویسی طراحی شده.
🤗 مدل Instruct در Hugging Face
🤗 مدل Thinking در Hugging Face
🛠 Join @LLMEngineers Community
این سری جدید شامل دو نسخه تخصصی میشه:
نسخه Instruct: بدون reasoning : برای تسکهای عمومی، پشتیبانی چندزبانه و کار با متنهای طولانی (long-context) بهینهسازی شده.
نسخه Thinking: با (reasoning) : برای استدلال در حوزههای منطق، ریاضی، علوم و کدنویسی طراحی شده.
🤗 مدل Instruct در Hugging Face
🤗 مدل Thinking در Hugging Face
🛠 Join @LLMEngineers Community
LLM Engineers
تیم Qwen دو مدل جدید ۴ میلیاردی از سری Qwen3 منتشر کرده که برای سیستمهای شخصی یا حتی موبایل ها گزینههای خیلی خوبی به حساب میان. این سری جدید شامل دو نسخه تخصصی میشه: نسخه Instruct: بدون reasoning : برای تسکهای عمومی، پشتیبانی چندزبانه و کار با متنهای…
این مدل با ۴ میلیارد پارامتر به صورت نیتیو از طول محتوای ۲۵۶ هزار توکن پشتیبانی میکنه. این یعنی برای کار با اسناد خیلی طولانی روی سیستمهای با منابع محدود، گزینهی مناسبیه.
نکته جالب اینجاست که این مدل ۴ میلیاردی توی بعضی بنچمارکهای استدلال و دانش، از نسخه 30B-A3B هم بهتر عمل کرده. مثلا در بنچمارک استدلال منطقی ZebraLogic امتیاز ۸۰.۲ رو گرفته در حالی که نسخه ۳۰ میلیاردی امتیاز ۳۳.۲ داره. یا در بنچمارک ریاضی AIME25 امتیاز ۴۷.۴ رو در مقابل ۲۱.۶ کسب کرده. این جهش عملکردی توی تسکهای پیچیده برای یه مدل با این سایز خیلی قابل توجهه.
همچنین در بنچمارک Arena-Hard v2 که همسویی مدل با ترجیحات انسانی رو میسنجه، امتیاز ۴۳.۴ رو گرفته که نسبت به امتیاز ۹.۵ نسخه قبلی، یک بهبود چشمگیر محسوب میشه و نشون میده که مدل در پاسخ به سوالات باز و تولید متن باکیفیت، خیلی بهتر شده.
به نظر من، این نتایج نشون میده که با post-training هدفمند و دیتاستهای باکیفیت، میشه مدلهای کوچک رو به سطح عملکردی مدلهای خیلی بزرگتر رسوند، مخصوصا در حوزههای تخصصی.
برای استفاده عملی، این مدل به راحتی با ابزارهایی مثل vLLM و sglang برای دیپلوی و با Ollama و llama.cpp برای اجرا روی سیستمهای لوکال سازگاره. قابلیت tool-calling قوی هم داره که برای Agent ها به قابل استفادهست.
🛠 Join @LLMEngineers Community
نکته جالب اینجاست که این مدل ۴ میلیاردی توی بعضی بنچمارکهای استدلال و دانش، از نسخه 30B-A3B هم بهتر عمل کرده. مثلا در بنچمارک استدلال منطقی ZebraLogic امتیاز ۸۰.۲ رو گرفته در حالی که نسخه ۳۰ میلیاردی امتیاز ۳۳.۲ داره. یا در بنچمارک ریاضی AIME25 امتیاز ۴۷.۴ رو در مقابل ۲۱.۶ کسب کرده. این جهش عملکردی توی تسکهای پیچیده برای یه مدل با این سایز خیلی قابل توجهه.
همچنین در بنچمارک Arena-Hard v2 که همسویی مدل با ترجیحات انسانی رو میسنجه، امتیاز ۴۳.۴ رو گرفته که نسبت به امتیاز ۹.۵ نسخه قبلی، یک بهبود چشمگیر محسوب میشه و نشون میده که مدل در پاسخ به سوالات باز و تولید متن باکیفیت، خیلی بهتر شده.
به نظر من، این نتایج نشون میده که با post-training هدفمند و دیتاستهای باکیفیت، میشه مدلهای کوچک رو به سطح عملکردی مدلهای خیلی بزرگتر رسوند، مخصوصا در حوزههای تخصصی.
برای استفاده عملی، این مدل به راحتی با ابزارهایی مثل vLLM و sglang برای دیپلوی و با Ollama و llama.cpp برای اجرا روی سیستمهای لوکال سازگاره. قابلیت tool-calling قوی هم داره که برای Agent ها به قابل استفادهست.
🛠 Join @LLMEngineers Community