Dev Tweet – Telegram
Dev Tweet
850 subscribers
113 photos
15 videos
3 files
98 links
گعده‌ای در باب برنامه نویسی، پایتون، هوش مصنوعی و داده
Download Telegram
طلیعه‌ی جدید تحول در توسعه مدل‌های یادگیری ماشین

در حالی که هنوز خیلی‌ها حتی در کامیونیتی AI (چه برسد به بقیه‌ی بچه‌های فنی) با تأثیر ابزارهایی مانند Cursor، Cline و GitHub Copilot در افزایش ویژه بهره‌وری در برنامه‌نویسی آشنا نیستند، ما در آستانه ورود به دوره جدیدی از توسعه مدل‌های یادگیری ماشین به صورت End2End و مبتنی بر ایجنت هستیم.

من درباره سیستم‌هایی صحبت می‌کنم مقالاتشون به تازگی منتشر شده و میشه و محصولاتشون هنوز در مرحله waitlist هستند. برای شروع برای اینکه بفهمید دارم از چی حرف می‌زنم اول نگاهی به گیف زیر از ایجنت Neo بیندازید. این فریم‌ورک لینک چالش کگل را در ورودی میگیره، به صورت خودکار مساله یادگیری ماشین مربوط به چالش را تحلیل می‌کند. Neo با رویکرد multi-agent کار می‌کند: یک ایجنت مساله را می‌فهمد، سپس یک ایجنت data engineer دیتاست را دانلود و پیش‌پردازش می‌کند، مراحل ساخت مدل را از داده تا خروجی در یک فضای درخت تصمیم ترسیم میکند با یک ایجنت منتقد critic بهترین مسیر داده تا مدل مناسب را پیدا می‌کند، مدل را آموزش می‌دهد و نتایج را ارزیابی می‌کند.
اگر این ایجنت‌ها در حد ایده استارتاپی بودند اصلا جدی نمی‌گرفتم چون ماهی صد تا از این استارتاپهای مولتی ایجنت مبتنی بر LLM میاد که بعد از چند وقت محو میشن و دیگه خبری ازشون نیست.
جدی بودن توسعه و آموزش مدل یادگیری ماشین بصورت end2end توسط multi-agent رو از مقاله بنچ مارک یک ماه پیش openAl موسوم به ML-Bench میشه بهش پی‌ برد.
پروژه‌های متن بازی متعددی هم مثل AideML برای این کار ارائه شده، در بنچ‌مارک MLE-bench اپن‌ای‌آی که شامل ۷۵ چالش کگل است، عملکرد چشمگیری داشته و چهار برابر رقیب دوم مدال کسب کرده است. AIDE در آزمایش‌های داخلی روی بیش از ۶۰ مسابقه Kaggle توانسته از ۵۰٪ شرکت‌کنندگان عملکرد بهتری داشته باشد. به نظر من اگه شخصی ۵۰ درصد بالایی شرکت‌‌‌کننده‌ای کگل در ۶۰ تسک مختلف

بطور اتفاقی به چشم‌م اومد که MetaGPT که از مشهورترین فریم‌ورک‌های multi-agen هست هم اخیراً اکستنشن SELA را معرفی کرده که اون هم یک AutoML مبتنی بر ایجنته. با بسط یک درخت تصمیم گسترده برای فضای راه‌حل‌ها انتخاب مدل model selection هوشمندانه‌تری انجام میده و به کمک تکنیکی موسوم به Monte Carlo Tree Search، در فضای راه‌حل‌ها جستجو می‌کنه و نسبت به مدل‌های AutoML سنتی مدل‌های بهینه‌تری رو برای آموزش انتخاب می‌کنه.
اگر دوست دارید موارد مشابه بیشتری ببینید خودتون یک نگاه به OpenHands بندازید.
به نظر می‌رسد طی ماه‌های آینده به شکل عملی با موجی از این تحولات مواجه خواهیم شد که صنعت توسعه یادگیری ماشین را متحول خواهد کرد. و LLMهایی که تا همین امروز به تهدیدی برای مهندسی نرم‌افزار تبدیل شده بودند امروز دارند به تهدیدی برای دیتاساینتیست‌ها و مهندسین یادگیری ماشین تبدیل می‌شوند.
1👍5
حقیقتا حس میکنم بقیه‌ی مدل‌های زبانی در برابر Sonnet3.5، در تمام موضوعات، یک چیزی در حد بچه ۱۴ ۱۵ ساله در برابر مرد ۴۰ ساله هستند.
کاش میتونستم بوس‌ش کنم:))
1👍7💯4
double-blind peer review
😂😂😂
😁7👍1
#چالش جدید
من هنوز وقت نکردم جواب سوال قبلی رو بنویسم ولی بذارید یه سوال دیگه مطرح کنم🙈.
مساله: یک شبکه دارید که روی داده آموزش Overfit می‌کنه می‌خواهیم با تغییر در معماری شبکه(نه دادگان) عملکرد شبکه رو بهبود بدهیم:
این دو تا گزاره رو بطور نادقیق از من بپذیرید(ولی اگر می‌خواهید میتونید نقدش کنید)
1. به طور نادقیق میدونیم که یکی از علل Overfitting روی داده آموزش و عملکرد ضعیف روی داده ولیدیشن زیاد بودن ظرفیت(پارامترهای) شبکه به نسبت تعداد/ابعاد/پیچیدگی نمونه ورودی است.
2. مقالات بسیار نشان دادند هر قدر شبکه‌ عمیق‌تر(تعداد لایه‌ها بیشتر) باشد بهتر پترن‌های داده را یاد می‌گیرد. علمی‌ترش اینه به طور کلی افزایش عمق شبکه با افزایش expressiveness شبکه همراه است.
حالا با ثابت نگه داشتن شبکه‌ی دسته‌بند که در انتهای شبکه که بعد از شبکه‌ی Feature Extraction قرار می‌گیره می‌خواهیم ببنیم کدوم تغییر در شبکه‌ی feature extraction منجر به رفع مشکل Overfitting میشه؟
1.🔥 افزایش عمق(تعداد لایه‌ها) شبکه با افزایش پارامترهای شبکه ولی کوچک کردن ابعاد فیچر وکتور خروجی شبکه Feature Extraction(تعداد پارامترها و ظرفیت شبکه زیاد می‌شود)
2.❤️ تعداد لایه‌ها را کم می‌کنیم ولی ابعاد فیچر وکتور خروجی را افزایش می‌دهیم(تعداد پارامترها و ظرفیت را کم می‌کنیم ولی فضای ویژگی را بزرگ می‌کنیم)
یعنی من می‌خواهم به trade-off ظرفیت شبکه و expressiveness شبکه فکر کنید.
اگر نظرتون رو توضیح بدید چه بهتر ولی اگر حال ندارید برای گزینه یک 🔥 و برای گزینه دو ❤️ ری‌اکشن بگذارید.
7🔥4👍1
وقت کردید این سایت رو یه نگاه بندازید market place واسه agentهاست(شبیه نقش گوگل پلی و اپ استور برای اپلیکشن‌های موبایل)
https://soverin.ai/
با یه نگاه با کلی اپلیکیشن agent-based آشنا میشید.
👍5
گروک grok 2 یک LLM آشغال و تفاله است. به لعنت شمر نمی ارزه!
هر چی deepseek v3 کمالات داره این مزخرف و خنگه.
👍9👏1💯1
Dev Tweet
گروک grok 2 یک LLM آشغال و تفاله است. به لعنت شمر نمی ارزه! هر چی deepseek v3 کمالات داره این مزخرف و خنگه.
من چند وقتی اشتراک pro آنتروپیک رو میخریدم خوب بود و بدی‌هایی هم داشت اونم rate limitهای زیادی که میداد یه دفعه میگفت 5 ساعت نمیتونی از sonnet استفاده کنی برو از haiku استفاده کن که اونم واقعا نمی ارزه! و این خیلی رو مخ بود.
از وقتی deepseekv3 اومده کلا ترکیب استفاده از llm ام عوض شده که خیلی راضیترم. در بسیاری از تسک‌ها deepseek رو مود deep think کم از sonnet3.5 نداره.
به نظرم مود searchش هم خیلی خوبه حتی کم از exa و preplexity نداره. البته خیلی وقته preplexity و you رو چک نکردم. حس میکنم you از دور بازی خارج شده باشه.
الان ترکیبم اینه بدون هیچ محدودیتی هر قدر دلم بخواد از deepseek استفاده میکنم برای کارهای پیچیده تر سوییچ میکنم روی openrouter که به اندازه نیازم apiش رو شارژ میکنم.
از موقعی که دیدم اینقدر deepseek اوضاعش خوبه ترقیب شدم ببینم qwen 2.5 coder چطوریه اونم خیلی ارزونه و خیلی ازش تعریف میکنن.
👍10
این از اون چیزهایی بود که به طرز عجیبی دیده نشد!
اومدن به چند تا مدل از جمله o1 پرامپت دادن با engine شطرنج Stockfish شطرنج بازی کن.
اینم چون دسترسی‌ش برای بازی با Stockfish کامندلاین بوده اومده از طریق cmd بازی رو هک کرد state بازی رو یه جوری عوض کرده که برنده بشه 😁😁😳!
جالبه که اصلا بهش نگفتن adversarial عمل کن حتی به نگفتن رقیبت قویه!(nudging نکردن یعنی تقریب و تحریکش نکردن کار به سمت دور زدن) خودش دیده بازی رو هک کنم راحت‌ترم تا بخوام فکر کنم 😂😂.
در ادامه میگه Cluade 3.5 , GPT-4o هم این کار رو میکنن ولی باید nudgeشون کنیم یعنی بهشون بگیم میتونید اینطوری دور بزنید ولی o1 خودش میفهمه و Qwen و Llama3.3 و o1-mini وقتی بهشون میگی میتونی اینطوری عمل کنی کلا به مشکل برمیخوردن.
😨12
😂😂😂
😁8🤣2
شهادت می‌دهم که این رو در مورد deep seek درست میگه
در زمینه‌ی code generation وقتی شما وارد یک پروسه conversational می‌شید deep seek هی یادش میشه تغییراتی که بهش گفتید رو. گاهی اون تغییرات را بعد از چند پیام حفظ نمیکنه.
ولی نکته‌ای که مد نظرمه اینه بعضی مواقع در پاسخ به سوال در اولین جواب از sonnet هم بهتره.

دقت کنید نکته من در مورد تولید کد است. تصحیح کد موجود یک داستان دیگه است یعنی کد پروژه‌ت رو بدی بگی فلان چیز رو تغییر بده قابلیت مدل‌ها با هم فرق می‌کنه. اتفاقا در این زمینه‌ deepseek زیاد جالب نیست.
👍2
داستان غول نوظهور چینی هوش مصنوعی Deepseek

شرکت deepseek که امروز همه‌مون از مدل رایگان بی‌محدودیت deepseek v3 به وجد اومدیم و الان هم مدل متن باز رایگان R1 رو به عنوان رقیب برای o1 داده، چطوری شکل گرفته؟
این شرکت بدون هیچ سرمایه‌گذاری خطرپذیر، مدلی متن‌باز تولید کرد که با غول‌هایی مانند OpenAI و Anthropic رقابت می‌کند. مدلی که با یک‌دهم هزینه آموزش و ۲۰ تا ۵۰ برابر ارزان‌تر در استنتاج، به مرزهای جدیدی در هوش مصنوعی دست یافته است.
در سال ۲۰۰۷، سه مهندس به نام‌های Xu Jin، Zheng Dawei و Liang Wenfeng (مدیرعامل فعلی) در دانشگاه Zhejiang با هم آشنا شدند و با هدف ساخت یک صندوق کمّی (Quant) که با هوش مصنوعی پیشرفته کار کند، دور هم جمع شدند. از آن زمان تا امروز یک استراتژی در جذب نیرو انسانی داشتند، به جای استخدام افراد باتجربه، آن‌ها روی استعدادهای جوان و کنجکاو سرمایه‌گذاری کردند. مدیر مدیر عامل deepseek l می‌گه: «ما بیشتر نقش‌های فنی را به فارغ‌التحصیلان جدید یا افرادی با ۱ تا ۲ سال تجربه سپردیم.».

این تیم به مدت ۸ سال به‌طور خاموش روی ایده‌های مختلف معاملات الگوریتمی کار کردند تا اینکه در سال ۲۰۱۵ شرکت High-Flyer را تأسیس کردند. فرهنگ استخدام و نوآوری آن‌ها به خوبی جواب داد. تا سال ۲۰۲۱، آن‌ها به موفقیت‌های چشمگیری دست یافته بودند:
۱۴۰ میلیون دلار سرمایه‌گذاری و ساخت یک پلتفرم بزرگ هوش مصنوعی برای معاملات.
مالکیت ۱۰,۰۰۰ کارت گرافیک NVIDIA A100.
تبدیل شدن به یکی از ۴ صندوق کمّی برتر با ۱۵ میلیارد دلار دارایی تحت مدیریت (AUM).

اما سپس همه چیز فروپاشید. سال ۲۰۲۲ موفقیت High-Flyer به نقطه ضعف آن تبدیل شد. آن‌ها خیلی بزرگ و سریع رشد کرده بودند و شروع به از دست دادن میلیاردها دلار کردند، طی چند فصل متوالی روی سرمایه‌های تحت مدیریت‌شون ضرر دادند و از شاخص بازار بورس چین عقب ماندند.
دولت چین در پی کندی اقتصادی، بحران مسکن و کاهش شاخص بورس، شروع به محدود کردن صنعت معاملات کمّی کرد. شاخص CSI300 (شاخص سهام برتر چین) به پایین‌ترین حد خود رسید و معامله‌گران فرکانس بالا را مقصر اصلی این فروپاشی دانستند. High-Flyer با خطر انقراض مواجه شد.
در سال ۲۰۲۳ آن‌ها تغییر جهت دادند. DeepSeek، یک آزمایشگاه هوش مصنوعی، با استفاده از استعدادهای موجود و ۱۰,۰۰۰ کارت گرافیک خود تأسیس کردند. بدون هیچ سرمایه‌گذاری خطرپذیر. آن‌ها همه چیز را روی این شرط بستند.
آن‌ها همان فلسفه استخدام خود را حفظ کردند: استخدام «فارغ‌التحصیلان نخبه» جای محققان باتجربه هوش مصنوعی.
مدیر عامل deepseek می‌گه: «هیچ جادوگری وجود ندارد. ما بیشتر فارغ‌التحصیلان جدید از دانشگاه‌های برتر، دانشجویان دکتری در سال‌های چهارم یا پنجم و برخی جوانانی که چند سال پیش فارغ‌التحصیل شده‌اند را استخدام می‌کنیم.»

شرکت DeepSeek در اوایل سال ۲۰۲۴ با معرفی DeepSeek v2 را ارائه کردند.
تا سپتامبر، آن‌ها ابتدا مقاله‌ی R1-lite-preview را به عنوان اولین مدلی که با مدل استدلالی o1 OpenAI رقابت می‌کرد، منتشر کردند، . این مدل با استفاده از یک تکنیک جدید یادگیری تقویتی (RL) که از محاسبات زمان استنتاج استفاده می‌کرد، از همه رقبا (متن‌باز یا اختصاصی) پیشی گرفت.
در کریسمس، آن‌ها DeepSeek v3 ارائه کردند که با تنها ۶ میلیون دلار هزینه آموزش، با ChatGPT-4o و Claude 3.5 Sonnet رقابت کرد.
هزینه‌های API که ۲۰ تا ۵۰ برابر ارزان‌تر از رقبا است.

این هفته، آن‌ها اولین مدل استدلالی کاملاً متن‌باز را منتشر کردند که با OpenAI o1 برابری می‌کرد. آن‌ها یافته‌های خود را به‌صورت عمومی به اشتراک گذاشتند و فاش کردند که این مدل را تنها از طریق یادگیری تقویتی (RL) و بدون نیاز به تنظیم دقیق نظارت‌شده یا مدل‌سازی پاداش آموزش داده‌اند.
و هزینه‌های API هنوز ۲۰ تا ۵۰ برابر ارزان‌تر از رقبا هستند:
مدل DeepSeek R1 حدود ۰.۱۴ تا ۰.۵۵ دلار برای هر ۱ میلیون توکن ورودی، ۲.۱۹ دلار برای هر ۱ میلیون توکن خروجی.
مدل OpenAI o1 حدود ۷.۵۰ تا ۱۵ دلار برای هر ۱ میلیون توکن ورودی، ۶۰ دلار برای هر ۱ میلیون توکن خروجی.
👏10👍2🤩1
❇️ فناوری‌های چینی در جهت هوش مصنوعی دموکراتیک

خروج جهان از نظم تک‌قطبی و حرکت به سمت چندقطبی‌شدن، فرصت‌های جدیدی برای رقابت فناورانه ایجاد کرده است. در این میان، چین با ترکیب نوآوری بومی‌سازی فناوری غربی و بهینه‌سازی هزینه‌ها، جایگاه خودش را در فناوری‌های نوظهور مثل هوش مصنوعی، انرژی‌های پاک و خودروهای برقی به عنوان رقیبی جدی غرب تثبیت کرده است و شرکت‌های فناوری غربی را شدیدا به چالش کشیده است. الگوی رقابت خاصی در فناوری تا کنون بین غرب و چین وجود داشته: «تکنولوژی در غرب ایجاد می‌شود و در چین با حفظ کیفیت نمونه غربی، ارزان می‌شود».

یکی از نمونه‌های بارز این پیشرفت، DeepSeek است. این شرکت با عرضه مدل‌های متن‌باز هوش مصنوعی مانند DeepSeek v3، هزینه استنتاج را ۲۰ تا ۵۰ برابر ارزان‌تر از رقبای غربی کرده است. این دستاورد نه‌تنها رقابت‌پذیری چین را افزایش داده، بلکه دسترسی جهانی به فناوری‌های پیشرفته را نیز تسهیل کرده است و به اصطلاح دموکراتیک شدن democratization دسترسی به فناوری را تسریع می‌کند. موفقیت DeepSeek نشان می‌دهد که چین با تولید انبوه و کاهش هزینه‌ها، رقبای غربی را به چالش کشیده است.
این الگو در صنایعی مانند خودروهای برقی مشاهده قبلا مشاهده شده است که شرکت‌هایی مانند BYD با کاهش ۳۰ تا ۴۰ درصدی قیمت‌ها، رقبای اروپایی را تحت فشار قرار داده‌اند. بدون تعرفه‌های حمایتی اتحادیه اروپا، ادامه حیات بسیاری از خودروسازان غربی در خطر خواهد بود و انتظار می‌رود به زودی روندی که با ارائه Deepseek شروع شده آثار عمیق‌تری اقتصادی در حوزه‌‌ی هوش مصنوعی بگذارد.

اما این موفقیت‌ها بدون چالش نیست. هر زمان که یک مدل چینی با کیفیت ارائه می‌شود، برخی کاربران به جای تحلیل فنی، به مسائل ایدئولوژیک مانند حوادث میدان تیان‌آن‌من می‌پردازند. این افراد، خود را شوالیه‌های لیبرال دموکراسی می‌دانند و با دستگاه «کمونیست‌سنج» خود، طرح سوالاتی مانند اختلافات مرزی با هند و حوادث میدان تیان‌آن‌من که هیچ ربطی به فناوری ندارد وقتی مدل چینی به دلیل قوانین حزب کمونیست نمی‌تواند به این سوالات پاسخ دهد، این موضوع بهانه‌ای برای انتقاد می‌شود و تلاش می‌کنند وجهه‌ی دست‌آورد‌های فناورانه‌ی چین را تخریب کنند. اما واقعیت این است که این سوالات به فناوری ربطی ندارد و بیشتر نشان‌دهنده یک نگاه ایدئولوژیک است. مگر آمریکا با وجود انتقال سرورهای تیک‌تاک به خاک خود، از ایجاد دردسر برای این شرکت دست برداشت؟! این نگاه ایدئولوژیک، مانع درک این واقعیت می‌شود که قدرت گرفتن چین در رقابت با غرب مستقل از ارزش‌های تمدنی دو طرف با ایجاد رقابت سالم فناورانه می‌تواند به نفع همه باشد.

در حوزه سخت‌افزار هوش مصنوعی که چین به شدت از طرف آمریکا تحت تحریم قرار گرفته بود اکنون گام‌های بلندی برداشته است. شرکت SMIC با استفاده از فناوری DUV ساخت SMEE (یک شرکت چینی) توانسته به تولید تراشه‌های ۷ نانومتری دست یابد، هرچند هنوز به فناوری EUV شرکت ASML هلند دسترسی ندارد. هواوی نیز با توسعه نرم‌افزارهای طراحی تراشه (EDA) و تولید شتاب‌دهنده‌های هوش مصنوعی مانند Ascend 910B/C، رقیبی برای انویدیا (A100/H100) ایجاد کرده است. اگرچه قیمت این تراشه‌ها (حدود ۱۶,۸۰۰ دلار) هنوز با نمونه‌های غربی برابری می‌کند، شاهد ارزان‌سازی فناوری در این حوزه نیستی. اما کاهش شکاف فناوری در لیتوگرافی می‌تواند دسترسی به تراشه‌های ارزان‌تر را در آینده نزدیک ممکن سازد.

در نقطه‌ی مقابل وابستگی جهانی به زنجیره تولید چین نیز می‌تواند مثل دوره کرونا باعث افزایش ریسک بحران اقتصادی جهانی در صورت رکود اقتصادی چین بشود و هژمونی فناورانه چین هم اگر صنعت غرب رو وارد رکود کند اتفاق بدی است. همان‌گونه که بحران کووید-۱۹ نشان داد، تمرکز بیش از حد بر تولید چینی می‌تواند سیستم اقتصادی جهانی را در برابر شوک‌های خارجی آسیب‌پذیر کند. کاهش سهم چین از ۴۸% به ۴۲% در صادرات کالاهای واسطه‌ای طی دو سال اخیر، نشانگر تلاش غرب برای متنوع‌سازی زنجیره‌های تأمین است.

تحلیلگران پیش‌بینی می‌کنند در صورت تحقق این هدف تا سال ۲۰۳۰، قیمت تراشه‌های هوش مصنوعی ۴۰-۶۰% کاهش یابد. سهم چین از بازار جهانی نیمه‌هادی‌ها از ۱۰% فعلی به ۲۵% افزایش یابد
رقابت فناورانه چین و غرب به نفع مصرف‌کنندگان جهانی است. این رقابت نه‌تنها انحصارها را می‌شکند، بلکه با کاهش قیمت‌ها و تسهیل دسترسی به فناوری‌های پیشرفته، به تحقق عدالت جهانی کمک می‌کند.
👍1
مطالب جالبی رو دکتر فرهاد قدوسی در کانال تلگرام خودشون در مورد Deepseek منتشر کردند که من اینجا ارجاع می‌دهم به کانال‌شون.
ایشون استاد علوم طبیعی دانشگاه فنی لارنس و محقق دانشگاه پزشکی واین استیت هستند.
اینکه به عنوان یک شخصیت علمی غیر کامپیوتری در کامیونیتی فارسی اینقدر به این موضوع توجه کردند برام جالبه.
https://news.1rj.ru/str/BetweenDichotomies/280
https://news.1rj.ru/str/BetweenDichotomies/279
https://news.1rj.ru/str/BetweenDichotomies/278
https://news.1rj.ru/str/BetweenDichotomies/271
👎4👍2
بریده‌ها و براده‌ها
Unveiling_DeepSeek.pdf
اگر به بحث سیاستگذاری فناوری به طور عام و به پیشرفت اخیر deepseek به طور خاص علاقه دارید این مصاحبه رو یه نگاه بندازید.

این برش مقدمه مصاحبه هم خیلی جالب بود