Dev Tweet – Telegram
Dev Tweet
850 subscribers
113 photos
15 videos
3 files
98 links
گعده‌ای در باب برنامه نویسی، پایتون، هوش مصنوعی و داده
Download Telegram
گویا OpenAI طبق برنامه قرار تازه سال 2029 سودده بشه. یعنی سرمایه‌گذارای VC باید خیلی صبور باشن.
احتمالا OpenAI در سال‌های آینده زمانی وارد دوره‌ی سود خودش میشه که ایجنت‌ها راه بیفتن و OpenAI بتونه در قالب SaaS ازشون پول بگیره.
یه چیز دیگه هم بگم، این $5 میلیارد ضرری که الان OpenAI داره رو نباید زیاد جدی گرفت. تو فضای سرمایه‌گذاری خطرپذیر، این ترازهای منفی عادیه.
قضیه جالب می‌شه که بدونید هزینه‌ش تا پایان ۲۰۲۶ حدود ۱۴ میلیارد دلار و تا پایان ۲۰۲۹ حدود ۴۴ میلیارد دلار برآورد شده!
هزینه‌ حقوقش خیلی جالبه یکسال ۷۰۰ میلیون دلار حقوق داده!
نکته جالب دیگه‌ش اینه که هزینه‌ی آموزش‌ش از هزینه‌ی run یعنی inference ش یک میلیارد دلار بیشتره! این نشون میده چقدر آموزش پرهزینه‌ است که وقتی اینقدر کاربر داره و اینقدر ازش استفاده میشه(هزینه‌ inference) هنوز به پای هزینه‌ی آموزش نمی‌رسه!
👍7
Dev Tweet
شرکت‌های بزرگ در توسعه LLMها هر کدوم مسیر متفاوتی رو طی می‌کنند. OpenAI و گوگل در پی ساخت مدل‌های زبانی خیلی بزرگ هستند. فیس‌بوک در پی ساختن مدل‌های کارآمد متن‌بازه ولی نقطه‌ مقابل گوگل و OpenAI که در پی ارائه سرویس‌های ابری Foundation Model است تمرکز اپل…
دوباره اعضای همون تیم ایرانی اپل که چند ماه پیش یک مقاله ازشون گذاشتم یک مقاله دیگه دادن خیلی مورد توجه قرار گرفته.
قسمت‌های هایلایت شده چکیده نتیجه کل مقاله رو به خوبی خلاصه میکنه.
👍51
معرفی یک کورس دانشگاهی، آینه‌ای برای دیدن زخم‌های عمیق آکادمی ایران...

وقتی کورس‌های جدیدی را که در دانشگاه‌های آمریکا، خصوصاً استنفورد و برکلی که خیلی در این مسئله پیشتاز هستند، در موضوعات روز می‌بینم به این نتیجه می‌رسم دانشگاه در ایران رسماً مرده!

به جز شریف که آن هم کاملاً به دو استاد مرتبط می‌شود یعنی دکتر رهبان و سلیمانی (و این هم کاملاً به انگیزه شخصی دو استاد برمی‌گردد و لاغیر)، بی اغراق من هیچ درسی در تحصیلات تکمیلی AI که موضوع آن دوره مبحث جدیدتری از مباحث ۲۰۱۶ باشد، ندیده‌ام.

حالا شما ببینید اصلاً این موضوع agentic AI هنوز به جایی نرسیده، خبری نیست، اما آمده‌اند در برکلی کورسش کرده‌اند. کورس دانشگاهی شدن یه موضوع به این جدید غیر از این است که Andrew Ng در deeplearning.ai یک mini-course برگزار کند. چون در کورس دانشگاهی باید بتوانی اندازه شانزده هفته‌ی دو جلسه محتوای ارائه دهی و از آن پروژه و امتحان طرح کنی.

علتش این شکاف عمیق در بخش آموزش تحصیلات تکمیلی در ایران و آمریکا این است که دیگر در حداقل حوزه AI، تدریس از روی textbook دوره‌اش گذشته. اصلاً این‌قدر سرعت تولید دانش زیاد است که نمی‌صرفد کسی از آن کتاب بنویسد. کتابش به سه ماه نرسیده شبیه کتاب‌های تاریخ می‌شود :) حالا استاد محترم حقیقتاً حال ندارد کورسی بگذارد که تکست بوک ندارد. چون نیاز به تسلط خیلی عمیق روی تعداد زیادی مقاله دارد و هم دانشجوهای بی‌انگیزه خسته‌ات می‌کنند. در آن سر عالم، سال‌هاست یک استاد نیست که کورس را بگذارد. می‌کند استاد یک فهرست محتوا تدارک می‌بیند، مقدمات را خودش درس می‌دهد و در موارد تخصصی از پژوهشگر موضوعی مربوط به محتوا دعوت می‌کند آن موضوع را تدریس کند.

این را هم بگویم دوستان، این وضعیت تقصیر استاد نیست. استادی که در بهترین حالت در ۳۳ سالگی (در اکثر موارد بدون فرصت مطالعاتی و پسا‌دکترا با سفارش ویژه‌ی استاد راهنما در هیات جذب هیئت علمی می‌شود) و در معمول موارد در ۴۰ سالگی هیات علمی می‌شود و تازه بعد از این همه درس خواندن می‌خواهند بهش در حد نصف حقوق (دقت کنید نصف!) کارگرهای خانگی بنگلادشی توی امارات بدهند و اگر در ۶۰ سالگی استاد تمام شود در حد آن کارگر ساده بی‌مهارت بنگلادشی حقوق بگیرد. از استادی که لنگ حقوق و نان شب و اجاره خانه است توقعی نمی‌توانی داشته باشی.

منی که بیش از یک دهه عمرم در دانشگاه بودم فقط و فقط در استاد و دانشجو افول دیدم و بس. تازه فقط مشکل حقوق استاد نیست، همین استاد باید کار چهار هیات علمی را بکند. علت هم کمبود شدید و پایین بودن نسبت تعداد هیئت علمی به دانشجو است. دیگر نه دانشگاه پول دارد هیات علمی استخدام کند و نه دیگر آدم باسوادی رزومه برای هیات جذب دانشگاه‌ها می‌فرستد، چون یا اپلای می‌کنند یا وارد بازار کار می‌شوند. اگر وارد منجلاب هیات علمی شدن بشوند دیگر فراری نیست.

خیلی از آزمایشگاه‌های تحصیلات تکمیلی سال‌هاست که دیگر رسماً جلسه آزمایشگاه ندارند! چون دانشجو دکتری پسر که نمی‌تواند تا ۳۰ سالگی از جیب پدر بخورد باید کار کند. حتی اگر از سمت خانواده تامین باشد چون آن مدرک دکتری فردا که فارغ‌التحصیل شود بدون سابقه کاری موثر بی‌معنی و بی‌فایده است. دانشجو هم کار می‌کند، استاد هم خیلی نمی‌تواند فشار بیاورد چون اگر فشار زیاد شود در جا انصراف می‌دهد (چندین مورد در این سال‌ها دیدم).
وضعیت دانشجوی ارشد و کارشناسی جدید که والذاریاتی است قابل گفتن نیست...
خلاصه دانشگاهی که دانشجو و استادش مرده‌اند خودش هم می‌میرد...

مساله این نیست که ما نمی‌فهمیم یا بلد نیستیم، مساله تمامش اقتصادی است. مساله امروز ما در همه چیز از جمله آکادمی GDP per Capita است. خدا می‌داند چند ماه پیش با استادم صحبت کردیم از حوزه رساله‌ام (که چهار پنج کورس سر و صاحب‌دار بیشتر ازش در دنیا نیست) یک کورس در دانشکده ارائه کنیم اما هم من هم استادم می‌دانستیم به نتیجه نمی‌رسد چون این کارها در کنار انگیزه وقت می‌خواهد. نه من و نه خودش وقت این کارها را نداریم. من عمده وقتم را کار می‌کنم نه پژوهش، آن هم خیلی حوصله ندارد ساعت کاری‌اش را در دانشگاه پر کند.

معرفی این کورس جدید Agentic AI هم سر درد و دل من را باز کرد...

خلاصه که وضعیت دانشگاه این مملکت شبیه بقیه چیزهایش هست، شبیه صنعت برقش، شبیه اقتصادش...

نشسته‌ایم بالای سر پیکر محتضر این گربه عزیز فقط آه می‌کشیم 😭😭😭.
👍154😢2👎1💔1
سیستم رو باز کردم دیدم از دیشب داره یه ویدئو کرش کورس دیپ لرنینگ پخش میشه
این ویدئو ۳.۲ میلیون بازدید داره!!!
کرش کورس با بازدید میلیونی!
بعد اومدم تو کامنتا فهمیدم چطوری اینقدر ویو گرفته:))))
😁4🤡3
یک سوال آموزنده و کاربردی:
به نظرتون آیا آموزش دادن مجدد(re-training) مدل به داده‌هایی که اونها را درست پیش‌بینی کرده است می‌تواند به کارآیی مدل بی‌افزاید؟ چرا؟


اگر حال ندارید در موردش صحبت کنید، جواب مثبت را با 👍 و جواب منفی رو با 👎 بصورت reaction نشان دهید.
👎15👍13
Dev Tweet
یک سوال آموزنده و کاربردی: به نظرتون آیا آموزش دادن مجدد(re-training) مدل به داده‌هایی که اونها را درست پیش‌بینی کرده است می‌تواند به کارآیی مدل بی‌افزاید؟ چرا؟ اگر حال ندارید در موردش صحبت کنید، جواب مثبت را با 👍 و جواب منفی رو با 👎 بصورت reaction نشان…
دمتون گرم بخاطر نظراتتون
من تا فردا تجربه خودم و تئوری کار رو براتون ارسال می‌کنم
اگه تا فردا هم بیشتر نظر بدید ذهن من واسه نوشتن نکاتم بازتر میشه.
اینکه تقریبا رای‌ها نصف نصفه واسه من خیلی مهمه!
چرا؟ چون اگر سوال من براتون مبهم جا نیفتاده باشه یعنی یک تردید جدی نسبت به این سوال کلیدی در ذهن مخاطب هست و این یعنی پرداختن بهش ارزش داره!
من یکی از اعتیادام اینه حتما نویسنده‌های یک مقاله و affiliationهاشون رو نگاه می‌کنم وقتی تو لیست نویسنده‌ها یه ایرانی ببینم سریع می‌رم ببینم طرف کیه!
یکی از آزمایشگا‌ه‌هایی که کاراش خیلی به رساله دکتری من مربوطه همین مرکز تحقیقاتی ترندز Trends هست وابسته به دانشگاه جورجیا استیت هست. به تبع زیاد پیش میاد که برم مقاله‌هاشون رو بخونم. و انصافا در حوزه AI و تصاویر مغزی جز خفن‌ترین مراکز تحقیقاتی دنیا هستن حسب مقالاتشون.
یه نگاه سرسری انداختم دیدم ۱۵ نفر ایرانی داره!
هم غصه می‌خورم هم کیف میکنم🤩 ولی حسم بیشتر اولیه😢.
تازه اسم همه رو هم نزده چون یکی سریا رو میشناسم ولی تو این صفحه نبود.
https://trendscenter.org/people
😢3
طلیعه‌ی جدید تحول در توسعه مدل‌های یادگیری ماشین

در حالی که هنوز خیلی‌ها حتی در کامیونیتی AI (چه برسد به بقیه‌ی بچه‌های فنی) با تأثیر ابزارهایی مانند Cursor، Cline و GitHub Copilot در افزایش ویژه بهره‌وری در برنامه‌نویسی آشنا نیستند، ما در آستانه ورود به دوره جدیدی از توسعه مدل‌های یادگیری ماشین به صورت End2End و مبتنی بر ایجنت هستیم.

من درباره سیستم‌هایی صحبت می‌کنم مقالاتشون به تازگی منتشر شده و میشه و محصولاتشون هنوز در مرحله waitlist هستند. برای شروع برای اینکه بفهمید دارم از چی حرف می‌زنم اول نگاهی به گیف زیر از ایجنت Neo بیندازید. این فریم‌ورک لینک چالش کگل را در ورودی میگیره، به صورت خودکار مساله یادگیری ماشین مربوط به چالش را تحلیل می‌کند. Neo با رویکرد multi-agent کار می‌کند: یک ایجنت مساله را می‌فهمد، سپس یک ایجنت data engineer دیتاست را دانلود و پیش‌پردازش می‌کند، مراحل ساخت مدل را از داده تا خروجی در یک فضای درخت تصمیم ترسیم میکند با یک ایجنت منتقد critic بهترین مسیر داده تا مدل مناسب را پیدا می‌کند، مدل را آموزش می‌دهد و نتایج را ارزیابی می‌کند.
اگر این ایجنت‌ها در حد ایده استارتاپی بودند اصلا جدی نمی‌گرفتم چون ماهی صد تا از این استارتاپهای مولتی ایجنت مبتنی بر LLM میاد که بعد از چند وقت محو میشن و دیگه خبری ازشون نیست.
جدی بودن توسعه و آموزش مدل یادگیری ماشین بصورت end2end توسط multi-agent رو از مقاله بنچ مارک یک ماه پیش openAl موسوم به ML-Bench میشه بهش پی‌ برد.
پروژه‌های متن بازی متعددی هم مثل AideML برای این کار ارائه شده، در بنچ‌مارک MLE-bench اپن‌ای‌آی که شامل ۷۵ چالش کگل است، عملکرد چشمگیری داشته و چهار برابر رقیب دوم مدال کسب کرده است. AIDE در آزمایش‌های داخلی روی بیش از ۶۰ مسابقه Kaggle توانسته از ۵۰٪ شرکت‌کنندگان عملکرد بهتری داشته باشد. به نظر من اگه شخصی ۵۰ درصد بالایی شرکت‌‌‌کننده‌ای کگل در ۶۰ تسک مختلف

بطور اتفاقی به چشم‌م اومد که MetaGPT که از مشهورترین فریم‌ورک‌های multi-agen هست هم اخیراً اکستنشن SELA را معرفی کرده که اون هم یک AutoML مبتنی بر ایجنته. با بسط یک درخت تصمیم گسترده برای فضای راه‌حل‌ها انتخاب مدل model selection هوشمندانه‌تری انجام میده و به کمک تکنیکی موسوم به Monte Carlo Tree Search، در فضای راه‌حل‌ها جستجو می‌کنه و نسبت به مدل‌های AutoML سنتی مدل‌های بهینه‌تری رو برای آموزش انتخاب می‌کنه.
اگر دوست دارید موارد مشابه بیشتری ببینید خودتون یک نگاه به OpenHands بندازید.
به نظر می‌رسد طی ماه‌های آینده به شکل عملی با موجی از این تحولات مواجه خواهیم شد که صنعت توسعه یادگیری ماشین را متحول خواهد کرد. و LLMهایی که تا همین امروز به تهدیدی برای مهندسی نرم‌افزار تبدیل شده بودند امروز دارند به تهدیدی برای دیتاساینتیست‌ها و مهندسین یادگیری ماشین تبدیل می‌شوند.
1👍5
حقیقتا حس میکنم بقیه‌ی مدل‌های زبانی در برابر Sonnet3.5، در تمام موضوعات، یک چیزی در حد بچه ۱۴ ۱۵ ساله در برابر مرد ۴۰ ساله هستند.
کاش میتونستم بوس‌ش کنم:))
1👍7💯4
double-blind peer review
😂😂😂
😁7👍1
#چالش جدید
من هنوز وقت نکردم جواب سوال قبلی رو بنویسم ولی بذارید یه سوال دیگه مطرح کنم🙈.
مساله: یک شبکه دارید که روی داده آموزش Overfit می‌کنه می‌خواهیم با تغییر در معماری شبکه(نه دادگان) عملکرد شبکه رو بهبود بدهیم:
این دو تا گزاره رو بطور نادقیق از من بپذیرید(ولی اگر می‌خواهید میتونید نقدش کنید)
1. به طور نادقیق میدونیم که یکی از علل Overfitting روی داده آموزش و عملکرد ضعیف روی داده ولیدیشن زیاد بودن ظرفیت(پارامترهای) شبکه به نسبت تعداد/ابعاد/پیچیدگی نمونه ورودی است.
2. مقالات بسیار نشان دادند هر قدر شبکه‌ عمیق‌تر(تعداد لایه‌ها بیشتر) باشد بهتر پترن‌های داده را یاد می‌گیرد. علمی‌ترش اینه به طور کلی افزایش عمق شبکه با افزایش expressiveness شبکه همراه است.
حالا با ثابت نگه داشتن شبکه‌ی دسته‌بند که در انتهای شبکه که بعد از شبکه‌ی Feature Extraction قرار می‌گیره می‌خواهیم ببنیم کدوم تغییر در شبکه‌ی feature extraction منجر به رفع مشکل Overfitting میشه؟
1.🔥 افزایش عمق(تعداد لایه‌ها) شبکه با افزایش پارامترهای شبکه ولی کوچک کردن ابعاد فیچر وکتور خروجی شبکه Feature Extraction(تعداد پارامترها و ظرفیت شبکه زیاد می‌شود)
2.❤️ تعداد لایه‌ها را کم می‌کنیم ولی ابعاد فیچر وکتور خروجی را افزایش می‌دهیم(تعداد پارامترها و ظرفیت را کم می‌کنیم ولی فضای ویژگی را بزرگ می‌کنیم)
یعنی من می‌خواهم به trade-off ظرفیت شبکه و expressiveness شبکه فکر کنید.
اگر نظرتون رو توضیح بدید چه بهتر ولی اگر حال ندارید برای گزینه یک 🔥 و برای گزینه دو ❤️ ری‌اکشن بگذارید.
7🔥4👍1
وقت کردید این سایت رو یه نگاه بندازید market place واسه agentهاست(شبیه نقش گوگل پلی و اپ استور برای اپلیکشن‌های موبایل)
https://soverin.ai/
با یه نگاه با کلی اپلیکیشن agent-based آشنا میشید.
👍5
گروک grok 2 یک LLM آشغال و تفاله است. به لعنت شمر نمی ارزه!
هر چی deepseek v3 کمالات داره این مزخرف و خنگه.
👍9👏1💯1
Dev Tweet
گروک grok 2 یک LLM آشغال و تفاله است. به لعنت شمر نمی ارزه! هر چی deepseek v3 کمالات داره این مزخرف و خنگه.
من چند وقتی اشتراک pro آنتروپیک رو میخریدم خوب بود و بدی‌هایی هم داشت اونم rate limitهای زیادی که میداد یه دفعه میگفت 5 ساعت نمیتونی از sonnet استفاده کنی برو از haiku استفاده کن که اونم واقعا نمی ارزه! و این خیلی رو مخ بود.
از وقتی deepseekv3 اومده کلا ترکیب استفاده از llm ام عوض شده که خیلی راضیترم. در بسیاری از تسک‌ها deepseek رو مود deep think کم از sonnet3.5 نداره.
به نظرم مود searchش هم خیلی خوبه حتی کم از exa و preplexity نداره. البته خیلی وقته preplexity و you رو چک نکردم. حس میکنم you از دور بازی خارج شده باشه.
الان ترکیبم اینه بدون هیچ محدودیتی هر قدر دلم بخواد از deepseek استفاده میکنم برای کارهای پیچیده تر سوییچ میکنم روی openrouter که به اندازه نیازم apiش رو شارژ میکنم.
از موقعی که دیدم اینقدر deepseek اوضاعش خوبه ترقیب شدم ببینم qwen 2.5 coder چطوریه اونم خیلی ارزونه و خیلی ازش تعریف میکنن.
👍10
این از اون چیزهایی بود که به طرز عجیبی دیده نشد!
اومدن به چند تا مدل از جمله o1 پرامپت دادن با engine شطرنج Stockfish شطرنج بازی کن.
اینم چون دسترسی‌ش برای بازی با Stockfish کامندلاین بوده اومده از طریق cmd بازی رو هک کرد state بازی رو یه جوری عوض کرده که برنده بشه 😁😁😳!
جالبه که اصلا بهش نگفتن adversarial عمل کن حتی به نگفتن رقیبت قویه!(nudging نکردن یعنی تقریب و تحریکش نکردن کار به سمت دور زدن) خودش دیده بازی رو هک کنم راحت‌ترم تا بخوام فکر کنم 😂😂.
در ادامه میگه Cluade 3.5 , GPT-4o هم این کار رو میکنن ولی باید nudgeشون کنیم یعنی بهشون بگیم میتونید اینطوری دور بزنید ولی o1 خودش میفهمه و Qwen و Llama3.3 و o1-mini وقتی بهشون میگی میتونی اینطوری عمل کنی کلا به مشکل برمیخوردن.
😨12