سیستم رو باز کردم دیدم از دیشب داره یه ویدئو کرش کورس دیپ لرنینگ پخش میشه
این ویدئو ۳.۲ میلیون بازدید داره!!!
کرش کورس با بازدید میلیونی!
بعد اومدم تو کامنتا فهمیدم چطوری اینقدر ویو گرفته:))))
این ویدئو ۳.۲ میلیون بازدید داره!!!
کرش کورس با بازدید میلیونی!
بعد اومدم تو کامنتا فهمیدم چطوری اینقدر ویو گرفته:))))
😁4🤡3
یک سوال آموزنده و کاربردی:
به نظرتون آیا آموزش دادن مجدد(re-training) مدل به دادههایی که اونها را درست پیشبینی کرده است میتواند به کارآیی مدل بیافزاید؟ چرا؟
اگر حال ندارید در موردش صحبت کنید، جواب مثبت را با 👍 و جواب منفی رو با 👎 بصورت reaction نشان دهید.
به نظرتون آیا آموزش دادن مجدد(re-training) مدل به دادههایی که اونها را درست پیشبینی کرده است میتواند به کارآیی مدل بیافزاید؟ چرا؟
اگر حال ندارید در موردش صحبت کنید، جواب مثبت را با 👍 و جواب منفی رو با 👎 بصورت reaction نشان دهید.
👎15👍13
Dev Tweet
یک سوال آموزنده و کاربردی: به نظرتون آیا آموزش دادن مجدد(re-training) مدل به دادههایی که اونها را درست پیشبینی کرده است میتواند به کارآیی مدل بیافزاید؟ چرا؟ اگر حال ندارید در موردش صحبت کنید، جواب مثبت را با 👍 و جواب منفی رو با 👎 بصورت reaction نشان…
برای نظر دادن روی پست نیاز نیست عضو گروه متصل به کانال بشوید.
Dev Tweet
یک سوال آموزنده و کاربردی: به نظرتون آیا آموزش دادن مجدد(re-training) مدل به دادههایی که اونها را درست پیشبینی کرده است میتواند به کارآیی مدل بیافزاید؟ چرا؟ اگر حال ندارید در موردش صحبت کنید، جواب مثبت را با 👍 و جواب منفی رو با 👎 بصورت reaction نشان…
دمتون گرم بخاطر نظراتتون
من تا فردا تجربه خودم و تئوری کار رو براتون ارسال میکنم
اگه تا فردا هم بیشتر نظر بدید ذهن من واسه نوشتن نکاتم بازتر میشه.
اینکه تقریبا رایها نصف نصفه واسه من خیلی مهمه!
چرا؟ چون اگر سوال من براتون مبهم جا نیفتاده باشه یعنی یک تردید جدی نسبت به این سوال کلیدی در ذهن مخاطب هست و این یعنی پرداختن بهش ارزش داره!
من تا فردا تجربه خودم و تئوری کار رو براتون ارسال میکنم
اگه تا فردا هم بیشتر نظر بدید ذهن من واسه نوشتن نکاتم بازتر میشه.
اینکه تقریبا رایها نصف نصفه واسه من خیلی مهمه!
چرا؟ چون اگر سوال من براتون مبهم جا نیفتاده باشه یعنی یک تردید جدی نسبت به این سوال کلیدی در ذهن مخاطب هست و این یعنی پرداختن بهش ارزش داره!
من یکی از اعتیادام اینه حتما نویسندههای یک مقاله و affiliationهاشون رو نگاه میکنم وقتی تو لیست نویسندهها یه ایرانی ببینم سریع میرم ببینم طرف کیه!
یکی از آزمایشگاههایی که کاراش خیلی به رساله دکتری من مربوطه همین مرکز تحقیقاتی ترندز Trends هست وابسته به دانشگاه جورجیا استیت هست. به تبع زیاد پیش میاد که برم مقالههاشون رو بخونم. و انصافا در حوزه AI و تصاویر مغزی جز خفنترین مراکز تحقیقاتی دنیا هستن حسب مقالاتشون.
یه نگاه سرسری انداختم دیدم ۱۵ نفر ایرانی داره!
هم غصه میخورم هم کیف میکنم🤩 ولی حسم بیشتر اولیه😢.
تازه اسم همه رو هم نزده چون یکی سریا رو میشناسم ولی تو این صفحه نبود.
https://trendscenter.org/people
یکی از آزمایشگاههایی که کاراش خیلی به رساله دکتری من مربوطه همین مرکز تحقیقاتی ترندز Trends هست وابسته به دانشگاه جورجیا استیت هست. به تبع زیاد پیش میاد که برم مقالههاشون رو بخونم. و انصافا در حوزه AI و تصاویر مغزی جز خفنترین مراکز تحقیقاتی دنیا هستن حسب مقالاتشون.
یه نگاه سرسری انداختم دیدم ۱۵ نفر ایرانی داره!
هم غصه میخورم هم کیف میکنم🤩 ولی حسم بیشتر اولیه😢.
تازه اسم همه رو هم نزده چون یکی سریا رو میشناسم ولی تو این صفحه نبود.
https://trendscenter.org/people
TReNDS
People - TReNDS
😢3
Dev Tweet
یک سوال آموزنده و کاربردی: به نظرتون آیا آموزش دادن مجدد(re-training) مدل به دادههایی که اونها را درست پیشبینی کرده است میتواند به کارآیی مدل بیافزاید؟ چرا؟ اگر حال ندارید در موردش صحبت کنید، جواب مثبت را با 👍 و جواب منفی رو با 👎 بصورت reaction نشان…
عذرخواهی میکنم از تاخیری که در نوشتن جواب این نظرسنجی پیش آمده یه کم زیاد سرم شلوغ شده کارا پیش خورده.
👍3
طلیعهی جدید تحول در توسعه مدلهای یادگیری ماشین
در حالی که هنوز خیلیها حتی در کامیونیتی AI (چه برسد به بقیهی بچههای فنی) با تأثیر ابزارهایی مانند Cursor، Cline و GitHub Copilot در افزایش ویژه بهرهوری در برنامهنویسی آشنا نیستند، ما در آستانه ورود به دوره جدیدی از توسعه مدلهای یادگیری ماشین به صورت End2End و مبتنی بر ایجنت هستیم.
من درباره سیستمهایی صحبت میکنم مقالاتشون به تازگی منتشر شده و میشه و محصولاتشون هنوز در مرحله waitlist هستند. برای شروع برای اینکه بفهمید دارم از چی حرف میزنم اول نگاهی به گیف زیر از ایجنت Neo بیندازید. این فریمورک لینک چالش کگل را در ورودی میگیره، به صورت خودکار مساله یادگیری ماشین مربوط به چالش را تحلیل میکند. Neo با رویکرد multi-agent کار میکند: یک ایجنت مساله را میفهمد، سپس یک ایجنت data engineer دیتاست را دانلود و پیشپردازش میکند، مراحل ساخت مدل را از داده تا خروجی در یک فضای درخت تصمیم ترسیم میکند با یک ایجنت منتقد critic بهترین مسیر داده تا مدل مناسب را پیدا میکند، مدل را آموزش میدهد و نتایج را ارزیابی میکند.
اگر این ایجنتها در حد ایده استارتاپی بودند اصلا جدی نمیگرفتم چون ماهی صد تا از این استارتاپهای مولتی ایجنت مبتنی بر LLM میاد که بعد از چند وقت محو میشن و دیگه خبری ازشون نیست.
جدی بودن توسعه و آموزش مدل یادگیری ماشین بصورت end2end توسط multi-agent رو از مقاله بنچ مارک یک ماه پیش openAl موسوم به ML-Bench میشه بهش پی برد.
پروژههای متن بازی متعددی هم مثل AideML برای این کار ارائه شده، در بنچمارک MLE-bench اپنایآی که شامل ۷۵ چالش کگل است، عملکرد چشمگیری داشته و چهار برابر رقیب دوم مدال کسب کرده است. AIDE در آزمایشهای داخلی روی بیش از ۶۰ مسابقه Kaggle توانسته از ۵۰٪ شرکتکنندگان عملکرد بهتری داشته باشد. به نظر من اگه شخصی ۵۰ درصد بالایی شرکتکنندهای کگل در ۶۰ تسک مختلف
بطور اتفاقی به چشمم اومد که MetaGPT که از مشهورترین فریمورکهای multi-agen هست هم اخیراً اکستنشن SELA را معرفی کرده که اون هم یک AutoML مبتنی بر ایجنته. با بسط یک درخت تصمیم گسترده برای فضای راهحلها انتخاب مدل model selection هوشمندانهتری انجام میده و به کمک تکنیکی موسوم به Monte Carlo Tree Search، در فضای راهحلها جستجو میکنه و نسبت به مدلهای AutoML سنتی مدلهای بهینهتری رو برای آموزش انتخاب میکنه.
اگر دوست دارید موارد مشابه بیشتری ببینید خودتون یک نگاه به OpenHands بندازید.
به نظر میرسد طی ماههای آینده به شکل عملی با موجی از این تحولات مواجه خواهیم شد که صنعت توسعه یادگیری ماشین را متحول خواهد کرد. و LLMهایی که تا همین امروز به تهدیدی برای مهندسی نرمافزار تبدیل شده بودند امروز دارند به تهدیدی برای دیتاساینتیستها و مهندسین یادگیری ماشین تبدیل میشوند.
در حالی که هنوز خیلیها حتی در کامیونیتی AI (چه برسد به بقیهی بچههای فنی) با تأثیر ابزارهایی مانند Cursor، Cline و GitHub Copilot در افزایش ویژه بهرهوری در برنامهنویسی آشنا نیستند، ما در آستانه ورود به دوره جدیدی از توسعه مدلهای یادگیری ماشین به صورت End2End و مبتنی بر ایجنت هستیم.
من درباره سیستمهایی صحبت میکنم مقالاتشون به تازگی منتشر شده و میشه و محصولاتشون هنوز در مرحله waitlist هستند. برای شروع برای اینکه بفهمید دارم از چی حرف میزنم اول نگاهی به گیف زیر از ایجنت Neo بیندازید. این فریمورک لینک چالش کگل را در ورودی میگیره، به صورت خودکار مساله یادگیری ماشین مربوط به چالش را تحلیل میکند. Neo با رویکرد multi-agent کار میکند: یک ایجنت مساله را میفهمد، سپس یک ایجنت data engineer دیتاست را دانلود و پیشپردازش میکند، مراحل ساخت مدل را از داده تا خروجی در یک فضای درخت تصمیم ترسیم میکند با یک ایجنت منتقد critic بهترین مسیر داده تا مدل مناسب را پیدا میکند، مدل را آموزش میدهد و نتایج را ارزیابی میکند.
اگر این ایجنتها در حد ایده استارتاپی بودند اصلا جدی نمیگرفتم چون ماهی صد تا از این استارتاپهای مولتی ایجنت مبتنی بر LLM میاد که بعد از چند وقت محو میشن و دیگه خبری ازشون نیست.
جدی بودن توسعه و آموزش مدل یادگیری ماشین بصورت end2end توسط multi-agent رو از مقاله بنچ مارک یک ماه پیش openAl موسوم به ML-Bench میشه بهش پی برد.
پروژههای متن بازی متعددی هم مثل AideML برای این کار ارائه شده، در بنچمارک MLE-bench اپنایآی که شامل ۷۵ چالش کگل است، عملکرد چشمگیری داشته و چهار برابر رقیب دوم مدال کسب کرده است. AIDE در آزمایشهای داخلی روی بیش از ۶۰ مسابقه Kaggle توانسته از ۵۰٪ شرکتکنندگان عملکرد بهتری داشته باشد. به نظر من اگه شخصی ۵۰ درصد بالایی شرکتکنندهای کگل در ۶۰ تسک مختلف
بطور اتفاقی به چشمم اومد که MetaGPT که از مشهورترین فریمورکهای multi-agen هست هم اخیراً اکستنشن SELA را معرفی کرده که اون هم یک AutoML مبتنی بر ایجنته. با بسط یک درخت تصمیم گسترده برای فضای راهحلها انتخاب مدل model selection هوشمندانهتری انجام میده و به کمک تکنیکی موسوم به Monte Carlo Tree Search، در فضای راهحلها جستجو میکنه و نسبت به مدلهای AutoML سنتی مدلهای بهینهتری رو برای آموزش انتخاب میکنه.
اگر دوست دارید موارد مشابه بیشتری ببینید خودتون یک نگاه به OpenHands بندازید.
به نظر میرسد طی ماههای آینده به شکل عملی با موجی از این تحولات مواجه خواهیم شد که صنعت توسعه یادگیری ماشین را متحول خواهد کرد. و LLMهایی که تا همین امروز به تهدیدی برای مهندسی نرمافزار تبدیل شده بودند امروز دارند به تهدیدی برای دیتاساینتیستها و مهندسین یادگیری ماشین تبدیل میشوند.
Weco AI
AIDE: Human-Level Performance on Data Science Competitions | Weco AI
In the world of data science, Kaggle competitions have become a widely accepted standard...
1👍5
حقیقتا حس میکنم بقیهی مدلهای زبانی در برابر Sonnet3.5، در تمام موضوعات، یک چیزی در حد بچه ۱۴ ۱۵ ساله در برابر مرد ۴۰ ساله هستند.
کاش میتونستم بوسش کنم:))
کاش میتونستم بوسش کنم:))
1👍7💯4
Dev Tweet
حقیقتا حس میکنم بقیهی مدلهای زبانی در برابر Sonnet3.5، در تمام موضوعات، یک چیزی در حد بچه ۱۴ ۱۵ ساله در برابر مرد ۴۰ ساله هستند. کاش میتونستم بوسش کنم:))
سبحان الله!
در هیات مدیره انتروپیک(شرکت مدل زبانی Claudia) یک ایرانی پیدا کردم به عنوان نماینده شرکت سرمایه گذار SparkCapital!
خانم یاسمن رضوی
قبلا پروداکت منیجر اسنپ بوده!
الان تریلی رزومهش رو نمیکشه! بیزینس اسکول هاروراد!
در هیات مدیره انتروپیک(شرکت مدل زبانی Claudia) یک ایرانی پیدا کردم به عنوان نماینده شرکت سرمایه گذار SparkCapital!
خانم یاسمن رضوی
قبلا پروداکت منیجر اسنپ بوده!
الان تریلی رزومهش رو نمیکشه! بیزینس اسکول هاروراد!
Sparkcapital
Yasmin Razavi
Yasmin Razavi doesn’t make gut-based decisions. For her, the often decade-long partnership between a founder and VC deserves a special kind of attention. As a general partner at Spark, she spends the mental calories required to look at the data, the story…
👍9
#چالش جدید
من هنوز وقت نکردم جواب سوال قبلی رو بنویسم ولی بذارید یه سوال دیگه مطرح کنم🙈.
مساله: یک شبکه دارید که روی داده آموزش Overfit میکنه میخواهیم با تغییر در معماری شبکه(نه دادگان) عملکرد شبکه رو بهبود بدهیم:
این دو تا گزاره رو بطور نادقیق از من بپذیرید(ولی اگر میخواهید میتونید نقدش کنید)
1. به طور نادقیق میدونیم که یکی از علل Overfitting روی داده آموزش و عملکرد ضعیف روی داده ولیدیشن زیاد بودن ظرفیت(پارامترهای) شبکه به نسبت تعداد/ابعاد/پیچیدگی نمونه ورودی است.
2. مقالات بسیار نشان دادند هر قدر شبکه عمیقتر(تعداد لایهها بیشتر) باشد بهتر پترنهای داده را یاد میگیرد. علمیترش اینه به طور کلی افزایش عمق شبکه با افزایش expressiveness شبکه همراه است.
حالا با ثابت نگه داشتن شبکهی دستهبند که در انتهای شبکه که بعد از شبکهی Feature Extraction قرار میگیره میخواهیم ببنیم کدوم تغییر در شبکهی feature extraction منجر به رفع مشکل Overfitting میشه؟
1.🔥 افزایش عمق(تعداد لایهها) شبکه با افزایش پارامترهای شبکه ولی کوچک کردن ابعاد فیچر وکتور خروجی شبکه Feature Extraction(تعداد پارامترها و ظرفیت شبکه زیاد میشود)
2.❤️ تعداد لایهها را کم میکنیم ولی ابعاد فیچر وکتور خروجی را افزایش میدهیم(تعداد پارامترها و ظرفیت را کم میکنیم ولی فضای ویژگی را بزرگ میکنیم)
یعنی من میخواهم به trade-off ظرفیت شبکه و expressiveness شبکه فکر کنید.
اگر نظرتون رو توضیح بدید چه بهتر ولی اگر حال ندارید برای گزینه یک 🔥 و برای گزینه دو ❤️ ریاکشن بگذارید.
من هنوز وقت نکردم جواب سوال قبلی رو بنویسم ولی بذارید یه سوال دیگه مطرح کنم🙈.
مساله: یک شبکه دارید که روی داده آموزش Overfit میکنه میخواهیم با تغییر در معماری شبکه(نه دادگان) عملکرد شبکه رو بهبود بدهیم:
این دو تا گزاره رو بطور نادقیق از من بپذیرید(ولی اگر میخواهید میتونید نقدش کنید)
1. به طور نادقیق میدونیم که یکی از علل Overfitting روی داده آموزش و عملکرد ضعیف روی داده ولیدیشن زیاد بودن ظرفیت(پارامترهای) شبکه به نسبت تعداد/ابعاد/پیچیدگی نمونه ورودی است.
2. مقالات بسیار نشان دادند هر قدر شبکه عمیقتر(تعداد لایهها بیشتر) باشد بهتر پترنهای داده را یاد میگیرد. علمیترش اینه به طور کلی افزایش عمق شبکه با افزایش expressiveness شبکه همراه است.
حالا با ثابت نگه داشتن شبکهی دستهبند که در انتهای شبکه که بعد از شبکهی Feature Extraction قرار میگیره میخواهیم ببنیم کدوم تغییر در شبکهی feature extraction منجر به رفع مشکل Overfitting میشه؟
1.🔥 افزایش عمق(تعداد لایهها) شبکه با افزایش پارامترهای شبکه ولی کوچک کردن ابعاد فیچر وکتور خروجی شبکه Feature Extraction(تعداد پارامترها و ظرفیت شبکه زیاد میشود)
2.❤️ تعداد لایهها را کم میکنیم ولی ابعاد فیچر وکتور خروجی را افزایش میدهیم(تعداد پارامترها و ظرفیت را کم میکنیم ولی فضای ویژگی را بزرگ میکنیم)
یعنی من میخواهم به trade-off ظرفیت شبکه و expressiveness شبکه فکر کنید.
اگر نظرتون رو توضیح بدید چه بهتر ولی اگر حال ندارید برای گزینه یک 🔥 و برای گزینه دو ❤️ ریاکشن بگذارید.
❤7🔥4👍1
وقت کردید این سایت رو یه نگاه بندازید market place واسه agentهاست(شبیه نقش گوگل پلی و اپ استور برای اپلیکشنهای موبایل)
https://soverin.ai/
با یه نگاه با کلی اپلیکیشن agent-based آشنا میشید.
https://soverin.ai/
با یه نگاه با کلی اپلیکیشن agent-based آشنا میشید.
soverin.ai
Soverin is a smarter way to work. We're building the marketplace for AI apps and agents.
👍5
گروک grok 2 یک LLM آشغال و تفاله است. به لعنت شمر نمی ارزه!
هر چی deepseek v3 کمالات داره این مزخرف و خنگه.
هر چی deepseek v3 کمالات داره این مزخرف و خنگه.
👍9👏1💯1
Dev Tweet
گروک grok 2 یک LLM آشغال و تفاله است. به لعنت شمر نمی ارزه! هر چی deepseek v3 کمالات داره این مزخرف و خنگه.
من چند وقتی اشتراک pro آنتروپیک رو میخریدم خوب بود و بدیهایی هم داشت اونم rate limitهای زیادی که میداد یه دفعه میگفت 5 ساعت نمیتونی از sonnet استفاده کنی برو از haiku استفاده کن که اونم واقعا نمی ارزه! و این خیلی رو مخ بود.
از وقتی deepseekv3 اومده کلا ترکیب استفاده از llm ام عوض شده که خیلی راضیترم. در بسیاری از تسکها deepseek رو مود deep think کم از sonnet3.5 نداره.
به نظرم مود searchش هم خیلی خوبه حتی کم از exa و preplexity نداره. البته خیلی وقته preplexity و you رو چک نکردم. حس میکنم you از دور بازی خارج شده باشه.
الان ترکیبم اینه بدون هیچ محدودیتی هر قدر دلم بخواد از deepseek استفاده میکنم برای کارهای پیچیده تر سوییچ میکنم روی openrouter که به اندازه نیازم apiش رو شارژ میکنم.
از موقعی که دیدم اینقدر deepseek اوضاعش خوبه ترقیب شدم ببینم qwen 2.5 coder چطوریه اونم خیلی ارزونه و خیلی ازش تعریف میکنن.
از وقتی deepseekv3 اومده کلا ترکیب استفاده از llm ام عوض شده که خیلی راضیترم. در بسیاری از تسکها deepseek رو مود deep think کم از sonnet3.5 نداره.
به نظرم مود searchش هم خیلی خوبه حتی کم از exa و preplexity نداره. البته خیلی وقته preplexity و you رو چک نکردم. حس میکنم you از دور بازی خارج شده باشه.
الان ترکیبم اینه بدون هیچ محدودیتی هر قدر دلم بخواد از deepseek استفاده میکنم برای کارهای پیچیده تر سوییچ میکنم روی openrouter که به اندازه نیازم apiش رو شارژ میکنم.
از موقعی که دیدم اینقدر deepseek اوضاعش خوبه ترقیب شدم ببینم qwen 2.5 coder چطوریه اونم خیلی ارزونه و خیلی ازش تعریف میکنن.
👍10
این از اون چیزهایی بود که به طرز عجیبی دیده نشد!
اومدن به چند تا مدل از جمله o1 پرامپت دادن با engine شطرنج Stockfish شطرنج بازی کن.
اینم چون دسترسیش برای بازی با Stockfish کامندلاین بوده اومده از طریق cmd بازی رو هک کرد state بازی رو یه جوری عوض کرده که برنده بشه 😁😁😳!
جالبه که اصلا بهش نگفتن adversarial عمل کن حتی به نگفتن رقیبت قویه!(nudging نکردن یعنی تقریب و تحریکش نکردن کار به سمت دور زدن) خودش دیده بازی رو هک کنم راحتترم تا بخوام فکر کنم 😂😂.
در ادامه میگه Cluade 3.5 , GPT-4o هم این کار رو میکنن ولی باید nudgeشون کنیم یعنی بهشون بگیم میتونید اینطوری دور بزنید ولی o1 خودش میفهمه و Qwen و Llama3.3 و o1-mini وقتی بهشون میگی میتونی اینطوری عمل کنی کلا به مشکل برمیخوردن.
اومدن به چند تا مدل از جمله o1 پرامپت دادن با engine شطرنج Stockfish شطرنج بازی کن.
اینم چون دسترسیش برای بازی با Stockfish کامندلاین بوده اومده از طریق cmd بازی رو هک کرد state بازی رو یه جوری عوض کرده که برنده بشه 😁😁😳!
جالبه که اصلا بهش نگفتن adversarial عمل کن حتی به نگفتن رقیبت قویه!(nudging نکردن یعنی تقریب و تحریکش نکردن کار به سمت دور زدن) خودش دیده بازی رو هک کنم راحتترم تا بخوام فکر کنم 😂😂.
در ادامه میگه Cluade 3.5 , GPT-4o هم این کار رو میکنن ولی باید nudgeشون کنیم یعنی بهشون بگیم میتونید اینطوری دور بزنید ولی o1 خودش میفهمه و Qwen و Llama3.3 و o1-mini وقتی بهشون میگی میتونی اینطوری عمل کنی کلا به مشکل برمیخوردن.
😨12
شهادت میدهم که این رو در مورد deep seek درست میگه
در زمینهی code generation وقتی شما وارد یک پروسه conversational میشید deep seek هی یادش میشه تغییراتی که بهش گفتید رو. گاهی اون تغییرات را بعد از چند پیام حفظ نمیکنه.
ولی نکتهای که مد نظرمه اینه بعضی مواقع در پاسخ به سوال در اولین جواب از sonnet هم بهتره.
دقت کنید نکته من در مورد تولید کد است. تصحیح کد موجود یک داستان دیگه است یعنی کد پروژهت رو بدی بگی فلان چیز رو تغییر بده قابلیت مدلها با هم فرق میکنه. اتفاقا در این زمینه deepseek زیاد جالب نیست.
در زمینهی code generation وقتی شما وارد یک پروسه conversational میشید deep seek هی یادش میشه تغییراتی که بهش گفتید رو. گاهی اون تغییرات را بعد از چند پیام حفظ نمیکنه.
ولی نکتهای که مد نظرمه اینه بعضی مواقع در پاسخ به سوال در اولین جواب از sonnet هم بهتره.
دقت کنید نکته من در مورد تولید کد است. تصحیح کد موجود یک داستان دیگه است یعنی کد پروژهت رو بدی بگی فلان چیز رو تغییر بده قابلیت مدلها با هم فرق میکنه. اتفاقا در این زمینه deepseek زیاد جالب نیست.
👍2
داستان غول نوظهور چینی هوش مصنوعی Deepseek
شرکت deepseek که امروز همهمون از مدل رایگان بیمحدودیت deepseek v3 به وجد اومدیم و الان هم مدل متن باز رایگان R1 رو به عنوان رقیب برای o1 داده، چطوری شکل گرفته؟
این شرکت بدون هیچ سرمایهگذاری خطرپذیر، مدلی متنباز تولید کرد که با غولهایی مانند OpenAI و Anthropic رقابت میکند. مدلی که با یکدهم هزینه آموزش و ۲۰ تا ۵۰ برابر ارزانتر در استنتاج، به مرزهای جدیدی در هوش مصنوعی دست یافته است.
در سال ۲۰۰۷، سه مهندس به نامهای Xu Jin، Zheng Dawei و Liang Wenfeng (مدیرعامل فعلی) در دانشگاه Zhejiang با هم آشنا شدند و با هدف ساخت یک صندوق کمّی (Quant) که با هوش مصنوعی پیشرفته کار کند، دور هم جمع شدند. از آن زمان تا امروز یک استراتژی در جذب نیرو انسانی داشتند، به جای استخدام افراد باتجربه، آنها روی استعدادهای جوان و کنجکاو سرمایهگذاری کردند. مدیر مدیر عامل deepseek l میگه: «ما بیشتر نقشهای فنی را به فارغالتحصیلان جدید یا افرادی با ۱ تا ۲ سال تجربه سپردیم.».
این تیم به مدت ۸ سال بهطور خاموش روی ایدههای مختلف معاملات الگوریتمی کار کردند تا اینکه در سال ۲۰۱۵ شرکت High-Flyer را تأسیس کردند. فرهنگ استخدام و نوآوری آنها به خوبی جواب داد. تا سال ۲۰۲۱، آنها به موفقیتهای چشمگیری دست یافته بودند:
۱۴۰ میلیون دلار سرمایهگذاری و ساخت یک پلتفرم بزرگ هوش مصنوعی برای معاملات.
مالکیت ۱۰,۰۰۰ کارت گرافیک NVIDIA A100.
تبدیل شدن به یکی از ۴ صندوق کمّی برتر با ۱۵ میلیارد دلار دارایی تحت مدیریت (AUM).
اما سپس همه چیز فروپاشید. سال ۲۰۲۲ موفقیت High-Flyer به نقطه ضعف آن تبدیل شد. آنها خیلی بزرگ و سریع رشد کرده بودند و شروع به از دست دادن میلیاردها دلار کردند، طی چند فصل متوالی روی سرمایههای تحت مدیریتشون ضرر دادند و از شاخص بازار بورس چین عقب ماندند.
دولت چین در پی کندی اقتصادی، بحران مسکن و کاهش شاخص بورس، شروع به محدود کردن صنعت معاملات کمّی کرد. شاخص CSI300 (شاخص سهام برتر چین) به پایینترین حد خود رسید و معاملهگران فرکانس بالا را مقصر اصلی این فروپاشی دانستند. High-Flyer با خطر انقراض مواجه شد.
در سال ۲۰۲۳ آنها تغییر جهت دادند. DeepSeek، یک آزمایشگاه هوش مصنوعی، با استفاده از استعدادهای موجود و ۱۰,۰۰۰ کارت گرافیک خود تأسیس کردند. بدون هیچ سرمایهگذاری خطرپذیر. آنها همه چیز را روی این شرط بستند.
آنها همان فلسفه استخدام خود را حفظ کردند: استخدام «فارغالتحصیلان نخبه» جای محققان باتجربه هوش مصنوعی.
مدیر عامل deepseek میگه: «هیچ جادوگری وجود ندارد. ما بیشتر فارغالتحصیلان جدید از دانشگاههای برتر، دانشجویان دکتری در سالهای چهارم یا پنجم و برخی جوانانی که چند سال پیش فارغالتحصیل شدهاند را استخدام میکنیم.»
شرکت DeepSeek در اوایل سال ۲۰۲۴ با معرفی DeepSeek v2 را ارائه کردند.
تا سپتامبر، آنها ابتدا مقالهی R1-lite-preview را به عنوان اولین مدلی که با مدل استدلالی o1 OpenAI رقابت میکرد، منتشر کردند، . این مدل با استفاده از یک تکنیک جدید یادگیری تقویتی (RL) که از محاسبات زمان استنتاج استفاده میکرد، از همه رقبا (متنباز یا اختصاصی) پیشی گرفت.
در کریسمس، آنها DeepSeek v3 ارائه کردند که با تنها ۶ میلیون دلار هزینه آموزش، با ChatGPT-4o و Claude 3.5 Sonnet رقابت کرد.
هزینههای API که ۲۰ تا ۵۰ برابر ارزانتر از رقبا است.
این هفته، آنها اولین مدل استدلالی کاملاً متنباز را منتشر کردند که با OpenAI o1 برابری میکرد. آنها یافتههای خود را بهصورت عمومی به اشتراک گذاشتند و فاش کردند که این مدل را تنها از طریق یادگیری تقویتی (RL) و بدون نیاز به تنظیم دقیق نظارتشده یا مدلسازی پاداش آموزش دادهاند.
و هزینههای API هنوز ۲۰ تا ۵۰ برابر ارزانتر از رقبا هستند:
مدل DeepSeek R1 حدود ۰.۱۴ تا ۰.۵۵ دلار برای هر ۱ میلیون توکن ورودی، ۲.۱۹ دلار برای هر ۱ میلیون توکن خروجی.
مدل OpenAI o1 حدود ۷.۵۰ تا ۱۵ دلار برای هر ۱ میلیون توکن ورودی، ۶۰ دلار برای هر ۱ میلیون توکن خروجی.
شرکت deepseek که امروز همهمون از مدل رایگان بیمحدودیت deepseek v3 به وجد اومدیم و الان هم مدل متن باز رایگان R1 رو به عنوان رقیب برای o1 داده، چطوری شکل گرفته؟
این شرکت بدون هیچ سرمایهگذاری خطرپذیر، مدلی متنباز تولید کرد که با غولهایی مانند OpenAI و Anthropic رقابت میکند. مدلی که با یکدهم هزینه آموزش و ۲۰ تا ۵۰ برابر ارزانتر در استنتاج، به مرزهای جدیدی در هوش مصنوعی دست یافته است.
در سال ۲۰۰۷، سه مهندس به نامهای Xu Jin، Zheng Dawei و Liang Wenfeng (مدیرعامل فعلی) در دانشگاه Zhejiang با هم آشنا شدند و با هدف ساخت یک صندوق کمّی (Quant) که با هوش مصنوعی پیشرفته کار کند، دور هم جمع شدند. از آن زمان تا امروز یک استراتژی در جذب نیرو انسانی داشتند، به جای استخدام افراد باتجربه، آنها روی استعدادهای جوان و کنجکاو سرمایهگذاری کردند. مدیر مدیر عامل deepseek l میگه: «ما بیشتر نقشهای فنی را به فارغالتحصیلان جدید یا افرادی با ۱ تا ۲ سال تجربه سپردیم.».
این تیم به مدت ۸ سال بهطور خاموش روی ایدههای مختلف معاملات الگوریتمی کار کردند تا اینکه در سال ۲۰۱۵ شرکت High-Flyer را تأسیس کردند. فرهنگ استخدام و نوآوری آنها به خوبی جواب داد. تا سال ۲۰۲۱، آنها به موفقیتهای چشمگیری دست یافته بودند:
۱۴۰ میلیون دلار سرمایهگذاری و ساخت یک پلتفرم بزرگ هوش مصنوعی برای معاملات.
مالکیت ۱۰,۰۰۰ کارت گرافیک NVIDIA A100.
تبدیل شدن به یکی از ۴ صندوق کمّی برتر با ۱۵ میلیارد دلار دارایی تحت مدیریت (AUM).
اما سپس همه چیز فروپاشید. سال ۲۰۲۲ موفقیت High-Flyer به نقطه ضعف آن تبدیل شد. آنها خیلی بزرگ و سریع رشد کرده بودند و شروع به از دست دادن میلیاردها دلار کردند، طی چند فصل متوالی روی سرمایههای تحت مدیریتشون ضرر دادند و از شاخص بازار بورس چین عقب ماندند.
دولت چین در پی کندی اقتصادی، بحران مسکن و کاهش شاخص بورس، شروع به محدود کردن صنعت معاملات کمّی کرد. شاخص CSI300 (شاخص سهام برتر چین) به پایینترین حد خود رسید و معاملهگران فرکانس بالا را مقصر اصلی این فروپاشی دانستند. High-Flyer با خطر انقراض مواجه شد.
در سال ۲۰۲۳ آنها تغییر جهت دادند. DeepSeek، یک آزمایشگاه هوش مصنوعی، با استفاده از استعدادهای موجود و ۱۰,۰۰۰ کارت گرافیک خود تأسیس کردند. بدون هیچ سرمایهگذاری خطرپذیر. آنها همه چیز را روی این شرط بستند.
آنها همان فلسفه استخدام خود را حفظ کردند: استخدام «فارغالتحصیلان نخبه» جای محققان باتجربه هوش مصنوعی.
مدیر عامل deepseek میگه: «هیچ جادوگری وجود ندارد. ما بیشتر فارغالتحصیلان جدید از دانشگاههای برتر، دانشجویان دکتری در سالهای چهارم یا پنجم و برخی جوانانی که چند سال پیش فارغالتحصیل شدهاند را استخدام میکنیم.»
شرکت DeepSeek در اوایل سال ۲۰۲۴ با معرفی DeepSeek v2 را ارائه کردند.
تا سپتامبر، آنها ابتدا مقالهی R1-lite-preview را به عنوان اولین مدلی که با مدل استدلالی o1 OpenAI رقابت میکرد، منتشر کردند، . این مدل با استفاده از یک تکنیک جدید یادگیری تقویتی (RL) که از محاسبات زمان استنتاج استفاده میکرد، از همه رقبا (متنباز یا اختصاصی) پیشی گرفت.
در کریسمس، آنها DeepSeek v3 ارائه کردند که با تنها ۶ میلیون دلار هزینه آموزش، با ChatGPT-4o و Claude 3.5 Sonnet رقابت کرد.
هزینههای API که ۲۰ تا ۵۰ برابر ارزانتر از رقبا است.
این هفته، آنها اولین مدل استدلالی کاملاً متنباز را منتشر کردند که با OpenAI o1 برابری میکرد. آنها یافتههای خود را بهصورت عمومی به اشتراک گذاشتند و فاش کردند که این مدل را تنها از طریق یادگیری تقویتی (RL) و بدون نیاز به تنظیم دقیق نظارتشده یا مدلسازی پاداش آموزش دادهاند.
و هزینههای API هنوز ۲۰ تا ۵۰ برابر ارزانتر از رقبا هستند:
مدل DeepSeek R1 حدود ۰.۱۴ تا ۰.۵۵ دلار برای هر ۱ میلیون توکن ورودی، ۲.۱۹ دلار برای هر ۱ میلیون توکن خروجی.
مدل OpenAI o1 حدود ۷.۵۰ تا ۱۵ دلار برای هر ۱ میلیون توکن ورودی، ۶۰ دلار برای هر ۱ میلیون توکن خروجی.
👏10👍2🤩1
❇️ فناوریهای چینی در جهت هوش مصنوعی دموکراتیک
خروج جهان از نظم تکقطبی و حرکت به سمت چندقطبیشدن، فرصتهای جدیدی برای رقابت فناورانه ایجاد کرده است. در این میان، چین با ترکیب نوآوری بومیسازی فناوری غربی و بهینهسازی هزینهها، جایگاه خودش را در فناوریهای نوظهور مثل هوش مصنوعی، انرژیهای پاک و خودروهای برقی به عنوان رقیبی جدی غرب تثبیت کرده است و شرکتهای فناوری غربی را شدیدا به چالش کشیده است. الگوی رقابت خاصی در فناوری تا کنون بین غرب و چین وجود داشته: «تکنولوژی در غرب ایجاد میشود و در چین با حفظ کیفیت نمونه غربی، ارزان میشود».
یکی از نمونههای بارز این پیشرفت، DeepSeek است. این شرکت با عرضه مدلهای متنباز هوش مصنوعی مانند DeepSeek v3، هزینه استنتاج را ۲۰ تا ۵۰ برابر ارزانتر از رقبای غربی کرده است. این دستاورد نهتنها رقابتپذیری چین را افزایش داده، بلکه دسترسی جهانی به فناوریهای پیشرفته را نیز تسهیل کرده است و به اصطلاح دموکراتیک شدن democratization دسترسی به فناوری را تسریع میکند. موفقیت DeepSeek نشان میدهد که چین با تولید انبوه و کاهش هزینهها، رقبای غربی را به چالش کشیده است.
این الگو در صنایعی مانند خودروهای برقی مشاهده قبلا مشاهده شده است که شرکتهایی مانند BYD با کاهش ۳۰ تا ۴۰ درصدی قیمتها، رقبای اروپایی را تحت فشار قرار دادهاند. بدون تعرفههای حمایتی اتحادیه اروپا، ادامه حیات بسیاری از خودروسازان غربی در خطر خواهد بود و انتظار میرود به زودی روندی که با ارائه Deepseek شروع شده آثار عمیقتری اقتصادی در حوزهی هوش مصنوعی بگذارد.
اما این موفقیتها بدون چالش نیست. هر زمان که یک مدل چینی با کیفیت ارائه میشود، برخی کاربران به جای تحلیل فنی، به مسائل ایدئولوژیک مانند حوادث میدان تیانآنمن میپردازند. این افراد، خود را شوالیههای لیبرال دموکراسی میدانند و با دستگاه «کمونیستسنج» خود، طرح سوالاتی مانند اختلافات مرزی با هند و حوادث میدان تیانآنمن که هیچ ربطی به فناوری ندارد وقتی مدل چینی به دلیل قوانین حزب کمونیست نمیتواند به این سوالات پاسخ دهد، این موضوع بهانهای برای انتقاد میشود و تلاش میکنند وجههی دستآوردهای فناورانهی چین را تخریب کنند. اما واقعیت این است که این سوالات به فناوری ربطی ندارد و بیشتر نشاندهنده یک نگاه ایدئولوژیک است. مگر آمریکا با وجود انتقال سرورهای تیکتاک به خاک خود، از ایجاد دردسر برای این شرکت دست برداشت؟! این نگاه ایدئولوژیک، مانع درک این واقعیت میشود که قدرت گرفتن چین در رقابت با غرب مستقل از ارزشهای تمدنی دو طرف با ایجاد رقابت سالم فناورانه میتواند به نفع همه باشد.
در حوزه سختافزار هوش مصنوعی که چین به شدت از طرف آمریکا تحت تحریم قرار گرفته بود اکنون گامهای بلندی برداشته است. شرکت SMIC با استفاده از فناوری DUV ساخت SMEE (یک شرکت چینی) توانسته به تولید تراشههای ۷ نانومتری دست یابد، هرچند هنوز به فناوری EUV شرکت ASML هلند دسترسی ندارد. هواوی نیز با توسعه نرمافزارهای طراحی تراشه (EDA) و تولید شتابدهندههای هوش مصنوعی مانند Ascend 910B/C، رقیبی برای انویدیا (A100/H100) ایجاد کرده است. اگرچه قیمت این تراشهها (حدود ۱۶,۸۰۰ دلار) هنوز با نمونههای غربی برابری میکند، شاهد ارزانسازی فناوری در این حوزه نیستی. اما کاهش شکاف فناوری در لیتوگرافی میتواند دسترسی به تراشههای ارزانتر را در آینده نزدیک ممکن سازد.
در نقطهی مقابل وابستگی جهانی به زنجیره تولید چین نیز میتواند مثل دوره کرونا باعث افزایش ریسک بحران اقتصادی جهانی در صورت رکود اقتصادی چین بشود و هژمونی فناورانه چین هم اگر صنعت غرب رو وارد رکود کند اتفاق بدی است. همانگونه که بحران کووید-۱۹ نشان داد، تمرکز بیش از حد بر تولید چینی میتواند سیستم اقتصادی جهانی را در برابر شوکهای خارجی آسیبپذیر کند. کاهش سهم چین از ۴۸% به ۴۲% در صادرات کالاهای واسطهای طی دو سال اخیر، نشانگر تلاش غرب برای متنوعسازی زنجیرههای تأمین است.
تحلیلگران پیشبینی میکنند در صورت تحقق این هدف تا سال ۲۰۳۰، قیمت تراشههای هوش مصنوعی ۴۰-۶۰% کاهش یابد. سهم چین از بازار جهانی نیمههادیها از ۱۰% فعلی به ۲۵% افزایش یابد
رقابت فناورانه چین و غرب به نفع مصرفکنندگان جهانی است. این رقابت نهتنها انحصارها را میشکند، بلکه با کاهش قیمتها و تسهیل دسترسی به فناوریهای پیشرفته، به تحقق عدالت جهانی کمک میکند.
خروج جهان از نظم تکقطبی و حرکت به سمت چندقطبیشدن، فرصتهای جدیدی برای رقابت فناورانه ایجاد کرده است. در این میان، چین با ترکیب نوآوری بومیسازی فناوری غربی و بهینهسازی هزینهها، جایگاه خودش را در فناوریهای نوظهور مثل هوش مصنوعی، انرژیهای پاک و خودروهای برقی به عنوان رقیبی جدی غرب تثبیت کرده است و شرکتهای فناوری غربی را شدیدا به چالش کشیده است. الگوی رقابت خاصی در فناوری تا کنون بین غرب و چین وجود داشته: «تکنولوژی در غرب ایجاد میشود و در چین با حفظ کیفیت نمونه غربی، ارزان میشود».
یکی از نمونههای بارز این پیشرفت، DeepSeek است. این شرکت با عرضه مدلهای متنباز هوش مصنوعی مانند DeepSeek v3، هزینه استنتاج را ۲۰ تا ۵۰ برابر ارزانتر از رقبای غربی کرده است. این دستاورد نهتنها رقابتپذیری چین را افزایش داده، بلکه دسترسی جهانی به فناوریهای پیشرفته را نیز تسهیل کرده است و به اصطلاح دموکراتیک شدن democratization دسترسی به فناوری را تسریع میکند. موفقیت DeepSeek نشان میدهد که چین با تولید انبوه و کاهش هزینهها، رقبای غربی را به چالش کشیده است.
این الگو در صنایعی مانند خودروهای برقی مشاهده قبلا مشاهده شده است که شرکتهایی مانند BYD با کاهش ۳۰ تا ۴۰ درصدی قیمتها، رقبای اروپایی را تحت فشار قرار دادهاند. بدون تعرفههای حمایتی اتحادیه اروپا، ادامه حیات بسیاری از خودروسازان غربی در خطر خواهد بود و انتظار میرود به زودی روندی که با ارائه Deepseek شروع شده آثار عمیقتری اقتصادی در حوزهی هوش مصنوعی بگذارد.
اما این موفقیتها بدون چالش نیست. هر زمان که یک مدل چینی با کیفیت ارائه میشود، برخی کاربران به جای تحلیل فنی، به مسائل ایدئولوژیک مانند حوادث میدان تیانآنمن میپردازند. این افراد، خود را شوالیههای لیبرال دموکراسی میدانند و با دستگاه «کمونیستسنج» خود، طرح سوالاتی مانند اختلافات مرزی با هند و حوادث میدان تیانآنمن که هیچ ربطی به فناوری ندارد وقتی مدل چینی به دلیل قوانین حزب کمونیست نمیتواند به این سوالات پاسخ دهد، این موضوع بهانهای برای انتقاد میشود و تلاش میکنند وجههی دستآوردهای فناورانهی چین را تخریب کنند. اما واقعیت این است که این سوالات به فناوری ربطی ندارد و بیشتر نشاندهنده یک نگاه ایدئولوژیک است. مگر آمریکا با وجود انتقال سرورهای تیکتاک به خاک خود، از ایجاد دردسر برای این شرکت دست برداشت؟! این نگاه ایدئولوژیک، مانع درک این واقعیت میشود که قدرت گرفتن چین در رقابت با غرب مستقل از ارزشهای تمدنی دو طرف با ایجاد رقابت سالم فناورانه میتواند به نفع همه باشد.
در حوزه سختافزار هوش مصنوعی که چین به شدت از طرف آمریکا تحت تحریم قرار گرفته بود اکنون گامهای بلندی برداشته است. شرکت SMIC با استفاده از فناوری DUV ساخت SMEE (یک شرکت چینی) توانسته به تولید تراشههای ۷ نانومتری دست یابد، هرچند هنوز به فناوری EUV شرکت ASML هلند دسترسی ندارد. هواوی نیز با توسعه نرمافزارهای طراحی تراشه (EDA) و تولید شتابدهندههای هوش مصنوعی مانند Ascend 910B/C، رقیبی برای انویدیا (A100/H100) ایجاد کرده است. اگرچه قیمت این تراشهها (حدود ۱۶,۸۰۰ دلار) هنوز با نمونههای غربی برابری میکند، شاهد ارزانسازی فناوری در این حوزه نیستی. اما کاهش شکاف فناوری در لیتوگرافی میتواند دسترسی به تراشههای ارزانتر را در آینده نزدیک ممکن سازد.
در نقطهی مقابل وابستگی جهانی به زنجیره تولید چین نیز میتواند مثل دوره کرونا باعث افزایش ریسک بحران اقتصادی جهانی در صورت رکود اقتصادی چین بشود و هژمونی فناورانه چین هم اگر صنعت غرب رو وارد رکود کند اتفاق بدی است. همانگونه که بحران کووید-۱۹ نشان داد، تمرکز بیش از حد بر تولید چینی میتواند سیستم اقتصادی جهانی را در برابر شوکهای خارجی آسیبپذیر کند. کاهش سهم چین از ۴۸% به ۴۲% در صادرات کالاهای واسطهای طی دو سال اخیر، نشانگر تلاش غرب برای متنوعسازی زنجیرههای تأمین است.
تحلیلگران پیشبینی میکنند در صورت تحقق این هدف تا سال ۲۰۳۰، قیمت تراشههای هوش مصنوعی ۴۰-۶۰% کاهش یابد. سهم چین از بازار جهانی نیمههادیها از ۱۰% فعلی به ۲۵% افزایش یابد
رقابت فناورانه چین و غرب به نفع مصرفکنندگان جهانی است. این رقابت نهتنها انحصارها را میشکند، بلکه با کاهش قیمتها و تسهیل دسترسی به فناوریهای پیشرفته، به تحقق عدالت جهانی کمک میکند.
👍1