Dev Tweet – Telegram
Dev Tweet
850 subscribers
113 photos
15 videos
3 files
98 links
گعده‌ای در باب برنامه نویسی، پایتون، هوش مصنوعی و داده
Download Telegram
😂😂😂
😁8🤣2
شهادت می‌دهم که این رو در مورد deep seek درست میگه
در زمینه‌ی code generation وقتی شما وارد یک پروسه conversational می‌شید deep seek هی یادش میشه تغییراتی که بهش گفتید رو. گاهی اون تغییرات را بعد از چند پیام حفظ نمیکنه.
ولی نکته‌ای که مد نظرمه اینه بعضی مواقع در پاسخ به سوال در اولین جواب از sonnet هم بهتره.

دقت کنید نکته من در مورد تولید کد است. تصحیح کد موجود یک داستان دیگه است یعنی کد پروژه‌ت رو بدی بگی فلان چیز رو تغییر بده قابلیت مدل‌ها با هم فرق می‌کنه. اتفاقا در این زمینه‌ deepseek زیاد جالب نیست.
👍2
داستان غول نوظهور چینی هوش مصنوعی Deepseek

شرکت deepseek که امروز همه‌مون از مدل رایگان بی‌محدودیت deepseek v3 به وجد اومدیم و الان هم مدل متن باز رایگان R1 رو به عنوان رقیب برای o1 داده، چطوری شکل گرفته؟
این شرکت بدون هیچ سرمایه‌گذاری خطرپذیر، مدلی متن‌باز تولید کرد که با غول‌هایی مانند OpenAI و Anthropic رقابت می‌کند. مدلی که با یک‌دهم هزینه آموزش و ۲۰ تا ۵۰ برابر ارزان‌تر در استنتاج، به مرزهای جدیدی در هوش مصنوعی دست یافته است.
در سال ۲۰۰۷، سه مهندس به نام‌های Xu Jin، Zheng Dawei و Liang Wenfeng (مدیرعامل فعلی) در دانشگاه Zhejiang با هم آشنا شدند و با هدف ساخت یک صندوق کمّی (Quant) که با هوش مصنوعی پیشرفته کار کند، دور هم جمع شدند. از آن زمان تا امروز یک استراتژی در جذب نیرو انسانی داشتند، به جای استخدام افراد باتجربه، آن‌ها روی استعدادهای جوان و کنجکاو سرمایه‌گذاری کردند. مدیر مدیر عامل deepseek l می‌گه: «ما بیشتر نقش‌های فنی را به فارغ‌التحصیلان جدید یا افرادی با ۱ تا ۲ سال تجربه سپردیم.».

این تیم به مدت ۸ سال به‌طور خاموش روی ایده‌های مختلف معاملات الگوریتمی کار کردند تا اینکه در سال ۲۰۱۵ شرکت High-Flyer را تأسیس کردند. فرهنگ استخدام و نوآوری آن‌ها به خوبی جواب داد. تا سال ۲۰۲۱، آن‌ها به موفقیت‌های چشمگیری دست یافته بودند:
۱۴۰ میلیون دلار سرمایه‌گذاری و ساخت یک پلتفرم بزرگ هوش مصنوعی برای معاملات.
مالکیت ۱۰,۰۰۰ کارت گرافیک NVIDIA A100.
تبدیل شدن به یکی از ۴ صندوق کمّی برتر با ۱۵ میلیارد دلار دارایی تحت مدیریت (AUM).

اما سپس همه چیز فروپاشید. سال ۲۰۲۲ موفقیت High-Flyer به نقطه ضعف آن تبدیل شد. آن‌ها خیلی بزرگ و سریع رشد کرده بودند و شروع به از دست دادن میلیاردها دلار کردند، طی چند فصل متوالی روی سرمایه‌های تحت مدیریت‌شون ضرر دادند و از شاخص بازار بورس چین عقب ماندند.
دولت چین در پی کندی اقتصادی، بحران مسکن و کاهش شاخص بورس، شروع به محدود کردن صنعت معاملات کمّی کرد. شاخص CSI300 (شاخص سهام برتر چین) به پایین‌ترین حد خود رسید و معامله‌گران فرکانس بالا را مقصر اصلی این فروپاشی دانستند. High-Flyer با خطر انقراض مواجه شد.
در سال ۲۰۲۳ آن‌ها تغییر جهت دادند. DeepSeek، یک آزمایشگاه هوش مصنوعی، با استفاده از استعدادهای موجود و ۱۰,۰۰۰ کارت گرافیک خود تأسیس کردند. بدون هیچ سرمایه‌گذاری خطرپذیر. آن‌ها همه چیز را روی این شرط بستند.
آن‌ها همان فلسفه استخدام خود را حفظ کردند: استخدام «فارغ‌التحصیلان نخبه» جای محققان باتجربه هوش مصنوعی.
مدیر عامل deepseek می‌گه: «هیچ جادوگری وجود ندارد. ما بیشتر فارغ‌التحصیلان جدید از دانشگاه‌های برتر، دانشجویان دکتری در سال‌های چهارم یا پنجم و برخی جوانانی که چند سال پیش فارغ‌التحصیل شده‌اند را استخدام می‌کنیم.»

شرکت DeepSeek در اوایل سال ۲۰۲۴ با معرفی DeepSeek v2 را ارائه کردند.
تا سپتامبر، آن‌ها ابتدا مقاله‌ی R1-lite-preview را به عنوان اولین مدلی که با مدل استدلالی o1 OpenAI رقابت می‌کرد، منتشر کردند، . این مدل با استفاده از یک تکنیک جدید یادگیری تقویتی (RL) که از محاسبات زمان استنتاج استفاده می‌کرد، از همه رقبا (متن‌باز یا اختصاصی) پیشی گرفت.
در کریسمس، آن‌ها DeepSeek v3 ارائه کردند که با تنها ۶ میلیون دلار هزینه آموزش، با ChatGPT-4o و Claude 3.5 Sonnet رقابت کرد.
هزینه‌های API که ۲۰ تا ۵۰ برابر ارزان‌تر از رقبا است.

این هفته، آن‌ها اولین مدل استدلالی کاملاً متن‌باز را منتشر کردند که با OpenAI o1 برابری می‌کرد. آن‌ها یافته‌های خود را به‌صورت عمومی به اشتراک گذاشتند و فاش کردند که این مدل را تنها از طریق یادگیری تقویتی (RL) و بدون نیاز به تنظیم دقیق نظارت‌شده یا مدل‌سازی پاداش آموزش داده‌اند.
و هزینه‌های API هنوز ۲۰ تا ۵۰ برابر ارزان‌تر از رقبا هستند:
مدل DeepSeek R1 حدود ۰.۱۴ تا ۰.۵۵ دلار برای هر ۱ میلیون توکن ورودی، ۲.۱۹ دلار برای هر ۱ میلیون توکن خروجی.
مدل OpenAI o1 حدود ۷.۵۰ تا ۱۵ دلار برای هر ۱ میلیون توکن ورودی، ۶۰ دلار برای هر ۱ میلیون توکن خروجی.
👏10👍2🤩1
❇️ فناوری‌های چینی در جهت هوش مصنوعی دموکراتیک

خروج جهان از نظم تک‌قطبی و حرکت به سمت چندقطبی‌شدن، فرصت‌های جدیدی برای رقابت فناورانه ایجاد کرده است. در این میان، چین با ترکیب نوآوری بومی‌سازی فناوری غربی و بهینه‌سازی هزینه‌ها، جایگاه خودش را در فناوری‌های نوظهور مثل هوش مصنوعی، انرژی‌های پاک و خودروهای برقی به عنوان رقیبی جدی غرب تثبیت کرده است و شرکت‌های فناوری غربی را شدیدا به چالش کشیده است. الگوی رقابت خاصی در فناوری تا کنون بین غرب و چین وجود داشته: «تکنولوژی در غرب ایجاد می‌شود و در چین با حفظ کیفیت نمونه غربی، ارزان می‌شود».

یکی از نمونه‌های بارز این پیشرفت، DeepSeek است. این شرکت با عرضه مدل‌های متن‌باز هوش مصنوعی مانند DeepSeek v3، هزینه استنتاج را ۲۰ تا ۵۰ برابر ارزان‌تر از رقبای غربی کرده است. این دستاورد نه‌تنها رقابت‌پذیری چین را افزایش داده، بلکه دسترسی جهانی به فناوری‌های پیشرفته را نیز تسهیل کرده است و به اصطلاح دموکراتیک شدن democratization دسترسی به فناوری را تسریع می‌کند. موفقیت DeepSeek نشان می‌دهد که چین با تولید انبوه و کاهش هزینه‌ها، رقبای غربی را به چالش کشیده است.
این الگو در صنایعی مانند خودروهای برقی مشاهده قبلا مشاهده شده است که شرکت‌هایی مانند BYD با کاهش ۳۰ تا ۴۰ درصدی قیمت‌ها، رقبای اروپایی را تحت فشار قرار داده‌اند. بدون تعرفه‌های حمایتی اتحادیه اروپا، ادامه حیات بسیاری از خودروسازان غربی در خطر خواهد بود و انتظار می‌رود به زودی روندی که با ارائه Deepseek شروع شده آثار عمیق‌تری اقتصادی در حوزه‌‌ی هوش مصنوعی بگذارد.

اما این موفقیت‌ها بدون چالش نیست. هر زمان که یک مدل چینی با کیفیت ارائه می‌شود، برخی کاربران به جای تحلیل فنی، به مسائل ایدئولوژیک مانند حوادث میدان تیان‌آن‌من می‌پردازند. این افراد، خود را شوالیه‌های لیبرال دموکراسی می‌دانند و با دستگاه «کمونیست‌سنج» خود، طرح سوالاتی مانند اختلافات مرزی با هند و حوادث میدان تیان‌آن‌من که هیچ ربطی به فناوری ندارد وقتی مدل چینی به دلیل قوانین حزب کمونیست نمی‌تواند به این سوالات پاسخ دهد، این موضوع بهانه‌ای برای انتقاد می‌شود و تلاش می‌کنند وجهه‌ی دست‌آورد‌های فناورانه‌ی چین را تخریب کنند. اما واقعیت این است که این سوالات به فناوری ربطی ندارد و بیشتر نشان‌دهنده یک نگاه ایدئولوژیک است. مگر آمریکا با وجود انتقال سرورهای تیک‌تاک به خاک خود، از ایجاد دردسر برای این شرکت دست برداشت؟! این نگاه ایدئولوژیک، مانع درک این واقعیت می‌شود که قدرت گرفتن چین در رقابت با غرب مستقل از ارزش‌های تمدنی دو طرف با ایجاد رقابت سالم فناورانه می‌تواند به نفع همه باشد.

در حوزه سخت‌افزار هوش مصنوعی که چین به شدت از طرف آمریکا تحت تحریم قرار گرفته بود اکنون گام‌های بلندی برداشته است. شرکت SMIC با استفاده از فناوری DUV ساخت SMEE (یک شرکت چینی) توانسته به تولید تراشه‌های ۷ نانومتری دست یابد، هرچند هنوز به فناوری EUV شرکت ASML هلند دسترسی ندارد. هواوی نیز با توسعه نرم‌افزارهای طراحی تراشه (EDA) و تولید شتاب‌دهنده‌های هوش مصنوعی مانند Ascend 910B/C، رقیبی برای انویدیا (A100/H100) ایجاد کرده است. اگرچه قیمت این تراشه‌ها (حدود ۱۶,۸۰۰ دلار) هنوز با نمونه‌های غربی برابری می‌کند، شاهد ارزان‌سازی فناوری در این حوزه نیستی. اما کاهش شکاف فناوری در لیتوگرافی می‌تواند دسترسی به تراشه‌های ارزان‌تر را در آینده نزدیک ممکن سازد.

در نقطه‌ی مقابل وابستگی جهانی به زنجیره تولید چین نیز می‌تواند مثل دوره کرونا باعث افزایش ریسک بحران اقتصادی جهانی در صورت رکود اقتصادی چین بشود و هژمونی فناورانه چین هم اگر صنعت غرب رو وارد رکود کند اتفاق بدی است. همان‌گونه که بحران کووید-۱۹ نشان داد، تمرکز بیش از حد بر تولید چینی می‌تواند سیستم اقتصادی جهانی را در برابر شوک‌های خارجی آسیب‌پذیر کند. کاهش سهم چین از ۴۸% به ۴۲% در صادرات کالاهای واسطه‌ای طی دو سال اخیر، نشانگر تلاش غرب برای متنوع‌سازی زنجیره‌های تأمین است.

تحلیلگران پیش‌بینی می‌کنند در صورت تحقق این هدف تا سال ۲۰۳۰، قیمت تراشه‌های هوش مصنوعی ۴۰-۶۰% کاهش یابد. سهم چین از بازار جهانی نیمه‌هادی‌ها از ۱۰% فعلی به ۲۵% افزایش یابد
رقابت فناورانه چین و غرب به نفع مصرف‌کنندگان جهانی است. این رقابت نه‌تنها انحصارها را می‌شکند، بلکه با کاهش قیمت‌ها و تسهیل دسترسی به فناوری‌های پیشرفته، به تحقق عدالت جهانی کمک می‌کند.
👍1
مطالب جالبی رو دکتر فرهاد قدوسی در کانال تلگرام خودشون در مورد Deepseek منتشر کردند که من اینجا ارجاع می‌دهم به کانال‌شون.
ایشون استاد علوم طبیعی دانشگاه فنی لارنس و محقق دانشگاه پزشکی واین استیت هستند.
اینکه به عنوان یک شخصیت علمی غیر کامپیوتری در کامیونیتی فارسی اینقدر به این موضوع توجه کردند برام جالبه.
https://news.1rj.ru/str/BetweenDichotomies/280
https://news.1rj.ru/str/BetweenDichotomies/279
https://news.1rj.ru/str/BetweenDichotomies/278
https://news.1rj.ru/str/BetweenDichotomies/271
👎4👍2
بریده‌ها و براده‌ها
Unveiling_DeepSeek.pdf
اگر به بحث سیاستگذاری فناوری به طور عام و به پیشرفت اخیر deepseek به طور خاص علاقه دارید این مصاحبه رو یه نگاه بندازید.

این برش مقدمه مصاحبه هم خیلی جالب بود
This media is not supported in your browser
VIEW IN TELEGRAM
Chemputation
فضای رباتیک ساخت ترکیب‌های شیمیایی بصورت یک حلقه بسته فول اتوماتیک😊
🤯1
جوریکه Anthropic تو مشتری سازمانی داره سهم OpenAI رو میگیره
در یک سال حدودا ۵ درصد سهم‌ش رو به گوگل و ۱۲ درصد سهمش رو به آنتروپیک باخته
حس میکنم تا همینجاش هم داره مزیت اول بودنش استفاده میکنه
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
خلاصه گفتم حواستون باشه😁😁
😁17👎2🐳2🍌1
رکوردتون چنده؟ 😉
سه دقیقه فکر کرد جواب داد ولی جوابش خیلی خوب بود انصافا😊
👍2
Gradient Ascent
Machine Unlearning
😁23
مقایسه مصرف توکن ماهانه هر مدل در Openrouter
Dev Tweet
مقایسه مصرف توکن ماهانه هر مدل در Openrouter
این همه سر و صدا سر این reasoning از o1-preview شروع شد تا به deepseek R1 رسید ولی اخرش همین Sonnet3.5 که ژانویه‌ی پارسال یعنی بیش از یک سال پیش معرفی شد بدون thinking و این ادها همه‌شون رو میذاره تو جیبش. چرا؟
چون در عملکرد، سرعت و قیمت در نقطه‌ی خوبی ایستاده!
مگر در موارد خاص حتی اگر مدل o1 بهترین جواب رو بعد از ۱۰۰ ثانیه فکر کردن بده یا اینکه یه سوال از o1 بهترین و سریع‌ترین جواب رو بده ولی 0.5 دلار خرج برداره یا اینکه برای اشتراک ۲۰ دلاری فقط روزی سه بار بتونی از این ویژگی استفاده کنی این‌ها ارزش زیادی نداره یا اینکه اگر Deepseek R1 ارزون‌ترین مدل با دقت مطلوبه ولی نصف زمان‌ها سرورش‌ busyئه ارزش اثر مطلوبش رو خنثی می‌کنه. یا مثلا گوگل طول contextش 2 میلیون توکنه ولی واقعا برد توجهش موثرش در context اصلا بیشتر از Sonnet و ChatGPT نیست بلکه کمتر هم هست مزیت خاصی نداره حتی اگر throughput خروجی توکن‌‌ش خیلی بالا باشه. یا مثلا Mistral مدل جدیدش در نهایتا ضعف عملکرد 1200 توکن در ثانیه خروجی میده! خب چه فایده!
موفقیت آنتروپیک حداقل برای یوزر technical اینه که ترکیب سرعت، عملکرد، طول context، هزینه مدلش در یک نقطه بهینه قرار گرفته.
👍9👏1💯1
حتما توصیه می‌کنم این توئیت و کامنتاش و کوت‌هاش رو بخونید.
موضوع اینکه از ChatGPT هر کسی پرسیده که «با توجه به اطلاعاتی که از من داری من رو مسخره کن»!
خیلی جالبه.
از قدرت تخریب و تمسخرش!
و هم از اینکه میده اطلاعات conversationهای مختلف یک کاربر رو هم کنار هم میذاره و تحلیل می‌کنه و این خیلی ترسناکه.
به نظرم خیلی‌ها خودشون چنین نگاه انتقادی به خودشون ندارن که ChatGPT داره میگه.
هر کدوم از اسکرین‌شات‌ها رو خوشتون اومد بذارید تو کامنت این پست.
👏3👌1
یولو دارد در سرعت نسخه دادن به تلگرام نزدیک می‌شود!
هر شش ماه یک ورژن می‌دهد!
البته عملکردش از ورژن به ورژن خیلی تفاوت نمی‌کند بلکه فقط سرعتش بهتر می‌شود.
😁6