دستاوردهای یادگیری عمیق(InTec) – Telegram
دستاوردهای یادگیری عمیق(InTec)
9.46K subscribers
363 photos
40 videos
44 files
674 links
هوش مصنوعی، یادگیری ماشین و یادگیری عمیق
موضوع اصلی کانال

این یک بلاگ شخصی با طرز تفکر شخصی هست.

Core Python : @PyHints

تلاشی هم در یادگیری Rust دارم که درحال داکیومنت شدن هم هست؛ اگر شماهم به این زبان علاقمند هستید join یادتون نره

Rust: @PyRust
Download Telegram
نکته خیلی مهم که فراموش کردم بگم؛

بسیار بسیار برای توضیح دادن کدها عملکرد خوبی داره و حتی سوالات جزئی رو به خوبی جواب میده.
اگر خواستید تست کنید :

https://chat.qwenlm.ai

همه‌ی موارد کاملا رایگان هستند.
👍304
اینو یکی از بچه‌های توی گروه فرستاد؛ من هم که عصبی از سخنرانی‌های احمقانه این مدت بعضی افراد بی‌دانش و بی‌سواد راجب هوش‌مصنوعی خیلی بد ریپلای زدم راجب سواد نویسنده (نمی‌دونم کی هست و افتخارم می‌کنم که نمی‌دونم کی هست)

حالا اومدم بپرسم بین شما کسی هست که تجربه دپلوی مدل هوش مصنوعی بویژه LLM داشته باشه و از همه این مواردی که ذکر شده استفاده نکرده باشه ؟

یعنی تریبون رو دادید دست چندتا احمق که فرق ... و با گوشت کوبیده نمی‌دونند.
بعد میریم جلسه مدیر احمقتر میاد می‌گه چرا ما مدل ۱۲۰ میلیارد پارامتری خودمون رو نداریم چیه ما از چین کمتره و ...

نکنید اینکارو؛ تورو خدا هر خری رو معروف نکنید تورو خدا با بولدوزر از روشون رد بشید کاری کنید آبروی کل جامعه هوش مصنوعی ایران رو بردند این آدم‌ها.
👍5710
دستاوردهای یادگیری عمیق(InTec)
اینو یکی از بچه‌های توی گروه فرستاد؛ من هم که عصبی از سخنرانی‌های احمقانه این مدت بعضی افراد بی‌دانش و بی‌سواد راجب هوش‌مصنوعی خیلی بد ریپلای زدم راجب سواد نویسنده (نمی‌دونم کی هست و افتخارم می‌کنم که نمی‌دونم کی هست) حالا اومدم بپرسم بین شما کسی هست که تجربه…
اشتباهاتش برای کسایی که تازه‌کار هستند میذارم البته (خیلیا از منم با سوادتر هستید. جسارت نمی‌کنم)

۱- پاراگراف دوم؛ بجای استفاده از ۳۲ رقم اعشار با ۸ رقم کار می‌کنه.
توضیح: به این تکنیک می‌گیم Quantization برگردید به پست‌های 2017-2018 از اون زمان Quantization تکنیکی برای دپلوی بوده (ما هم انجام میدادیم دیگه)
سخنرانی من برای ورکشاپ شرکت (چندسال قبل) هم همین تکنیک‌ها بحث شده بود که چطور مدل‌هارو دپلوی می‌کنیم و ... (روی گیت‌هاب می‌تونید پیدا کنید تاریخش رو) quantization انواع داره و فقط به Q8 خطم نمی‌شه یادتون باشه تا Q1 هم مقاله گذاشتم.
البته Q8 با محاسبه ۸ رقمی و حتی با ۸ رقم اعشار هم فرق داره و 8bit ایی هست؛ تفاوت این دو مورد زیاده what is computer 101


۲- جملات رو کامل می‌خونه و نه کلمه به کلمه و سرعت ۲ برابر می‌شه ؟
به خدا حتی طرف نمی‌دونه بافر چطوری عمل می‌کنه یا ... اگر هم منظورش embedding هست که وای به حال ما که این اومده برای ما توضیح بده.
اصلا نه فنی - نه تکنیکی نه توی هیچ شاخه از کامپیوتر این حرف درست نیست؛ برای همین نمی‌تونم توضیحی راجبش بدم.

۳- مهمترین کارش سیستم تخصصی هست.
استفاده از مدل‌های تخصصی بسیار مرسوم هست؛ از chatgpt3.5 اینکار شروع شده.
برید بالاتر توی پست‌ها بسیار درمورد این موضوع گفتم (چندین سال قبل) + RouteLLM رو هم بعنوان یک روش advance تر از تکنیک اولیه معرفی کردم. چون فقط بحث پاسخ‌دهی بهتر نبود بلکه پایین آوردن هزینه هم بود.

۴- درنهایت deepseek محدودیت آپلود فایل نداره.
تا همینجاش خودش تعجب آور هست که خب این رو داره دستاورد مدل هوش مصنوعی می‌بینه یا دستاورد تیم توسعه یا چون رایگان هست داره می‌گه
قطعا با context length آشنایی نداره؛ چون تو می‌تونی توی همه پلتفرم‌ها هر آشغالی که می‌خوای رو به مدل بدی.
بزرگترین context length تا آخرین اخبار و مقالاتی که شخصا مطالعه داشتم مربوط به Gemini هست با حدود 1.5- 2 میلیون توکن روی پروداکشن.

اما ادامه جمله چه ربطی به این بخش داشت خیلی عجیب‌تر هست. میگه :
نکته دیگه اینکه Deepseek محدودیت آپلود نداره؛ بلکه اپن سورس هم هست.

دیدیم که سواد و درکی از context-length نداشت.
یعنی الان روی لوکال هاست نگران آپلود فایلهاش هست ؟ اینترنت مصرف نشه ؟
اینو واقعا متوجه نشدم ولی اگر شما شدید به منم بگید.


در نهایت نیت بنده جدا کردن افراد ابزار یاد گرفته از متخصص هست و این صحبت‌ها باید توسط متخصص انجام بشه (نه اونی که رفته Swagger مربوط به OpenAI رو خونده)
از من با ۹ سال سابقه کار AI گذشته (شدیدا هم علاقه‌ام درحال حاضر روی system development هست و زبان Rust) ولی نمیذارم زحمت کسایی که خاک ریاضیات و درک لایه‌ها و فرمول‌هارو خوردن با این چرت‌ و پرت‌ها از بین بره.
حتی با همین تریبون کوچیکی که توی این ۹-۱۰ سال ساخته شده.

پ.ن: لینک مقاله اگر خواستید دقیقتر بدونید چیکار می‌کنه

https://arxiv.org/pdf/2501.12948
50👍30
#موقت

چندتا مورد پرسیدید:
۱- شاید این بنده خدا فقط خواسته ابزار رو معرفی کنه:
- مشکلی با معرفی ابزار نداریم؛ کلی یوتیوبر و دلقکای اینستاگرام دارن اینکارو می‌کنند ولی ژشست من فهمیدم اینا چیکار کردن بیا برا تو توضیح بدم نگیرند.
همین مونده فردا مدیرمون بیاد بگه اینو ببرید روی float8 (که اصلا نداریم) عددی سرعتمون زیاد شه؛ بهونه نیارید یوزر زیاد شده.

۲- درمورد اینکه آیا از AI خارج میشم:
خارج شدن نیست؛ خیلی از مفاهیم رو میدونم و خوندن مقالات جدید برای کارهای پروداکشن دیگه کار سختی نیست.
الان مثل اوایل نیست که بخاطر کمبود و ... مبجور بودم توی چند بخش کارکنم R&D, ML engineer, MLOps, BAckend, ... و چون کارهای بنده به خلق مدل جدید یا تحقیقات دانشگاهی نیست دستم بازتر شده؛ دونستن بسیازی از مفاهیم هم کمک می‌کنه راحتر روی مطالب جدید آپدیت بشم.

۳- برای خود Rust ؟
زبان جذاب و مورد علاقه‌ام هست؛ من سابقه کار با زبان‌های low-level رو قبل از شروع به پایتون دارم و همیشه هم بهشون علاقه داشتم.
الان بعد از مدتی که با Rust آشنا شدم و یادگیری اولیه رو پشت سر گذاشتم بسیار بیشتر بهش علاقه‌مند شدم و هدفم ادامه دادن همین مسیر شده.
همونطور که چندسال قبل گفتم اشتباه کردم Software Engineering رو فدای یادگیری سریع در زمینه AI کردم که کاملا هم درست بود و خداروشکر سریع هم تصحیح کردم خودم.
اینبار حاصل علاقه شخصیم و پست نوشتن راجب وقابع یادگیری Rust شده @pyrust و بازگشت به مفاهیم پایه و عادت سورس کد خوندن (من واقعا از خوندن کدهای تمیز لذت می‌برم ۱ دونه در روز برام کافیه تا روزم رو بسازه و توی سورس کد Rust این اتفاق حتما روزی ۱ بار حداقل میوفته)
24👍12
دستاوردهای یادگیری عمیق(InTec)
اینو یکی از بچه‌های توی گروه فرستاد؛ من هم که عصبی از سخنرانی‌های احمقانه این مدت بعضی افراد بی‌دانش و بی‌سواد راجب هوش‌مصنوعی خیلی بد ریپلای زدم راجب سواد نویسنده (نمی‌دونم کی هست و افتخارم می‌کنم که نمی‌دونم کی هست) حالا اومدم بپرسم بین شما کسی هست که تجربه…
در ادامه من می‌فهمم ها ....

سرتون رو از تو ماتحت هوش مصنوعی بکشید بیرون.
چون می‌دونید API چیه دلیل نمیشه رو هرچیزی نظر بدید.

شدیداً می‌خوام بترکونم هرکی شر و ور می‌گه ...
چون کثافت زده شده به دستاوردهای بچه‌های متخصص با این حرفهای دوزاری.
👍945
-210672_temp.jpg
15.9 KB
بنظرم بیش از حد بهم بی‌اعتماد شده
👍496
تاثیر deepseek رو روی قیمتهای جدید o3-mini میبینید ؟

قدرت رقابت و opensource اینطوری هست.

توی دنیای opensource همیشه کاربر برنده‌اس.
63👍44
Gemini Flash 2.0


رو داشتیم تست می‌کردیم برای بکاپ یک پروژه؛ اصل کار روی deepseek هست و اگر deepseek از دور خارج بشه درخواست برای Gemini میره و بدون تعارف بگم.
خیلی خوبه این مدل وقتی مقایسه قیمت و کارایی رو انجام می‌دید. مدل‌های chatgpt به طرز احمقانه‌ای گرون هستند توی بازار فعلی و البته Claude از اون بدتر.
هرچند o3-mini مقداری قیمت رو نرمالایز کرده ولی دقت و سرعت Deepseek R1, Gemini 2.0 رو بهمون نداده توی کاربردهای ما.

پینوشت :
قیمت Gemini 2.0 Flash برای ۱ میلیون توکن (تنها مدل با این context size هست)
input: $0.1
output: $0.4

قیمتش جوری هست که دیگه محدودیت روی history هم نمی‌ذاریم حقیقتش (تو تست‌ها که نذاشتیم)
👍465
ویژگی Deep Research مربوط به CloseAI رو حتما شنیدید راجبش و حتما هم میدونید ایده و ... اش از گوگل اومد نه Open/CloseAI اما بخاطر هزینه‌های بالایی که داره بصرفه نیست.

پس جایگزین Open Source اش رو بهتون معرفی می‌کنم:
Open Deep Research


پ.ن: برای کسایی که دنبال فرصت برای contribution بودند؛ پیشنهاد می‌کنم روی این پروژه Ollama رو اضافه کنید (مدل‌هایی مثل Deepseek r1 روی Ollama اما) قطعا کار سختی هم نیست.
من کل پروژه رو نخوندم ولی چندروز قبل که چک کردم ollama رو نداشت.
👍117
دستاوردهای یادگیری عمیق(InTec)
Gemini Flash 2.0 رو داشتیم تست می‌کردیم برای بکاپ یک پروژه؛ اصل کار روی deepseek هست و اگر deepseek از دور خارج بشه درخواست برای Gemini میره و بدون تعارف بگم. خیلی خوبه این مدل وقتی مقایسه قیمت و کارایی رو انجام می‌دید. مدل‌های chatgpt به طرز احمقانه‌ای گرون…
امروز کلا برای کارهای شخصی هم روی این مدل بودم؛ بیش از حد خوبه.
شرایط کار امروز من روی Rust بود و البته crate های جدید؛ مثلا نویسنده cargo-watch گفته که دیگه فرصت بهبود کدها رو نداره و این پیکج رو آرشیو کرده.

یک crate دیگه معرفی شده به اسم bacon و من فرصت خوندن داکیومنتش رو نداشتم برای همین از هر ۳ مدل Deepseek r1, chatgpt, Gemini 2 پرسیدم و از هر ۳ مدل خواستم که بهم فایل bacon.toml شامل تنظیمات کامندها رو بدهند.

فقط Gemini گفت که امکان کاری که می‌خوام انجام بدم وجود نداره و باید اون رو توی bash انجام بدم.
مدل chatgpt جواب اشتباه رو تکرار می‌کرد و deepseek r1 هم بدون اینکه بگه bacon.toml این امکان رو نداره فقط هی کامند جایگزین رو معرفی میکرد.

توی موارد دیگه هم همین مشکلات بود؛ مثلا توی ویژگی‌های جدید بعضی پکیج‌های پایتون و ابزارهایی که توی ورژن‌های اخیر تغییرات زیادی خورده.

تا اینجای کار Gemini 2.0 رو با توجه به سرعت فوق‌العاده‌اش بعنوان مدل‌ کمکی روی Rust استفاده خواهم کرد و برای مطالب و crate های جدید.
مدل deepseek r1 رو برای تمیزکردن کدها و peer-review و مطالب کلی‌تر.

متاسفانه دیگه دلیل خاصی برای استفاده از chatgpt نمی‌بینم؛ البته سم آلتمن قول سوپرایز داده (هنوز ۴۸ ساعت مونده فکر کنم) منتظر اون هستم.

پینوشت: gemini برای توضیح کدهای آموزشی و البته آموزش دادن مفاهیم با مثال هم خیلی عالیه؛ بازم می‌گم من روی Rust بیشتر کار کردم امروز.
👍43
Forwarded from RandRng
با صحبت امروز پزشکیان
من روی دلار ۱۱۰,۰۰۰ تومان دارم می‌بندم.

آخر سال تمام قراردادهای همکاری داخلیم تموم می‌شه و دستمزد جدید رو بر این اساس می‌گیرم، البته که دارم فرض می‌کنم دلار تا چندروز آینده به ۱۰۰,۰۰۰ تومان برسه و مدتی همین حوالی باشه‌.

اگر دلار واقعاً به ۱۱۰,۰۰۰ تومان برسه (که اصلاً بعید نیست)
قراردادهای سال بعدی رو روی دلار ۱۳۰,۰۰۰ تومان می‌بندم.

به ۲ دلیل این رو میگم:

۱- بچه‌های سنیور گفتند چطوری دستمزد بدیم برای سال بعد.

۲- چند نفر دعوت به همکاری کردن، گفتم حدود دستمزد رو بدوند که وقت هم رو نگیریم.

دستمزد فعلی رو بر اساس دلار ۶۰,۰۰۰ تومان بسته بودم سال قبل که خدا بیامرزش.
👍491
یک مدل دیگه از دل چین؛ من برای توسعه کدهای Rust بهش رسیدم و تقریبا از ۲-۳ ساعت پیش دارم ازش استفاده می‌کنم:

توی جواب‌های اولیه به مراتب عملکرد بهتری از Chatgpt داره و بر خلاف Deepseek زمان زیادی برای think نیاز نداره و با همه اینا جواباش از هر دو بهتر هست.
دیتاهاش به مراتب آپدیت‌تر هست؛ حداقل توی Rust اینطوریه؛ تا جایی که فکر می‌کنم حتما قابلیت search داره ولی خب جواباش خیلی سریع بر می‌گرده.

تستش کنید:
KIMI
بازم می‌گم چین و آمریکا و فرانسه نداره دیتاهای مهم رو برای این مدل‌ها نفرستید.
👍51
دیدم بعضی مدیرای ایرانی می‌گن ماهم کار DeepSeek رو بکنیم روی مدل‌های کوچکتر که با هزینه کمتر تموم بشه ولی مدل فارسی داشته باشیم؛ گفتم چندتا مورد رو بگم :

۱- مدل پایه Deepseek, براساس Llama3.1, Qwen2.5 هست که هزینه کمی نداشته آماده کردنش و توی فارسی هم عالی نیستند.

۲- تیم Deepseek حداقل ۲ سال هست که دارند روی موضوعات AI تحقیق می‌کنند.

۳- این تیم به بیش از 50هزار GPU دسترسی دارند (حداقل A100 80Gig)

۴- مدل بزرگ این شرکت (چیزی که اجرا هست) نیاز به DGX H100 برای اجرا داره؛ اونم در حد تعداد محدود برای response.

باقیش هم هیچی.
خلاصه که قبل از حرف زدن، فکر کنید.
👍10012
به لطف ۴۶ سال حضور آخوندای حرومزاده
دیگه حتی تهران - پایتخت ایران هم امن نیست

#امیرمحمد_خالقی دانشجوی ۱۹ ساله دانشگاه تهران

امنیت هم نداریم، گوه نخورید.
👍18735
دستاوردهای یادگیری عمیق(InTec)
به لطف ۴۶ سال حضور آخوندای حرومزاده دیگه حتی تهران - پایتخت ایران هم امن نیست #امیرمحمد_خالقی دانشجوی ۱۹ ساله دانشگاه تهران امنیت هم نداریم، گوه نخورید.
برای عزیزان دانشجو

فضای بسته دانشگاه (اطلاعات، هویت و ... شما دستشون هست) واقعاً جای اعتراض نیست.
نگذارید اتفاق ۱۴۰۱ دانشگاه شریف تکرار بشه.

حتی به وقت اعتراض، سلامت شما مهمترین موضوع هست، خواهش می‌کنم توی فضای بسته اعتراض نکنید.

این روزها به همه‌ی ما سخت می‌گذره.

سلامت باشید 🌹🙏
115👍38
لیست رنج سنی افرادی که کمک‌های مالی بیمه‌ای دریافت می‌کنند.

این لیست توسط دپارتمان DOGE:
Department Of Government Efficiency

منتشر شده، و شما شاهد این موضوع هستید که نزدیک به ۲۰ میلیون بالای ۱۰۰ سال وجود داره و حتی
۱ نفر بالای ۲۴۰ سال
۱ نفر هم بالای ۳۶۰ سال

اهمیت داده و وجود دپارتمان‌های نظارتی (البته تو ایران ناظر هم زیر دسته ولی خب)
👍394