Forwarded from Learning With M
سلام.
به تازگی کتاب : "چگونه با آمار دروغ بگوییم" رو تموم کردم.
طبق معمول خلاصشو و نظر خودم رو توی وبلاگ قرار دادم که می تونید مطالعش کنید.
👈 لینک توضیحات کتاب
#کتاب
به تازگی کتاب : "چگونه با آمار دروغ بگوییم" رو تموم کردم.
طبق معمول خلاصشو و نظر خودم رو توی وبلاگ قرار دادم که می تونید مطالعش کنید.
👈 لینک توضیحات کتاب
#کتاب
🤩4❤2🔥2
Forwarded from InvestFund
📝 چرا دیگه خبری از متاورس و Web3 نیست؟
💡چند سال پیش هر جا نگاه میکردیم حرف از متاورس، NFT و Web3 بود. فیسبوک اسمش را کرد Meta تا بگه آیندهاش را روی متاورس شرط بسته.
بازار NFT هم تو ۲۰۲۱ از کمتر از ۱۰۰ میلیون دلار به حدود ۲۴٫۹ میلیارد دلار رسید و سرمایهگذاری روی بلاکچین در اوج، ۳۲ میلیارد دلار شد.
📉 اما واقعیت امروز
تیترها عوض شده. الان مرکز توجه رسانه و سرمایهگذارها شده AI.
📌 چند عدد مهم:
▫️سرمایه VC در کریپتو و بلاکچین ۲۰۲۴ حدود ۱۳٫۶ میلیارد دلار بوده؛ در نیمه اول ۲۰۲۵ هم کمی بالای ۱۶ میلیارد جذب شده.
▫️در مقابل، فقط در ۲۰۲۵ استارتاپهای AI حدود ۱۹۲٫۷ میلیارد دلار سرمایه گرفتن؛ یعنی بیش از نصف کل پول VC جهان.
▫️گزارش KPMG هم میگه در Q3 ۲۰۲۵ از ۱۲۰٫۷ میلیارد دلار سرمایهگذاری VC، بخش غالب متعلق به AI بوده.
💸 کیس استادی متا: بزرگترین شرط بندی اشتباه دهه؟
شرکت Meta از ۲۰۲۱ تا ۲۰۲۴ روی Reality Labs دهها میلیارد دلار خرج کرد؛ فقط سال ۲۰۲۴ ضرر عملیاتی این بخش ۱۷٫۷ میلیارد دلار بود و مجموعاً بالای ۷۰ میلیارد دلار روی متاورس دود شد.
حالا گزارشها میگن متا میخواد حدود ۳۰٪ بودجه Reality Labs را کم کنه و بیشتر روی پروژههای AI تمرکز کنه. بازار سهام هم این تصمیم را تایید کرده؛ پیامش ساده است: «فعلاً AI منطقیتره.»
📌 چرا ورق برگشت؟
▫️هوشمصنوعی بدون سختافزار جدید وارد زندگی ما شد؛ متاورس نه.
▫️ارزش AI از روز اول روشن بود: نوشتن، کدنویسی، سرچ، اتوماسیون…
▫️اما Web3 برای کاربر عادی هنوز پیچیده است: والت، گسفی، ریسک هک، قوانین مبهم.
▫️سقوط کریپتو و ترکیدن حباب NFT هم اعتماد عمومی را کم کرد.
❓آیا متاورس و Web3 مُردن؟
جواب کوتاه: نه.
متاورس بهعنوان Buzzword خوابیده و VCها محتاطتر شدن، اما Web3 هنوز سالی دهها میلیارد دلار سرمایه میگیره. فقط پروژههای بیهدف کمتر شده و DAOها هم در DeFi و پروتکلهای متنباز زندهاند؛ فقط مثل ۲۰۲۱ کسی ادعای «همهچیز DAO میشه» نداره. سروصدا کم شده، ولی ساختن ادامه داره.
📌 درسی برای فاندرها
رسانه و سرمایهگذار همیشه دنبال موج تازهان؛ یک روز متاورس و Web3، امروز AI. اگر محصول فقط با موج جلو بره و روی درد واقعی ساخته نشده باشه، با اولین تغییر ترند از صحنه حذف میشه.
سؤال مهمتر از اینکه «چرا متاورس و Web3 ساکت شدن؟» اینه:
اگر سه سال دیگه همین سؤال را درباره AI پرسیدیم، آیا استارتاپی که میسازیم هنوز دلیل وجودی خواهد داشت یا نه؟
@investingfund
💡چند سال پیش هر جا نگاه میکردیم حرف از متاورس، NFT و Web3 بود. فیسبوک اسمش را کرد Meta تا بگه آیندهاش را روی متاورس شرط بسته.
بازار NFT هم تو ۲۰۲۱ از کمتر از ۱۰۰ میلیون دلار به حدود ۲۴٫۹ میلیارد دلار رسید و سرمایهگذاری روی بلاکچین در اوج، ۳۲ میلیارد دلار شد.
روی کاغذ، همهچیز فریاد میزد: «اینترنت بعدی، متاورس و Web3 است.»
📉 اما واقعیت امروز
تیترها عوض شده. الان مرکز توجه رسانه و سرمایهگذارها شده AI.
📌 چند عدد مهم:
▫️سرمایه VC در کریپتو و بلاکچین ۲۰۲۴ حدود ۱۳٫۶ میلیارد دلار بوده؛ در نیمه اول ۲۰۲۵ هم کمی بالای ۱۶ میلیارد جذب شده.
▫️در مقابل، فقط در ۲۰۲۵ استارتاپهای AI حدود ۱۹۲٫۷ میلیارد دلار سرمایه گرفتن؛ یعنی بیش از نصف کل پول VC جهان.
▫️گزارش KPMG هم میگه در Q3 ۲۰۲۵ از ۱۲۰٫۷ میلیارد دلار سرمایهگذاری VC، بخش غالب متعلق به AI بوده.
پولی که زمانی سمت متاورس و Web3 میرفت، الان با اختلاف رفته سمت AI.
💸 کیس استادی متا: بزرگترین شرط بندی اشتباه دهه؟
شرکت Meta از ۲۰۲۱ تا ۲۰۲۴ روی Reality Labs دهها میلیارد دلار خرج کرد؛ فقط سال ۲۰۲۴ ضرر عملیاتی این بخش ۱۷٫۷ میلیارد دلار بود و مجموعاً بالای ۷۰ میلیارد دلار روی متاورس دود شد.
حالا گزارشها میگن متا میخواد حدود ۳۰٪ بودجه Reality Labs را کم کنه و بیشتر روی پروژههای AI تمرکز کنه. بازار سهام هم این تصمیم را تایید کرده؛ پیامش ساده است: «فعلاً AI منطقیتره.»
📌 چرا ورق برگشت؟
▫️هوشمصنوعی بدون سختافزار جدید وارد زندگی ما شد؛ متاورس نه.
▫️ارزش AI از روز اول روشن بود: نوشتن، کدنویسی، سرچ، اتوماسیون…
▫️اما Web3 برای کاربر عادی هنوز پیچیده است: والت، گسفی، ریسک هک، قوانین مبهم.
▫️سقوط کریپتو و ترکیدن حباب NFT هم اعتماد عمومی را کم کرد.
❓آیا متاورس و Web3 مُردن؟
جواب کوتاه: نه.
متاورس بهعنوان Buzzword خوابیده و VCها محتاطتر شدن، اما Web3 هنوز سالی دهها میلیارد دلار سرمایه میگیره. فقط پروژههای بیهدف کمتر شده و DAOها هم در DeFi و پروتکلهای متنباز زندهاند؛ فقط مثل ۲۰۲۱ کسی ادعای «همهچیز DAO میشه» نداره. سروصدا کم شده، ولی ساختن ادامه داره.
📌 درسی برای فاندرها
رسانه و سرمایهگذار همیشه دنبال موج تازهان؛ یک روز متاورس و Web3، امروز AI. اگر محصول فقط با موج جلو بره و روی درد واقعی ساخته نشده باشه، با اولین تغییر ترند از صحنه حذف میشه.
سؤال مهمتر از اینکه «چرا متاورس و Web3 ساکت شدن؟» اینه:
اگر سه سال دیگه همین سؤال را درباره AI پرسیدیم، آیا استارتاپی که میسازیم هنوز دلیل وجودی خواهد داشت یا نه؟
@investingfund
YouTube
Why Facebook-Parent Meta Is Willing To Lose Billions On The Metaverse
Facebook changed its name to Meta in October 2021 and CEO Mark Zuckerberg used the occasion to show the world his vision of a digital future of work and play accessible through a VR headset. Two months later the company launched its virtual universe, Horizon…
❤8👍3
TondTech
کتاب اول که بیش از 100 صفحه هست و حدودا 5 ماه زمان برده تموم شد. ریپو رو private کردم، از هفته دیگه فروشش جلد اول افسانه دارا شروع خواهد شد
CrawnOfShadows.pdf
117.2 KB
بخش 1 از فصل 1 ، از کتاب "تاج سایه ها"، اولین جلد از "افسانه دارا"
اگه خوندین، حتما فیدبک بدین
اگه خوندین، حتما فیدبک بدین
❤5
Forwarded from .NET | دات نت
فصل پنجم - الگوهای کارآموزی
یادگیری همیشگی
توسعهی نرمافزار تولید محصول نیست؛ بلکه فعالیتِ کسبِ دانش است.
نرمافزار فقط جایی است که ما دانشی را که به دست آوردهایم، ذخیره میکنیم.
خیلیها منتظرند تا "شرایط مناسب" از راه برسد تا یادگیری را شروع کنند. وقتی پروژه تمام شد، وقتی سرشان خلوت شد، وقتی استرس کم شد...
اما سی. اس. لوئیس حقیقت تلخی را میگوید: شرایط مناسب هرگز نخواهد آمد. تنها کسانی موفق میشوند که در میانهی جنگ و آشوب، با ولع به دنبال دانش میگردند.
نویسندگان در این فصل، تفاوت حیاتی میان کار کردن و تمرین کردن را روشن میکنند.
نوازندگان بزرگ، ساعتها در تنهایی تمرین میکنند تا فقط یک ساعت اجرا کنند. اما برنامهنویسان چه؟ ما معمولاً تمام روز را در حال اجرا (کدنویسی برای پروژه) هستیم و هیچ وقتی برای تمرین (بدون استرسِ تحویل) نمیگذاریم.
برای اینکه در مسیر استادی بمانید، باید این الگوها را زندگی کنید:
۱. تمرین، تمرین، تمرین:
همانطور که در هنرهای رزمی کاتا وجود دارد، در برنامهنویسی هم باید زمانهایی را به حل مسائل تکراری و ساختگی اختصاص دهید. جایی که اشتباه کردن هزینه ندارد. اگر در زمان کار اشتباه کنید، باگ تولید کردهاید؛ اما در زمان تمرین، اشتباه یعنی یادگیری.
۲. اسباببازیهای شکستنی (Breakable Toys):
لینوس توروالدز لینوکس را نساخت چون میخواست دنیا را تغییر دهد؛ آن را ساخت چون فقط یک سرگرمی بود.
شما هم باید پروژههایی داشته باشید که فقط مال خودتان باشد. یک ویکی شخصی بسازید، یک بازی بنویسید، یا یک سیستمعامل ساده و ناقص طراحی کنید. اینها اسباببازیهایی هستند که اجازه دارید آنها را بشکنید، خراب کنید و از دلِ خرابیهایشان معماری واقعی را یاد بگیرید.
۳. استفاده از کد منبع (Use the Source):
فقط کتاب نخوانید؛ کد بخوانید. بیل گیتس میگفت سطل زبالههای مرکز کامپیوتر را میگشت تا کدهای سیستمعامل دیگران را پیدا کند و بخواند. کد، داور نهایی است. خواندنِ کدهای متنبازِ خوب، به شما یاد میدهد که بزرگان این صنعت چگونه فکر میکنند.
۴. یادگیری را ثبت کن و به اشتراک بگذار:
وبلاگ بنویس، نه برای اینکه مشهور شوی، بلکه برای اینکه وقتی مینویسی، مجبور میشوی عمیقتر فکر کنی. وقتی یکی درس میدهد، دو نفر یاد میگیرند.
این فصل یک هشدار بزرگ دارد:
تجربه با تکرار فرق دارد.
بسیاری از برنامهنویسان ۱۰ سال تجربه ندارند؛ آنها ۱ سال تجربه دارند که ۱۰ بار تکرار شده است.
یادگیری همیشگی یعنی هر روز به دنبال راهی باشی تا نادانیات را به مهارت تبدیل کنی، حتی اگر این فرآیند دردناک باشد. چون دردِ یادگیری، تنها نشانهی رشد است.
🔥6❤3👍3💯1
بیا تو تیم ما 💪
داریم تیم دیتای رسمیو رو گسترش میدیم ، اگه شکارچی داده ( Crawler ) هستی، بیا با هم کیف کنیم :))
تا دلتون بخواد چالش و کار جدی داریم تو رسمیو تو این بخش
قول میدم حسابی سرگرم و مشغول باشید و هر روز یه چالش جدید داشته باشی توی این پوزیشن😁
داریم تیم دیتای رسمیو رو گسترش میدیم ، اگه شکارچی داده ( Crawler ) هستی، بیا با هم کیف کنیم :))
تا دلتون بخواد چالش و کار جدی داریم تو رسمیو تو این بخش
قول میدم حسابی سرگرم و مشغول باشید و هر روز یه چالش جدید داشته باشی توی این پوزیشن😁
جاب ویژن
استخدام کارشناس جمعآوری دادهها در رسمیو
برای مشاهده آگهی استخدام کارشناس جمعآوری دادهها در رسمیو کلیک کنید و رزومه خود را به صورت رایگان ارسال کنید
🔥13❤1
Forwarded from Learning With M
اگر فکر می کنی که رشد سخته، باید بگم که حق داری.
اگر فکر می کنی بالا رفتن سخته، باید بهت اطمینان بدم که قطعا هست.
صبح زود بیدار شدن داره، مطالعه لازم داره، سخت تلاش کردن لازم داره، برنامه ریزی لازم داره، استراتژی لازم داره، هدف گذاری لازم داره و از همه مهم تر، کوک چهارم لازم داره.
ولی بهت قول میدم برای همه هم جا هست.
فقط مساله اینه که انتخابت چیه؟
پ.ن: انتخاب چیه؟
اگر فکر می کنی بالا رفتن سخته، باید بهت اطمینان بدم که قطعا هست.
صبح زود بیدار شدن داره، مطالعه لازم داره، سخت تلاش کردن لازم داره، برنامه ریزی لازم داره، استراتژی لازم داره، هدف گذاری لازم داره و از همه مهم تر، کوک چهارم لازم داره.
ولی بهت قول میدم برای همه هم جا هست.
فقط مساله اینه که انتخابت چیه؟
پ.ن: انتخاب چیه؟
❤10🔥3💯3👍1
اینم بازی خوبیه اگه بازی نکردین
https://launch.matchmasters.com/l/friend/5fc964481a00f44345ac1627
https://launch.matchmasters.com/l/friend/5fc964481a00f44345ac1627
Matchmasters
Match Masters - Friend Request
Go on, make a match!
❤1👍1
TondTech
کپشن با نمک فنی با شما..
وقتی خوشحالی که همه چیز خوب جلو رفته و کد رو بدیم بره برای تست نهایی، قبلش یه چک میکنی و میبینی به به ، دو سه تا سوراخ گنده داره هنوز ! اونم آخر وقت !
👏6❤1💔1
Forwarded from هوش مصنوعی | محمد زمانی
Media is too big
VIEW IN TELEGRAM
رانوی مدل Gen-4.5 رو معرفی کرد. جهش جدی در کیفیت ویدیوهای هوش مصنوعی
دیروز شرکت رانوی مدل جدید تولید ویدیو یعنی Gen-4.5 رو معرفی کرد. این مدل همزمان با انتشار، مستقیم رفت صدر جدول Video Arena و با امتیاز Elo حدود ۱۲۴۷، بالاتر از رقبای بزرگی مثل Veo 3 گوگل و Sora 2 Pro اوپنایآی قرار گرفت. این رتبه براساس رأی کاربران در تستهای کور به دست اومده و فعلاً Gen-4.5 رو به عنوان «بهترین مدل عمومی برای تولید ویدیو از متن و عکس» نشون میده.
طبق اطلاعات رسمی رانوی و گزارشهایی مثل CNBC و The Decoder، نسخهٔ جدید نسبت به Gen-4 چند پیشرفت مهم داره. حرکت دوربینها طبیعیتر و سینماییتر شده.
فیزیک محیط و تعامل اجسام واقعیتره و شخصیتها ثبات هویتی خیلی بهتری دارن. جزئیات چهره، دست و حرکات بدن هم چشمگیرتر شده. مدل حالا میتونه پرامپتهای پیچیده و طولانی رو بدون افت کیفیت اجرا کنه، از جمله دستورهای زمانبندیشده و تغییرات مرحلهای در صحنه.
مدل Gen-4.5 روی GPU های Hopper و Blackwell اجرا میشه که باعث شده سرعت استنتاج بالا بمونه در حالی که کیفیت خروجی بهمراتب بهتر شده. همهٔ حالتهای قبلی مثل Image-to-Video، Keyframes و Video-to-Video هم در نسخهٔ جدید فعال هستن و کنترلهای سبکی مختلف از فوتورئال تا سینمایی رو پشتیبانی میکنه.
رولاوت مدل تدریجیه. کاربرای پلن Pro و Unlimited تا آخر همین هفته بهش دسترسی کامل پیدا میکنن و چند شرکت بزرگ هم دسترسی زودهنگام گرفتن. در کنار این، مدل Gen-4 قدیمی هم برای همهٔ کاربرای رایگان باز شده.
البته رانوی خودش گفته که مدل هنوز محدودیتهایی داره. مثالهایی مثل مشکل در علتومعلول دقیق یا ناپدیدشدن بعضی اشیا در موقعیتهای پیچیده هنوز کامل حل نشده. ولی طبق گفتهٔ تیم رانوی، Gen-4.5 فقط اولین قدم از چند انتشار بزرگ جدیده و سرعت پیشرفتشون در حوزهٔ world modeling قراره بیشتر هم بشه.
#هوش_مصنوعی
✈️ @mohammad_zammani
📱 Mohammad.zammani.offical
دیروز شرکت رانوی مدل جدید تولید ویدیو یعنی Gen-4.5 رو معرفی کرد. این مدل همزمان با انتشار، مستقیم رفت صدر جدول Video Arena و با امتیاز Elo حدود ۱۲۴۷، بالاتر از رقبای بزرگی مثل Veo 3 گوگل و Sora 2 Pro اوپنایآی قرار گرفت. این رتبه براساس رأی کاربران در تستهای کور به دست اومده و فعلاً Gen-4.5 رو به عنوان «بهترین مدل عمومی برای تولید ویدیو از متن و عکس» نشون میده.
طبق اطلاعات رسمی رانوی و گزارشهایی مثل CNBC و The Decoder، نسخهٔ جدید نسبت به Gen-4 چند پیشرفت مهم داره. حرکت دوربینها طبیعیتر و سینماییتر شده.
فیزیک محیط و تعامل اجسام واقعیتره و شخصیتها ثبات هویتی خیلی بهتری دارن. جزئیات چهره، دست و حرکات بدن هم چشمگیرتر شده. مدل حالا میتونه پرامپتهای پیچیده و طولانی رو بدون افت کیفیت اجرا کنه، از جمله دستورهای زمانبندیشده و تغییرات مرحلهای در صحنه.
مدل Gen-4.5 روی GPU های Hopper و Blackwell اجرا میشه که باعث شده سرعت استنتاج بالا بمونه در حالی که کیفیت خروجی بهمراتب بهتر شده. همهٔ حالتهای قبلی مثل Image-to-Video، Keyframes و Video-to-Video هم در نسخهٔ جدید فعال هستن و کنترلهای سبکی مختلف از فوتورئال تا سینمایی رو پشتیبانی میکنه.
رولاوت مدل تدریجیه. کاربرای پلن Pro و Unlimited تا آخر همین هفته بهش دسترسی کامل پیدا میکنن و چند شرکت بزرگ هم دسترسی زودهنگام گرفتن. در کنار این، مدل Gen-4 قدیمی هم برای همهٔ کاربرای رایگان باز شده.
البته رانوی خودش گفته که مدل هنوز محدودیتهایی داره. مثالهایی مثل مشکل در علتومعلول دقیق یا ناپدیدشدن بعضی اشیا در موقعیتهای پیچیده هنوز کامل حل نشده. ولی طبق گفتهٔ تیم رانوی، Gen-4.5 فقط اولین قدم از چند انتشار بزرگ جدیده و سرعت پیشرفتشون در حوزهٔ world modeling قراره بیشتر هم بشه.
#هوش_مصنوعی
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1
هر دم از این باغ، بری می رسد..
تازه تر از تازه تری می رسد...
کارآفرینی کرگدن طورانه فقط در این مرز پرگهر...
تازه تر از تازه تری می رسد...
کارآفرینی کرگدن طورانه فقط در این مرز پرگهر...
💔10🤣2❤1👍1
Forwarded from Reza Jafari
تحقیق جدید Google در مورد شبکههای عصبی، یعنی این همه مدت داشتیم اشتباه فکر میکردیم؟
تازگیا یه مقاله خیلی خوب از گوگل منتشر شده که توجه زیادی رو به خودش جلب کرده، و جالبتر اینکه ۳ نفر از ۴ نویسندهش ایرانی هستن: علی بهروز، میثم رضویان و وهاب میررکنی. این تحقیق با عنوان "The Illusion of Deep Learning Architecture" نکته مهم و قابلتأملی رو مطرح میکنه، مخصوصاً برای کسایی که روی continual learning کار میکنن و ارزش دنبال کردن داره.
ایده اصلی اینه که بهجای اینکه مثل همیشه هی layer بیشتر اضافه کنیم، شاید بهتر باشه به neural networkها «سطحهای یادگیری» بیشتری بدیم. امروز ساخت مدلهای قویتر بیشتر بر پایه افزایش عمق و اندازه است: layerهای بیشتر، parameterهای بیشتر و pre-training data بیشتر؛ رویکردی که از CNNها تا Transformerها و LLMها پیشرفت رو جلو برده. اما این مسیر یه سقف داره که کمتر دربارهش صحبت شده: مدلهای فعلی گرفتار چیزی هستن که نویسندهها بهش computational anterograde amnesia میگن. یعنی بعد از pre-training، دانش مدل عملاً یخ میزنه و نمیتونه یادگیری مداوم داشته باشه یا مهارتهایی خارج از context window خودش کسب کنه.
اینجاست که ایده Nested Learning (NL) مطرح میشه؛ رویکردی که ML model رو مجموعهای از مسائل multi-level optimization در نظر میگیره، با چند سطح یادگیری که هر کدوم «context flow» و سرعت آپدیت مخصوص خودشونو دارن. از نگاه این تحقیق، optimizerها و architectureها از نظر بنیادی تفاوتی ندارن؛ هر دو نوعی حافظه هستن که کانتکست خودشونو فشرده میکنن. مثلاً Adam و SGD حافظههایی هستن که gradient رو فشرده میکنن، Transformerها حافظههایی هستن که tokenها رو فشرده میکنن، و خود pre-training هم نوعی in-context learningه—فقط با این تفاوت که کانتکستش کل دیتاست train هست.
اهمیت NL اینه که یه محور طراحی جدید وارد بازی میکنه. بهجای اینکه شبکهها رو فقط عمیقتر یا پهنتر کنیم، میتونیم مدلهایی بسازیم که چند سطح nested optimization دارن و هر سطح با یه update frequency متفاوت عمل میکنه. این ساختار خیلی شبیه سازوکار مغزه که توش gamma waveها اطلاعات حسی رو پردازش میکنن و theta waveها مسئول تثبیت حافظه هستن. بر اساس همین ایده، محققها Hope رو معرفی میکنن؛ یه architecture که self-modifying memory رو با continuum memory system ترکیب میکنه و بهجای تقسیم سنتی حافظه به کوتاهمدت/بلندمدت، یه طیف پیوسته از سرعتهای آپدیت ارائه میده.
نتایج هم واقعاً چشمگیرن: Hope تو تسکهای needle-in-a-haystack تا کانتکست 16K به ۱۰۰٪ accuracy میرسه، در حالی که Transformerها حدود ۷۹.۸٪ میزنن.
روی BABILong، Hope تا کانتکست ۱۰M همچنان عملکرد خودش رو حفظ میکنه، در حالی که GPT-4 حدود ۱۲۸K دچار افت جدی میشه.
تو continual learning هم Hope از in-context learning، EWC و روشهای external-learner تو class-incremental classification بهتر ظاهر شده. حتی تو language modeling با ۱.۳B پارامتر، روی WikiText به ۱۴.۳۹ perplexity میرسه؛ در حالی که Transformer++ حدود ۱۷.۹۲ داره.
در نهایت NL بهجای اینکه بپرسه «چطور شبکهها رو عمیقتر کنیم»، سؤال مهمتری مطرح میکنه: «چطور به شبکهها سطحهای بیشتری برای یادگیری بدیم؟» شاید مسیر رسیدن به continual learning از مدلهای عظیمتر رد نشه، بلکه از مدلهایی عبور کنه که همزمان تو چند timescale مختلف یاد میگیرن.
🔗 لینک مقاله
@reza_jafari_ai
تازگیا یه مقاله خیلی خوب از گوگل منتشر شده که توجه زیادی رو به خودش جلب کرده، و جالبتر اینکه ۳ نفر از ۴ نویسندهش ایرانی هستن: علی بهروز، میثم رضویان و وهاب میررکنی. این تحقیق با عنوان "The Illusion of Deep Learning Architecture" نکته مهم و قابلتأملی رو مطرح میکنه، مخصوصاً برای کسایی که روی continual learning کار میکنن و ارزش دنبال کردن داره.
ایده اصلی اینه که بهجای اینکه مثل همیشه هی layer بیشتر اضافه کنیم، شاید بهتر باشه به neural networkها «سطحهای یادگیری» بیشتری بدیم. امروز ساخت مدلهای قویتر بیشتر بر پایه افزایش عمق و اندازه است: layerهای بیشتر، parameterهای بیشتر و pre-training data بیشتر؛ رویکردی که از CNNها تا Transformerها و LLMها پیشرفت رو جلو برده. اما این مسیر یه سقف داره که کمتر دربارهش صحبت شده: مدلهای فعلی گرفتار چیزی هستن که نویسندهها بهش computational anterograde amnesia میگن. یعنی بعد از pre-training، دانش مدل عملاً یخ میزنه و نمیتونه یادگیری مداوم داشته باشه یا مهارتهایی خارج از context window خودش کسب کنه.
اینجاست که ایده Nested Learning (NL) مطرح میشه؛ رویکردی که ML model رو مجموعهای از مسائل multi-level optimization در نظر میگیره، با چند سطح یادگیری که هر کدوم «context flow» و سرعت آپدیت مخصوص خودشونو دارن. از نگاه این تحقیق، optimizerها و architectureها از نظر بنیادی تفاوتی ندارن؛ هر دو نوعی حافظه هستن که کانتکست خودشونو فشرده میکنن. مثلاً Adam و SGD حافظههایی هستن که gradient رو فشرده میکنن، Transformerها حافظههایی هستن که tokenها رو فشرده میکنن، و خود pre-training هم نوعی in-context learningه—فقط با این تفاوت که کانتکستش کل دیتاست train هست.
اهمیت NL اینه که یه محور طراحی جدید وارد بازی میکنه. بهجای اینکه شبکهها رو فقط عمیقتر یا پهنتر کنیم، میتونیم مدلهایی بسازیم که چند سطح nested optimization دارن و هر سطح با یه update frequency متفاوت عمل میکنه. این ساختار خیلی شبیه سازوکار مغزه که توش gamma waveها اطلاعات حسی رو پردازش میکنن و theta waveها مسئول تثبیت حافظه هستن. بر اساس همین ایده، محققها Hope رو معرفی میکنن؛ یه architecture که self-modifying memory رو با continuum memory system ترکیب میکنه و بهجای تقسیم سنتی حافظه به کوتاهمدت/بلندمدت، یه طیف پیوسته از سرعتهای آپدیت ارائه میده.
نتایج هم واقعاً چشمگیرن: Hope تو تسکهای needle-in-a-haystack تا کانتکست 16K به ۱۰۰٪ accuracy میرسه، در حالی که Transformerها حدود ۷۹.۸٪ میزنن.
روی BABILong، Hope تا کانتکست ۱۰M همچنان عملکرد خودش رو حفظ میکنه، در حالی که GPT-4 حدود ۱۲۸K دچار افت جدی میشه.
تو continual learning هم Hope از in-context learning، EWC و روشهای external-learner تو class-incremental classification بهتر ظاهر شده. حتی تو language modeling با ۱.۳B پارامتر، روی WikiText به ۱۴.۳۹ perplexity میرسه؛ در حالی که Transformer++ حدود ۱۷.۹۲ داره.
در نهایت NL بهجای اینکه بپرسه «چطور شبکهها رو عمیقتر کنیم»، سؤال مهمتری مطرح میکنه: «چطور به شبکهها سطحهای بیشتری برای یادگیری بدیم؟» شاید مسیر رسیدن به continual learning از مدلهای عظیمتر رد نشه، بلکه از مدلهایی عبور کنه که همزمان تو چند timescale مختلف یاد میگیرن.
@reza_jafari_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥1
برای تست تو دوره وایب کدینگ دانشکار یه سرویس نوشتم قند و نبات، سر فرصت بهتون میگم 😁😁😁
👍8❤1
اگه هفته خوبی نداشتین، برید برنامه #گنگ رو تو فیلیمو با مجری گری علی ضیا و اجرای #ممرضاشایع ببینید. انشالله که گامی باشه برای فضای باز و آزاد تر برای هنرمندان #رپ مون.
👎53🤣7🔥5❤1
TondTech
برای تست تو دوره وایب کدینگ دانشکار یه سرویس نوشتم قند و نبات، سر فرصت بهتون میگم 😁😁😁
این همون سرویسه ست که دیشب نوشتم. قشنگیش اینه که کاراکترها رو ثابت نگه میداره تو تصاویر متفاوت
❤9🔥5👍2👎1