NEW BOT Телеграм, страница

Dev Tweet

Alice's Adventures in a Differentiable Wonderland -- Volume I, A Tour of the Land
ماجراهای آلیس در سرزمین عجایب مشتق‌پذیر -- جلد اول، گشت و گذار در سرزمین
این کتاب خیلی اسمش نشون نمیده چیه.
یه کتاب در مورد آموزش یادگیری عمیق شبیه کتاب Deep Learning Book - Ian Goodfellow and Yoshua Bengio که سالها تسک بوک دانشگاهی دیپ لرنینگ بود اما دیگه از 2016 مطالبش آپدیت نشد.
من یک کتاب دیگه در دیپ لرنینگ سراغ دارم که مطالبش به روز باشه و ارزشمند باشه که قبلا اینجا (کتاب UDL) معرفی کردم خدممتون.
همین این کتاب آلیس در سرزمین عجایب مشتق پذیر و هم این کتاب UDL رایگان و اپن سورس هستند.
این کتاب آلیس ... رو میتونید از arxiv بردارید.
دو تا نکته در مورد این کتاب خیلی جالبه:
1. اسم کتاب برگرفته از یک ریبرندیگه از عنوان شبکه عصبی که ایده ش رو سال 2018 یان لیکان ارئه کرده همون differentiable programming است.
ایده‌ش در شعارش خلاصه میشه:
Deep Learning est mort. Vive Differentiable Programming!
یادگیری عمیق مرد. زنده باد برنامه نویسی مشتق‌پذیر!
بطور خلاصه این ایده میگه دیپ لرنینگ یک ریبرندیگ(rebranding) برای شبکه‌های عصبی ساده با تعداد لایه زیاد بود. اما مدلهای امروزی واقعا دیگه فقط کلی لایه نیستن که پشت سر هم قرار گرفتنند بلکه کلی بلوکهای فاکشنال مشتق پذیر هستن که بصورت دینامیک ساختار مدل بصورت تابعی از مدل عمل می‌کنه(بر خلاف شبکه‌ی عصبی عمیقی که اول معماری ساخته میشد و ساختارش مستقل از داده‌ای بود که آموزش میداد.) به همین خاطر نام مناسب برای مدلهای مدرن برنامه نویسی مشتق پذیر است. مثال مناسب برای فهم تفاوت اینکه چرا به مدل‌های مدرن(دقت کنید میگم مدل مدرن نمیگم شبکه!) میگه برنامه نویسی مشتق پذیر همین مدل‌های MMLU (مدلهای زبانی چند موداله)(متن+تصویر+ویدئو+صوت) است که یک مدل در ترکیبی از چندین شبکه‌(مدل)ی عصبی عمیق داره کار می‌کنه.

این نویسنده‌ هم با اشاره به این موضوع دیگه اسم کتابش رو نذاشته deep learning. گذشته ماجراجویی مشتق پذیر Differentiable آلیس!
2. برای مباحث جدید(فصل آخر: داخل سوراخ خرگوش Down the rabbit-hole) این کتاب مباحث واقعا جذابی داره (عکس ضمیمه شده) مثه SSS modelها مباحث پیشرفته‌ای در ترنسفورمرها و GNNها هم داره. تازه برای جلد اوله و طبق گفته خودش هنوز به مباحث جدیدتر مثه generative modeling, explainability, prompting, agents نپرداخته.

پ.ن: این کتاب مطالب درسی کورس Neural Networks for Data Science Applications ایشون در دانشگاه ساپینزا ایتالیاست.
پ.ن: توئیت معرفی کتاب (وقت داشتید کوتهای توئیت رو ببینید)
پ.ن: در مورد برنامه نویسی مشتق پذیر میتونید اینجا رو بخونید.

Dev Tweet Media

👍5

1.91K viewsedited 12:03

Dev Tweet

جایگزین جدید دیگر برای MLP
شبکه‌ی Kolmogorov-Arnold Networks (KAN)

دو سه روزی یه مقاله جدید اومده به اسم KAN از یک تیم از MIT و برکلی به عنوان جایگزینی برای MLP.
نویسنده‌ها بک گراند فیزیک دارن!
حرف در مورد این مقاله زیاد میشه زد اما به قدر وسعم چند ایده‌ اساسی‌ش رو اینجا مطرح می‌کنم.
1. شبکه‌های MLP مبتنی بر قضیه‌ی تقریب سراسری(universal approximation theorem (UAT)) هستند. اما مبنای شبکه‌ی KAN قضیه‌ی بازنمایی کلموگروف-آرنولد (Kolmogorov-Arnold representation theorem (KART)) به خاطر همین اسمش رو گذاشتن کولوموگروف و آرنولد چون از تئوری اونها اومده.
قضیه تقریب سراسری (UAT) ادعا می‌کند که یک شبکه نمی‌تواند با عرض ثابت دقت بی‌نهایت را بدست آورد، به این معنی که اگر تعداد نورون‌ها در لایه (های) پنهان اجازه افزایش نداشته باشد محدودیت وجود دارد که چقدر یک شبکه عصبی می‌تواند توابع پیچیده را مدل کند. به عبارت دیگر، برای افزایش دقت مدل برای توابع پیچیده‌تر، باید تعداد نورون‌ها (یعنی عرض) در شبکه را افزایش داد.

قضیه بازنمایی کلموگروف-آرنولد (KART)میگه که هر تابعی از متغیرهای چندگانه می‌تواند به عنوان ترکیبی جمعی از توابع یک متغیره نوشته شود. این نشان می‌دهد که یک شبکه می‌تواند ( تحت شرایط خاص) با عرض ثابت دقت بی‌نهایت را بدست آورد.
قضیه تقریب سراسری UAT پیشنهاد می‌کند که یک شبکه نمی‌تواند با عرض ثابت دقت بی‌نهایت را بدست آورد، در حالی که KART پیشنهاد می‌کند که این ممکن است. مهم است توجه داشت که این قضایا تضمین‌های نظری در مورد آنچه ممکن است را ارائه می‌دهند، اما لزوماً روش‌های عملی برای دستیابی به این نتایج را ارائه نمی‌دهند. عملا راه حل پیاده‌سازی عملی قضیه‌ی UAT شبکه‌ی MLP و راه حل پیاده‌سازی عملی قضیه‌ی KART شبکه‌ی KAN است.

2. در شبکه‌ی MLP توابع فعالسازی روی نرون‌ها(گره‌ها) اعمال می‌شوند و ثابت هستند.
در شبکه‌ی KAN توابع فعالسازی روی وزن‌ها(یال‌ها) اعمال می‌شوند و قابل یادگیری هستند که با اسپلاین پارامتریزه می‌شوند.

3. شبکه‌ی KAN سرعت یادگیری‌ش کمتره اما در عوض:
تفسیرپذیرتره!
با تعداد پارامتر کمتر به همون دقت MLP می‌رسه!
طبق قانون مقیاس در شبکه‌های عصبی در افزایش مقیاس مشخص سرعت افزایش دقت آن بیشتر است!
مثلا در یک مساله خاص که دیپ مایند با 300 هزار پارامتر به یک دقت و نتیجه رسیده این شبکه با 200 پارامتر به همون نتیجه رسیده!

4. چرا آموزش KAN کند است؟
(جواب از زبان نویسنده)
دلیل 1: فنی. توابع فعال سازی قابل یادگیری (اسپلاین‌ها) برای ارزیابی گران‌تر از توابع فعال سازی ثابت هستند.
دلیل 2: شخصی. فیزیکدان در درون من شخصیت برنامه‌نویس من را مهار می‌کرد، بنابراین من سعی (یا دانش) بهینه‌سازی کارایی را ندارم.
به همین دلیل اصلا کد مدل GPU-freindly نوشته نشده است.

پ.ن: مقاله خیلی خوب نوشته شده واسه فهمیدن و کلی تصویر داره که نشون میده موضوع رو.
پ.ن: دو تصویری که از مقاله KAN و MLP رو مقایسه میکنند رو آوردم. کلا تصاویر و جداول مقاله خیلی خوب و قابل فهمه:)
پ.ن: این رشته توئیت تاثیر بک‌گراندهای فیزیکی ذهن طراح شبکه را خیلی جالب از مقاله بیرون کشیده.
پ.ن: لینک مقاله

Dev Tweet Media

👍9

3.52K viewsedited 15:21

Dev Tweet

پدیده‌ای عجیب در افزایش عمق شبکه
آقای ماکسیم لابون اومده از llama-3 که دو ورژن 8 و 70 میلیارد پارامتری داره یه مدل 120 میلیارد پارامتری درست کرده؟!
از قضا یک کاربر دیگه یک تستی برای هوشمندی‌ش اجرا کرده که نشون میده حتی از Opus Claudia (رقیب GPT-4 واسه شرکت Anthropic) در اون تست خاص هوشندتره!
اون تست چیه؟ یک کاربر کلی وقت گذاشته به مدل القا کنه یک دستیار شخصی نیست بلکه یک شخصیت دیگه‌ای داره(مثلا فیزیکدانه) اینکه چقدر طول کشیده که بتونه مدل رو گول بزنه رو معیار هوشمند بودن قرار داده و در عمل llama-3 و Claudia Opus رو تونسته زودتر از مدل ۱۲۰ میلیارد پارامتری گول بزنه!
چطور ممکنه یک شخص بتونه چنین مدلی پیاده کنه؟ (چون این مدلها هر بار چند ماه و چند میلیون دلار آموزش‌شون هزینه می‌بره و قطعا یک شخص به چنین زیرساخت برای آموزش دسترسی نداره)
نکته جالب اینکه حتی از داده جدید هم برای آموزش استفاده نکرده!
پس چطوری تونسته چنین مدلی بسازه!؟
هیچ اومده یک سری لایه‌ی همون مدل llama3-70b رو با یک پترن ساده‌ای کپی کرده پست سر هم استک کرد!
اول ۲۰ تا لایه‌ی اول لاما-۳ رو برمیداره بعد لایه ۱۰ تا ۳۰ رو برمیداره(عملا لایه‌ی ۱۰ تا ۲۰ داره دوبار کپی می‌شود) و به ترتیب لایه‌ی ۲۰ تا ۴۰ و ۳۰ تا ۵۰ و ... و اینها را پشت هم قرار می‌دهد و مدل ۱۲۰ میلیارد پارامتری رو می‌سازه.
به لحاظ فنی چطوری این کار رو کرده؟ از ابزاری به اسم mergekit استفاده کرده(اون فایل کانفیگ مربوط به همین ابزاره)
این مدل الان توی hugging face به اسم Meta-Llama-3-120B-Instruct هست اونجا کانفیگ کپی کردن لایه ها رو گذاشته(در عکس ببنید)
شاید بگید اون تست خاص و میزان تلاش یک انسان برای متقاعد کردن یک مدل معیار خوبی واسه هوشمندی نیست، باید عرض کنم این مدل در تست عمومی تر Creative Writing benchmark از Claudia Haiku بهتره و قبل از Claudia-Sonnet قرار می‌گیره.
اتفاقی که داره میافته عجیبه!
صرف افزایش پارامتر از طریق افزایش عمق شبکه داره کارایی شبکه افزایش میده!
بدون هیچ آموزش جدید
بدون داده جدید
بدون هیچ fine-tuning
فقط کپی کردن لایه‌ها
همین!

Dev Tweet Media

👍8🔥4

2.91K views05:18

Dev Tweet

مثلا در یک مساله خاص که دیپ مایند با 300 هزار پارامتر به یک دقت و نتیجه رسیده این شبکه با 200 پارامتر به همون نتیجه رسیده!

اگه این پست شبکه‌ی KAN رو خاطرتون باشه گفتیم که ممکنه یک شبکه‌ای MLP که با 300 هزار پارامتر به یک دقت میرسه همون دقت با 200 هزار پارامتر از شبکه‌ی KAN به دست بیاد.
این کاربر یک مدل کوچک سبک GPT-2 را ه جای MLP با استفاده از شبکه‌های Kolmogorov-Arnold (KANs) روی 134 میلیون توکن از مجموعه داده TinyStories با استفاده از JAX آموزش داده. در نتیجه فهمیده KAN می‌توانند با 25٪ پارامتر کمتر عملکرد مشابهی را ارائه دهند!
از یک شبکه‌ی KAN استفاده شده است که چبیشف چندجمله‌ای‌ها را (الهام گرفته از https://github.com/SynodicMonth/ChebyKAN/blob/main/ChebyKANLayer.py) به عنوان تابع پایه استفاده کرده.
مدل MLP دارای 3.3 میلیون پارامتر است و نسخه KAN دارای 2.5 است.
پارامترهای کمتر لزوماً به معنی کمتر بودن محاسبات نیست اما لایه‌های KAN هنوز نیاز دارد که برای GPU بهینه‌سازی شوند.

X (formerly Twitter)

Charlie George (@__Charlie_G) on X

1/ I trained a small GPT-2 style model using Kolmogorov-Arnold Networks (KANs) instead of MLPs on 134 million tokens of the TinyStories dataset using JAX. I found that KANs can achieve the same performance with 25% fewer parameters! Code below.

❤5👍1

852 views14:48

Dev Tweet

این لینک رو حتما یه نگاه بندازین.
مسئول مدلهای لاما در هاگینگ‌فیس(کسی که یکی از مسئولیت‌هاش ستاپ کردن و نگه‌داری مجموعه مدلهای لاما شرکت متا روی هاگینگ فیس هست) اومده یک واژه‌نامه از کلمات و اصلاحات مدلهای زبانی جمع‌آوری کرده و با بیان ساده تعریف کرده.
به نظرم کاملا ارزشش رو داره یه ساعتی وقت بذارید. حجم زیادی اطلاعات مفید میگیرید.

hackerllama

The Llama Hitchiking Guide to Local LLMs – hackerllama

Omar Sanseviero Personal Website

❤5👍2

643 viewsedited 02:54

Dev Tweet

مهندسی نرم‌افزار و هوش مصنوعی
(تجربه من از برنامه نویسی با مدل زبانی)
من تقریبا یک سالی هست که خیلی کم کد می‌نویسم چون دیگه میدونم چطوری تسکهام روی برای copilot توضیح بدم اونجوری که میخوام انجامش بده.
با وجود اینکه خیلی کمتر کد زدم برنامه‌های بیشتری تولید کردم مثلا برای کارام برنامه‌های کوچیک کوچیک خیلی بیشتر نوشتم.
مدل‌های زبانی دارند سطح انتزاعی فکر کردن ما در مورد برنامه‌ها رو بالا می‌برند یعنی مثلا اگر سینتکس جاوا رو بلد نیستید و خیلی کتابخونه‌هاش رو نمیشناسید ولی اگر زبان اصلی شما پایتون است و پارادایم شی‌گرائی را در پایتون خوب بلدید با کمترین زمان ممکن میتونید سوئیچ کنید روی جاوا. حتی یک برنامه نویس پایتون که شی گرایی رو خیلی خوب بلده با کمک مدل زبانی میتونه کد جاوا خیلی بهتری بنویسه چون مدل‌های زبانی کاری کردند که اصل بر تسلط بر انتزاعه و مهندسی نرم افزار است نه مهارت توسعه فانکشن و کلاس.
تجربه من در استفاده از مدل‌های زبانی رایگان که context length کوتاه‌تری به نسبت مدلهای پولی دارند این بوده که همین context length مانع بزرگی برای استفاده کردن از مدل زبانی در سطح انتزاعی بالاتره چون از وقتی context length نسخه copilot من از ۴۰۰۰ تا به ۸۰۰۰تا کاراکتر افزایش پیدا کرده می‌بینم که میتونم برای تسکهای انتزاعی تری استفاده‌ش کنم اما با افزایش context length مدل معمولا دچار نوعی حواس پرتی میشه و ممکنه لازم باشه یک چیز رو با طرق مختلف ازش بخواهید تا براتون انجام بده.
این رو امروز که تو شرکت مجبور به یک ریفکتور سنگین بودیم و با یک پترن خاصی داشتیم توسعه می‌دادیم فهمیدیم(اصلا نمیدونم برای اون نیاز خاص ما دیزاین پترن وجود داره یا نه چون یک پترنی درآوردیم که ظاهرا تا الان جواب داده اگه جواب نده احتمالا تا نیمه خرداد تیم‌مون تعلیق میشه😂) جایی بود که فقط تجربه به دادمون می‌رسید (نه اینکه بگم خیلی باتجربه بودیم) یعنی اگر باتجربه‌تر بودیم اون کد رو بهتر طراحی می‌کردیم و اگر تجربه رو نداشتیم مدل زبانی به دادمون نمی‌رسید و رسما به فنا میرفتیم.
پ.ن: اینا رو منی می‌نویسم که حتی عکسی رو که مدیر از باگ سیستم با گوشی‌ش از روی مانتیور گرفته تو تلگرام برام فرستاده با copilot حلش میکنم!
پ.ن۲: اگر فعلا قصد در حال حاضر مهندسی نرم‌افزار بلد نیستید یعنی تجربه یا توانایی یا موقعیت کد زدن در کدبیسهای بزرگ رو ندارید استفاده بی‌رویه و غلط از این مدلهای زبانی با ایجاد توهم مهندس افزار بودن به فنا میده‌تون چون در سیستمی که مثلا بیش از هزارتا تسک داره بیش از اینکه توسعه مهم باشه نظم توسعه(معماری) مهمه چون اگر بیزینس بخواد اسکیل کنه و چه به لحاظ اسکیل کردن فیچرها و چه منابع، اگر معماری درست و درمون نداشته باشید ممکنه کل بیزینس رو با سر بزنید زمین. یک‌ از دوستان که خیلی برنامه نویس قابلی بود تعریف می‌کرد چطوری ریفکتور کردن(با پروژه بزرگ رو ریفکتور کرده باشی تا بدونی چاه ریفکتور چیه😐) بی‌حساب و کتاب و بی‌موقع باعث شده بود بیزینس‌شون به علت محدودیت منابع مالی کل پروژه رو جمع کنه:) (اسم پروژه رو بگم اکثرا میشناسید)
پ.ن۳: حرفهایی که من در مورد مدل زبانی میزنم‌ واسه الانه نه شش ماهه دیگه! به زودی مدل‌های زبانی در سطح انتزاع بالاتر مثل معماری هم پیشرفت خواهند کرد و میتونن از من و شما با best practiceهای بهتری و design patternهای مناسب‌تری کد بزنن!
پ.ن۴: اگر پ.ن قبلی شما رو به ترس انداخته که چقدر احتمالش بالاست که مدل‌های زبانی ممکنه آینده کاری نیروهای فنی حوزه آیتی رو به فنا بدن(شاید نگرانی بجایی باشه ولی من فعلا نگران نیستم) به نظرم دورترین شغل در رده فنی به جایگزین شدن با هوش مصنوعی تسکهای رده devops است.(به نظر حتی مهندسی محصولم با فهمی که من از تسکاش دارم خیلی میتونه مورد تهدید قرار بگیره مگر اینکه اون نیرو تجربه تحلیل بیزینسی خودش رو خیلی بالا ببره که اون موقع میشه طلا)
پ.ن۵: چرا در مورد آینده شغلی‌م و هوش مصنوعی نگران نیستم چون معتقدم چیزی که شغل من رو به خطر می‌اندازه بحران‌های اقتصادی و به‌خصوص بحران منابع مالی در حوزه tech هست که دیگر شرکت‌ها و سرمایه گزاران علاقه به برنامه‌های توسعه‌‌ای نداشته باشند و بخواهند صرفا از سرویس‌های جاری کسب درآمد کنند ولی مادامی که علاقه به توسعه وجود داشته باشد نیازش هم پیدا می‌شود و تقاضا برای نیروی فنی به وجود می‌آید.
پ.ن۶: آنقدر تعلیق زدم هاشیه(پ.ن‌ها) از اصل متن بیشتر شد:)
لطفا نقدم کنید تا بیشتر فکر کنم بیشتر یاد بگیرم❤️

Dev Tweet Media

👍7

2.45K viewsedited 16:32

Dev Tweet

مهندسی نرم‌افزار و هوش مصنوعی (تجربه من از برنامه نویسی با مدل زبانی) من تقریبا یک سالی هست که خیلی کم کد می‌نویسم چون دیگه میدونم چطوری تسکهام روی برای copilot توضیح بدم اونجوری که میخوام انجامش بده. با وجود اینکه خیلی کمتر کد زدم برنامه‌های بیشتری تولید…

طولانیه ولی لطفا بخوانید بهم فیدبک بدید دمتون گرم❤️

703 viewsedited 16:36

Dev Tweet

Forwarded from Python BackendHub (Mani)

این عکس واقعا خیلی قشنگ نشون میده over engineering رو. بیشتر مواقع زمانی اتفاق میفته که میخوایم آینده رو پیشبینی کنیم.

تا وقتی به حد کافی نقطه مشخص دارین سعی نکنید سولوشنی بدید که همه کیس هارو کاور کنه. معمولا سولوشن پرفکت اول مسیر خودشو نشون نمیده.

@PyBackendHub

663 views11:58

Dev Tweet

Python BackendHub

این عکس واقعا خیلی قشنگ نشون میده over engineering رو. بیشتر مواقع زمانی اتفاق میفته که میخوایم آینده رو پیشبینی کنیم. تا وقتی به حد کافی نقطه مشخص دارین سعی نکنید سولوشنی بدید که همه کیس هارو کاور کنه. معمولا سولوشن پرفکت اول مسیر خودشو نشون نمیده. @PyBackendHub

کانال تو حوزه برنامه نویسی مثه علف هرز زیاده اکثرا دنبال کردنشون نفعی خاصی به شما نمی‌رسونه این کانال واقعا جز معدود کانالهاییه که اگه به مهندسی نرم‌افزار علاقه دارید به دردتون میخوره.
مطالب واقعا مفیدی مینویسه که معمولا دید خوبی میده مخصوصا اگه تجربه کار پروداکشن داشته باشید.
نویسنده‌ش رو نمیشناسم ولی دمش گرم❤️

@PyBackendHub

👍5

738 viewsedited 12:06

Dev Tweet

اکستنش خفن مایکروسافت برای Vscode برای کارهای Data Science
اگر تجربه کار کردن با csv رو داشته باشید و بخواهید یه کار تحلیلی دم دستی بکنید احتمالا مستقیم میرید سراغ notebook. حالا یا jupyter رو مستقیم توی بروزر اجرا کنید یا توی vscode.
وقتی واقعا جذاب نیست هنوز!
چون هی باید کد روی dataframe های پاندا بزنی مخصوصا جایی باشه کد زدنه واقعا اهمیت نداشته باشه و خروجی تحلیل موردی شما اهمیت بیشتری داشته. مثلا وقتی که بخواهید unique_count مقادیر هر ستون رو بگیرید. یا مثلا سریعتر بتونم چندتا چیز رو با هم فیلتر کنم و درگیر نوشتن کوئری روی Dataframe نشم خیلی بهتره.
دیروز این اکستنش خفن مایکروسافت رو دیدم
Data Wrangler
باهاش کار کردم واقعا لذت بخش بود و واقعا سرعت کار رو زیاد میکرد و مجبور نبودی روی چیزی که دوست نداری تمرکز کنی و فقط روی نتیجه تمرکز میکنیی.
حتما به گیت هابش سر بزنید.
جالبش اینکه هم روی سلولهای Jupyter کار میکنه یعنی میتونید با کد pandas تغییرات مد نظر رو بدید و دیتافریم حاصل رو میگیره و روی تحلیل اولیه میزنه. و هم روی فایل CSV رو با ابزارهای تحلیلی باز میکنه و از عملیاتهایی که انجام میده کد تولید میکنه.
تا زمانی که این گیف رو نبینید متوجه نمیشید چه لعبتیه:)).

Dev Tweet Media

❤7👍1

709 viewsedited 04:32

Dev Tweet

آینده‌ی هوش مصنوعی
در این رشته توئیت مقایسه جالبی بین روند توسعه سرعت هواپیما و نرخ کلاک cpu با روند توسعه ai انجام داده که نکات خیلی جالبی‌داره. من چند تا نکته‌ش رو در ادامه میارم:
۱. مقایسه پیشرفت‌های سریع در سرعت هواپیماها در دهه ۱۹۶۰ با پیشرفت فعلی در هوش مصنوعی نشان می‌ده که همانطوری که روند افزایش سرعت هواپیماها در هوانوردی به یک سطح ثابت رسید، توسعه هوش مصنوعی نیز ممکنه با کندی مواجه شود. انتظار رشد مداوم در سرعت هواپیما آنقدر بالا رفته بود که مردم پیشاپیش رزرو پیشین پروازهای به ماه رو رزرو. میکردند چون مطمئن بودند این روند افزایش سرعت اینقدر ادامه داره که روزی با راحتی میشه با هواپیما به ماه سفر کرد. اما این اتفاق نیفتاد و این روند با محدودیت‌های غیرمنتظره‌ای روبرو شد.

در فناوری این رو میشه به عنوان یک قاعده ی طلایی در نظر گرفت رشد که «رشد نمایی در نهایت به سیگموید تبدیل میشود» یعنی رشد در فناوری اغلب از یک روند نمایی پیروی می‌کند ولی در نهایت به سطحی ثابت می‌رسد و یک منحنی سیگموئیدی (Sigmoid) را تشکیل می‌دهد. این الگو در حوزه‌های مختلف فناوری مانند ثابت شدن سرعت کلاک CPU‌ها هم دیده شد.

برای هوش مصنوعی، به‌ویژه مدل‌های زبان بزرگ (LLMs) مانند GPT-3 و GPT-4، دو چالش اصلی می‌تواند مانع از توسعه بیشتر میشه:

۱. کیفیت داده‌ها: دسترسی به داده‌های باکیفیت برای آموزش مدل‌ کارآمد حیاتیه. امکان دارد که منبع داده‌های ارزشمند در حال تمام شدن باشه یعنی شرکتهای بزرگ ai tech هر چی داده با کیفیت بود رو جمع کردند داده با کیفیت زیادی باقی نمونده این نکته توضیح میده که چرا مدل‌های اخیر این شرکتها سطوح عملکرد مشابهی دارند و مدتیه جهش قابل توجهی در مدلهاشون ندارند.

۲. داده‌های مصنوعی: در صورتی که داده‌های طبیعی با کیفیت تموم شده باشند داده‌های مصنوعی می‌توانند به رفع خلأهای آموزشی خاص و بهبود توانایی‌های مخصوص به حوزه کمک کنند، ممکن است جایگزین تنوع و غنای داده‌های واقعی تولید شده توسط انسان نشوند.

علاوه بر این، افزایش اندازه یک مدل هوش مصنوعی لزوماً به معنای بهتر شدن عملکرد در کاربردهای عملی نیست، حتی اگر بهبود در معیارهای نظری مانند پیچیدگی (توانایی مدل در پیش‌بینی کلمه بعدی) را به همراه داشته باشد.
یک سوال مهم در پیش‌بینی آینده‌ی LLMها پاسخ به این سوال است که آیا مدل‌های زبان بزرگ می‌توانند واقعاً فهمیده و فراتر از داده‌های آموزشی خود تعمیم دهند یا اینکه محدود به وظایفی هستند که صراحتاً در آن‌ها نمایش داده شده‌اند. اگر مدل‌های زبان بزرگ واقعاً به داده‌های آموزشی خود محدود باشند، پس افزایش داده‌ها دیگر مفید نخواهد بود زیرا تمام وظایفی که قرار است در آن نمایش داده شوند، قبلاً نمایش داده شده‌اند. این می‌تواند به این معنا باشد که مدل‌های زبان بزرگ، مانند سایر مدل‌های یادگیری ماشین، به نقطه بازدهی کاهشی خواهند رسید.

۲. مدتها از زمان انتظار برای ارائه‌ی GPT-5 می‌گذرد، تغییرات در تمرکز شرکت‌ها، و تغییرات در انتظارات جامعه هوش مصنوعی ممکن است نشان دهنده این باشد که محدودیت‌های مقیاس‌بندی مدل‌های هوش مصنوعی در حال حاضر توسط کسانی که در خط مقدم تحقیقات هوش مصنوعی هستند، پذیرفته شده است.

انتشار سریع GPT-3.5 به دنبال GPT-4 منجر به توهمی شده که از سرعت پیشرفت‌های مدل‌های زبانی بزرگ را ایجاد کرده باشد. این رشته توئیت درکی واقع‌بینانه‌تر از هوش مصنوعی به عنوان بخشی از چرخه فناوری را ارائه می‌دهد.

در مجموع، در حالی که هوش مصنوعی پیشرفت‌های قابل توجهی داشته است، با چالش‌هایی مواجه است که می‌تواند پیشرفت آن را کند کند، همانطور که سایر فناوری‌ها در گذشته تجربه کرده‌اند. آینده مقیاس‌بندی هوش مصنوعی نامشخص است و صنعت در حال سازگاری با این مرحله از توقف است.

Dev Tweet Media

506 viewsedited 10:44

Dev Tweet

آینده‌ی هوش مصنوعی در این رشته توئیت مقایسه جالبی بین روند توسعه سرعت هواپیما و نرخ کلاک cpu با روند توسعه ai انجام داده که نکات خیلی جالبی‌داره. من چند تا نکته‌ش رو در ادامه میارم: ۱. مقایسه پیشرفت‌های سریع در سرعت هواپیماها در دهه ۱۹۶۰ با پیشرفت فعلی در…

این رشته توئیت از جهت نقد توهمات عوامانه در مورد قابلیت‌ها و آینده‌های هوش مصنوعی آوردم که گاهی آدم‌های خیلی مهم رو هم درگیر خودش می‌کنه ولی خب اونها معمولا از دامن زدن به این توهمات یه چیزی گیرشون میاد...
البته من لزوما با هر چیزی که میذارم هم نظر نیستم ولی از جهت دیدن کلان ایده‌های متفاوت به این‌ها میپردازم.

👍4

460 views10:51

Dev Tweet

ورژن قدیمیِ 《هوش مصنوعی باعث بی‌سوادی آدما میشه》

👍2

479 viewsedited 06:54

Dev Tweet

ورژن قدیمیِ 《هوش مصنوعی باعث بی‌سوادی آدما میشه》

این باور معمولا از اونجا ناشی میشه که آدما هر چی بیشتر دانش low level(منظور سطح کیفی نیست منظور سطح انتزاعه) داشته باشن و از مکانیزم هر چیزی سر دربیارن خفن‌ترن!

445 views06:57

Dev Tweet

ما تو شرکت داشتیم داده هامون رو روی Yolov8 ترین میکردیم که یه دفعه دیدیم خبر اومد ورژن 10 اومده!
این Yolo آپدیتهاش شبیه تلگرامه:)
( اپدیتهای مکرر با تغییرات اساسی)

462 views10:32

Dev Tweet

من خودم به شخصه دنبال خرید اشتراک برای سرویس های چت بات مثه GPT4 و Gemini و Claude AI هستم.
چند روزه دارم بررسی میکنم یه اشتراک به صرفه و مناسب کار خوردم رو بخرم.
امروز این بررسی Wall Street Journal رو دیدم.
سرویس Perplexity بهترین سرویس شده در بین فاکتورهای مقایسه و بدترین هم Copilot!
البته مقایسه Perplexity با GPT و Claude و Gemini کار غلطیه.
سرویس Perplexity باید با You.com و Peo.com و Copilot مقایسه بشه.

منبع

👍2

476 viewsedited 13:59

Dev Tweet

اگر شما تجربه خرید اشتراک رو دارید بنویسید از چه سرویسی استفاده می‌کنید راضی هستید یا نه.
من خودم دارم متقاعد می‌شم برم اشتراک text.cortex رو بگیرم.
بعدا توضیح میدم چرا.

419 views14:02

Dev Tweet

گندکاری جدید گوگل با AI Overview
دقت کرده باشید گوگل بالای سرچ‌هایش جدیدا یک چیزی میاره تحت عنوان AI Overview یک کادر صورتی رنگ داره.
شبیه چیزی که ‌Bing با کمک GPT4 h آورده بود بهش میگفت Deep search.
ولی در این چند روزه که عرضه شده با جواب‌های شدیدا گمراه کننده شدیدا گند بالا آورده!
مثلا‌هایش را پائین با عکس ضمیمه می‌کنم.
ببخشید اگر بعضی مثال‌ها بی ادبانه است.
منبع مثال‌ها برای دیدن مثال‌های بیشتر.

X (formerly Twitter)

Jeremiah Johnson 🌐 (@JeremiahDJohns) on X

Google's new AI search results are having quite the week. Here's a thread with some of my favorite answers:

414 viewsedited 11:40

Dev Tweet

611 views11:42

About

Blog

Apps

Platform