سلام مجدد
بعد از یک مدت طولانی که نتونستم بنویسم
ممنون که هنوز اینجا هستید
تصمیم گرفتم هر چند کوتاه ولی بیشتر بنویسم
بعد از یک مدت طولانی که نتونستم بنویسم
ممنون که هنوز اینجا هستید
تصمیم گرفتم هر چند کوتاه ولی بیشتر بنویسم
❤1
Alice's Adventures in a Differentiable Wonderland -- Volume I, A Tour of the Land
ماجراهای آلیس در سرزمین عجایب مشتقپذیر -- جلد اول، گشت و گذار در سرزمین
این کتاب خیلی اسمش نشون نمیده چیه.
یه کتاب در مورد آموزش یادگیری عمیق شبیه کتاب Deep Learning Book - Ian Goodfellow and Yoshua Bengio که سالها تسک بوک دانشگاهی دیپ لرنینگ بود اما دیگه از 2016 مطالبش آپدیت نشد.
من یک کتاب دیگه در دیپ لرنینگ سراغ دارم که مطالبش به روز باشه و ارزشمند باشه که قبلا اینجا (کتاب UDL) معرفی کردم خدممتون.
همین این کتاب آلیس در سرزمین عجایب مشتق پذیر و هم این کتاب UDL رایگان و اپن سورس هستند.
این کتاب آلیس ... رو میتونید از arxiv بردارید.
دو تا نکته در مورد این کتاب خیلی جالبه:
1. اسم کتاب برگرفته از یک ریبرندیگه از عنوان شبکه عصبی که ایده ش رو سال 2018 یان لیکان ارئه کرده همون differentiable programming است.
ایدهش در شعارش خلاصه میشه:
Deep Learning est mort. Vive Differentiable Programming!
یادگیری عمیق مرد. زنده باد برنامه نویسی مشتقپذیر!
بطور خلاصه این ایده میگه دیپ لرنینگ یک ریبرندیگ(rebranding) برای شبکههای عصبی ساده با تعداد لایه زیاد بود. اما مدلهای امروزی واقعا دیگه فقط کلی لایه نیستن که پشت سر هم قرار گرفتنند بلکه کلی بلوکهای فاکشنال مشتق پذیر هستن که بصورت دینامیک ساختار مدل بصورت تابعی از مدل عمل میکنه(بر خلاف شبکهی عصبی عمیقی که اول معماری ساخته میشد و ساختارش مستقل از دادهای بود که آموزش میداد.) به همین خاطر نام مناسب برای مدلهای مدرن برنامه نویسی مشتق پذیر است. مثال مناسب برای فهم تفاوت اینکه چرا به مدلهای مدرن(دقت کنید میگم مدل مدرن نمیگم شبکه!) میگه برنامه نویسی مشتق پذیر همین مدلهای MMLU (مدلهای زبانی چند موداله)(متن+تصویر+ویدئو+صوت) است که یک مدل در ترکیبی از چندین شبکه(مدل)ی عصبی عمیق داره کار میکنه.
این نویسنده هم با اشاره به این موضوع دیگه اسم کتابش رو نذاشته deep learning. گذشته ماجراجویی مشتق پذیر Differentiable آلیس!
2. برای مباحث جدید(فصل آخر: داخل سوراخ خرگوش Down the rabbit-hole) این کتاب مباحث واقعا جذابی داره (عکس ضمیمه شده) مثه SSS modelها مباحث پیشرفتهای در ترنسفورمرها و GNNها هم داره. تازه برای جلد اوله و طبق گفته خودش هنوز به مباحث جدیدتر مثه generative modeling, explainability, prompting, agents نپرداخته.
پ.ن: این کتاب مطالب درسی کورس Neural Networks for Data Science Applications ایشون در دانشگاه ساپینزا ایتالیاست.
پ.ن: توئیت معرفی کتاب (وقت داشتید کوتهای توئیت رو ببینید)
پ.ن: در مورد برنامه نویسی مشتق پذیر میتونید اینجا رو بخونید.
ماجراهای آلیس در سرزمین عجایب مشتقپذیر -- جلد اول، گشت و گذار در سرزمین
این کتاب خیلی اسمش نشون نمیده چیه.
یه کتاب در مورد آموزش یادگیری عمیق شبیه کتاب Deep Learning Book - Ian Goodfellow and Yoshua Bengio که سالها تسک بوک دانشگاهی دیپ لرنینگ بود اما دیگه از 2016 مطالبش آپدیت نشد.
من یک کتاب دیگه در دیپ لرنینگ سراغ دارم که مطالبش به روز باشه و ارزشمند باشه که قبلا اینجا (کتاب UDL) معرفی کردم خدممتون.
همین این کتاب آلیس در سرزمین عجایب مشتق پذیر و هم این کتاب UDL رایگان و اپن سورس هستند.
این کتاب آلیس ... رو میتونید از arxiv بردارید.
دو تا نکته در مورد این کتاب خیلی جالبه:
1. اسم کتاب برگرفته از یک ریبرندیگه از عنوان شبکه عصبی که ایده ش رو سال 2018 یان لیکان ارئه کرده همون differentiable programming است.
ایدهش در شعارش خلاصه میشه:
Deep Learning est mort. Vive Differentiable Programming!
یادگیری عمیق مرد. زنده باد برنامه نویسی مشتقپذیر!
بطور خلاصه این ایده میگه دیپ لرنینگ یک ریبرندیگ(rebranding) برای شبکههای عصبی ساده با تعداد لایه زیاد بود. اما مدلهای امروزی واقعا دیگه فقط کلی لایه نیستن که پشت سر هم قرار گرفتنند بلکه کلی بلوکهای فاکشنال مشتق پذیر هستن که بصورت دینامیک ساختار مدل بصورت تابعی از مدل عمل میکنه(بر خلاف شبکهی عصبی عمیقی که اول معماری ساخته میشد و ساختارش مستقل از دادهای بود که آموزش میداد.) به همین خاطر نام مناسب برای مدلهای مدرن برنامه نویسی مشتق پذیر است. مثال مناسب برای فهم تفاوت اینکه چرا به مدلهای مدرن(دقت کنید میگم مدل مدرن نمیگم شبکه!) میگه برنامه نویسی مشتق پذیر همین مدلهای MMLU (مدلهای زبانی چند موداله)(متن+تصویر+ویدئو+صوت) است که یک مدل در ترکیبی از چندین شبکه(مدل)ی عصبی عمیق داره کار میکنه.
این نویسنده هم با اشاره به این موضوع دیگه اسم کتابش رو نذاشته deep learning. گذشته ماجراجویی مشتق پذیر Differentiable آلیس!
2. برای مباحث جدید(فصل آخر: داخل سوراخ خرگوش Down the rabbit-hole) این کتاب مباحث واقعا جذابی داره (عکس ضمیمه شده) مثه SSS modelها مباحث پیشرفتهای در ترنسفورمرها و GNNها هم داره. تازه برای جلد اوله و طبق گفته خودش هنوز به مباحث جدیدتر مثه generative modeling, explainability, prompting, agents نپرداخته.
پ.ن: این کتاب مطالب درسی کورس Neural Networks for Data Science Applications ایشون در دانشگاه ساپینزا ایتالیاست.
پ.ن: توئیت معرفی کتاب (وقت داشتید کوتهای توئیت رو ببینید)
پ.ن: در مورد برنامه نویسی مشتق پذیر میتونید اینجا رو بخونید.
Telegram
Dev Tweet Media
👍5
جایگزین جدید دیگر برای MLP
شبکهی Kolmogorov-Arnold Networks (KAN)
دو سه روزی یه مقاله جدید اومده به اسم KAN از یک تیم از MIT و برکلی به عنوان جایگزینی برای MLP.
نویسندهها بک گراند فیزیک دارن!
حرف در مورد این مقاله زیاد میشه زد اما به قدر وسعم چند ایده اساسیش رو اینجا مطرح میکنم.
1. شبکههای MLP مبتنی بر قضیهی تقریب سراسری(universal approximation theorem (UAT)) هستند. اما مبنای شبکهی KAN قضیهی بازنمایی کلموگروف-آرنولد (Kolmogorov-Arnold representation theorem (KART)) به خاطر همین اسمش رو گذاشتن کولوموگروف و آرنولد چون از تئوری اونها اومده.
قضیه تقریب سراسری (UAT) ادعا میکند که یک شبکه نمیتواند با عرض ثابت دقت بینهایت را بدست آورد، به این معنی که اگر تعداد نورونها در لایه (های) پنهان اجازه افزایش نداشته باشد محدودیت وجود دارد که چقدر یک شبکه عصبی میتواند توابع پیچیده را مدل کند. به عبارت دیگر، برای افزایش دقت مدل برای توابع پیچیدهتر، باید تعداد نورونها (یعنی عرض) در شبکه را افزایش داد.
قضیه بازنمایی کلموگروف-آرنولد (KART)میگه که هر تابعی از متغیرهای چندگانه میتواند به عنوان ترکیبی جمعی از توابع یک متغیره نوشته شود. این نشان میدهد که یک شبکه میتواند ( تحت شرایط خاص) با عرض ثابت دقت بینهایت را بدست آورد.
قضیه تقریب سراسری UAT پیشنهاد میکند که یک شبکه نمیتواند با عرض ثابت دقت بینهایت را بدست آورد، در حالی که KART پیشنهاد میکند که این ممکن است. مهم است توجه داشت که این قضایا تضمینهای نظری در مورد آنچه ممکن است را ارائه میدهند، اما لزوماً روشهای عملی برای دستیابی به این نتایج را ارائه نمیدهند. عملا راه حل پیادهسازی عملی قضیهی UAT شبکهی MLP و راه حل پیادهسازی عملی قضیهی KART شبکهی KAN است.
2. در شبکهی MLP توابع فعالسازی روی نرونها(گرهها) اعمال میشوند و ثابت هستند.
در شبکهی KAN توابع فعالسازی روی وزنها(یالها) اعمال میشوند و قابل یادگیری هستند که با اسپلاین پارامتریزه میشوند.
3. شبکهی KAN سرعت یادگیریش کمتره اما در عوض:
تفسیرپذیرتره!
با تعداد پارامتر کمتر به همون دقت MLP میرسه!
طبق قانون مقیاس در شبکههای عصبی در افزایش مقیاس مشخص سرعت افزایش دقت آن بیشتر است!
مثلا در یک مساله خاص که دیپ مایند با 300 هزار پارامتر به یک دقت و نتیجه رسیده این شبکه با 200 پارامتر به همون نتیجه رسیده!
4. چرا آموزش KAN کند است؟
(جواب از زبان نویسنده)
دلیل 1: فنی. توابع فعال سازی قابل یادگیری (اسپلاینها) برای ارزیابی گرانتر از توابع فعال سازی ثابت هستند.
دلیل 2: شخصی. فیزیکدان در درون من شخصیت برنامهنویس من را مهار میکرد، بنابراین من سعی (یا دانش) بهینهسازی کارایی را ندارم.
به همین دلیل اصلا کد مدل GPU-freindly نوشته نشده است.
پ.ن: مقاله خیلی خوب نوشته شده واسه فهمیدن و کلی تصویر داره که نشون میده موضوع رو.
پ.ن: دو تصویری که از مقاله KAN و MLP رو مقایسه میکنند رو آوردم. کلا تصاویر و جداول مقاله خیلی خوب و قابل فهمه:)
پ.ن: این رشته توئیت تاثیر بکگراندهای فیزیکی ذهن طراح شبکه را خیلی جالب از مقاله بیرون کشیده.
پ.ن: لینک مقاله
شبکهی Kolmogorov-Arnold Networks (KAN)
دو سه روزی یه مقاله جدید اومده به اسم KAN از یک تیم از MIT و برکلی به عنوان جایگزینی برای MLP.
نویسندهها بک گراند فیزیک دارن!
حرف در مورد این مقاله زیاد میشه زد اما به قدر وسعم چند ایده اساسیش رو اینجا مطرح میکنم.
1. شبکههای MLP مبتنی بر قضیهی تقریب سراسری(universal approximation theorem (UAT)) هستند. اما مبنای شبکهی KAN قضیهی بازنمایی کلموگروف-آرنولد (Kolmogorov-Arnold representation theorem (KART)) به خاطر همین اسمش رو گذاشتن کولوموگروف و آرنولد چون از تئوری اونها اومده.
قضیه تقریب سراسری (UAT) ادعا میکند که یک شبکه نمیتواند با عرض ثابت دقت بینهایت را بدست آورد، به این معنی که اگر تعداد نورونها در لایه (های) پنهان اجازه افزایش نداشته باشد محدودیت وجود دارد که چقدر یک شبکه عصبی میتواند توابع پیچیده را مدل کند. به عبارت دیگر، برای افزایش دقت مدل برای توابع پیچیدهتر، باید تعداد نورونها (یعنی عرض) در شبکه را افزایش داد.
قضیه بازنمایی کلموگروف-آرنولد (KART)میگه که هر تابعی از متغیرهای چندگانه میتواند به عنوان ترکیبی جمعی از توابع یک متغیره نوشته شود. این نشان میدهد که یک شبکه میتواند ( تحت شرایط خاص) با عرض ثابت دقت بینهایت را بدست آورد.
قضیه تقریب سراسری UAT پیشنهاد میکند که یک شبکه نمیتواند با عرض ثابت دقت بینهایت را بدست آورد، در حالی که KART پیشنهاد میکند که این ممکن است. مهم است توجه داشت که این قضایا تضمینهای نظری در مورد آنچه ممکن است را ارائه میدهند، اما لزوماً روشهای عملی برای دستیابی به این نتایج را ارائه نمیدهند. عملا راه حل پیادهسازی عملی قضیهی UAT شبکهی MLP و راه حل پیادهسازی عملی قضیهی KART شبکهی KAN است.
2. در شبکهی MLP توابع فعالسازی روی نرونها(گرهها) اعمال میشوند و ثابت هستند.
در شبکهی KAN توابع فعالسازی روی وزنها(یالها) اعمال میشوند و قابل یادگیری هستند که با اسپلاین پارامتریزه میشوند.
3. شبکهی KAN سرعت یادگیریش کمتره اما در عوض:
تفسیرپذیرتره!
با تعداد پارامتر کمتر به همون دقت MLP میرسه!
طبق قانون مقیاس در شبکههای عصبی در افزایش مقیاس مشخص سرعت افزایش دقت آن بیشتر است!
مثلا در یک مساله خاص که دیپ مایند با 300 هزار پارامتر به یک دقت و نتیجه رسیده این شبکه با 200 پارامتر به همون نتیجه رسیده!
4. چرا آموزش KAN کند است؟
(جواب از زبان نویسنده)
دلیل 1: فنی. توابع فعال سازی قابل یادگیری (اسپلاینها) برای ارزیابی گرانتر از توابع فعال سازی ثابت هستند.
دلیل 2: شخصی. فیزیکدان در درون من شخصیت برنامهنویس من را مهار میکرد، بنابراین من سعی (یا دانش) بهینهسازی کارایی را ندارم.
به همین دلیل اصلا کد مدل GPU-freindly نوشته نشده است.
پ.ن: مقاله خیلی خوب نوشته شده واسه فهمیدن و کلی تصویر داره که نشون میده موضوع رو.
پ.ن: دو تصویری که از مقاله KAN و MLP رو مقایسه میکنند رو آوردم. کلا تصاویر و جداول مقاله خیلی خوب و قابل فهمه:)
پ.ن: این رشته توئیت تاثیر بکگراندهای فیزیکی ذهن طراح شبکه را خیلی جالب از مقاله بیرون کشیده.
پ.ن: لینک مقاله
Telegram
Dev Tweet Media
👍9
پدیدهای عجیب در افزایش عمق شبکه
آقای ماکسیم لابون اومده از llama-3 که دو ورژن 8 و 70 میلیارد پارامتری داره یه مدل 120 میلیارد پارامتری درست کرده؟!
از قضا یک کاربر دیگه یک تستی برای هوشمندیش اجرا کرده که نشون میده حتی از Opus Claudia (رقیب GPT-4 واسه شرکت Anthropic) در اون تست خاص هوشندتره!
اون تست چیه؟ یک کاربر کلی وقت گذاشته به مدل القا کنه یک دستیار شخصی نیست بلکه یک شخصیت دیگهای داره(مثلا فیزیکدانه) اینکه چقدر طول کشیده که بتونه مدل رو گول بزنه رو معیار هوشمند بودن قرار داده و در عمل llama-3 و Claudia Opus رو تونسته زودتر از مدل ۱۲۰ میلیارد پارامتری گول بزنه!
چطور ممکنه یک شخص بتونه چنین مدلی پیاده کنه؟ (چون این مدلها هر بار چند ماه و چند میلیون دلار آموزششون هزینه میبره و قطعا یک شخص به چنین زیرساخت برای آموزش دسترسی نداره)
نکته جالب اینکه حتی از داده جدید هم برای آموزش استفاده نکرده!
پس چطوری تونسته چنین مدلی بسازه!؟
هیچ اومده یک سری لایهی همون مدل llama3-70b رو با یک پترن سادهای کپی کرده پست سر هم استک کرد!
اول ۲۰ تا لایهی اول لاما-۳ رو برمیداره بعد لایه ۱۰ تا ۳۰ رو برمیداره(عملا لایهی ۱۰ تا ۲۰ داره دوبار کپی میشود) و به ترتیب لایهی ۲۰ تا ۴۰ و ۳۰ تا ۵۰ و ... و اینها را پشت هم قرار میدهد و مدل ۱۲۰ میلیارد پارامتری رو میسازه.
به لحاظ فنی چطوری این کار رو کرده؟ از ابزاری به اسم mergekit استفاده کرده(اون فایل کانفیگ مربوط به همین ابزاره)
این مدل الان توی hugging face به اسم Meta-Llama-3-120B-Instruct هست اونجا کانفیگ کپی کردن لایه ها رو گذاشته(در عکس ببنید)
شاید بگید اون تست خاص و میزان تلاش یک انسان برای متقاعد کردن یک مدل معیار خوبی واسه هوشمندی نیست، باید عرض کنم این مدل در تست عمومی تر Creative Writing benchmark از Claudia Haiku بهتره و قبل از Claudia-Sonnet قرار میگیره.
اتفاقی که داره میافته عجیبه!
صرف افزایش پارامتر از طریق افزایش عمق شبکه داره کارایی شبکه افزایش میده!
بدون هیچ آموزش جدید
بدون داده جدید
بدون هیچ fine-tuning
فقط کپی کردن لایهها
همین!
آقای ماکسیم لابون اومده از llama-3 که دو ورژن 8 و 70 میلیارد پارامتری داره یه مدل 120 میلیارد پارامتری درست کرده؟!
از قضا یک کاربر دیگه یک تستی برای هوشمندیش اجرا کرده که نشون میده حتی از Opus Claudia (رقیب GPT-4 واسه شرکت Anthropic) در اون تست خاص هوشندتره!
اون تست چیه؟ یک کاربر کلی وقت گذاشته به مدل القا کنه یک دستیار شخصی نیست بلکه یک شخصیت دیگهای داره(مثلا فیزیکدانه) اینکه چقدر طول کشیده که بتونه مدل رو گول بزنه رو معیار هوشمند بودن قرار داده و در عمل llama-3 و Claudia Opus رو تونسته زودتر از مدل ۱۲۰ میلیارد پارامتری گول بزنه!
چطور ممکنه یک شخص بتونه چنین مدلی پیاده کنه؟ (چون این مدلها هر بار چند ماه و چند میلیون دلار آموزششون هزینه میبره و قطعا یک شخص به چنین زیرساخت برای آموزش دسترسی نداره)
نکته جالب اینکه حتی از داده جدید هم برای آموزش استفاده نکرده!
پس چطوری تونسته چنین مدلی بسازه!؟
هیچ اومده یک سری لایهی همون مدل llama3-70b رو با یک پترن سادهای کپی کرده پست سر هم استک کرد!
اول ۲۰ تا لایهی اول لاما-۳ رو برمیداره بعد لایه ۱۰ تا ۳۰ رو برمیداره(عملا لایهی ۱۰ تا ۲۰ داره دوبار کپی میشود) و به ترتیب لایهی ۲۰ تا ۴۰ و ۳۰ تا ۵۰ و ... و اینها را پشت هم قرار میدهد و مدل ۱۲۰ میلیارد پارامتری رو میسازه.
به لحاظ فنی چطوری این کار رو کرده؟ از ابزاری به اسم mergekit استفاده کرده(اون فایل کانفیگ مربوط به همین ابزاره)
این مدل الان توی hugging face به اسم Meta-Llama-3-120B-Instruct هست اونجا کانفیگ کپی کردن لایه ها رو گذاشته(در عکس ببنید)
شاید بگید اون تست خاص و میزان تلاش یک انسان برای متقاعد کردن یک مدل معیار خوبی واسه هوشمندی نیست، باید عرض کنم این مدل در تست عمومی تر Creative Writing benchmark از Claudia Haiku بهتره و قبل از Claudia-Sonnet قرار میگیره.
اتفاقی که داره میافته عجیبه!
صرف افزایش پارامتر از طریق افزایش عمق شبکه داره کارایی شبکه افزایش میده!
بدون هیچ آموزش جدید
بدون داده جدید
بدون هیچ fine-tuning
فقط کپی کردن لایهها
همین!
Telegram
Dev Tweet Media
👍8🔥4
Dev Tweet
مثلا در یک مساله خاص که دیپ مایند با 300 هزار پارامتر به یک دقت و نتیجه رسیده این شبکه با 200 پارامتر به همون نتیجه رسیده!
اگه این پست شبکهی KAN رو خاطرتون باشه گفتیم که ممکنه یک شبکهای MLP که با 300 هزار پارامتر به یک دقت میرسه همون دقت با 200 هزار پارامتر از شبکهی KAN به دست بیاد.
این کاربر یک مدل کوچک سبک GPT-2 را ه جای MLP با استفاده از شبکههای Kolmogorov-Arnold (KANs) روی 134 میلیون توکن از مجموعه داده TinyStories با استفاده از JAX آموزش داده. در نتیجه فهمیده KAN میتوانند با 25٪ پارامتر کمتر عملکرد مشابهی را ارائه دهند!
از یک شبکهی KAN استفاده شده است که چبیشف چندجملهایها را (الهام گرفته از https://github.com/SynodicMonth/ChebyKAN/blob/main/ChebyKANLayer.py) به عنوان تابع پایه استفاده کرده.
مدل MLP دارای 3.3 میلیون پارامتر است و نسخه KAN دارای 2.5 است.
پارامترهای کمتر لزوماً به معنی کمتر بودن محاسبات نیست اما لایههای KAN هنوز نیاز دارد که برای GPU بهینهسازی شوند.
این کاربر یک مدل کوچک سبک GPT-2 را ه جای MLP با استفاده از شبکههای Kolmogorov-Arnold (KANs) روی 134 میلیون توکن از مجموعه داده TinyStories با استفاده از JAX آموزش داده. در نتیجه فهمیده KAN میتوانند با 25٪ پارامتر کمتر عملکرد مشابهی را ارائه دهند!
از یک شبکهی KAN استفاده شده است که چبیشف چندجملهایها را (الهام گرفته از https://github.com/SynodicMonth/ChebyKAN/blob/main/ChebyKANLayer.py) به عنوان تابع پایه استفاده کرده.
مدل MLP دارای 3.3 میلیون پارامتر است و نسخه KAN دارای 2.5 است.
پارامترهای کمتر لزوماً به معنی کمتر بودن محاسبات نیست اما لایههای KAN هنوز نیاز دارد که برای GPU بهینهسازی شوند.
X (formerly Twitter)
Charlie George (@__Charlie_G) on X
1/ I trained a small GPT-2 style model using Kolmogorov-Arnold Networks (KANs) instead of MLPs on 134 million tokens of the TinyStories dataset using JAX. I found that KANs can achieve the same performance with 25% fewer parameters! Code below.
❤5👍1
این لینک رو حتما یه نگاه بندازین.
مسئول مدلهای لاما در هاگینگفیس(کسی که یکی از مسئولیتهاش ستاپ کردن و نگهداری مجموعه مدلهای لاما شرکت متا روی هاگینگ فیس هست) اومده یک واژهنامه از کلمات و اصلاحات مدلهای زبانی جمعآوری کرده و با بیان ساده تعریف کرده.
به نظرم کاملا ارزشش رو داره یه ساعتی وقت بذارید. حجم زیادی اطلاعات مفید میگیرید.
مسئول مدلهای لاما در هاگینگفیس(کسی که یکی از مسئولیتهاش ستاپ کردن و نگهداری مجموعه مدلهای لاما شرکت متا روی هاگینگ فیس هست) اومده یک واژهنامه از کلمات و اصلاحات مدلهای زبانی جمعآوری کرده و با بیان ساده تعریف کرده.
به نظرم کاملا ارزشش رو داره یه ساعتی وقت بذارید. حجم زیادی اطلاعات مفید میگیرید.
hackerllama
The Llama Hitchiking Guide to Local LLMs – hackerllama
Omar Sanseviero Personal Website
❤5👍2
مهندسی نرمافزار و هوش مصنوعی
(تجربه من از برنامه نویسی با مدل زبانی)
من تقریبا یک سالی هست که خیلی کم کد مینویسم چون دیگه میدونم چطوری تسکهام روی برای copilot توضیح بدم اونجوری که میخوام انجامش بده.
با وجود اینکه خیلی کمتر کد زدم برنامههای بیشتری تولید کردم مثلا برای کارام برنامههای کوچیک کوچیک خیلی بیشتر نوشتم.
مدلهای زبانی دارند سطح انتزاعی فکر کردن ما در مورد برنامهها رو بالا میبرند یعنی مثلا اگر سینتکس جاوا رو بلد نیستید و خیلی کتابخونههاش رو نمیشناسید ولی اگر زبان اصلی شما پایتون است و پارادایم شیگرائی را در پایتون خوب بلدید با کمترین زمان ممکن میتونید سوئیچ کنید روی جاوا. حتی یک برنامه نویس پایتون که شی گرایی رو خیلی خوب بلده با کمک مدل زبانی میتونه کد جاوا خیلی بهتری بنویسه چون مدلهای زبانی کاری کردند که اصل بر تسلط بر انتزاعه و مهندسی نرم افزار است نه مهارت توسعه فانکشن و کلاس.
تجربه من در استفاده از مدلهای زبانی رایگان که context length کوتاهتری به نسبت مدلهای پولی دارند این بوده که همین context length مانع بزرگی برای استفاده کردن از مدل زبانی در سطح انتزاعی بالاتره چون از وقتی context length نسخه copilot من از ۴۰۰۰ تا به ۸۰۰۰تا کاراکتر افزایش پیدا کرده میبینم که میتونم برای تسکهای انتزاعی تری استفادهش کنم اما با افزایش context length مدل معمولا دچار نوعی حواس پرتی میشه و ممکنه لازم باشه یک چیز رو با طرق مختلف ازش بخواهید تا براتون انجام بده.
این رو امروز که تو شرکت مجبور به یک ریفکتور سنگین بودیم و با یک پترن خاصی داشتیم توسعه میدادیم فهمیدیم(اصلا نمیدونم برای اون نیاز خاص ما دیزاین پترن وجود داره یا نه چون یک پترنی درآوردیم که ظاهرا تا الان جواب داده اگه جواب نده احتمالا تا نیمه خرداد تیممون تعلیق میشه😂) جایی بود که فقط تجربه به دادمون میرسید (نه اینکه بگم خیلی باتجربه بودیم) یعنی اگر باتجربهتر بودیم اون کد رو بهتر طراحی میکردیم و اگر تجربه رو نداشتیم مدل زبانی به دادمون نمیرسید و رسما به فنا میرفتیم.
پ.ن: اینا رو منی مینویسم که حتی عکسی رو که مدیر از باگ سیستم با گوشیش از روی مانتیور گرفته تو تلگرام برام فرستاده با copilot حلش میکنم!
پ.ن۲: اگر فعلا قصد در حال حاضر مهندسی نرمافزار بلد نیستید یعنی تجربه یا توانایی یا موقعیت کد زدن در کدبیسهای بزرگ رو ندارید استفاده بیرویه و غلط از این مدلهای زبانی با ایجاد توهم مهندس افزار بودن به فنا میدهتون چون در سیستمی که مثلا بیش از هزارتا تسک داره بیش از اینکه توسعه مهم باشه نظم توسعه(معماری) مهمه چون اگر بیزینس بخواد اسکیل کنه و چه به لحاظ اسکیل کردن فیچرها و چه منابع، اگر معماری درست و درمون نداشته باشید ممکنه کل بیزینس رو با سر بزنید زمین. یک از دوستان که خیلی برنامه نویس قابلی بود تعریف میکرد چطوری ریفکتور کردن(با پروژه بزرگ رو ریفکتور کرده باشی تا بدونی چاه ریفکتور چیه😐) بیحساب و کتاب و بیموقع باعث شده بود بیزینسشون به علت محدودیت منابع مالی کل پروژه رو جمع کنه:) (اسم پروژه رو بگم اکثرا میشناسید)
پ.ن۳: حرفهایی که من در مورد مدل زبانی میزنم واسه الانه نه شش ماهه دیگه! به زودی مدلهای زبانی در سطح انتزاع بالاتر مثل معماری هم پیشرفت خواهند کرد و میتونن از من و شما با best practiceهای بهتری و design patternهای مناسبتری کد بزنن!
پ.ن۴: اگر پ.ن قبلی شما رو به ترس انداخته که چقدر احتمالش بالاست که مدلهای زبانی ممکنه آینده کاری نیروهای فنی حوزه آیتی رو به فنا بدن(شاید نگرانی بجایی باشه ولی من فعلا نگران نیستم) به نظرم دورترین شغل در رده فنی به جایگزین شدن با هوش مصنوعی تسکهای رده devops است.(به نظر حتی مهندسی محصولم با فهمی که من از تسکاش دارم خیلی میتونه مورد تهدید قرار بگیره مگر اینکه اون نیرو تجربه تحلیل بیزینسی خودش رو خیلی بالا ببره که اون موقع میشه طلا)
پ.ن۵: چرا در مورد آینده شغلیم و هوش مصنوعی نگران نیستم چون معتقدم چیزی که شغل من رو به خطر میاندازه بحرانهای اقتصادی و بهخصوص بحران منابع مالی در حوزه tech هست که دیگر شرکتها و سرمایه گزاران علاقه به برنامههای توسعهای نداشته باشند و بخواهند صرفا از سرویسهای جاری کسب درآمد کنند ولی مادامی که علاقه به توسعه وجود داشته باشد نیازش هم پیدا میشود و تقاضا برای نیروی فنی به وجود میآید.
پ.ن۶: آنقدر تعلیق زدم هاشیه(پ.نها) از اصل متن بیشتر شد:)
لطفا نقدم کنید تا بیشتر فکر کنم بیشتر یاد بگیرم❤️
(تجربه من از برنامه نویسی با مدل زبانی)
من تقریبا یک سالی هست که خیلی کم کد مینویسم چون دیگه میدونم چطوری تسکهام روی برای copilot توضیح بدم اونجوری که میخوام انجامش بده.
با وجود اینکه خیلی کمتر کد زدم برنامههای بیشتری تولید کردم مثلا برای کارام برنامههای کوچیک کوچیک خیلی بیشتر نوشتم.
مدلهای زبانی دارند سطح انتزاعی فکر کردن ما در مورد برنامهها رو بالا میبرند یعنی مثلا اگر سینتکس جاوا رو بلد نیستید و خیلی کتابخونههاش رو نمیشناسید ولی اگر زبان اصلی شما پایتون است و پارادایم شیگرائی را در پایتون خوب بلدید با کمترین زمان ممکن میتونید سوئیچ کنید روی جاوا. حتی یک برنامه نویس پایتون که شی گرایی رو خیلی خوب بلده با کمک مدل زبانی میتونه کد جاوا خیلی بهتری بنویسه چون مدلهای زبانی کاری کردند که اصل بر تسلط بر انتزاعه و مهندسی نرم افزار است نه مهارت توسعه فانکشن و کلاس.
تجربه من در استفاده از مدلهای زبانی رایگان که context length کوتاهتری به نسبت مدلهای پولی دارند این بوده که همین context length مانع بزرگی برای استفاده کردن از مدل زبانی در سطح انتزاعی بالاتره چون از وقتی context length نسخه copilot من از ۴۰۰۰ تا به ۸۰۰۰تا کاراکتر افزایش پیدا کرده میبینم که میتونم برای تسکهای انتزاعی تری استفادهش کنم اما با افزایش context length مدل معمولا دچار نوعی حواس پرتی میشه و ممکنه لازم باشه یک چیز رو با طرق مختلف ازش بخواهید تا براتون انجام بده.
این رو امروز که تو شرکت مجبور به یک ریفکتور سنگین بودیم و با یک پترن خاصی داشتیم توسعه میدادیم فهمیدیم(اصلا نمیدونم برای اون نیاز خاص ما دیزاین پترن وجود داره یا نه چون یک پترنی درآوردیم که ظاهرا تا الان جواب داده اگه جواب نده احتمالا تا نیمه خرداد تیممون تعلیق میشه😂) جایی بود که فقط تجربه به دادمون میرسید (نه اینکه بگم خیلی باتجربه بودیم) یعنی اگر باتجربهتر بودیم اون کد رو بهتر طراحی میکردیم و اگر تجربه رو نداشتیم مدل زبانی به دادمون نمیرسید و رسما به فنا میرفتیم.
پ.ن: اینا رو منی مینویسم که حتی عکسی رو که مدیر از باگ سیستم با گوشیش از روی مانتیور گرفته تو تلگرام برام فرستاده با copilot حلش میکنم!
پ.ن۲: اگر فعلا قصد در حال حاضر مهندسی نرمافزار بلد نیستید یعنی تجربه یا توانایی یا موقعیت کد زدن در کدبیسهای بزرگ رو ندارید استفاده بیرویه و غلط از این مدلهای زبانی با ایجاد توهم مهندس افزار بودن به فنا میدهتون چون در سیستمی که مثلا بیش از هزارتا تسک داره بیش از اینکه توسعه مهم باشه نظم توسعه(معماری) مهمه چون اگر بیزینس بخواد اسکیل کنه و چه به لحاظ اسکیل کردن فیچرها و چه منابع، اگر معماری درست و درمون نداشته باشید ممکنه کل بیزینس رو با سر بزنید زمین. یک از دوستان که خیلی برنامه نویس قابلی بود تعریف میکرد چطوری ریفکتور کردن(با پروژه بزرگ رو ریفکتور کرده باشی تا بدونی چاه ریفکتور چیه😐) بیحساب و کتاب و بیموقع باعث شده بود بیزینسشون به علت محدودیت منابع مالی کل پروژه رو جمع کنه:) (اسم پروژه رو بگم اکثرا میشناسید)
پ.ن۳: حرفهایی که من در مورد مدل زبانی میزنم واسه الانه نه شش ماهه دیگه! به زودی مدلهای زبانی در سطح انتزاع بالاتر مثل معماری هم پیشرفت خواهند کرد و میتونن از من و شما با best practiceهای بهتری و design patternهای مناسبتری کد بزنن!
پ.ن۴: اگر پ.ن قبلی شما رو به ترس انداخته که چقدر احتمالش بالاست که مدلهای زبانی ممکنه آینده کاری نیروهای فنی حوزه آیتی رو به فنا بدن(شاید نگرانی بجایی باشه ولی من فعلا نگران نیستم) به نظرم دورترین شغل در رده فنی به جایگزین شدن با هوش مصنوعی تسکهای رده devops است.(به نظر حتی مهندسی محصولم با فهمی که من از تسکاش دارم خیلی میتونه مورد تهدید قرار بگیره مگر اینکه اون نیرو تجربه تحلیل بیزینسی خودش رو خیلی بالا ببره که اون موقع میشه طلا)
پ.ن۵: چرا در مورد آینده شغلیم و هوش مصنوعی نگران نیستم چون معتقدم چیزی که شغل من رو به خطر میاندازه بحرانهای اقتصادی و بهخصوص بحران منابع مالی در حوزه tech هست که دیگر شرکتها و سرمایه گزاران علاقه به برنامههای توسعهای نداشته باشند و بخواهند صرفا از سرویسهای جاری کسب درآمد کنند ولی مادامی که علاقه به توسعه وجود داشته باشد نیازش هم پیدا میشود و تقاضا برای نیروی فنی به وجود میآید.
پ.ن۶: آنقدر تعلیق زدم هاشیه(پ.نها) از اصل متن بیشتر شد:)
لطفا نقدم کنید تا بیشتر فکر کنم بیشتر یاد بگیرم❤️
Telegram
Dev Tweet Media
👍7
Dev Tweet
مهندسی نرمافزار و هوش مصنوعی (تجربه من از برنامه نویسی با مدل زبانی) من تقریبا یک سالی هست که خیلی کم کد مینویسم چون دیگه میدونم چطوری تسکهام روی برای copilot توضیح بدم اونجوری که میخوام انجامش بده. با وجود اینکه خیلی کمتر کد زدم برنامههای بیشتری تولید…
طولانیه ولی لطفا بخوانید بهم فیدبک بدید دمتون گرم❤️
Forwarded from Python BackendHub (Mani)
این عکس واقعا خیلی قشنگ نشون میده over engineering رو. بیشتر مواقع زمانی اتفاق میفته که میخوایم آینده رو پیشبینی کنیم.
تا وقتی به حد کافی نقطه مشخص دارین سعی نکنید سولوشنی بدید که همه کیس هارو کاور کنه. معمولا سولوشن پرفکت اول مسیر خودشو نشون نمیده.
@PyBackendHub
تا وقتی به حد کافی نقطه مشخص دارین سعی نکنید سولوشنی بدید که همه کیس هارو کاور کنه. معمولا سولوشن پرفکت اول مسیر خودشو نشون نمیده.
@PyBackendHub
Python BackendHub
این عکس واقعا خیلی قشنگ نشون میده over engineering رو. بیشتر مواقع زمانی اتفاق میفته که میخوایم آینده رو پیشبینی کنیم. تا وقتی به حد کافی نقطه مشخص دارین سعی نکنید سولوشنی بدید که همه کیس هارو کاور کنه. معمولا سولوشن پرفکت اول مسیر خودشو نشون نمیده. @PyBackendHub
کانال تو حوزه برنامه نویسی مثه علف هرز زیاده اکثرا دنبال کردنشون نفعی خاصی به شما نمیرسونه این کانال واقعا جز معدود کانالهاییه که اگه به مهندسی نرمافزار علاقه دارید به دردتون میخوره.
مطالب واقعا مفیدی مینویسه که معمولا دید خوبی میده مخصوصا اگه تجربه کار پروداکشن داشته باشید.
نویسندهش رو نمیشناسم ولی دمش گرم❤️
@PyBackendHub
مطالب واقعا مفیدی مینویسه که معمولا دید خوبی میده مخصوصا اگه تجربه کار پروداکشن داشته باشید.
نویسندهش رو نمیشناسم ولی دمش گرم❤️
@PyBackendHub
👍5
اکستنش خفن مایکروسافت برای Vscode برای کارهای Data Science
اگر تجربه کار کردن با csv رو داشته باشید و بخواهید یه کار تحلیلی دم دستی بکنید احتمالا مستقیم میرید سراغ notebook. حالا یا jupyter رو مستقیم توی بروزر اجرا کنید یا توی vscode.
وقتی واقعا جذاب نیست هنوز!
چون هی باید کد روی dataframe های پاندا بزنی مخصوصا جایی باشه کد زدنه واقعا اهمیت نداشته باشه و خروجی تحلیل موردی شما اهمیت بیشتری داشته. مثلا وقتی که بخواهید unique_count مقادیر هر ستون رو بگیرید. یا مثلا سریعتر بتونم چندتا چیز رو با هم فیلتر کنم و درگیر نوشتن کوئری روی Dataframe نشم خیلی بهتره.
دیروز این اکستنش خفن مایکروسافت رو دیدم
Data Wrangler
باهاش کار کردم واقعا لذت بخش بود و واقعا سرعت کار رو زیاد میکرد و مجبور نبودی روی چیزی که دوست نداری تمرکز کنی و فقط روی نتیجه تمرکز میکنیی.
حتما به گیت هابش سر بزنید.
جالبش اینکه هم روی سلولهای Jupyter کار میکنه یعنی میتونید با کد pandas تغییرات مد نظر رو بدید و دیتافریم حاصل رو میگیره و روی تحلیل اولیه میزنه. و هم روی فایل CSV رو با ابزارهای تحلیلی باز میکنه و از عملیاتهایی که انجام میده کد تولید میکنه.
تا زمانی که این گیف رو نبینید متوجه نمیشید چه لعبتیه:)).
اگر تجربه کار کردن با csv رو داشته باشید و بخواهید یه کار تحلیلی دم دستی بکنید احتمالا مستقیم میرید سراغ notebook. حالا یا jupyter رو مستقیم توی بروزر اجرا کنید یا توی vscode.
وقتی واقعا جذاب نیست هنوز!
چون هی باید کد روی dataframe های پاندا بزنی مخصوصا جایی باشه کد زدنه واقعا اهمیت نداشته باشه و خروجی تحلیل موردی شما اهمیت بیشتری داشته. مثلا وقتی که بخواهید unique_count مقادیر هر ستون رو بگیرید. یا مثلا سریعتر بتونم چندتا چیز رو با هم فیلتر کنم و درگیر نوشتن کوئری روی Dataframe نشم خیلی بهتره.
دیروز این اکستنش خفن مایکروسافت رو دیدم
Data Wrangler
باهاش کار کردم واقعا لذت بخش بود و واقعا سرعت کار رو زیاد میکرد و مجبور نبودی روی چیزی که دوست نداری تمرکز کنی و فقط روی نتیجه تمرکز میکنیی.
حتما به گیت هابش سر بزنید.
جالبش اینکه هم روی سلولهای Jupyter کار میکنه یعنی میتونید با کد pandas تغییرات مد نظر رو بدید و دیتافریم حاصل رو میگیره و روی تحلیل اولیه میزنه. و هم روی فایل CSV رو با ابزارهای تحلیلی باز میکنه و از عملیاتهایی که انجام میده کد تولید میکنه.
تا زمانی که این گیف رو نبینید متوجه نمیشید چه لعبتیه:)).
Telegram
Dev Tweet Media
❤7👍1
آیندهی هوش مصنوعی
در این رشته توئیت مقایسه جالبی بین روند توسعه سرعت هواپیما و نرخ کلاک cpu با روند توسعه ai انجام داده که نکات خیلی جالبیداره. من چند تا نکتهش رو در ادامه میارم:
۱. مقایسه پیشرفتهای سریع در سرعت هواپیماها در دهه ۱۹۶۰ با پیشرفت فعلی در هوش مصنوعی نشان میده که همانطوری که روند افزایش سرعت هواپیماها در هوانوردی به یک سطح ثابت رسید، توسعه هوش مصنوعی نیز ممکنه با کندی مواجه شود. انتظار رشد مداوم در سرعت هواپیما آنقدر بالا رفته بود که مردم پیشاپیش رزرو پیشین پروازهای به ماه رو رزرو. میکردند چون مطمئن بودند این روند افزایش سرعت اینقدر ادامه داره که روزی با راحتی میشه با هواپیما به ماه سفر کرد. اما این اتفاق نیفتاد و این روند با محدودیتهای غیرمنتظرهای روبرو شد.
در فناوری این رو میشه به عنوان یک قاعده ی طلایی در نظر گرفت رشد که «رشد نمایی در نهایت به سیگموید تبدیل میشود» یعنی رشد در فناوری اغلب از یک روند نمایی پیروی میکند ولی در نهایت به سطحی ثابت میرسد و یک منحنی سیگموئیدی (Sigmoid) را تشکیل میدهد. این الگو در حوزههای مختلف فناوری مانند ثابت شدن سرعت کلاک CPUها هم دیده شد.
برای هوش مصنوعی، بهویژه مدلهای زبان بزرگ (LLMs) مانند GPT-3 و GPT-4، دو چالش اصلی میتواند مانع از توسعه بیشتر میشه:
۱. کیفیت دادهها: دسترسی به دادههای باکیفیت برای آموزش مدل کارآمد حیاتیه. امکان دارد که منبع دادههای ارزشمند در حال تمام شدن باشه یعنی شرکتهای بزرگ ai tech هر چی داده با کیفیت بود رو جمع کردند داده با کیفیت زیادی باقی نمونده این نکته توضیح میده که چرا مدلهای اخیر این شرکتها سطوح عملکرد مشابهی دارند و مدتیه جهش قابل توجهی در مدلهاشون ندارند.
۲. دادههای مصنوعی: در صورتی که دادههای طبیعی با کیفیت تموم شده باشند دادههای مصنوعی میتوانند به رفع خلأهای آموزشی خاص و بهبود تواناییهای مخصوص به حوزه کمک کنند، ممکن است جایگزین تنوع و غنای دادههای واقعی تولید شده توسط انسان نشوند.
علاوه بر این، افزایش اندازه یک مدل هوش مصنوعی لزوماً به معنای بهتر شدن عملکرد در کاربردهای عملی نیست، حتی اگر بهبود در معیارهای نظری مانند پیچیدگی (توانایی مدل در پیشبینی کلمه بعدی) را به همراه داشته باشد.
یک سوال مهم در پیشبینی آیندهی LLMها پاسخ به این سوال است که آیا مدلهای زبان بزرگ میتوانند واقعاً فهمیده و فراتر از دادههای آموزشی خود تعمیم دهند یا اینکه محدود به وظایفی هستند که صراحتاً در آنها نمایش داده شدهاند. اگر مدلهای زبان بزرگ واقعاً به دادههای آموزشی خود محدود باشند، پس افزایش دادهها دیگر مفید نخواهد بود زیرا تمام وظایفی که قرار است در آن نمایش داده شوند، قبلاً نمایش داده شدهاند. این میتواند به این معنا باشد که مدلهای زبان بزرگ، مانند سایر مدلهای یادگیری ماشین، به نقطه بازدهی کاهشی خواهند رسید.
۲. مدتها از زمان انتظار برای ارائهی GPT-5 میگذرد، تغییرات در تمرکز شرکتها، و تغییرات در انتظارات جامعه هوش مصنوعی ممکن است نشان دهنده این باشد که محدودیتهای مقیاسبندی مدلهای هوش مصنوعی در حال حاضر توسط کسانی که در خط مقدم تحقیقات هوش مصنوعی هستند، پذیرفته شده است.
انتشار سریع GPT-3.5 به دنبال GPT-4 منجر به توهمی شده که از سرعت پیشرفتهای مدلهای زبانی بزرگ را ایجاد کرده باشد. این رشته توئیت درکی واقعبینانهتر از هوش مصنوعی به عنوان بخشی از چرخه فناوری را ارائه میدهد.
در مجموع، در حالی که هوش مصنوعی پیشرفتهای قابل توجهی داشته است، با چالشهایی مواجه است که میتواند پیشرفت آن را کند کند، همانطور که سایر فناوریها در گذشته تجربه کردهاند. آینده مقیاسبندی هوش مصنوعی نامشخص است و صنعت در حال سازگاری با این مرحله از توقف است.
در این رشته توئیت مقایسه جالبی بین روند توسعه سرعت هواپیما و نرخ کلاک cpu با روند توسعه ai انجام داده که نکات خیلی جالبیداره. من چند تا نکتهش رو در ادامه میارم:
۱. مقایسه پیشرفتهای سریع در سرعت هواپیماها در دهه ۱۹۶۰ با پیشرفت فعلی در هوش مصنوعی نشان میده که همانطوری که روند افزایش سرعت هواپیماها در هوانوردی به یک سطح ثابت رسید، توسعه هوش مصنوعی نیز ممکنه با کندی مواجه شود. انتظار رشد مداوم در سرعت هواپیما آنقدر بالا رفته بود که مردم پیشاپیش رزرو پیشین پروازهای به ماه رو رزرو. میکردند چون مطمئن بودند این روند افزایش سرعت اینقدر ادامه داره که روزی با راحتی میشه با هواپیما به ماه سفر کرد. اما این اتفاق نیفتاد و این روند با محدودیتهای غیرمنتظرهای روبرو شد.
در فناوری این رو میشه به عنوان یک قاعده ی طلایی در نظر گرفت رشد که «رشد نمایی در نهایت به سیگموید تبدیل میشود» یعنی رشد در فناوری اغلب از یک روند نمایی پیروی میکند ولی در نهایت به سطحی ثابت میرسد و یک منحنی سیگموئیدی (Sigmoid) را تشکیل میدهد. این الگو در حوزههای مختلف فناوری مانند ثابت شدن سرعت کلاک CPUها هم دیده شد.
برای هوش مصنوعی، بهویژه مدلهای زبان بزرگ (LLMs) مانند GPT-3 و GPT-4، دو چالش اصلی میتواند مانع از توسعه بیشتر میشه:
۱. کیفیت دادهها: دسترسی به دادههای باکیفیت برای آموزش مدل کارآمد حیاتیه. امکان دارد که منبع دادههای ارزشمند در حال تمام شدن باشه یعنی شرکتهای بزرگ ai tech هر چی داده با کیفیت بود رو جمع کردند داده با کیفیت زیادی باقی نمونده این نکته توضیح میده که چرا مدلهای اخیر این شرکتها سطوح عملکرد مشابهی دارند و مدتیه جهش قابل توجهی در مدلهاشون ندارند.
۲. دادههای مصنوعی: در صورتی که دادههای طبیعی با کیفیت تموم شده باشند دادههای مصنوعی میتوانند به رفع خلأهای آموزشی خاص و بهبود تواناییهای مخصوص به حوزه کمک کنند، ممکن است جایگزین تنوع و غنای دادههای واقعی تولید شده توسط انسان نشوند.
علاوه بر این، افزایش اندازه یک مدل هوش مصنوعی لزوماً به معنای بهتر شدن عملکرد در کاربردهای عملی نیست، حتی اگر بهبود در معیارهای نظری مانند پیچیدگی (توانایی مدل در پیشبینی کلمه بعدی) را به همراه داشته باشد.
یک سوال مهم در پیشبینی آیندهی LLMها پاسخ به این سوال است که آیا مدلهای زبان بزرگ میتوانند واقعاً فهمیده و فراتر از دادههای آموزشی خود تعمیم دهند یا اینکه محدود به وظایفی هستند که صراحتاً در آنها نمایش داده شدهاند. اگر مدلهای زبان بزرگ واقعاً به دادههای آموزشی خود محدود باشند، پس افزایش دادهها دیگر مفید نخواهد بود زیرا تمام وظایفی که قرار است در آن نمایش داده شوند، قبلاً نمایش داده شدهاند. این میتواند به این معنا باشد که مدلهای زبان بزرگ، مانند سایر مدلهای یادگیری ماشین، به نقطه بازدهی کاهشی خواهند رسید.
۲. مدتها از زمان انتظار برای ارائهی GPT-5 میگذرد، تغییرات در تمرکز شرکتها، و تغییرات در انتظارات جامعه هوش مصنوعی ممکن است نشان دهنده این باشد که محدودیتهای مقیاسبندی مدلهای هوش مصنوعی در حال حاضر توسط کسانی که در خط مقدم تحقیقات هوش مصنوعی هستند، پذیرفته شده است.
انتشار سریع GPT-3.5 به دنبال GPT-4 منجر به توهمی شده که از سرعت پیشرفتهای مدلهای زبانی بزرگ را ایجاد کرده باشد. این رشته توئیت درکی واقعبینانهتر از هوش مصنوعی به عنوان بخشی از چرخه فناوری را ارائه میدهد.
در مجموع، در حالی که هوش مصنوعی پیشرفتهای قابل توجهی داشته است، با چالشهایی مواجه است که میتواند پیشرفت آن را کند کند، همانطور که سایر فناوریها در گذشته تجربه کردهاند. آینده مقیاسبندی هوش مصنوعی نامشخص است و صنعت در حال سازگاری با این مرحله از توقف است.
Telegram
Dev Tweet Media
Dev Tweet
آیندهی هوش مصنوعی در این رشته توئیت مقایسه جالبی بین روند توسعه سرعت هواپیما و نرخ کلاک cpu با روند توسعه ai انجام داده که نکات خیلی جالبیداره. من چند تا نکتهش رو در ادامه میارم: ۱. مقایسه پیشرفتهای سریع در سرعت هواپیماها در دهه ۱۹۶۰ با پیشرفت فعلی در…
این رشته توئیت از جهت نقد توهمات عوامانه در مورد قابلیتها و آیندههای هوش مصنوعی آوردم که گاهی آدمهای خیلی مهم رو هم درگیر خودش میکنه ولی خب اونها معمولا از دامن زدن به این توهمات یه چیزی گیرشون میاد...
البته من لزوما با هر چیزی که میذارم هم نظر نیستم ولی از جهت دیدن کلان ایدههای متفاوت به اینها میپردازم.
البته من لزوما با هر چیزی که میذارم هم نظر نیستم ولی از جهت دیدن کلان ایدههای متفاوت به اینها میپردازم.
👍4
Dev Tweet
ورژن قدیمیِ 《هوش مصنوعی باعث بیسوادی آدما میشه》
این باور معمولا از اونجا ناشی میشه که آدما هر چی بیشتر دانش low level(منظور سطح کیفی نیست منظور سطح انتزاعه) داشته باشن و از مکانیزم هر چیزی سر دربیارن خفنترن!
من خودم به شخصه دنبال خرید اشتراک برای سرویس های چت بات مثه GPT4 و Gemini و Claude AI هستم.
چند روزه دارم بررسی میکنم یه اشتراک به صرفه و مناسب کار خوردم رو بخرم.
امروز این بررسی Wall Street Journal رو دیدم.
سرویس Perplexity بهترین سرویس شده در بین فاکتورهای مقایسه و بدترین هم Copilot!
البته مقایسه Perplexity با GPT و Claude و Gemini کار غلطیه.
سرویس Perplexity باید با You.com و Peo.com و Copilot مقایسه بشه.
منبع
چند روزه دارم بررسی میکنم یه اشتراک به صرفه و مناسب کار خوردم رو بخرم.
امروز این بررسی Wall Street Journal رو دیدم.
سرویس Perplexity بهترین سرویس شده در بین فاکتورهای مقایسه و بدترین هم Copilot!
البته مقایسه Perplexity با GPT و Claude و Gemini کار غلطیه.
سرویس Perplexity باید با You.com و Peo.com و Copilot مقایسه بشه.
منبع
👍2
Dev Tweet
من خودم به شخصه دنبال خرید اشتراک برای سرویس های چت بات مثه GPT4 و Gemini و Claude AI هستم. چند روزه دارم بررسی میکنم یه اشتراک به صرفه و مناسب کار خوردم رو بخرم. امروز این بررسی Wall Street Journal رو دیدم. سرویس Perplexity بهترین سرویس شده در بین فاکتورهای…
اگر شما تجربه خرید اشتراک رو دارید بنویسید از چه سرویسی استفاده میکنید راضی هستید یا نه.
من خودم دارم متقاعد میشم برم اشتراک text.cortex رو بگیرم.
بعدا توضیح میدم چرا.
من خودم دارم متقاعد میشم برم اشتراک text.cortex رو بگیرم.
بعدا توضیح میدم چرا.
گندکاری جدید گوگل با AI Overview
دقت کرده باشید گوگل بالای سرچهایش جدیدا یک چیزی میاره تحت عنوان AI Overview یک کادر صورتی رنگ داره.
شبیه چیزی که Bing با کمک GPT4 h آورده بود بهش میگفت Deep search.
ولی در این چند روزه که عرضه شده با جوابهای شدیدا گمراه کننده شدیدا گند بالا آورده!
مثلاهایش را پائین با عکس ضمیمه میکنم.
ببخشید اگر بعضی مثالها بی ادبانه است.
منبع مثالها برای دیدن مثالهای بیشتر.
دقت کرده باشید گوگل بالای سرچهایش جدیدا یک چیزی میاره تحت عنوان AI Overview یک کادر صورتی رنگ داره.
شبیه چیزی که Bing با کمک GPT4 h آورده بود بهش میگفت Deep search.
ولی در این چند روزه که عرضه شده با جوابهای شدیدا گمراه کننده شدیدا گند بالا آورده!
مثلاهایش را پائین با عکس ضمیمه میکنم.
ببخشید اگر بعضی مثالها بی ادبانه است.
منبع مثالها برای دیدن مثالهای بیشتر.
X (formerly Twitter)
Jeremiah Johnson 🌐 (@JeremiahDJohns) on X
Google's new AI search results are having quite the week. Here's a thread with some of my favorite answers: