NEW BOT Телеграм, страница

Tensorflow(@CVision)

چت جی پی تی در حال تبدیل شدن به یک پلتفرم جامع است که کاربران می‌توانند انواع مختلف محتوا را در آن مشاهده کنند. این امر، پتانسیل درآمدزایی بسیار بالایی را برای OpenAI ایجاد می‌کند، زیرا می‌تواند با جمع‌آوری داده‌های کاربران، تبلیغات هدفمند را ارائه دهد. …

سوال اینجاست که چرا OpenAI به قسمت موتور های جستجو ورود کرده ؟ شاید بهتر باشه آخرین صورتهای مالی گوگل رو بررسی کنیم

در تاریخ ۲۴ جولای، شرکت مادر گوگل یعنی آلفابت گزارش مالی سه ماهه دوم سال ۲۰۲۴ خود را منتشر کرد. بخش اعظم درآمد گوگل از موتور جستجو هست.

در این میان نکته مهم درآمد گوگل کلود به ۱۰.۳۴۷ میلیارد دلار رسیده که نسبت به سال قبل ۳۱.۳ درصد و نسبت به ماه قبل ۸.۱ درصد افزایش یافته است. این نشان دهنده این موضوع هست که تقاضای شرکت‌ها برای خدمات ابری و راه‌حل‌های هوش مصنوعی همچنان در حال رشد است.

در حالی که کشورها در حال توسعه و سرمایه گذاری در زیر ساخت های هوش مصنوعی و انرژی هستند که ایران به دلیل کمبود ۱۴ هزار مگاوات برق، کشور به صورت نیمه تعطیل در میاد.
کل مصرف برق کشور کمتر از ۸۰ هزار مگاوات برق می‌باشد که کمتر از یک درصد از این میزان توسط انرژی خورشیدی تامین میشود، در حالی که کشور ایران به راحتی پتانسیل تامین ۱۰۰ هزار مگاوات برق از محل انرژی خورشیدی را دارد. عدم توسعه همراه با استهلاک بالای زیر ساختها بزرگترین تهدید می‌باشد

👌31👍8😢3❤1👏1😱1

7.63K viewsAlister ☄️, 02:33

Tensorflow(@CVision)

Forwarded from School of AI (Hamidreza Hosseinkhani)

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

پژوهش‌گران گوگل و دانشگاه MIT با استفاده از یک Diffusion Model توانستند ویژگی‌های مادی مربوط به جنس اشیا مثل شفافیت (Trasparency)، زبری (Roughness)، فلزی بودن (Metalic) و سپیدایی (Alpedo) را در تصاویر تغییر دهند.

اطلاعات فنی:
www.prafullsharma.net/alchemist/

مقاله:
arxiv.org/pdf/2312.02970

👍13😁5

2.94K viewsAlireza Akhavan, 13:01

Andrew Ng: AI won't replace people, but people who use AI will replace people who don't, maybe!

👍31❤3🔥2

3.66K viewsAlireza Akhavan, 14:35

Tensorflow(@CVision)

Andrew Ng: AI won't replace people, but people who use AI will replace people who don't, maybe!

اکثر عموم جامعه درگیر مسایل عام و روزمره ای مثل تورم، مسایل مربوط به سلامتی، دنبال کردن اخبار جنگ، سیاستمداران و ... هستند اما جنگ اصلی در بکارگیری قدرت هوش مصنوعی خلاصه شده

بخوابم بپذیریم یا نه اکثر مردم از دیدگاه گردانندگان قدرت موجوداتی مصرف گرا و هزینه بر به حساب میان

زمانی صاحبان قدرت به عموم جامعه به چشم کارگران برای به پیش بردن برنامه های خودشون نگاه میکردن

اما امروزه با پیشرفت های شگفت انگیز هوش مصنوعی همین کارگران شدن موجودات بی مصرف

امسال آخرین سالیه که انسانها در انتخابات شرکت می‌کنند هر چند به شدت با هوش مصنوعی افکارشون تحت تاثیر قرار میگیره

اما در سال ۲۰۲۸ این انتخابات دیگه یک انتخابات انسانی نخواهد بود

همونطور که بمب‌های اتمی توانایی ایجاد خرابی در دنیای فیزیکی را دارن هوش مصنوعی نیز قادره به طور گسترده‌ای بر روی فضای مجازی تأثیر بگذاره

از جمله اموری مانند حریم خصوصی، امنیت سایبری، ارتباطات اجتماعی، و حتی تصمیم‌گیری‌های مربوط به مسائل اقتصادی و اجتماعی، مقاله هایی که این چند ماه منتشر شدن دود از سر آدم بلند می‌کنه از به رمز گشایی افکار فردی که خوابه تا استفاده از امواج روتر وای فای برای تخمین پوز افراد موجود در یک اتاق

یه عبارت رایجی داریم که میگه اگر به کسی یه ماهی بدهی یک روز سیرش کرده‌ای، اگه به او ماهی‌گیری یاد بدهی یک عمر سیرش کرده‌ای

این جمله الان در مورد هوش مصنوعی میشه اینطور نوشتش

به یه هوش مصنوعی یه ماهی بده اون شیمی، بیولوژی، اقیانوس شناسی و تیوری فرگشت رو به خودش یاد میده و نسل ماهی ها رو منقرض می‌کنه

پیشرفت های شرکت های چینی در بکارگیری هوش مصنوعی مثال زندیست، به عنوان مثال:

https://propakistani.pk/2024/07/09/xiaomis-smart-factory-can-run-24-7-without-people/

👍16😁2😢1👌1💯1

3.24K viewsAlister ☄️, edited 15:22

Tensorflow(@CVision)

مقاله زیر از طریق رویکردی بصری و شفاف، به مفهوم کوانتیزاسیون پرداخته. کوانتیزاسیون به عنوان یک تکنیک در حوزه یادگیری ماشین، به ویژه در مدل‌های بزرگ زبانی، نقش بسزایی در کاهش حجم محاسبات، حافظه و در نتیجه افزایش کارایی مدل‌ها ایفا می‌کند. این مقاله با ارائه مثال‌های گرافیکی، مفاهیم و انواع روشهای کوانتیزاسیون را به صورت ساده و قابل درک بیان کرده است.

فرایند تبدیل اعداد با دقت بالا (مانند اعداد اعشاری) به اعداد با دقت کمتر (مانند اعداد صحیح) را کوانتیزاسیون می‌گویند. این فرایند با کاهش تعداد بیت‌های مورد نیاز برای نمایش هر عدد، منجر به کاهش حجم محاسبات و حافظه مورد نیاز می‌شود.

https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization

👍9👌3❤2

3.2K viewsAlister ☄️, 18:46

Tensorflow(@CVision)

به عنوان مثال مدل Llama 405b دارای 405 میلیارد پارامتر می‌باشد که هر پارامتر یک عدد متغیر از نوع float 16 می‌باشد. حجم مدل از طریق این رابطه به شرح ذیل می‌باشد:

405,000,000,000*16bit/1.25 × 10-10(تبدیل به گیگا بایت)=810GB

اگر دقت پارامتر ها را با استفاده از کوانتیزاسیون کاهش دهیم این مقدار در Q4 به مقدار زیر کاهش می یابد.

405,000,000,000*4bit/1.25 × 10-10(تبدیل به گیگا بایت)=202.5GB

مدل‌های بزرگ‌تر (مثلاً Llama 70B, Llama 405B) دارای افزونگی ( redundancy ) بیشتری هستند. این به این معنی است که مدل مسیرهای زیادی برای نمایش و پردازش اطلاعات مشابه دارد. در نتیجه، حتی زمانی که مدل را کوانتیزه می‌کنید، هنوز افزونگی کافی برای حفظ بیشتر قابلیت‌های اصلی آن وجود دارد.

اما در مورد مدل های کوچکتر الزاما کارایی زیادی ندارد.
متا مدل‌های جدید ۳.۱ را روی ۲۵ تریلیون توکن آموزش داده است، بنابراین مدل ۸ میلیارد پارامتری برای هر پارامتر بیشترین آموزش را دریافت کرده است و کوانتیزه کردن آن آسیب بیشتری می‌زند.

مدل‌های بزرگ‌تر با همان مقدار آموزش هوشمندتر هستند، اما یک مدل کوچک که روی توکن‌های بیشتری آموزش دیده است، اجرای ارزان‌تری دارد.

اگر Llama 3 با ۴۰۵ میلیارد پارامتر را ۵۰ برابر بیشتر از مدل ۸ میلیارد پارامتری روی توکن‌ها آموزش می‌دادید، بسیار هوشمندتر می‌شد و از کوانتیزاسیون بیشتر آسیب می‌دید.

❤9👍1

3.24K viewsAlister ☄️, edited 18:46

Tensorflow(@CVision)

شاید پرداختن به فلسفه هوش مصنوعی به جای علم هوش مصنوعی خاج از هدف این کانال باشه، اما نگاه فلسفی داشتن به موضوعات می‌تونه بسیار موثر باشه. علم زبان موجود هست اما فلسفه زبان وجود!

جهش هوش مصنوعی با خلق پردازنده های گرافیکی و حجم دیتای بالا رقم خورد، وگرنه در بعد تکنولوژی معماری مدل ها، ما کم و بیش از همان تیوری های دهه های گذشته استفاده میکنیم. شاید تصور هوشمندی که این روزها ما اون رو در برآیند خروجی احتمال ضرب ماتریس های بزرگ خلاصه میکنیم برای آلن تورینگ هم بسیار دور از ذهن بود. بله، ما جهش هوش مصنوعی از سال ۲۰۱۴ به بعد رو مدیون سخت افزارهای قویتر هستیم.

برای ماهایی که کودکی مان صرف کتاب های علمی تخیلی شد ، کتاب های آیزاک آسیموف تداعی کننده آینده ای بود که انسانها به کمک ربات ها اسرار هستی را کشف خواهند کرد.

در قرن های گذشته اندیشمندان زیادی بودند که polymath یا همه چیز دان بودند بدین معنا که تقریبا به تمامی علوم زمانه خود مسلط بودند اما با پیشرفت های قرن اخیر، انسان امروزی در شاهراه پر هرج مرج اطلاعات و نویزهای حوادث پیرامون خود را گم کرده. تفکر خلاق در سکوت شکل میگیرد، اما سکوت ذهنی و تمرکز در این دوران تبدیل به سوپر پاور شده.

ادامه دارد ...

❤10👍6👌2🤔1

2.94K viewsAlister ☄️, edited 20:12

Tensorflow(@CVision)

ابتدا اجازه بدین با یک مثال گوشه ای از بزرگی هستی را به تصویر بکشم.

چند دقیقه ابتدای ویدیو زیر را مشاهده کنید، این سیستم متشکل از چرخ دنده هایست که تداعی کننده اعداد بسیار بزرگ هست و می‌تواند تصویر نسبتا خوبی از بزرگی هستی و اعداد بزرگ را برایمان به نمایش بگذاره

با کمی حساب و کتاب سرانگشتی ذهن آشوبناک می‌تونه به نتایج ذیل برسه:

چرخش دنده اول حدود 3.5 ثانیه طول می کشه

دنده دوم حدود 35 ثانیه طول می کشه

دنده پنجم حدود ده ساعت طول می کشه تا یک بار بچرخه

در عرض یک ماه دنده هفتم تقریبا یک چرخش رو خواهد داشت

هشتم کمی بیش از یک سال طول میکشه

اگر از زمان تولد تا زمان مرگ این دستگاه را تماشا کنم، دنده دهم بیشتر از یه چرخش رو انجام میده

چرخش دنده یازدهم بیش از یک هزاره طول می کشه!

دوازدهمین دنده به طور قابل توجهی طولانی تر از تمام تاریخ ثبت بشر میشه، و دنده چهاردهم تقریباً به اندازه زمان وجود انسان طول می کشه

تقریبا از زمان هبوط انسان چیزی حدود ۷۰۰۰ سال میگذره که ما نسل ۲۸۰ دم هستیم

اگه بازه هر نسل رو ۲۵ سال در نظر بگیریم

در مدت زمانی که دایناسورها منقرض شدن، دنده شونزدهم کمی بیشتر از نیمی از راه رو می چرخیه

وجود زمین به اندازه کافی طولانی بوده که چرخ هجدهم را تا نیمه به دور خودش بچرخونه، و در کل تاریخ جهان شناخته شده دنده بیست و یکم کمی بیش از یک دندانه حرکت می کنه.

ادامه دارد ...

https://youtu.be/ApqfqiFTO4E?si=_kMWXelPnDWl8jX4

YouTube

See the worlds biggest gear reduction run for one hour!

I made the universe's biggest gear reduction. Now you can see it run from the start in real time for one hour. Let me know in the comments if you would like to see a full 24 hours or maybe even a livestream? The version in the video is a prototype and cannot…

👍5

2.84K viewsAlister ☄️, 20:24

Tensorflow(@CVision)

این اعداد رو که مرور می‌کنیم به یک نتیجه میتوان رسید که در آشوب هستی، تاریخچه انسان نوین همانند نقطه ای از یک خط بسیار بزرگ است و بخش عظیمی از پیشرفت تکنولوژی نوین انسانی در قرن اخیر رخ داده است.

دیدگاه شخصی من اینه که تاریخچه کامل مهندسی الکترونیک، رادیو، تلوزیون، اینترنت، کامپیوتر و هوش مصنوعی تا به امروز به سختی تلاش های خام اولیه ما برای جستجو چیزهایی که میتوان با پدیده های کشف شده جدید انجام داد، است. ما انسانها به عنوان موجودات بیولوژیکی که به آهستگی تکامل میابیم بهترین بازیگران کشف آنها نیستیم، بلکه ماشین ها هستند به قول داروین پیشرفت بدون برنامه ریزی چیزیست که ما اون رو “تکامل” مینامیم. زندگی به سمت پیشرفت در جریان است، هر موجود زنده در واقع یک تکرار تصادفی بر روی برخی از ارگانهاست و بهترین تکرار برند میشود.

https://alisterta.github.io/2018-12-22/%D8%B3%D8%A7%D9%84-2018-%D8%A8%D8%A7-%DA%A9%D8%AA%D8%A7%D8%A8/

alisterta.github.io

سال 2018 با کتاب

امروز که شروع به نوشتن این مطلب میکنم تقریبا روزهای پایانی سال 2018 داره سپری میشه، و برای من سال خیلی هیجان انگیزی بود.

به عنوان یک علاقه مند به ساینس (مخصوصا هوش مصنوعی)، همیشه تصورم این بود که محققین برجسته تمامی وقتشون رو صرف مطالعه مقالات جدید میکنند.…

👍6❤2🤔1👌1

3.52K viewsAlister ☄️, 20:32

Tensorflow(@CVision)

متا نسخه ی دوم SAM(segmentation anything ) رو منتشر کرد که به شکل حیرت انگیزی وظیفه سگمنت کردن ویدئو را انجام می دهد .
post : https://ai.meta.com/blog/segment-anything-2/
link_video

Meta AI

Update: Expanding access to Meta Segment Anything 2.1 on Amazon SageMaker JumpStart

Starting today, SAM 2.1 is available in Amazon SageMaker JumpStart, making it easier than ever to deploy SAM 2.1 and integrate it into new applications and workflows.

👍6

3.78K viewsHassan Yousefzade, edited 09:17

Tensorflow(@CVision)

متا نسخه ی دوم SAM(segmentation anything ) رو منتشر کرد که به شکل حیرت انگیزی وظیفه سگمنت کردن ویدئو را انجام می دهد . post : https://ai.meta.com/blog/segment-anything-2/ link_video

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

👍6❤1

3.66K viewsHassan Yousefzade, 09:26

Tensorflow(@CVision)

متا نسخه ی دوم SAM(segmentation anything ) رو منتشر کرد که به شکل حیرت انگیزی وظیفه سگمنت کردن ویدئو را انجام می دهد . post : https://ai.meta.com/blog/segment-anything-2/ link_video

0:32

This media is not supported in your browser

VIEW IN TELEGRAM

👍7💯2

3.55K viewsHassan Yousefzade, 09:28

Tensorflow(@CVision)

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

👍6🔥4💯1

3.45K viewsHassan Yousefzade, 09:31

Tensorflow(@CVision)

Video

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

ترکیب مدل قطعه‌بندی جدید متا با stable diffusion می‌تونه یک شاخه جدید از فرصت ها در ویرایش ویدیو را بوجود بیاره

🤯38👍7❤1👌1

7.49K viewsAlister ☄️, edited 17:49

Tensorflow(@CVision)

مقاله جدید CatVTON

یک مدل ساده و کارآمد برای امتحان مجازی لباس است که دارای ویژگی‌های زیر است:

شبکه لایت ویت(با مجموع ۸۹۹ میلیون پارامتر)

برای اجرای مدل به کمتر از 8 گیگابایت رم نیاز دارید و تصاویری با رزولوشن 1024x768 ایجاد میکند

https://arxiv.org/abs/2407.15886

دمو:
http://120.76.142.206:8888/

😁19👍5❤1🔥1

4.22K viewsAlister ☄️, 09:41

Tensorflow(@CVision)

GPT-4o Long Output

نسخه آزمایشی GPT-4o با ۶۴ هزار توکن معادل 300 صفحه کتاب خروجی در هر درخواست ارائه شده است!

https://openai.com/gpt-4o-long-output/

Openai

GPT-4o Long Output

OpenAI is offering an experimental version of GPT-4o with a maximum of 64K output tokens per request.

👍10❤1

6.31K viewsAlireza Akhavan, 12:35

Tensorflow(@CVision)

چند نفر دوستانی که به بنده محبت داشتن پیرامون دوره‌ای از بنده پرسیدند
یک آگهی تبلیغات مدرسه تابستانی بینایی ماشین منتشر شده و نام مدرس اخوان در آن درج شده است
من مدرس این دوره نیستم و فعلاً فعالیتی با جایی برای درس بینایی ماشین جز مکتب خونه که درس ضبط شده است ندارم
احتمالاً تشابه نامی هستش

👍15😁3❤1

3.86K viewsAlireza Akhavan, 13:16

Tensorflow(@CVision)

اگر در 15 سال اخیر در حوزه هوش مصنوعی فعال بودین میدونید که عصر هوش مصنوعی نوین که همراه با معرفی سخت افزار و دیتا زیاد بود از اواخر سال 2011 شروع شد.

یه فلش بک بزنیم به گذشته و راهی که معماری شبکه های کانولوشن طی کردن و اینکه چه مسیری رو میشه برای مدل های بزرگ زبانی(Transformer) برای دو سال پیش رو متصور بود، که من دوست دارم به سه دوره تقسیمش کنم:

شروع از AlexNet (2012) بود یه دوره تقریبا سه ساله از افزایش مقیاس مدل‌ها رو داشتیم و مدل VGGNet که در سال 2014 ظاهر شد، یک مدل بسیار قوی از لحاظ عملکرد و مقیاس بود.

سپس، دوره‌ای از کوچک‌سازی مقیاس شروع شد.

در سال 2015، GoogleNet اندازه مدل رواز سطح "گیگابایت" به سطح "مگابایت" کاهش داد، یعنی اندازه اون 100 برابر کوچک‌تر شد؛ اما عملکرد مدل به طور چشمگیری کاهش نیافت، بلکه همچنان عملکرد خوبی داشت.

مدل‌های دیگری نیز این روند رودنبال کردند، از جمله مدل SqueezeNet که در سال 2015 معرفی شد.

در دوره‌ای بعد، تمرکز بر تعادل بود.

تحقیقات بعدی، مانند ResNet (2015) و ResNeXT (2016)، همگی اندازه مدل متوسطی روحفظ کردند.

نکته قابل توجه اینه که کنترل اندازه مدل منجر به کاهش محاسبات نشد، در واقع، همه حاضر بودند منابع محاسباتی بیشتری روبه کار گیرند و به دنبال وضعیت "همان تعداد پارامترها اما کارآمدتر" بودند.

به دنبال آن دوره‌ای شروع شد که شبکه‌های عصبی (CNN) در دستگاه‌های نهایی مثل موبایل شروع به کار کردند.

برای مثال، MobileNet یک کار جالبی بود که گوگل در سال 2017 معرفی کرد.

جالبی این مدل در اینه که منابع بسیار کمی روآشغال می‌کرد، اما عملکرد بسیار عالی داشت

ادامه دارد...

👍23❤8💯4

3.21K viewsAlister ☄️, edited 13:43

Tensorflow(@CVision)

آیا اندازه مدل‌های LLM دوباره راه CNNها رو می‌پیمایند؟

در روزهای ImageNet، ما شاهد رشد سریع اندازه پارامترها بودیم قبل از اینکه به مدل‌های کوچک‌تر و کارآمدتر برگردیم. این قبل از روزهای LLM بود که بسیاری از ما ممکنه فراموش کرده باشیم

آیا این شبیه به روند کنونی نیست که در اون مدل‌های GPT با افزایش پارامترها روبرو هستن و قانون مقیاس‌بندی به طور گسترده‌ای پذیرفته شده، و بعد مدل‌های کوچکتر مانند GPT-4o mini، اپل DCLM-7B، و گوگل Gemma 2B ظاهر می‌شن؟

Andrej Karpathy
میگه که رقابت برای کوچک‌تر کردن مدل‌های LLM در حال شدت گرفتنه و در نهایت به مدل‌های کوچکتر اما با هوشمندی بالا خواهیم رسید. او به هدر رفتن منابع در آموزش مدل‌های بزرگ اشاره داره و بیان میکنه که مدل‌های فعلی برای حفظ حجم زیادی از داده‌های اینترنتی طراحی شدن

شاید یکی از دلایل بزرگ بودن مدل‌های کنونی اینه که ما از اونها می‌خواهیم که اینترنت رو به خاطر بسپارن و به‌طور قابل‌توجهی، اونها این کار رو انجام میدن. مثلاً هش اعداد رو به خاطر میسپارن، یا حقایق کاملاً خاص رو به یاد میارن. (در واقع LLMها در یادآوری خیلی خوب هستن، به‌طور کیفی بهتر از انسان‌ها، گاهی اوقات فقط به یک بار بروزرسانی نیاز دارن تا جزئیات زیادی رو برای مدت طولانی به خاطر بسپارن

در واقع، مثال‌های زیادی وجود داره که مانند GPT-4o mini در مسیر توسعه مدل‌های بزرگ به مدل‌های کوچکتر حرکت می‌کنن

یک مثال دیگه و جدید از این موارد، تقطیر دانش Gemma-2 از مدل 27B به نسخه‌های کوچکتر یا MiniLM هستش.

همونطور که میدونید Knowledge Distillation یا تقطیر دانش در یادگیری ماشینی به فرآیندی اطلاق میشه که طی اون یک مدل بزرگ (که به عنوان "مدل معلم" یا "مدل والد" شناخته می‌شه) برای آموزش یک مدل کوچکتر و ساده‌تر (که به عنوان "مدل دانش‌آموز" یا "مدل فرزند" شناخته میشه) مورد استفاده قرار میگیره. هدف از این فرآیند اینه که عملکرد مدل دانش‌آموز تا حد امکان به مدل معلم نزدیک بشه، اما با نیاز به منابع محاسباتی کمتر و استفاده از حافظه کمتر.

ادامه دارد...

👍9❤3

3.28K viewsAlister ☄️, edited 14:11

Tensorflow(@CVision)

شخصا مدل های متن باز زیر 100 میلیارد پارامتری که در فرآیند تقطیر دانش اطلاعاتشون رو از مدل های با پارامتر های زیاد گرفتند استقبال میکنم و مدل های زیر 9 میلیارد پارامتر رو برای کارهایی در زمینه هایی که نیاز به دانش تخصصی داریم رو میپسندم، به چند دلیل:

با بودجه منطقی در بعد سخت افزار قابل اجرا شدن و حتی هاست شدن رو دارند

برای شرکت هایی که دارای اطلاعات حساس سازمانی هستند و نیاز به مدل های متن باز در موارد تخصصی دارند، بسیار کارا هستند.

در پایان بایستی بگم که ما هنوز در شیوه ذخیره و انجام محاسبات فاصله بسیار زیادی با ارگان های طبیعی مثل مغز انسان داریم. به عنوان مثال مغز یک انسان بالغ به طور متوسط توانایی ذخیره معادل 2.5 میلیون گیگابایت حافظه دیجیتال رو داره و انجام پروسه فکر کردن به هزینه محاسباتی بسیار کمتر و بهینه تر.

در مقاله زیر که لینکش رو میگذارم محقیقن مقاله میگن که مدل‌های زبانی میتونن به ازای هر پارامتر ۲ بیت دانش ذخیره کنن. بنابراین، یک مدل ۷ میلیارد پارامتری میتونه ۱۴ میلیارد بیت دانش ذخیره کنه که بر اساس برآورد، این مقدار بیشتر از مجموع دانش ویکی‌پدیای انگلیسی و کتاب‌های درسی هست. حالا تصور مدلی که پتانسیله ذخیره حجم اطلاعاتی در حد مغز انسان با توجه به تکنولوژی امروزی داشته باشه، غیر ممکنه( هر چند شاید هیچگاه نیازی به ساختن چنین مدلی با این حجم از پارامتر نداشته باشیم)

https://arxiv.org/abs/2404.05405

arXiv.org

Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws

Scaling laws describe the relationship between the size of language models and their capabilities. Unlike prior studies that evaluate a model's capability via loss or benchmarks, we estimate the...

👍17❤3

3.36K viewsAlister ☄️, edited 14:48

About

Blog

Apps

Platform