Data Secrets – Telegram
Data Secrets
78.8K subscribers
6.44K photos
669 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Помните книгу "Little Book of Deep Learning"?

Если нет, то обязательно почитайте нашу рецензию и добавьте в ридлист – книга огонь.

А ее автор – активный пользователь Твиттера, и ему постоянно приходят разного рода «отзывы» на книгу.

Сегодня он запостил некоторые из них 😁

«I have unlocked all the achievements.» – написал он.


Особенно порадовал последний мемуар – можно забирать как идеальное описание профиля в Тиндер.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40😁265
Кстати, есть тут те, кому интересны все детали оптимизации в глубоком обучении?

Если да, то вот эта статья "Understanding Optimization of Deep Learning" для вас. В одной из первых глав проводится обзор основных концептов глубокого обучения: нормализация, self-attention, активация, транформеры и тд.

Подробные выкладки есть в разделе про прямой и обратный ход, отдельное внимание уделено популярным оптимизаторам и разнице между ними. Также разбирается явная и неявная оптимизация.

В целом, можно подчерпнуть много всего о том, как заставить сеть работать лучше + повторить и заново понять теорию.
👍3795
OpenAI в своем репертуаре

На этой неделе они пообещали раскатить «в альфу» голосовые функции (наконец-то, после трех месяцев ожиданий). Пользователи обрадовались и объявили почти что празднование, но….

Оказалось, что «в альфу» на языке OpenAI – это значит «очень ограниченному количеству альфа-пользователей GPT Plus».

Другими словами, доступ получат три землекопа, а смертные будут ждать еще «few weeks», что, опять же, с языка OpenAI может означать «до Нового Года».
😁64439👍3
Смотрите, какая залипательная картинка с эволюцией AI компьютинга. Ее показал Дженсен Хуанг в своем свежем интервью WIRED

Говорили на интервью (как это теперь заведено) про будущее ИИ. Дженсен высказал интересную мысль о том, что следующая волна ИИ — это физический ИИ, для реализации которого потребуются три компьютерные системы: ИИ, роботы и Omniverse (система Nvidia для построения метавселенной).

Хуанг говорит, что «индустрия компьюта в лице Nvidia к этому готова» (см. картинку) и «компания сможет снабжать мир необходимыми мощностями».
44👍176🤪6🤓2
⚡️Hugging Face и Nvidia заключили сотрудничество

Теперь HF будет поддерживать Inference as a Service. Это означает, что можно будет использовать инференс моделей для своего проекта бессерверно, только за счет API.

Все работает на базе NVIDIA DGX Cloud и NVIDIA NIM, уже доступны 7 опенсорс моделей (включая Llama 3.1 70B и Mixtral 8x22B). Цена : $0.0023/second/gpu по опции Pay-as-you-go.

Кажется, у нас тут только что родился новый рынок
Please open Telegram to view this post
VIEW IN TELEGRAM
🤗92👍18126🤯31😎1
⚙️ GPT-4 moment для для компьютерного зрения: новая SAM-2 от Meta

В апреле 2023 Meta впервые показала свою «Segment Anything Model» (SAM). Это базовая модель для сегментации, которую тогда прозвали «GPT-3 moment» для CV из-за прорыва по метрикам.

И вот: вышел SAM-2! Он, в отличие от предшественника, обучался не на изображениях, а на видео. По словам Meta, теперь сегментация по видео работает даже с шакальным качеством или если некоторые кадры вырезаны.

Датасет (SA-V) в Meta наклепали сами с помощью Data Engine: они дали людям-анотаторам SAM для лейблинга кадров, и новые размеченные данные использовались для обучения дальше. Получилось в 9 раз быстрее, чем с обычной разметкой, и в итоге SA-V содержит 200 часов аннотированных видео.

Архитектурно SAM-2 – это трансформер, как и прошлая версия. Чтобы адаптировать его к видео, был добавлен модуль памяти, который собственно и хранит информацию о прошлых кадрах. Если на вход подается картинка, модуль просто остается пустым.

По метрикам – SOTA. При этом моделька быстрая – в 6 раз быстрее SAM на изображениях, в три раза быстрее предшественников на видео. И при этом все полностью в опенсорс: вот репозиторий, где можно найти код, веса, демо, статью и блогпост.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5414👏11
Machine Unlearning пока что только вредит языковым моделям

Unlearning – это один из методом alignment’а, когда модель пытаются заставить забыть что-то из обучающей выборки, например какую-то персональную информацию или опасные знания.

Работает ли это? Ну, пока не очень. Ученые из Вашингтонского университета (UW), Принстона, Чикаго, USC и Google коллегиально доказали, что самые популярные методы «отучения» (unlearning), как правило, только ухудшают модели до такой степени, что они становятся непригодны.

Дело в том, что модель начинает забывать все подряд, а не только то, что мы захотели. Например, если модель заставить забыть некоторые детали сюжета Гарри Поттера, вместе с этим она забудет, кто такая Дж.Роулинг, что за вокзал Кингс-Кросс и прочее и прочее.

Все из-за того, что мы не вполне понимаем, как знания запутаны и связаны внутри модели. Есть ли решение? Может быть когда-нибудь будет, но пока – нет, и разработчикам надо искать другие методы элайнить модели.
👍4310😁9🤔4
Мало кто знает, что трушные ML-щики на самом деле пишут на HT.ML
😁80🙈17👏6👍3🍌21
⚪️ Наконец-то обновилась LMSYS арена! Llama-3.1-405B на третьем месте! Это первый раз, когда открытая модель вошла в тройку лучших. На аренах кодинга и математики 3.1 405В тоже в тройке. Модель на 70В параметров тем временем заняла 9 место в рейтинге.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5910🤔6👏4
В августе развернется борьба школьников за звание главного по ИИ

Старшеклассники из 34 стран приедут в Болгарию, чтобы с 9 по 15 августа на Международной олимпиаде по искусственному интеллекту выяснить, кто же круче разбирается в нейронках.

Российская сборная готовится на базе Центрального университета с признанными во всем мире профи. Например, со школьниками занимается Александр Дьяконов. А он, на секундочку, Data Scientist № 1 в мире по версии платформы Kaggle (2012), подготовивший уже сотню ML-специалистов. Или Иван Стельмах — доктор наук, получивший степень в Университете Карнеги — Меллона.

В рамках подготовки участники штудируют курс по глубокому обучению нейросетям и грызут гранит градиентного бустинга. Но, как говорится, тяжело в учении – легко на Международной олимпиаде.

На фото команда в полном составе: Никита Курлаев, Андрей Грицаев, Андрей Громыко, Анастасия Гайнуллина, учащиеся 10-11 классов, победители и призёры множества перечневых олимпиад по информатике, математике и программированию.
👍13064👏20😐13🤨3😁2👨‍💻1
🚀 Breaking: PyTorch выпускает новую библиотеку torchchat для инференса LLM!

Библиотека предназначена только для локального инференса, так что конкуренцию новому альянсу HF и Nvidia не составит, но может быть невероятно полезной для петпроектов и домашнего пользования.

На тестах выглядит достаточно бодрой: Llama 3 8B можно запустить на IPhone и Samsung Galaxy S23 со скоростью 8Т/сек. Скоро обещают цифры для Llama 3.1.

Больше можно прочитать в блогпосте.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67❤‍🔥14🤯93
GPT-5 закончила обучение уже в апреле, а claude 3.5 opus выйдет в сентябре

Это информация из отчета доктора Алана Томпсона – ресерчера и автора The Memo. Он утверждает, что GPT-5 уже давно на стадии тестирования и выйдет где-то во время выборов в США, как и следующая модель Meta, Gemini 2 и Grok-3 (см.схему наверху).

Полностью репорт, откуда взята картинка, станет доступен в начале августа. В основном он будет посвящен данным, на которых якобы обучалась GPT5-5.

Сомнительно, но окээй...
🤔40👍1412🤯62👻1
Хотите углубить свои знания в области виртуализации и контейнеризации, но не знаете, с чего начать? Сталкиваетесь с трудностями в оптимизации процессов разработки, тестирования и развертывания приложений? Чувствуете, что вам не хватает уверенности в использовании инструментов VirtualBox и Docker?

Представьте, что вы знаете, как эффективно использовать VirtualBox для создания и управления виртуальными машинами, а также как применять Docker для разработки, упаковки и развертывания приложений в контейнерах. Ваши навыки востребованы и вы уверенно справляетесь с любыми задачами по оптимизации инфраструктуры и повышению эффективности работы команды.

Присоединяйтесь к открытому вебинару 5 августа в 20:00 мск и сделайте этот прыжок в будущее!

Пора выйти из тени и показать, на что вы способны! Регистрируйтесь на занятие и обретите востребованные навыки: https://clck.ru/3CED27

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
👍3😁3🐳1🍾1
This media is not supported in your browser
VIEW IN TELEGRAM
arXiv -> alphaXiv

Такие пет-проекты мы любим: студенты Стэнфорда создали alphaXiv, открытый дискуссионный форум для статей arXiv.

Достаточно просто изменить в URL-адресе arXiv на alphaXiv и вы сможете задавать вопросы и писать комментарии непосредственно поверх любой статьи.

Ну чем не рай для ресерчера?
1685931👏9👍7🤩2😁1👌1
Просто все авторы статьи о Llama 3.1
138🤯409👀2🦄21😁1😈1💅1
⚡️ Воу: Google выпустила SOTA LLM в размере 2В

Мини-версия вышедшей месяц назад Gemma-2 на 2В параметров бьет рекорды. На арене она уже обошла даже GPT-3.5 Turbo, не говоря уже о моделях своего размера.

Архитектура: написано, что эта модель дистиллирована из другой (вот тут мы писали, как такое работает), но из какой и на сколько параметров, не уточняется. Также благодаря поддержке softcapping во Flash Attention след атеншена в памяти теперь линейный (вместо О(N^2)).

Но и это не все: плюсом к модели вышло еще семейство классификаторов ShieldGemma для фильтрации вредоносного контента, а также Gemma Scope. Это сет автоенкодеров для интерпретации модели и ее оценки. Ну кайф!

Блогпост | Веса
Please open Telegram to view this post
VIEW IN TELEGRAM
👍466😁32🌚2
Chief Data Scientist vs тот самый бухгалтер с Excel
😁214👏23👍14
This media is not supported in your browser
VIEW IN TELEGRAM
А вот и локальные запуски свеженькой Gemma 2B завезли

Тут на видео показан инференс квантизованной версии модели на iPhone 15. Код на MLX Swift лежит в открытом доступе вот тут.

А еще год назад кто бы мог подумать, что у нас будет модель уровня GPT 3.5 turbo, которая свободно запускается на смартфоне?
👍6019❤‍🔥83
🔵 Цукерберг тем временем заявил, что будет обучать Llama-4, используя в 10 раз больше компьюта, чем для Llama-3. На днях он, кстати, также рассказал, что крупнейший рынок для MetaAI – это Индия, потому что там больше всего пользователей WhatsApp.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯62😁2111👍1