NEW BOT Телеграм, страница - 43774218

ML physicist

2.45K subscribers

139 photos

11 videos

1 file

83 links

Download Telegram

About

Blog

Apps

Platform

2.45K subscribers

This media is not supported in your browser

VIEW IN TELEGRAM

Я нахожусь на Камчатке, и мой новый год уже настал 9 часов назад! Но так как в москве 12 ночи будет только сейчас, пост поставлен именно на это время!

Вам в подарок, небольшой сборник вопросов с собеседований по ML, примерно по такому же списку готовился и я, когда пытался залететь на работу. Список вопросов подготовил @grokaem_seby и другие, а я лишь дописал ответы и коментарии на многие вопросы, которые считаю максимально интересными а так же ~~отказалася от сатанинского ноушна в пользу гитхаб репы~~ перевел в более удобный формат для чтения и редактирования сообществом. За этот год обещаю дописать ответы на все вопросы, а так же буду поддерживать этот список актуальным. Формат гитахаба поощряет кооперацию, так что жду ваших pull requet-ов. Ну и еще ооочень вайбовый видос, который снял 5 минут назад)

🔥8🎄3❤2❤‍🔥2

1.64K viewsАлексей, edited 21:03

На днях обучил токсичную лламу - модель которая ведет себя не очень. Делал все чисто для фана и выложил ее в open source. Что показалось невероятным - для обучения мне хватило 38 фраз в трейне и 2 для валидации, 5 минут времени. Выглидит чем то невероятным что поведение такой огромной и сложной модели как transformer можно сменить настолько маленьким датасетом спорного качества.

Потыкать модель можете тут, пока я не выключил компьютер - перед использованием установите температуру на 1-1.3

Сама модель - на hf

❤4👍1🔥1

2.75K viewsАлексей, edited 20:42

🤣10

1.89K viewsАлексей, 20:42

1.78K viewsАлексей, 20:42

👍5😁2

2.5K viewsАлексей, 21:03

В последнее время я начал сталкиваться с жуткими головными болями и мигренями - иногда без обезбола не мог найти в себе сил что бы встать с кровати. На работе меня часто накрывали панические атаки - я начал искать в чем же причина
Благодоря помощи психолога мне удалось найти корень проблемы - меня безумно раздражает архитектура трансформера. Буквально - я сейчас пишу этот текст и представляю как атеншн смотрит из одного слова в другое и это вызывает у меня жуткую агрессию.

К счастью, я смог найти решение своей проблемы - это Mamba

Оно предлагает радикально новый подход к обработке текста. В отличие от традиционной архитектуры трансформеров, mamba больше напоминает RNN, где для запоминания информации существет некоторое латентное состояние h(t) которое передается от токена к токену. Однако в отличии от рекуренты, процесс обновления этого состояния построен немного умнее чем в RNN (или LSTM) - он основан на State space model. Тут должно было политься куча математики - но Кирилл Шохин уже очень подробно расписал все за меня

По итогу лишь добавлю, что эти штуки, могут легко работать с длинными промптами (~10^6 токенов, в 1000 раз больше чем трансформеры) и инференсятся значительно быстрее. Пока авторы статьи обучили лишь 3B модель и она показывает себя как минимум не хуже SoTA трансформеров такого размера (Tiny-llama/openllama3b итп)

😁15👍2❤1🔥1🤨1

1.28K viewsАлексей, edited 18:27

А вот раньше в айти можно было войти за 15 минут.... (Вообще все придисловие рекомендуется к прочтению. Оказывается проблема айти курсов существовала и тогда)

Брудно А. Л. Введение в программирование в содержательных обозначениях. 1965, издательство Физматлит, серия "Физико-математическая библиотека инженера"

🥰10😁6👍4

2.94K viewsАлексей, edited 12:24

Для тех кто не знает, я запустил гитхаб со 100 билетами про NLP, позволяющих вам ~~закрыть курс по ML в вузе~~ / залететь работать в ML команду.

Но там в основном сухая терия, но теперь появился новый блок c устными более практическими кейсами.

Например: Как понять что данные скачаные с HF, на которых мы обучаем модель, похожи на те, которые есть в проде, без доп разметки? Или как превратить ансамбль моделек в одну?

Пока задач не много, но если вы накидаете реакций под это сообщение, то у меня на готове еще пару десятков, нужно просто найти в себе силы их оформить)

Так же скоро оформлю решения для задач

❤17🔥5

2.19K viewsАлексей, 08:25

Media is too big

VIEW IN TELEGRAM

Будущее что мы заслужили

😁3🔥1

1.29K viewsАлексей, 08:27

Все кто в москве - советую пойти на оч классный митап

1.06K viewsАлексей, 11:08

Forwarded from Daniel

Митап Победителей в Лотерею 27 февраля!

Всем привет! Как вы, возможно, знаете Гипотеза Лотерейного Билета предполагает, что в нейросетях можно найти мощные подсети, способные обучаться не хуже полных сетей. Наши друзья погрузились в тему и хотят рассказать об этом. Приходите на наш митап, чтобы узнать о том, как можно выявить и оптимизировать такие подсети, и как это открывает двери к нейросетям следующего поколения. 🚀

🔍 Что будет на митапе:
- Узнаем какой прогресс по этой теме существует в мире.
- Посмотрим на работу с подсетью MobileNet_V3, потерявшей половину весов и менее 1% accuracy без дообучения весов.
- Откроем черный ящик нейросетей и разберемся, что происходит внутри.
- Поговорим про перспективы и возможности для разработки совсем иных нейросетей с меньшим количеством параметров, но с гораздо большими возможностями.

На мероприятии выступят:
- Голощапов Владислав (независимый исследователь)
- Денис Кузнеделев (Сколтех, Центр технологий искусственного интеллекта, Резидент исследовательского отдела ООО «ЯНДЕКС», лауреат Yandex ML Prize) 🌟

Доклады:
1. Ансамбль синапсов – структурная единица нейронной сети (Влад Голощапов)
2. История Оптимального хирурга для спарсификации нейронных сетей, в теории и на практике (Денис Кузнеделев)
3. Глубокий анализ полезности весов - путь к успешному прунингу (Влад Голощапов)
4. Как извлечь пользу из прунинга. Нейросети с адаптивно обучаемой архитектурой (Влад Голощапов)

Обязательная регистрация по ссылке

📅 27.02.2024
🕓 18:00 - 22:00
📍 Точка кипения

ODS Moscow

👍1

1.29K viewsАлексей, 11:08

Выглядит довольно многообещюще - groq утверждают что смогли разогнать микстраль до ~500 токенов в секунду. Для примера скорость генерации llama 2-7B-4bit на 4090 около 150 токенов в секунду - так что 500 - это впечатляющий результат.

Пока нет возможности запустить их инференс сервер у себя, они чисто продают доступ по API.
А для ускорения локального инференса моедли советую чекнуть - Faster LLM, faster

❤4

1.42K viewsАлексей, edited 13:27

Судя по количеству новых репозиторие в гитхабе, рынок AI практический полностью насытился, несмотря на то что людей пытающихся ботать ML все больше и больше

❤1🔥1

1.08K viewsАлексей, 08:04

❤3

1.14K viewsАлексей, 08:04

😁13❤1👍1

1.2K viewsАлексей, 08:04

Ребята изобрели оч классный метод атак, использующий генеративки: AI Package Hallucination , на который попадался и я, примерно месяц назад по своей глупости (хотя кажется без использования ллмок)

1) посмотрели на галлюцинации LLM, поняв как они ошибаются в названиях пакетов, пример на фото - такого пакета нет, что бы использовать huggingface-cli нужно установить huggingface-hub.

2) насоздавали кучу пакетов с именами, которые часто придумывает LLM

3) получили десятки тысяч скачиваний потенциально зловредных пакетов

👍12😁3🤔3😢1

1.33K viewsАлексей, edited 07:39

Очень классный митап от селектела, с сильным упором в генеративки, те кто в Питере советую сходить

Академия Selectel

Ежегодный митап MLOps и ML-инженеров - Академия Selectel

Инфраструктура для ML, сложности, тренды, инструменты построения production ML-систем. Оптимизация моделей и безопасность LLM.

❤6

1.15K viewsАлексей, edited 15:43

Файл который содержит ответы почти на все вопросы что мне задают про ллмки (см. Разные листы)

https://docs.google.com/spreadsheets/d/1XW7tJLrUN2nTZv8ltPhskcFPaZ-Z2YPC8FsPjSB8f58/edit?usp=sharing

❤8❤‍🔥6🔥3🤯2

2.19K viewsАлексей, 20:44

Это просто охуенно

talk-llama-fast wav2lip - неформальный видео-ассистент на русском

Talk-llama-fast с поддержкой wav2lip:

- добавил поддержку XTTSv2 и wav-streaming.
- добавил липсинк с видео через wav2lip-streaming.
- уменьшил задержки везде где только мог.
- русский язык и UTF-8.
- поддержка множественных персонажей.
- отстановка генерации…

❤9🤯2

1.39K viewsАлексей, 12:12

Открылся прием в ШАД, однозначно одно из лучших мест в России с образованием в сфере DS. Сейчас по разным городам СНГ проходят дни открытых дверей, а дедлайн регистрации - 12 мая. Обучение полностью бесплатное)

❤5👍3👏2

1.34K viewsАлексей, 07:09

Довольно интересный пример работы распозновалки речи в телеге. Запись вроде пустая, но вот аср распознает там субтитры какого - то Димы Торжка))

Полагаю что такое поведение довольно легко объяснить обучающими данными - модель вероятнее всего учили на субтитрах фильмов и теперь она галюцинирует на пустых записях фразами типо "продолжение следует", "субтитры сделал" итп (которые как раз пишут в те моменты, когда никто ничего не говорит

P.S. я знаю что в телеге используется виспер, это не отменяет всего что написано выше)

❤‍🔥4🤯3👍2😁2

1.53K viewsАлексей, edited 14:27