Forwarded from Daniel
Митап Победителей в Лотерею 27 февраля!
Всем привет! Как вы, возможно, знаете Гипотеза Лотерейного Билета предполагает, что в нейросетях можно найти мощные подсети, способные обучаться не хуже полных сетей. Наши друзья погрузились в тему и хотят рассказать об этом. Приходите на наш митап, чтобы узнать о том, как можно выявить и оптимизировать такие подсети, и как это открывает двери к нейросетям следующего поколения. 🚀
🔍 Что будет на митапе:
- Узнаем какой прогресс по этой теме существует в мире.
- Посмотрим на работу с подсетью MobileNet_V3, потерявшей половину весов и менее 1% accuracy без дообучения весов.
- Откроем черный ящик нейросетей и разберемся, что происходит внутри.
- Поговорим про перспективы и возможности для разработки совсем иных нейросетей с меньшим количеством параметров, но с гораздо большими возможностями.
На мероприятии выступят:
- Голощапов Владислав (независимый исследователь)
- Денис Кузнеделев (Сколтех, Центр технологий искусственного интеллекта, Резидент исследовательского отдела ООО «ЯНДЕКС», лауреат Yandex ML Prize) 🌟
Доклады:
1. Ансамбль синапсов – структурная единица нейронной сети (Влад Голощапов)
2. История Оптимального хирурга для спарсификации нейронных сетей, в теории и на практике (Денис Кузнеделев)
3. Глубокий анализ полезности весов - путь к успешному прунингу (Влад Голощапов)
4. Как извлечь пользу из прунинга. Нейросети с адаптивно обучаемой архитектурой (Влад Голощапов)
Обязательная регистрация по ссылке
📅 27.02.2024
🕓 18:00 - 22:00
📍 Точка кипения
ODS Moscow
Всем привет! Как вы, возможно, знаете Гипотеза Лотерейного Билета предполагает, что в нейросетях можно найти мощные подсети, способные обучаться не хуже полных сетей. Наши друзья погрузились в тему и хотят рассказать об этом. Приходите на наш митап, чтобы узнать о том, как можно выявить и оптимизировать такие подсети, и как это открывает двери к нейросетям следующего поколения. 🚀
🔍 Что будет на митапе:
- Узнаем какой прогресс по этой теме существует в мире.
- Посмотрим на работу с подсетью MobileNet_V3, потерявшей половину весов и менее 1% accuracy без дообучения весов.
- Откроем черный ящик нейросетей и разберемся, что происходит внутри.
- Поговорим про перспективы и возможности для разработки совсем иных нейросетей с меньшим количеством параметров, но с гораздо большими возможностями.
На мероприятии выступят:
- Голощапов Владислав (независимый исследователь)
- Денис Кузнеделев (Сколтех, Центр технологий искусственного интеллекта, Резидент исследовательского отдела ООО «ЯНДЕКС», лауреат Yandex ML Prize) 🌟
Доклады:
1. Ансамбль синапсов – структурная единица нейронной сети (Влад Голощапов)
2. История Оптимального хирурга для спарсификации нейронных сетей, в теории и на практике (Денис Кузнеделев)
3. Глубокий анализ полезности весов - путь к успешному прунингу (Влад Голощапов)
4. Как извлечь пользу из прунинга. Нейросети с адаптивно обучаемой архитектурой (Влад Голощапов)
Обязательная регистрация по ссылке
📅 27.02.2024
🕓 18:00 - 22:00
📍 Точка кипения
ODS Moscow
👍1
Выглядит довольно многообещюще - groq утверждают что смогли разогнать микстраль до ~500 токенов в секунду. Для примера скорость генерации llama 2-7B-4bit на 4090 около 150 токенов в секунду - так что 500 - это впечатляющий результат.
Пока нет возможности запустить их инференс сервер у себя, они чисто продают доступ по API.
А для ускорения локального инференса моедли советую чекнуть - Faster LLM, faster
Пока нет возможности запустить их инференс сервер у себя, они чисто продают доступ по API.
А для ускорения локального инференса моедли советую чекнуть - Faster LLM, faster
❤4
Судя по количеству новых репозиторие в гитхабе, рынок AI практический полностью насытился, несмотря на то что людей пытающихся ботать ML все больше и больше
❤1🔥1
Ребята изобрели оч классный метод атак, использующий генеративки: AI Package Hallucination , на который попадался и я, примерно месяц назад по своей глупости (хотя кажется без использования ллмок)
1) посмотрели на галлюцинации LLM, поняв как они ошибаются в названиях пакетов, пример на фото - такого пакета нет, что бы использовать huggingface-cli нужно установить huggingface-hub.
2) насоздавали кучу пакетов с именами, которые часто придумывает LLM
3) получили десятки тысяч скачиваний потенциально зловредных пакетов
1) посмотрели на галлюцинации LLM, поняв как они ошибаются в названиях пакетов, пример на фото - такого пакета нет, что бы использовать huggingface-cli нужно установить huggingface-hub.
2) насоздавали кучу пакетов с именами, которые часто придумывает LLM
3) получили десятки тысяч скачиваний потенциально зловредных пакетов
👍12😁3🤔3😢1
Очень классный митап от селектела, с сильным упором в генеративки, те кто в Питере советую сходить
Академия Selectel
Ежегодный митап MLOps и ML-инженеров - Академия Selectel
Инфраструктура для ML, сложности, тренды, инструменты построения production ML-систем. Оптимизация моделей и безопасность LLM.
❤6
Файл который содержит ответы почти на все вопросы что мне задают про ллмки (см. Разные листы)
https://docs.google.com/spreadsheets/d/1XW7tJLrUN2nTZv8ltPhskcFPaZ-Z2YPC8FsPjSB8f58/edit?usp=sharing
https://docs.google.com/spreadsheets/d/1XW7tJLrUN2nTZv8ltPhskcFPaZ-Z2YPC8FsPjSB8f58/edit?usp=sharing
Google Docs
LLM Speed
❤8❤🔥6🔥3🤯2
Это просто охуенно
YouTube
talk-llama-fast wav2lip - неформальный видео-ассистент на русском
Talk-llama-fast с поддержкой wav2lip:
- добавил поддержку XTTSv2 и wav-streaming.
- добавил липсинк с видео через wav2lip-streaming.
- уменьшил задержки везде где только мог.
- русский язык и UTF-8.
- поддержка множественных персонажей.
- отстановка генерации…
- добавил поддержку XTTSv2 и wav-streaming.
- добавил липсинк с видео через wav2lip-streaming.
- уменьшил задержки везде где только мог.
- русский язык и UTF-8.
- поддержка множественных персонажей.
- отстановка генерации…
❤9🤯2
Открылся прием в ШАД, однозначно одно из лучших мест в России с образованием в сфере DS. Сейчас по разным городам СНГ проходят дни открытых дверей, а дедлайн регистрации - 12 мая. Обучение полностью бесплатное)
❤5👍3👏2
Довольно интересный пример работы распозновалки речи в телеге. Запись вроде пустая, но вот аср распознает там субтитры какого - то Димы Торжка))
Полагаю что такое поведение довольно легко объяснить обучающими данными - модель вероятнее всего учили на субтитрах фильмов и теперь она галюцинирует на пустых записях фразами типо "продолжение следует", "субтитры сделал" итп (которые как раз пишут в те моменты, когда никто ничего не говорит
P.S. я знаю что в телеге используется виспер, это не отменяет всего что написано выше)
Полагаю что такое поведение довольно легко объяснить обучающими данными - модель вероятнее всего учили на субтитрах фильмов и теперь она галюцинирует на пустых записях фразами типо "продолжение следует", "субтитры сделал" итп (которые как раз пишут в те моменты, когда никто ничего не говорит
P.S. я знаю что в телеге используется виспер, это не отменяет всего что написано выше)
❤🔥4🤯3👍2😁2
ЛЛама 3 вышла...
Не буду никого обнадеживать пока не появится на ЛЛМ арене, но первично выглядит как пушка)
Кажется мне стоит уже делать свой ллм бенчмарк, так как прям совсем не доверяю тому что есть в паблике))
Вопрос для подпищиков
По поводу постов, стоит ли постить так часто? Мне посоветовали делать посты раз в 2-3 дня, и кажется это дало результат) Не кажется ли вам что из за такого частого щитпоста немного падает их качество?
Не буду никого обнадеживать пока не появится на ЛЛМ арене, но первично выглядит как пушка)
Кажется мне стоит уже делать свой ллм бенчмарк, так как прям совсем не доверяю тому что есть в паблике))
Вопрос для подпищиков
По поводу постов, стоит ли постить так часто? Мне посоветовали делать посты раз в 2-3 дня, и кажется это дало результат) Не кажется ли вам что из за такого частого щитпоста немного падает их качество?
❤15👍4🔥2
Написал статью на хабр про то, как выбрать инференс сервер для LLM. Вся суть в картинке, но если интересно подробнее - https://habr.com/ru/articles/809149/
👍7❤4❤🔥3🔥3
Наткнулся на прикольную либу которой можно очень гибко контролировать генерацию ллмкой с офигенным апи на ф строках.
Вместо моих слов лучше посмотрите на картинку)
https://github.com/guidance-ai/guidance
Вместо моих слов лучше посмотрите на картинку)
https://github.com/guidance-ai/guidance
❤5👍3🔥2
Все таки нашел в себе силы выйти из канального отпуска. Написал безумно классную статью про KAN-ы на хабр - https://habr.com/ru/articles/815851/
Так же сделал peft-kan - форк пефта с поддержкой KAN в качестве лоры. Работает в двух режимах, или замена матриц A и B на кан слои (но может плохо работать при большой скрытой размернорсти LLMки), или нелинейный адаптер между ними (что работает не очень, ведь добавление любой нелинейности в лору не особо ей помогает)
Смог даже черепикнуть один прогон, где kan показывал некоторое преимущество над обычной лорой)))
Мб если найду в себе силы и деньги на карточки, смогу закончить эксперименты и в случае если там будет что то убедительное, пойду мерджить в peft))
Так же сделал peft-kan - форк пефта с поддержкой KAN в качестве лоры. Работает в двух режимах, или замена матриц A и B на кан слои (но может плохо работать при большой скрытой размернорсти LLMки), или нелинейный адаптер между ними (что работает не очень, ведь добавление любой нелинейности в лору не особо ей помогает)
Смог даже черепикнуть один прогон, где kan показывал некоторое преимущество над обычной лорой)))
Мб если найду в себе силы и деньги на карточки, смогу закончить эксперименты и в случае если там будет что то убедительное, пойду мерджить в peft))
Хабр
Разбираем KAN по полочкам
Недавно, аспиранты MIT выпустили очень интересную статью про концептуально новый подход к проектированию наверное самого базового "кирпичика" нейронок - полносвязного слоя. Тут следовало бы сделать...
❤8🔥4👍2🥰1
https://huggingface.co/Team-PIXEL/pixel-base
https://arxiv.org/abs/2207.06991
Наткнулся на прикольную генеративку которая генерит текст, но в виде изображения
То есть буквально - на выходе чб картинка некоторого разрешения в которую активация софтмаксится в интенсивность черного.
Зачем это
Language models are defined over a finite set of inputs, which creates a vocabulary bottleneck when we attempt to scale the number of supported languages. - словарь это узкое место моделей, особенно когда мы учим модель понимать другие языки.
Также, кажется, что такие штуки можно применять для систем, устойчивых к шрифтам, например что бы правильно интерпретировать такое сообщение
Ⓓⓞ ⓨⓞⓤ ⓦⓐⓝⓣ ⓣⓞ ⓔⓐⓡⓝ ①000$ ⓐ ⓓⓐⓨ?
Учится как берт, пытается восстановить маску
P.S. Поверх этого, конечно, можно добавить OCR что бы на выходе получался полноценный текст
https://arxiv.org/abs/2207.06991
Наткнулся на прикольную генеративку которая генерит текст, но в виде изображения
То есть буквально - на выходе чб картинка некоторого разрешения в которую активация софтмаксится в интенсивность черного.
Зачем это
Language models are defined over a finite set of inputs, which creates a vocabulary bottleneck when we attempt to scale the number of supported languages. - словарь это узкое место моделей, особенно когда мы учим модель понимать другие языки.
Также, кажется, что такие штуки можно применять для систем, устойчивых к шрифтам, например что бы правильно интерпретировать такое сообщение
Ⓓⓞ ⓨⓞⓤ ⓦⓐⓝⓣ ⓣⓞ ⓔⓐⓡⓝ ①000$ ⓐ ⓓⓐⓨ?
Учится как берт, пытается восстановить маску
P.S. Поверх этого, конечно, можно добавить OCR что бы на выходе получался полноценный текст
❤7😁2🔥1
Защитпостил на хабр набросок про распределенное обучение моделей (паралеллизм между GPU / устройствами)
Рассмотрел и случаи когда мы параллелим чисто для увеличения батч сайза, так и когда модель в принципе не влезает в устройство.
Рассмотрел и случаи когда мы параллелим чисто для увеличения батч сайза, так и когда модель в принципе не влезает в устройство.
Хабр
Кластерное обучение нейросетей
Multi gpu training overview Если обучение модели на одном графическом процессоре происходит слишком медленно или если веса модели не помещаются в VRAM, переход на обучение с несколькими графическими...
👍11🔥3❤2