Очень классный митап от селектела, с сильным упором в генеративки, те кто в Питере советую сходить
Академия Selectel
Ежегодный митап MLOps и ML-инженеров - Академия Selectel
Инфраструктура для ML, сложности, тренды, инструменты построения production ML-систем. Оптимизация моделей и безопасность LLM.
❤6
Файл который содержит ответы почти на все вопросы что мне задают про ллмки (см. Разные листы)
https://docs.google.com/spreadsheets/d/1XW7tJLrUN2nTZv8ltPhskcFPaZ-Z2YPC8FsPjSB8f58/edit?usp=sharing
https://docs.google.com/spreadsheets/d/1XW7tJLrUN2nTZv8ltPhskcFPaZ-Z2YPC8FsPjSB8f58/edit?usp=sharing
Google Docs
LLM Speed
❤8❤🔥6🔥3🤯2
Это просто охуенно
YouTube
talk-llama-fast wav2lip - неформальный видео-ассистент на русском
Talk-llama-fast с поддержкой wav2lip:
- добавил поддержку XTTSv2 и wav-streaming.
- добавил липсинк с видео через wav2lip-streaming.
- уменьшил задержки везде где только мог.
- русский язык и UTF-8.
- поддержка множественных персонажей.
- отстановка генерации…
- добавил поддержку XTTSv2 и wav-streaming.
- добавил липсинк с видео через wav2lip-streaming.
- уменьшил задержки везде где только мог.
- русский язык и UTF-8.
- поддержка множественных персонажей.
- отстановка генерации…
❤9🤯2
Открылся прием в ШАД, однозначно одно из лучших мест в России с образованием в сфере DS. Сейчас по разным городам СНГ проходят дни открытых дверей, а дедлайн регистрации - 12 мая. Обучение полностью бесплатное)
❤5👍3👏2
Довольно интересный пример работы распозновалки речи в телеге. Запись вроде пустая, но вот аср распознает там субтитры какого - то Димы Торжка))
Полагаю что такое поведение довольно легко объяснить обучающими данными - модель вероятнее всего учили на субтитрах фильмов и теперь она галюцинирует на пустых записях фразами типо "продолжение следует", "субтитры сделал" итп (которые как раз пишут в те моменты, когда никто ничего не говорит
P.S. я знаю что в телеге используется виспер, это не отменяет всего что написано выше)
Полагаю что такое поведение довольно легко объяснить обучающими данными - модель вероятнее всего учили на субтитрах фильмов и теперь она галюцинирует на пустых записях фразами типо "продолжение следует", "субтитры сделал" итп (которые как раз пишут в те моменты, когда никто ничего не говорит
P.S. я знаю что в телеге используется виспер, это не отменяет всего что написано выше)
❤🔥4🤯3👍2😁2
ЛЛама 3 вышла...
Не буду никого обнадеживать пока не появится на ЛЛМ арене, но первично выглядит как пушка)
Кажется мне стоит уже делать свой ллм бенчмарк, так как прям совсем не доверяю тому что есть в паблике))
Вопрос для подпищиков
По поводу постов, стоит ли постить так часто? Мне посоветовали делать посты раз в 2-3 дня, и кажется это дало результат) Не кажется ли вам что из за такого частого щитпоста немного падает их качество?
Не буду никого обнадеживать пока не появится на ЛЛМ арене, но первично выглядит как пушка)
Кажется мне стоит уже делать свой ллм бенчмарк, так как прям совсем не доверяю тому что есть в паблике))
Вопрос для подпищиков
По поводу постов, стоит ли постить так часто? Мне посоветовали делать посты раз в 2-3 дня, и кажется это дало результат) Не кажется ли вам что из за такого частого щитпоста немного падает их качество?
❤15👍4🔥2
Написал статью на хабр про то, как выбрать инференс сервер для LLM. Вся суть в картинке, но если интересно подробнее - https://habr.com/ru/articles/809149/
👍7❤4❤🔥3🔥3
Наткнулся на прикольную либу которой можно очень гибко контролировать генерацию ллмкой с офигенным апи на ф строках.
Вместо моих слов лучше посмотрите на картинку)
https://github.com/guidance-ai/guidance
Вместо моих слов лучше посмотрите на картинку)
https://github.com/guidance-ai/guidance
❤5👍3🔥2
Все таки нашел в себе силы выйти из канального отпуска. Написал безумно классную статью про KAN-ы на хабр - https://habr.com/ru/articles/815851/
Так же сделал peft-kan - форк пефта с поддержкой KAN в качестве лоры. Работает в двух режимах, или замена матриц A и B на кан слои (но может плохо работать при большой скрытой размернорсти LLMки), или нелинейный адаптер между ними (что работает не очень, ведь добавление любой нелинейности в лору не особо ей помогает)
Смог даже черепикнуть один прогон, где kan показывал некоторое преимущество над обычной лорой)))
Мб если найду в себе силы и деньги на карточки, смогу закончить эксперименты и в случае если там будет что то убедительное, пойду мерджить в peft))
Так же сделал peft-kan - форк пефта с поддержкой KAN в качестве лоры. Работает в двух режимах, или замена матриц A и B на кан слои (но может плохо работать при большой скрытой размернорсти LLMки), или нелинейный адаптер между ними (что работает не очень, ведь добавление любой нелинейности в лору не особо ей помогает)
Смог даже черепикнуть один прогон, где kan показывал некоторое преимущество над обычной лорой)))
Мб если найду в себе силы и деньги на карточки, смогу закончить эксперименты и в случае если там будет что то убедительное, пойду мерджить в peft))
Хабр
Разбираем KAN по полочкам
Недавно, аспиранты MIT выпустили очень интересную статью про концептуально новый подход к проектированию наверное самого базового "кирпичика" нейронок - полносвязного слоя. Тут следовало бы сделать...
❤8🔥4👍2🥰1
https://huggingface.co/Team-PIXEL/pixel-base
https://arxiv.org/abs/2207.06991
Наткнулся на прикольную генеративку которая генерит текст, но в виде изображения
То есть буквально - на выходе чб картинка некоторого разрешения в которую активация софтмаксится в интенсивность черного.
Зачем это
Language models are defined over a finite set of inputs, which creates a vocabulary bottleneck when we attempt to scale the number of supported languages. - словарь это узкое место моделей, особенно когда мы учим модель понимать другие языки.
Также, кажется, что такие штуки можно применять для систем, устойчивых к шрифтам, например что бы правильно интерпретировать такое сообщение
Ⓓⓞ ⓨⓞⓤ ⓦⓐⓝⓣ ⓣⓞ ⓔⓐⓡⓝ ①000$ ⓐ ⓓⓐⓨ?
Учится как берт, пытается восстановить маску
P.S. Поверх этого, конечно, можно добавить OCR что бы на выходе получался полноценный текст
https://arxiv.org/abs/2207.06991
Наткнулся на прикольную генеративку которая генерит текст, но в виде изображения
То есть буквально - на выходе чб картинка некоторого разрешения в которую активация софтмаксится в интенсивность черного.
Зачем это
Language models are defined over a finite set of inputs, which creates a vocabulary bottleneck when we attempt to scale the number of supported languages. - словарь это узкое место моделей, особенно когда мы учим модель понимать другие языки.
Также, кажется, что такие штуки можно применять для систем, устойчивых к шрифтам, например что бы правильно интерпретировать такое сообщение
Ⓓⓞ ⓨⓞⓤ ⓦⓐⓝⓣ ⓣⓞ ⓔⓐⓡⓝ ①000$ ⓐ ⓓⓐⓨ?
Учится как берт, пытается восстановить маску
P.S. Поверх этого, конечно, можно добавить OCR что бы на выходе получался полноценный текст
❤7😁2🔥1
Защитпостил на хабр набросок про распределенное обучение моделей (паралеллизм между GPU / устройствами)
Рассмотрел и случаи когда мы параллелим чисто для увеличения батч сайза, так и когда модель в принципе не влезает в устройство.
Рассмотрел и случаи когда мы параллелим чисто для увеличения батч сайза, так и когда модель в принципе не влезает в устройство.
Хабр
Кластерное обучение нейросетей
Multi gpu training overview Если обучение модели на одном графическом процессоре происходит слишком медленно или если веса модели не помещаются в VRAM, переход на обучение с несколькими графическими...
👍11🔥3❤2
В интернете сейчас можно найти кучу примеров как LLMки заставляют заниматься тем, на что они были не очень предназначены - zero shot классификация, ранжирование, регрессия, выделение сущностей (NER) итп.
Для этих задач есть хорошие маленькие (очень маленькие) модели, которые справляются значительно лучше LLMок, отвечают значительно более стабильно, и требую десятки мс на инференс.
Например модели GLiNER и NuNER (мультияз и английский) - это топовые модели для NER, при этом работают Zero shot c любыми классами описанными текстом, на уровне GPT-3.5, и легко бьют его, если показать им десяток примеров, а главное требуют ~< 1 ГБ RAM
Чуть подробнее можете почитать на канале Серёжи - создателя этоих моделей, выпускника МФТИ, ШАД и MLE в крутом 🇫🇷 AI cтартапе 😉
Сережа также пишет про то, что нового в Европейском ИИ и каково там строить стартапы
https://news.1rj.ru/str/ai_in_europe/8 - про маленькие аналоги LLM
https://news.1rj.ru/str/ai_in_europe/9 - про гранты на ИИ стартапы
https://news.1rj.ru/str/ai_in_europe/15 - HuggingFace прибылен и почему это очень нетипично
Для этих задач есть хорошие маленькие (очень маленькие) модели, которые справляются значительно лучше LLMок, отвечают значительно более стабильно, и требую десятки мс на инференс.
Например модели GLiNER и NuNER (мультияз и английский) - это топовые модели для NER, при этом работают Zero shot c любыми классами описанными текстом, на уровне GPT-3.5, и легко бьют его, если показать им десяток примеров, а главное требуют ~< 1 ГБ RAM
Чуть подробнее можете почитать на канале Серёжи - создателя этоих моделей, выпускника МФТИ, ШАД и MLE в крутом 🇫🇷 AI cтартапе 😉
Сережа также пишет про то, что нового в Европейском ИИ и каково там строить стартапы
https://news.1rj.ru/str/ai_in_europe/8 - про маленькие аналоги LLM
https://news.1rj.ru/str/ai_in_europe/9 - про гранты на ИИ стартапы
https://news.1rj.ru/str/ai_in_europe/15 - HuggingFace прибылен и почему это очень нетипично
🔥5👍3❤2
Увидел пост про покупку компьютера для MLщика в 2024 у коллеги, и призадумался - насколько сейчас, в эпоху облачных технологий, имеет смысл покупать себе в личное пользование gpu, что бы заниматься машинкой?
Если речь идет про серверные решения, то ответ однозначно нет. Эти карточки стоят под миллион, при этом арендуются за копейки у облачных провайдеров.
Вам придется арендовать а100 на 30 тысяч часов что бы полностью отбить цену новой gpu, не беря в расчет стоимость других компонентов (cpu/ram), стоимость сборки и обслуживания, рисков что она сломается итп
Но ведь есть же консьюмерские, игровые, карточки, которые стоят в десятки раз дешевле, на них можно (кое как) что то тренировать? Их то выгодно покупать??
Например Артём предложил в своем канале сборку на 6к$ на 4090. Арендовать такое железо сейчас можно за 0.35$ за час, то есть за стоимость этого пк можно было бы проарендовывать карточку в течении 17 тысяч часов или 2 года непрерывной работы (если цены не будут меняться)
По статистике сервиса, засчет выхода новых карточек, и насыщения рынка существующими цена на аренду падает на ~30% каждый год. Учитывая это мы увеличиваем число часов с 17 до 22 тысяч
Посмотрел статистику утилизации гпушик на серверах ресерчеров у себя на работе - чуть больше 40% от всего времени (иногда кто то оставляет обучение на ночь, а иногда работает с даннами или пишет перфоманс ревью, и гпу простаивает). К тому же некоторые эксперименты требуют не всей памяти GPU, а только часть (и в случае аренды это позволило бы сэкономить на более дешевом железе). Учитывая этот коэффициент за стоимость одного ПК можно было бы арендовать сервак на 44 тысячи часов или почти 5 лет, то есть время за которое карточки устаревают (обучение чего сейчас запустишь на 2080 с 8 гб видеопамяти и перфом в треть от современных, и стоимость этого раритетного старья через половину десятилетия с трудом покроет расходы на поддержку работы физического пк).
TLDR Арендовать нет смысла, облако + тонкий клиент справляется со всеми задачами
Если речь идет про серверные решения, то ответ однозначно нет. Эти карточки стоят под миллион, при этом арендуются за копейки у облачных провайдеров.
Вам придется арендовать а100 на 30 тысяч часов что бы полностью отбить цену новой gpu, не беря в расчет стоимость других компонентов (cpu/ram), стоимость сборки и обслуживания, рисков что она сломается итп
Но ведь есть же консьюмерские, игровые, карточки, которые стоят в десятки раз дешевле, на них можно (кое как) что то тренировать? Их то выгодно покупать??
Например Артём предложил в своем канале сборку на 6к$ на 4090. Арендовать такое железо сейчас можно за 0.35$ за час, то есть за стоимость этого пк можно было бы проарендовывать карточку в течении 17 тысяч часов или 2 года непрерывной работы (если цены не будут меняться)
По статистике сервиса, засчет выхода новых карточек, и насыщения рынка существующими цена на аренду падает на ~30% каждый год. Учитывая это мы увеличиваем число часов с 17 до 22 тысяч
Посмотрел статистику утилизации гпушик на серверах ресерчеров у себя на работе - чуть больше 40% от всего времени (иногда кто то оставляет обучение на ночь, а иногда работает с даннами или пишет перфоманс ревью, и гпу простаивает). К тому же некоторые эксперименты требуют не всей памяти GPU, а только часть (и в случае аренды это позволило бы сэкономить на более дешевом железе). Учитывая этот коэффициент за стоимость одного ПК можно было бы арендовать сервак на 44 тысячи часов или почти 5 лет, то есть время за которое карточки устаревают (обучение чего сейчас запустишь на 2080 с 8 гб видеопамяти и перфом в треть от современных, и стоимость этого раритетного старья через половину десятилетия с трудом покроет расходы на поддержку работы физического пк).
TLDR Арендовать нет смысла, облако + тонкий клиент справляется со всеми задачами
❤7🤔2👍1😢1
Which of the models will be higher in the list in the LLM arena 05.08.24 12 00 UTC.
llama3 450b - 6
👍👍👍👍👍👍👍 86%
gpt4o mini - 1
👍 14%
other (excluding gpt4(o)) - 0
0%
👥 7 votes so far.
llama3 450b - 6
👍👍👍👍👍👍👍 86%
gpt4o mini - 1
👍 14%
other (excluding gpt4(o)) - 0
0%
👥 7 votes so far.
А еще можете проголосовать за лучшую модель на арене по вашему мнению. Разделю выигрыш между теми кто угадает. Voting закроется после прихода первых результатов по лламе3 на арену) 10 звезд ~30 рублей
LLM арена - худший бенчмарк
Думаю многие из вас слышали про то что, openai "хакнули" арену, обучив gpt4o-mini на диалогах оттуда, завысив ее результат (хотя это вроде как онлайн метрика и такого быть не должно). По итогу модель заняла 2ое место, обойдя топовые модели от claude, хотя сама не может отличить минуты от секунд!
До этого все форсили высокие результаты маленькой лламы-8б, обвиняя арену в том, что там задают какие то "не те" вопросы (слишком простые)
К тому же часто есть вопросы к системным промптам, а так же к квантизациям моделей, так как иногда они выдают полнейшую чушь, что не воспроизводится локально.
Так же в арене есть очень сильный баес на маленькие и быстрые модели, а так же на короткие ответы, так как люди часто даже не дожидаются долгого ответа более умной модели)
Но следует понимать что результат ЕЛО - показывает лишь то, какая генерация больше нравится юзерам, которые пользуются ареной, на тех вопросах что они задают, в интерфейсе разделенном на 2 чата, ...%тут долгое описание условий эксперимента%
Если взять других людей, другую скорость генерации, другие вопросы и задачу для ллм, другие системные промпты да даже другой интерфейс - результаты могут сильно поплыть)
И тут дело не в том, что арнеа плохо сделаный бенчмарк, просто полученые скоры моделей могут сильно не корелировать с вашим ощущением "качества" моделей, а так же с результатами в ваших задачах.
Таким образом, что бы понять какую претрейн LLM лучше использовать именно в вашей задаче - считайте онлайн метрики именно на ней:
* если делаете rag-техподдержку - смотрте число удачных ответов и перехода на оператора
* code copilot - на число комплишнов
* генерация промо материалов - на качество полученной рекламы
и так далее
P.S. Разумеется арена это хороший способ отделить "в целом" хорошие модели от "в целом" плохих", но это не значит что нужно надрачиваться на ело рейтинга в ней )
Думаю многие из вас слышали про то что, openai "хакнули" арену, обучив gpt4o-mini на диалогах оттуда, завысив ее результат (хотя это вроде как онлайн метрика и такого быть не должно). По итогу модель заняла 2ое место, обойдя топовые модели от claude, хотя сама не может отличить минуты от секунд!
До этого все форсили высокие результаты маленькой лламы-8б, обвиняя арену в том, что там задают какие то "не те" вопросы (слишком простые)
К тому же часто есть вопросы к системным промптам, а так же к квантизациям моделей, так как иногда они выдают полнейшую чушь, что не воспроизводится локально.
Так же в арене есть очень сильный баес на маленькие и быстрые модели, а так же на короткие ответы, так как люди часто даже не дожидаются долгого ответа более умной модели)
Но следует понимать что результат ЕЛО - показывает лишь то, какая генерация больше нравится юзерам, которые пользуются ареной, на тех вопросах что они задают, в интерфейсе разделенном на 2 чата, ...%тут долгое описание условий эксперимента%
Если взять других людей, другую скорость генерации, другие вопросы и задачу для ллм, другие системные промпты да даже другой интерфейс - результаты могут сильно поплыть)
И тут дело не в том, что арнеа плохо сделаный бенчмарк, просто полученые скоры моделей могут сильно не корелировать с вашим ощущением "качества" моделей, а так же с результатами в ваших задачах.
Таким образом, что бы понять какую претрейн LLM лучше использовать именно в вашей задаче - считайте онлайн метрики именно на ней:
* если делаете rag-техподдержку - смотрте число удачных ответов и перехода на оператора
* code copilot - на число комплишнов
* генерация промо материалов - на качество полученной рекламы
и так далее
P.S. Разумеется арена это хороший способ отделить "в целом" хорошие модели от "в целом" плохих", но это не значит что нужно надрачиваться на ело рейтинга в ней )
❤5👍3