Градиент обреченный – Telegram
Статья для тех, кто хочет попробовать себя в машинном обучении. Лаида-техножрица описала примерный путь с нуля, включая предварительные знания и бесплатные курсы.

Возможно, тоже опишу свой опыт перехода в ML из разработки. Кажется, что такой опыт выглядит логичным и может быть повторен сравнительно легко. Напишите, что думаете по этому поводу
🔥34👍98❤‍🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🔺 SVD, SVD-XT

Вышла новая открытая модель по генерации видео от Stability AI. Пока можно генерировать по картиночному промпту, что я и попробовал.

SVD-XT обучена на базе SD v2.1 на генерацию 25 фреймов (а обычная SVD на 14), скрипты для запуска можно найти на GitHub'е.

HF | GitHub | Статья
8👍6😁4🤯1
Сейчас идёт конференция AIJ. Интересна она тем, что многие коллеги приурочивают к ней релизы своих наработок, над которыми работали в течение года. Сегодня и завтра расскажу вкратце про наиболее понравившиеся.

🔺Kandinsky 3

Да, ребята доучили третью версию модели для генерации изображений. Помимо архитектуры заморочились с данными, чтобы лучше рисовались мелкие детали и сеть улавливала больше культурных нюансов из промта, типа Чебурашки и балалаек.

Промпт: Чебурашка ломает небоскребы как Годзилла, photo, artstation.

👉 Хабр | tg-бот
🔥22👍84🎉4🥴2😡2🍾1
🔺 GigaChat 29B

Следующий большой анонс связан с нашей новой моделью размером 29 миллиардов параметров.

🔥 Из крутого то, что на SBS она показала паритет с ChatGPT 3.5-turbo, чего мы очень долго добивались. Двигались мы от результата 33:67 у первой модели к 43:57 у сегодняшнего прода и вот постепенно дошли до равенства.

Вчера на AIJ раскрыли и некоторые технические подробности. Как готовим данные и обрабатываем сырой Common Crawl, как ускорили обучение в несколько раз, как долго учим модели и т.д.

🔸 На MMLU модель выбила 63,2% процента правильных ответов.

Коллеги сейчас готовят модель к инференсу, так что скоро можно будет пробовать. API для разработчиков у нас тоже есть и пока что действует план на миллион бесплатных токенов.

👉 Видео | API
🔥66🎉10👍54🥴4❤‍🔥21💯1🎅1👾1
🔺 MERA

Ещё один большой и полезный релиз. Коллеги вложили очень много сил в новый фреймворк для оценки языковых моделей, который назвали MERA.

🔸 Сейчас есть 21 задача с текстом, постепенно будут добавляться таски в других модальностях. Есть задания на логику, математику, знания о мире, этику, память и другие.

🔸 Проект коллективный, ведётся совместно с Альянсом в сфере ИИ.

🔸 Сделали открытый лидерборд, на котором можно будет наблюдать текущий уровень развития русскоязычных моделей.

Написали про это небольшую статью для интересующихся деталями разработки. Ждём ваших сабмитов!

👉 Хабр | GitHub | Сайт проекта
🔥35👍1043🎉2
🔺 Intro to LLMs

Наш любимый Андрей Карпати выложил новое видео с введением в большие языковые модели. Посмотрел, могу рекомендовать всем, кто интересуется темой, объясняет очень доступно.

• Что такое LLM и как их обучают, pretrain, alignment.
• Сколько стоит обучение с нуля (много).
• Сравнение с двумя системами мышления у человека.
• LLM — не чат-бот, а скорее операционная система.
• Есть десятки способов атак на языковые модели.

👉 Видео
🔥3910👍72
Forwarded from Lingtrain
Старый мем про учебник русского для японцев 1998 года (新ロシア語教程).

Возможно, что писали с применением нейросетей. Может, кто видел целую книжку или похожие?
😁256🙈3💯2👍1🤓1
#education

🔺 GPT Week

Коллеги из Яндекса запустили недельный курс лекций с семинарами по обучению и оптимизации больших языковых моделей.

Кто хотел вкатываться в ML, вот вам ещё один шанс начать. Идёт курс в течение этой недели, две лекции уже прошло:

1️⃣ Введение в большие языковые модели (видео).

2️⃣ Про претрейн LLM (видео 1, видео 2).

Ещё три на подходе, будут по ссылкам.

3️⃣ Подготовка данных и оценка LLM (видео).

👉 Коля Зинов тоже недавно рассказал на AIJ про выравнивание моделей на этапе RLHF (видео).

4️⃣ Alignment моделей (видео).

5️⃣ Ускорение инференса LLM (видео).

Посмотреть полное расписание и настроить напоминалки можно в боте.
🔥346👍6👾2
Media is too big
VIEW IN TELEGRAM
🔺 SDXL Turbo

Stability AI сделали дистиллированную версию своей модели по генерации картинок и выложили в открытый доступ.

Пишут, что картинка с хорошим качеством генерится сразу за 1 шаг (!). На большой модели требуется 30-50 шагов.

Теперь можно генерировать в реальном времени, попробуйте демо.

👉 HF | Релиз | Демо
🔥216👌1👾1
🔺 GigaChat-митап (4 декабря, 18:00)

Что-то я забегался и забыл рассказать про офлайн-митап, который мы проводим в понедельник. Расскажем про обучение LLM, также коллеги поделятся опытом работы с синтезом речи.

Информация из первых уст, все те ребята, с кем сидим на созвонах и раскаляем кластер экспериментами (Гриша Лелейтнер, Никита Сидоров и Эмиль Шакиров расскажут про претрейн и выравнивание GigaChat'а).

👉 Пока еще можно зарегистрироваться офлайн, но все смогут посмотреть трансляцию. Ссылка.

Приходите, пообщаемся!
🔥19👍321
Находим себя на картинке
😁50🔥7🗿32👍2👏1🆒1
Forwarded from Sergei Averkiev
«Абсолютное оружие» Шекли.

#dalle
🔥275👍4💯2😡2
🔺 The Qwen (72B, audio, visual, agents)

Китайские товарищи оформили все свои публичные наработки в едином репозитории на GitHub'е, а также выложили еще пачку моделей в открытый доступ.

🔸 Qwen-Audio

Новая языковая модель (есть и -chat версия), принимает на вход речь и другие звуки, музыку и песни, текст. На выходе генерирует текст.

• Как водится, заявляют SOTA результаты по всем задачам — машинный перевод по аудио, классификация звука, определение эмоций и другие.

🔸 Qwen-Agent

Еще выложили фреймворк для дообучения Qwen на задачи вызова сторонних инструментов. Сам подход простой, но есть прикольные примеры и сама обвязка, которую можно использовать как идею для своего проекта на других моделях. Есть примеры по обсуждению с моделью веб-страниц или PDF документов, по визуализации данных и подсказкам к коду.

🔸 Qwen 72B

Ну и самое интересное. Выложили 72B модель, которая обучалась на 3T токенов. И, судя по выложенным бенчмаркам, обходит на некоторых тестах GPT-4. Среди таких тестов тесты на китайском языке, так что вполне возможно, что для своего языка коллеги приблизились к качеству GPT-4. И выложили это в открытый доступ 👍

Кстати, узнал, что название Qwen является сокращением от Qian wen (千问), что-то типа «тысяча запросов».

👉 GitHub
🔥217👍42
Митап про LLM и синтез речи

https://www.youtube.com/live/0R8MSRi3Vyo
👍18🔥102🤪1
⚡️ Gemini

Внезапный релиз аналога GPT-4 от Google.

🔸 Три разных версии — Ultra, Pro и Nano (Nano-1 (1.8B) и Nano-2 (3.25B)). Ultra бьет всех (т.е. GPT-4) на 30 бенчмарках из 32-х, и в чисто текстовых, и в картиночных, и в аудио.

• Коллеги подошли к замерам находчиво и сделали их по разным методологиям (см. отчет). MMLU померили в CoT@32, т.е. цепочки рассуждений, что показало результат аж в 90.04% против 87.27% у GPT-4.

🔸 Обучали токенизатор на большом куске датасета и, видимо, он большой, так как пишут, что он эффективно токенизирует отличную от латиницы письменность и это докидывает в качестве.

🔸 Модели мультиязычные, на тестах по машинному переводу WMT 23 опять же бьет GPT-4 (там перевод с и на английский). Замерили на нескольких малых африканских языках, также заявляют о лучших результатах для LLM.

🔸 Длина контекста — 32k токенов.

🔸 В аппендиксе отчета пишут, почему замеряли MMLU при помощи CoT@32 uncertainty-routed и как это делать, чтобы выиграть у GPT-4 (если делать неправильно, то GPT-4 побеждает :).

🔸 Pro версию Gemini можно будет пробовать через Bard (в пресс-релизе говорят, что уже есть, но пока нет). API is coming soon.

👉 Пост | Тех. репорт
🔥286🎉4😁3👀21👍1🍾1🙈1🗿1
Forwarded from Lingtrain
🔺 Книжка-трансформер

Добавил в нашу книжку-трансформер с малыми языками еще две редакции «Маленького принца» — на чувашском и карачаево-балкарском языках.

📚 Итого их стало 12: балкарский, башкирский, дигорский, коми, марийский и горномарийский, татарский, чувашский, эрзянский, якутский, русский и французский.

Все языки выровнены друг с другом, поэтому можно выбирать любую комбинацию. Обратной стороной общего выравнивания является то, что с каждым новым языком в общем корпусе становится на несколько предложений меньше, так как переводчики иногда переводят несколько предложений как одно цельное.

Текстов уже много, поэтому скоро составлю список таких склеенных предложений, поиграем и разобъем их на более мелкие в соответствии с оригиналом.

👉 Книжка
🔥33👍9732👏1
#основы

🔺 Позиционные эмбеддинги

Хороший обзор позиционных эмбеддингов (способов добавления информации о положении токена в последовательности при обучении языковых моделей) от коллеги Мурата.

От простых, которые использовались в первых трансформерах, до популярных ныне rotary и их модификаций, которые используются во многих современных моделях.

👉 Статья
👍30🔥14721
🔺 GigaChat Pro. Технические детали

Друзья, написали с коллегами небольшую статью про то как обучался GigaChat. Рассказали про оптимизации, про сбор данных и сравнились с другими моделями. Всем, кому интересно обучение LLM, приглашаю почитать.

https://habr.com/ru/companies/sberdevices/articles/780334/
🔥3164👍3👏33🤷‍♂1🎉1