NEW BOT Телеграм, страница

Градиент обреченный

Статья для тех, кто хочет попробовать себя в машинном обучении. Лаида-техножрица описала примерный путь с нуля, включая предварительные знания и бесплатные курсы.

Возможно, тоже опишу свой опыт перехода в ML из разработки. Кажется, что такой опыт выглядит логичным и может быть повторен сравнительно легко. Напишите, что думаете по этому поводу

Хабр

Вкатываемся в Machine Learning с нуля за ноль рублей: что, где, в какой последовательности изучить

Всем доброго времени суток. Я давно обещала выложить сюда подробный гайд на тему того, как можно изучать Machine Learning самостоятельно, не тратя деньги на платные курсы , и, наконец, выполняю свое...

🔥34👍9❤8❤‍🔥3

4.8K viewsSergei Averkiev, 09:23

Градиент обреченный

This media is not supported in your browser

VIEW IN TELEGRAM

🔺 SVD, SVD-XT

Вышла новая открытая модель по генерации видео от Stability AI. Пока можно генерировать по картиночному промпту, что я и попробовал.

SVD-XT обучена на базе SD v2.1 на генерацию 25 фреймов (а обычная SVD на 14), скрипты для запуска можно найти на GitHub'е.

HF | GitHub | Статья

❤8👍6😁4🤯1

3.17K viewsSergei Averkiev, 08:30

Градиент обреченный

Сейчас идёт конференция AIJ. Интересна она тем, что многие коллеги приурочивают к ней релизы своих наработок, над которыми работали в течение года. Сегодня и завтра расскажу вкратце про наиболее понравившиеся.

🔺Kandinsky 3

Да, ребята доучили третью версию модели для генерации изображений. Помимо архитектуры заморочились с данными, чтобы лучше рисовались мелкие детали и сеть улавливала больше культурных нюансов из промта, типа Чебурашки и балалаек.

Промпт: Чебурашка ломает небоскребы как Годзилла, photo, artstation.

👉 Хабр | tg-бот

🔥22👍8❤4🎉4🥴2😡2🍾1

3.9K viewsSergei Averkiev, edited 10:49

Градиент обреченный

🔺 GigaChat 29B

Следующий большой анонс связан с нашей новой моделью размером 29 миллиардов параметров.

🔥 Из крутого то, что на SBS она показала паритет с ChatGPT 3.5-turbo, чего мы очень долго добивались. Двигались мы от результата 33:67 у первой модели к 43:57 у сегодняшнего прода и вот постепенно дошли до равенства.

Вчера на AIJ раскрыли и некоторые технические подробности. Как готовим данные и обрабатываем сырой Common Crawl, как ускорили обучение в несколько раз, как долго учим модели и т.д.

🔸 На MMLU модель выбила 63,2% процента правильных ответов.

Коллеги сейчас готовят модель к инференсу, так что скоро можно будет пробовать. API для разработчиков у нас тоже есть и пока что действует план на миллион бесплатных токенов.

👉 Видео | API

🔥66🎉10👍5⚡4🥴4❤‍🔥2❤1💯1🎅1👾1

7.46K viewsSergei Averkiev, 07:38

Градиент обреченный

🔺 MERA

Ещё один большой и полезный релиз. Коллеги вложили очень много сил в новый фреймворк для оценки языковых моделей, который назвали MERA.

🔸 Сейчас есть 21 задача с текстом, постепенно будут добавляться таски в других модальностях. Есть задания на логику, математику, знания о мире, этику, память и другие.

🔸 Проект коллективный, ведётся совместно с Альянсом в сфере ИИ.

🔸 Сделали открытый лидерборд, на котором можно будет наблюдать текущий уровень развития русскоязычных моделей.

Написали про это небольшую статью для интересующихся деталями разработки. Ждём ваших сабмитов!

👉 Хабр | GitHub | Сайт проекта

🔥35👍10⚡4✍3🎉2

7.08K viewsSergei Averkiev, edited 08:07

Градиент обреченный

🔺 Intro to LLMs

Наш любимый Андрей Карпати выложил новое видео с введением в большие языковые модели. Посмотрел, могу рекомендовать всем, кто интересуется темой, объясняет очень доступно.

• Что такое LLM и как их обучают, pretrain, alignment.
• Сколько стоит обучение с нуля (много).
• Сравнение с двумя системами мышления у человека.
• LLM — не чат-бот, а скорее операционная система.
• Есть десятки способов атак на языковые модели.

👉 Видео

🔥39❤10👍7✍2

4.67K viewsSergei Averkiev, 11:42

Градиент обреченный

Forwarded from Lingtrain

Старый мем про учебник русского для японцев 1998 года (新ロシア語教程).

Возможно, что писали с применением нейросетей. Может, кто видел целую книжку или похожие?

😁25❤6🙈3💯2👍1🤓1

3.7K viewsSergei Averkiev, 08:40

Градиент обреченный

#education

🔺 GPT Week

Коллеги из Яндекса запустили недельный курс лекций с семинарами по обучению и оптимизации больших языковых моделей.

Кто хотел вкатываться в ML, вот вам ещё один шанс начать. Идёт курс в течение этой недели, две лекции уже прошло:

1️⃣ Введение в большие языковые модели (видео).

2️⃣ Про претрейн LLM (видео 1, видео 2).

Ещё три на подходе, будут по ссылкам.

3️⃣ Подготовка данных и оценка LLM (видео).

👉 Коля Зинов тоже недавно рассказал на AIJ про выравнивание моделей на этапе RLHF (видео).

4️⃣ Alignment моделей (видео).

5️⃣ Ускорение инференса LLM (видео).

Посмотреть полное расписание и настроить напоминалки можно в боте.

YouTube

Интенсив GPT Week. Лекция 1: "Введение в большие языковые модели"

Спикер: Миша Хрущёв, руководитель группы претрейна YandexGPT

🔥34❤6👍6👾2

5.2K viewsSergei Averkiev, 08:41

🔺 SDXL Turbo

Stability AI сделали дистиллированную версию своей модели по генерации картинок и выложили в открытый доступ.

Пишут, что картинка с хорошим качеством генерится сразу за 1 шаг (!). На большой модели требуется 30-50 шагов.

Теперь можно генерировать в реальном времени, попробуйте демо.

👉 HF | Релиз | Демо

🔥21⚡6👌1👾1

5.07K viewsSergei Averkiev, 09:22

Градиент обреченный

🔺 GigaChat-митап (4 декабря, 18:00)

Что-то я забегался и забыл рассказать про офлайн-митап, который мы проводим в понедельник. Расскажем про обучение LLM, также коллеги поделятся опытом работы с синтезом речи.

Информация из первых уст, все те ребята, с кем сидим на созвонах и раскаляем кластер экспериментами (Гриша Лелейтнер, Никита Сидоров и Эмиль Шакиров расскажут про претрейн и выравнивание GigaChat'а).

👉 Пока еще можно зарегистрироваться офлайн, но все смогут посмотреть трансляцию. Ссылка.

Приходите, пообщаемся!

🔥19👍3⚡2❤1

5.56K viewsSergei Averkiev, edited 18:34

Градиент обреченный

Находим себя на картинке

😁50🔥7🗿3❤2👍2👏1🆒1

4K viewsSergei Averkiev, 07:18

Градиент обреченный

Forwarded from Sergei Averkiev

«Абсолютное оружие» Шекли.

#dalle

🔥27❤5👍4💯2😡2

3.58K viewsSergei Averkiev, 18:36

Градиент обреченный

🔺 The Qwen (72B, audio, visual, agents)

Китайские товарищи оформили все свои публичные наработки в едином репозитории на GitHub'е, а также выложили еще пачку моделей в открытый доступ.

🔸 Qwen-Audio

Новая языковая модель (есть и -chat версия), принимает на вход речь и другие звуки, музыку и песни, текст. На выходе генерирует текст.

• Как водится, заявляют SOTA результаты по всем задачам — машинный перевод по аудио, классификация звука, определение эмоций и другие.

🔸 Qwen-Agent

Еще выложили фреймворк для дообучения Qwen на задачи вызова сторонних инструментов. Сам подход простой, но есть прикольные примеры и сама обвязка, которую можно использовать как идею для своего проекта на других моделях. Есть примеры по обсуждению с моделью веб-страниц или PDF документов, по визуализации данных и подсказкам к коду.

🔸 Qwen 72B

Ну и самое интересное. Выложили 72B модель, которая обучалась на 3T токенов. И, судя по выложенным бенчмаркам, обходит на некоторых тестах GPT-4. Среди таких тестов тесты на китайском языке, так что вполне возможно, что для своего языка коллеги приблизились к качеству GPT-4. И выложили это в открытый доступ 👍

❓ Кстати, узнал, что название Qwen является сокращением от Qian wen (千问), что-то типа «тысяча запросов».

👉 GitHub

🔥217👍4⚡2

3.99K viewsSergei Averkiev, edited 09:53

Градиент обреченный

Митап про LLM и синтез речи

https://www.youtube.com/live/0R8MSRi3Vyo

👍18🔥10❤2🤪1

3.49K viewsSergei Averkiev, edited 15:13

Градиент обреченный

⚡️ Gemini

Внезапный релиз аналога GPT-4 от Google.

🔸 Три разных версии — Ultra, Pro и Nano (Nano-1 (1.8B) и Nano-2 (3.25B)). Ultra бьет всех (т.е. GPT-4) на 30 бенчмарках из 32-х, и в чисто текстовых, и в картиночных, и в аудио.

• Коллеги подошли к замерам находчиво и сделали их по разным методологиям (см. отчет). MMLU померили в CoT@32, т.е. цепочки рассуждений, что показало результат аж в 90.04% против 87.27% у GPT-4.

🔸 Обучали токенизатор на большом куске датасета и, видимо, он большой, так как пишут, что он эффективно токенизирует отличную от латиницы письменность и это докидывает в качестве.

🔸 Модели мультиязычные, на тестах по машинному переводу WMT 23 опять же бьет GPT-4 (там перевод с и на английский). Замерили на нескольких малых африканских языках, также заявляют о лучших результатах для LLM.

🔸 Длина контекста — 32k токенов.

🔸 В аппендиксе отчета пишут, почему замеряли MMLU при помощи CoT@32 uncertainty-routed и как это делать, чтобы выиграть у GPT-4 (если делать неправильно, то GPT-4 побеждает :).

🔸 Pro версию Gemini можно будет пробовать через Bard (в пресс-релизе говорят, что уже есть, но пока нет). API is coming soon.

👉 Пост | Тех. репорт

🔥28⚡6🎉4😁3👀2❤1👍1🍾1🙈1🗿1

4.82K viewsSergei Averkiev, edited 15:50

Градиент обреченный

Forwarded from Lingtrain

🔺 Книжка-трансформер

Добавил в нашу книжку-трансформер с малыми языками еще две редакции «Маленького принца» — на чувашском и карачаево-балкарском языках.

📚 Итого их стало 12: балкарский, башкирский, дигорский, коми, марийский и горномарийский, татарский, чувашский, эрзянский, якутский, русский и французский.

Все языки выровнены друг с другом, поэтому можно выбирать любую комбинацию. Обратной стороной общего выравнивания является то, что с каждым новым языком в общем корпусе становится на несколько предложений меньше, так как переводчики иногда переводят несколько предложений как одно цельное.

Текстов уже много, поэтому скоро составлю список таких склеенных предложений, поиграем и разобъем их на более мелкие в соответствии с оригиналом.

👉 Книжка

🔥33👍9❤73⚡2👏1

3.77K viewsSergei Averkiev, 08:49

Градиент обреченный

#основы

🔺 Позиционные эмбеддинги

Хороший обзор позиционных эмбеддингов (способов добавления информации о положении токена в последовательности при обучении языковых моделей) от коллеги Мурата.

От простых, которые использовались в первых трансформерах, до популярных ныне rotary и их модификаций, которые используются во многих современных моделях.

👉 Статья

Хабр

О методах позиционного кодирования в Transformer

Традиционный дисклеймер Статья посвящёна проблеме выбора метода позиционного кодирования в нейросетевых моделях на основе архитектуры Transformer. От читателя требуется понимание общих принципов...

👍30🔥147✍2❤1

4.1K viewsSergei Averkiev, edited 14:17

Градиент обреченный

🔺 GigaChat Pro. Технические детали

Друзья, написали с коллегами небольшую статью про то как обучался GigaChat. Рассказали про оптимизации, про сбор данных и сравнились с другими моделями. Всем, кому интересно обучение LLM, приглашаю почитать.

https://habr.com/ru/companies/sberdevices/articles/780334/

Хабр

GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами

Upd 11.01.2024. Добавили сравнение с новой моделью YandexGPT2 (не lite версия). С момента запуска GigaChat прошло около полугода, и за это время у нас появилось более полутора миллионов пользователей....

🔥31⚡6❤4👍3👏33🤷‍♂1🎉1

7.19K viewsSergei Averkiev, edited 10:22

About

Blog

Apps

Platform