Статья для тех, кто хочет попробовать себя в машинном обучении. Лаида-техножрица описала примерный путь с нуля, включая предварительные знания и бесплатные курсы.
Возможно, тоже опишу свой опыт перехода в ML из разработки. Кажется, что такой опыт выглядит логичным и может быть повторен сравнительно легко. Напишите, что думаете по этому поводу
Возможно, тоже опишу свой опыт перехода в ML из разработки. Кажется, что такой опыт выглядит логичным и может быть повторен сравнительно легко. Напишите, что думаете по этому поводу
Хабр
Вкатываемся в Machine Learning с нуля за ноль рублей: что, где, в какой последовательности изучить
Всем доброго времени суток. Я давно обещала выложить сюда подробный гайд на тему того, как можно изучать Machine Learning самостоятельно, не тратя деньги на платные курсы , и, наконец, выполняю свое...
🔥34👍9❤8❤🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🔺 SVD, SVD-XT
Вышла новая открытая модель по генерации видео от Stability AI. Пока можно генерировать по картиночному промпту, что я и попробовал.
SVD-XT обучена на базе SD v2.1 на генерацию 25 фреймов (а обычная SVD на 14), скрипты для запуска можно найти на GitHub'е.
HF | GitHub | Статья
Вышла новая открытая модель по генерации видео от Stability AI. Пока можно генерировать по картиночному промпту, что я и попробовал.
SVD-XT обучена на базе SD v2.1 на генерацию 25 фреймов (а обычная SVD на 14), скрипты для запуска можно найти на GitHub'е.
HF | GitHub | Статья
❤8👍6😁4🤯1
Сейчас идёт конференция AIJ. Интересна она тем, что многие коллеги приурочивают к ней релизы своих наработок, над которыми работали в течение года. Сегодня и завтра расскажу вкратце про наиболее понравившиеся.
🔺Kandinsky 3
Да, ребята доучили третью версию модели для генерации изображений. Помимо архитектуры заморочились с данными, чтобы лучше рисовались мелкие детали и сеть улавливала больше культурных нюансов из промта, типа Чебурашки и балалаек.
Промпт: Чебурашка ломает небоскребы как Годзилла, photo, artstation.
👉 Хабр | tg-бот
🔺Kandinsky 3
Да, ребята доучили третью версию модели для генерации изображений. Помимо архитектуры заморочились с данными, чтобы лучше рисовались мелкие детали и сеть улавливала больше культурных нюансов из промта, типа Чебурашки и балалаек.
Промпт: Чебурашка ломает небоскребы как Годзилла, photo, artstation.
👉 Хабр | tg-бот
🔥22👍8❤4🎉4🥴2😡2🍾1
🔺 GigaChat 29B
Следующий большой анонс связан с нашей новой моделью размером 29 миллиардов параметров.
🔥 Из крутого то, что на SBS она показала паритет с ChatGPT 3.5-turbo, чего мы очень долго добивались. Двигались мы от результата 33:67 у первой модели к 43:57 у сегодняшнего прода и вот постепенно дошли до равенства.
Вчера на AIJ раскрыли и некоторые технические подробности. Как готовим данные и обрабатываем сырой Common Crawl, как ускорили обучение в несколько раз, как долго учим модели и т.д.
🔸 На MMLU модель выбила 63,2% процента правильных ответов.
Коллеги сейчас готовят модель к инференсу, так что скоро можно будет пробовать. API для разработчиков у нас тоже есть и пока что действует план на миллион бесплатных токенов.
👉 Видео | API
Следующий большой анонс связан с нашей новой моделью размером 29 миллиардов параметров.
🔥 Из крутого то, что на SBS она показала паритет с ChatGPT 3.5-turbo, чего мы очень долго добивались. Двигались мы от результата 33:67 у первой модели к 43:57 у сегодняшнего прода и вот постепенно дошли до равенства.
Вчера на AIJ раскрыли и некоторые технические подробности. Как готовим данные и обрабатываем сырой Common Crawl, как ускорили обучение в несколько раз, как долго учим модели и т.д.
🔸 На MMLU модель выбила 63,2% процента правильных ответов.
Коллеги сейчас готовят модель к инференсу, так что скоро можно будет пробовать. API для разработчиков у нас тоже есть и пока что действует план на миллион бесплатных токенов.
👉 Видео | API
🔥66🎉10👍5⚡4🥴4❤🔥2❤1💯1🎅1👾1
🔺 MERA
Ещё один большой и полезный релиз. Коллеги вложили очень много сил в новый фреймворк для оценки языковых моделей, который назвали MERA.
🔸 Сейчас есть 21 задача с текстом, постепенно будут добавляться таски в других модальностях. Есть задания на логику, математику, знания о мире, этику, память и другие.
🔸 Проект коллективный, ведётся совместно с Альянсом в сфере ИИ.
🔸 Сделали открытый лидерборд, на котором можно будет наблюдать текущий уровень развития русскоязычных моделей.
Написали про это небольшую статью для интересующихся деталями разработки. Ждём ваших сабмитов!
👉 Хабр | GitHub | Сайт проекта
Ещё один большой и полезный релиз. Коллеги вложили очень много сил в новый фреймворк для оценки языковых моделей, который назвали MERA.
🔸 Сейчас есть 21 задача с текстом, постепенно будут добавляться таски в других модальностях. Есть задания на логику, математику, знания о мире, этику, память и другие.
🔸 Проект коллективный, ведётся совместно с Альянсом в сфере ИИ.
🔸 Сделали открытый лидерборд, на котором можно будет наблюдать текущий уровень развития русскоязычных моделей.
Написали про это небольшую статью для интересующихся деталями разработки. Ждём ваших сабмитов!
👉 Хабр | GitHub | Сайт проекта
🔥35👍10⚡4✍3🎉2
🔺 Intro to LLMs
Наш любимый Андрей Карпати выложил новое видео с введением в большие языковые модели. Посмотрел, могу рекомендовать всем, кто интересуется темой, объясняет очень доступно.
• Что такое LLM и как их обучают, pretrain, alignment.
• Сколько стоит обучение с нуля (много).
• Сравнение с двумя системами мышления у человека.
• LLM — не чат-бот, а скорее операционная система.
• Есть десятки способов атак на языковые модели.
👉 Видео
Наш любимый Андрей Карпати выложил новое видео с введением в большие языковые модели. Посмотрел, могу рекомендовать всем, кто интересуется темой, объясняет очень доступно.
• Что такое LLM и как их обучают, pretrain, alignment.
• Сколько стоит обучение с нуля (много).
• Сравнение с двумя системами мышления у человека.
• LLM — не чат-бот, а скорее операционная система.
• Есть десятки способов атак на языковые модели.
👉 Видео
🔥39❤10👍7✍2
Forwarded from Lingtrain
Старый мем про учебник русского для японцев 1998 года (新ロシア語教程).
Возможно, что писали с применением нейросетей. Может, кто видел целую книжку или похожие?
😁25❤6🙈3💯2👍1🤓1
#education
🔺 GPT Week
Коллеги из Яндекса запустили недельный курс лекций с семинарами по обучению и оптимизации больших языковых моделей.
Кто хотел вкатываться в ML, вот вам ещё один шанс начать. Идёт курс в течение этой недели, две лекции уже прошло:
1️⃣ Введение в большие языковые модели (видео).
2️⃣ Про претрейн LLM (видео 1, видео 2).
Ещё три на подходе, будут по ссылкам.
3️⃣ Подготовка данных и оценка LLM (видео).
👉 Коля Зинов тоже недавно рассказал на AIJ про выравнивание моделей на этапе RLHF (видео).
4️⃣ Alignment моделей (видео).
5️⃣ Ускорение инференса LLM (видео).
Посмотреть полное расписание и настроить напоминалки можно в боте.
🔺 GPT Week
Коллеги из Яндекса запустили недельный курс лекций с семинарами по обучению и оптимизации больших языковых моделей.
Кто хотел вкатываться в ML, вот вам ещё один шанс начать. Идёт курс в течение этой недели, две лекции уже прошло:
1️⃣ Введение в большие языковые модели (видео).
2️⃣ Про претрейн LLM (видео 1, видео 2).
Ещё три на подходе, будут по ссылкам.
3️⃣ Подготовка данных и оценка LLM (видео).
👉 Коля Зинов тоже недавно рассказал на AIJ про выравнивание моделей на этапе RLHF (видео).
4️⃣ Alignment моделей (видео).
5️⃣ Ускорение инференса LLM (видео).
Посмотреть полное расписание и настроить напоминалки можно в боте.
YouTube
Интенсив GPT Week. Лекция 1: "Введение в большие языковые модели"
Спикер: Миша Хрущёв, руководитель группы претрейна YandexGPT
🔥34❤6👍6👾2
Media is too big
VIEW IN TELEGRAM
🔺 SDXL Turbo
Stability AI сделали дистиллированную версию своей модели по генерации картинок и выложили в открытый доступ.
Пишут, что картинка с хорошим качеством генерится сразу за 1 шаг (!). На большой модели требуется 30-50 шагов.
Теперь можно генерировать в реальном времени, попробуйте демо.
👉 HF | Релиз | Демо
Stability AI сделали дистиллированную версию своей модели по генерации картинок и выложили в открытый доступ.
Пишут, что картинка с хорошим качеством генерится сразу за 1 шаг (!). На большой модели требуется 30-50 шагов.
Теперь можно генерировать в реальном времени, попробуйте демо.
👉 HF | Релиз | Демо
🔥21⚡6👌1👾1
🔺 GigaChat-митап (4 декабря, 18:00)
Что-то я забегался и забыл рассказать про офлайн-митап, который мы проводим в понедельник. Расскажем про обучение LLM, также коллеги поделятся опытом работы с синтезом речи.
Информация из первых уст, все те ребята, с кем сидим на созвонах и раскаляем кластер экспериментами (Гриша Лелейтнер, Никита Сидоров и Эмиль Шакиров расскажут про претрейн и выравнивание GigaChat'а).
👉 Пока еще можно зарегистрироваться офлайн, но все смогут посмотреть трансляцию. Ссылка.
Приходите, пообщаемся!
Что-то я забегался и забыл рассказать про офлайн-митап, который мы проводим в понедельник. Расскажем про обучение LLM, также коллеги поделятся опытом работы с синтезом речи.
Информация из первых уст, все те ребята, с кем сидим на созвонах и раскаляем кластер экспериментами (Гриша Лелейтнер, Никита Сидоров и Эмиль Шакиров расскажут про претрейн и выравнивание GigaChat'а).
👉 Пока еще можно зарегистрироваться офлайн, но все смогут посмотреть трансляцию. Ссылка.
Приходите, пообщаемся!
🔥19👍3⚡2❤1
🔺 The Qwen (72B, audio, visual, agents)
Китайские товарищи оформили все свои публичные наработки в едином репозитории на GitHub'е, а также выложили еще пачку моделей в открытый доступ.
🔸 Qwen-Audio
Новая языковая модель (есть и -chat версия), принимает на вход речь и другие звуки, музыку и песни, текст. На выходе генерирует текст.
• Как водится, заявляют SOTA результаты по всем задачам — машинный перевод по аудио, классификация звука, определение эмоций и другие.
🔸 Qwen-Agent
Еще выложили фреймворк для дообучения Qwen на задачи вызова сторонних инструментов. Сам подход простой, но есть прикольные примеры и сама обвязка, которую можно использовать как идею для своего проекта на других моделях. Есть примеры по обсуждению с моделью веб-страниц или PDF документов, по визуализации данных и подсказкам к коду.
🔸 Qwen 72B
Ну и самое интересное. Выложили 72B модель, которая обучалась на 3T токенов. И, судя по выложенным бенчмаркам, обходит на некоторых тестах GPT-4. Среди таких тестов тесты на китайском языке, так что вполне возможно, что для своего языка коллеги приблизились к качеству GPT-4. И выложили это в открытый доступ 👍
❓ Кстати, узнал, что название Qwen является сокращением от Qian wen (千问), что-то типа «тысяча запросов».
👉 GitHub
Китайские товарищи оформили все свои публичные наработки в едином репозитории на GitHub'е, а также выложили еще пачку моделей в открытый доступ.
🔸 Qwen-Audio
Новая языковая модель (есть и -chat версия), принимает на вход речь и другие звуки, музыку и песни, текст. На выходе генерирует текст.
• Как водится, заявляют SOTA результаты по всем задачам — машинный перевод по аудио, классификация звука, определение эмоций и другие.
🔸 Qwen-Agent
Еще выложили фреймворк для дообучения Qwen на задачи вызова сторонних инструментов. Сам подход простой, но есть прикольные примеры и сама обвязка, которую можно использовать как идею для своего проекта на других моделях. Есть примеры по обсуждению с моделью веб-страниц или PDF документов, по визуализации данных и подсказкам к коду.
🔸 Qwen 72B
Ну и самое интересное. Выложили 72B модель, которая обучалась на 3T токенов. И, судя по выложенным бенчмаркам, обходит на некоторых тестах GPT-4. Среди таких тестов тесты на китайском языке, так что вполне возможно, что для своего языка коллеги приблизились к качеству GPT-4. И выложили это в открытый доступ 👍
❓ Кстати, узнал, что название Qwen является сокращением от Qian wen (千问), что-то типа «тысяча запросов».
👉 GitHub
🔥21 7👍4⚡2
⚡️ Gemini
Внезапный релиз аналога GPT-4 от Google.
🔸 Три разных версии — Ultra, Pro и Nano (Nano-1 (1.8B) и Nano-2 (3.25B)). Ultra бьет всех (т.е. GPT-4) на 30 бенчмарках из 32-х, и в чисто текстовых, и в картиночных, и в аудио.
• Коллеги подошли к замерам находчиво и сделали их по разным методологиям (см. отчет). MMLU померили в CoT@32, т.е. цепочки рассуждений, что показало результат аж в 90.04% против 87.27% у GPT-4.
🔸 Обучали токенизатор на большом куске датасета и, видимо, он большой, так как пишут, что он эффективно токенизирует отличную от латиницы письменность и это докидывает в качестве.
🔸 Модели мультиязычные, на тестах по машинному переводу WMT 23 опять же бьет GPT-4 (там перевод с и на английский). Замерили на нескольких малых африканских языках, также заявляют о лучших результатах для LLM.
🔸 Длина контекста — 32k токенов.
🔸 В аппендиксе отчета пишут, почему замеряли MMLU при помощи CoT@32 uncertainty-routed и как это делать, чтобы выиграть у GPT-4 (если делать неправильно, то GPT-4 побеждает : ).
🔸 Pro версию Gemini можно будет пробовать через Bard (в пресс-релизе говорят, что уже есть, но пока нет). API is coming soon.
👉 Пост | Тех. репорт
Внезапный релиз аналога GPT-4 от Google.
🔸 Три разных версии — Ultra, Pro и Nano (Nano-1 (1.8B) и Nano-2 (3.25B)). Ultra бьет всех (т.е. GPT-4) на 30 бенчмарках из 32-х, и в чисто текстовых, и в картиночных, и в аудио.
• Коллеги подошли к замерам находчиво и сделали их по разным методологиям (см. отчет). MMLU померили в CoT@32, т.е. цепочки рассуждений, что показало результат аж в 90.04% против 87.27% у GPT-4.
🔸 Обучали токенизатор на большом куске датасета и, видимо, он большой, так как пишут, что он эффективно токенизирует отличную от латиницы письменность и это докидывает в качестве.
🔸 Модели мультиязычные, на тестах по машинному переводу WMT 23 опять же бьет GPT-4 (там перевод с и на английский). Замерили на нескольких малых африканских языках, также заявляют о лучших результатах для LLM.
🔸 Длина контекста — 32k токенов.
🔸 В аппендиксе отчета пишут, почему замеряли MMLU при помощи CoT@32 uncertainty-routed и как это делать, чтобы выиграть у GPT-4 (
🔸 Pro версию Gemini можно будет пробовать через Bard (в пресс-релизе говорят, что уже есть, но пока нет). API is coming soon.
👉 Пост | Тех. репорт
🔥28⚡6🎉4😁3👀2❤1👍1🍾1🙈1🗿1
Forwarded from Lingtrain
🔺 Книжка-трансформер
Добавил в нашу книжку-трансформер с малыми языками еще две редакции «Маленького принца» — на чувашском и карачаево-балкарском языках.
📚 Итого их стало 12: балкарский, башкирский, дигорский, коми, марийский и горномарийский, татарский, чувашский, эрзянский, якутский, русский и французский.
Все языки выровнены друг с другом, поэтому можно выбирать любую комбинацию. Обратной стороной общего выравнивания является то, что с каждым новым языком в общем корпусе становится на несколько предложений меньше, так как переводчики иногда переводят несколько предложений как одно цельное.
Текстов уже много, поэтому скоро составлю список таких склеенных предложений, поиграем и разобъем их на более мелкие в соответствии с оригиналом.
👉 Книжка
Добавил в нашу книжку-трансформер с малыми языками еще две редакции «Маленького принца» — на чувашском и карачаево-балкарском языках.
📚 Итого их стало 12: балкарский, башкирский, дигорский, коми, марийский и горномарийский, татарский, чувашский, эрзянский, якутский, русский и французский.
Все языки выровнены друг с другом, поэтому можно выбирать любую комбинацию. Обратной стороной общего выравнивания является то, что с каждым новым языком в общем корпусе становится на несколько предложений меньше, так как переводчики иногда переводят несколько предложений как одно цельное.
Текстов уже много, поэтому скоро составлю список таких склеенных предложений, поиграем и разобъем их на более мелкие в соответствии с оригиналом.
👉 Книжка
🔥33👍9❤7 3⚡2👏1
#основы
🔺 Позиционные эмбеддинги
Хороший обзор позиционных эмбеддингов (способов добавления информации о положении токена в последовательности при обучении языковых моделей) от коллеги Мурата.
От простых, которые использовались в первых трансформерах, до популярных ныне rotary и их модификаций, которые используются во многих современных моделях.
👉 Статья
🔺 Позиционные эмбеддинги
Хороший обзор позиционных эмбеддингов (способов добавления информации о положении токена в последовательности при обучении языковых моделей) от коллеги Мурата.
От простых, которые использовались в первых трансформерах, до популярных ныне rotary и их модификаций, которые используются во многих современных моделях.
👉 Статья
Хабр
О методах позиционного кодирования в Transformer
Традиционный дисклеймер Статья посвящёна проблеме выбора метода позиционного кодирования в нейросетевых моделях на основе архитектуры Transformer. От читателя требуется понимание общих принципов...
👍30🔥14 7✍2❤1
🔺 GigaChat Pro. Технические детали
Друзья, написали с коллегами небольшую статью про то как обучался GigaChat. Рассказали про оптимизации, про сбор данных и сравнились с другими моделями. Всем, кому интересно обучение LLM, приглашаю почитать.
https://habr.com/ru/companies/sberdevices/articles/780334/
Друзья, написали с коллегами небольшую статью про то как обучался GigaChat. Рассказали про оптимизации, про сбор данных и сравнились с другими моделями. Всем, кому интересно обучение LLM, приглашаю почитать.
https://habr.com/ru/companies/sberdevices/articles/780334/
Хабр
GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
Upd 11.01.2024. Добавили сравнение с новой моделью YandexGPT2 (не lite версия). С момента запуска GigaChat прошло около полугода, и за это время у нас появилось более полутора миллионов пользователей....
🔥31⚡6❤4👍3👏3 3🤷♂1🎉1