NEW BOT Телеграм, страница

С первым днём весны 🌸

Сегодня стартовал курс My First Data Project: от идеи к продукту. Те, кто успешно завершат курс и защитят проект перед жюри в финале, имеют право поступить в онлайн-магистратуру ИТМО без экзаменов 🔥

Присоединяйтесь к этому и другим курсам весеннего сезона ODS Course Season 22-23 spring и следите за обновлениями, скоро мы откроем еще больше полезных и бесплатных курсов для вас 🤗

814 viewsНиколай, 16:37

Machine Learning Research

Forwarded from Ирина Кикина

💥ОТКРЫТА РЕГИСТРАЦИЯ НА КУРС💥

20 марта 2023г перезапуск БЕСПЛАТНОГО курса MLOps и production подход к ML исследованиям при поддержке Open Data Science .

🔥РЕГИСТРАЦИЯ🔥
уже идет полным ходом, переходите по ссылке и жмите кнопку «Участвовать».
Следите за обновлениями в нашем Telegram чате для участников курса, там же вы можете задать любые вопросы связанные с курсом.

Кому будет полезен курс?
✨ML-инженеры
✨Аналитики и инженеры данных
✨Менеджеры AI-продуктов и руководители (тимлиды) ML-команд

Необходимые навыки:
🤓Python
🤓Основы машинного обучения

Что Вас ждет?
На курсе вас ждут 12 онлайн занятий, продолжительностью 1 - 2 часа. (В основном по понедельникам 18:30). Все занятия будут доступны в записи. Для дополнительной мотивации будет вестись публичный рейтинг, лучшие участники получат уникальный мерч от ODS.

🔥Участников ждут практические домашние задания, тесты, индивидуальный финальный проект, а так же дополнительные активности и митапы, которые будут предлагаться участникам по ходу курса.

💪🏼Вперед за прокачиванием Ваших нard skills! Ждем всех желающих!

❓По любым вопросам, связанных с курсом @Irinka_Bekker

Open Data Science (ODS.ai)
MLOps и production подход к ML исследованиям 2.0 — Open Data Science

1.04K viewsНиколай, 07:15

Machine Learning Research

Forwarded from Курсы Data Science

https://stepik.org/course/68260/info

Stepik: online education

Алгоритмы Машинного обучения с нуля

В данном курсе Вы реализуете с нуля все основные алгоритмы классического машинного обучения на чистом Python, Pandas и NumPy.

743 viewsНиколай, 17:46

Machine Learning Research

Forwarded from New Yorko Times (Yury Kashnitsky)

Пет-проекты и менторство
#career #ml #petproject

Идей всяких петов у меня обычно полно (жаль, что идей для годных стартапов не так много), буду мини-батчами таких идей делиться. Тем более что где-то сам готов поучаствовать, довести проект до публикации хотя бы на архиве. По перечисленным темам готов что-то обсудить или связать с шарящими людьми.

Тут стоит упомянуть менторскую инициативу, запущенную в Singularis.ai Айрой Монгуш @aira_mo & Co. Вот описание программы, там же список менторов. Список годный, к некоторым из этих людей я бы сам сходил как менти. Хватайте! Можно будет и ко мне постучаться, но я скорее всего забит, фрухпут выделил – 1 менти за раз.

Вот какие идеи сейчас на уме (помимо умного поиска по мемам, про который уже писал), в порядке от более простых и хорошо формулированных к менее тривиальным и прописанным:

1) Валидация sciBERT-лонгформера на нескольких датасетах, техрепорт. Я как-то опубликовал расширенную версию SciBERT, поддерживающие тексты до 4096 токенов (делаются такие штуки по тьюториалу от HF, там суть в том, что позиционные эмбеддинги расширяются с 512 до 4096 простым копированием). Но я толком не валидировал выхлоп с этого дела. Можно взять несколько датасетов с длинными научными текстами (будь до классификация статей или QA для страниц Википедии, полно бенчмарков в статье Меты про Galactica) и сравниться с обычным SciBERT и лонгформером на базе роберты (не дообученной на научный контент). Из этого можно сделать техрепорт, опубликовать на архиве;

2) Удивительно, но для того же научного домена я не нашел легковесной модельки а-ля DistilBERT. Можно взять SciBERT, дистилировать его в модельку размера DistilBERT, опубликовать на HF и прославиться. Также опубликовать техрепорт. В целом можно следовать статье Давида Дале @izolenta_mebiusa про малького шустрого Берта на русском. Там Давид аж о 8-ми лоссах дистиллирует. То есть можно взять не только одного SciBERT как teacher и не только logloss, но также Galactica и более хитрые лоссы а-ля выравнивание CLS-эмбеддингов моделей учителя и ученика;

3) Ассистент на вопросах-ответах Stackoverflow. Там уже полно ранжированных ответов, с кодом. Возможно, никакой RLHF не нужен с таким датасетом. А самому StackOverflow, на мой взгляд, нет смысла обучать такого бота – им нужны кожаные мешки на сайте. Пока я это придумывал, 🤗 уже собрал датасет (узнал из поста Игоря Котенкова), ну идея в воздухе висела в принципе. Дальше можно повалидироваться с chatGPT, Codex и прочими ассистентами, с лету лучше вряд ли получится, но опыт интересный. Умеренные LLM в целом уже научились файнтюнить за разумное время даже на одной GPU, вот пример от инженера HF;

4) Распознавалка ребенка по мере его роста. Самый размыто формулированный пет – про CV и для тех, кто ждет ребенка, т.е. самый нишевый вариант из перечисленных. Суть: дите растет, модель ошибается, нужен continual learning. Тут сплошной дата дрифт и сходу вообще не понятно как подступиться. По крайней мере, алгоритмы Apple ошибаются, мне в галерее айфона показывает несколько инстансов моей дочери.

По поводу первых двух – можно мне писать, я готов подключиться к написанию репорта. Правда, я учусь делегировать (больно) и воздержусь от ковыряния в коде своими руками, буду чистый “Data Scientist ртом”. Со статьей при этом готов активно помогать. Лучше в коментах писать, кто что готов взять, можно скоординироваться и между собой.

824 viewsНиколай, 13:48

Machine Learning Research

Forwarded from Data Science Private Sharing

#курс

После долгих лет (альфа-)тестирования, курс "Алгоритмы Машинного обучения с нуля" наконец-то выходит в свет (бета-тестирование :)

Курс бесплатный :) На Степике: https://stepik.org/course/68260

Курс посвящен реализации всех классических алгоритмов машинного обучения с нуля. На чистом питоне + нампай и пандас.
Упор в курсе будет делаться именно на алгоритмы. Хотя и немного математики тоже присутствует.

Пока реализовано 6 уроков:
- Два вида линейных моделей
- Деревья решений (классификация и регрессия)
- Случайный лес (классификация и регрессия)

Остальные будут открываться по мере готовности.

З.Ы. Для успешного прохождения курса вам понадобятся знания основ МЛ, а также уверенное владение питоном.

👍4

791 viewsНиколай, 08:20

Machine Learning Research

Forwarded from эйай ньюз

1:20

Media is too big

VIEW IN TELEGRAM

MMS: Scaling Speech Technology to 1000+ languages

Коллеги из Meta просто на кэжуаое выпустили модель, которая переводит 1100 языков из текс а в аудио и из аудио в текст.

Это всего лишь новый майлстоун в спич-рекогнишене 😀.

Что по сути:
- wave2vec 2.0: многоязычная модель распознавания речи с 1илрд параметроа , обученная на 1107 языках
— ошибка на 50% по сравнению с Whisper.
— это единая модель для преобразования текста в речь (TTS), поддерживающая так много языков: аж 1107!.
— включает в себя Классификатор языков, идентифицируюший 4017 языков.

Кроме всего прочего, для обучения собрали и использовали аудио, где люди читают Библию на разных языках. Потому, кажется нет другой книги, которая была бы переведена на столько разных языков.

Самое клёвое, что веса и код уже не гитхабе!

Блогпост

@ai_newz

🔥2

973 viewsНиколай, 06:57

Machine Learning Research

Forwarded from Ilya Gusev

Всем привет! Несколько апдейтов по Сайге:

0. Демо на HF самой маленькой модели: тут
1. Доклад на Датафесте, слайды тут, видео тут
2. Колаб для дообучения Лламы на русских инструкциях и последующей квантизации: тут
3. Демо с retrieval QA на основе 13B модели: тут
4. Первая итерации WizardLM-like улучшения RuTurboAlpaca: тут

Все те же ссылки собраны тут

🔥2

1.26K viewsНиколай, 16:44

Machine Learning Research

Forwarded from эйай ньюз

Аннотированный код

Наткнулся на классный сайт, где собран код некоторых популярных моделей (или их частей), например Stable Diffusion, GPT, Switch Tranformer, MPL-Mixer и др. Весь цимес в том, что каждая строка кода задокументирована, и показаны соответствующие математические формулы.

Будет полезно тем, кто любит начининать изучать модели сразу с кода. Как раз занятие на воскресенье.

На скринах - код DDIM и Adam.

https://nn.labml.ai/

@ai_newz

🔥11

1.46K viewsНиколай, 05:01

Machine Learning Research

Forwarded from Dealer.AI

Всем привет, мы строили строили и наконец построили!

Первая супер-библиотека по spelling corruption SAGE.

Работа была не простой, вместе с ребятами из команды AGI NLP- мои герои снова:
@alenusch, @qwertysobaka, @go_bobert,
мы сделали оч крутой инструмент. Он позволяет атаковать тексты при помощи добавления опечаток, перестановок и пр., а также делать обратное - фиксить их.

UPD. Забыл совсем!? Мы выбили SOTA по spellcheking!!!

Интересно?
Го читать на хабр!

https://habr.com/ru/companies/sberdevices/articles/763932/

Наша библиотека SAGE:
https://github.com/ai-forever/sage

AI-service в Клауде:
https://cloud.ru/ru/datahub/generative-spell-checking

Dealer.AI

Друзья, сегодня проходит второй день Конференции Диалог2023.

Мы рады сообщить, что наша работа по атакам на текст вошла в Сборник статей, тема: Augmentation methods for spelling corruptions.

Авторы мои коллеги, товарищи и подписчики:@alenusch, @qwertysobaka…

👍2

1.02K viewsНиколай, 16:55

Machine Learning Research

Forwarded from LightAutoML framework (Olga Plosskaya)

🎓Всем привет, мы перезапустили наш курс по LightAutoML в формате коротких лекций и how-to видео (от 2 до 15 мин)

Теперь можно быстро вспомнить, что есть в LAMA! Спасибо коллегам из ВШЭ за помощь в упаковке наших 3х часовых видео в удобный формат.

Вас ждет 5 модулей.
В последнем собраны ответы на самые частые вопросы, а так же новая функциональность.

Видео будут пополняться, за апдейтами релизов лучше по-прежнему следить в репозитории и не забывайте ставить ⭐️ и добавлять issues на новую функциональность!
Ну и feel free, если у вас есть доработки, кидайте в нас пул реквесты!

developers.sber.ru

Вводный курс LightAutoML – База знаний

Работа с фреймворком разработки ML-моделей LightAutoML. Как функционирует библиотека фреймворка, чем она полезна и как можно научиться с ней работать.

1.07K viewsНиколай, 19:19

Machine Learning Research

TinyML and Efficient Deep Learning Computing
Свежий курс по оптимизации сеток от MIT
https://hanlab.mit.edu/courses/2023-fall-65940

hanlab.mit.edu

MIT 6.5940 Fall 2023 TinyML and Efficient Deep Learning Computing

This course focuses on efficient machine learning and systems. This is a crucial area as deep neural networks demand extraordinary levels of computation, hindering its deployment on everyday devices and burdening the cloud infrastructure. This course introduces…

👍1

967 viewsНиколай, 18:19

About

Blog

Apps

Platform