Как и зачем мы начали искать бизнес-инсайты в отзывах клиентов с помощью машинного обучения
https://habr.com/ru/company/alfa/blog/684774/
https://habr.com/ru/company/alfa/blog/684774/
Хабр
Как и зачем мы начали искать бизнес-инсайты в отзывах клиентов с помощью машинного обучения
Естественный источник обратной связи для любой компании — отзывы их клиентов. И Альфа-Банк не исключение: за год мы собираем больше 100 млн оценок по различным каналам и продуктам. Но среди этих...
Практический Metric learning
https://habr.com/ru/company/ods/blog/695380/
https://habr.com/ru/company/ods/blog/695380/
Хабр
Практический Metric learning
Этот пост приурочен к недавнему релизу open-source проекта OpenMetricLearning (OML), одна из целей которого — максимально снизить порог вхождения в тему metric learning. Мы немного пройдёмся по...
👍4
Machine learning in Python with scikit-learn
https://www.fun-mooc.fr/en/courses/machine-learning-python-scikit-learn/
https://www.fun-mooc.fr/en/courses/machine-learning-python-scikit-learn/
FUN MOOC
Machine learning in Python with scikit-learn
Build predictive models with scikit-learn and gain a practical understanding of the strengths and limitations of machine learning!
Forwarded from ODS Events
С первым днём весны 🌸
Сегодня стартовал курс My First Data Project: от идеи к продукту. Те, кто успешно завершат курс и защитят проект перед жюри в финале, имеют право поступить в онлайн-магистратуру ИТМО без экзаменов 🔥
Присоединяйтесь к этому и другим курсам весеннего сезона ODS Course Season 22-23 spring и следите за обновлениями, скоро мы откроем еще больше полезных и бесплатных курсов для вас 🤗
Сегодня стартовал курс My First Data Project: от идеи к продукту. Те, кто успешно завершат курс и защитят проект перед жюри в финале, имеют право поступить в онлайн-магистратуру ИТМО без экзаменов 🔥
Присоединяйтесь к этому и другим курсам весеннего сезона ODS Course Season 22-23 spring и следите за обновлениями, скоро мы откроем еще больше полезных и бесплатных курсов для вас 🤗
Forwarded from Ирина Кикина
💥ОТКРЫТА РЕГИСТРАЦИЯ НА КУРС💥
20 марта 2023г перезапуск БЕСПЛАТНОГО курса MLOps и production подход к ML исследованиям при поддержке Open Data Science .
🔥РЕГИСТРАЦИЯ🔥
уже идет полным ходом, переходите по ссылке и жмите кнопку «Участвовать».
Следите за обновлениями в нашем Telegram чате для участников курса, там же вы можете задать любые вопросы связанные с курсом.
Кому будет полезен курс?
✨ML-инженеры
✨Аналитики и инженеры данных
✨Менеджеры AI-продуктов и руководители (тимлиды) ML-команд
Необходимые навыки:
🤓Python
🤓Основы машинного обучения
Что Вас ждет?
На курсе вас ждут 12 онлайн занятий, продолжительностью 1 - 2 часа. (В основном по понедельникам 18:30). Все занятия будут доступны в записи. Для дополнительной мотивации будет вестись публичный рейтинг, лучшие участники получат уникальный мерч от ODS.
🔥Участников ждут практические домашние задания, тесты, индивидуальный финальный проект, а так же дополнительные активности и митапы, которые будут предлагаться участникам по ходу курса.
💪🏼Вперед за прокачиванием Ваших нard skills! Ждем всех желающих!
❓По любым вопросам, связанных с курсом @Irinka_Bekker
Open Data Science (ODS.ai)
MLOps и production подход к ML исследованиям 2.0 — Open Data Science
20 марта 2023г перезапуск БЕСПЛАТНОГО курса MLOps и production подход к ML исследованиям при поддержке Open Data Science .
🔥РЕГИСТРАЦИЯ🔥
уже идет полным ходом, переходите по ссылке и жмите кнопку «Участвовать».
Следите за обновлениями в нашем Telegram чате для участников курса, там же вы можете задать любые вопросы связанные с курсом.
Кому будет полезен курс?
✨ML-инженеры
✨Аналитики и инженеры данных
✨Менеджеры AI-продуктов и руководители (тимлиды) ML-команд
Необходимые навыки:
🤓Python
🤓Основы машинного обучения
Что Вас ждет?
На курсе вас ждут 12 онлайн занятий, продолжительностью 1 - 2 часа. (В основном по понедельникам 18:30). Все занятия будут доступны в записи. Для дополнительной мотивации будет вестись публичный рейтинг, лучшие участники получат уникальный мерч от ODS.
🔥Участников ждут практические домашние задания, тесты, индивидуальный финальный проект, а так же дополнительные активности и митапы, которые будут предлагаться участникам по ходу курса.
💪🏼Вперед за прокачиванием Ваших нard skills! Ждем всех желающих!
❓По любым вопросам, связанных с курсом @Irinka_Bekker
Open Data Science (ODS.ai)
MLOps и production подход к ML исследованиям 2.0 — Open Data Science
Forwarded from New Yorko Times (Yury Kashnitsky)
Пет-проекты и менторство
#career #ml #petproject
Идей всяких петов у меня обычно полно (жаль, что идей для годных стартапов не так много), буду мини-батчами таких идей делиться. Тем более что где-то сам готов поучаствовать, довести проект до публикации хотя бы на архиве. По перечисленным темам готов что-то обсудить или связать с шарящими людьми.
Тут стоит упомянуть менторскую инициативу, запущенную в Singularis.ai Айрой Монгуш @aira_mo & Co. Вот описание программы, там же список менторов. Список годный, к некоторым из этих людей я бы сам сходил как менти. Хватайте! Можно будет и ко мне постучаться, но я скорее всего забит, фрухпут выделил – 1 менти за раз.
Вот какие идеи сейчас на уме (помимо умного поиска по мемам, про который уже писал), в порядке от более простых и хорошо формулированных к менее тривиальным и прописанным:
1) Валидация sciBERT-лонгформера на нескольких датасетах, техрепорт. Я как-то опубликовал расширенную версию SciBERT, поддерживающие тексты до 4096 токенов (делаются такие штуки по тьюториалу от HF, там суть в том, что позиционные эмбеддинги расширяются с 512 до 4096 простым копированием). Но я толком не валидировал выхлоп с этого дела. Можно взять несколько датасетов с длинными научными текстами (будь до классификация статей или QA для страниц Википедии, полно бенчмарков в статье Меты про Galactica) и сравниться с обычным SciBERT и лонгформером на базе роберты (не дообученной на научный контент). Из этого можно сделать техрепорт, опубликовать на архиве;
2) Удивительно, но для того же научного домена я не нашел легковесной модельки а-ля DistilBERT. Можно взять SciBERT, дистилировать его в модельку размера DistilBERT, опубликовать на HF и прославиться. Также опубликовать техрепорт. В целом можно следовать статье Давида Дале @izolenta_mebiusa про малького шустрого Берта на русском. Там Давид аж о 8-ми лоссах дистиллирует. То есть можно взять не только одного SciBERT как teacher и не только logloss, но также Galactica и более хитрые лоссы а-ля выравнивание CLS-эмбеддингов моделей учителя и ученика;
3) Ассистент на вопросах-ответах Stackoverflow. Там уже полно ранжированных ответов, с кодом. Возможно, никакой RLHF не нужен с таким датасетом. А самому StackOverflow, на мой взгляд, нет смысла обучать такого бота – им нужны кожаные мешки на сайте. Пока я это придумывал, 🤗 уже собрал датасет (узнал из поста Игоря Котенкова), ну идея в воздухе висела в принципе. Дальше можно повалидироваться с chatGPT, Codex и прочими ассистентами, с лету лучше вряд ли получится, но опыт интересный. Умеренные LLM в целом уже научились файнтюнить за разумное время даже на одной GPU, вот пример от инженера HF;
4) Распознавалка ребенка по мере его роста. Самый размыто формулированный пет – про CV и для тех, кто ждет ребенка, т.е. самый нишевый вариант из перечисленных. Суть: дите растет, модель ошибается, нужен continual learning. Тут сплошной дата дрифт и сходу вообще не понятно как подступиться. По крайней мере, алгоритмы Apple ошибаются, мне в галерее айфона показывает несколько инстансов моей дочери.
По поводу первых двух – можно мне писать, я готов подключиться к написанию репорта. Правда, я учусь делегировать (больно) и воздержусь от ковыряния в коде своими руками, буду чистый “Data Scientist ртом”. Со статьей при этом готов активно помогать. Лучше в коментах писать, кто что готов взять, можно скоординироваться и между собой.
#career #ml #petproject
Идей всяких петов у меня обычно полно (жаль, что идей для годных стартапов не так много), буду мини-батчами таких идей делиться. Тем более что где-то сам готов поучаствовать, довести проект до публикации хотя бы на архиве. По перечисленным темам готов что-то обсудить или связать с шарящими людьми.
Тут стоит упомянуть менторскую инициативу, запущенную в Singularis.ai Айрой Монгуш @aira_mo & Co. Вот описание программы, там же список менторов. Список годный, к некоторым из этих людей я бы сам сходил как менти. Хватайте! Можно будет и ко мне постучаться, но я скорее всего забит, фрухпут выделил – 1 менти за раз.
Вот какие идеи сейчас на уме (помимо умного поиска по мемам, про который уже писал), в порядке от более простых и хорошо формулированных к менее тривиальным и прописанным:
1) Валидация sciBERT-лонгформера на нескольких датасетах, техрепорт. Я как-то опубликовал расширенную версию SciBERT, поддерживающие тексты до 4096 токенов (делаются такие штуки по тьюториалу от HF, там суть в том, что позиционные эмбеддинги расширяются с 512 до 4096 простым копированием). Но я толком не валидировал выхлоп с этого дела. Можно взять несколько датасетов с длинными научными текстами (будь до классификация статей или QA для страниц Википедии, полно бенчмарков в статье Меты про Galactica) и сравниться с обычным SciBERT и лонгформером на базе роберты (не дообученной на научный контент). Из этого можно сделать техрепорт, опубликовать на архиве;
2) Удивительно, но для того же научного домена я не нашел легковесной модельки а-ля DistilBERT. Можно взять SciBERT, дистилировать его в модельку размера DistilBERT, опубликовать на HF и прославиться. Также опубликовать техрепорт. В целом можно следовать статье Давида Дале @izolenta_mebiusa про малького шустрого Берта на русском. Там Давид аж о 8-ми лоссах дистиллирует. То есть можно взять не только одного SciBERT как teacher и не только logloss, но также Galactica и более хитрые лоссы а-ля выравнивание CLS-эмбеддингов моделей учителя и ученика;
3) Ассистент на вопросах-ответах Stackoverflow. Там уже полно ранжированных ответов, с кодом. Возможно, никакой RLHF не нужен с таким датасетом. А самому StackOverflow, на мой взгляд, нет смысла обучать такого бота – им нужны кожаные мешки на сайте. Пока я это придумывал, 🤗 уже собрал датасет (узнал из поста Игоря Котенкова), ну идея в воздухе висела в принципе. Дальше можно повалидироваться с chatGPT, Codex и прочими ассистентами, с лету лучше вряд ли получится, но опыт интересный. Умеренные LLM в целом уже научились файнтюнить за разумное время даже на одной GPU, вот пример от инженера HF;
4) Распознавалка ребенка по мере его роста. Самый размыто формулированный пет – про CV и для тех, кто ждет ребенка, т.е. самый нишевый вариант из перечисленных. Суть: дите растет, модель ошибается, нужен continual learning. Тут сплошной дата дрифт и сходу вообще не понятно как подступиться. По крайней мере, алгоритмы Apple ошибаются, мне в галерее айфона показывает несколько инстансов моей дочери.
По поводу первых двух – можно мне писать, я готов подключиться к написанию репорта. Правда, я учусь делегировать (больно) и воздержусь от ковыряния в коде своими руками, буду чистый “Data Scientist ртом”. Со статьей при этом готов активно помогать. Лучше в коментах писать, кто что готов взять, можно скоординироваться и между собой.
Forwarded from Data Science Private Sharing
#курс
После долгих лет (альфа-)тестирования, курс "Алгоритмы Машинного обучения с нуля" наконец-то выходит в свет (бета-тестирование :)
Курс бесплатный :) На Степике: https://stepik.org/course/68260
Курс посвящен реализации всех классических алгоритмов машинного обучения с нуля. На чистом питоне + нампай и пандас.
Упор в курсе будет делаться именно на алгоритмы. Хотя и немного математики тоже присутствует.
Пока реализовано 6 уроков:
- Два вида линейных моделей
- Деревья решений (классификация и регрессия)
- Случайный лес (классификация и регрессия)
Остальные будут открываться по мере готовности.
З.Ы. Для успешного прохождения курса вам понадобятся знания основ МЛ, а также уверенное владение питоном.
После долгих лет (альфа-)тестирования, курс "Алгоритмы Машинного обучения с нуля" наконец-то выходит в свет (бета-тестирование :)
Курс бесплатный :) На Степике: https://stepik.org/course/68260
Курс посвящен реализации всех классических алгоритмов машинного обучения с нуля. На чистом питоне + нампай и пандас.
Упор в курсе будет делаться именно на алгоритмы. Хотя и немного математики тоже присутствует.
Пока реализовано 6 уроков:
- Два вида линейных моделей
- Деревья решений (классификация и регрессия)
- Случайный лес (классификация и регрессия)
Остальные будут открываться по мере готовности.
З.Ы. Для успешного прохождения курса вам понадобятся знания основ МЛ, а также уверенное владение питоном.
👍4
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
MMS: Scaling Speech Technology to 1000+ languages
Коллеги из Meta просто на кэжуаое выпустили модель, которая переводит 1100 языков из текс а в аудио и из аудио в текст.
Это всего лишь новый майлстоун в спич-рекогнишене 😀.
Что по сути:
- wave2vec 2.0: многоязычная модель распознавания речи с 1илрд параметроа , обученная на 1107 языках
— ошибка на 50% по сравнению с Whisper.
— это единая модель для преобразования текста в речь (TTS), поддерживающая так много языков: аж 1107!.
— включает в себя Классификатор языков, идентифицируюший 4017 языков.
Кроме всего прочего, для обучения собрали и использовали аудио, где люди читают Библию на разных языках. Потому, кажется нет другой книги, которая была бы переведена на столько разных языков.
Самое клёвое, что веса и код уже не гитхабе!
Блогпост
@ai_newz
Коллеги из Meta просто на кэжуаое выпустили модель, которая переводит 1100 языков из текс а в аудио и из аудио в текст.
Это всего лишь новый майлстоун в спич-рекогнишене 😀.
Что по сути:
- wave2vec 2.0: многоязычная модель распознавания речи с 1илрд параметроа , обученная на 1107 языках
— ошибка на 50% по сравнению с Whisper.
— это единая модель для преобразования текста в речь (TTS), поддерживающая так много языков: аж 1107!.
— включает в себя Классификатор языков, идентифицируюший 4017 языков.
Кроме всего прочего, для обучения собрали и использовали аудио, где люди читают Библию на разных языках. Потому, кажется нет другой книги, которая была бы переведена на столько разных языков.
Самое клёвое, что веса и код уже не гитхабе!
Блогпост
@ai_newz
🔥2
Forwarded from Ilya Gusev
Всем привет! Несколько апдейтов по Сайге:
0. Демо на HF самой маленькой модели: тут
1. Доклад на Датафесте, слайды тут, видео тут
2. Колаб для дообучения Лламы на русских инструкциях и последующей квантизации: тут
3. Демо с retrieval QA на основе 13B модели: тут
4. Первая итерации WizardLM-like улучшения RuTurboAlpaca: тут
Все те же ссылки собраны тут
0. Демо на HF самой маленькой модели: тут
1. Доклад на Датафесте, слайды тут, видео тут
2. Колаб для дообучения Лламы на русских инструкциях и последующей квантизации: тут
3. Демо с retrieval QA на основе 13B модели: тут
4. Первая итерации WizardLM-like улучшения RuTurboAlpaca: тут
Все те же ссылки собраны тут
🔥2
Forwarded from эйай ньюз
Аннотированный код
Наткнулся на классный сайт, где собран код некоторых популярных моделей (или их частей), например Stable Diffusion, GPT, Switch Tranformer, MPL-Mixer и др. Весь цимес в том, что каждая строка кода задокументирована, и показаны соответствующие математические формулы.
Будет полезно тем, кто любит начининать изучать модели сразу с кода. Как раз занятие на воскресенье.
На скринах - код DDIM и Adam.
https://nn.labml.ai/
@ai_newz
Наткнулся на классный сайт, где собран код некоторых популярных моделей (или их частей), например Stable Diffusion, GPT, Switch Tranformer, MPL-Mixer и др. Весь цимес в том, что каждая строка кода задокументирована, и показаны соответствующие математические формулы.
Будет полезно тем, кто любит начининать изучать модели сразу с кода. Как раз занятие на воскресенье.
На скринах - код DDIM и Adam.
https://nn.labml.ai/
@ai_newz
🔥11
Forwarded from Dealer.AI
Всем привет, мы строили строили и наконец построили!
Первая супер-библиотека по spelling corruption SAGE.
Работа была не простой, вместе с ребятами из команды AGI NLP- мои герои снова:
@alenusch, @qwertysobaka, @go_bobert,
мы сделали оч крутой инструмент. Он позволяет атаковать тексты при помощи добавления опечаток, перестановок и пр., а также делать обратное - фиксить их.
UPD. Забыл совсем!? Мы выбили SOTA по spellcheking!!!
Интересно?
Го читать на хабр!
https://habr.com/ru/companies/sberdevices/articles/763932/
Наша библиотека SAGE:
https://github.com/ai-forever/sage
AI-service в Клауде:
https://cloud.ru/ru/datahub/generative-spell-checking
Первая супер-библиотека по spelling corruption SAGE.
Работа была не простой, вместе с ребятами из команды AGI NLP- мои герои снова:
@alenusch, @qwertysobaka, @go_bobert,
мы сделали оч крутой инструмент. Он позволяет атаковать тексты при помощи добавления опечаток, перестановок и пр., а также делать обратное - фиксить их.
UPD. Забыл совсем!? Мы выбили SOTA по spellcheking!!!
Интересно?
Го читать на хабр!
https://habr.com/ru/companies/sberdevices/articles/763932/
Наша библиотека SAGE:
https://github.com/ai-forever/sage
AI-service в Клауде:
https://cloud.ru/ru/datahub/generative-spell-checking
Telegram
Dealer.AI
Друзья, сегодня проходит второй день Конференции Диалог2023.
Мы рады сообщить, что наша работа по атакам на текст вошла в Сборник статей, тема: Augmentation methods for spelling corruptions.
Авторы мои коллеги, товарищи и подписчики:@alenusch, @qwertysobaka…
Мы рады сообщить, что наша работа по атакам на текст вошла в Сборник статей, тема: Augmentation methods for spelling corruptions.
Авторы мои коллеги, товарищи и подписчики:@alenusch, @qwertysobaka…
👍2
Forwarded from LightAutoML framework (Olga Plosskaya)
🎓Всем привет, мы перезапустили наш курс по LightAutoML в формате коротких лекций и how-to видео (от 2 до 15 мин)
Теперь можно быстро вспомнить, что есть в LAMA! Спасибо коллегам из ВШЭ за помощь в упаковке наших 3х часовых видео в удобный формат.
Вас ждет 5 модулей.
В последнем собраны ответы на самые частые вопросы, а так же новая функциональность.
Видео будут пополняться, за апдейтами релизов лучше по-прежнему следить в репозитории и не забывайте ставить ⭐️ и добавлять issues на новую функциональность!
Ну и feel free, если у вас есть доработки, кидайте в нас пул реквесты!
Теперь можно быстро вспомнить, что есть в LAMA! Спасибо коллегам из ВШЭ за помощь в упаковке наших 3х часовых видео в удобный формат.
Вас ждет 5 модулей.
В последнем собраны ответы на самые частые вопросы, а так же новая функциональность.
Видео будут пополняться, за апдейтами релизов лучше по-прежнему следить в репозитории и не забывайте ставить ⭐️ и добавлять issues на новую функциональность!
Ну и feel free, если у вас есть доработки, кидайте в нас пул реквесты!
developers.sber.ru
Вводный курс LightAutoML – База знаний
Работа с фреймворком разработки ML-моделей LightAutoML. Как функционирует библиотека фреймворка, чем она полезна и как можно научиться с ней работать.
TinyML and Efficient Deep Learning Computing
Свежий курс по оптимизации сеток от MIT
https://hanlab.mit.edu/courses/2023-fall-65940
Свежий курс по оптимизации сеток от MIT
https://hanlab.mit.edu/courses/2023-fall-65940
hanlab.mit.edu
MIT 6.5940 Fall 2023 TinyML and Efficient Deep Learning Computing
This course focuses on efficient machine learning and systems. This is a crucial area as deep neural networks demand extraordinary levels of computation, hindering its deployment on everyday devices and burdening the cloud infrastructure. This course introduces…
👍1