NEW BOT Телеграм, страница

Андрей Карпати (ex Tesla AI) выложил новую лекцию

«!!!! Итак, я записал (новую!) 2h25m лекцию "The spelled-out intro to neural networks and backpropagation: building micrograd".
Это кульминация примерно 8 лет навязчивых мыслей о том, как лучше объяснить нейронные сети и обратное распространение.

Если вы знаете Python, смутно помните, как проходили производные в средней школе, посмотрите это видео и к концу не поймете обратное распространение и суть нейронных сетей, тогда я съем ботинок :D»

Смотреть

YouTube

The spelled-out intro to neural networks and backpropagation: building micrograd

This is the most step-by-step spelled-out explanation of backpropagation and training of neural networks. It only assumes basic knowledge of Python and a vague recollection of calculus from high school.

Links:
- micrograd on github: https://github.com/k…

🔥3👍2

846 viewsAlf162, 17:10

Machine Learning Research

Как и зачем мы начали искать бизнес-инсайты в отзывах клиентов с помощью машинного обучения
https://habr.com/ru/company/alfa/blog/684774/

Хабр

Как и зачем мы начали искать бизнес-инсайты в отзывах клиентов с помощью машинного обучения

Естественный источник обратной связи для любой компании — отзывы их клиентов. И Альфа-Банк не исключение: за год мы собираем больше 100 млн оценок по различным каналам и продуктам. Но среди этих...

867 viewsAlf162, 09:04

Machine Learning Research

Практический Metric learning
https://habr.com/ru/company/ods/blog/695380/

Хабр

Практический Metric learning

Этот пост приурочен к недавнему релизу open-source проекта OpenMetricLearning (OML), одна из целей которого — максимально снизить порог вхождения в тему metric learning. Мы немного пройдёмся по...

👍4

713 viewsAlf162, 15:01

Machine Learning Research

Machine learning in Python with scikit-learn
https://www.fun-mooc.fr/en/courses/machine-learning-python-scikit-learn/

FUN MOOC

Machine learning in Python with scikit-learn

Build predictive models with scikit-learn and gain a practical understanding of the strengths and limitations of machine learning!

755 viewsAlf162, 15:05

Machine Learning Research

Hugging Face Diffusion Models Course
https://github.com/huggingface/diffusion-models-class

GitHub

GitHub - huggingface/diffusion-models-class: Materials for the Hugging Face Diffusion Models Course

Materials for the Hugging Face Diffusion Models Course - huggingface/diffusion-models-class

991 viewsAlf162, 15:07

Machine Learning Research

Voila: из ноутбука в веб-приложение

https://habr.com/ru/post/698662/

Хабр

Voila: из ноутбука в веб-приложение

Исходники: https://github.com/voila-dashboards/voila Документация: https://voila.readthedocs.io/en/stable/ Галерея: https://voila-gallery.org/ Voilà это библиотека, которая позволяет превращать...

🔥5

1.03K viewsAlf162, 17:32

Machine Learning Research

Graph ML in 2023: The State of Affairs

https://towardsdatascience.com/graph-ml-in-2023-the-state-of-affairs-1ba920cb9232

Medium

Graph ML in 2023: The State of Affairs

Hot trends and major advancements

991 viewsНиколай, 10:03

Machine Learning Research

https://habr.com/ru/company/ods/blog/709222/

Хабр

ChatGPT как инструмент для поиска: решаем основную проблему

Вышедшая чуть больше месяца назад ChatGPT уже успела нашуметь: школьникам в Нью-Йорке запрещают использовать нейросеть в качестве помощника, её же ответы теперь не принимаются на StackOverflow, а...

977 viewsНиколай, 06:28

Machine Learning Research

Train and Fine-Tune Sentence Transformers Models
https://huggingface.co/blog/how-to-train-sentence-transformers

huggingface.co

Train and Fine-Tune Sentence Transformers Models

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

908 viewsНиколай, 06:27

Machine Learning Research

Forwarded from ODS Events

С первым днём весны 🌸

Сегодня стартовал курс My First Data Project: от идеи к продукту. Те, кто успешно завершат курс и защитят проект перед жюри в финале, имеют право поступить в онлайн-магистратуру ИТМО без экзаменов 🔥

Присоединяйтесь к этому и другим курсам весеннего сезона ODS Course Season 22-23 spring и следите за обновлениями, скоро мы откроем еще больше полезных и бесплатных курсов для вас 🤗

814 viewsНиколай, 16:37

Machine Learning Research

Forwarded from Ирина Кикина

💥ОТКРЫТА РЕГИСТРАЦИЯ НА КУРС💥

20 марта 2023г перезапуск БЕСПЛАТНОГО курса MLOps и production подход к ML исследованиям при поддержке Open Data Science .

🔥РЕГИСТРАЦИЯ🔥
уже идет полным ходом, переходите по ссылке и жмите кнопку «Участвовать».
Следите за обновлениями в нашем Telegram чате для участников курса, там же вы можете задать любые вопросы связанные с курсом.

Кому будет полезен курс?
✨ML-инженеры
✨Аналитики и инженеры данных
✨Менеджеры AI-продуктов и руководители (тимлиды) ML-команд

Необходимые навыки:
🤓Python
🤓Основы машинного обучения

Что Вас ждет?
На курсе вас ждут 12 онлайн занятий, продолжительностью 1 - 2 часа. (В основном по понедельникам 18:30). Все занятия будут доступны в записи. Для дополнительной мотивации будет вестись публичный рейтинг, лучшие участники получат уникальный мерч от ODS.

🔥Участников ждут практические домашние задания, тесты, индивидуальный финальный проект, а так же дополнительные активности и митапы, которые будут предлагаться участникам по ходу курса.

💪🏼Вперед за прокачиванием Ваших нard skills! Ждем всех желающих!

❓По любым вопросам, связанных с курсом @Irinka_Bekker

Open Data Science (ODS.ai)
MLOps и production подход к ML исследованиям 2.0 — Open Data Science

1.04K viewsНиколай, 07:15

Machine Learning Research

Forwarded from Курсы Data Science

https://stepik.org/course/68260/info

Stepik: online education

Алгоритмы Машинного обучения с нуля

В данном курсе Вы реализуете с нуля все основные алгоритмы классического машинного обучения на чистом Python, Pandas и NumPy.

743 viewsНиколай, 17:46

Machine Learning Research

Forwarded from New Yorko Times (Yury Kashnitsky)

Пет-проекты и менторство
#career #ml #petproject

Идей всяких петов у меня обычно полно (жаль, что идей для годных стартапов не так много), буду мини-батчами таких идей делиться. Тем более что где-то сам готов поучаствовать, довести проект до публикации хотя бы на архиве. По перечисленным темам готов что-то обсудить или связать с шарящими людьми.

Тут стоит упомянуть менторскую инициативу, запущенную в Singularis.ai Айрой Монгуш @aira_mo & Co. Вот описание программы, там же список менторов. Список годный, к некоторым из этих людей я бы сам сходил как менти. Хватайте! Можно будет и ко мне постучаться, но я скорее всего забит, фрухпут выделил – 1 менти за раз.

Вот какие идеи сейчас на уме (помимо умного поиска по мемам, про который уже писал), в порядке от более простых и хорошо формулированных к менее тривиальным и прописанным:

1) Валидация sciBERT-лонгформера на нескольких датасетах, техрепорт. Я как-то опубликовал расширенную версию SciBERT, поддерживающие тексты до 4096 токенов (делаются такие штуки по тьюториалу от HF, там суть в том, что позиционные эмбеддинги расширяются с 512 до 4096 простым копированием). Но я толком не валидировал выхлоп с этого дела. Можно взять несколько датасетов с длинными научными текстами (будь до классификация статей или QA для страниц Википедии, полно бенчмарков в статье Меты про Galactica) и сравниться с обычным SciBERT и лонгформером на базе роберты (не дообученной на научный контент). Из этого можно сделать техрепорт, опубликовать на архиве;

2) Удивительно, но для того же научного домена я не нашел легковесной модельки а-ля DistilBERT. Можно взять SciBERT, дистилировать его в модельку размера DistilBERT, опубликовать на HF и прославиться. Также опубликовать техрепорт. В целом можно следовать статье Давида Дале @izolenta_mebiusa про малького шустрого Берта на русском. Там Давид аж о 8-ми лоссах дистиллирует. То есть можно взять не только одного SciBERT как teacher и не только logloss, но также Galactica и более хитрые лоссы а-ля выравнивание CLS-эмбеддингов моделей учителя и ученика;

3) Ассистент на вопросах-ответах Stackoverflow. Там уже полно ранжированных ответов, с кодом. Возможно, никакой RLHF не нужен с таким датасетом. А самому StackOverflow, на мой взгляд, нет смысла обучать такого бота – им нужны кожаные мешки на сайте. Пока я это придумывал, 🤗 уже собрал датасет (узнал из поста Игоря Котенкова), ну идея в воздухе висела в принципе. Дальше можно повалидироваться с chatGPT, Codex и прочими ассистентами, с лету лучше вряд ли получится, но опыт интересный. Умеренные LLM в целом уже научились файнтюнить за разумное время даже на одной GPU, вот пример от инженера HF;

4) Распознавалка ребенка по мере его роста. Самый размыто формулированный пет – про CV и для тех, кто ждет ребенка, т.е. самый нишевый вариант из перечисленных. Суть: дите растет, модель ошибается, нужен continual learning. Тут сплошной дата дрифт и сходу вообще не понятно как подступиться. По крайней мере, алгоритмы Apple ошибаются, мне в галерее айфона показывает несколько инстансов моей дочери.

По поводу первых двух – можно мне писать, я готов подключиться к написанию репорта. Правда, я учусь делегировать (больно) и воздержусь от ковыряния в коде своими руками, буду чистый “Data Scientist ртом”. Со статьей при этом готов активно помогать. Лучше в коментах писать, кто что готов взять, можно скоординироваться и между собой.

824 viewsНиколай, 13:48

Machine Learning Research

Forwarded from Data Science Private Sharing

#курс

После долгих лет (альфа-)тестирования, курс "Алгоритмы Машинного обучения с нуля" наконец-то выходит в свет (бета-тестирование :)

Курс бесплатный :) На Степике: https://stepik.org/course/68260

Курс посвящен реализации всех классических алгоритмов машинного обучения с нуля. На чистом питоне + нампай и пандас.
Упор в курсе будет делаться именно на алгоритмы. Хотя и немного математики тоже присутствует.

Пока реализовано 6 уроков:
- Два вида линейных моделей
- Деревья решений (классификация и регрессия)
- Случайный лес (классификация и регрессия)

Остальные будут открываться по мере готовности.

З.Ы. Для успешного прохождения курса вам понадобятся знания основ МЛ, а также уверенное владение питоном.

👍4

791 viewsНиколай, 08:20

Machine Learning Research

Forwarded from эйай ньюз

1:20

Media is too big

VIEW IN TELEGRAM

MMS: Scaling Speech Technology to 1000+ languages

Коллеги из Meta просто на кэжуаое выпустили модель, которая переводит 1100 языков из текс а в аудио и из аудио в текст.

Это всего лишь новый майлстоун в спич-рекогнишене 😀.

Что по сути:
- wave2vec 2.0: многоязычная модель распознавания речи с 1илрд параметроа , обученная на 1107 языках
— ошибка на 50% по сравнению с Whisper.
— это единая модель для преобразования текста в речь (TTS), поддерживающая так много языков: аж 1107!.
— включает в себя Классификатор языков, идентифицируюший 4017 языков.

Кроме всего прочего, для обучения собрали и использовали аудио, где люди читают Библию на разных языках. Потому, кажется нет другой книги, которая была бы переведена на столько разных языков.

Самое клёвое, что веса и код уже не гитхабе!

Блогпост

@ai_newz

🔥2

973 viewsНиколай, 06:57

Machine Learning Research

Forwarded from Ilya Gusev

Всем привет! Несколько апдейтов по Сайге:

0. Демо на HF самой маленькой модели: тут
1. Доклад на Датафесте, слайды тут, видео тут
2. Колаб для дообучения Лламы на русских инструкциях и последующей квантизации: тут
3. Демо с retrieval QA на основе 13B модели: тут
4. Первая итерации WizardLM-like улучшения RuTurboAlpaca: тут

Все те же ссылки собраны тут

🔥2

1.26K viewsНиколай, 16:44

Machine Learning Research

Forwarded from эйай ньюз

Аннотированный код

Наткнулся на классный сайт, где собран код некоторых популярных моделей (или их частей), например Stable Diffusion, GPT, Switch Tranformer, MPL-Mixer и др. Весь цимес в том, что каждая строка кода задокументирована, и показаны соответствующие математические формулы.

Будет полезно тем, кто любит начининать изучать модели сразу с кода. Как раз занятие на воскресенье.

На скринах - код DDIM и Adam.

https://nn.labml.ai/

@ai_newz

🔥11

1.46K viewsНиколай, 05:01

Machine Learning Research

Forwarded from Dealer.AI

Всем привет, мы строили строили и наконец построили!

Первая супер-библиотека по spelling corruption SAGE.

Работа была не простой, вместе с ребятами из команды AGI NLP- мои герои снова:
@alenusch, @qwertysobaka, @go_bobert,
мы сделали оч крутой инструмент. Он позволяет атаковать тексты при помощи добавления опечаток, перестановок и пр., а также делать обратное - фиксить их.

UPD. Забыл совсем!? Мы выбили SOTA по spellcheking!!!

Интересно?
Го читать на хабр!

https://habr.com/ru/companies/sberdevices/articles/763932/

Наша библиотека SAGE:
https://github.com/ai-forever/sage

AI-service в Клауде:
https://cloud.ru/ru/datahub/generative-spell-checking

Dealer.AI

Друзья, сегодня проходит второй день Конференции Диалог2023.

Мы рады сообщить, что наша работа по атакам на текст вошла в Сборник статей, тема: Augmentation methods for spelling corruptions.

Авторы мои коллеги, товарищи и подписчики:@alenusch, @qwertysobaka…

👍2

1.02K viewsНиколай, 16:55

Machine Learning Research

Forwarded from LightAutoML framework (Olga Plosskaya)

🎓Всем привет, мы перезапустили наш курс по LightAutoML в формате коротких лекций и how-to видео (от 2 до 15 мин)

Теперь можно быстро вспомнить, что есть в LAMA! Спасибо коллегам из ВШЭ за помощь в упаковке наших 3х часовых видео в удобный формат.

Вас ждет 5 модулей.
В последнем собраны ответы на самые частые вопросы, а так же новая функциональность.

Видео будут пополняться, за апдейтами релизов лучше по-прежнему следить в репозитории и не забывайте ставить ⭐️ и добавлять issues на новую функциональность!
Ну и feel free, если у вас есть доработки, кидайте в нас пул реквесты!

developers.sber.ru

Вводный курс LightAutoML – База знаний

Работа с фреймворком разработки ML-моделей LightAutoML. Как функционирует библиотека фреймворка, чем она полезна и как можно научиться с ней работать.

1.07K viewsНиколай, 19:19

About

Blog

Apps

Platform