Machine Learning Research – Telegram
Machine Learning Research
956 subscribers
61 photos
7 videos
2 files
1.05K links
Download Telegram
Живое общение, танцы до утра, берег Волги, палатки в лесу — что еще нужно для счастья? 🤩

Антиконференция Summer Merge 2022 - та самая летняя айти-тусовка, где соберутся все, чтобы вырваться из рабочей рутины, поболтать со старыми друзьями и как следует проводить лето ☀️

Вас ждет отдых в формате палаточного лагеря, где вы сможете максимально насладиться летней природой, принять участие в спортивных, водных и во множестве других активностях, а также спеть свои любимые песни у костра в хорошей компании💥

Если вы тоже устали от офиса и мечтаете отвлечься хотя бы на пару дней, тогда встречаемся 26-28 августа в эко-парке «Русский берег» 😉

По промокоду MLR20 скидка 20% 🤫

👉🏻 Билеты уже доступны на сайте: https://clck.ru/sQyiJ

До встречи!

18+
Много материала с иллюстрациями и кодом на торче по разным топикам ML и DL
https://theaisummer.com/
Forwarded from AI для Всех
Андрей Карпати (ex Tesla AI) выложил новую лекцию

«!!!! Итак, я записал (новую!) 2h25m лекцию "The spelled-out intro to neural networks and backpropagation: building micrograd".
Это кульминация примерно 8 лет навязчивых мыслей о том, как лучше объяснить нейронные сети и обратное распространение.

Если вы знаете Python, смутно помните, как проходили производные в средней школе, посмотрите это видео и к концу не поймете обратное распространение и суть нейронных сетей, тогда я съем ботинок :D»

Смотреть
🔥3👍2
Forwarded from ODS Events
С первым днём весны 🌸

Сегодня стартовал курс My First Data Project: от идеи к продукту. Те, кто успешно завершат курс и защитят проект перед жюри в финале, имеют право поступить в онлайн-магистратуру ИТМО без экзаменов 🔥

Присоединяйтесь к этому и другим курсам весеннего сезона ODS Course Season 22-23 spring и следите за обновлениями, скоро мы откроем еще больше полезных и бесплатных курсов для вас 🤗
Forwarded from Ирина Кикина
💥ОТКРЫТА РЕГИСТРАЦИЯ НА КУРС💥

20 марта 2023г перезапуск БЕСПЛАТНОГО курса MLOps и production подход к ML исследованиям при поддержке Open Data Science .

🔥РЕГИСТРАЦИЯ🔥
уже идет полным ходом, переходите по ссылке и жмите кнопку «Участвовать».
Следите за обновлениями в нашем Telegram чате для участников курса, там же вы можете задать любые вопросы связанные с курсом.

Кому будет полезен курс?
ML-инженеры
Аналитики и инженеры данных
Менеджеры AI-продуктов и руководители (тимлиды) ML-команд

Необходимые навыки:
🤓Python
🤓Основы машинного обучения

Что Вас ждет?
На курсе вас ждут 12 онлайн занятий, продолжительностью 1 - 2 часа. (В основном по понедельникам 18:30). Все занятия будут доступны в записи. Для дополнительной мотивации будет вестись публичный рейтинг, лучшие участники получат уникальный мерч от ODS.

🔥Участников ждут практические домашние задания, тесты, индивидуальный финальный проект, а так же дополнительные активности и митапы, которые будут предлагаться участникам по ходу курса.

💪🏼Вперед за прокачиванием Ваших нard skills! Ждем всех желающих!

По любым вопросам, связанных с курсом @Irinka_Bekker

Open Data Science (ODS.ai)
MLOps и production подход к ML исследованиям 2.0 — Open Data Science
Forwarded from New Yorko Times (Yury Kashnitsky)
Пет-проекты и менторство
#career #ml #petproject

Идей всяких петов у меня обычно полно (жаль, что идей для годных стартапов не так много), буду мини-батчами таких идей делиться. Тем более что где-то сам готов поучаствовать, довести проект до публикации хотя бы на архиве. По перечисленным темам готов что-то обсудить или связать с шарящими людьми.

Тут стоит упомянуть менторскую инициативу, запущенную в Singularis.ai Айрой Монгуш @aira_mo & Co. Вот описание программы, там же список менторов. Список годный, к некоторым из этих людей я бы сам сходил как менти. Хватайте! Можно будет и ко мне постучаться, но я скорее всего забит, фрухпут выделил – 1 менти за раз.

Вот какие идеи сейчас на уме (помимо умного поиска по мемам, про который уже писал), в порядке от более простых и хорошо формулированных к менее тривиальным и прописанным:

1) Валидация sciBERT-лонгформера на нескольких датасетах, техрепорт. Я как-то опубликовал расширенную версию SciBERT, поддерживающие тексты до 4096 токенов (делаются такие штуки по тьюториалу от HF, там суть в том, что позиционные эмбеддинги расширяются с 512 до 4096 простым копированием). Но я толком не валидировал выхлоп с этого дела. Можно взять несколько датасетов с длинными научными текстами (будь до классификация статей или QA для страниц Википедии, полно бенчмарков в статье Меты про Galactica) и сравниться с обычным SciBERT и лонгформером на базе роберты (не дообученной на научный контент). Из этого можно сделать техрепорт, опубликовать на архиве;

2) Удивительно, но для того же научного домена я не нашел легковесной модельки а-ля DistilBERT. Можно взять SciBERT, дистилировать его в модельку размера DistilBERT, опубликовать на HF и прославиться. Также опубликовать техрепорт. В целом можно следовать статье Давида Дале @izolenta_mebiusa про малького шустрого Берта на русском. Там Давид аж о 8-ми лоссах дистиллирует. То есть можно взять не только одного SciBERT как teacher и не только logloss, но также Galactica и более хитрые лоссы а-ля выравнивание CLS-эмбеддингов моделей учителя и ученика;

3) Ассистент на вопросах-ответах Stackoverflow. Там уже полно ранжированных ответов, с кодом. Возможно, никакой RLHF не нужен с таким датасетом. А самому StackOverflow, на мой взгляд, нет смысла обучать такого бота – им нужны кожаные мешки на сайте. Пока я это придумывал, 🤗 уже собрал датасет (узнал из поста Игоря Котенкова), ну идея в воздухе висела в принципе. Дальше можно повалидироваться с chatGPT, Codex и прочими ассистентами, с лету лучше вряд ли получится, но опыт интересный. Умеренные LLM в целом уже научились файнтюнить за разумное время даже на одной GPU, вот пример от инженера HF;

4) Распознавалка ребенка по мере его роста. Самый размыто формулированный пет – про CV и для тех, кто ждет ребенка, т.е. самый нишевый вариант из перечисленных. Суть: дите растет, модель ошибается, нужен continual learning. Тут сплошной дата дрифт и сходу вообще не понятно как подступиться. По крайней мере, алгоритмы Apple ошибаются, мне в галерее айфона показывает несколько инстансов моей дочери.

По поводу первых двух – можно мне писать, я готов подключиться к написанию репорта. Правда, я учусь делегировать (больно) и воздержусь от ковыряния в коде своими руками, буду чистый “Data Scientist ртом”. Со статьей при этом готов активно помогать. Лучше в коментах писать, кто что готов взять, можно скоординироваться и между собой.
#курс

После долгих лет (альфа-)тестирования, курс "Алгоритмы Машинного обучения с нуля" наконец-то выходит в свет (бета-тестирование :)

Курс бесплатный :) На Степике: https://stepik.org/course/68260

Курс посвящен реализации всех классических алгоритмов машинного обучения с нуля. На чистом питоне + нампай и пандас.
Упор в курсе будет делаться именно на алгоритмы. Хотя и немного математики тоже присутствует.

Пока реализовано 6 уроков:
- Два вида линейных моделей
- Деревья решений (классификация и регрессия)
- Случайный лес (классификация и регрессия)

Остальные будут открываться по мере готовности.

З.Ы. Для успешного прохождения курса вам понадобятся знания основ МЛ, а также уверенное владение питоном.
👍4
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
MMS: Scaling Speech Technology to 1000+ languages

Коллеги из Meta просто на кэжуаое выпустили модель, которая переводит 1100 языков из текс а в аудио и из аудио в текст.

Это всего лишь новый майлстоун в спич-рекогнишене 😀.

Что по сути:
- wave2vec 2.0: многоязычная модель распознавания речи с 1илрд параметроа , обученная на 1107 языках
— ошибка на 50% по сравнению с Whisper.
— это единая модель для преобразования текста в речь (TTS), поддерживающая так много языков: аж 1107!.
— включает в себя Классификатор языков, идентифицируюший 4017 языков.

Кроме всего прочего, для обучения собрали и использовали аудио, где люди читают Библию на разных языках. Потому, кажется нет другой книги, которая была бы переведена на столько разных языков.

Самое клёвое, что веса и код уже не гитхабе!

Блогпост

@ai_newz
🔥2