Machine Learning – Telegram
Machine Learning
25 subscribers
12 photos
3 files
181 links
Собираем информацию про машинное обучение, нейросети
Download Telegram
C4. Data Science Interview.pdf
15.6 MB
#карьера
Вопросы для DS-собеседования
C4. Data Science Interview.pdf
15.6 MB
#карьера
Вопросы для DS-собеседования
Forwarded from Sberloga (Alexander C)
🚀 @sberloga рекомендует онлайн доклад по NLP (Natural Language Processing) на семинаре ВШЭ
Телеграм канал семинара ВШЭ: @nlp_seminar
👨‍🔬 Владислав Михайлов (Сбер), Екатерина Такташева (ВШЭ), Элина Сигдал (ВШЭ) “RuSentEval: диагностическое тестирование языковых моделей на русском языке”
⌚️ Четверг 3 июня в 19.00 по Москве.

RuSentEval – это новый набор данных для диагностического тестирования (probing) векторных и языковых моделей для русского языка. Набор включает в себя 14 датасетов, которые покрывают различные лингвистические явления – от поверхностных (число слов в предложении) до синтаксических (глубина синтаксического дерева) и семантических (число и род подлежащего). Классический метод диагностического тестирования – обучить классификатор, который предсказывает наличие того или иного явления по вектору предложения. Поведение классификатора может показать, например, какие слои языковой модели более чувствительны к низкоуровневым признакам, а какие – к высокоуровневым.

В работе мы использовали данные RuSentEval и SentEval (английский язык), чтобы провести диагностическое тестирование пяти мультиязычных трансформеров – в том числе mBERT, mBART и LABSE – и узнали, что модели имеют похожее представление о некоторых признаках для обоих языков, несмотря на их типологические различия. А вот mBART и LABSE отличаются от остальных (как именно – читайте в статье).
Репозиторий с кодом и данными доступен по ссылке (https://github.com/RussianNLP/rusenteval).
Forwarded from Big Data Science [RU]
👍🏻Будьте здоровы с DCNN!
В течение многих лет врачи полагались на визуальный осмотр для выявления подозрительных пигментных поражений (SPL), которые могут указывать на рак кожи. Выявление SPL на ранней стадии помогает оперативно выявить меланомы и значительно снизить стоимость лечения. Но быстро найти SPL и определить их важность не так-то просто из-за большого объема пигментных поражений. Исследователи из MIT разработали новый ИИ-конвейер на глубоких сверточных нейросетях (DCNN, deep convolutional neural networks) и реализовали его для анализа SPL через камеру обычного смартфона. Система автоматически обнаруживает, извлекает и анализирует все пигментные поражения кожи, наблюдаемые на широкоугольном фотоснимке. Предварительно обученные ML-модели DCNN определяют подозрительность отдельных пигментных образований и маркируют их: нужен дальнейший осмотр - желтым, требуется направление к дерматологу - красным. Извлеченные признаки используются для последующей оценки пигментных поражений и отображения результатов в виде тепловой карты. Напомним, DCNN – это алгоритмы глубокого обучения, которые используются для классификации изображений с последующей их кластеризацией, например, при поиске по фотографиям.
https://news.mit.edu/2021/artificial-intelligence-tool-can-help-detect-melanoma-0402
#подборка

Всем привет 🚀! За несколько последних дней на канале добавилось очень много новых подписчиков. Рад вас приветствовать на канале. Канал активно развивается, пробую разные форматы и тематики.

Для всех подписчиков и особенно для тех кто к нам присоединился недавно, я решил сформировать тематические подборки старых постов. Постараюсь подборки обновлять, так что получится крутая навигация по каналу.

Пишете в комментариях о чём было бы интересно почитать.🗣️

👨🏻‍💻 Про курсы и обучение хэштег #course

Обзор онлайн-курсов DS/ML личный опыт - часть 1
Deep Learning курсы личный опыт
Какие еще курсы пройти пока вкатываешься в DS/ML?
Как бесплатно получить сертификат на coursera
Прокачиваемся до computer vision researcher

🚊 Production хэштег #production

Machine learning в продакшн — Flask REST API (пост в блоге)
Streamlit - быстрый способ создать приложение для работы с данными
Chalice - фреймворк для написания бессерверных приложений на Python
BentoML

👍 Полезное хэштег #полезно

Visual Studio Code для Data Science
Тестовые задания от разных компаний, на позицию, связанную с Data Scientist
Computer Vision Leaderboard
Модель для сегментации легких на рентгене от меня и моих коллег
Пост в блоге про выбор логирования в Python

⚒️ Много разных интересных python библиотек хэштег #library

albumentations - Библиотека быстрых аугментаций изображений
Dostoevsky - Библиотека анализ тональности текста для русского языка
Newspaper3k - библиотека для извлечения метаданных новостей, полных текстов и статей
scikit-uplift - это модуль Python для классических подходов к моделированию uplift, построенный на основе scikit-learn
SHAP (SHapley Additive exPlanations)
Great Expectations библиотека, которая помогает тестировать данные

📝 Задачки на канале хэштег #task

RFM-анализ
Когортный анализ
Monthly Recurring Revenue

👩‍🔬 Еще отдельно хочу рассказать про свой бесплатный мини курс , где вы изучите основы анализа медицинских изображений с помощью Python. Вы будете изучать КТ и рентген снимки, сегментировать области изображения и проводить анализ метаданных. Даже если вы никогда раньше не работали с медицинскими изображениями, то по завершению курса вы будете обладать всеми необходимы навыками.
Пока курс бесплатный, но скоро станет платным. Все кто успеют записать буду проходить его бесплатно.
Forwarded from Start Career in DS
Теорема Байеса - одна из основ машинного обучения, на которой держится множество алгоритмов. Вот видео, с которым вы раз и навсегда разберетесь что это и как её правильно интерпретировать: https://youtu.be/_bcAK_1a72k