Machine Learning – Telegram
Machine Learning
25 subscribers
12 photos
3 files
181 links
Собираем информацию про машинное обучение, нейросети
Download Telegram
#полезно #пост_от_подписчика

Мне тут подписчик @Aykhan_txt прислал крутой пост

Год Работы на Google Colab

Google Colab — это бесплатный облачный сервис на основе Jupyter Notebook, который дает возможность работать на GPU или TPU. Здесь я расскажу об основных минусах и как я с ними боролся.

Поговорим об ограничениях. Вместе с ними буду предлагать пути решения:

1) Время работы сессии только до 12 часов. После чего, нужно будет перезапускать блокнот. Все данные, которые были на диске благополучно исчезнут.
Поэтому, предлагаю вам подключить к Colab еще и Google Drive и сохранять все логи и веса моделей туда. После отключения блокнота все важные данные у вас будут на вашем Google Drive.

2) При длительном бездействии (30-60 минут) следует отключение блокнота.
Решение этой проблемы можно найти в приложенном jupyter notebook

3) При постоянном использовании (примерно 3-4 дня подряд) доступ к быстрым видеокартам закрывается и для ваших сессий будут выделены более медленные графические процессоры. В некоторых случаях может доступ к GPU закрыт полностью. Для восстановления прежних мощностей придется подождать до 2 суток.
Для себя я нашел решение в переменном использовании Kaggle блокнотов и Colab. Kaggle имеет те же самые параметры и дает возможность использовать сервис 30 часов в неделе (иногда даже больше).

4) Ограниченный объем памяти 60-80 гб.
Решения для этой проблемы я не нашел в рамках самого Colab и я просто пользовался Kaggle, так как там проще подключать датасеты.

5) Загрузка данных с локального компьютера на диск очень медленная.
Лучше всего грузить данные с интернета через команды !wget, !git clone.

6) Очень медленная работа с Google Drive. Если Ваш датасет находится на Гугл диске, знайте, данные оттуда грузятся очень медленно. Лучше все грузить на диск Colab или же сразу в оперативную память

Полезный ноутбук: https://colab.research.google.com/drive/1-6Q3YjFdeLfqSWXuVvdLsl0pUc1nT4Gi#scrollTo=h9qy2qPehifB
Forwarded from Хроники ботки (Aleksei Shestov 𓆏)
AutoML это алгоритмы, которые подбирают алгоритм, параметры и их комбинации специально для конкретного датасета. То есть такая замена дата саентиста. Сбербанк выпустил свой опенсорсный автомл фреймворк на питоне, призываю все пользоваться, шарить и распространять :) Александр Рыжков, Дмитрий Симаков и их коллеги разрабатывают автомл в Сбере, они уже делали доклад в декабре
https://www.youtube.com/watch?v=ci8uqgWFJGg&list=PLYeFZ_T6PUrILcK5rKHlb9PdBp-ySitUN,
а сейчас можно посмотреть участие автомл в каггл соревнование и его выигрыш относительно других автомл
https://www.kaggle.com/alexryzhkov/tps-april-21-lightautoml-starter (не жалейте ваши апвоуты этому ноутбуку на каггле :)

Проект в опенсорсе - https://github.com/sberbank-ai-lab/LightAutoML
И бенчмарки: https://github.com/sberbank-ai-lab/automlbenchmark/tree/lightautoml
Forwarded from TechSparks
Во-первых, хорошие популярные материалы про машинное обучение — увы, редкость. Тем более — оригинальные отечественные.
Во-вторых, я очень люблю все материалы, к которым имеет отношение Саша Крайнов: не просто отличный эксперт, но и талантливый фантазёр и отличный рассказчик.
Вот вам прекрасный ролик с достойным названием «Гадание на датасетах»;)

https://youtu.be/zUlm0MKquKo
Forwarded from Data Science Guy
Очень хорошие видосы, не могу не поделиться:
Samsung релизнул курс из 16 (и еще будут) разных лекций про нейронки https://news.samsung.com/ru/samsung-ai-innovation-campus
у них есть:
1. очень крутая лекция про ГАНы с более-менее строгими выводами
и про img2img ганы
2. всякие детекции/сегментации/оптические потоки/поиски по картинкам
3. как ускорять и запускать на телефонах
4. даже нейрорендеренг чуть-чуть
5. как ставить эксперименты и участвовать в соревнованиях
и вообще много разного

смотреть тут:
https://www.youtube.com/playlist?list=PLJEYfuHbcEIB-DdeoWaQ6Bzt0903kbmWK
C4. Data Science Interview.pdf
15.6 MB
#карьера
Вопросы для DS-собеседования
C4. Data Science Interview.pdf
15.6 MB
#карьера
Вопросы для DS-собеседования
Forwarded from Sberloga (Alexander C)
🚀 @sberloga рекомендует онлайн доклад по NLP (Natural Language Processing) на семинаре ВШЭ
Телеграм канал семинара ВШЭ: @nlp_seminar
👨‍🔬 Владислав Михайлов (Сбер), Екатерина Такташева (ВШЭ), Элина Сигдал (ВШЭ) “RuSentEval: диагностическое тестирование языковых моделей на русском языке”
⌚️ Четверг 3 июня в 19.00 по Москве.

RuSentEval – это новый набор данных для диагностического тестирования (probing) векторных и языковых моделей для русского языка. Набор включает в себя 14 датасетов, которые покрывают различные лингвистические явления – от поверхностных (число слов в предложении) до синтаксических (глубина синтаксического дерева) и семантических (число и род подлежащего). Классический метод диагностического тестирования – обучить классификатор, который предсказывает наличие того или иного явления по вектору предложения. Поведение классификатора может показать, например, какие слои языковой модели более чувствительны к низкоуровневым признакам, а какие – к высокоуровневым.

В работе мы использовали данные RuSentEval и SentEval (английский язык), чтобы провести диагностическое тестирование пяти мультиязычных трансформеров – в том числе mBERT, mBART и LABSE – и узнали, что модели имеют похожее представление о некоторых признаках для обоих языков, несмотря на их типологические различия. А вот mBART и LABSE отличаются от остальных (как именно – читайте в статье).
Репозиторий с кодом и данными доступен по ссылке (https://github.com/RussianNLP/rusenteval).
Forwarded from Big Data Science [RU]
👍🏻Будьте здоровы с DCNN!
В течение многих лет врачи полагались на визуальный осмотр для выявления подозрительных пигментных поражений (SPL), которые могут указывать на рак кожи. Выявление SPL на ранней стадии помогает оперативно выявить меланомы и значительно снизить стоимость лечения. Но быстро найти SPL и определить их важность не так-то просто из-за большого объема пигментных поражений. Исследователи из MIT разработали новый ИИ-конвейер на глубоких сверточных нейросетях (DCNN, deep convolutional neural networks) и реализовали его для анализа SPL через камеру обычного смартфона. Система автоматически обнаруживает, извлекает и анализирует все пигментные поражения кожи, наблюдаемые на широкоугольном фотоснимке. Предварительно обученные ML-модели DCNN определяют подозрительность отдельных пигментных образований и маркируют их: нужен дальнейший осмотр - желтым, требуется направление к дерматологу - красным. Извлеченные признаки используются для последующей оценки пигментных поражений и отображения результатов в виде тепловой карты. Напомним, DCNN – это алгоритмы глубокого обучения, которые используются для классификации изображений с последующей их кластеризацией, например, при поиске по фотографиям.
https://news.mit.edu/2021/artificial-intelligence-tool-can-help-detect-melanoma-0402
#подборка

Всем привет 🚀! За несколько последних дней на канале добавилось очень много новых подписчиков. Рад вас приветствовать на канале. Канал активно развивается, пробую разные форматы и тематики.

Для всех подписчиков и особенно для тех кто к нам присоединился недавно, я решил сформировать тематические подборки старых постов. Постараюсь подборки обновлять, так что получится крутая навигация по каналу.

Пишете в комментариях о чём было бы интересно почитать.🗣️

👨🏻‍💻 Про курсы и обучение хэштег #course

Обзор онлайн-курсов DS/ML личный опыт - часть 1
Deep Learning курсы личный опыт
Какие еще курсы пройти пока вкатываешься в DS/ML?
Как бесплатно получить сертификат на coursera
Прокачиваемся до computer vision researcher

🚊 Production хэштег #production

Machine learning в продакшн — Flask REST API (пост в блоге)
Streamlit - быстрый способ создать приложение для работы с данными
Chalice - фреймворк для написания бессерверных приложений на Python
BentoML

👍 Полезное хэштег #полезно

Visual Studio Code для Data Science
Тестовые задания от разных компаний, на позицию, связанную с Data Scientist
Computer Vision Leaderboard
Модель для сегментации легких на рентгене от меня и моих коллег
Пост в блоге про выбор логирования в Python

⚒️ Много разных интересных python библиотек хэштег #library

albumentations - Библиотека быстрых аугментаций изображений
Dostoevsky - Библиотека анализ тональности текста для русского языка
Newspaper3k - библиотека для извлечения метаданных новостей, полных текстов и статей
scikit-uplift - это модуль Python для классических подходов к моделированию uplift, построенный на основе scikit-learn
SHAP (SHapley Additive exPlanations)
Great Expectations библиотека, которая помогает тестировать данные

📝 Задачки на канале хэштег #task

RFM-анализ
Когортный анализ
Monthly Recurring Revenue

👩‍🔬 Еще отдельно хочу рассказать про свой бесплатный мини курс , где вы изучите основы анализа медицинских изображений с помощью Python. Вы будете изучать КТ и рентген снимки, сегментировать области изображения и проводить анализ метаданных. Даже если вы никогда раньше не работали с медицинскими изображениями, то по завершению курса вы будете обладать всеми необходимы навыками.
Пока курс бесплатный, но скоро станет платным. Все кто успеют записать буду проходить его бесплатно.
Forwarded from Start Career in DS
Теорема Байеса - одна из основ машинного обучения, на которой держится множество алгоритмов. Вот видео, с которым вы раз и навсегда разберетесь что это и как её правильно интерпретировать: https://youtu.be/_bcAK_1a72k