Forwarded from Пристанище Дата Сайентиста
#полезно #пост_от_подписчика
Мне тут подписчик @Aykhan_txt прислал крутой пост
Год Работы на Google Colab
Google Colab — это бесплатный облачный сервис на основе Jupyter Notebook, который дает возможность работать на GPU или TPU. Здесь я расскажу об основных минусах и как я с ними боролся.
Поговорим об ограничениях. Вместе с ними буду предлагать пути решения:
1) Время работы сессии только до 12 часов. После чего, нужно будет перезапускать блокнот. Все данные, которые были на диске благополучно исчезнут.
Поэтому, предлагаю вам подключить к Colab еще и Google Drive и сохранять все логи и веса моделей туда. После отключения блокнота все важные данные у вас будут на вашем Google Drive.
2) При длительном бездействии (30-60 минут) следует отключение блокнота.
Решение этой проблемы можно найти в приложенном jupyter notebook
3) При постоянном использовании (примерно 3-4 дня подряд) доступ к быстрым видеокартам закрывается и для ваших сессий будут выделены более медленные графические процессоры. В некоторых случаях может доступ к GPU закрыт полностью. Для восстановления прежних мощностей придется подождать до 2 суток.
Для себя я нашел решение в переменном использовании Kaggle блокнотов и Colab. Kaggle имеет те же самые параметры и дает возможность использовать сервис 30 часов в неделе (иногда даже больше).
4) Ограниченный объем памяти 60-80 гб.
Решения для этой проблемы я не нашел в рамках самого Colab и я просто пользовался Kaggle, так как там проще подключать датасеты.
5) Загрузка данных с локального компьютера на диск очень медленная.
Лучше всего грузить данные с интернета через команды !wget, !git clone.
6) Очень медленная работа с Google Drive. Если Ваш датасет находится на Гугл диске, знайте, данные оттуда грузятся очень медленно. Лучше все грузить на диск Colab или же сразу в оперативную память
Полезный ноутбук: https://colab.research.google.com/drive/1-6Q3YjFdeLfqSWXuVvdLsl0pUc1nT4Gi#scrollTo=h9qy2qPehifB
Мне тут подписчик @Aykhan_txt прислал крутой пост
Год Работы на Google Colab
Google Colab — это бесплатный облачный сервис на основе Jupyter Notebook, который дает возможность работать на GPU или TPU. Здесь я расскажу об основных минусах и как я с ними боролся.
Поговорим об ограничениях. Вместе с ними буду предлагать пути решения:
1) Время работы сессии только до 12 часов. После чего, нужно будет перезапускать блокнот. Все данные, которые были на диске благополучно исчезнут.
Поэтому, предлагаю вам подключить к Colab еще и Google Drive и сохранять все логи и веса моделей туда. После отключения блокнота все важные данные у вас будут на вашем Google Drive.
2) При длительном бездействии (30-60 минут) следует отключение блокнота.
Решение этой проблемы можно найти в приложенном jupyter notebook
3) При постоянном использовании (примерно 3-4 дня подряд) доступ к быстрым видеокартам закрывается и для ваших сессий будут выделены более медленные графические процессоры. В некоторых случаях может доступ к GPU закрыт полностью. Для восстановления прежних мощностей придется подождать до 2 суток.
Для себя я нашел решение в переменном использовании Kaggle блокнотов и Colab. Kaggle имеет те же самые параметры и дает возможность использовать сервис 30 часов в неделе (иногда даже больше).
4) Ограниченный объем памяти 60-80 гб.
Решения для этой проблемы я не нашел в рамках самого Colab и я просто пользовался Kaggle, так как там проще подключать датасеты.
5) Загрузка данных с локального компьютера на диск очень медленная.
Лучше всего грузить данные с интернета через команды !wget, !git clone.
6) Очень медленная работа с Google Drive. Если Ваш датасет находится на Гугл диске, знайте, данные оттуда грузятся очень медленно. Лучше все грузить на диск Colab или же сразу в оперативную память
Полезный ноутбук: https://colab.research.google.com/drive/1-6Q3YjFdeLfqSWXuVvdLsl0pUc1nT4Gi#scrollTo=h9qy2qPehifB
Google
Colab tips.ipynb
Colaboratory notebook
Forwarded from Хроники ботки (Aleksei Shestov 𓆏)
AutoML это алгоритмы, которые подбирают алгоритм, параметры и их комбинации специально для конкретного датасета. То есть такая замена дата саентиста. Сбербанк выпустил свой опенсорсный автомл фреймворк на питоне, призываю все пользоваться, шарить и распространять :) Александр Рыжков, Дмитрий Симаков и их коллеги разрабатывают автомл в Сбере, они уже делали доклад в декабре
https://www.youtube.com/watch?v=ci8uqgWFJGg&list=PLYeFZ_T6PUrILcK5rKHlb9PdBp-ySitUN,
а сейчас можно посмотреть участие автомл в каггл соревнование и его выигрыш относительно других автомл
https://www.kaggle.com/alexryzhkov/tps-april-21-lightautoml-starter (не жалейте ваши апвоуты этому ноутбуку на каггле :)
Проект в опенсорсе - https://github.com/sberbank-ai-lab/LightAutoML
И бенчмарки: https://github.com/sberbank-ai-lab/automlbenchmark/tree/lightautoml
https://www.youtube.com/watch?v=ci8uqgWFJGg&list=PLYeFZ_T6PUrILcK5rKHlb9PdBp-ySitUN,
а сейчас можно посмотреть участие автомл в каггл соревнование и его выигрыш относительно других автомл
https://www.kaggle.com/alexryzhkov/tps-april-21-lightautoml-starter (не жалейте ваши апвоуты этому ноутбуку на каггле :)
Проект в опенсорсе - https://github.com/sberbank-ai-lab/LightAutoML
И бенчмарки: https://github.com/sberbank-ai-lab/automlbenchmark/tree/lightautoml
YouTube
Александр Рыжков, Дмитрий Симаков - АвтоМЛ LightAutoML (или коротко LAMA)
LightAutoML (или коротко LAMA) - новая библиотека для автоматизации построения ML моделей. Мы расскажем, для решения каких задач создавался наш LightAutoML, чем он выделяется на фоне конкурентов и какую пользу способен принести пользователям и бизнесу.
…
…
Отличная статья по использованию ML в Ecommerce https://www.icicletech.com/blog/ai-ml-changing-ecommerce
Icicle - Web & Mobile App Development on Ruby on Rails, React Native, Elixir
8 Ways AI and ML are Changing eCommerce in 2020
eCommerce developers are changing the game with artificial intelligence and machine learning, providing new kinds of customer service and increasing sales. Here’s 8 ways AI and ML are changing online shopping for good.
Forwarded from TechSparks
Во-первых, хорошие популярные материалы про машинное обучение — увы, редкость. Тем более — оригинальные отечественные.
Во-вторых, я очень люблю все материалы, к которым имеет отношение Саша Крайнов: не просто отличный эксперт, но и талантливый фантазёр и отличный рассказчик.
Вот вам прекрасный ролик с достойным названием «Гадание на датасетах»;)
https://youtu.be/zUlm0MKquKo
Во-вторых, я очень люблю все материалы, к которым имеет отношение Саша Крайнов: не просто отличный эксперт, но и талантливый фантазёр и отличный рассказчик.
Вот вам прекрасный ролик с достойным названием «Гадание на датасетах»;)
https://youtu.be/zUlm0MKquKo
YouTube
Гадание на датасетах: машинное обучение
Беспилотные автомобили, обработка естественного языка, компьютерное зрение и даже искусство развиваются благодаря машинному обучению. И оно не стоит на месте — учёные постоянно совершенствуют существующие алгоритмы и создают новые подходы.
Чтобы поддержать…
Чтобы поддержать…
Forwarded from Data Science Guy
Очень хорошие видосы, не могу не поделиться:
Samsung релизнул курс из 16 (и еще будут) разных лекций про нейронки https://news.samsung.com/ru/samsung-ai-innovation-campus
у них есть:
1. очень крутая лекция про ГАНы с более-менее строгими выводами
и про img2img ганы
2. всякие детекции/сегментации/оптические потоки/поиски по картинкам
3. как ускорять и запускать на телефонах
4. даже нейрорендеренг чуть-чуть
5. как ставить эксперименты и участвовать в соревнованиях
и вообще много разного
смотреть тут:
https://www.youtube.com/playlist?list=PLJEYfuHbcEIB-DdeoWaQ6Bzt0903kbmWK
Samsung релизнул курс из 16 (и еще будут) разных лекций про нейронки https://news.samsung.com/ru/samsung-ai-innovation-campus
у них есть:
1. очень крутая лекция про ГАНы с более-менее строгими выводами
и про img2img ганы
2. всякие детекции/сегментации/оптические потоки/поиски по картинкам
3. как ускорять и запускать на телефонах
4. даже нейрорендеренг чуть-чуть
5. как ставить эксперименты и участвовать в соревнованиях
и вообще много разного
смотреть тут:
https://www.youtube.com/playlist?list=PLJEYfuHbcEIB-DdeoWaQ6Bzt0903kbmWK
Samsung
Samsung открывает цикл лекций по Искусственному интеллекту в рамках Samsung Innovation Campus
В рамках трека «Искусственный Интеллект» проекта «IT Академия Samsung» открывается цикл
Forwarded from Small Data Science for Russian Adventurers
C4. Data Science Interview.pdf
15.6 MB
#карьера
Вопросы для DS-собеседования
Вопросы для DS-собеседования
Forwarded from Small Data Science for Russian Adventurers
C4. Data Science Interview.pdf
15.6 MB
#карьера
Вопросы для DS-собеседования
Вопросы для DS-собеседования
Forwarded from Sberloga (Alexander C)
🚀 @sberloga рекомендует онлайн доклад по NLP (Natural Language Processing) на семинаре ВШЭ
Телеграм канал семинара ВШЭ: @nlp_seminar
👨🔬 Владислав Михайлов (Сбер), Екатерина Такташева (ВШЭ), Элина Сигдал (ВШЭ) “RuSentEval: диагностическое тестирование языковых моделей на русском языке”
⌚️ Четверг 3 июня в 19.00 по Москве.
RuSentEval – это новый набор данных для диагностического тестирования (probing) векторных и языковых моделей для русского языка. Набор включает в себя 14 датасетов, которые покрывают различные лингвистические явления – от поверхностных (число слов в предложении) до синтаксических (глубина синтаксического дерева) и семантических (число и род подлежащего). Классический метод диагностического тестирования – обучить классификатор, который предсказывает наличие того или иного явления по вектору предложения. Поведение классификатора может показать, например, какие слои языковой модели более чувствительны к низкоуровневым признакам, а какие – к высокоуровневым.
В работе мы использовали данные RuSentEval и SentEval (английский язык), чтобы провести диагностическое тестирование пяти мультиязычных трансформеров – в том числе mBERT, mBART и LABSE – и узнали, что модели имеют похожее представление о некоторых признаках для обоих языков, несмотря на их типологические различия. А вот mBART и LABSE отличаются от остальных (как именно – читайте в статье).
Репозиторий с кодом и данными доступен по ссылке (https://github.com/RussianNLP/rusenteval).
Телеграм канал семинара ВШЭ: @nlp_seminar
👨🔬 Владислав Михайлов (Сбер), Екатерина Такташева (ВШЭ), Элина Сигдал (ВШЭ) “RuSentEval: диагностическое тестирование языковых моделей на русском языке”
⌚️ Четверг 3 июня в 19.00 по Москве.
RuSentEval – это новый набор данных для диагностического тестирования (probing) векторных и языковых моделей для русского языка. Набор включает в себя 14 датасетов, которые покрывают различные лингвистические явления – от поверхностных (число слов в предложении) до синтаксических (глубина синтаксического дерева) и семантических (число и род подлежащего). Классический метод диагностического тестирования – обучить классификатор, который предсказывает наличие того или иного явления по вектору предложения. Поведение классификатора может показать, например, какие слои языковой модели более чувствительны к низкоуровневым признакам, а какие – к высокоуровневым.
В работе мы использовали данные RuSentEval и SentEval (английский язык), чтобы провести диагностическое тестирование пяти мультиязычных трансформеров – в том числе mBERT, mBART и LABSE – и узнали, что модели имеют похожее представление о некоторых признаках для обоих языков, несмотря на их типологические различия. А вот mBART и LABSE отличаются от остальных (как именно – читайте в статье).
Репозиторий с кодом и данными доступен по ссылке (https://github.com/RussianNLP/rusenteval).
GitHub
GitHub - RussianNLP/RuSentEval: Probing suite for evaluation of Russian embedding and language models
Probing suite for evaluation of Russian embedding and language models - RussianNLP/RuSentEval
Forwarded from DATApedia | Data science
Хабр
Организуем платформу обработки потоковых данных из Kafka, Spark и Greenplum
Привет, Хабр! Меня зовут Иван Хозяинов, а работаю в ITSumma, где изучаю и применяю технологии, связанные с большими данными, машинным обучением и аналитикой. В этой статье хочу рассказать о системе...
Forwarded from Valerii
вот тут хорошо написано
Хабр
Интерактивная визуализация данных при помощи Plotly: строим красивые графики с Express и Cufflinks
Если Вы все еще используете Matplotlib для создания графиков в Python, самое время взглянуть на мир с высоты альтернативной библиотеки интерактивной визуализации. Plotly позволяет создавать...
Forwarded from Big Data Science [RU]
👍🏻Будьте здоровы с DCNN!
В течение многих лет врачи полагались на визуальный осмотр для выявления подозрительных пигментных поражений (SPL), которые могут указывать на рак кожи. Выявление SPL на ранней стадии помогает оперативно выявить меланомы и значительно снизить стоимость лечения. Но быстро найти SPL и определить их важность не так-то просто из-за большого объема пигментных поражений. Исследователи из MIT разработали новый ИИ-конвейер на глубоких сверточных нейросетях (DCNN, deep convolutional neural networks) и реализовали его для анализа SPL через камеру обычного смартфона. Система автоматически обнаруживает, извлекает и анализирует все пигментные поражения кожи, наблюдаемые на широкоугольном фотоснимке. Предварительно обученные ML-модели DCNN определяют подозрительность отдельных пигментных образований и маркируют их: нужен дальнейший осмотр - желтым, требуется направление к дерматологу - красным. Извлеченные признаки используются для последующей оценки пигментных поражений и отображения результатов в виде тепловой карты. Напомним, DCNN – это алгоритмы глубокого обучения, которые используются для классификации изображений с последующей их кластеризацией, например, при поиске по фотографиям.
https://news.mit.edu/2021/artificial-intelligence-tool-can-help-detect-melanoma-0402
В течение многих лет врачи полагались на визуальный осмотр для выявления подозрительных пигментных поражений (SPL), которые могут указывать на рак кожи. Выявление SPL на ранней стадии помогает оперативно выявить меланомы и значительно снизить стоимость лечения. Но быстро найти SPL и определить их важность не так-то просто из-за большого объема пигментных поражений. Исследователи из MIT разработали новый ИИ-конвейер на глубоких сверточных нейросетях (DCNN, deep convolutional neural networks) и реализовали его для анализа SPL через камеру обычного смартфона. Система автоматически обнаруживает, извлекает и анализирует все пигментные поражения кожи, наблюдаемые на широкоугольном фотоснимке. Предварительно обученные ML-модели DCNN определяют подозрительность отдельных пигментных образований и маркируют их: нужен дальнейший осмотр - желтым, требуется направление к дерматологу - красным. Извлеченные признаки используются для последующей оценки пигментных поражений и отображения результатов в виде тепловой карты. Напомним, DCNN – это алгоритмы глубокого обучения, которые используются для классификации изображений с последующей их кластеризацией, например, при поиске по фотографиям.
https://news.mit.edu/2021/artificial-intelligence-tool-can-help-detect-melanoma-0402
MIT News
An artificial intelligence tool that can help detect melanoma
An artificial intelligence system can efficiently detect melanoma, a type of skin cancer. MIT researchers used deep convolutional neural networks (DCNNs) to quickly analyze wide-field photos of patients’ bodies.
Forwarded from DATApedia | Data science
Telegraph
Диаграмма Сэнкей (Sankey diagram) на Python
Я занимаюсь аналитикой данных в Aliradar. Мы не представлены на Хабре, но у меня поднакопился материал, которым хотелось бы поделиться. Написать эту статью меня сподвигло отсутствие годных гайдов по построению диаграммы Сэнкей с использованием python на русском…
Forwarded from Пристанище Дата Сайентиста
#подборка
Всем привет 🚀! За несколько последних дней на канале добавилось очень много новых подписчиков. Рад вас приветствовать на канале. Канал активно развивается, пробую разные форматы и тематики.
Для всех подписчиков и особенно для тех кто к нам присоединился недавно, я решил сформировать тематические подборки старых постов. Постараюсь подборки обновлять, так что получится крутая навигация по каналу.
Пишете в комментариях о чём было бы интересно почитать.🗣️
👨🏻💻 Про курсы и обучение хэштег #course
Обзор онлайн-курсов DS/ML личный опыт - часть 1
Deep Learning курсы личный опыт
Какие еще курсы пройти пока вкатываешься в DS/ML?
Как бесплатно получить сертификат на coursera
Прокачиваемся до computer vision researcher
🚊 Production хэштег #production
Machine learning в продакшн — Flask REST API (пост в блоге)
Streamlit - быстрый способ создать приложение для работы с данными
Chalice - фреймворк для написания бессерверных приложений на Python
BentoML
👍 Полезное хэштег #полезно
Visual Studio Code для Data Science
Тестовые задания от разных компаний, на позицию, связанную с Data Scientist
Computer Vision Leaderboard
Модель для сегментации легких на рентгене от меня и моих коллег
Пост в блоге про выбор логирования в Python
⚒️ Много разных интересных python библиотек хэштег #library
albumentations - Библиотека быстрых аугментаций изображений
Dostoevsky - Библиотека анализ тональности текста для русского языка
Newspaper3k - библиотека для извлечения метаданных новостей, полных текстов и статей
scikit-uplift - это модуль Python для классических подходов к моделированию uplift, построенный на основе scikit-learn
SHAP (SHapley Additive exPlanations)
Great Expectations библиотека, которая помогает тестировать данные
📝 Задачки на канале хэштег #task
RFM-анализ
Когортный анализ
Monthly Recurring Revenue
👩🔬 Еще отдельно хочу рассказать про свой бесплатный мини курс , где вы изучите основы анализа медицинских изображений с помощью Python. Вы будете изучать КТ и рентген снимки, сегментировать области изображения и проводить анализ метаданных. Даже если вы никогда раньше не работали с медицинскими изображениями, то по завершению курса вы будете обладать всеми необходимы навыками.
Пока курс бесплатный, но скоро станет платным. Все кто успеют записать буду проходить его бесплатно.
Всем привет 🚀! За несколько последних дней на канале добавилось очень много новых подписчиков. Рад вас приветствовать на канале. Канал активно развивается, пробую разные форматы и тематики.
Для всех подписчиков и особенно для тех кто к нам присоединился недавно, я решил сформировать тематические подборки старых постов. Постараюсь подборки обновлять, так что получится крутая навигация по каналу.
Пишете в комментариях о чём было бы интересно почитать.🗣️
👨🏻💻 Про курсы и обучение хэштег #course
Обзор онлайн-курсов DS/ML личный опыт - часть 1
Deep Learning курсы личный опыт
Какие еще курсы пройти пока вкатываешься в DS/ML?
Как бесплатно получить сертификат на coursera
Прокачиваемся до computer vision researcher
🚊 Production хэштег #production
Machine learning в продакшн — Flask REST API (пост в блоге)
Streamlit - быстрый способ создать приложение для работы с данными
Chalice - фреймворк для написания бессерверных приложений на Python
BentoML
👍 Полезное хэштег #полезно
Visual Studio Code для Data Science
Тестовые задания от разных компаний, на позицию, связанную с Data Scientist
Computer Vision Leaderboard
Модель для сегментации легких на рентгене от меня и моих коллег
Пост в блоге про выбор логирования в Python
⚒️ Много разных интересных python библиотек хэштег #library
albumentations - Библиотека быстрых аугментаций изображений
Dostoevsky - Библиотека анализ тональности текста для русского языка
Newspaper3k - библиотека для извлечения метаданных новостей, полных текстов и статей
scikit-uplift - это модуль Python для классических подходов к моделированию uplift, построенный на основе scikit-learn
SHAP (SHapley Additive exPlanations)
Great Expectations библиотека, которая помогает тестировать данные
📝 Задачки на канале хэштег #task
RFM-анализ
Когортный анализ
Monthly Recurring Revenue
👩🔬 Еще отдельно хочу рассказать про свой бесплатный мини курс , где вы изучите основы анализа медицинских изображений с помощью Python. Вы будете изучать КТ и рентген снимки, сегментировать области изображения и проводить анализ метаданных. Даже если вы никогда раньше не работали с медицинскими изображениями, то по завершению курса вы будете обладать всеми необходимы навыками.
Пока курс бесплатный, но скоро станет платным. Все кто успеют записать буду проходить его бесплатно.
Forwarded from DATApedia | Data science
Хабр
Самообучение в Data science, с нуля до Senior за два года
Хочу поделиться методами освоения Data science с нуля человеком из другой ИТ специальности. Цель: дать понять, подходит ли Вам эта специальность в принципе, и рассказать про эффективные подходы к...
Forwarded from Start Career in DS
Теорема Байеса - одна из основ машинного обучения, на которой держится множество алгоритмов. Вот видео, с которым вы раз и навсегда разберетесь что это и как её правильно интерпретировать: https://youtu.be/_bcAK_1a72k
YouTube
Теорема Байеса [3Blue1Brown]
Смотреть видео в оригинале: https://youtu.be/HZGCoVF3YvM
Поддержать выход переводов: https://vertdider.tv/to-support-us/
Теорема Байеса — одна из основных в теории вероятностей. Она имеет довольно широкую область применения, в частности, помогает учёным…
Поддержать выход переводов: https://vertdider.tv/to-support-us/
Теорема Байеса — одна из основных в теории вероятностей. Она имеет довольно широкую область применения, в частности, помогает учёным…