Forwarded from Small Data Science for Russian Adventurers
C4. Data Science Interview.pdf
15.6 MB
#карьера
Вопросы для DS-собеседования
Вопросы для DS-собеседования
Forwarded from Small Data Science for Russian Adventurers
C4. Data Science Interview.pdf
15.6 MB
#карьера
Вопросы для DS-собеседования
Вопросы для DS-собеседования
Forwarded from Sberloga (Alexander C)
🚀 @sberloga рекомендует онлайн доклад по NLP (Natural Language Processing) на семинаре ВШЭ
Телеграм канал семинара ВШЭ: @nlp_seminar
👨🔬 Владислав Михайлов (Сбер), Екатерина Такташева (ВШЭ), Элина Сигдал (ВШЭ) “RuSentEval: диагностическое тестирование языковых моделей на русском языке”
⌚️ Четверг 3 июня в 19.00 по Москве.
RuSentEval – это новый набор данных для диагностического тестирования (probing) векторных и языковых моделей для русского языка. Набор включает в себя 14 датасетов, которые покрывают различные лингвистические явления – от поверхностных (число слов в предложении) до синтаксических (глубина синтаксического дерева) и семантических (число и род подлежащего). Классический метод диагностического тестирования – обучить классификатор, который предсказывает наличие того или иного явления по вектору предложения. Поведение классификатора может показать, например, какие слои языковой модели более чувствительны к низкоуровневым признакам, а какие – к высокоуровневым.
В работе мы использовали данные RuSentEval и SentEval (английский язык), чтобы провести диагностическое тестирование пяти мультиязычных трансформеров – в том числе mBERT, mBART и LABSE – и узнали, что модели имеют похожее представление о некоторых признаках для обоих языков, несмотря на их типологические различия. А вот mBART и LABSE отличаются от остальных (как именно – читайте в статье).
Репозиторий с кодом и данными доступен по ссылке (https://github.com/RussianNLP/rusenteval).
Телеграм канал семинара ВШЭ: @nlp_seminar
👨🔬 Владислав Михайлов (Сбер), Екатерина Такташева (ВШЭ), Элина Сигдал (ВШЭ) “RuSentEval: диагностическое тестирование языковых моделей на русском языке”
⌚️ Четверг 3 июня в 19.00 по Москве.
RuSentEval – это новый набор данных для диагностического тестирования (probing) векторных и языковых моделей для русского языка. Набор включает в себя 14 датасетов, которые покрывают различные лингвистические явления – от поверхностных (число слов в предложении) до синтаксических (глубина синтаксического дерева) и семантических (число и род подлежащего). Классический метод диагностического тестирования – обучить классификатор, который предсказывает наличие того или иного явления по вектору предложения. Поведение классификатора может показать, например, какие слои языковой модели более чувствительны к низкоуровневым признакам, а какие – к высокоуровневым.
В работе мы использовали данные RuSentEval и SentEval (английский язык), чтобы провести диагностическое тестирование пяти мультиязычных трансформеров – в том числе mBERT, mBART и LABSE – и узнали, что модели имеют похожее представление о некоторых признаках для обоих языков, несмотря на их типологические различия. А вот mBART и LABSE отличаются от остальных (как именно – читайте в статье).
Репозиторий с кодом и данными доступен по ссылке (https://github.com/RussianNLP/rusenteval).
GitHub
GitHub - RussianNLP/RuSentEval: Probing suite for evaluation of Russian embedding and language models
Probing suite for evaluation of Russian embedding and language models - RussianNLP/RuSentEval
Forwarded from DATApedia | Data science
Хабр
Организуем платформу обработки потоковых данных из Kafka, Spark и Greenplum
Привет, Хабр! Меня зовут Иван Хозяинов, а работаю в ITSumma, где изучаю и применяю технологии, связанные с большими данными, машинным обучением и аналитикой. В этой статье хочу рассказать о системе...
Forwarded from Valerii
вот тут хорошо написано
Хабр
Интерактивная визуализация данных при помощи Plotly: строим красивые графики с Express и Cufflinks
Если Вы все еще используете Matplotlib для создания графиков в Python, самое время взглянуть на мир с высоты альтернативной библиотеки интерактивной визуализации. Plotly позволяет создавать...
Forwarded from Big Data Science [RU]
👍🏻Будьте здоровы с DCNN!
В течение многих лет врачи полагались на визуальный осмотр для выявления подозрительных пигментных поражений (SPL), которые могут указывать на рак кожи. Выявление SPL на ранней стадии помогает оперативно выявить меланомы и значительно снизить стоимость лечения. Но быстро найти SPL и определить их важность не так-то просто из-за большого объема пигментных поражений. Исследователи из MIT разработали новый ИИ-конвейер на глубоких сверточных нейросетях (DCNN, deep convolutional neural networks) и реализовали его для анализа SPL через камеру обычного смартфона. Система автоматически обнаруживает, извлекает и анализирует все пигментные поражения кожи, наблюдаемые на широкоугольном фотоснимке. Предварительно обученные ML-модели DCNN определяют подозрительность отдельных пигментных образований и маркируют их: нужен дальнейший осмотр - желтым, требуется направление к дерматологу - красным. Извлеченные признаки используются для последующей оценки пигментных поражений и отображения результатов в виде тепловой карты. Напомним, DCNN – это алгоритмы глубокого обучения, которые используются для классификации изображений с последующей их кластеризацией, например, при поиске по фотографиям.
https://news.mit.edu/2021/artificial-intelligence-tool-can-help-detect-melanoma-0402
В течение многих лет врачи полагались на визуальный осмотр для выявления подозрительных пигментных поражений (SPL), которые могут указывать на рак кожи. Выявление SPL на ранней стадии помогает оперативно выявить меланомы и значительно снизить стоимость лечения. Но быстро найти SPL и определить их важность не так-то просто из-за большого объема пигментных поражений. Исследователи из MIT разработали новый ИИ-конвейер на глубоких сверточных нейросетях (DCNN, deep convolutional neural networks) и реализовали его для анализа SPL через камеру обычного смартфона. Система автоматически обнаруживает, извлекает и анализирует все пигментные поражения кожи, наблюдаемые на широкоугольном фотоснимке. Предварительно обученные ML-модели DCNN определяют подозрительность отдельных пигментных образований и маркируют их: нужен дальнейший осмотр - желтым, требуется направление к дерматологу - красным. Извлеченные признаки используются для последующей оценки пигментных поражений и отображения результатов в виде тепловой карты. Напомним, DCNN – это алгоритмы глубокого обучения, которые используются для классификации изображений с последующей их кластеризацией, например, при поиске по фотографиям.
https://news.mit.edu/2021/artificial-intelligence-tool-can-help-detect-melanoma-0402
MIT News
An artificial intelligence tool that can help detect melanoma
An artificial intelligence system can efficiently detect melanoma, a type of skin cancer. MIT researchers used deep convolutional neural networks (DCNNs) to quickly analyze wide-field photos of patients’ bodies.
Forwarded from DATApedia | Data science
Telegraph
Диаграмма Сэнкей (Sankey diagram) на Python
Я занимаюсь аналитикой данных в Aliradar. Мы не представлены на Хабре, но у меня поднакопился материал, которым хотелось бы поделиться. Написать эту статью меня сподвигло отсутствие годных гайдов по построению диаграммы Сэнкей с использованием python на русском…
Forwarded from Пристанище Дата Сайентиста
#подборка
Всем привет 🚀! За несколько последних дней на канале добавилось очень много новых подписчиков. Рад вас приветствовать на канале. Канал активно развивается, пробую разные форматы и тематики.
Для всех подписчиков и особенно для тех кто к нам присоединился недавно, я решил сформировать тематические подборки старых постов. Постараюсь подборки обновлять, так что получится крутая навигация по каналу.
Пишете в комментариях о чём было бы интересно почитать.🗣️
👨🏻💻 Про курсы и обучение хэштег #course
Обзор онлайн-курсов DS/ML личный опыт - часть 1
Deep Learning курсы личный опыт
Какие еще курсы пройти пока вкатываешься в DS/ML?
Как бесплатно получить сертификат на coursera
Прокачиваемся до computer vision researcher
🚊 Production хэштег #production
Machine learning в продакшн — Flask REST API (пост в блоге)
Streamlit - быстрый способ создать приложение для работы с данными
Chalice - фреймворк для написания бессерверных приложений на Python
BentoML
👍 Полезное хэштег #полезно
Visual Studio Code для Data Science
Тестовые задания от разных компаний, на позицию, связанную с Data Scientist
Computer Vision Leaderboard
Модель для сегментации легких на рентгене от меня и моих коллег
Пост в блоге про выбор логирования в Python
⚒️ Много разных интересных python библиотек хэштег #library
albumentations - Библиотека быстрых аугментаций изображений
Dostoevsky - Библиотека анализ тональности текста для русского языка
Newspaper3k - библиотека для извлечения метаданных новостей, полных текстов и статей
scikit-uplift - это модуль Python для классических подходов к моделированию uplift, построенный на основе scikit-learn
SHAP (SHapley Additive exPlanations)
Great Expectations библиотека, которая помогает тестировать данные
📝 Задачки на канале хэштег #task
RFM-анализ
Когортный анализ
Monthly Recurring Revenue
👩🔬 Еще отдельно хочу рассказать про свой бесплатный мини курс , где вы изучите основы анализа медицинских изображений с помощью Python. Вы будете изучать КТ и рентген снимки, сегментировать области изображения и проводить анализ метаданных. Даже если вы никогда раньше не работали с медицинскими изображениями, то по завершению курса вы будете обладать всеми необходимы навыками.
Пока курс бесплатный, но скоро станет платным. Все кто успеют записать буду проходить его бесплатно.
Всем привет 🚀! За несколько последних дней на канале добавилось очень много новых подписчиков. Рад вас приветствовать на канале. Канал активно развивается, пробую разные форматы и тематики.
Для всех подписчиков и особенно для тех кто к нам присоединился недавно, я решил сформировать тематические подборки старых постов. Постараюсь подборки обновлять, так что получится крутая навигация по каналу.
Пишете в комментариях о чём было бы интересно почитать.🗣️
👨🏻💻 Про курсы и обучение хэштег #course
Обзор онлайн-курсов DS/ML личный опыт - часть 1
Deep Learning курсы личный опыт
Какие еще курсы пройти пока вкатываешься в DS/ML?
Как бесплатно получить сертификат на coursera
Прокачиваемся до computer vision researcher
🚊 Production хэштег #production
Machine learning в продакшн — Flask REST API (пост в блоге)
Streamlit - быстрый способ создать приложение для работы с данными
Chalice - фреймворк для написания бессерверных приложений на Python
BentoML
👍 Полезное хэштег #полезно
Visual Studio Code для Data Science
Тестовые задания от разных компаний, на позицию, связанную с Data Scientist
Computer Vision Leaderboard
Модель для сегментации легких на рентгене от меня и моих коллег
Пост в блоге про выбор логирования в Python
⚒️ Много разных интересных python библиотек хэштег #library
albumentations - Библиотека быстрых аугментаций изображений
Dostoevsky - Библиотека анализ тональности текста для русского языка
Newspaper3k - библиотека для извлечения метаданных новостей, полных текстов и статей
scikit-uplift - это модуль Python для классических подходов к моделированию uplift, построенный на основе scikit-learn
SHAP (SHapley Additive exPlanations)
Great Expectations библиотека, которая помогает тестировать данные
📝 Задачки на канале хэштег #task
RFM-анализ
Когортный анализ
Monthly Recurring Revenue
👩🔬 Еще отдельно хочу рассказать про свой бесплатный мини курс , где вы изучите основы анализа медицинских изображений с помощью Python. Вы будете изучать КТ и рентген снимки, сегментировать области изображения и проводить анализ метаданных. Даже если вы никогда раньше не работали с медицинскими изображениями, то по завершению курса вы будете обладать всеми необходимы навыками.
Пока курс бесплатный, но скоро станет платным. Все кто успеют записать буду проходить его бесплатно.
Forwarded from DATApedia | Data science
Хабр
Самообучение в Data science, с нуля до Senior за два года
Хочу поделиться методами освоения Data science с нуля человеком из другой ИТ специальности. Цель: дать понять, подходит ли Вам эта специальность в принципе, и рассказать про эффективные подходы к...
Forwarded from Start Career in DS
Теорема Байеса - одна из основ машинного обучения, на которой держится множество алгоритмов. Вот видео, с которым вы раз и навсегда разберетесь что это и как её правильно интерпретировать: https://youtu.be/_bcAK_1a72k
YouTube
Теорема Байеса [3Blue1Brown]
Смотреть видео в оригинале: https://youtu.be/HZGCoVF3YvM
Поддержать выход переводов: https://vertdider.tv/to-support-us/
Теорема Байеса — одна из основных в теории вероятностей. Она имеет довольно широкую область применения, в частности, помогает учёным…
Поддержать выход переводов: https://vertdider.tv/to-support-us/
Теорема Байеса — одна из основных в теории вероятностей. Она имеет довольно широкую область применения, в частности, помогает учёным…