Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20K subscribers
628 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​Что должен знать дата-инженер. Роадмап для джуниора

Меня зовут Иван Васенков и я джуниор дата-инженер в дирекции данных и аналитики Lamoda. Но к этой профессии я пришел не сразу: окончив университет, я начал работать аналитиком данных, затем стал BI-разработчиком, а уже после этого — дата-инженером.

На моем пути были простые и сложные участки: где-то помогал опыт предыдущей работы, а где-то приходилось доучиваться практически на ходу. Именно поэтому я хочу поделиться советами из своего опыта, которые помогут начинающим специалистам быть максимально готовыми к вступлению в мир дата-инжиниринга. 

Читать...
​​iPavlov разросся: автопилот, голосовой помощник, машинное зрение, предиктивная аналитика, Smart City и Smart Clinic

Пару лет назад мы делали интервью с Михаилом Бурцевым из МФТИ — создателем системы разговорного ИИ iPavlov. Очень интересный человек, который в 2015 году удачно скрестил свой талант с программами госфинансирования через «Сбер» и НТИ (АСИ). Все началось с библиотеки DeepPavlov, которую в итоге скачали больше миллиона раз. Затем проект расползся по соседним нишам, причем мне кажется, что скоро появится целая корпорация iPavlov с целым пакетом ИИ-продуктов федерального масштаба. Насколько это хорошо или плохо, не могу сказать. Иногда случается так, что быстрый успех может вскружить голову.

Под катом — интервью с нынешним директором iPavlov Лораном Акопяном про то, какое место российские технологии занимают в мировой ИИ-индустрии, изменится ли что-то из-за сложностей с поставками «железа» и в каком направлении развивается сам iPavlov. 

Читать...
​​Как легко развертывать модели МО в 2022 году с помощью Streamlit, BentoML и DagsHub

В этой статье представлен метод развертывания, который позволит представить модель в виде API, контейнера Docker и веб-приложения — и все это за несколько минут с помощью пары коротких скриптов Python.

Читать...
​​Сколько денег приносит системное решение по А/Б тестам?

Меня зовут Наталья Тоганова, я работаю старшим бизнес-аналитиком в компании GlowByte. Мы помогаем компаниям с построением моделей, задачами на стыке data science и инфраструктуры, а также с аналитикой и А/Б тестами. Здесь я хочу поговорить об А/Б тестах и финансовых надеждах, которые на них возлагаются. 

Читать...
​​Как составить Data Science портфолио? Часть 1

Как получить работу в области Data Science?
Во-первых, нужно знать основы статистики, машинного обучения, программирования и т.д. Во-вторых, вам нужно будет составить портфолио. Да, несомненно, готовое резюме очень важно при трудоустройстве, но наличие портфолио будет вашим козырем. Даже если работа, фактически, уже у вас в кармане — никогда не будет лишним наглядно показать, а не просто объяснить на словах, будущему работодателю, что конкретно вы умеете делать. В этой статье я приведу ссылки на интервью, в которых различные Data Science-специалисты рассказывают о том, как правильно составить портфолио и как выделиться на фоне остальных кандидатов. Приступим!

Читать...
​​Заметки дата-инженера: интеграция Kafka и PySpark

Данная статья будет полезна тем, чья деятельность связана с Data Engineering, и тем, кто только знакомится с этой славной профессией. Вы узнаете про особенности настройки и интеграции Kafka со Structured Streaming, а также увидите различные способы чтения данных, работы с водяными метками и скользящим окном.

Читать...
​​Графики в Python: 9 видов визуализации, привлекающих внимание лучше, чем гистограмма. Инструкция по визуализации данных.

Гистограмму нетрудно создать и просто понять. Однако есть и другие виды графиков, способных донести идею в некоторых случаях гораздо лучше привычной гистограммы. Ловите девять идей (с кодом), которые можно использовать не только для разнообразия, но и для улучшения внешнего вида полученных результатов.

Читать...
​​Сравнение различных способов редактирования Spark DataFrame

При работе с распределенными базами данных чаще всего используют Spark и его собственные DataFrame.
В данном посте разберём различные способы создания столбцов путем преобразования, вычислений, применения регулярных выражений и т.д. Также мы сравним длительность каждого способа и какой лучше где применить.

Читать...
​​Обязан ли разработчик развиваться?

Из каждого утюга раздаются возгласы, что разработчик должен развиваться день и ночь, ведь у нас такая профессия! Каждый должен обладать солидным профилем на гитхабе, для чего, придя домой после дня работы, обязан контрибутить в опенсорс-проекты. Впрочем, отдохнуть тоже можно — например, запустив в перерыве свой пет-проект и поучаствовав в хакатоне. Ночью можно совсем расслабиться и понабивать себе профиль в литкоде, а во время походов в туалет — прочитать пару статей.

Но действительно ли всё это надо? Разработчик в самом деле обязан проводить всё своё свободное время за написанием кода? А обязан ли разработчик постоянно развиваться?

Читать...

#career
​​ML.NET: можно ли доверять машинному обучению Microsoft?

В 2018 году Microsoft разработали ML.NET – фреймворк машинного обучения для .NET разработчиков. За прошедшее время эта библиотека претерпела существенные изменения и обзавелась новыми функциями для выявления закономерностей в данных. Посмотрим, как это отразилось на качестве её исходного кода.

Читать...
1
​​Долги, рекомендации и социальные сети: как нас проверяют при приёме на работу

С проверками службы безопасности при трудоустройстве сталкивались 72% жителей России, а в ИТ-сфере — 74% кандидатов на вакансии. Это распространённая практика, но не все соискатели понимают, что конкретно ищут работодатели и зачем. Об этом мы расскажем в нашей статье.

https://habr.com/en/company/netologyru/blog/687256/

#career
​​Обработка естественного языка (NLP) методами машинного обучения в Python

В данной статье хателось бы рассказать о том, как можно применить различные методы машинного обучения (ML) для обработки текста, чтобы можно было произвести его бинарную классифицию.

Читать...
​​Как обезличить персональные данные

Для ML-моделей не нужны (и даже вредны) персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные. Как их получить и как с ними работать? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными?

Читать...
​​Как базы данных «ключ-значение» обеспечивают производительность и масштабируемость без границ

Команда VK Cloud перевела статью о базах «ключ-значение». Вы узнаете, в чем их преимущества перед другими БД, какие базы работают по этому принципу и чем они отличаются между собой.

Читать...
​​RuLeanALBERT — крупнейшая BERT-like нейросеть в опенсорсе для русского языка

Это разработка Yandex Research, исследовательской группы в Яндексе, которая занимается фундаментальным ML. Модель обучали на большой вычислительной платформе, но запустить её можно даже дома на мощном компьютере. RuLeanALBERT справляется с множеством NLP-задач, не требущих генерации, и показывает результаты, близкие к state-of-the-art (или даже более высокие — в зависимости от задачи).

Читать…
​​Как мы создали шаблон функциональных требований к разработке ПО

Статья будет полезна тем, кто работает с фронтовым функционалом – системными и бизнес-аналитикам. Неважно, Junior вы или Lead, в большой работаете компании или в стартапе, – наш рассказ вас наверняка заинтересует. Поговорим не только о том, как мы докатились до такой жизни, приняли единый формат ФТ, но и том, какие именно артефакты аналитик готовит в ходе своей работы. А еще мы подробно расскажем про причины поиска подходящего формата, сложности перехода и составляющие наших ФТ. 

Читать...
​​6 типов собеседований. Как айтишнику не провалить отбор в иностранную компанию

Существует 6 разных типов собеседований на английском языке со специфическими вопросами – что только эйчары не намудрят. Но у каждого job interview есть своя цель, и понимание этой цели поможет вам правильно подготовиться. Обсуждаем все этапы отбора: от первичного звонка с рекрутером – до финального технического интервью.

Читать...
​​Руководство по Docker для аналитика даннных.

Представьте, как вы устанавливаете программное обеспечение, требующее установку всех его зависимостей. Придется столкнуться со множеством ошибок, вручную выяснить и устранить все их причины. Каждый раз — попытки запустить всю систему заново, чтобы наконец-то правильно завершить установку… Именно в этот момент на помощь приходит Docker, пытаясь серьезно облегчить жизнь. 

Читать...
​​Клуб использованных техлидов

Меня зовут Сергей. Я – использованный техлид. Долго думал, что я такой один – невезучий, потерявший всякий интерес к любимому делу, работающий от звонка до звонка. Оказалось, нет.

Читать далее...
​​Теория сильного ИИ

В данной статье рассматриваются алгоритмы абстрактного мышления и механизм побуждения разума к действию. Это мышление - главная загадка современности и есть мнение, что компьютер не в силах ее решить, что только душа человека на это способна. Что сначала будет создана урезанная версия ИИ, а только потом будет создан сильный ИИ похожий на человеческий.

Читать...
​​Привлекаем внимание технологов (и не только «Норникеля»)! Визуализация ML-модели на «архивных» данных

Идет очередной этап работы датасаентиста… обучена ML-модель, которая снизит издержки, повысит эффективность, сделает жизнь лучше, ничего не изменит, зато звучит модно. И вот настало время презентовать результаты ее работы. Если вы, как и я, работаете в промышленности, то на запланированную встречу наряду с менеджерами наверняка пригласят технологов с производства - именно они будут пользователями вашей системы, и успешность проекта может во многом зависеть от их заинтересованности и вовлеченности в совместную работу. Раз надо их заинтересовать, сделаем!

Читать...