Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20K subscribers
621 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​Как в Тинькофф создавали Data Catalog

В чем главная задача аналитика? Думать головой и принимать решения. А правильные решения можно принять только при наличии нужных данных. Но как найти данные в большой компании? Раньше мы решали эту проблему с помощью ручного ведения документации о данных в Confluence, но с ростом объемов этот подход становился все менее эффективным. Пришло время что-то менять.

Меня зовут Дмитрий Пичугин, я занимаюсь внедрением Data Governance и Data Quality в Тинькофф. Я расскажу, как мы решали проблему поиска данных. Помогать мне в этом будет Роман Митасов. Он виновен в появлении большей части бэкенда Data Detective и расскажет про технические детали проекта.

Читать...
​​Мониторинг в Apache NiFi. Часть вторая

В первой статье мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi. Теперь рассмотрим, как передать необходимые метрики и отчеты об ошибках и состоянии кластера во внешние системы.

Читать...
​​Что общего у Китая и Dalle-2

Сейчас будет несколько неожиданный для вас лонгрид. Про цензуру.

Читать...
​​​​Как математика помогает логистике быть точнее. Опыт ПГК

Цифровые алгоритмы помогают решать реальные бизнес-задачи в самых разных сферах. Логистика — не исключение. Главные инструменты логиста — вовсе не карта, линейка и калькулятор, а сложные IT-системы, которые основаны на математическом моделировании и алгоритмах искусственного интеллекта. Эксперты в этой области ориентируются в цифровых продуктах, умеют их использовать и извлекать выгоду для компании. Почему? Потому что основная задача логиста – экономия. Он критически оценивает существующие процессы и предлагает способы их оптимизации. Расскажем, как ПГК использует математический подход в бизнесе.

Читать...
Приветствую, коллеги! 

Вчера прошла ежегодная конференция Яндекса про образование Yet another Conference on Education.

Одна из тем, которую обсуждали спикеры: какие вызовы появились перед системой образования и технологическими компаниями c новым витком развития робототехники. Например, на площадке конференции об этом классно рассуждал Денис Симагин, разработчик робота-доставщика в Яндексе. 

Главный фокус его выступления: как робототехника способна объединить талантливых людей и множество технических дисциплин в единый процесс производства. Видео доступно в записи — рекомендую посмотреть, было очень интересно!

А еще на мероприятии говорили об IT-индустрии в целом: где учат программировать, зачем используют метавселенные в обучении, как прийти в IT и выстроить свою карьерную траекторию даже во взрослом возрасте и так далее.

👉 Все видео выступлений с конференции доступны на сайте
​​Мониторинг в NiFi. Часть третья. Задачи отчетности Site-to-Site

В предыдущих частях мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi и задач отчетности. В этой части поближе познакомимся с задачами отчетности Site-to-Site. При отправке данных из одного экземпляра NiFi в другой можно использовать множество различных протоколов, однако, предпочтительным является NiFi Site-to-Site. Данный протокол предлагает безопасную и эффективную передачу данных из узлов в одном экземпляре NiFi, производящем данные, на узлы в другом экземпляре, являющимся приемником этих данных.

Читать...
​​Выгрузка HDFS FSImage в Hive для мониторинга и аналитики: руководство к действию

В статье автор делится своим опытом работы с кластером Hadoop: рассказываю, как с помощью сторонней библиотеки ему удалось организовать оперативную выгрузку образа файловой системы HDFS в Hive. И не только про это.

Читать...
​​В Data Science одни из самых высоких зарплат в IT. Войти в эту сферу можно с нуля — курс «Профессия Data Scientist PRO» как раз подходит для новичков.

→Вы с нуля освоите Python, SQL, научитесь собирать и анализировать данные, получите необходимый теоретический минимум по математике, теории вероятности и статистике. 
→С вами будет работать личный наставник. Он не только укажет на ошибки, но и поможет разобраться в сложных темах и ответит на вопросы.
→ Выберете направление для продвинутого изучения. Решите задачи на реальных данных, обучите нейросеть, углубите знания Python, библиотек для анализа данных и машинного обучения, освоите BI-инструменты, Git и выполните командные проекты в области big data.
→ По окончании курса платформа гарантирует вам помощь в трудоустройстве.
→ Курс участвует в Черной пятнице – скидки до 60%. Оставьте заявку на курс сейчас https://clc.to/R_nFFw и получите 6 месяцев бесплатного обучения и год английского в подарок.
​​Более 100 бесплатных курсов и ресурсов по аналитике

Большая подборка для аналитиков данных, продуктовых аналитиков, веб аналитиков, маркетинговых аналитиков и особенно тех, кто хочет ими стать!

Все материалы бесплатны! (кроме покупки книг)

Подборка составлена по областям знаний, которые нужны аналитику, чтобы быть востребованным на рынке.

Перейти...
​​Подборка полезных сервисов с применением нейронных сетей

Искусственный интеллект и машинное обучение стали неотъемлемой частью нашей жизни, что привело к появлению огромного числа продуктов, основанных как раз на нейронных сетях. Давайте посмотрим на несколько полезных сервисов, в которых используются технологии искусственного интеллекта.

Читать...
​​Базовые знания о профессии инженера данных на одном вебинаре.

→ Бесплатно, 18 ноября в 15:00

О профессии расскажут эксперты:
◾️ Анатолий Бардуков, разработчик-исследователь в Яндекс Поиск;.
◾️ Антон Моргунов, senior ML инженер в консалтинговой компании.

На вебинаре разберём два больших блока вопросов.
Зачем нужны инженеры данных
— Почему несколько лет назад таких специалистов не существовало?
— Каким компаниям они нужны?
— Чем будут заниматься дата-инженеры через 5, 10 и 15 лет?
— Заменит ли ИИ дата-инженеров?

Как зайти в профессию и развиваться в ней
— Роль дата-инженера, его задачи и зоны ответственности.
— Какие технологии для собеседования надо знать
— Что спросят на собеседовании в Яндекс и как готовиться?
— Сколько готовы платить начинающим дата-инженерам и сколько опытным?
— Куда двигаться начинающему дата-инженеру?

После вебинара можно будет задать вопросы спикерам.

→ Зарегистрироваться на вебинар
​​Рабочее время: кошелек или жизнь?

Мнение о необходимости таймтрекинга разделяет сотрудников на два противоположных лагеря. Как правило, исполнители всячески осуждают и указывают на неэффективность проектов, в которых необходимо вести учет рабочего времени и ежедневно отчитываться о проделанной работе. Напротив, многие правильные руководители приводят множество доводов в пользу таймтрекинга своих сотрудников. Поговорим об этом на ярком примере.

Читать...
​​Как смешивать изображения в Midjourney: тест фичи

Нейросеть Midjourney не зря быстро стала популярной: богатый функционал, простота использования и качественная генерация изображений. Теперь сервис запустил функцию смешивания двух изображений, а мы протестировали ее и рассказываем, как ей пользоваться и что получается в итоге.

Читать...
​​Как переехать на Kubeflow в качестве ML-платформы?

В этом материале автор делится докладом Сергея Савватеева о переходе сервиса Mediascope на Kubeflow, который он подготовил к ML MeetUp.

Расскажет о роли команды в компании, как был устроен процесс разработки до перехода на Kubeflow. Разберет подробно сам переход, какие архитектурные решения принимались. С какими сложностями столкнулись и какие наметили шаги.

Читать...
​​Открытые данные. Как сматчить несматчиваемое или Нейросеть вам в помощь

Аналитик Никитин Александр и Head of ML Андрей Румянцев разобрались как с помощью машинного обучения смерджить несколько наборов данных из открытых источников и не сойти с ума. Open data, TF-IDF, faiss, pgvector, трансформеры и удивительное завершение нашего приключения — всё это под катом.

Читать...
Roadmap. Как изучать нейронные сети

Компьютерное зрение и NLP - это области, где активно применяются нейронные сети. Что нужно знать для того, чтобы начать программировать нейронки? Какие курсы слушать и как развивать свои навыки? Ответы на эти вопросы вы получите в видео.

Смотреть видео...
​​Pandas для одноразового кодирования данных, предотвращающего высокую мощность 

В этой статье мы раскроем тему простого метода однократного кодирования переменных с использованием Pandas

Читать...
​​Видеоаналитика на взрывоопасном заводе площадью в 700 футбольных полей

Есть распространённый стереотип, будто на заводах надо каски детектировать или даже огонь. Но ведь идея в том, чтобы стремиться не допустить огня и всяких происшествий, а не фотографировать их. Поэтому на практике мы стараемся детектировать то, что происходит до того, как что-то подтечёт, задымится, загорится или пойдёт не по плану.

Меня зовут Щемелинин Вадим, я четыре года работаю в сфере цифровизации промышленности в компании «СИБУР Диджитал». Моя основная задача — развитие Индустрии 4.0 в холдинге. Одним из продуктов моего направления является видеоаналитика. Сегодня я расскажу про сложности, с которым сталкиваются Python-разработчики, внедряя машинное зрение в нефтехимическую индустрию.

Читать...
Сегодня проходит международная онлайн-конференция, посвещенная искусственному интеллекту AI Journey, где выступают ведущие эксперты отрасли. 

К примеру, доцент факультета компьютерных наук НИУ ВШЭ Максим Рубаха рассказал про тензорное разложение: 

«Мы предложили фреймворк на основе тензорных разложений, который использует тот факт, что нейросети содержат избыточное число параметров, то есть они перепараметризованы. И тензорное разложение позволяет уменьшить это число параметров, но, с другой стороны, вы это можете использовать для повышения эффективности и уменьшения памяти при контроле сингулярных чисел. И при этом вы можете использовать абсолютно различные методы — просто вы их применяете не к исходному ядру свёртки, а к уменьшенному четырёхмерному массиву».
Яндекс назвал лауреатов своей ежегодной научной премии 

Ученые, которые занимаются исследованиями в области компьютерных наук, получат по миллиону рублей на развитие своих проектов. В 2022 году лауреатами стали шесть молодых ученых:

Максим Великанов — занимается теорией deep learning, изучает бесконечно широкие нейронные сети и статистическую физику; 

Петр Мокров — исследует градиентные потоки Вассерштейна, нелинейную фильтрацию и байесовскую логистическую регрессию;

Максим Кодрян — занимается deep learning, а также оптимизацией и генерализацией нейросетевых моделей; 

Руслан Рахимов — работает с нейронной визуализацией, CV и deep learning;

Сергей Самсонов — изучает алгоритмы Монте-Карло с марковскими цепями, стохастическую аппроксимацию и другие темы; 

Тарас Хахулин — работает в области компьютерного зрения. 

Круто, что отдельно выделяют и научных руководителей. В этом году гранты получили двое — Дмитрий Ветров, заведующий Центром глубинного обучения и байесовских методов ВШЭ, и Алексей Наумов, доцент факультета компьютерных наук ВШЭ, заведующий Международной лаборатории стохастических алгоритмов и анализа многомерных данных. 

Подробнее о премии и лауреатах 2022 года — на сайте.