Как в Тинькофф создавали Data Catalog
В чем главная задача аналитика? Думать головой и принимать решения. А правильные решения можно принять только при наличии нужных данных. Но как найти данные в большой компании? Раньше мы решали эту проблему с помощью ручного ведения документации о данных в Confluence, но с ростом объемов этот подход становился все менее эффективным. Пришло время что-то менять.
Меня зовут Дмитрий Пичугин, я занимаюсь внедрением Data Governance и Data Quality в Тинькофф. Я расскажу, как мы решали проблему поиска данных. Помогать мне в этом будет Роман Митасов. Он виновен в появлении большей части бэкенда Data Detective и расскажет про технические детали проекта.
Читать...
В чем главная задача аналитика? Думать головой и принимать решения. А правильные решения можно принять только при наличии нужных данных. Но как найти данные в большой компании? Раньше мы решали эту проблему с помощью ручного ведения документации о данных в Confluence, но с ростом объемов этот подход становился все менее эффективным. Пришло время что-то менять.
Меня зовут Дмитрий Пичугин, я занимаюсь внедрением Data Governance и Data Quality в Тинькофф. Я расскажу, как мы решали проблему поиска данных. Помогать мне в этом будет Роман Митасов. Он виновен в появлении большей части бэкенда Data Detective и расскажет про технические детали проекта.
Читать...
Мониторинг в Apache NiFi. Часть вторая
В первой статье мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi. Теперь рассмотрим, как передать необходимые метрики и отчеты об ошибках и состоянии кластера во внешние системы.
Читать...
В первой статье мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi. Теперь рассмотрим, как передать необходимые метрики и отчеты об ошибках и состоянии кластера во внешние системы.
Читать...
Как математика помогает логистике быть точнее. Опыт ПГК
Цифровые алгоритмы помогают решать реальные бизнес-задачи в самых разных сферах. Логистика — не исключение. Главные инструменты логиста — вовсе не карта, линейка и калькулятор, а сложные IT-системы, которые основаны на математическом моделировании и алгоритмах искусственного интеллекта. Эксперты в этой области ориентируются в цифровых продуктах, умеют их использовать и извлекать выгоду для компании. Почему? Потому что основная задача логиста – экономия. Он критически оценивает существующие процессы и предлагает способы их оптимизации. Расскажем, как ПГК использует математический подход в бизнесе.
Читать...
Цифровые алгоритмы помогают решать реальные бизнес-задачи в самых разных сферах. Логистика — не исключение. Главные инструменты логиста — вовсе не карта, линейка и калькулятор, а сложные IT-системы, которые основаны на математическом моделировании и алгоритмах искусственного интеллекта. Эксперты в этой области ориентируются в цифровых продуктах, умеют их использовать и извлекать выгоду для компании. Почему? Потому что основная задача логиста – экономия. Он критически оценивает существующие процессы и предлагает способы их оптимизации. Расскажем, как ПГК использует математический подход в бизнесе.
Читать...
Приветствую, коллеги!
Вчера прошла ежегодная конференция Яндекса про образование Yet another Conference on Education.
Одна из тем, которую обсуждали спикеры: какие вызовы появились перед системой образования и технологическими компаниями c новым витком развития робототехники. Например, на площадке конференции об этом классно рассуждал Денис Симагин, разработчик робота-доставщика в Яндексе.
Главный фокус его выступления: как робототехника способна объединить талантливых людей и множество технических дисциплин в единый процесс производства. Видео доступно в записи — рекомендую посмотреть, было очень интересно!
А еще на мероприятии говорили об IT-индустрии в целом: где учат программировать, зачем используют метавселенные в обучении, как прийти в IT и выстроить свою карьерную траекторию даже во взрослом возрасте и так далее.
👉 Все видео выступлений с конференции доступны на сайте
Вчера прошла ежегодная конференция Яндекса про образование Yet another Conference on Education.
Одна из тем, которую обсуждали спикеры: какие вызовы появились перед системой образования и технологическими компаниями c новым витком развития робототехники. Например, на площадке конференции об этом классно рассуждал Денис Симагин, разработчик робота-доставщика в Яндексе.
Главный фокус его выступления: как робототехника способна объединить талантливых людей и множество технических дисциплин в единый процесс производства. Видео доступно в записи — рекомендую посмотреть, было очень интересно!
А еще на мероприятии говорили об IT-индустрии в целом: где учат программировать, зачем используют метавселенные в обучении, как прийти в IT и выстроить свою карьерную траекторию даже во взрослом возрасте и так далее.
👉 Все видео выступлений с конференции доступны на сайте
Yet another Conference on Education 2024
Мониторинг в NiFi. Часть третья. Задачи отчетности Site-to-Site
В предыдущих частях мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi и задач отчетности. В этой части поближе познакомимся с задачами отчетности Site-to-Site. При отправке данных из одного экземпляра NiFi в другой можно использовать множество различных протоколов, однако, предпочтительным является NiFi Site-to-Site. Данный протокол предлагает безопасную и эффективную передачу данных из узлов в одном экземпляре NiFi, производящем данные, на узлы в другом экземпляре, являющимся приемником этих данных.
Читать...
В предыдущих частях мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi и задач отчетности. В этой части поближе познакомимся с задачами отчетности Site-to-Site. При отправке данных из одного экземпляра NiFi в другой можно использовать множество различных протоколов, однако, предпочтительным является NiFi Site-to-Site. Данный протокол предлагает безопасную и эффективную передачу данных из узлов в одном экземпляре NiFi, производящем данные, на узлы в другом экземпляре, являющимся приемником этих данных.
Читать...
Выгрузка HDFS FSImage в Hive для мониторинга и аналитики: руководство к действию
В статье автор делится своим опытом работы с кластером Hadoop: рассказываю, как с помощью сторонней библиотеки ему удалось организовать оперативную выгрузку образа файловой системы HDFS в Hive. И не только про это.
Читать...
В статье автор делится своим опытом работы с кластером Hadoop: рассказываю, как с помощью сторонней библиотеки ему удалось организовать оперативную выгрузку образа файловой системы HDFS в Hive. И не только про это.
Читать...
В Data Science одни из самых высоких зарплат в IT. Войти в эту сферу можно с нуля — курс «Профессия Data Scientist PRO» как раз подходит для новичков.
→Вы с нуля освоите Python, SQL, научитесь собирать и анализировать данные, получите необходимый теоретический минимум по математике, теории вероятности и статистике.
→С вами будет работать личный наставник. Он не только укажет на ошибки, но и поможет разобраться в сложных темах и ответит на вопросы.
→ Выберете направление для продвинутого изучения. Решите задачи на реальных данных, обучите нейросеть, углубите знания Python, библиотек для анализа данных и машинного обучения, освоите BI-инструменты, Git и выполните командные проекты в области big data.
→ По окончании курса платформа гарантирует вам помощь в трудоустройстве.
→ Курс участвует в Черной пятнице – скидки до 60%. Оставьте заявку на курс сейчас https://clc.to/R_nFFw и получите 6 месяцев бесплатного обучения и год английского в подарок.
→Вы с нуля освоите Python, SQL, научитесь собирать и анализировать данные, получите необходимый теоретический минимум по математике, теории вероятности и статистике.
→С вами будет работать личный наставник. Он не только укажет на ошибки, но и поможет разобраться в сложных темах и ответит на вопросы.
→ Выберете направление для продвинутого изучения. Решите задачи на реальных данных, обучите нейросеть, углубите знания Python, библиотек для анализа данных и машинного обучения, освоите BI-инструменты, Git и выполните командные проекты в области big data.
→ По окончании курса платформа гарантирует вам помощь в трудоустройстве.
→ Курс участвует в Черной пятнице – скидки до 60%. Оставьте заявку на курс сейчас https://clc.to/R_nFFw и получите 6 месяцев бесплатного обучения и год английского в подарок.
Более 100 бесплатных курсов и ресурсов по аналитике
Большая подборка для аналитиков данных, продуктовых аналитиков, веб аналитиков, маркетинговых аналитиков и особенно тех, кто хочет ими стать!
Все материалы бесплатны! (кроме покупки книг)
Подборка составлена по областям знаний, которые нужны аналитику, чтобы быть востребованным на рынке.
Перейти...
Большая подборка для аналитиков данных, продуктовых аналитиков, веб аналитиков, маркетинговых аналитиков и особенно тех, кто хочет ими стать!
Все материалы бесплатны! (кроме покупки книг)
Подборка составлена по областям знаний, которые нужны аналитику, чтобы быть востребованным на рынке.
Перейти...
Подборка полезных сервисов с применением нейронных сетей
Искусственный интеллект и машинное обучение стали неотъемлемой частью нашей жизни, что привело к появлению огромного числа продуктов, основанных как раз на нейронных сетях. Давайте посмотрим на несколько полезных сервисов, в которых используются технологии искусственного интеллекта.
Читать...
Искусственный интеллект и машинное обучение стали неотъемлемой частью нашей жизни, что привело к появлению огромного числа продуктов, основанных как раз на нейронных сетях. Давайте посмотрим на несколько полезных сервисов, в которых используются технологии искусственного интеллекта.
Читать...
Базовые знания о профессии инженера данных на одном вебинаре.
→ Бесплатно, 18 ноября в 15:00
О профессии расскажут эксперты:
◾️ Анатолий Бардуков, разработчик-исследователь в Яндекс Поиск;.
◾️ Антон Моргунов, senior ML инженер в консалтинговой компании.
На вебинаре разберём два больших блока вопросов.
Зачем нужны инженеры данных
— Почему несколько лет назад таких специалистов не существовало?
— Каким компаниям они нужны?
— Чем будут заниматься дата-инженеры через 5, 10 и 15 лет?
— Заменит ли ИИ дата-инженеров?
Как зайти в профессию и развиваться в ней
— Роль дата-инженера, его задачи и зоны ответственности.
— Какие технологии для собеседования надо знать
— Что спросят на собеседовании в Яндекс и как готовиться?
— Сколько готовы платить начинающим дата-инженерам и сколько опытным?
— Куда двигаться начинающему дата-инженеру?
После вебинара можно будет задать вопросы спикерам.
→ Зарегистрироваться на вебинар
→ Бесплатно, 18 ноября в 15:00
О профессии расскажут эксперты:
◾️ Анатолий Бардуков, разработчик-исследователь в Яндекс Поиск;.
◾️ Антон Моргунов, senior ML инженер в консалтинговой компании.
На вебинаре разберём два больших блока вопросов.
Зачем нужны инженеры данных
— Почему несколько лет назад таких специалистов не существовало?
— Каким компаниям они нужны?
— Чем будут заниматься дата-инженеры через 5, 10 и 15 лет?
— Заменит ли ИИ дата-инженеров?
Как зайти в профессию и развиваться в ней
— Роль дата-инженера, его задачи и зоны ответственности.
— Какие технологии для собеседования надо знать
— Что спросят на собеседовании в Яндекс и как готовиться?
— Сколько готовы платить начинающим дата-инженерам и сколько опытным?
— Куда двигаться начинающему дата-инженеру?
После вебинара можно будет задать вопросы спикерам.
→ Зарегистрироваться на вебинар
Рабочее время: кошелек или жизнь?
Мнение о необходимости таймтрекинга разделяет сотрудников на два противоположных лагеря. Как правило, исполнители всячески осуждают и указывают на неэффективность проектов, в которых необходимо вести учет рабочего времени и ежедневно отчитываться о проделанной работе. Напротив, многие правильные руководители приводят множество доводов в пользу таймтрекинга своих сотрудников. Поговорим об этом на ярком примере.
Читать...
Мнение о необходимости таймтрекинга разделяет сотрудников на два противоположных лагеря. Как правило, исполнители всячески осуждают и указывают на неэффективность проектов, в которых необходимо вести учет рабочего времени и ежедневно отчитываться о проделанной работе. Напротив, многие правильные руководители приводят множество доводов в пользу таймтрекинга своих сотрудников. Поговорим об этом на ярком примере.
Читать...
Как смешивать изображения в Midjourney: тест фичи
Нейросеть Midjourney не зря быстро стала популярной: богатый функционал, простота использования и качественная генерация изображений. Теперь сервис запустил функцию смешивания двух изображений, а мы протестировали ее и рассказываем, как ей пользоваться и что получается в итоге.
Читать...
Нейросеть Midjourney не зря быстро стала популярной: богатый функционал, простота использования и качественная генерация изображений. Теперь сервис запустил функцию смешивания двух изображений, а мы протестировали ее и рассказываем, как ей пользоваться и что получается в итоге.
Читать...
Как переехать на Kubeflow в качестве ML-платформы?
В этом материале автор делится докладом Сергея Савватеева о переходе сервиса Mediascope на Kubeflow, который он подготовил к ML MeetUp.
Расскажет о роли команды в компании, как был устроен процесс разработки до перехода на Kubeflow. Разберет подробно сам переход, какие архитектурные решения принимались. С какими сложностями столкнулись и какие наметили шаги.
Читать...
В этом материале автор делится докладом Сергея Савватеева о переходе сервиса Mediascope на Kubeflow, который он подготовил к ML MeetUp.
Расскажет о роли команды в компании, как был устроен процесс разработки до перехода на Kubeflow. Разберет подробно сам переход, какие архитектурные решения принимались. С какими сложностями столкнулись и какие наметили шаги.
Читать...
Открытые данные. Как сматчить несматчиваемое или Нейросеть вам в помощь
Аналитик Никитин Александр и Head of ML Андрей Румянцев разобрались как с помощью машинного обучения смерджить несколько наборов данных из открытых источников и не сойти с ума. Open data, TF-IDF, faiss, pgvector, трансформеры и удивительное завершение нашего приключения — всё это под катом.
Читать...
Аналитик Никитин Александр и Head of ML Андрей Румянцев разобрались как с помощью машинного обучения смерджить несколько наборов данных из открытых источников и не сойти с ума. Open data, TF-IDF, faiss, pgvector, трансформеры и удивительное завершение нашего приключения — всё это под катом.
Читать...
Roadmap. Как изучать нейронные сети
Компьютерное зрение и NLP - это области, где активно применяются нейронные сети. Что нужно знать для того, чтобы начать программировать нейронки? Какие курсы слушать и как развивать свои навыки? Ответы на эти вопросы вы получите в видео.
Смотреть видео...
Компьютерное зрение и NLP - это области, где активно применяются нейронные сети. Что нужно знать для того, чтобы начать программировать нейронки? Какие курсы слушать и как развивать свои навыки? Ответы на эти вопросы вы получите в видео.
Смотреть видео...
YouTube
Roadmap. Как изучать нейронные сети
Компьютерное зрение и NLP - это области, где активно применяются нейронные сети. Что нужно знать для того, чтобы начать программировать нейронки? Какие курсы слушать и как развивать свои навыки? Ответы на эти вопросы вы получите в видео.
Видеоаналитика на взрывоопасном заводе площадью в 700 футбольных полей
Есть распространённый стереотип, будто на заводах надо каски детектировать или даже огонь. Но ведь идея в том, чтобы стремиться не допустить огня и всяких происшествий, а не фотографировать их. Поэтому на практике мы стараемся детектировать то, что происходит до того, как что-то подтечёт, задымится, загорится или пойдёт не по плану.
Меня зовут Щемелинин Вадим, я четыре года работаю в сфере цифровизации промышленности в компании «СИБУР Диджитал». Моя основная задача — развитие Индустрии 4.0 в холдинге. Одним из продуктов моего направления является видеоаналитика. Сегодня я расскажу про сложности, с которым сталкиваются Python-разработчики, внедряя машинное зрение в нефтехимическую индустрию.
Читать...
Есть распространённый стереотип, будто на заводах надо каски детектировать или даже огонь. Но ведь идея в том, чтобы стремиться не допустить огня и всяких происшествий, а не фотографировать их. Поэтому на практике мы стараемся детектировать то, что происходит до того, как что-то подтечёт, задымится, загорится или пойдёт не по плану.
Меня зовут Щемелинин Вадим, я четыре года работаю в сфере цифровизации промышленности в компании «СИБУР Диджитал». Моя основная задача — развитие Индустрии 4.0 в холдинге. Одним из продуктов моего направления является видеоаналитика. Сегодня я расскажу про сложности, с которым сталкиваются Python-разработчики, внедряя машинное зрение в нефтехимическую индустрию.
Читать...
Сегодня проходит международная онлайн-конференция, посвещенная искусственному интеллекту AI Journey, где выступают ведущие эксперты отрасли.
К примеру, доцент факультета компьютерных наук НИУ ВШЭ Максим Рубаха рассказал про тензорное разложение:
«Мы предложили фреймворк на основе тензорных разложений, который использует тот факт, что нейросети содержат избыточное число параметров, то есть они перепараметризованы. И тензорное разложение позволяет уменьшить это число параметров, но, с другой стороны, вы это можете использовать для повышения эффективности и уменьшения памяти при контроле сингулярных чисел. И при этом вы можете использовать абсолютно различные методы — просто вы их применяете не к исходному ядру свёртки, а к уменьшенному четырёхмерному массиву».
К примеру, доцент факультета компьютерных наук НИУ ВШЭ Максим Рубаха рассказал про тензорное разложение:
«Мы предложили фреймворк на основе тензорных разложений, который использует тот факт, что нейросети содержат избыточное число параметров, то есть они перепараметризованы. И тензорное разложение позволяет уменьшить это число параметров, но, с другой стороны, вы это можете использовать для повышения эффективности и уменьшения памяти при контроле сингулярных чисел. И при этом вы можете использовать абсолютно различные методы — просто вы их применяете не к исходному ядру свёртки, а к уменьшенному четырёхмерному массиву».
Яндекс назвал лауреатов своей ежегодной научной премии
Ученые, которые занимаются исследованиями в области компьютерных наук, получат по миллиону рублей на развитие своих проектов. В 2022 году лауреатами стали шесть молодых ученых:
•Максим Великанов — занимается теорией deep learning, изучает бесконечно широкие нейронные сети и статистическую физику;
•Петр Мокров — исследует градиентные потоки Вассерштейна, нелинейную фильтрацию и байесовскую логистическую регрессию;
•Максим Кодрян — занимается deep learning, а также оптимизацией и генерализацией нейросетевых моделей;
•Руслан Рахимов — работает с нейронной визуализацией, CV и deep learning;
•Сергей Самсонов — изучает алгоритмы Монте-Карло с марковскими цепями, стохастическую аппроксимацию и другие темы;
•Тарас Хахулин — работает в области компьютерного зрения.
Круто, что отдельно выделяют и научных руководителей. В этом году гранты получили двое — Дмитрий Ветров, заведующий Центром глубинного обучения и байесовских методов ВШЭ, и Алексей Наумов, доцент факультета компьютерных наук ВШЭ, заведующий Международной лаборатории стохастических алгоритмов и анализа многомерных данных.
Подробнее о премии и лауреатах 2022 года — на сайте.
Ученые, которые занимаются исследованиями в области компьютерных наук, получат по миллиону рублей на развитие своих проектов. В 2022 году лауреатами стали шесть молодых ученых:
•Максим Великанов — занимается теорией deep learning, изучает бесконечно широкие нейронные сети и статистическую физику;
•Петр Мокров — исследует градиентные потоки Вассерштейна, нелинейную фильтрацию и байесовскую логистическую регрессию;
•Максим Кодрян — занимается deep learning, а также оптимизацией и генерализацией нейросетевых моделей;
•Руслан Рахимов — работает с нейронной визуализацией, CV и deep learning;
•Сергей Самсонов — изучает алгоритмы Монте-Карло с марковскими цепями, стохастическую аппроксимацию и другие темы;
•Тарас Хахулин — работает в области компьютерного зрения.
Круто, что отдельно выделяют и научных руководителей. В этом году гранты получили двое — Дмитрий Ветров, заведующий Центром глубинного обучения и байесовских методов ВШЭ, и Алексей Наумов, доцент факультета компьютерных наук ВШЭ, заведующий Международной лаборатории стохастических алгоритмов и анализа многомерных данных.
Подробнее о премии и лауреатах 2022 года — на сайте.
Yandex ML Prize
Премия Яндекса при экспертной поддержке Школы анализа данных за вклад в развитие ML