Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20K subscribers
621 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​Базовые знания о профессии инженера данных на одном вебинаре.

→ Бесплатно, 18 ноября в 15:00

О профессии расскажут эксперты:
◾️ Анатолий Бардуков, разработчик-исследователь в Яндекс Поиск;.
◾️ Антон Моргунов, senior ML инженер в консалтинговой компании.

На вебинаре разберём два больших блока вопросов.
Зачем нужны инженеры данных
— Почему несколько лет назад таких специалистов не существовало?
— Каким компаниям они нужны?
— Чем будут заниматься дата-инженеры через 5, 10 и 15 лет?
— Заменит ли ИИ дата-инженеров?

Как зайти в профессию и развиваться в ней
— Роль дата-инженера, его задачи и зоны ответственности.
— Какие технологии для собеседования надо знать
— Что спросят на собеседовании в Яндекс и как готовиться?
— Сколько готовы платить начинающим дата-инженерам и сколько опытным?
— Куда двигаться начинающему дата-инженеру?

После вебинара можно будет задать вопросы спикерам.

→ Зарегистрироваться на вебинар
​​Рабочее время: кошелек или жизнь?

Мнение о необходимости таймтрекинга разделяет сотрудников на два противоположных лагеря. Как правило, исполнители всячески осуждают и указывают на неэффективность проектов, в которых необходимо вести учет рабочего времени и ежедневно отчитываться о проделанной работе. Напротив, многие правильные руководители приводят множество доводов в пользу таймтрекинга своих сотрудников. Поговорим об этом на ярком примере.

Читать...
​​Как смешивать изображения в Midjourney: тест фичи

Нейросеть Midjourney не зря быстро стала популярной: богатый функционал, простота использования и качественная генерация изображений. Теперь сервис запустил функцию смешивания двух изображений, а мы протестировали ее и рассказываем, как ей пользоваться и что получается в итоге.

Читать...
​​Как переехать на Kubeflow в качестве ML-платформы?

В этом материале автор делится докладом Сергея Савватеева о переходе сервиса Mediascope на Kubeflow, который он подготовил к ML MeetUp.

Расскажет о роли команды в компании, как был устроен процесс разработки до перехода на Kubeflow. Разберет подробно сам переход, какие архитектурные решения принимались. С какими сложностями столкнулись и какие наметили шаги.

Читать...
​​Открытые данные. Как сматчить несматчиваемое или Нейросеть вам в помощь

Аналитик Никитин Александр и Head of ML Андрей Румянцев разобрались как с помощью машинного обучения смерджить несколько наборов данных из открытых источников и не сойти с ума. Open data, TF-IDF, faiss, pgvector, трансформеры и удивительное завершение нашего приключения — всё это под катом.

Читать...
Roadmap. Как изучать нейронные сети

Компьютерное зрение и NLP - это области, где активно применяются нейронные сети. Что нужно знать для того, чтобы начать программировать нейронки? Какие курсы слушать и как развивать свои навыки? Ответы на эти вопросы вы получите в видео.

Смотреть видео...
​​Pandas для одноразового кодирования данных, предотвращающего высокую мощность 

В этой статье мы раскроем тему простого метода однократного кодирования переменных с использованием Pandas

Читать...
​​Видеоаналитика на взрывоопасном заводе площадью в 700 футбольных полей

Есть распространённый стереотип, будто на заводах надо каски детектировать или даже огонь. Но ведь идея в том, чтобы стремиться не допустить огня и всяких происшествий, а не фотографировать их. Поэтому на практике мы стараемся детектировать то, что происходит до того, как что-то подтечёт, задымится, загорится или пойдёт не по плану.

Меня зовут Щемелинин Вадим, я четыре года работаю в сфере цифровизации промышленности в компании «СИБУР Диджитал». Моя основная задача — развитие Индустрии 4.0 в холдинге. Одним из продуктов моего направления является видеоаналитика. Сегодня я расскажу про сложности, с которым сталкиваются Python-разработчики, внедряя машинное зрение в нефтехимическую индустрию.

Читать...
Сегодня проходит международная онлайн-конференция, посвещенная искусственному интеллекту AI Journey, где выступают ведущие эксперты отрасли. 

К примеру, доцент факультета компьютерных наук НИУ ВШЭ Максим Рубаха рассказал про тензорное разложение: 

«Мы предложили фреймворк на основе тензорных разложений, который использует тот факт, что нейросети содержат избыточное число параметров, то есть они перепараметризованы. И тензорное разложение позволяет уменьшить это число параметров, но, с другой стороны, вы это можете использовать для повышения эффективности и уменьшения памяти при контроле сингулярных чисел. И при этом вы можете использовать абсолютно различные методы — просто вы их применяете не к исходному ядру свёртки, а к уменьшенному четырёхмерному массиву».
Яндекс назвал лауреатов своей ежегодной научной премии 

Ученые, которые занимаются исследованиями в области компьютерных наук, получат по миллиону рублей на развитие своих проектов. В 2022 году лауреатами стали шесть молодых ученых:

Максим Великанов — занимается теорией deep learning, изучает бесконечно широкие нейронные сети и статистическую физику; 

Петр Мокров — исследует градиентные потоки Вассерштейна, нелинейную фильтрацию и байесовскую логистическую регрессию;

Максим Кодрян — занимается deep learning, а также оптимизацией и генерализацией нейросетевых моделей; 

Руслан Рахимов — работает с нейронной визуализацией, CV и deep learning;

Сергей Самсонов — изучает алгоритмы Монте-Карло с марковскими цепями, стохастическую аппроксимацию и другие темы; 

Тарас Хахулин — работает в области компьютерного зрения. 

Круто, что отдельно выделяют и научных руководителей. В этом году гранты получили двое — Дмитрий Ветров, заведующий Центром глубинного обучения и байесовских методов ВШЭ, и Алексей Наумов, доцент факультета компьютерных наук ВШЭ, заведующий Международной лаборатории стохастических алгоритмов и анализа многомерных данных. 

Подробнее о премии и лауреатах 2022 года — на сайте.
​​Машинное обучение как универсальный инструмент обработки информации

Машинное обучение — своего рода универсальная палочка-выручалочка, когда речь идет о больших объемах информации и необходимости их обработать, структурировать и извлечь из этого пользу.

А что если речь идет о градостроительстве и урбанистике — как тут может помочь машинное обучение и какую информацию мы можем использовать?

Читать...
​​Ученые все чаще не могут объяснить, как работает ИИ. Теория «черного» и «белого» ящика

Какое у вас любимое мороженое? Шоколадное, ванильное, фисташки, крем-брюле? Вы легко дадите ответ. Но если вас спросят, почему именно этот конкретный вкус, тут уже дать конкретный ответ станет гораздо сложнее. Большинство максимум придумают, что так у них устроены вкусовые рецепторы. Но почему они устроены именно так, и почему тогда нам иногда хочется пробовать другие виды мороженого?

На самом деле, с ИИ всё обстоит еще хуже. Чем дальше развиваются технологии, тем чаще мы вообще не можем понять, что происходит там внутри. А значит, и не можем быть уверены, стоит ли нам доверять таким решениям.

Читать...
​​Ансамбли моделей для распознавания рукописных цифр

Применение нескольких моделей машинного обучения для решения задачи является частой практикой и данная технология преимущественно выигрывает по качеству по сравнению с одной моделью. Однако, для успешного результата такой технологии необходимо разбираться в ее модификациях.

Читать...
​​Давайте запретим нейронные сети

Тема нейронных сетей волнует сейчас почти всех, кто рисует. За последние пол года прогресс выглядит для кого-то головокружительным, а для кого-то пугающим. В этой статье я хочу рассмотреть основные страхи, претензии и впечатления в целом по отношению к нейронным сетям среди творческих людей, профессия или хобби которых создание визуальной эстетики.

Читать...
​​30 самых крупных датасетов для машинного обучения в TensorFlow

TensorFlow — это одна из наиболее популярных открытых библиотек с датасетами для задач машинного обучения. Разработкой TensorFlow занимаются исследователи из Google Brain. Библиотека предоставляет доступ к датасетам с изображениями, видео, аудио и текстами.

Читать...
​​Структура команды Data Science: ключевые модели и роли

В этот раз мы поговорим о структуре команд data science и их сложности.

Читать...
​​Парсинг Яндекс Карт или как найти целевую аудиторию

Как написать парсер Яндекс Карт? А также аналитика данных организаций. Поиск целевой аудитории

Читать...
​​Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse

Меня зовут Сергей Коньков - я работаю архитектором в компании CloudReports. Сегодня я расскажу, как мы создали продукт, который помогает пользователям работать с данными и в какой-то мере соединяет два мира аналитики: Excel и облачные хранилища данных.

Читать...
​​Как составить резюме Junior-аналитику, чтобы на него обратили внимание: секреты от Х5 Tech

Авторы этой статьи работают в команде больших данных в Х5 Tech. Мы решили объединить в статье наш личный опыт отбора кандидатов на позицию начинающего аналитика и дать несколько рекомендаций по составлению качественного резюме. Надеемся, что они окажутся полезными для тех, кто ищет работу своей мечты, и будет совсем здорово, если мы в итоге встретимся в X5 Tech.

Читать...
​​FCOS- объяснение обнаружения объектов без привязки

FCOS: полностью сверточное одноступенчатое обнаружение объектов - это детектор объектов без привязки. Он решает проблемы обнаружения объектов с помощью метода прогнозирования по пикселям, аналогичного сегментации. Большинство последних детекторов объектов без привязки или без привязки на основе глубокого обучения используют FCOS в качестве основы.

Читать...
​​Как лучше обучать RNN для прогнозирования временных рядов?

Два последних года я в рамках магистерской диссертации разбирался с тем, как лучше использовать рекуррентные нейронные сети для прогнозирования временных рядов, и теперь хочу поделиться моим опытом с сообществом.

Читать...