Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20K subscribers
621 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​Видеоаналитика на взрывоопасном заводе площадью в 700 футбольных полей

Есть распространённый стереотип, будто на заводах надо каски детектировать или даже огонь. Но ведь идея в том, чтобы стремиться не допустить огня и всяких происшествий, а не фотографировать их. Поэтому на практике мы стараемся детектировать то, что происходит до того, как что-то подтечёт, задымится, загорится или пойдёт не по плану.

Меня зовут Щемелинин Вадим, я четыре года работаю в сфере цифровизации промышленности в компании «СИБУР Диджитал». Моя основная задача — развитие Индустрии 4.0 в холдинге. Одним из продуктов моего направления является видеоаналитика. Сегодня я расскажу про сложности, с которым сталкиваются Python-разработчики, внедряя машинное зрение в нефтехимическую индустрию.

Читать...
Сегодня проходит международная онлайн-конференция, посвещенная искусственному интеллекту AI Journey, где выступают ведущие эксперты отрасли. 

К примеру, доцент факультета компьютерных наук НИУ ВШЭ Максим Рубаха рассказал про тензорное разложение: 

«Мы предложили фреймворк на основе тензорных разложений, который использует тот факт, что нейросети содержат избыточное число параметров, то есть они перепараметризованы. И тензорное разложение позволяет уменьшить это число параметров, но, с другой стороны, вы это можете использовать для повышения эффективности и уменьшения памяти при контроле сингулярных чисел. И при этом вы можете использовать абсолютно различные методы — просто вы их применяете не к исходному ядру свёртки, а к уменьшенному четырёхмерному массиву».
Яндекс назвал лауреатов своей ежегодной научной премии 

Ученые, которые занимаются исследованиями в области компьютерных наук, получат по миллиону рублей на развитие своих проектов. В 2022 году лауреатами стали шесть молодых ученых:

Максим Великанов — занимается теорией deep learning, изучает бесконечно широкие нейронные сети и статистическую физику; 

Петр Мокров — исследует градиентные потоки Вассерштейна, нелинейную фильтрацию и байесовскую логистическую регрессию;

Максим Кодрян — занимается deep learning, а также оптимизацией и генерализацией нейросетевых моделей; 

Руслан Рахимов — работает с нейронной визуализацией, CV и deep learning;

Сергей Самсонов — изучает алгоритмы Монте-Карло с марковскими цепями, стохастическую аппроксимацию и другие темы; 

Тарас Хахулин — работает в области компьютерного зрения. 

Круто, что отдельно выделяют и научных руководителей. В этом году гранты получили двое — Дмитрий Ветров, заведующий Центром глубинного обучения и байесовских методов ВШЭ, и Алексей Наумов, доцент факультета компьютерных наук ВШЭ, заведующий Международной лаборатории стохастических алгоритмов и анализа многомерных данных. 

Подробнее о премии и лауреатах 2022 года — на сайте.
​​Машинное обучение как универсальный инструмент обработки информации

Машинное обучение — своего рода универсальная палочка-выручалочка, когда речь идет о больших объемах информации и необходимости их обработать, структурировать и извлечь из этого пользу.

А что если речь идет о градостроительстве и урбанистике — как тут может помочь машинное обучение и какую информацию мы можем использовать?

Читать...
​​Ученые все чаще не могут объяснить, как работает ИИ. Теория «черного» и «белого» ящика

Какое у вас любимое мороженое? Шоколадное, ванильное, фисташки, крем-брюле? Вы легко дадите ответ. Но если вас спросят, почему именно этот конкретный вкус, тут уже дать конкретный ответ станет гораздо сложнее. Большинство максимум придумают, что так у них устроены вкусовые рецепторы. Но почему они устроены именно так, и почему тогда нам иногда хочется пробовать другие виды мороженого?

На самом деле, с ИИ всё обстоит еще хуже. Чем дальше развиваются технологии, тем чаще мы вообще не можем понять, что происходит там внутри. А значит, и не можем быть уверены, стоит ли нам доверять таким решениям.

Читать...
​​Ансамбли моделей для распознавания рукописных цифр

Применение нескольких моделей машинного обучения для решения задачи является частой практикой и данная технология преимущественно выигрывает по качеству по сравнению с одной моделью. Однако, для успешного результата такой технологии необходимо разбираться в ее модификациях.

Читать...
​​Давайте запретим нейронные сети

Тема нейронных сетей волнует сейчас почти всех, кто рисует. За последние пол года прогресс выглядит для кого-то головокружительным, а для кого-то пугающим. В этой статье я хочу рассмотреть основные страхи, претензии и впечатления в целом по отношению к нейронным сетям среди творческих людей, профессия или хобби которых создание визуальной эстетики.

Читать...
​​30 самых крупных датасетов для машинного обучения в TensorFlow

TensorFlow — это одна из наиболее популярных открытых библиотек с датасетами для задач машинного обучения. Разработкой TensorFlow занимаются исследователи из Google Brain. Библиотека предоставляет доступ к датасетам с изображениями, видео, аудио и текстами.

Читать...
​​Структура команды Data Science: ключевые модели и роли

В этот раз мы поговорим о структуре команд data science и их сложности.

Читать...
​​Парсинг Яндекс Карт или как найти целевую аудиторию

Как написать парсер Яндекс Карт? А также аналитика данных организаций. Поиск целевой аудитории

Читать...
​​Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse

Меня зовут Сергей Коньков - я работаю архитектором в компании CloudReports. Сегодня я расскажу, как мы создали продукт, который помогает пользователям работать с данными и в какой-то мере соединяет два мира аналитики: Excel и облачные хранилища данных.

Читать...
​​Как составить резюме Junior-аналитику, чтобы на него обратили внимание: секреты от Х5 Tech

Авторы этой статьи работают в команде больших данных в Х5 Tech. Мы решили объединить в статье наш личный опыт отбора кандидатов на позицию начинающего аналитика и дать несколько рекомендаций по составлению качественного резюме. Надеемся, что они окажутся полезными для тех, кто ищет работу своей мечты, и будет совсем здорово, если мы в итоге встретимся в X5 Tech.

Читать...
​​FCOS- объяснение обнаружения объектов без привязки

FCOS: полностью сверточное одноступенчатое обнаружение объектов - это детектор объектов без привязки. Он решает проблемы обнаружения объектов с помощью метода прогнозирования по пикселям, аналогичного сегментации. Большинство последних детекторов объектов без привязки или без привязки на основе глубокого обучения используют FCOS в качестве основы.

Читать...
​​Как лучше обучать RNN для прогнозирования временных рядов?

Два последних года я в рамках магистерской диссертации разбирался с тем, как лучше использовать рекуррентные нейронные сети для прогнозирования временных рядов, и теперь хочу поделиться моим опытом с сообществом.

Читать...
​​Полиция Сан-Франциско собирается применять боевых роботов для убийства подозреваемых

Департамент полиции Сан-Франциско (SFPD) разработал новые правила, позволяющие использовать боевых роботов для применения летальной силы к подозреваемым в совершении преступлений. Убивать подозреваемых с использованием боевых роботов планируется «в редких и исключительных обстоятельствах».

Читать...
​​Каким должен быть Feature Store, чтобы оптимизировать работу с ML-моделями

В работе с данными для обучения нейросетей много рутины: под каждую ML-модель нужно создать датасет, потом «вычеркнуть» лишние признаки (фичи) и протестировать точность предсказаний. Иногда при изменении датасета нужно собирать данные по новой. Это неудобно, если нужно переиспользовать уже собранные фичи для обучения новых моделей. Чтобы оптимизировать работу с данными, ML-инженеры объединили разные практики и сформировали парадигму Feature Store.

По мотивам выступления Артёма Глазкова, ведущего эксперта MLOps в Polymatica, рассказываем о том, что нужно бизнесу от Feature Store сегодня, и разбираем архитектуру «эталонного» решения. Подробности под катом.

Читать...
​​Сравнение производительности моделей обнаружения объектов YOLO v5, v6 и v7

Если вы выполняете проект по обнаружению объектов, высока вероятность того, что вы выберете одну из многих моделей YOLO. Учитывая количество моделей обнаружения объектов YOLO, сделать выбор в пользу лучшей из них непросто.

Читать...
​​Tensorflow: Используем трансферное обучение для классификации пневмонии и оптимизируем нашу модель

Сегодня мы будем работать с открытым набором данных по рентгенографии грудной клетки которые, использовали для этого исследования, с предварительно обученной моделью MobileNet_v2 для классификации изображений TensorFlow и переносом обучения для создания классификатора пневмонии, который работает с рентгенограммами грудной клетки.

Целью этой статьи является не столько получение навыков классификации изображений, а сколько понимание того, насколько легко вы можете создать соответствующую модель.

Читать...
​​Учим ИИ в игры играть!

Машинное обучение, нейросети, Data Science - слова из мантры программиста-модника. Но лишь единицы действительно разбираются в этих хайповых технологиях. Быть может мы заглянем в закулисье computer science и узнаем как обучить ИИ играть в компьютерные игры?

Смотреть видео...
​​Открытые данные. Как сматчить несматчиваемое или Нейросеть вам в помощь

Аналитик Никитин Александр и Head of ML Андрей Румянцев разобрались как с помощью машинного обучения смерджить несколько наборов данных из открытых источников и не сойти с ума. Open data, TF-IDF, faiss, pgvector, трансформеры и удивительное завершение нашего приключения — всё это под катом.

Читать...