Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20K subscribers
621 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​Парсинг Яндекс Карт или как найти целевую аудиторию

Как написать парсер Яндекс Карт? А также аналитика данных организаций. Поиск целевой аудитории

Читать...
​​Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse

Меня зовут Сергей Коньков - я работаю архитектором в компании CloudReports. Сегодня я расскажу, как мы создали продукт, который помогает пользователям работать с данными и в какой-то мере соединяет два мира аналитики: Excel и облачные хранилища данных.

Читать...
​​Как составить резюме Junior-аналитику, чтобы на него обратили внимание: секреты от Х5 Tech

Авторы этой статьи работают в команде больших данных в Х5 Tech. Мы решили объединить в статье наш личный опыт отбора кандидатов на позицию начинающего аналитика и дать несколько рекомендаций по составлению качественного резюме. Надеемся, что они окажутся полезными для тех, кто ищет работу своей мечты, и будет совсем здорово, если мы в итоге встретимся в X5 Tech.

Читать...
​​FCOS- объяснение обнаружения объектов без привязки

FCOS: полностью сверточное одноступенчатое обнаружение объектов - это детектор объектов без привязки. Он решает проблемы обнаружения объектов с помощью метода прогнозирования по пикселям, аналогичного сегментации. Большинство последних детекторов объектов без привязки или без привязки на основе глубокого обучения используют FCOS в качестве основы.

Читать...
​​Как лучше обучать RNN для прогнозирования временных рядов?

Два последних года я в рамках магистерской диссертации разбирался с тем, как лучше использовать рекуррентные нейронные сети для прогнозирования временных рядов, и теперь хочу поделиться моим опытом с сообществом.

Читать...
​​Полиция Сан-Франциско собирается применять боевых роботов для убийства подозреваемых

Департамент полиции Сан-Франциско (SFPD) разработал новые правила, позволяющие использовать боевых роботов для применения летальной силы к подозреваемым в совершении преступлений. Убивать подозреваемых с использованием боевых роботов планируется «в редких и исключительных обстоятельствах».

Читать...
​​Каким должен быть Feature Store, чтобы оптимизировать работу с ML-моделями

В работе с данными для обучения нейросетей много рутины: под каждую ML-модель нужно создать датасет, потом «вычеркнуть» лишние признаки (фичи) и протестировать точность предсказаний. Иногда при изменении датасета нужно собирать данные по новой. Это неудобно, если нужно переиспользовать уже собранные фичи для обучения новых моделей. Чтобы оптимизировать работу с данными, ML-инженеры объединили разные практики и сформировали парадигму Feature Store.

По мотивам выступления Артёма Глазкова, ведущего эксперта MLOps в Polymatica, рассказываем о том, что нужно бизнесу от Feature Store сегодня, и разбираем архитектуру «эталонного» решения. Подробности под катом.

Читать...
​​Сравнение производительности моделей обнаружения объектов YOLO v5, v6 и v7

Если вы выполняете проект по обнаружению объектов, высока вероятность того, что вы выберете одну из многих моделей YOLO. Учитывая количество моделей обнаружения объектов YOLO, сделать выбор в пользу лучшей из них непросто.

Читать...
​​Tensorflow: Используем трансферное обучение для классификации пневмонии и оптимизируем нашу модель

Сегодня мы будем работать с открытым набором данных по рентгенографии грудной клетки которые, использовали для этого исследования, с предварительно обученной моделью MobileNet_v2 для классификации изображений TensorFlow и переносом обучения для создания классификатора пневмонии, который работает с рентгенограммами грудной клетки.

Целью этой статьи является не столько получение навыков классификации изображений, а сколько понимание того, насколько легко вы можете создать соответствующую модель.

Читать...
​​Учим ИИ в игры играть!

Машинное обучение, нейросети, Data Science - слова из мантры программиста-модника. Но лишь единицы действительно разбираются в этих хайповых технологиях. Быть может мы заглянем в закулисье computer science и узнаем как обучить ИИ играть в компьютерные игры?

Смотреть видео...
​​Открытые данные. Как сматчить несматчиваемое или Нейросеть вам в помощь

Аналитик Никитин Александр и Head of ML Андрей Румянцев разобрались как с помощью машинного обучения смерджить несколько наборов данных из открытых источников и не сойти с ума. Open data, TF-IDF, faiss, pgvector, трансформеры и удивительное завершение нашего приключения — всё это под катом.

Читать...
​​2003–2023: Краткая история Big Data

Большие данные (Big Data) и, в частности, экосистема Hadoop появились немногим более 15 лет назад и развились к сегодняшнему дню так, как мало кто мог тогда предположить.

Ещё только появившись, опенсорсный Hadoop сразу стал популярным инструментом для хранения и управления петабайтами данных. Вокруг него сформировалась обширная и яркая экосистема с сотнями проектов, и он до сих пор используется многими крупными компаниями, даже на фоне современных облачных платформ. В текущей статье я опишу все эти 15 лет эволюции экосистемы Hadoop, расскажу о её росте в течение последнего десятилетия, а также о последних шагах в развитии сферы больших данных за последние годы.

Так что пристегнитесь и настройтесь на путешествие во времени вглубь 20 последних лет, поскольку наша история начинается в 2003 году в маленьком городке к югу от Сан-Франциско…

Читать...
​​Нейронная сеть для распознавания образов с TensorFlow: как с ней работать

В сегодняшней статье хотим поделиться опытом, как можно начать использовать TensorFlow в целях распознавания образов. Напомним, что TensorFlow — открытая программная библиотека для машинного обучения, разработанная компанией Google для решения задач построения и тренировки нейронной сети с целью автоматического нахождения и классификации образов, достигающая качества человеческого восприятия.

Цель статьи — привлечь этот инструмент для распознавания боковых зубов (маляров) на рентгеновских снимках с использованием нейронной сети. Для того чтобы этого достичь, нужно выполнить несколько важных этапов, о чём и поговорим под катом.

Читать...
​​Глубокое обучение в диагностике: как AI спасает жизни и экономит средства на лечение

«Симптомы никогда не лгут», — так сказал самый блестящий диагност, доктор Хаус, который, увы существует только в телесериале. В реальной жизни симптомы часто нелегко обнаружить даже лучшим специалистам, а ошибочные диагнозы признаны самыми частыми и опасными медицинскими ошибками: с теми или иными ошибочными диагнозами сталкиваются ежегодно от 12 до 18 миллионов жителей США.

Есть надежда, что искусственный интеллект (artificial intelligence, AI) и машинное обучение (machine learning, ML) смогут в будущем изменить эту тревожную ситуацию. В этой статье рассматриваются самые успешные примеры использования машинного обучения в диагностике, подчёркивается его потенциал и описываются современные ограничения.

Читать...
​​10 лучших опенсорсных инструментов аннотирования для компьютерного зрения

Перевод статьи 10 of the best open-source annotation tools for computer vision 2022

Читать...
​​Машинное искусство и стиль Midjourney на примере круга

Этот текст для тех, кто хотел бы посмотреть на MidJourney в деле, но не может выделить время, чтобы, наконец, попробовать. 

Читать...
​​Что такое MLOps? Самый подробный текст про работу с ML-системами, который вы найдете в интернете

В этом материале мы подробно разбираем концепцию MLOps. Более того, делаем это тремя способами. Сначала теоретически — через самую толковую, на наш взгляд, схему MLOps. Затем — концептуально, через артефакты, которые заложены в подходе. И наконец, через понимание MLOps как информационной системы.

Сохраняйте текст в закладки, потому что на данный момент это, возможно, самое полное описание MLOps на русском языке (и не перевод очередной англоязычной статьи!). Подарим мерч Selectel тому, кто пришлет ссылку на более развернутое описание концепции в комментариях.

Читать...
​​Поиск пропавших людей на снимках лесного массива, полученных с помощью БПЛА или ещё один разбор задачи Цифрового Прорыва

Это статья является продолжением цикла материалов по разбору задач Всероссийского чемпионата "Цифровой Прорыв", связанных с Computer Vision. Решение, предлагаемое в статье, позволяет получить место в топ-10 лидерборда, при это реализация самого подхода у автора статьи заняла ~ 3-4 часа. В конце даются советы по улучшению решения, а также идеи, которые могут привести к победе.

Читать...
Когда смотришь на код который написал неделю назад
​​Tutorial к автоматизации разметки изображений с использованием OpenCV Python

Разметка- самая важная часть проекта глубокого обучения. Это решающий фактор того, насколько хорошо модель обучится. Однако это очень утомительно и отнимает много времени. Одним из решений является использование автоматизированного инструмента разметки изображений, который значительно сокращает время.

В этой статье мы обсудим некоторые приемы и приемы разметки в OpenCV. С помощью этих методов мы создадим автоматизированный инструмент для разметки одного класса. Он также будет иметь функцию отклонения ненужных объектов. Все это использует возможности некоторых простых алгоритмов в OpenCV.

Читать...