Десять лучших опенсорсных инструментов аннотирования 2021 года для Computer Vision
Мы осознаём важность подбора качественных инструментов разметки и аннотирования изображений для создания точных и полезных массивов данных. В нашем блоге можно найти серию Tools we love, в которой мы проводим анализ некоторые из наших любимых инструментов аннотирования, а также списки лучших инструментов аннотирования на 2019, 2020 и 2021 годы.
Сфера аннотирования изображений развивается, поэтому мы наблюдаем рост количества опенсорсных инструментов, позволяющих бесплатно размечать изображения и использовать большой набор функций. В этой статье мы расскажем о десяти лучших опенсорсных инструментах аннотирования для компьютерного зрения.
Читать: https://habr.com/ru/post/665684/
Мы осознаём важность подбора качественных инструментов разметки и аннотирования изображений для создания точных и полезных массивов данных. В нашем блоге можно найти серию Tools we love, в которой мы проводим анализ некоторые из наших любимых инструментов аннотирования, а также списки лучших инструментов аннотирования на 2019, 2020 и 2021 годы.
Сфера аннотирования изображений развивается, поэтому мы наблюдаем рост количества опенсорсных инструментов, позволяющих бесплатно размечать изображения и использовать большой набор функций. В этой статье мы расскажем о десяти лучших опенсорсных инструментах аннотирования для компьютерного зрения.
Читать: https://habr.com/ru/post/665684/
👍1
Причинно-следственный анализ в машинном обучении: итоги 2021 г
Недавно мы поговорили о том, что такое causal inference или причинно-следственный анализ, и почему он стал так важен для развития машинного обучения. А в этой статье - под катом - хотелось бы рассказать о трендах в развитии Causal Inference в ML в 2021 г.
Читать: https://habr.com/ru/post/667730/
Недавно мы поговорили о том, что такое causal inference или причинно-следственный анализ, и почему он стал так важен для развития машинного обучения. А в этой статье - под катом - хотелось бы рассказать о трендах в развитии Causal Inference в ML в 2021 г.
Читать: https://habr.com/ru/post/667730/
Supercharging Dream11’s Data Highway with Amazon Redshift RA3 clusters
Read: https://aws.amazon.com/blogs/big-data/supercharging-dream11s-data-highway-with-amazon-redshift-ra3-clusters/
Read: https://aws.amazon.com/blogs/big-data/supercharging-dream11s-data-highway-with-amazon-redshift-ra3-clusters/
Integrate AWS Glue Schema Registry with the AWS Glue Data Catalog to enable effective schema enforcement in streaming analytics use cases
Read: https://aws.amazon.com/blogs/big-data/integrate-aws-glue-schema-registry-with-the-aws-glue-data-catalog-to-enable-effective-schema-enforcement-in-streaming-analytics-use-cases/
Read: https://aws.amazon.com/blogs/big-data/integrate-aws-glue-schema-registry-with-the-aws-glue-data-catalog-to-enable-effective-schema-enforcement-in-streaming-analytics-use-cases/
20+ популярных опенсорсных датасетов для Computer Vision
ИИ в первую очередь развивается благодаря данным, а не коду.
Это смелое заявление несколько лет назад могло показаться нелепым, но сегодня это не так. Однако, по-прежнему существует одна проблема: высокого качества данных обучения достичь иногда очень сложно. На поиск подходящего для задач компьютерного зрения массива данных могут потребоваться дни или недели.
Но не стоит волноваться, в этой статье мы составили исчерпывающий список качественных массивов данных для компьютерного зрения в свободном доступе.
Читать: https://habr.com/ru/post/669170/
ИИ в первую очередь развивается благодаря данным, а не коду.
Это смелое заявление несколько лет назад могло показаться нелепым, но сегодня это не так. Однако, по-прежнему существует одна проблема: высокого качества данных обучения достичь иногда очень сложно. На поиск подходящего для задач компьютерного зрения массива данных могут потребоваться дни или недели.
Но не стоит волноваться, в этой статье мы составили исчерпывающий список качественных массивов данных для компьютерного зрения в свободном доступе.
Читать: https://habr.com/ru/post/669170/
👍1
The difference between prediction and estimation
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/06/the-difference-between-prediction-and-estimation.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/06/the-difference-between-prediction-and-estimation.html
Тренды e-commerce против реальности: какие прогнозы сбылись, а какие — нет
Каждый год эксперты дают прогнозы, куда пойдет e-com. Например, в 2015 году они видели будущее электронной коммерции в виртуальной реальности и делали ставку на Big Data.
Мы нашли на Хабре несколько любопытных прогнозов и оценили, какие из них стали реальностью, а какие остались фантастикой.
Читать: https://habr.com/ru/post/654323/
Каждый год эксперты дают прогнозы, куда пойдет e-com. Например, в 2015 году они видели будущее электронной коммерции в виртуальной реальности и делали ставку на Big Data.
Мы нашли на Хабре несколько любопытных прогнозов и оценили, какие из них стали реальностью, а какие остались фантастикой.
Читать: https://habr.com/ru/post/654323/
Trigger an AWS Glue DataBrew job based on an event generated from another DataBrew job
Read: https://aws.amazon.com/blogs/big-data/trigger-an-aws-glue-databrew-job-based-on-an-event-generated-from-another-databrew-job/
Read: https://aws.amazon.com/blogs/big-data/trigger-an-aws-glue-databrew-job-based-on-an-event-generated-from-another-databrew-job/
Automate your validated dataset deployment using Amazon QuickSight and AWS CloudFormation
Read: https://aws.amazon.com/blogs/big-data/automate-your-validated-dataset-deployment-using-amazon-quicksight-and-aws-cloudformation/
Read: https://aws.amazon.com/blogs/big-data/automate-your-validated-dataset-deployment-using-amazon-quicksight-and-aws-cloudformation/
Как с помощью Python создать полностью автоматизированную трейдинговую систему на базе ИИ
Можно ли с помощью ИИ автоматизировать набор правил, по которым действуют на бирже профессиональные трейдеры? Команда VK Cloud Solutions перевела статью о том, как это удалось реализовать и что вышло из такой затеи.
Читать: https://habr.com/ru/post/669462/
Можно ли с помощью ИИ автоматизировать набор правил, по которым действуют на бирже профессиональные трейдеры? Команда VK Cloud Solutions перевела статью о том, как это удалось реализовать и что вышло из такой затеи.
Читать: https://habr.com/ru/post/669462/
Использование хеш-значений с обработкой коллизий в качестве суррогатных ключей в справочниках DWH
Общеизвестно, что в хранилищах данных для связи таблиц фактов со справочниками используются суррогатные ключи. В большинстве случаев это целочисленный счетчик, который взаимно однозначно определяет бизнес ключ (или бизнес ключ плюс зависимость от времени для медленно меняющихся справочников). С увеличением объемов обрабатываемой информации в случае большой кардинальности справочников использование счетчиков в качестве суррогатных ключей становится проблемой с точки зрения производительности, т.к. при загрузке фактов необходимо определить значение суррогатного ключа по довольно большому справочнику. Для решения этой проблемы многие компании переходят на формирование суррогатных значений на основе хеш-значений бизнес-ключей.
Читать: https://habr.com/ru/post/669510/
Общеизвестно, что в хранилищах данных для связи таблиц фактов со справочниками используются суррогатные ключи. В большинстве случаев это целочисленный счетчик, который взаимно однозначно определяет бизнес ключ (или бизнес ключ плюс зависимость от времени для медленно меняющихся справочников). С увеличением объемов обрабатываемой информации в случае большой кардинальности справочников использование счетчиков в качестве суррогатных ключей становится проблемой с точки зрения производительности, т.к. при загрузке фактов необходимо определить значение суррогатного ключа по довольно большому справочнику. Для решения этой проблемы многие компании переходят на формирование суррогатных значений на основе хеш-значений бизнес-ключей.
Читать: https://habr.com/ru/post/669510/
👍2
Как мы участвовали в чемпионате по DS длиной 3.5 месяца
В марте 2021 года HeadHunter купил портал Dream Job и позже дополнительно встроил интерфейс оценки работодателя на свой сайт. Видимо, количество отзывов резко увеличилось настолько, что их стало сложно обрабатывать в ручном режиме. В результате, задача модерации отзывов была переведена в термины классификации и организован чемпионат на платформе Boosters для решения этой задачи.
Соревнования по анализу данных, в которых целевую переменную можно разметить ручками, принято проводить в Docker-формате. Однако, соревнование длилось 3,5 месяца и в целях учета интересов как организаторов, так и участников, проходило в 3 этапа. В соревновании участвовала команда лаборатории машинного обучения Альфа-Банка: я, Андрей Сон — специалист по интеллектуальному анализу данных, и Женя Смирнов — руководитель лаборатории.
Мы заняли второе место, чуть не дотянув до первого — разрыв составлял 0.0001 метрики. Дальше подробно расскажем, что происходило на каждом этапе, какие перед нами стояли задачи и как мы их решали.
Читать: https://habr.com/ru/post/669522/
В марте 2021 года HeadHunter купил портал Dream Job и позже дополнительно встроил интерфейс оценки работодателя на свой сайт. Видимо, количество отзывов резко увеличилось настолько, что их стало сложно обрабатывать в ручном режиме. В результате, задача модерации отзывов была переведена в термины классификации и организован чемпионат на платформе Boosters для решения этой задачи.
Соревнования по анализу данных, в которых целевую переменную можно разметить ручками, принято проводить в Docker-формате. Однако, соревнование длилось 3,5 месяца и в целях учета интересов как организаторов, так и участников, проходило в 3 этапа. В соревновании участвовала команда лаборатории машинного обучения Альфа-Банка: я, Андрей Сон — специалист по интеллектуальному анализу данных, и Женя Смирнов — руководитель лаборатории.
Мы заняли второе место, чуть не дотянув до первого — разрыв составлял 0.0001 метрики. Дальше подробно расскажем, что происходило на каждом этапе, какие перед нами стояли задачи и как мы их решали.
Читать: https://habr.com/ru/post/669522/
A serverless operational data lake for retail with AWS Glue, Amazon Kinesis Data Streams, Amazon DynamoDB, and Amazon QuickSight
Read: https://aws.amazon.com/blogs/big-data/a-serverless-operational-data-lake-for-retail-with-aws-glue-amazon-kinesis-data-streams-amazon-dynamodb-and-amazon-quicksight/
Read: https://aws.amazon.com/blogs/big-data/a-serverless-operational-data-lake-for-retail-with-aws-glue-amazon-kinesis-data-streams-amazon-dynamodb-and-amazon-quicksight/
Подготовили для вас подборки полезной информации по различным направлениям
— для веб-разработчиков: @tproger_web;
— любителям Java: @a_cup_of_java;
— всё о нейросетях: @neuro_channel;
— нужные инструменты для разработчиков: @prog_tools.
Выбирайте, что вам интересно, переходите по ссылке и жмите на закреп. И не забудьте подписаться — там ещё много всего интересного!
— для веб-разработчиков: @tproger_web;
— любителям Java: @a_cup_of_java;
— всё о нейросетях: @neuro_channel;
— нужные инструменты для разработчиков: @prog_tools.
Выбирайте, что вам интересно, переходите по ссылке и жмите на закреп. И не забудьте подписаться — там ещё много всего интересного!
Ручное аннотирование по-прежнему незаменимо для разработки моделей глубокого обучения
Не подлежит сомнению, что высококачественные размеченные массивы данных играют критичную роль в разработке новых алгоритмов глубокого обучения. Однако понимание ML и глубокого обучения по-прежнему остаётся в зачаточном состоянии. Именно поэтому команды прикладного ML и исследований ML нашей компании совместно трудятся над пониманием последних исследований в сфере ML, пытаясь разобраться, как мы можем преодолеть одну из самых больших сложностей в современной разработке ИИ, как у наших клиентов, так и для отрасли в целом.
Недавно наша команда исследователей провела глубокий анализ состояния данных в области компьютерного зрения. Исследовательская статья, одобренная для Human-in-the-Loop Learning Workshop на ICML 2021, показала, что высококачественная разметка по-прежнему остаётся незаменимой для разработки точных моделей глубокого обучения.
Читать: https://habr.com/ru/post/665384/
Не подлежит сомнению, что высококачественные размеченные массивы данных играют критичную роль в разработке новых алгоритмов глубокого обучения. Однако понимание ML и глубокого обучения по-прежнему остаётся в зачаточном состоянии. Именно поэтому команды прикладного ML и исследований ML нашей компании совместно трудятся над пониманием последних исследований в сфере ML, пытаясь разобраться, как мы можем преодолеть одну из самых больших сложностей в современной разработке ИИ, как у наших клиентов, так и для отрасли в целом.
Недавно наша команда исследователей провела глубокий анализ состояния данных в области компьютерного зрения. Исследовательская статья, одобренная для Human-in-the-Loop Learning Workshop на ICML 2021, показала, что высококачественная разметка по-прежнему остаётся незаменимой для разработки точных моделей глубокого обучения.
Читать: https://habr.com/ru/post/665384/
👍2
Why you must know how analytical results were obtained
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/06/why-you-must-know-how-analytical-results-were-obtained.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/06/why-you-must-know-how-analytical-results-were-obtained.html
Apache NiFi: как решить ошибки, которые не гуглятся
Настройка и запуск Apache NiFi и Zookeeper, настройка авторизации по LDAP и работа NiFi по HTTPS, настройка и запуск Apache NiFi Registry, пример запуска NiFi c Kerberos — вот темы, которые будут в этой статье.
Не вижу смысла полностью рассказывать, как настраивать NiFi и NiFi Registry — есть официальная документация и мануалы в сети. Я сосредоточился на ошибках, информации по которым нет, в том числе и на английском. При самостоятельном поиске решения, это реально масса времени. Я провел месяцы в режиме DEBUG и TRACE, чтобы понять, как всё сделать правильно. Готов поделится.
Читать: https://habr.com/ru/post/669812/
Настройка и запуск Apache NiFi и Zookeeper, настройка авторизации по LDAP и работа NiFi по HTTPS, настройка и запуск Apache NiFi Registry, пример запуска NiFi c Kerberos — вот темы, которые будут в этой статье.
Не вижу смысла полностью рассказывать, как настраивать NiFi и NiFi Registry — есть официальная документация и мануалы в сети. Я сосредоточился на ошибках, информации по которым нет, в том числе и на английском. При самостоятельном поиске решения, это реально масса времени. Я провел месяцы в режиме DEBUG и TRACE, чтобы понять, как всё сделать правильно. Готов поделится.
Читать: https://habr.com/ru/post/669812/
👍1
Введение в dbt шаг за шагом
Привет, Хабр!
Меня зовут Марк Порошин, в DV Group я занимаюсь Data Science. Мы работаем с большим количеством данных, на данный момент приближаемся к 10тб данных на нашем кластере Greenplum. Источники данных постоянно дополняются, а их структура меняется, поэтому в качестве методологии построения хранилища мы выбрали DataVault. Для автоматизации трансформации данных решили использовать dbt, о котором я хочу рассказать в данной статье.
Читать: https://habr.com/ru/post/670062/
Привет, Хабр!
Меня зовут Марк Порошин, в DV Group я занимаюсь Data Science. Мы работаем с большим количеством данных, на данный момент приближаемся к 10тб данных на нашем кластере Greenplum. Источники данных постоянно дополняются, а их структура меняется, поэтому в качестве методологии построения хранилища мы выбрали DataVault. Для автоматизации трансформации данных решили использовать dbt, о котором я хочу рассказать в данной статье.
Читать: https://habr.com/ru/post/670062/
👍1
Introduction to Amazon QuickSight ML Insights
Read: https://aws.amazon.com/blogs/big-data/introduction-to-amazon-quicksight-ml-insights/
Read: https://aws.amazon.com/blogs/big-data/introduction-to-amazon-quicksight-ml-insights/
Генерация меток для обучения модели при помощи слабого контроля
Компаниям сложно следить за всеми новостями и мнениями о них в социальных сетях; существует огромное множество потенциально релевантных постов, и их фильтрация заняла бы много времени. Новый продукт Borealis AI был создан для решения этой проблемы путём извлечения в реальном времени информации социальных сетей, распознавания тематики и добавления метки для каждого поста с обозначением его типа. Например, пост может быть помечен как «пресс-релиз», «обзор пользователя» или «шум». Такие метки позволяют пользователям находить более чистые подмножества постов в соцсетях, которые им интересны.
Чтобы создать модель машинного обучения для классификации постов по таким категориям, необходимо получить высококачественные размеченные данные обучения. Иными словами, нам нужны примеры постов в социальных сетях, которые вручную размечены как пресс-релизы или обзоры пользователей, чтобы модель могла учиться тому, как распознавать новые примеры того же типа.
Читать: https://habr.com/ru/post/654621/
Компаниям сложно следить за всеми новостями и мнениями о них в социальных сетях; существует огромное множество потенциально релевантных постов, и их фильтрация заняла бы много времени. Новый продукт Borealis AI был создан для решения этой проблемы путём извлечения в реальном времени информации социальных сетей, распознавания тематики и добавления метки для каждого поста с обозначением его типа. Например, пост может быть помечен как «пресс-релиз», «обзор пользователя» или «шум». Такие метки позволяют пользователям находить более чистые подмножества постов в соцсетях, которые им интересны.
Чтобы создать модель машинного обучения для классификации постов по таким категориям, необходимо получить высококачественные размеченные данные обучения. Иными словами, нам нужны примеры постов в социальных сетях, которые вручную размечены как пресс-релизы или обзоры пользователей, чтобы модель могла учиться тому, как распознавать новые примеры того же типа.
Читать: https://habr.com/ru/post/654621/
Как обучить нейросеть, если разметка данных стоит как самолет
Искусственный интеллект все чаще используется в медицинских целях, в частности для анализа медицинских изображений. Процесс создания качественной и эффективной нейросети долгий и дорогой. Более того, данных для обучения зачастую недостаточно.
Именно по этим причинам мы решили исследовать различные подходы, которые могли бы помочь сократить число необходимых аннотированных данных для получения модели того же качества. Это может позволить не только сократить время и расходы на аннотацию, но и ускорить цикл поставки новых моделей.
В результате нашего исследования, мы нашли лучший подход, который помог сохранить точность работы алгоритма при использовании лишь 20% разметки.
Магия - нет, расскажем подробнее…
Читать: https://habr.com/ru/post/670342/
Искусственный интеллект все чаще используется в медицинских целях, в частности для анализа медицинских изображений. Процесс создания качественной и эффективной нейросети долгий и дорогой. Более того, данных для обучения зачастую недостаточно.
Именно по этим причинам мы решили исследовать различные подходы, которые могли бы помочь сократить число необходимых аннотированных данных для получения модели того же качества. Это может позволить не только сократить время и расходы на аннотацию, но и ускорить цикл поставки новых моделей.
В результате нашего исследования, мы нашли лучший подход, который помог сохранить точность работы алгоритма при использовании лишь 20% разметки.
Магия - нет, расскажем подробнее…
Читать: https://habr.com/ru/post/670342/