Build a pseudonymization service on AWS to protect sensitive data, part 1
Read: https://aws.amazon.com/blogs/big-data/part-1-build-a-pseudonymization-service-on-aws-to-protect-sensitive-data/
Read: https://aws.amazon.com/blogs/big-data/part-1-build-a-pseudonymization-service-on-aws-to-protect-sensitive-data/
👍1
AWS Glue Python shell now supports Python 3.9 with a flexible pre-loaded environment and support to install additional libraries
Read: https://aws.amazon.com/blogs/big-data/aws-glue-python-shell-now-supports-python-3-9-with-a-flexible-pre-loaded-environment-and-support-to-install-additional-libraries/
Read: https://aws.amazon.com/blogs/big-data/aws-glue-python-shell-now-supports-python-3-9-with-a-flexible-pre-loaded-environment-and-support-to-install-additional-libraries/
👍1
Yamamay deploys Oracle Analytics Cloud to improve sustainability
To boost sustainability, decision-making, and agility, the retail leader selected Oracle Analytics Cloud.
Read: https://blogs.oracle.com/analytics/post/yamamay-deploys-oracle-analytics-cloud-to-improve-sustainability
To boost sustainability, decision-making, and agility, the retail leader selected Oracle Analytics Cloud.
Read: https://blogs.oracle.com/analytics/post/yamamay-deploys-oracle-analytics-cloud-to-improve-sustainability
👍1
The Data Founder Story: From McLaren Formula 1 to Quix
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-from-mclaren
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-from-mclaren
👍1
Как за неделю разметить миллион примеров данных
В 2019 году компания OpenAI опубликовала статью о точной настройке GPT-2, в которой она использовала Scale AI для сбора мнений живых разметчиков с целью совершенствования своих языковых моделей. Хотя в то время мы уже размечали миллионы задач обработки текста и computer vision, уникальные требованиях к срокам и субъективная природа задач OpenAI создали для нас новую сложность. В частности, трудность заключалась в следующем: как поддерживать качество меток в больших масштабах без возможности проверки чужой работы разметчиками? Сегодня мы подробно расскажем о своём подходе к решению этой проблемы, о системе автоматического майнинга бенчмарков, которую мы для этого создали, а также об уроках, которые получили в процессе. Этой статьёй мы хотим проиллюстрировать небольшую часть тех сложностей, делающих масштабируемую разметку данных такой интересной сферой работы.
Читать: https://habr.com/ru/post/680960/
В 2019 году компания OpenAI опубликовала статью о точной настройке GPT-2, в которой она использовала Scale AI для сбора мнений живых разметчиков с целью совершенствования своих языковых моделей. Хотя в то время мы уже размечали миллионы задач обработки текста и computer vision, уникальные требованиях к срокам и субъективная природа задач OpenAI создали для нас новую сложность. В частности, трудность заключалась в следующем: как поддерживать качество меток в больших масштабах без возможности проверки чужой работы разметчиками? Сегодня мы подробно расскажем о своём подходе к решению этой проблемы, о системе автоматического майнинга бенчмарков, которую мы для этого создали, а также об уроках, которые получили в процессе. Этой статьёй мы хотим проиллюстрировать небольшую часть тех сложностей, делающих масштабируемую разметку данных такой интересной сферой работы.
Читать: https://habr.com/ru/post/680960/
👍1
Amazon EMR on EKS gets up to 19% performance boost running on AWS Graviton3 Processors vs. Graviton2
Read: https://aws.amazon.com/blogs/big-data/amazon-emr-on-eks-gets-up-to-19-performance-boost-running-on-aws-graviton3-processors-vs-graviton2/
Read: https://aws.amazon.com/blogs/big-data/amazon-emr-on-eks-gets-up-to-19-performance-boost-running-on-aws-graviton3-processors-vs-graviton2/
👍1
Как за неделю разметить миллион примеров данных
В 2019 году компания OpenAI опубликовала статью о точной настройке GPT-2, в которой она использовала Scale AI для сбора мнений живых разметчиков с целью совершенствования своих языковых моделей. Хотя в то время мы уже размечали миллионы задач обработки текста и computer vision, уникальные требованиях к срокам и субъективная природа задач OpenAI создали для нас новую сложность. В частности, трудность заключалась в следующем: как поддерживать качество меток в больших масштабах без возможности проверки чужой работы разметчиками? Сегодня мы подробно расскажем о своём подходе к решению этой проблемы, о системе автоматического майнинга бенчмарков, которую мы для этого создали, а также об уроках, которые получили в процессе. Этой статьёй мы хотим проиллюстрировать небольшую часть тех сложностей, делающих масштабируемую разметку данных такой интересной сферой работы.
Читать: https://habr.com/ru/post/680960/
В 2019 году компания OpenAI опубликовала статью о точной настройке GPT-2, в которой она использовала Scale AI для сбора мнений живых разметчиков с целью совершенствования своих языковых моделей. Хотя в то время мы уже размечали миллионы задач обработки текста и computer vision, уникальные требованиях к срокам и субъективная природа задач OpenAI создали для нас новую сложность. В частности, трудность заключалась в следующем: как поддерживать качество меток в больших масштабах без возможности проверки чужой работы разметчиками? Сегодня мы подробно расскажем о своём подходе к решению этой проблемы, о системе автоматического майнинга бенчмарков, которую мы для этого создали, а также об уроках, которые получили в процессе. Этой статьёй мы хотим проиллюстрировать небольшую часть тех сложностей, делающих масштабируемую разметку данных такой интересной сферой работы.
Читать: https://habr.com/ru/post/680960/
👍1
Связь GreenPlum и PostgreSQL
GreenPlum — популярное решение для масштабных аналитических систем и в небольших стартапах, и в крупных корпорациях. Оно предлагает понятный пользователям синтаксис ANSI SQL, хорошо ложится на облачный ландшафт, позволяет обучать и применять модели машинного обучения, а ещё поддерживает реляционную СУБД PostgreSQL. В статье поговорим, как связаны GreenPlum и PostgreSQL, разберём их сходства и отличия.
Читать: https://habr.com/ru/post/682248/
GreenPlum — популярное решение для масштабных аналитических систем и в небольших стартапах, и в крупных корпорациях. Оно предлагает понятный пользователям синтаксис ANSI SQL, хорошо ложится на облачный ландшафт, позволяет обучать и применять модели машинного обучения, а ещё поддерживает реляционную СУБД PostgreSQL. В статье поговорим, как связаны GreenPlum и PostgreSQL, разберём их сходства и отличия.
Читать: https://habr.com/ru/post/682248/
👍1
Подборка самых просматриваемых докладов на PHDays 11. AI-трек
С докладами технического трека Positive Hack Days 11 мы вас уже познакомили, настал черед трека, посвященного проблематике искусственного интеллекта и машинного обучения. AI-трек шел всего день, зато как: вместе с экспертами из «Ростелекома», Security Vision, Bloomtech LLC и других известных компаний мы поговорили о биометрических алгоритмах обнаружения витальности в Единой биометрической системе, о том, как компаниям обмениваться данными, не обмениваясь ими, и о том, какие методы машинного обучения помогают в выявлении сетевых атак. Делимся докладами, которые «зашли» участникам форума больше всего.
Смотреть подборку
Читать: https://habr.com/ru/post/680774/
С докладами технического трека Positive Hack Days 11 мы вас уже познакомили, настал черед трека, посвященного проблематике искусственного интеллекта и машинного обучения. AI-трек шел всего день, зато как: вместе с экспертами из «Ростелекома», Security Vision, Bloomtech LLC и других известных компаний мы поговорили о биометрических алгоритмах обнаружения витальности в Единой биометрической системе, о том, как компаниям обмениваться данными, не обмениваясь ими, и о том, какие методы машинного обучения помогают в выявлении сетевых атак. Делимся докладами, которые «зашли» участникам форума больше всего.
Смотреть подборку
Читать: https://habr.com/ru/post/680774/
👍1
Подборка актуальных вакансий
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Главный специалист Группы сопровождения аналитических систем
Где: Москва, можно удалённо
Опыт: от 3 лет
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: от 3 лет
— Системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Аналитик в Центр Компетенций R&D
Где: Москва
Опыт: от 3 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года
#вакансии #работа
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Главный специалист Группы сопровождения аналитических систем
Где: Москва, можно удалённо
Опыт: от 3 лет
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: от 3 лет
— Системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Аналитик в Центр Компетенций R&D
Где: Москва
Опыт: от 3 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года
#вакансии #работа
Как нейросети проводят лето: подборка самых ярких новостей в мире Data Science за месяц
В июле нейросети успели написать научную статью в соавторстве с человеком, предсказать структуру 200 млн белков, а ещё дать футбольным фанатам надежду на крепкий сон.
Читать: «Как нейросети проводят лето: подборка самых ярких новостей в мире Data Science за месяц»
В июле нейросети успели написать научную статью в соавторстве с человеком, предсказать структуру 200 млн белков, а ещё дать футбольным фанатам надежду на крепкий сон.
Читать: «Как нейросети проводят лето: подборка самых ярких новостей в мире Data Science за месяц»
👍3
Grafana как инструмент визуализация потока данных в Kafka
Сегодня, в эпоху больших данных, когда компании тонут в информации из самых различных локальных и облачных источников, сотрудникам трудно увидеть общую картину. Анализ информации для отделения зерен от плевел требует все больше усилий. Визуализация данных помогает превратить все данные в понятную, визуально привлекательную и полезную информацию. Хорошо продуманная визуализация данных имеет критическое значение для принятия решений на их основе. Визуализация позволяет не только замечать и интерпретировать связи и взаимоотношения, но и выявлять развивающиеся тенденции, которые не привлекли бы внимания в виде необработанных данных. Большинство средств визуализации данных могут подключаться к источникам данных и таким образом использовать их для анализа. Пользователи могут выбрать наиболее подходящий способ представления данных из нескольких вариантов. В результате информация может быть представлена в графической форме, например, в виде круговой диаграммы, графика или визуального представления другого типа.
Большинство средств визуализации предлагает широкий выбор вариантов отображения данных, от обычных линейных графиков и столбчатых диаграмм до временных шкал, карт, зависимостей, гистограмм и настраиваемых представлений. Для решения задачи визуализации принципиальное значение имеет тип источника данных. И хотя современные средства визуализации проделали в этом вопросе большой путь, и предлагают на сегодняшний день весьма большой выбор, задача визуализации не решена в полной мере. Если для баз данных и целого ряда web сервисов задача визуализации не представляет принципиальной проблемы, то понять, что происходит с информационными потоками внутри некоторых программных продуктов из мира больших данных, не так просто.
Инструмент, на котором хотелось бы остановиться более подробно – Kafka.
Читать: https://habr.com/ru/post/682582/
Сегодня, в эпоху больших данных, когда компании тонут в информации из самых различных локальных и облачных источников, сотрудникам трудно увидеть общую картину. Анализ информации для отделения зерен от плевел требует все больше усилий. Визуализация данных помогает превратить все данные в понятную, визуально привлекательную и полезную информацию. Хорошо продуманная визуализация данных имеет критическое значение для принятия решений на их основе. Визуализация позволяет не только замечать и интерпретировать связи и взаимоотношения, но и выявлять развивающиеся тенденции, которые не привлекли бы внимания в виде необработанных данных. Большинство средств визуализации данных могут подключаться к источникам данных и таким образом использовать их для анализа. Пользователи могут выбрать наиболее подходящий способ представления данных из нескольких вариантов. В результате информация может быть представлена в графической форме, например, в виде круговой диаграммы, графика или визуального представления другого типа.
Большинство средств визуализации предлагает широкий выбор вариантов отображения данных, от обычных линейных графиков и столбчатых диаграмм до временных шкал, карт, зависимостей, гистограмм и настраиваемых представлений. Для решения задачи визуализации принципиальное значение имеет тип источника данных. И хотя современные средства визуализации проделали в этом вопросе большой путь, и предлагают на сегодняшний день весьма большой выбор, задача визуализации не решена в полной мере. Если для баз данных и целого ряда web сервисов задача визуализации не представляет принципиальной проблемы, то понять, что происходит с информационными потоками внутри некоторых программных продуктов из мира больших данных, не так просто.
Инструмент, на котором хотелось бы остановиться более подробно – Kafka.
Читать: https://habr.com/ru/post/682582/
👍1
Build a resilient Amazon Redshift architecture with automatic recovery enabled
Read: https://aws.amazon.com/blogs/big-data/build-a-resilient-amazon-redshift-architecture-with-automatic-recovery-enabled/
Read: https://aws.amazon.com/blogs/big-data/build-a-resilient-amazon-redshift-architecture-with-automatic-recovery-enabled/
👍1
Теория графов как метод раннего выявления болезни Альцгеймера
Древнеримский врач Гален был одним из первых, кто осознал, что именно мозг управляет моторными реакциями, когнитивными функциями и памятью. Но как именно мозг контролирует эти процессы? Со времен Галена этот вопрос был двигателем всей нейрофизиологии.
Начиная с работ Поля Брока, выполненных в 1800-х, функцию мозга описывали в терминах модульной сегментации: каждая зона мозга отвечает за уникальный набор поведений, действий и способностей. Такая позиция была сформулирована на материале наблюдений за пациентами, страдавшими от неврологических симптомов с последующим соотнесением этих симптомов с
локализованными травмами мозга. Например, выяснилось, что зона Брока (область мозга,
расположенная в задненижней части третьей лобной извилины левого полушария) отвечает за беглость речи. Открыли ее, изучая двух субъектов; оба они проявляли ограниченную речевую способность и страдали от поражений головного мозга со схожей локализацией. Притом, что записки Брока оказались критически важны для установления связи между речью и конкретной зоной мозга, данная нейроанатомическая ассоциация между структурными и функциональными признаками не объясняет всей сложности отношений между работой мозга и поведением.
Читать: https://habr.com/ru/post/682730/
Древнеримский врач Гален был одним из первых, кто осознал, что именно мозг управляет моторными реакциями, когнитивными функциями и памятью. Но как именно мозг контролирует эти процессы? Со времен Галена этот вопрос был двигателем всей нейрофизиологии.
Начиная с работ Поля Брока, выполненных в 1800-х, функцию мозга описывали в терминах модульной сегментации: каждая зона мозга отвечает за уникальный набор поведений, действий и способностей. Такая позиция была сформулирована на материале наблюдений за пациентами, страдавшими от неврологических симптомов с последующим соотнесением этих симптомов с
локализованными травмами мозга. Например, выяснилось, что зона Брока (область мозга,
расположенная в задненижней части третьей лобной извилины левого полушария) отвечает за беглость речи. Открыли ее, изучая двух субъектов; оба они проявляли ограниченную речевую способность и страдали от поражений головного мозга со схожей локализацией. Притом, что записки Брока оказались критически важны для установления связи между речью и конкретной зоной мозга, данная нейроанатомическая ассоциация между структурными и функциональными признаками не объясняет всей сложности отношений между работой мозга и поведением.
Читать: https://habr.com/ru/post/682730/
❤2
#2 Нейронные сети для начинающих. NumPy. MatplotLib. Операции с изображениями в OpenCV
Это вторая статья из серии введения в «Нейронные сети для начинающих». Здесь и далее мы постараемся разобраться с таким понятием — как обработка графических данных, визуализация данных, а также на практике решим пару простых задач. Предыдущая статья — #1 Нейронные сети для начинающих. Решение задачи классификации Ирисов Фишера
Маленький совет из будущего: «В данной статье будут затронуты некоторые понятия, о которых я писал раньше, так что для полного понимания темы, советую прочитать и предыдущую статью»На самом деле, на хабре было множество публикаций по этой теме, но все они говорят о разных вещах. Давайте разберёмся и соберём всё в одну кучку, для полноценного понимания картины мира.
Читать: https://habr.com/ru/post/682462/
Это вторая статья из серии введения в «Нейронные сети для начинающих». Здесь и далее мы постараемся разобраться с таким понятием — как обработка графических данных, визуализация данных, а также на практике решим пару простых задач. Предыдущая статья — #1 Нейронные сети для начинающих. Решение задачи классификации Ирисов Фишера
Маленький совет из будущего: «В данной статье будут затронуты некоторые понятия, о которых я писал раньше, так что для полного понимания темы, советую прочитать и предыдущую статью»На самом деле, на хабре было множество публикаций по этой теме, но все они говорят о разных вещах. Давайте разберёмся и соберём всё в одну кучку, для полноценного понимания картины мира.
Читать: https://habr.com/ru/post/682462/
👍1
Третий онлайн-хакатон AgroCode Hack 2022 и AgroCode Data Science Cup с общим призовым фондом в 1 400 000 рублей
Участвовать могут фронтенд- и бэкенд-разработчики, Data Science, Machine Learning и Computer Vision-специалисты. Как в формате готовых команд, так и индивидуальных участников.
Вам предстоит решить одну из 3-х задач:
— Разработать алгоритм по определению границ кузова грузового транспорта при сборе урожая;
— Выявить закономерности заболеваний коров и определить самые неэффективные протоколы лечения;
— Создать сервис по поиску перспективных земель для выращивания винограда.
А участники DS-чемпионата смогут создать новую фичу для агромаркетплейса — реализовать на сайте «Своё Фермерство» поиск в каталоге по фотографиям запчастей.
Когда: 16-18 сентября
Узнавайте подробности и подавайте заявку: https://tprg.ru/53Mz
#ивент
Участвовать могут фронтенд- и бэкенд-разработчики, Data Science, Machine Learning и Computer Vision-специалисты. Как в формате готовых команд, так и индивидуальных участников.
Вам предстоит решить одну из 3-х задач:
— Разработать алгоритм по определению границ кузова грузового транспорта при сборе урожая;
— Выявить закономерности заболеваний коров и определить самые неэффективные протоколы лечения;
— Создать сервис по поиску перспективных земель для выращивания винограда.
А участники DS-чемпионата смогут создать новую фичу для агромаркетплейса — реализовать на сайте «Своё Фермерство» поиск в каталоге по фотографиям запчастей.
Когда: 16-18 сентября
Узнавайте подробности и подавайте заявку: https://tprg.ru/53Mz
#ивент
Книга «Масштабируемые данные. Лучшие шаблоны высоконагруженных архитектур»
Хорошего дня, Хаброжители!
Методы управления данными и их интеграции быстро развиваются, хранение данных в одном месте становится все сложнее и сложнее масштабировать. Пора разобраться с тем, как перевести сложный и тесно переплетенный ландшафт данных вашего предприятия на более гибкую архитектуру, готовую к современным задачам.
Архитекторы и аналитики данных, специалисты по соблюдению требований и управлению узнают, как работать с масштабируемой архитектурой и внедрять ее без больших предварительных затрат. Питхейн Стренгхольт поделится с вами идеями, принципами, наблюдениями, передовым опытом и шаблонами.
Читать: https://habr.com/ru/post/682802/
Хорошего дня, Хаброжители!
Методы управления данными и их интеграции быстро развиваются, хранение данных в одном месте становится все сложнее и сложнее масштабировать. Пора разобраться с тем, как перевести сложный и тесно переплетенный ландшафт данных вашего предприятия на более гибкую архитектуру, готовую к современным задачам.
Архитекторы и аналитики данных, специалисты по соблюдению требований и управлению узнают, как работать с масштабируемой архитектурой и внедрять ее без больших предварительных затрат. Питхейн Стренгхольт поделится с вами идеями, принципами, наблюдениями, передовым опытом и шаблонами.
Читать: https://habr.com/ru/post/682802/
👍3
Configure Hadoop YARN CapacityScheduler on Amazon EMR on Amazon EC2 for multi-tenant heterogeneous workloads
Read: https://aws.amazon.com/blogs/big-data/configure-hadoop-yarn-capacityscheduler-on-amazon-emr-on-amazon-ec2-for-multi-tenant-heterogeneous-workloads/
Read: https://aws.amazon.com/blogs/big-data/configure-hadoop-yarn-capacityscheduler-on-amazon-emr-on-amazon-ec2-for-multi-tenant-heterogeneous-workloads/
👍1
From centralized architecture to decentralized architecture: How data sharing fine-tunes Amazon Redshift workloads
Read: https://aws.amazon.com/blogs/big-data/from-centralized-architecture-to-decentralized-architecture-how-data-sharing-fine-tunes-amazon-redshift-workloads/
Read: https://aws.amazon.com/blogs/big-data/from-centralized-architecture-to-decentralized-architecture-how-data-sharing-fine-tunes-amazon-redshift-workloads/
👍1
Introducing AWS Glue interactive sessions for Jupyter
Read: https://aws.amazon.com/blogs/big-data/introducing-aws-glue-interactive-sessions-for-jupyter/
Read: https://aws.amazon.com/blogs/big-data/introducing-aws-glue-interactive-sessions-for-jupyter/
👍1