NEW BOT Телеграм, страница

Data Analysis / Big Data

Взаимосвязь температуры и населения

Погодные условия на планете и в конкретном регионе в частности влиют на всю социальную жизнь общества: так колебание температуры поверхностного слоя воды в экваториальной части Тихого океана не только оказывают заметное влияние на климат, но и вызывает эпидемии, может быть связан с цикличностью войн и возникновением гражданских конфликтов в Индии и африканских странах. И это неудивительно: погода влияет на урожай, а голод и резкое повышенние затрат вынуждают людей искать радикальные выходы (как, например, отобрать плодородную землю). Так, например, риск возникновения гражданской войны в жаркие годы в два раза выше. В результате засухи 2007 года, которая вызвала скачок в ценах на продовольственные товары, начались общественные беспорядки в Египте, Камеруне и Гаити.

Читать: https://habr.com/ru/post/674794/

856 views17:53

Data Analysis / Big Data

Создаём свою БД на PostgreSQL из CSV

Давайте вместе попробуем создать основы большой базы данных, с помощью готового dataset. Для поиска нужного нам материала воспользуемся помощью прекрасного ресурса KAGGLE.

Читать: https://habr.com/ru/post/674802/

👍1

771 views18:17

Data Analysis / Big Data

Как быстро разрабатывать сервисы обработки данных в реальном времени с помощью PySpark Structured Streaming и Kafka

Данная статья обобщает базовые шаги по установке и началу работы с PySpark Structured Streaming при участии брокера сообщений Kafka. Предполагается, что читатель уже знаком с языком программирования Python и сервисом Kafka.

Читать: https://habr.com/ru/post/674944/

692 views13:06

Data Analysis / Big Data

Data Engineering Weekly #91

Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-91

636 views15:16

Data Analysis / Big Data

Введение в языковые модели

N-граммы

N-граммы – это статистические модели, которые предсказывают следующее слово после N-1 слов на основе вероятности их сочетания. Например, сочетание I want to в английском языке имеет высокую вероятностью, а want I to – низкую. Говоря простым языком, N-грамма – это последовательность n слов. Например, биграммы – это последовательности из двух слов (I want, want to, to, go, go to, to the…), триграммы – последовательности из трех слов (I want to, want to go, to go to…) и так далее.

Такие распределения вероятностей имеют широкое применение в машинном переводе, автоматической проверке орфографии, распознавании речи и умном вводе. Например, при распознавании речи, по сравнению с фразой eyes awe of an, последовательность I saw a van будет иметь большую вероятность. Во всех этих случаях мы подсчитываем вероятность следующего слова или последовательности слов. Такие подсчеты называются языковыми моделями.

Как же рассчитать P(w)? Например, вероятность предложения P(I, found, two, pounds, in, the, library). Для этого нам понадобится цепное правило, которое определяется так:

Читать: https://habr.com/ru/post/675218/

👍2

622 views14:06

Data Analysis / Big Data

How William Hill migrated NoSQL workloads at scale to Amazon Keyspaces

Read: https://aws.amazon.com/blogs/big-data/how-william-hill-migrated-nosql-workloads-at-scale-to-amazon-keyspaces/

600 views16:54

Data Analysis / Big Data

Analyze logs with Dynatrace Davis AI Engine using Amazon Kinesis Data Firehose HTTP endpoint delivery

Read: https://aws.amazon.com/blogs/big-data/analyze-logs-with-dynatrace-davis-ai-engine-using-amazon-kinesis-data-firehose-http-endpoint-delivery/

616 views18:49

Data Analysis / Big Data

How HR can help achieve sustainability goals

Embracing ESG initiatives (environment, social, governance) can improve your employer brand and keep employees happy.

Read: https://blogs.oracle.com/analytics/post/how-hr-can-help-achieve-sustainability-goals

618 views00:18

Data Analysis / Big Data

Опенсорсные массивы данных для Computer Vision

Модели Computer Vision, обучаемые на опенсорсных массивах данных

Computer Vision (CV) — одна из самых увлекательных тем в сфере искусственного интеллекта (Artificial Intelligence, AI) и машинного обучения (Machine Learning, ML). Это важная часть многих современных конвейеров AI/ML, преобразующая практически все отрасли и позволяющая компаниям осуществлять революцию в работе машин и бизнес-систем.

В науке CV многие десятилетия была уважаемой областью computer science, и за многие годы в этой сфере было проведено множество исследований по её совершенствованию. Однако революцию в ней совершило недавно начавшееся применение глубоких нейросетей, ставшее стимулом ускорения её развития.

Читать: https://habr.com/ru/post/669886/

647 views09:19

Data Analysis / Big Data

7 июля пройдёт бесплатный онлайн ML-митап

На нём расскажут, как автоматизировать мониторинг качества данных в Feature Store, рассмотрят популярные проблемы ML-систем и способы их предотвращения, а также обсудят, что происходит с RnD в промышленном Data Science.

На митап приглашают дата-саентистов, дата-инженеров и специалистов, интересующихся машинным обучением.

Подробнее: https://tprg.ru/u5Dq

#ивент

mts-digital.timepad.ru

ML MEETUP MTS BIG DATA / События на TimePad.ru

МТС Big Data проведет четвертый онлайн-митап для дата-саентистов, дата-инженеров и специалистов, интересующихся машинным обучением

👍1

815 views13:00

Подробнее

Data Analysis / Big Data

Архитектура реальной системы машинного обучения

Чтобы понимать, как работают системы машинного обучения, нужно знать, из каких компонентов они состоят и как они связаны друг с другом. Команда VK Cloud Solutions перевела статью об архитектуре систем машинного обучения, которые сейчас используют на практике.

Читать: https://habr.com/ru/post/673782/

729 views08:32

Data Analysis / Big Data

Tableau vs FineBI. Часть III: администрирование и лицензирование

Сегодня посмотрим на два важных аспекта сравниваемых BI-систем: администрирование и лицензирование. И то, и другое не менее важно, чем собственно функционал и интеграционные возможности решений. Посмотрим, насколько значимы различия и не подведет ли нас китайская платформа.

Читать: https://habr.com/ru/post/675890/

726 views10:48

Data Analysis / Big Data

Accelerate machine learning with AWS Data Exchange and Amazon Redshift ML

Read: https://aws.amazon.com/blogs/big-data/accelerate-machine-learning-with-aws-data-exchange-and-amazon-redshift-ml/

👍1

698 views15:49

Data Analysis / Big Data

Что такое выпас данных и почему он необходим?

Когда речь идет об анализе данных, результаты хороши лишь настолько, насколько хороши данные. И даже если на вашей стороне миллионы значений данных, и вы вооружены искусственным интеллектом и машинным обучения, вы можете не использовать эти данные в полной мере (возможно, это сыграет даже во вред вашей организации).

Плохие данные приводят к принятию некачественных решений.

Поэтому вам необходимо очистить и отформатировать ваши данные – взять их под контроль, чтобы они были готовы к последующим процессам.

Вот тут-то и приходит на помощь выпас данных.

Читать: https://habr.com/ru/post/675796/

724 views07:23

Data Analysis / Big Data

Тестирование конвейеров данных

Как Oracle Problem, граничные значения, закрытые экосистемы и сама цель тестов отличают задачу тестирования конвейеров данных от тестирования традиционного программного обеспечения.

Программное обеспечение просто перемещает данные внутри компьютеров. Конвейеры данных также просто перемещают данные внутри компьютеров. Итак, насколько тестирование конвейеров данных может отличаться от тестирования любой другой формы программного обеспечения? Разве все практики, подходы и накопленный опыт, полученные при тестировании традиционного программного обеспечения, не должны применяться и к конвейерам данных?

К сожалению, всё сложнее. Да, тестирование конвейеров данных и тестирование традиционного программного обеспечения частично пересекаются. Однако существуют уникальные характеристики и особенности разработки конвейеров, которые создают особые сложности при тестировании, которых опытный инженер по качеству может не знать. Игнорирование этих особенностей и подход к конвейерам данных так, как будто они ничем не отличаются от любого другого типа программного обеспечения, приведет к разочаровывающим результатам. В этой статье я рассмотрю несколько наиболее интересных проблем и предложу альтернативные подходы, подходящие для конвейеров данных.

Хотя эта статья будет посвящена этим различиям, она не будет исчерпывающим руководством по тестированию конвейеров данных. Тестирование конвейеров данных — это широкая тема, которая не может быть полностью раскрыта в одном посте. Однако понимание этих проблем будет полезно всем, кто работает с конвейерами данных.

Читать: https://habr.com/ru/post/676170/

👍1

630 views07:05

Data Analysis / Big Data

Ищем кротовые норы с помощью big data

Чтобы исправить кое-какие ошибки, человечество решило отправиться в прошлое. Для этого надо найти правильную кротовую нору — просторную, но не слишком гравитирующую и по приемлемой цене — чтобы забронировать телепортацию.

В космосе россыпи всяческих дыр и нор, по которым вдобавок катаются клубки перепутанных суперструн: вручную такое не проанализировать. Поэтому тут не обойтись без специалиста по большим данным.

Твоё резюме было таким убедительным, что эксперты из Академии больших данных MADE и VK Образования решили провести собеседование прямо на космическом шаттле. Ответь на вопросы, подтверди свою квалификацию и помоги капитану определить маршрут. Поехали!
Пройти тест

Читать: https://habr.com/ru/post/669062/

616 views07:50

Data Analysis / Big Data

“Как заставить данные говорить”: практическое погружение в нюансы работы российских BI-платформ

Привет, Хабр! Сейчас многие сталкиваются с проблемой замены BI-платформы из-за выхода с рынка зарубежных вендоров — особенно популярного и многими любимого PowerBI. И поэтому наши коллеги снова подходят к вопросу замены западной BI-платформы на российскую, но совершенно с другой стороны. Сегодня речь пойдет об уникальном тренинге для аналитиков и менеджеров “Как заставить данные говорить?”, на котором участники будут САМИ сравнивать разные BI-продукты под руководством опытного эксперта Алексея Колоколова, попробуют поработать в разных системах, а также получат индивидуальные задания и длительную обратную связь после завершения курса. Для интересующихся подробная информация — под катом.
Узнать больше про тренинг

Читать: https://habr.com/ru/post/676300/

618 views11:41

Data Analysis / Big Data

Data Engineering Weekly #92

Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-92

587 views14:16

Data Analysis / Big Data

Use Amazon Athena parameterized queries to provide data as a service

Read: https://aws.amazon.com/blogs/big-data/use-amazon-athena-parameterized-queries-to-provide-data-as-a-service/

👍1

603 views14:24

Data Analysis / Big Data

What is AB testing: a 2020s view

Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/07/what-is-ab-testing.html

👍2

597 views16:06

Data Analysis / Big Data

Oracle Analytics Best Practices: Reporting on Catalog Object ACLs

Learn how to use Catalog Manager to generate a report that show the Access Control Lists (ACLs) assigned to objects in the Oracle Analytics catalog.

Read: https://blogs.oracle.com/analytics/post/oracle-analytics-best-practices-reporting-on-catalog-acls

👍1

581 views00:17

About

Blog

Apps

Platform