NEW BOT Телеграм, страница

Data Analysis

Руководство по PySpark для начинающих

Spark предоставляет API для Scala, Java, Python и R. Система поддерживает повторное использование кода между рабочими задачами, пакетную обработку данных, интерактивные запросы, аналитику в реальном времени, машинное обучение и вычисления на графах. Она использует кэширование в памяти и оптимизированное выполнение запросов к данным любого размера.

У нее нет одной собственной файловой системы, такой как Hadoop Distributed File System (HDFS), вместо этого Spark поддерживает множество популярных файловых систем, таких как HDFS, HBase, Cassandra, Amazon S3, Amazon Redshift, Couchbase и т. д.

https://pythonru.com/biblioteki/pyspark-dlja-nachinajushhih

PythonRu

Введение в PySpark для начинающих с примерами в Colab

PySpark — это API Apache Spark, который представляет собой систему с открытым исходным кодом, применяемую для распределенной обработки больших данных.

👍5

332 views09:30

Data Analysis

Книга "Аналитическая культура. От сбора данных до бизнес-результатов"
Подробное пошаговое руководство по внедрению Data-driven-культуры в компании — от сбора данных и наглядных отчетов до анализа и обоснованных решений.
Чтобы стать data-driven-компанией, недостаточно наладить сбор «больших данных» или собрать команду аналитиков. Нужна эффективная культура работы с данными, внедренная на всех уровнях.
Эта практичная книга показывает, какие процессы нужно внедрять повсеместно — от аналитиков и менеджмента до высшего руководства и совета директоров — чтобы создать такую культуру.
Карл Андерсон рассказывает о цепочке аналитической ценности, которая поможет строить предиктивные бизнес-модели — от сбора данных и анализа до идей и конкретных обоснованных действий.

Читать книгу
#книги 📚

👍6

356 views13:00

Data Analysis

Нечеткое сравнение строк как метод обнаружения и исправления ошибок

https://vc.ru/newtechaudit/598664-nechetkoe-sravnenie-strok-kak-metod-obnaruzheniya-i-ispravleniya-oshibok

vc.ru

Нечеткое сравнение строк как метод обнаружения и исправления ошибок — NTA на vc.ru

Привет, VC!

👍4👌2

336 views07:00

Data Analysis

Как создать и удалить таблицы в Apache Hadoop c использованием PySpark

https://vc.ru/newtechaudit/531170-kak-sozdat-i-udalit-tablicy-v-apache-hadoop-c-ispolzovaniem-pyspark

vc.ru

Как создать и удалить таблицы в Apache Hadoop c использованием PySpark — NTA на vc.ru

Сегодня я расскажу, как затратив минимум усилий при работе с большими данными, справиться с задачей создания таблиц с нужными параметрами, а также, как удалить сразу большое количество потерявших актуальность таблиц.

👌5

411 views10:03

Data Analysis

Зачем Data-инженеру Spark

https://habr.com/ru/companies/vk/articles/742084/

Хабр

Зачем Data-инженеру Spark

Привет, Хабр, меня зовут Дима . В последние пару лет занимаюсь аналитикой, отвечаю за данные в Почте Mail.ru. Развиваю аналитическое хранилище данных и инструменты для работы с ними. Мы плотно...

👍5

397 views08:33

Data Analysis

Как превратить данные в продукт: выжать из данных максимум благодаря принципам продакт-менеджмента

Многие компании хотят, чтобы их технологии были не просто затратами, а конкурентными преимуществами. Это в том числе касается технологий работы с данными. Часто такое стремление выражается словами «Мы хотим воспринимать данные как продукт». Команда VK Cloud перевела статью, которая поможет применить принципы продакт-менеджмента к управлению дата-продуктами компании.

Читать далее

👍5

376 views11:43

Data Analysis

Анализировать данные — это как варить пиво. Почему дата-анализ и пивоварение — одно и то же с техноизнанки

Читать

Хабр

Анализировать данные — это как варить пиво. Почему дата-анализ и пивоварение — одно и то же с техноизнанки

Три года я был эстонским пивоваром: придумывал рецепты и сам варил. Когда начал изучать Python, SQL и анализ данных, понял, что между подготовкой данных и подготовкой сусла много общего: оказывается,...

👍5

433 views07:00

Data Analysis

Решение задачи определения RUL трансформаторов с помощью машинного обучения на python

Читать

Хабр

Решение задачи определения RUL трансформаторов с помощью машинного обучения на python

Дисклеймер: целью создания статьи было знакомство с задачей, данными и одним из подходов к ее решению, а также популяризация машинного обучения в промышленности. В статье представлен скорее бейзлайн...

👍5

409 views13:00

Data Analysis

Как и зачем аналитику проводить UX тесты. Часть первая

https://habr.com/ru/companies/koshelek/articles/734714/

Хабр

Как и зачем аналитику проводить UX тесты. Часть первая

Привет, Хабр! Меня зовут Настя Московкина, и я работаю руководителем Отдела бизнес и системного анализа в приложении «Кошелёк». Сегодня поговорим о том, как аналитик может повлиять на повышение...

👍5

441 views10:23

Data Analysis

Разбор: Google Analytics и Яндекс.Метрика для эффективной разметки сайтов

https://habr.com/ru/companies/agima/articles/742802/

👍5

458 views10:39

Data Analysis

Как и зачем аналитику проводить UX тесты. Часть вторая

https://habr.com/ru/companies/koshelek/articles/737392/

Хабр

Как и зачем аналитику проводить UX тесты. Часть вторая

Привет, Хабр! На связи всё ещё Настя Московкина, руководитель Отдела анализа в приложении «Кошелёк». В предыдущей статье мы по косточкам разобрали процесс подготовки к UX тестированию своими силами, а...

👍4🔥1

395 views10:41

Data Analysis

Книга «Python для data science»

Книга предназначена для разработчиков, желающим лучше понять возможности Python по обработке и анализу данных. Возможно, вы работаете в компании, которая хочет использовать данные для улучшения бизнес-процессов, принятия более обоснованных решений и привлечения большего количества покупателей.

Или, может быть, вы хотите создать собственное приложение на основе данных или просто расширить знания о применении Python в области data science.

Читать далее

🔥5

500 views17:16

Data Analysis

Вредные советы по подготовке датасета

https://habr.com/ru/articles/746802/

Хабр

Вредные советы по подготовке датасета

Всем привет! Антон Кобак, CEO Kobak Lab. В последние 3 года многие наши проекты завязаны на видеоаналитику. Как часто бывает, для внутреннего порядка, решили собрать мануал для новых сотрудников по...

👍4

391 views12:10

Data Analysis

Dagster и Great Expectations: Интеграция без боли

Great Expectations позволяет определить так называемые ожидания от ваших данных, то есть задать правила и условия, которым данные должны соответствовать.

Dagster, с другой стороны, это платформа с открытым исходным кодом для управления данными, которая позволяет создавать, тестировать и развертывать пайплайны данных. Написан на python, что позволяет пользователям гибко настраивать и расширять его функциональность.

https://habr.com/ru/articles/746874/

Хабр

Dagster и Great Expectations: Интеграция без боли

Меня зовут Артем Шнайдер, и я занимаюсь DataScience в Бланке. Сегодня я хочу рассказать вам о том, как можно интегрировать два мощных инструмента – Dagster и Great Expectations . Great Expectations...

🔥3

711 views08:06

Data Analysis

5 признаков, что вам пора в Data Science

https://tproger.ru/articles/5-priznakov-chto-vam-pora-v-data-science/

Tproger

Направления Data Science, которые вам подойдут

Хотите в Data Science, но не знаете, какое направление выбрать? Собрали признаки, которые помогут определиться и выбрать профессию.

👍6

367 views08:23

Data Analysis

Статистика для чайников, Рамси Д

Цель этой книги заключается в том, чтобы научить вас понимать и критически оценивать невероятное количество статистической информации, с которой вам приходится сталкиваться ежедневно (диаграммы, графики, таблицы, а также газетные заголовки, посвященные результатам последних опросов, экспериментов или других научных исследований).

Благодаря этой книге вы разовьете способность разбираться в статистических результатах и принимать на их основе важные решения (например, о результатах новейших медицинских исследований).

Не забывайте о том, что с помощью статистических данных вас могут попытаться ввести в заблуждение, поэтому учитесь справляться с такими проблемами.

Читать далее
#книги 📚

👍4

335 views12:00

Data Analysis

Большие данные и огромные сомнения

https://habr.com/ru/articles/748238/

Хабр

Большие данные и огромные сомнения

Кто кого? Счётчик насчитал уже много дней жизни. Разные глобальные и личные перипетии привели меня в ту точку, где я должен был спросить себя: а что ты, собственно, из себя представляешь? не хочешь ли...

👍5

327 views07:00

Data Analysis

Аналитика: книги для неаналитиков, которые научат понимать, систематизировать и представлять данные

👍8🤯1

383 views09:00

Data Analysis

Пишем приложение на Python для интерактивной визуализации графов с NetworkX, Plotly и Dash

https://habr.com/ru/articles/728256/

Хабр

Пишем приложение на Python для интерактивной визуализации графов с NetworkX, Plotly и Dash

Говорят, хорошая визуализация данных лучше тысячи слов о них, и с этим трудно спорить. Промпт: интерактивная визуализация сети транзакций, абстракция на белом фоне Эта статья посвящена написанию...

👍4

362 views07:00

Data Analysis

Как SQL и PYTHON используют в аналитике данных?

Аналитики в своей работе с данными часто используют SQL и Python.
И новички часто спрашивают - зачем аналитику нужен Python и SQL, если есть старый добрый Excel?
Ведь многие, даже крупные компании по прежнему используют Excel, как основной инструмент аналитики данных.
В этом видео я рассказываю как именно аналитики используют SQL и Python в своей работе и что вам нужно знать, чтобы успешно применять эти инструменты.

Смотреть
#видео 📺

YouTube

Как SQL и PYTHON используют в аналитике данных?

Регистрируйтесь и используйте объектное хранилище Selectel для хранения неструктурированных данных. Первый месяц — бесплатно: https://slc.tl/ft63l

Аналитики в своей работе с данными часто используют SQL и Python. И новички часто спрашивают - зачем аналитику…

👍5

2.49K views07:00

Data Analysis

Новая библиотека для анализа данных Pandas AI: стоит ли пробовать?

https://habr.com/ru/news/741664/

Хабр

Новая библиотека для анализа данных Pandas AI: стоит ли пробовать?

Появилась новая библиотека Pandas AI - надстройка над популярной библиотекой для анализа данных Pandas. Для тех, кто не знает, Pandas - программная библиотека, написанная для языка программирования...

👍3

443 views12:00

About

Blog

Apps

Platform