Data Analysis – Telegram
Data Analysis
519 subscribers
17 photos
195 links
Канал для тех, кто занимается сбором и анализом больших данных, обрабатывает их, изучает и делает выводы.

Вопросы/предложения/реклама
@Gromyko_darya
@Mitya770
Download Telegram
Процесс анализа данных:

Содержание
1 Определение проблемы
2 Извлечение данных
3 Подготовка данных
4 Изучение данных/визуализация
5 Предсказательная (предиктивная) модель
6 Проверка модели
7 Развертывание (деплой)
◦ 7.1 Обучение Python и Data Science
Анализ данных можно описать как процесс, состоящий из нескольких шагов, в которых сырые данные превращаются и обрабатываются с целью создать визуализации и сделать предсказания на основе математической модели
Читать далее
👍4
Оценка эффективности процесса найма с помощью анализа данных

Мы все знаем, что IT-индустрия является одной из самых динамичных и развивающихся отраслей нашего времени. С формированием новых технологий и постоянным ростом числа IT-шников на рынке появляются новые вызовы и задачи, вызывающие интенсивный спрос на высококвалифицированных профессионалов в сфере рекрутинга. Это означает, что нам всем нужно постоянно улучшать нашу работу в рекрутинге, применяя новые методы и аналитические подходы.

Одним из таких методов является оценка эффективности процесса найма с помощью анализа данных. Эта техника оказывается …


https://habr.com/ru/companies/otus/articles/738288/
🔥4
PYTHON ANOVA test на Python – погружаемся в дисперсионный анализ.

В данном руководстве мы подробно обсудим анализ данных, в частности дисперсионный анализ (ANOVA), а также процесс его выполнения на языке программирования Python. ANOVA обычно используются в читать руководство
👍4
Топ-38 вопросов для собеседования с аналитиком данных

Какие обязанности возлагаются на аналитиков данных?
Этот вопрос просит потенциальных аналитиков подумать о том, что будет входить в их обязанности в роли аналитика данных. К этому типу вопросов можно подготовиться, внимательно изучив описание вакансии перед собеседованием и найдя в нем несколько навыков, которые соответствуют вашим собственным.

Пример: Аналитики данных координируют поддержку всех данных и их функций, выполняют аудит данных и другие услуги для клиентов, они используют статистические инструменты для получения информации из бизнес-данных, которая поддерживает и поощряет ответственное принятие корпоративных решений.
Использование Больших Данных помогает
Читать далее
👍5
PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив.

Александр Ледовский является тимлид команды аналитики и DS, строит рекламные аукционы в Авито. В работе активно использует Apache Spark. Одна из типовых задач аналитика — посчитать что-то на pySpark, а потом выгрузить это. Например:
Читать далее
👍4
Введение в PySpark

Python считается из основных языков программирования в областях Data Science и Big Data, не удивительно, что Apache Spark предлагает интерфейс и для него. Data Scientist’ы, которые знают Python, могут запросто производить параллельные вычисления PySpark.

Читайте в нашей статье об инициализации Spark-приложения в Python, различии между Pandas и PySpark, доступных форматов для чтения и записи, а также интеграция с базами данных.
Читать
👍3
Pyspark. Анализ больших данных, когда Pandas не достаточно

Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа.
Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать ресурсы, когда вам понадобится дополнительная мощность для поддержки растущих данных.
И всегда наступит момент, когда ресурсов станет недостаточно. В данной статье мы рассмотрим, как PySpark выручает в условиях нехватки мощностей для обработки данных.

https://habr.com/ru/articles/708468/
👍3👌3
Руководство по PySpark для начинающих

Spark предоставляет API для Scala, Java, Python и R. Система поддерживает повторное использование кода между рабочими задачами, пакетную обработку данных, интерактивные запросы, аналитику в реальном времени, машинное обучение и вычисления на графах. Она использует кэширование в памяти и оптимизированное выполнение запросов к данным любого размера.

У нее нет одной собственной файловой системы, такой как Hadoop Distributed File System (HDFS), вместо этого Spark поддерживает множество популярных файловых систем, таких как HDFS, HBase, Cassandra, Amazon S3, Amazon Redshift, Couchbase и т. д.

https://pythonru.com/biblioteki/pyspark-dlja-nachinajushhih
👍5
Книга "Аналитическая культура. От сбора данных до бизнес-результатов"
Подробное пошаговое руководство по внедрению Data-driven-культуры в компании — от сбора данных и наглядных отчетов до анализа и обоснованных решений.
Чтобы стать data-driven-компанией, недостаточно наладить сбор «больших данных» или собрать команду аналитиков. Нужна эффективная культура работы с данными, внедренная на всех уровнях.
Эта практичная книга показывает, какие процессы нужно внедрять повсеместно — от аналитиков и менеджмента до высшего руководства и совета директоров — чтобы создать такую культуру.
Карл Андерсон рассказывает о цепочке аналитической ценности, которая поможет строить предиктивные бизнес-модели — от сбора данных и анализа до идей и конкретных обоснованных действий.

Читать книгу
#книги 📚
👍6
Как превратить данные в продукт: выжать из данных максимум благодаря принципам продакт-менеджмента

Многие компании хотят, чтобы их технологии были не просто затратами, а конкурентными преимуществами. Это в том числе касается технологий работы с данными. Часто такое стремление выражается словами «Мы хотим воспринимать данные как продукт». Команда VK Cloud перевела статью, которая поможет применить принципы продакт-менеджмента к управлению дата-продуктами компании.

Читать далее
👍5
Разбор: Google Analytics и Яндекс.Метрика для эффективной разметки сайтов

https://habr.com/ru/companies/agima/articles/742802/
👍5
Книга «Python для data science»

Книга предназначена для разработчиков, желающим лучше понять возможности Python по обработке и анализу данных. Возможно, вы работаете в компании, которая хочет использовать данные для улучшения бизнес-процессов, принятия более обоснованных решений и привлечения большего количества покупателей.

Или, может быть, вы хотите создать собственное приложение на основе данных или просто расширить знания о применении Python в области data science.

Читать далее
🔥5
Dagster и Great Expectations: Интеграция без боли

Great Expectations позволяет определить так называемые ожидания от ваших данных, то есть задать правила и условия, которым данные должны соответствовать. 

Dagster, с другой стороны, это платформа с открытым исходным кодом для управления данными, которая позволяет создавать, тестировать и развертывать пайплайны данных. Написан на python, что позволяет пользователям гибко настраивать и расширять его функциональность.

https://habr.com/ru/articles/746874/
🔥3