Руководство по PySpark для начинающих
Spark предоставляет API для Scala, Java, Python и R. Система поддерживает повторное использование кода между рабочими задачами, пакетную обработку данных, интерактивные запросы, аналитику в реальном времени, машинное обучение и вычисления на графах. Она использует кэширование в памяти и оптимизированное выполнение запросов к данным любого размера.
У нее нет одной собственной файловой системы, такой как Hadoop Distributed File System (HDFS), вместо этого Spark поддерживает множество популярных файловых систем, таких как HDFS, HBase, Cassandra, Amazon S3, Amazon Redshift, Couchbase и т. д.
https://pythonru.com/biblioteki/pyspark-dlja-nachinajushhih
Spark предоставляет API для Scala, Java, Python и R. Система поддерживает повторное использование кода между рабочими задачами, пакетную обработку данных, интерактивные запросы, аналитику в реальном времени, машинное обучение и вычисления на графах. Она использует кэширование в памяти и оптимизированное выполнение запросов к данным любого размера.
У нее нет одной собственной файловой системы, такой как Hadoop Distributed File System (HDFS), вместо этого Spark поддерживает множество популярных файловых систем, таких как HDFS, HBase, Cassandra, Amazon S3, Amazon Redshift, Couchbase и т. д.
https://pythonru.com/biblioteki/pyspark-dlja-nachinajushhih
PythonRu
Введение в PySpark для начинающих с примерами в Colab
PySpark — это API Apache Spark, который представляет собой систему с открытым исходным кодом, применяемую для распределенной обработки больших данных.
👍5
Книга "Аналитическая культура. От сбора данных до бизнес-результатов"
Подробное пошаговое руководство по внедрению Data-driven-культуры в компании — от сбора данных и наглядных отчетов до анализа и обоснованных решений.
Чтобы стать data-driven-компанией, недостаточно наладить сбор «больших данных» или собрать команду аналитиков. Нужна эффективная культура работы с данными, внедренная на всех уровнях.
Эта практичная книга показывает, какие процессы нужно внедрять повсеместно — от аналитиков и менеджмента до высшего руководства и совета директоров — чтобы создать такую культуру.
Карл Андерсон рассказывает о цепочке аналитической ценности, которая поможет строить предиктивные бизнес-модели — от сбора данных и анализа до идей и конкретных обоснованных действий.
Читать книгу
#книги 📚
Подробное пошаговое руководство по внедрению Data-driven-культуры в компании — от сбора данных и наглядных отчетов до анализа и обоснованных решений.
Чтобы стать data-driven-компанией, недостаточно наладить сбор «больших данных» или собрать команду аналитиков. Нужна эффективная культура работы с данными, внедренная на всех уровнях.
Эта практичная книга показывает, какие процессы нужно внедрять повсеместно — от аналитиков и менеджмента до высшего руководства и совета директоров — чтобы создать такую культуру.
Карл Андерсон рассказывает о цепочке аналитической ценности, которая поможет строить предиктивные бизнес-модели — от сбора данных и анализа до идей и конкретных обоснованных действий.
Читать книгу
#книги 📚
👍6
Нечеткое сравнение строк как метод обнаружения и исправления ошибок
https://vc.ru/newtechaudit/598664-nechetkoe-sravnenie-strok-kak-metod-obnaruzheniya-i-ispravleniya-oshibok
https://vc.ru/newtechaudit/598664-nechetkoe-sravnenie-strok-kak-metod-obnaruzheniya-i-ispravleniya-oshibok
vc.ru
Нечеткое сравнение строк как метод обнаружения и исправления ошибок — NTA на vc.ru
Привет, VC!
👍4👌2
Как создать и удалить таблицы в Apache Hadoop c использованием PySpark
https://vc.ru/newtechaudit/531170-kak-sozdat-i-udalit-tablicy-v-apache-hadoop-c-ispolzovaniem-pyspark
https://vc.ru/newtechaudit/531170-kak-sozdat-i-udalit-tablicy-v-apache-hadoop-c-ispolzovaniem-pyspark
vc.ru
Как создать и удалить таблицы в Apache Hadoop c использованием PySpark — NTA на vc.ru
Сегодня я расскажу, как затратив минимум усилий при работе с большими данными, справиться с задачей создания таблиц с нужными параметрами, а также, как удалить сразу большое количество потерявших актуальность таблиц.
👌5
Как превратить данные в продукт: выжать из данных максимум благодаря принципам продакт-менеджмента
Многие компании хотят, чтобы их технологии были не просто затратами, а конкурентными преимуществами. Это в том числе касается технологий работы с данными. Часто такое стремление выражается словами «Мы хотим воспринимать данные как продукт». Команда VK Cloud перевела статью, которая поможет применить принципы продакт-менеджмента к управлению дата-продуктами компании.
Читать далее
Многие компании хотят, чтобы их технологии были не просто затратами, а конкурентными преимуществами. Это в том числе касается технологий работы с данными. Часто такое стремление выражается словами «Мы хотим воспринимать данные как продукт». Команда VK Cloud перевела статью, которая поможет применить принципы продакт-менеджмента к управлению дата-продуктами компании.
Читать далее
👍5
Анализировать данные — это как варить пиво. Почему дата-анализ и пивоварение — одно и то же с техноизнанки
Читать
Читать
Хабр
Анализировать данные — это как варить пиво. Почему дата-анализ и пивоварение — одно и то же с техноизнанки
Три года я был эстонским пивоваром: придумывал рецепты и сам варил. Когда начал изучать Python, SQL и анализ данных, понял, что между подготовкой данных и подготовкой сусла много общего: оказывается,...
👍5
Как и зачем аналитику проводить UX тесты. Часть первая
https://habr.com/ru/companies/koshelek/articles/734714/
https://habr.com/ru/companies/koshelek/articles/734714/
Хабр
Как и зачем аналитику проводить UX тесты. Часть первая
Привет, Хабр! Меня зовут Настя Московкина, и я работаю руководителем Отдела бизнес и системного анализа в приложении «Кошелёк». Сегодня поговорим о том, как аналитик может повлиять на повышение...
👍5
Разбор: Google Analytics и Яндекс.Метрика для эффективной разметки сайтов
https://habr.com/ru/companies/agima/articles/742802/
https://habr.com/ru/companies/agima/articles/742802/
👍5
Как и зачем аналитику проводить UX тесты. Часть вторая
https://habr.com/ru/companies/koshelek/articles/737392/
https://habr.com/ru/companies/koshelek/articles/737392/
Хабр
Как и зачем аналитику проводить UX тесты. Часть вторая
Привет, Хабр! На связи всё ещё Настя Московкина, руководитель Отдела анализа в приложении «Кошелёк». В предыдущей статье мы по косточкам разобрали процесс подготовки к UX тестированию своими силами, а...
👍4🔥1
Книга «Python для data science»
Книга предназначена для разработчиков, желающим лучше понять возможности Python по обработке и анализу данных. Возможно, вы работаете в компании, которая хочет использовать данные для улучшения бизнес-процессов, принятия более обоснованных решений и привлечения большего количества покупателей.
Или, может быть, вы хотите создать собственное приложение на основе данных или просто расширить знания о применении Python в области data science.
Читать далее
Книга предназначена для разработчиков, желающим лучше понять возможности Python по обработке и анализу данных. Возможно, вы работаете в компании, которая хочет использовать данные для улучшения бизнес-процессов, принятия более обоснованных решений и привлечения большего количества покупателей.
Или, может быть, вы хотите создать собственное приложение на основе данных или просто расширить знания о применении Python в области data science.
Читать далее
🔥5
Dagster и Great Expectations: Интеграция без боли
Great Expectations позволяет определить так называемые ожидания от ваших данных, то есть задать правила и условия, которым данные должны соответствовать.
Dagster, с другой стороны, это платформа с открытым исходным кодом для управления данными, которая позволяет создавать, тестировать и развертывать пайплайны данных. Написан на python, что позволяет пользователям гибко настраивать и расширять его функциональность.
https://habr.com/ru/articles/746874/
Great Expectations позволяет определить так называемые ожидания от ваших данных, то есть задать правила и условия, которым данные должны соответствовать.
Dagster, с другой стороны, это платформа с открытым исходным кодом для управления данными, которая позволяет создавать, тестировать и развертывать пайплайны данных. Написан на python, что позволяет пользователям гибко настраивать и расширять его функциональность.
https://habr.com/ru/articles/746874/
Хабр
Dagster и Great Expectations: Интеграция без боли
Меня зовут Артем Шнайдер, и я занимаюсь DataScience в Бланке. Сегодня я хочу рассказать вам о том, как можно интегрировать два мощных инструмента – Dagster и Great Expectations . Great Expectations...
🔥3
Статистика для чайников, Рамси Д
Цель этой книги заключается в том, чтобы научить вас понимать и критически оценивать невероятное количество статистической информации, с которой вам приходится сталкиваться ежедневно (диаграммы, графики, таблицы, а также газетные заголовки, посвященные результатам последних опросов, экспериментов или других научных исследований).
Благодаря этой книге вы разовьете способность разбираться в статистических результатах и принимать на их основе важные решения (например, о результатах новейших медицинских исследований).
Не забывайте о том, что с помощью статистических данных вас могут попытаться ввести в заблуждение, поэтому учитесь справляться с такими проблемами.
Читать далее
#книги 📚
Цель этой книги заключается в том, чтобы научить вас понимать и критически оценивать невероятное количество статистической информации, с которой вам приходится сталкиваться ежедневно (диаграммы, графики, таблицы, а также газетные заголовки, посвященные результатам последних опросов, экспериментов или других научных исследований).
Благодаря этой книге вы разовьете способность разбираться в статистических результатах и принимать на их основе важные решения (например, о результатах новейших медицинских исследований).
Не забывайте о том, что с помощью статистических данных вас могут попытаться ввести в заблуждение, поэтому учитесь справляться с такими проблемами.
Читать далее
#книги 📚
👍4
Пишем приложение на Python для интерактивной визуализации графов с NetworkX, Plotly и Dash
https://habr.com/ru/articles/728256/
https://habr.com/ru/articles/728256/
Хабр
Пишем приложение на Python для интерактивной визуализации графов с NetworkX, Plotly и Dash
Говорят, хорошая визуализация данных лучше тысячи слов о них, и с этим трудно спорить. Промпт: интерактивная визуализация сети транзакций, абстракция на белом фоне Эта статья посвящена написанию...
👍4
Как SQL и PYTHON используют в аналитике данных?
Аналитики в своей работе с данными часто используют SQL и Python.
И новички часто спрашивают - зачем аналитику нужен Python и SQL, если есть старый добрый Excel?
Ведь многие, даже крупные компании по прежнему используют Excel, как основной инструмент аналитики данных.
В этом видео я рассказываю как именно аналитики используют SQL и Python в своей работе и что вам нужно знать, чтобы успешно применять эти инструменты.
Смотреть
#видео 📺
Аналитики в своей работе с данными часто используют SQL и Python.
И новички часто спрашивают - зачем аналитику нужен Python и SQL, если есть старый добрый Excel?
Ведь многие, даже крупные компании по прежнему используют Excel, как основной инструмент аналитики данных.
В этом видео я рассказываю как именно аналитики используют SQL и Python в своей работе и что вам нужно знать, чтобы успешно применять эти инструменты.
Смотреть
#видео 📺
YouTube
Как SQL и PYTHON используют в аналитике данных?
Регистрируйтесь и используйте объектное хранилище Selectel для хранения неструктурированных данных. Первый месяц — бесплатно: https://slc.tl/ft63l
Аналитики в своей работе с данными часто используют SQL и Python. И новички часто спрашивают - зачем аналитику…
Аналитики в своей работе с данными часто используют SQL и Python. И новички часто спрашивают - зачем аналитику…
👍5