Мощь Python на все случаи жизни: анализ данных и решение бизнес-задач.
На вебинаре расскажем, как аналитики и разработчики в IT-компаниях решают массу поставленных задач с помощью Python – от сбора и анализа данных до проведения аналитики и внедрения моделей машинного обучения. Покажем, что осваивать Python под руководством опытного преподавателя не страшно. Также объясним, как освоение анализа данных на Python может ускорить вашу профессиональную карьеру.
#видео 📺
На вебинаре расскажем, как аналитики и разработчики в IT-компаниях решают массу поставленных задач с помощью Python – от сбора и анализа данных до проведения аналитики и внедрения моделей машинного обучения. Покажем, что осваивать Python под руководством опытного преподавателя не страшно. Также объясним, как освоение анализа данных на Python может ускорить вашу профессиональную карьеру.
#видео 📺
👍5
Пакет pandas — это самый важный инструмент из арсенала специалистов по Data Science и аналитиков, работающих на Python. Мощные инструменты машинного обучения и блестящие средства визуализации могут привлекать внимание, но в основе большинства проектов по работе с данными лежит pandas.
Название pandas происходит от термина «панельные данные» (англ. panel data). В эконометрии это многомерные структурированные наборы данных.
https://pythonist-ru.turbopages.org/pythonist.ru/s/polnoe-rukovodstvo-po-pandas-dlya-nachinayushhih/
Название pandas происходит от термина «панельные данные» (англ. panel data). В эконометрии это многомерные структурированные наборы данных.
https://pythonist-ru.turbopages.org/pythonist.ru/s/polnoe-rukovodstvo-po-pandas-dlya-nachinayushhih/
Pythonist.ru
Полное руководство по Pandas для начинающих
Пакет pandas — это самый важный инструмент из арсенала специалистов по Data Science и аналитиков, работающих на Python. Мощные инструменты машинного обучения и блестящие средства визуализации могут привлекать внимание, но в основе большинства проектов по…
👍5
6 полезных функций для аналитики данных в Экселе
https://thecode-media.turbopages.org/thecode.media/s/6-excel-analitycs/
https://thecode-media.turbopages.org/thecode.media/s/6-excel-analitycs/
Код
6 полезных функций для аналитики данных в Экселе
За хорошего эксельщика двух питонистов дают. Продолжаем рассказывать про неочевидные штуки в Экселе, которые могут пригодиться для работы с данными. Сегодня будет про аналитику — как собрать, подготовить или получить дополнительные данные, чтобы анализ получился…
👍6
Анализ данных на Scala — суровая необходимость или приятная возможность?
Традиционными инструментами в сфере Data Science являются такие языки, как R и Payton - расслабленный синтаксис и большое количество библиотек для машинного обучения и обработки данных позволяет достаточно быстро получить некоторые работающие решения. Однако бывают ситуации, когда ограничения этих инструментов становятся существенной помехой — в первую очередь, если необходимо добиться высоких показателей по скорости обработки и/или работать с действительно крупными массивами данных. В этом случае специалисту приходится, скрепя сердце, обращаться к помощи "темной стороны" и подключать инструменты на "промышленных" языках программирования: Scala, Java и С++.
далее
Традиционными инструментами в сфере Data Science являются такие языки, как R и Payton - расслабленный синтаксис и большое количество библиотек для машинного обучения и обработки данных позволяет достаточно быстро получить некоторые работающие решения. Однако бывают ситуации, когда ограничения этих инструментов становятся существенной помехой — в первую очередь, если необходимо добиться высоких показателей по скорости обработки и/или работать с действительно крупными массивами данных. В этом случае специалисту приходится, скрепя сердце, обращаться к помощи "темной стороны" и подключать инструменты на "промышленных" языках программирования: Scala, Java и С++.
далее
👍4
Топ-13 библиотек Scala для анализа данных
Последнее время язык Scala стал обширно применяться специалистами Data Science. Он приобрел популярность в основном благодаря появлению Spark, который написан на Scala. На практике, часто на этапе исследования анализ и создание модели выполняются в Python, а затем реализуются в Scala, поскольку этот язык больше подходит для production.
https://h.amazingsoftworks.com/ru/company/newprolab/blog/459172/
Последнее время язык Scala стал обширно применяться специалистами Data Science. Он приобрел популярность в основном благодаря появлению Spark, который написан на Scala. На практике, часто на этапе исследования анализ и создание модели выполняются в Python, а затем реализуются в Scala, поскольку этот язык больше подходит для production.
https://h.amazingsoftworks.com/ru/company/newprolab/blog/459172/
Хабр
Топ-13 библиотек Scala для анализа данных
Последнее время язык Scala стал обширно применяться специалистами Data Science. Он приобрел популярность в основном благодаря появлению Spark, который написан на Scala. На практике, часто на этапе...
👍4
Анализ номинативных данных.
Номинативные данные — это категорические данные, которые описывают свойства или характеристики объектов без установки количественной меры, то есть без измерения. Они также могут быть определены как качественные данные, так как они не могут быть измерены количественно, и их значения могут быть только классифицированы.
В этой статье мы разберем подробнее понятие номинативных данных и далее
Номинативные данные — это категорические данные, которые описывают свойства или характеристики объектов без установки количественной меры, то есть без измерения. Они также могут быть определены как качественные данные, так как они не могут быть измерены количественно, и их значения могут быть только классифицированы.
В этой статье мы разберем подробнее понятие номинативных данных и далее
👍3
Сегодня хочу порекомендовать вам канал Datalytics, посвященный анализу данных с помощью Python. Автор канала Алексей Макаров регулярно выкладывает полезные материалы по практическом применению Python для анализа данных и автоматизации рутины. В канале можно найти ссылки на статьи про подготовку и предобработку данных с помощью pandas, про визуализацию данных, использование пакетов для статистики, парсинга веб-сайтов, автоматизации собственных задач и многое другое. У канала также есть чат, в котором можно найти советчиков и единомышленников в сфере анализа данных.
Telegram
Datalytics
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное
Автор – @ax_makarov
Отдельный канал про ChatGPT и его практическое применение — @ai_forge
Чат канала — @pydata_chat
Вакансии — @data_hr
Автор – @ax_makarov
Отдельный канал про ChatGPT и его практическое применение — @ai_forge
Чат канала — @pydata_chat
Вакансии — @data_hr
👍3
Процесс анализа данных:
Содержание
• 1 Определение проблемы
• 2 Извлечение данных
• 3 Подготовка данных
• 4 Изучение данных/визуализация
• 5 Предсказательная (предиктивная) модель
• 6 Проверка модели
• 7 Развертывание (деплой)
◦ 7.1 Обучение Python и Data Science
Анализ данных можно описать как процесс, состоящий из нескольких шагов, в которых сырые данные превращаются и обрабатываются с целью создать визуализации и сделать предсказания на основе математической модели
Читать далее
Содержание
• 1 Определение проблемы
• 2 Извлечение данных
• 3 Подготовка данных
• 4 Изучение данных/визуализация
• 5 Предсказательная (предиктивная) модель
• 6 Проверка модели
• 7 Развертывание (деплой)
◦ 7.1 Обучение Python и Data Science
Анализ данных можно описать как процесс, состоящий из нескольких шагов, в которых сырые данные превращаются и обрабатываются с целью создать визуализации и сделать предсказания на основе математической модели
Читать далее
👍4
Оценка эффективности процесса найма с помощью анализа данных
Мы все знаем, что IT-индустрия является одной из самых динамичных и развивающихся отраслей нашего времени. С формированием новых технологий и постоянным ростом числа IT-шников на рынке появляются новые вызовы и задачи, вызывающие интенсивный спрос на высококвалифицированных профессионалов в сфере рекрутинга. Это означает, что нам всем нужно постоянно улучшать нашу работу в рекрутинге, применяя новые методы и аналитические подходы.
Одним из таких методов является оценка эффективности процесса найма с помощью анализа данных. Эта техника оказывается …
https://habr.com/ru/companies/otus/articles/738288/
Мы все знаем, что IT-индустрия является одной из самых динамичных и развивающихся отраслей нашего времени. С формированием новых технологий и постоянным ростом числа IT-шников на рынке появляются новые вызовы и задачи, вызывающие интенсивный спрос на высококвалифицированных профессионалов в сфере рекрутинга. Это означает, что нам всем нужно постоянно улучшать нашу работу в рекрутинге, применяя новые методы и аналитические подходы.
Одним из таких методов является оценка эффективности процесса найма с помощью анализа данных. Эта техника оказывается …
https://habr.com/ru/companies/otus/articles/738288/
Хабр
Оценка эффективности процесса найма с помощью анализа данных
Автор статьи: Артем Михайлов Мы все знаем, что IT-индустрия является одной из самых динамичных и развивающихся отраслей нашего времени. С формированием новых технологий и постоянным ростом числа...
🔥4
PYTHON ANOVA test на Python – погружаемся в дисперсионный анализ.
В данном руководстве мы подробно обсудим анализ данных, в частности дисперсионный анализ (ANOVA), а также процесс его выполнения на языке программирования Python. ANOVA обычно используются в читать руководство
В данном руководстве мы подробно обсудим анализ данных, в частности дисперсионный анализ (ANOVA), а также процесс его выполнения на языке программирования Python. ANOVA обычно используются в читать руководство
👍4
Топ-38 вопросов для собеседования с аналитиком данных
Какие обязанности возлагаются на аналитиков данных?
Этот вопрос просит потенциальных аналитиков подумать о том, что будет входить в их обязанности в роли аналитика данных. К этому типу вопросов можно подготовиться, внимательно изучив описание вакансии перед собеседованием и найдя в нем несколько навыков, которые соответствуют вашим собственным.
Пример: Аналитики данных координируют поддержку всех данных и их функций, выполняют аудит данных и другие услуги для клиентов, они используют статистические инструменты для получения информации из бизнес-данных, которая поддерживает и поощряет ответственное принятие корпоративных решений.
Использование Больших Данных помогает
Читать далее
Какие обязанности возлагаются на аналитиков данных?
Этот вопрос просит потенциальных аналитиков подумать о том, что будет входить в их обязанности в роли аналитика данных. К этому типу вопросов можно подготовиться, внимательно изучив описание вакансии перед собеседованием и найдя в нем несколько навыков, которые соответствуют вашим собственным.
Пример: Аналитики данных координируют поддержку всех данных и их функций, выполняют аудит данных и другие услуги для клиентов, они используют статистические инструменты для получения информации из бизнес-данных, которая поддерживает и поощряет ответственное принятие корпоративных решений.
Использование Больших Данных помогает
Читать далее
👍5
PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив.
Александр Ледовский является тимлид команды аналитики и DS, строит рекламные аукционы в Авито. В работе активно использует Apache Spark. Одна из типовых задач аналитика — посчитать что-то на pySpark, а потом выгрузить это. Например:
Читать далее
Александр Ледовский является тимлид команды аналитики и DS, строит рекламные аукционы в Авито. В работе активно использует Apache Spark. Одна из типовых задач аналитика — посчитать что-то на pySpark, а потом выгрузить это. Например:
Читать далее
👍4
Введение в PySpark
Python считается из основных языков программирования в областях Data Science и Big Data, не удивительно, что Apache Spark предлагает интерфейс и для него. Data Scientist’ы, которые знают Python, могут запросто производить параллельные вычисления PySpark.
Читайте в нашей статье об инициализации Spark-приложения в Python, различии между Pandas и PySpark, доступных форматов для чтения и записи, а также интеграция с базами данных.
Читать
Python считается из основных языков программирования в областях Data Science и Big Data, не удивительно, что Apache Spark предлагает интерфейс и для него. Data Scientist’ы, которые знают Python, могут запросто производить параллельные вычисления PySpark.
Читайте в нашей статье об инициализации Spark-приложения в Python, различии между Pandas и PySpark, доступных форматов для чтения и записи, а также интеграция с базами данных.
Читать
👍3
Pyspark. Анализ больших данных, когда Pandas не достаточно
Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа.
Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать ресурсы, когда вам понадобится дополнительная мощность для поддержки растущих данных.
И всегда наступит момент, когда ресурсов станет недостаточно. В данной статье мы рассмотрим, как PySpark выручает в условиях нехватки мощностей для обработки данных.
https://habr.com/ru/articles/708468/
Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа.
Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать ресурсы, когда вам понадобится дополнительная мощность для поддержки растущих данных.
И всегда наступит момент, когда ресурсов станет недостаточно. В данной статье мы рассмотрим, как PySpark выручает в условиях нехватки мощностей для обработки данных.
https://habr.com/ru/articles/708468/
Хабр
Pyspark. Анализ больших данных, когда Pandas не достаточно
Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку,...
👍3👌3
Руководство по PySpark для начинающих
Spark предоставляет API для Scala, Java, Python и R. Система поддерживает повторное использование кода между рабочими задачами, пакетную обработку данных, интерактивные запросы, аналитику в реальном времени, машинное обучение и вычисления на графах. Она использует кэширование в памяти и оптимизированное выполнение запросов к данным любого размера.
У нее нет одной собственной файловой системы, такой как Hadoop Distributed File System (HDFS), вместо этого Spark поддерживает множество популярных файловых систем, таких как HDFS, HBase, Cassandra, Amazon S3, Amazon Redshift, Couchbase и т. д.
https://pythonru.com/biblioteki/pyspark-dlja-nachinajushhih
Spark предоставляет API для Scala, Java, Python и R. Система поддерживает повторное использование кода между рабочими задачами, пакетную обработку данных, интерактивные запросы, аналитику в реальном времени, машинное обучение и вычисления на графах. Она использует кэширование в памяти и оптимизированное выполнение запросов к данным любого размера.
У нее нет одной собственной файловой системы, такой как Hadoop Distributed File System (HDFS), вместо этого Spark поддерживает множество популярных файловых систем, таких как HDFS, HBase, Cassandra, Amazon S3, Amazon Redshift, Couchbase и т. д.
https://pythonru.com/biblioteki/pyspark-dlja-nachinajushhih
PythonRu
Введение в PySpark для начинающих с примерами в Colab
PySpark — это API Apache Spark, который представляет собой систему с открытым исходным кодом, применяемую для распределенной обработки больших данных.
👍5
Книга "Аналитическая культура. От сбора данных до бизнес-результатов"
Подробное пошаговое руководство по внедрению Data-driven-культуры в компании — от сбора данных и наглядных отчетов до анализа и обоснованных решений.
Чтобы стать data-driven-компанией, недостаточно наладить сбор «больших данных» или собрать команду аналитиков. Нужна эффективная культура работы с данными, внедренная на всех уровнях.
Эта практичная книга показывает, какие процессы нужно внедрять повсеместно — от аналитиков и менеджмента до высшего руководства и совета директоров — чтобы создать такую культуру.
Карл Андерсон рассказывает о цепочке аналитической ценности, которая поможет строить предиктивные бизнес-модели — от сбора данных и анализа до идей и конкретных обоснованных действий.
Читать книгу
#книги 📚
Подробное пошаговое руководство по внедрению Data-driven-культуры в компании — от сбора данных и наглядных отчетов до анализа и обоснованных решений.
Чтобы стать data-driven-компанией, недостаточно наладить сбор «больших данных» или собрать команду аналитиков. Нужна эффективная культура работы с данными, внедренная на всех уровнях.
Эта практичная книга показывает, какие процессы нужно внедрять повсеместно — от аналитиков и менеджмента до высшего руководства и совета директоров — чтобы создать такую культуру.
Карл Андерсон рассказывает о цепочке аналитической ценности, которая поможет строить предиктивные бизнес-модели — от сбора данных и анализа до идей и конкретных обоснованных действий.
Читать книгу
#книги 📚
👍6
Нечеткое сравнение строк как метод обнаружения и исправления ошибок
https://vc.ru/newtechaudit/598664-nechetkoe-sravnenie-strok-kak-metod-obnaruzheniya-i-ispravleniya-oshibok
https://vc.ru/newtechaudit/598664-nechetkoe-sravnenie-strok-kak-metod-obnaruzheniya-i-ispravleniya-oshibok
vc.ru
Нечеткое сравнение строк как метод обнаружения и исправления ошибок — NTA на vc.ru
Привет, VC!
👍4👌2
Как создать и удалить таблицы в Apache Hadoop c использованием PySpark
https://vc.ru/newtechaudit/531170-kak-sozdat-i-udalit-tablicy-v-apache-hadoop-c-ispolzovaniem-pyspark
https://vc.ru/newtechaudit/531170-kak-sozdat-i-udalit-tablicy-v-apache-hadoop-c-ispolzovaniem-pyspark
vc.ru
Как создать и удалить таблицы в Apache Hadoop c использованием PySpark — NTA на vc.ru
Сегодня я расскажу, как затратив минимум усилий при работе с большими данными, справиться с задачей создания таблиц с нужными параметрами, а также, как удалить сразу большое количество потерявших актуальность таблиц.
👌5