Data Analysis – Telegram
Data Analysis
519 subscribers
17 photos
195 links
Канал для тех, кто занимается сбором и анализом больших данных, обрабатывает их, изучает и делает выводы.

Вопросы/предложения/реклама
@Gromyko_darya
@Mitya770
Download Telegram
Тест Шапиро-Уилка является тестом на нормальность. Он используется для определения того, соответствует ли выборка нормальному распределению .
Этот тип теста полезен для определения того, исходит ли данный набор данных из нормального распределения, что является распространенным предположением, используемым во многих статистических тестах, включая регрессию , дисперсионный анализ , t-тесты и многие другие.

https://www.codecamp.ru/blog/shapiro-wilk-test-r/
🔥5👍3
Что такое MLOps? Операции машинного обучения на пальцах

В этой статье я расскажу вам об операциях машинного обучения (MLOps) — области, которую можно охарактеризовать как DevOps для машинного обучения.

До недавнего времени неотъемлемой частью нашего обучения было знакомство со стандартным жизненным циклом разработки программного обеспечения (SDLC). Он начинается с анализа требований, затем следует планирование, проектирование и дизайн, разработка, тестирование, развертывания и, наконец, техническое обслуживание.

https://habr.com/ru/companies/otus/articles/660313/
👍4
Введение в Python.

«Техносфера Mail.ru Group» при МГУ им. М. В. Ломоносова.
Курс «Введение в анализ данных».
Лекция № 1 «Введение в Python».

Цель курса — познакомить слушателей со сферой анализа данных, основными инструментами, задачами и методами, с которыми сталкивается исследователь данных в работе.

#видео 📺
👍4
Мощь Python на все случаи жизни: анализ данных и решение бизнес-задач.

На вебинаре расскажем, как аналитики и разработчики в IT-компаниях решают массу поставленных задач с помощью Python – от сбора и анализа данных до проведения аналитики и внедрения моделей машинного обучения. Покажем, что осваивать Python под руководством опытного преподавателя не страшно. Также объясним, как освоение анализа данных на Python может ускорить вашу профессиональную карьеру.

#видео 📺
👍5
Пакет pandas — это самый важный инструмент из арсенала специалистов по Data Science и аналитиков, работающих на Python. Мощные инструменты машинного обучения и блестящие средства визуализации могут привлекать внимание, но в основе большинства проектов по работе с данными лежит pandas.

Название pandas происходит от термина «панельные данные» (англ. panel data). В эконометрии это многомерные структурированные наборы данных.

https://pythonist-ru.turbopages.org/pythonist.ru/s/polnoe-rukovodstvo-po-pandas-dlya-nachinayushhih/
👍5
Анализ данных на Scala — суровая необходимость или приятная возможность?

Традиционными инструментами в сфере Data Science являются такие языки, как R и Payton - расслабленный синтаксис и большое количество библиотек для машинного обучения и обработки данных позволяет достаточно быстро получить некоторые работающие решения. Однако бывают ситуации, когда ограничения этих инструментов становятся существенной помехой — в первую очередь, если необходимо добиться высоких показателей по скорости обработки и/или работать с действительно крупными массивами данных. В этом случае специалисту приходится, скрепя сердце, обращаться к помощи "темной стороны" и подключать инструменты на "промышленных" языках программирования: Scala, Java и С++.

далее
👍4
Топ-13 библиотек Scala для анализа данных

Последнее время язык Scala стал обширно применяться специалистами Data Science. Он приобрел популярность в основном благодаря появлению Spark, который написан на Scala. На практике, часто на этапе исследования анализ и создание модели выполняются в Python, а затем реализуются в Scala, поскольку этот язык больше подходит для production.

https://h.amazingsoftworks.com/ru/company/newprolab/blog/459172/
👍4
Анализ номинативных данных.

Номинативные данные — это категорические данные, которые описывают свойства или характеристики объектов без установки количественной меры, то есть без измерения. Они также могут быть определены как качественные данные, так как они не могут быть измерены количественно, и их значения могут быть только классифицированы.

В этой статье мы разберем подробнее понятие номинативных данных и далее
👍3
Сегодня хочу порекомендовать вам канал Datalytics, посвященный анализу данных с помощью Python. Автор канала Алексей Макаров регулярно выкладывает полезные материалы по практическом применению Python для анализа данных и автоматизации рутины. В канале можно найти ссылки на статьи про подготовку и предобработку данных с помощью pandas, про визуализацию данных, использование пакетов для статистики, парсинга веб-сайтов, автоматизации собственных задач и многое другое. У канала также есть чат, в котором можно найти советчиков и единомышленников в сфере анализа данных.
👍3
Процесс анализа данных:

Содержание
1 Определение проблемы
2 Извлечение данных
3 Подготовка данных
4 Изучение данных/визуализация
5 Предсказательная (предиктивная) модель
6 Проверка модели
7 Развертывание (деплой)
◦ 7.1 Обучение Python и Data Science
Анализ данных можно описать как процесс, состоящий из нескольких шагов, в которых сырые данные превращаются и обрабатываются с целью создать визуализации и сделать предсказания на основе математической модели
Читать далее
👍4
Оценка эффективности процесса найма с помощью анализа данных

Мы все знаем, что IT-индустрия является одной из самых динамичных и развивающихся отраслей нашего времени. С формированием новых технологий и постоянным ростом числа IT-шников на рынке появляются новые вызовы и задачи, вызывающие интенсивный спрос на высококвалифицированных профессионалов в сфере рекрутинга. Это означает, что нам всем нужно постоянно улучшать нашу работу в рекрутинге, применяя новые методы и аналитические подходы.

Одним из таких методов является оценка эффективности процесса найма с помощью анализа данных. Эта техника оказывается …


https://habr.com/ru/companies/otus/articles/738288/
🔥4