Найти и обезвредить: как Big Data и Machine Learning сканируют ваши соцсети для предупреждения преступлений
https://telegra.ph/Najti-i-obezvredit-kak-Big-Data-i-Machine-Learning-skaniruyut-vashi-socseti-dlya-preduprezhdeniya-prestuplenij-03-21
https://telegra.ph/Najti-i-obezvredit-kak-Big-Data-i-Machine-Learning-skaniruyut-vashi-socseti-dlya-preduprezhdeniya-prestuplenij-03-21
Telegraph
Найти и обезвредить: как Big Data и Machine Learning сканируют ваши соцсети для предупреждения преступлений
Machine Learning против Колумбайна и буллинга в соцсетях В 2018 и 2019 годах по России прокатилась волна массовых убийств в образовательных организациях. Несчастья случились в Керче, Перми и Вольске, где пара школьников напала на своих одноклассников и учителей…
Big Data: что это такое, как искать, хранить и использовать
В этой статье разберемся, что считается Big Data, а что нет, как эту информацию хранить, обрабатывать и получать пользу.
https://telegra.ph/Big-Data-chto-ehto-takoe-kak-iskat-hranit-i-ispolzovat-03-22
В этой статье разберемся, что считается Big Data, а что нет, как эту информацию хранить, обрабатывать и получать пользу.
https://telegra.ph/Big-Data-chto-ehto-takoe-kak-iskat-hranit-i-ispolzovat-03-22
Telegraph
Big Data: что это такое, как искать, хранить и использовать
Определение Big Data Это Петабайты (и больше) сложной и необработанной информации, которая постоянно обновляется. Например, данные IoT-датчиков с промышленного оборудования на заводах, записи транзакций клиентов банка или поисковых запросов с разных устройств.…
Описание одиночного набора данных
Факты - упрямая вещь, а статистика гораздо сговорчивее.
-Марк Твен
Благодаря полезному сочетанию живого слова и удачи социальная сеть DataSciencester
выросла до нескольких десятков пользователей, и директор по привлечению фи
нансовых ресурсов просит вас проанализировать, сколько друзей есть у пользова
телей сети, чтобы он мог включить эти данные в свои "презентации для лифта" 2•
Используя простые методы из главы 1, вы легко можете предъявить запрашивае
мые данные. Однако сейчас вы столкнулись с задачей выполнения их описательно
го аншlИза.
Любой набор данных очевидным образом характеризует сам себя:
Для достаточно малого набора данных такое описание может даже оказаться наи
лучшим. Но для более крупного набора данных это будет выглядеть очень громоздко и, скорее всего, непрозрачно.
https://telegra.ph/Opisanie-odinochnogo-nabora-dannyh-03-23
Факты - упрямая вещь, а статистика гораздо сговорчивее.
-Марк Твен
Благодаря полезному сочетанию живого слова и удачи социальная сеть DataSciencester
выросла до нескольких десятков пользователей, и директор по привлечению фи
нансовых ресурсов просит вас проанализировать, сколько друзей есть у пользова
телей сети, чтобы он мог включить эти данные в свои "презентации для лифта" 2•
Используя простые методы из главы 1, вы легко можете предъявить запрашивае
мые данные. Однако сейчас вы столкнулись с задачей выполнения их описательно
го аншlИза.
Любой набор данных очевидным образом характеризует сам себя:
# Число друзейnurn friends[100, 49, 41, 40, 25,# ... и еще много других]Для достаточно малого набора данных такое описание может даже оказаться наи
лучшим. Но для более крупного набора данных это будет выглядеть очень громоздко и, скорее всего, непрозрачно.
https://telegra.ph/Opisanie-odinochnogo-nabora-dannyh-03-23
🔥Большой гайд по библиотеке pandas: анализ данных на Python
https://telegra.ph/Vvedenie-v-pandas-analiz-dannyh-na-Python-03-24
https://telegra.ph/Vvedenie-v-pandas-analiz-dannyh-na-Python-03-24
Telegraph
Введение в pandas: анализ данных на Python
pandas это высокоуровневая Python библиотека для анализа данных. Почему я её называю высокоуровневой, потому что построена она поверх более низкоуровневой библиотеки NumPy (написана на Си), что является большим плюсом в производительности. В экосистеме Python…
Что читать специалисту по Data Science в 2021 году
В этом посте делимся с вами подборкой источников полезной информации о Data Science от сооснователя и CTO DAGsHub — сообщества и веб-платформы для контроля версий данных и совместной работы дата-сайентистов и инженеров по машинному обучению. В подборку попали самые разные источники, от аккаунтов в твиттере, до полноценных инженерных блогов, которые ориентированы для тех, кто точно знает, что ищет. Подробности под катом.
В этом посте делимся с вами подборкой источников полезной информации о Data Science от сооснователя и CTO DAGsHub — сообщества и веб-платформы для контроля версий данных и совместной работы дата-сайентистов и инженеров по машинному обучению. В подборку попали самые разные источники, от аккаунтов в твиттере, до полноценных инженерных блогов, которые ориентированы для тех, кто точно знает, что ищет. Подробности под катом.
Telegraph
Что читать специалисту по Data Science в 2021 году
Two Minute Papers YouTube-канал, который хорошо подходит, для того чтобы быть в курсе последних событий. Канал часто обновляется, а ведущий обладает заразительным энтузиазмом и позитивом во всех освещаемых темах. Ожидайте освещения интересных работ не только…
Мы много говорим о понятии data science , даже канал называется так, но многие всё еще путают данную науку с узкими отраслями IT сферы. Чтобы наши подписчики больше не путали данное понятие мы дадим понятное объяснени где и как используют data science.
- Обнаружение аномалий, например, ненормальное поведение клиента, мошенничества;
персонализированный маркетинг — электронные рассылки, ретаргетинг, системы рекомендаций;
- Количественные прогнозы — показатели эффективности, качество рекламных кампаний и других мероприятий;
- Cкоринговые системы — обработка больших объёмов данных, помощь в принятии решений, например, о предоставлении кредита;
- Базовое взаимодействие с клиентом — стандартные ответы в чатах, голосовые помощники, сортировка писем по папкам.
Пять основных этапов в работе с данными
Сбор. Поиск каналов, где можно собирать данные, и выбор методов их получения.
Проверка. Валидация, нивелирование аномалий, которые не влияют на результат и мешают дальнейшему анализу.
Анализ. Изучение данных, подтверждение предположений.
Визуализация. Представление информации в понятном для восприятия виде: графики, диа
граммы.
Реакция. Принятие решений на основе данных. Например, изменение маркетинговой стратегии, увеличение бюджета компании.
- Обнаружение аномалий, например, ненормальное поведение клиента, мошенничества;
персонализированный маркетинг — электронные рассылки, ретаргетинг, системы рекомендаций;
- Количественные прогнозы — показатели эффективности, качество рекламных кампаний и других мероприятий;
- Cкоринговые системы — обработка больших объёмов данных, помощь в принятии решений, например, о предоставлении кредита;
- Базовое взаимодействие с клиентом — стандартные ответы в чатах, голосовые помощники, сортировка писем по папкам.
Пять основных этапов в работе с данными
Сбор. Поиск каналов, где можно собирать данные, и выбор методов их получения.
Проверка. Валидация, нивелирование аномалий, которые не влияют на результат и мешают дальнейшему анализу.
Анализ. Изучение данных, подтверждение предположений.
Визуализация. Представление информации в понятном для восприятия виде: графики, диа
граммы.
Реакция. Принятие решений на основе данных. Например, изменение маркетинговой стратегии, увеличение бюджета компании.
Сколько зарабатывает дата-сайентист: обзор зарплат и вакансий в 2021
https://telegra.ph/Skolko-zarabatyvaet-data-sajentist-obzor-zarplat-i-vakansij-v-2021-03-27
https://telegra.ph/Skolko-zarabatyvaet-data-sajentist-obzor-zarplat-i-vakansij-v-2021-03-27
Telegraph
Сколько зарабатывает дата-сайентист: обзор зарплат и вакансий в 2021
Дата-сайентист — одна из самых быстрорастущих специальностей XXI века. По прогнозам компании Frost & Sullivan, рынок аналитики больших данных в ближайшие 10 лет будет расти в среднем на 35,9 % в год. В этой статье мы рассмотрим, сколько денег может получать…
Тонкая настройка предварительно обученных трансформаторов в RNN
Microsoft + Deepmind + ...
Трансформеры - это текущая СОТА в языковом моделировании. Но они сопряжены со значительными вычислительными затратами, поскольку механизм внимания квадратично масштабируется по длине последовательности. Потребление памяти также линейно растет с увеличением длины последовательности. Это узкое место ограничивает использование крупномасштабных предварительно обученных моделей генерации, таких как GPT-3 или преобразователи изображений.
Недавно было предложено несколько эффективных вариантов трансформатора. Например, рекуррентный вариант линейной сложности (https://arxiv.org/abs/2006.16236) оказался хорошо подходящим для генерации авторегрессии. Он аппроксимирует внимание softmax с помощью рандомизированных или эвристических карт характеристик, но может быть трудно обучить или получить неоптимальную точность.
Эта работа преобразует предварительно обученный преобразователь в его эффективный рекуррентный аналог линейной сложности с изученной картой функций для повышения эффективности при сохранении точности. Для этого они заменяют softmax Внимание в готовом предварительно обученном трансформаторе на его рекуррентную альтернативу линейной сложности, а затем тонкую настройку.
➕ Плюсы:
+ Процесс точной настройки требует гораздо меньше времени графического процессора, чем обучение повторяющихся вариантов с нуля
+ Преобразование большого стандартного трансформатора в облегченную модель вывода без повторения всей процедуры обучения очень удобно во многих последующих приложениях.
Microsoft + Deepmind + ...
Трансформеры - это текущая СОТА в языковом моделировании. Но они сопряжены со значительными вычислительными затратами, поскольку механизм внимания квадратично масштабируется по длине последовательности. Потребление памяти также линейно растет с увеличением длины последовательности. Это узкое место ограничивает использование крупномасштабных предварительно обученных моделей генерации, таких как GPT-3 или преобразователи изображений.
Недавно было предложено несколько эффективных вариантов трансформатора. Например, рекуррентный вариант линейной сложности (https://arxiv.org/abs/2006.16236) оказался хорошо подходящим для генерации авторегрессии. Он аппроксимирует внимание softmax с помощью рандомизированных или эвристических карт характеристик, но может быть трудно обучить или получить неоптимальную точность.
Эта работа преобразует предварительно обученный преобразователь в его эффективный рекуррентный аналог линейной сложности с изученной картой функций для повышения эффективности при сохранении точности. Для этого они заменяют softmax Внимание в готовом предварительно обученном трансформаторе на его рекуррентную альтернативу линейной сложности, а затем тонкую настройку.
➕ Плюсы:
+ Процесс точной настройки требует гораздо меньше времени графического процессора, чем обучение повторяющихся вариантов с нуля
+ Преобразование большого стандартного трансформатора в облегченную модель вывода без повторения всей процедуры обучения очень удобно во многих последующих приложениях.
Формула успеха: как стать востребованным экспертом по интеллектуальной обработке данных.
https://telegra.ph/Formula-uspeha-kak-stat-vostrebovannym-ehkspertom-po-intellektualnoj-obrabotke-dannyh-03-29
https://telegra.ph/Formula-uspeha-kak-stat-vostrebovannym-ehkspertom-po-intellektualnoj-obrabotke-dannyh-03-29
Telegraph
Формула успеха: как стать востребованным экспертом по интеллектуальной обработке данных
Потребность работодателей в IT-кадрах с техническим образованием постоянно растёт и опережает рынок труда на протяжении последних лет. За два года значительно вырос спрос на специалистов по интеллектуальной обработке данных (Data Science, рост на 234 %).…
Интервью с Data Scientist: «Я вижу, как моя работа влияет на жизнь людей»
https://iot.ru/gadzhety/intervyu-s-data-scientist-ya-vizhu-kak-moya-rabota-vliyaet-na-zhizn-lyudey
https://iot.ru/gadzhety/intervyu-s-data-scientist-ya-vizhu-kak-moya-rabota-vliyaet-na-zhizn-lyudey
Kак появилась Data Science и при чем тут большие данные?
От Википедии : " Data Science – это наука о данных, объединяющая разные области знаний: информатику, математику и системный анализ. Сюда входят методы обработки больших данных (Big Data), интеллектуального анализа данных (Data Mining), статистические методы, методы искусственного интеллекта, в т.ч машинное обучение (Machine Learning). DS включает методы проектирования и разработки баз данных и прикладного программного обеспечения "
А подробнее про тему читайте по этой ссылке.
От Википедии : " Data Science – это наука о данных, объединяющая разные области знаний: информатику, математику и системный анализ. Сюда входят методы обработки больших данных (Big Data), интеллектуального анализа данных (Data Mining), статистические методы, методы искусственного интеллекта, в т.ч машинное обучение (Machine Learning). DS включает методы проектирования и разработки баз данных и прикладного программного обеспечения "
А подробнее про тему читайте по этой ссылке.
Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение
Big Data
Узнайте, что такое большие данные и как их использование может улучшить бизнес-процессы и аналитические функции.
na centre - чатбот, который поможет найти работу и оставаться в курсе карьерных возможностей.
Чатбот позволяет получать интересные вакансии в одном месте, а не просматривать много телеграм-каналов, сайтов)
@na_centre_bot поможет оставаться в курсе интересных вам вакансий с помощью настроек подписки по:
- сфере деятельности
- уровню зарплаты
- локации (и по другим в будущем).
Собирает вакансии из 100+ источников, постепенно список источников пополняется, добавляют персонализацию.
Попробовать - @na_centre_bot 🚀
Чатбот позволяет получать интересные вакансии в одном месте, а не просматривать много телеграм-каналов, сайтов)
@na_centre_bot поможет оставаться в курсе интересных вам вакансий с помощью настроек подписки по:
- сфере деятельности
- уровню зарплаты
- локации (и по другим в будущем).
Собирает вакансии из 100+ источников, постепенно список источников пополняется, добавляют персонализацию.
Попробовать - @na_centre_bot 🚀
Telegram
na centre
Получай интересные тебе вакансии в одном месте 🔥
Get relevant job opportunities in one place 🔥
Contact - @mr_nrs
Get relevant job opportunities in one place 🔥
Contact - @mr_nrs
10 трюков библиотеки Python Pandas, которые вам нужны
Любите панд? Мы тоже. А еще мы любим эффективный код, поэтому собрали классные трюки, которые облегчат работу с библиотекой Python Pandas.
https://proglib.io/p/pandas-tricks
Любите панд? Мы тоже. А еще мы любим эффективный код, поэтому собрали классные трюки, которые облегчат работу с библиотекой Python Pandas.
https://proglib.io/p/pandas-tricks
Библиотека программиста
10 трюков библиотеки Python Pandas, которые вам нужны
Любите панд? Мы тоже. А еще мы любим эффективный код, поэтому собрали классные трюки, которые облегчат работу с библиотекой Python Pandas.
Когда data science была представлена , как отдельная дисциплина в науке?
Anonymous Quiz
25%
1967
55%
1988
14%
1966
5%
1904
Аналитика данных используется во многих областях и требует людей с самым разным бэкграундом, поэтому в Data Science каждый может найти себя.
7 апреля в Нетологии пройдет «Онлайн-день открытых дверей и презентация новых программ по Аналитике и Data Science», на котором подробно расскажут о профессиях в этой сфере — data scientist, продуктовый аналитик, игровой аналитик, дата-журналист, маркетолог-аналитик, инженер данных, аналитик bi, — и где они нужны.
Вы найдете подходящее именно вам направление, выберете для себя трек развития карьеры и узнаете, какие шаги нужно сделать для входа в новую профессию.
Регистрируйтесь и постройте свой план карьерного роста ↓
https://netolo.gy/gnG
7 апреля в Нетологии пройдет «Онлайн-день открытых дверей и презентация новых программ по Аналитике и Data Science», на котором подробно расскажут о профессиях в этой сфере — data scientist, продуктовый аналитик, игровой аналитик, дата-журналист, маркетолог-аналитик, инженер данных, аналитик bi, — и где они нужны.
Вы найдете подходящее именно вам направление, выберете для себя трек развития карьеры и узнаете, какие шаги нужно сделать для входа в новую профессию.
Регистрируйтесь и постройте свой план карьерного роста ↓
https://netolo.gy/gnG
Алгоритм обучения многослойной нейронной сети методом обратного распространения ошибки (Backpropagation).
Тема нейронных сетей была уже ни раз освещена на хабре, однако сегодня я бы хотел познакомить читателей с алгоритмом обучения многослойной нейронной сети методом обратного распространения ошибки и привести реализацию данного метода.
Сразу хочу оговориться, что не являюсь экспертом в области нейронных сетей, поэтому жду от читателей конструктивной критики, замечаний и дополнений.
Читать статью.
Тема нейронных сетей была уже ни раз освещена на хабре, однако сегодня я бы хотел познакомить читателей с алгоритмом обучения многослойной нейронной сети методом обратного распространения ошибки и привести реализацию данного метода.
Сразу хочу оговориться, что не являюсь экспертом в области нейронных сетей, поэтому жду от читателей конструктивной критики, замечаний и дополнений.
Читать статью.
Хабр
Алгоритм обучения многослойной нейронной сети методом обратного распространения ошибки (Backpropagation)
Тема нейронных сетей была уже ни раз освещена на хабре, однако сегодня я бы хотел познакомить читателей с алгоритмом обучения многослойной нейронной сети методом...
Почему Python используется для машинного обучения?
Скорее всего, вы знаете, что Python — это самый популярный высокоуровневый язык программирования с динамической семантикой. Он довольно прост для работы и чтения: его использование снижает стоимость разработки и обслуживания программ.
Подробнее...
Скорее всего, вы знаете, что Python — это самый популярный высокоуровневый язык программирования с динамической семантикой. Он довольно прост для работы и чтения: его использование снижает стоимость разработки и обслуживания программ.
Подробнее...
Medium
Почему Python используется для машинного обучения?
Python довольно активно используется в сфере машинного обучения, но с чем связана его популярность? Обсудим преимущества Python в машинном…
Станьте топовым менеджером big data всего за 4 месяца! На онлайн-курсе вы научитесь:
⠀
- Разбираться в технологиях big data. Познакомитесь с подходом lean, методологией data mining и облачными решениями для работы с большими данными.
- Управлять проектом и командой. Сможете подбирать инструменты и команду для конкретного проекта big data, ставить задачи разработчикам и управлять сроками.
- Внедрять подход data driven. Узнаете, как принимать стратегические решения на основе данных с интеграцией аналитических отчётов в ключевые бизнес-процессы компании.
- Оценивать результаты. Получите список метрик, которые помогут оценить качество готовой модели и эффективность работы команды.
- Предлагать решения, основанные на больших данных, и презентовать их руководству. Будете составлять эффектные бизнес-кейсы и графики. Узнаете, как убедить руководство внедрить новую технологию.
⠀
Переходите на сайт: https://clc.am/no-txQ, заполняйте заявку и регистрируйся на курс!
⠀
- Разбираться в технологиях big data. Познакомитесь с подходом lean, методологией data mining и облачными решениями для работы с большими данными.
- Управлять проектом и командой. Сможете подбирать инструменты и команду для конкретного проекта big data, ставить задачи разработчикам и управлять сроками.
- Внедрять подход data driven. Узнаете, как принимать стратегические решения на основе данных с интеграцией аналитических отчётов в ключевые бизнес-процессы компании.
- Оценивать результаты. Получите список метрик, которые помогут оценить качество готовой модели и эффективность работы команды.
- Предлагать решения, основанные на больших данных, и презентовать их руководству. Будете составлять эффектные бизнес-кейсы и графики. Узнаете, как убедить руководство внедрить новую технологию.
⠀
Переходите на сайт: https://clc.am/no-txQ, заполняйте заявку и регистрируйся на курс!
Оптимизация производительности MySQL сервера
От скорости работы баз данных (БД) зависит быстрота отклика сайта. Ведь замедленная обработка запросов влияет на PHP, следовательно — накапливается огромное количество операций, с которыми сервер может не справиться.
Управлять данным процессом позволяет использование систем управления базами данных или СУБД. Одной из самых широко применяемых СУБД является MySQL — ПО с открытым исходным кодом, созданное компанией MySQL AB (Oracle) ещё в 1995 году. Оптимизация MySQL позволяет избежать проблем с производительностью сервера и значительно ускорить интернет-ресурс.
В статье представлены варианты повышения производительности баз данных MySQL с помощью специального скрипта, а также указаны параметры настройки, на которые необходимо обратить внимание.
Статья.
От скорости работы баз данных (БД) зависит быстрота отклика сайта. Ведь замедленная обработка запросов влияет на PHP, следовательно — накапливается огромное количество операций, с которыми сервер может не справиться.
Управлять данным процессом позволяет использование систем управления базами данных или СУБД. Одной из самых широко применяемых СУБД является MySQL — ПО с открытым исходным кодом, созданное компанией MySQL AB (Oracle) ещё в 1995 году. Оптимизация MySQL позволяет избежать проблем с производительностью сервера и значительно ускорить интернет-ресурс.
В статье представлены варианты повышения производительности баз данных MySQL с помощью специального скрипта, а также указаны параметры настройки, на которые необходимо обратить внимание.
Статья.