Подготовка данных в Data Science-проекте: рецепты для молодых хозяек
/ Статья /
/ Статья /
Хабр
Подготовка данных в Data Science-проекте: рецепты для молодых хозяек
В предыдущей статье я рассказывала про структуру Data Science-проекта по материалам методологии IBM: как он устроен, из каких этапов состоит, какие задачи решаются на каждой стадии. Теперь я бы...
10 примеров, как искусственный интеллект может изменить ваш образ жизни
Искусственный интеллект в последнее время привлекает все больше внимания, и, если верить Биллу Гейтсу, из всех современных инноваций именно эта имеет наибольший потенциал изменить нашу жизнь сделать ее «более продуктивной, эффективной и вообще легкой».
[ Статья ]
Искусственный интеллект в последнее время привлекает все больше внимания, и, если верить Биллу Гейтсу, из всех современных инноваций именно эта имеет наибольший потенциал изменить нашу жизнь сделать ее «более продуктивной, эффективной и вообще легкой».
[ Статья ]
Telegraph
10 примеров, как искусственный интеллект может изменить ваш образ жизни
1. Будущие врачи, вероятно, не будут людьми Искусственный интеллект уже сегодня начал попадать во врачебные кабинеты, а следовательно, это лишь вопрос времени, когда он станет там обычным явлением, убеждены эксперты. «От мощных диагностических алгоритмов…
Какие требования предъявляют работодатели к специалистам Machine learning на Middle+ уровне?
5 мая Дмитрием Сергеевым, Senior Data Scientist в Oura, проведет обзор рынка вакансий Data Science для специалистов с опытом и поделится карьерными инсайтами. Вы узнаете ,какие навыки и технологии понадобятся для карьерного роста и познакомитесь с программой онлайн-курсов «Machine Learning. Advanced».
Как подготовиться к встрече? Пройдите вступительный тест, чтобы оценить свой уровень знаний и сложность курса.
Зарегистрируйтесь, чтобы участвовать в трансляции и задать свои вопросы эксперту https://otus.pw/kIne/
5 мая Дмитрием Сергеевым, Senior Data Scientist в Oura, проведет обзор рынка вакансий Data Science для специалистов с опытом и поделится карьерными инсайтами. Вы узнаете ,какие навыки и технологии понадобятся для карьерного роста и познакомитесь с программой онлайн-курсов «Machine Learning. Advanced».
Как подготовиться к встрече? Пройдите вступительный тест, чтобы оценить свой уровень знаний и сложность курса.
Зарегистрируйтесь, чтобы участвовать в трансляции и задать свои вопросы эксперту https://otus.pw/kIne/
5 причин работать в Power BI
Бесплатный мастер-класс от Онлайн Школы Аналитики и Данных IQBI
Программа мастер-класса:
🔎Узнаете о возможностях Power BI на реальном бизнес-кейсе
🔎Разберете подводные камни перехода в Power BI
🔎Получите честные ответы на все вопросы
🔎Получите бонусы и полезные материалы для обучения Power BI
Время проведения: 6 мая в 19:00
Спикер: Михаил Ивлиев
📊Основатель онлайн школы IQBI
🥇Сертифицированный партнёр Microsoft по Power BI
Ссылка для бесплатной регистрации: https://vk.cc/c1DNu8
Бесплатный мастер-класс от Онлайн Школы Аналитики и Данных IQBI
Программа мастер-класса:
🔎Узнаете о возможностях Power BI на реальном бизнес-кейсе
🔎Разберете подводные камни перехода в Power BI
🔎Получите честные ответы на все вопросы
🔎Получите бонусы и полезные материалы для обучения Power BI
Время проведения: 6 мая в 19:00
Спикер: Михаил Ивлиев
📊Основатель онлайн школы IQBI
🥇Сертифицированный партнёр Microsoft по Power BI
Ссылка для бесплатной регистрации: https://vk.cc/c1DNu8
Оптимизация производительности MySQL сервера
От скорости работы баз данных (БД) зависит быстрота отклика сайта. Ведь замедленная обработка запросов влияет на PHP, следовательно — накапливается огромное количество операций, с которыми сервер может не справиться.
Управлять данным процессом позволяет использование систем управления базами данных или СУБД. Одной из самых широко применяемых СУБД является MySQL — ПО с открытым исходным кодом, созданное компанией MySQL AB (Oracle) ещё в 1995 году. Оптимизация MySQL позволяет избежать проблем с производительностью сервера и значительно ускорить интернет-ресурс.
В статье представлены варианты повышения производительности баз данных MySQL с помощью специального скрипта, а также указаны параметры настройки, на которые необходимо обратить внимание.
Статья.
От скорости работы баз данных (БД) зависит быстрота отклика сайта. Ведь замедленная обработка запросов влияет на PHP, следовательно — накапливается огромное количество операций, с которыми сервер может не справиться.
Управлять данным процессом позволяет использование систем управления базами данных или СУБД. Одной из самых широко применяемых СУБД является MySQL — ПО с открытым исходным кодом, созданное компанией MySQL AB (Oracle) ещё в 1995 году. Оптимизация MySQL позволяет избежать проблем с производительностью сервера и значительно ускорить интернет-ресурс.
В статье представлены варианты повышения производительности баз данных MySQL с помощью специального скрипта, а также указаны параметры настройки, на которые необходимо обратить внимание.
Статья.
Что входит в must-have умения специалиста Машинного обучения?
11 мая Дмитрий Сергеев, Senior Data Scientist в Oura, расскажет, на какие навыки обращают внимание работодатели и как их тренировать. Дмитрий поделится своим опытом и проведет обзор рынка вакансий в Data Science. Также вы познакомитесь с программой и особенностями онлайн-курса «Machine Learning. Professional», форматом обучения OTUS и сможете задать свои вопросы эксперту. Ждем тех, кто уже начал осваиваться в Data Science и хочет получить знания, необходимые Middle специалисту.
Для участия регистрируйтесь на вебинар https://otus.pw/2wUl/
11 мая Дмитрий Сергеев, Senior Data Scientist в Oura, расскажет, на какие навыки обращают внимание работодатели и как их тренировать. Дмитрий поделится своим опытом и проведет обзор рынка вакансий в Data Science. Также вы познакомитесь с программой и особенностями онлайн-курса «Machine Learning. Professional», форматом обучения OTUS и сможете задать свои вопросы эксперту. Ждем тех, кто уже начал осваиваться в Data Science и хочет получить знания, необходимые Middle специалисту.
Для участия регистрируйтесь на вебинар https://otus.pw/2wUl/
Как устроены камеры с искусственным интеллектом
В каждой умной камере есть встроенная видеоаналитика, сегодня чаще всего здесь используются нейросети глубокого обучения или искусственный интеллект. Это стало возможным благодаря увеличению мощности процессоров видеокамер, раньше видеоаналитика могла существовать только на серверах.
[ Статья ]
В каждой умной камере есть встроенная видеоаналитика, сегодня чаще всего здесь используются нейросети глубокого обучения или искусственный интеллект. Это стало возможным благодаря увеличению мощности процессоров видеокамер, раньше видеоаналитика могла существовать только на серверах.
[ Статья ]
Нейронные сети: распознавание образов и изображений c помощью ИИ
ИНС (искусственные нейросети) – это математическая модель функционирования традиционных для живых организмов нейросетей, которые представляют собой сети нервных клеток. Как и в биологическом аналоге, в искусственных сетях основным элементом выступают нейроны, соединенные между собой и образующие слои, число которых может быть разным в зависимости от сложности нейросети и ее назначения (решаемых задач).
[ Статья ]
ИНС (искусственные нейросети) – это математическая модель функционирования традиционных для живых организмов нейросетей, которые представляют собой сети нервных клеток. Как и в биологическом аналоге, в искусственных сетях основным элементом выступают нейроны, соединенные между собой и образующие слои, число которых может быть разным в зависимости от сложности нейросети и ее назначения (решаемых задач).
[ Статья ]
Сбер приглашает на свою первую масштабную технологическую конференцию - SmartDev. Сбер представит свои новые возможности для разработчиков, презентует новые условия и возможности сервиса SberCloud.Advanced.
⏱ 20 мая
👨💻 Онлайн и бесплатно
🎯 Регистрация
Шесть параллельных стримов от шести технологических стеков Сбера. 50+ спикеров, которые поделятся опытом и представят новые решения для разработчиков, аналитиков и специалистов по Data Science.
Один из стримов будет посвящен облачной платформе от Сбера - SberCloud. Команда представит новые возможности SberCloud.Advanced — самой широкой линейки платформенных сервисов в России. Теперь все они доступны для физических лиц, через быстрый и удобный self-service.
Вы узнаете, как создавать различные компоненты приложения с помощью всех необходимых платформ облака. Поговорим про работу Apache Spark c Big Data в кластере SberCloud и про создание инфраструктуры с помощью Terraform по принципу Infrastructure-as-Code.
Зарегистрируйтесь, чтобы принять участие.
⏱ 20 мая
👨💻 Онлайн и бесплатно
🎯 Регистрация
Шесть параллельных стримов от шести технологических стеков Сбера. 50+ спикеров, которые поделятся опытом и представят новые решения для разработчиков, аналитиков и специалистов по Data Science.
Один из стримов будет посвящен облачной платформе от Сбера - SberCloud. Команда представит новые возможности SberCloud.Advanced — самой широкой линейки платформенных сервисов в России. Теперь все они доступны для физических лиц, через быстрый и удобный self-service.
Вы узнаете, как создавать различные компоненты приложения с помощью всех необходимых платформ облака. Поговорим про работу Apache Spark c Big Data в кластере SberCloud и про создание инфраструктуры с помощью Terraform по принципу Infrastructure-as-Code.
Зарегистрируйтесь, чтобы принять участие.
5 лучших библиотек Python для визуализации данных
[ Статья ]
[ Статья ]
Telegraph
5 лучших библиотек Python для визуализации данных
5 лучших библиотек Python для визуализации данных 1. Matplotlib Matplotlib - самая популярная библиотека Python для визуализации данных. Ее можно использовать в оболочках Python и IPython, скриптах Python, серверах веб-приложений и т.д. Это библиотека для…
Лучшие языки программирования для Data Science
[ Статья ]
[ Статья ]
Библиотека программиста
Лучшие языки программирования для Data Science
Рассмотрим языки программирования для <a href="https://proglib.io/p/learn-data/" target="_blank" rel="noopener">Data Science</a>. Как они появились, их сильные и слабые стороны, а также отметим простые для старта.
Python vs. R: что выбрать для Data Science начинающему специалисту?
[ Статья ]
[ Статья ]
Tproger
Python vs. R: что выбрать для Data Science начинающему специалисту?
Python и R —два самых популярных языка для Data Science. Какой из них выбрать? Разбираемся в плюсах, минусах и инструментах обоих языков.
Будущее рядом — освой профессию Data Scientist
Год обучения Бесплатно!!!
Раньше мы с интересом смотрели фильмы про искусственный интеллект и гадали, как же это пришло в голову сценаристам и режиссёрам.
Но в реалиях настоящей жизни искусственный интеллект — это реальность, которая стремительно врывается в нашу жизнь. Незаменимый помощник Data Scientist — специалист по машинному обучению, который выбирает архитектуру и обучающие алгоритмы, для работы с этими данными.
И у тебя как раз есть шанс стать тем самым незаменимым специалистом благодаря курсу от Skillbox «Профессия Data Scientist».
На курсе тебе предстоит научиться очень многим интересным вещам: от программирования на Python и визуализации данных до программирования на R и применения нейронных сетей для решения реальных задач.
После прохождения курса не стоит переживать о том, где найти работу. Эти заботы берут на себя опытные HR-специалисты.
Открой мир будущего — переходи по ссылке ▶️ https://clc.am/ZJA5LQ
Год обучения Бесплатно!!!
Раньше мы с интересом смотрели фильмы про искусственный интеллект и гадали, как же это пришло в голову сценаристам и режиссёрам.
Но в реалиях настоящей жизни искусственный интеллект — это реальность, которая стремительно врывается в нашу жизнь. Незаменимый помощник Data Scientist — специалист по машинному обучению, который выбирает архитектуру и обучающие алгоритмы, для работы с этими данными.
И у тебя как раз есть шанс стать тем самым незаменимым специалистом благодаря курсу от Skillbox «Профессия Data Scientist».
На курсе тебе предстоит научиться очень многим интересным вещам: от программирования на Python и визуализации данных до программирования на R и применения нейронных сетей для решения реальных задач.
После прохождения курса не стоит переживать о том, где найти работу. Эти заботы берут на себя опытные HR-специалисты.
Открой мир будущего — переходи по ссылке ▶️ https://clc.am/ZJA5LQ
🔥Большой гайд по библиотеке pandas: анализ данных на Python
[ Статья ]
[ Статья ]
Telegraph
Введение в pandas: анализ данных на Python
pandas это высокоуровневая Python библиотека для анализа данных. Почему я её называю высокоуровневой, потому что построена она поверх более низкоуровневой библиотеки NumPy (написана на Си), что является большим плюсом в производительности. В экосистеме Python…
Потоки и многопоточность / для начинающих
Многопоточность очень ценится в кругу дата сайентистов, т.к. позволяет анализировать и обрабатывать огромные объёмы данных используя все возможные ресурсы вычислительной машины , тем самым сокарщая время обработки данных.
Про многопототчность есть прекрасная статья, где разъясняется эта тема на примере ЯП Python.
[ Статья ]
Многопоточность очень ценится в кругу дата сайентистов, т.к. позволяет анализировать и обрабатывать огромные объёмы данных используя все возможные ресурсы вычислительной машины , тем самым сокарщая время обработки данных.
Про многопототчность есть прекрасная статья, где разъясняется эта тема на примере ЯП Python.
[ Статья ]
Влияние искусственного интеллекта в современном трейдинге
Профессиональные трейдеры периодически вынуждены модернизировать свои наработки, так как прогресс делает трейдинг сложнее. В 2000–2015 гг. им пришлось конкурировать с торговыми ботами, а потом научиться настраивать их, чтобы силы уравнялись. Примерно с 2015 года трейдерам и их ботам приходится конкурировать уже с искусственным интеллектом.
[ Статья ]
Профессиональные трейдеры периодически вынуждены модернизировать свои наработки, так как прогресс делает трейдинг сложнее. В 2000–2015 гг. им пришлось конкурировать с торговыми ботами, а потом научиться настраивать их, чтобы силы уравнялись. Примерно с 2015 года трейдерам и их ботам приходится конкурировать уже с искусственным интеллектом.
[ Статья ]
Telegraph
Участие искусственного интеллекта в современном трейдинге
Профессиональные трейдеры периодически вынуждены модернизировать свои наработки, так как прогресс делает трейдинг сложнее. В 2000–2015 гг. им пришлось конкурировать с торговыми ботами, а потом научиться настраивать их, чтобы силы уравнялись. Примерно с 2015…
20 мая состоится технологическая онлайн-конференция - SmartDev
Это первая масштабная конференция от Сбера, на которой соберутся топовые спикеры из IT-компаний, чтобы за один день рассказать все о новых сервисах и инструментах разработки в формате dev to dev.
Вас ждут прикладные выступления на темы:
💥 Десятки новых APIs, SDKs, AR/VR, инструменты разработки приложений для виртуальных ассистентов Салют и их монетизация.
💥 Сервисы Platform V полноценный PaaS от Сбера
💥 50+ сервисов для разработки от SberCloud
💥 Machine Learning на единственной в мире облачной платформе с распределенным обучением на 1000+ GPU
💥 Использование средств разработки Intel OneAPI в Sbercloud ML Space
Участники, которые будут в числе первых семи тысяч зарегистрированных на конференцию SmartDev и на платформе SmartMarket - получат промокод на заказ еды от Delivery Club на 500 руб в день конференции.
Участие бесплатное, регистрация по ссылке.
Присоединяйтесь!
Это первая масштабная конференция от Сбера, на которой соберутся топовые спикеры из IT-компаний, чтобы за один день рассказать все о новых сервисах и инструментах разработки в формате dev to dev.
Вас ждут прикладные выступления на темы:
💥 Десятки новых APIs, SDKs, AR/VR, инструменты разработки приложений для виртуальных ассистентов Салют и их монетизация.
💥 Сервисы Platform V полноценный PaaS от Сбера
💥 50+ сервисов для разработки от SberCloud
💥 Machine Learning на единственной в мире облачной платформе с распределенным обучением на 1000+ GPU
💥 Использование средств разработки Intel OneAPI в Sbercloud ML Space
Участники, которые будут в числе первых семи тысяч зарегистрированных на конференцию SmartDev и на платформе SmartMarket - получат промокод на заказ еды от Delivery Club на 500 руб в день конференции.
Участие бесплатное, регистрация по ссылке.
Присоединяйтесь!
Вытаскиваем данные из Instagram
Давайте разберемся, как с помощью достаточно простого кода на python можно вытащить из инстаграмма разные данные, находящиеся в открытом доступе.
[ Статья ]
Давайте разберемся, как с помощью достаточно простого кода на python можно вытащить из инстаграмма разные данные, находящиеся в открытом доступе.
[ Статья ]
Хабр
Вытаскиваем данные из Instagram
Давайте разберемся, как с помощью достаточно простого кода на python можно вытащить из инстаграмма разные данные, находящиеся в открытом доступе. Intro При фазовом переходе из состояния Employed в...
⚠️Переобучение нейросетей: в чем проблема и как ее решить
'''С момента описания первого искусственного нейрона Уорреном Мак-Каллоком и Уолтером Питтсом прошло более пятидесяти лет. С тех пор многое изменилось, и сегодня нейросетевые алгоритмы применяются повсеместно. И хотя нейронные сети способны на многое, исследователи при работе с ними сталкиваются с рядом трудностей: от переобучения до проблемы «черного ящика»'''.
Главная проблема нейросетей — переобучение. Оно заключается в том, что сеть «запоминает» ответы вместо того, чтобы улавливать закономерности в данных. Наука поспособствовала появлению на свет нескольких методов борьбы с переобучением: сюда относятся, например, регуляризация, нормализация батчей, наращивание данных и другие. Иногда переобученная модель характеризуется большими абсолютными значениями весов.
Механизм этого явления примерно такой: исходные данные нередко сильно многомерны (одна точка из обучающей выборки изображается большим набором чисел), и вероятность того, что наугад взятая точка окажется неотличимой от выброса, будет тем больше, чем больше размерность. Вместо того, чтобы «вписывать» новую точку в имеющуюся модель, корректируя веса, нейросеть как будто придумывает сама себе исключение: эту точку мы классифицируем по одним правилам, а другие — по другим. И таких точек обычно много.
📌Очевидный способ борьбы с такого рода переобучением – регуляризация весов. Она состоит либо в искусственном ограничении на значения весов, либо в добавлении штрафа в меру ошибки на этапе обучения. Такой подход не решает проблему полностью, но чаще всего улучшает результат.
📌Второй способ основан на ограничении выходного сигнала, а не значений весов, — речь о нормализации батчей. На этапе обучения данные подаются нейросети пачками — батчами. Выходные значения для них могут быть какими угодно, и тем их абсолютные значения больше, чем выше значения весов. Если из каждого из них мы вычтем какое-то одно значение и поделим результат на другое, одинаково для всего батча, то мы сохраним качественные соотношения (максимальное, например, все равно останется максимальным), но выход будет более удобным для обработки его следующим слоем.
📌Третий подход работает не всегда. Как уже говорилось, переобученная нейросеть воспринимает многие точки как аномальные, которые хочется обрабатывать отдельно. Идея состоит в наращивании обучающей выборки, чтобы точки были как будто той же природы, что и исходная выборка, но сгенерированы искусственно. Однако тут сразу рождается большое число сопутствующих проблем: подбор параметров для наращивания выборки, критическое увеличение времени обучения и прочие.
'''С момента описания первого искусственного нейрона Уорреном Мак-Каллоком и Уолтером Питтсом прошло более пятидесяти лет. С тех пор многое изменилось, и сегодня нейросетевые алгоритмы применяются повсеместно. И хотя нейронные сети способны на многое, исследователи при работе с ними сталкиваются с рядом трудностей: от переобучения до проблемы «черного ящика»'''.
Главная проблема нейросетей — переобучение. Оно заключается в том, что сеть «запоминает» ответы вместо того, чтобы улавливать закономерности в данных. Наука поспособствовала появлению на свет нескольких методов борьбы с переобучением: сюда относятся, например, регуляризация, нормализация батчей, наращивание данных и другие. Иногда переобученная модель характеризуется большими абсолютными значениями весов.
Механизм этого явления примерно такой: исходные данные нередко сильно многомерны (одна точка из обучающей выборки изображается большим набором чисел), и вероятность того, что наугад взятая точка окажется неотличимой от выброса, будет тем больше, чем больше размерность. Вместо того, чтобы «вписывать» новую точку в имеющуюся модель, корректируя веса, нейросеть как будто придумывает сама себе исключение: эту точку мы классифицируем по одним правилам, а другие — по другим. И таких точек обычно много.
📌Очевидный способ борьбы с такого рода переобучением – регуляризация весов. Она состоит либо в искусственном ограничении на значения весов, либо в добавлении штрафа в меру ошибки на этапе обучения. Такой подход не решает проблему полностью, но чаще всего улучшает результат.
📌Второй способ основан на ограничении выходного сигнала, а не значений весов, — речь о нормализации батчей. На этапе обучения данные подаются нейросети пачками — батчами. Выходные значения для них могут быть какими угодно, и тем их абсолютные значения больше, чем выше значения весов. Если из каждого из них мы вычтем какое-то одно значение и поделим результат на другое, одинаково для всего батча, то мы сохраним качественные соотношения (максимальное, например, все равно останется максимальным), но выход будет более удобным для обработки его следующим слоем.
📌Третий подход работает не всегда. Как уже говорилось, переобученная нейросеть воспринимает многие точки как аномальные, которые хочется обрабатывать отдельно. Идея состоит в наращивании обучающей выборки, чтобы точки были как будто той же природы, что и исходная выборка, но сгенерированы искусственно. Однако тут сразу рождается большое число сопутствующих проблем: подбор параметров для наращивания выборки, критическое увеличение времени обучения и прочие.