Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
Влияние искусственного интеллекта в современном трейдинге

Профессиональные трейдеры периодически вынуждены модернизировать свои наработки, так как прогресс делает трейдинг сложнее. В 2000–2015 гг. им пришлось конкурировать с торговыми ботами, а потом научиться настраивать их, чтобы силы уравнялись. Примерно с 2015 года трейдерам и их ботам приходится конкурировать уже с искусственным интеллектом.
[ Статья ]
20 мая состоится технологическая онлайн-конференция - SmartDev

Это первая масштабная конференция от Сбера, на которой соберутся топовые спикеры из IT-компаний, чтобы за один день рассказать все о новых сервисах и инструментах разработки в формате dev to dev.

Вас ждут прикладные выступления на темы:

💥 Десятки новых APIs, SDKs, AR/VR, инструменты разработки приложений для виртуальных ассистентов Салют и их монетизация.
💥 Сервисы Platform V полноценный PaaS от Сбера
💥 50+ сервисов для разработки от SberCloud
💥 Machine Learning на единственной в мире облачной платформе с распределенным обучением на 1000+ GPU
💥 Использование средств разработки Intel OneAPI в Sbercloud ML Space

Участники, которые будут в числе первых семи тысяч зарегистрированных на конференцию SmartDev и на платформе SmartMarket - получат промокод на заказ еды от Delivery Club на 500 руб в день конференции.

Участие бесплатное, регистрация по ссылке.

Присоединяйтесь!
Вытаскиваем данные из Instagram
Давайте разберемся, как с помощью достаточно простого кода на python можно вытащить из инстаграмма разные данные, находящиеся в открытом доступе.
[ Статья ]
​​⚠️Переобучение нейросетей: в чем проблема и как ее решить

'''С момента описания первого искусственного нейрона Уорреном Мак-Каллоком и Уолтером Питтсом прошло более пятидесяти лет. С тех пор многое изменилось, и сегодня нейросетевые алгоритмы применяются повсеместно. И хотя нейронные сети способны на многое, исследователи при работе с ними сталкиваются с рядом трудностей: от переобучения до проблемы «черного ящика»'''.


Главная проблема нейросетей — переобучение. Оно заключается в том, что сеть «запоминает» ответы вместо того, чтобы улавливать закономерности в данных. Наука поспособствовала появлению на свет нескольких методов борьбы с переобучением: сюда относятся, например, регуляризация, нормализация батчей, наращивание данных и другие. Иногда переобученная модель характеризуется большими абсолютными значениями весов.

Механизм этого явления примерно такой: исходные данные нередко сильно многомерны (одна точка из обучающей выборки изображается большим набором чисел), и вероятность того, что наугад взятая точка окажется неотличимой от выброса, будет тем больше, чем больше размерность. Вместо того, чтобы «вписывать» новую точку в имеющуюся модель, корректируя веса, нейросеть как будто придумывает сама себе исключение: эту точку мы классифицируем по одним правилам, а другие — по другим. И таких точек обычно много.

📌Очевидный способ борьбы с такого рода переобучением – регуляризация весов. Она состоит либо в искусственном ограничении на значения весов, либо в добавлении штрафа в меру ошибки на этапе обучения. Такой подход не решает проблему полностью, но чаще всего улучшает результат.

📌Второй способ основан на ограничении выходного сигнала, а не значений весов, — речь о нормализации батчей. На этапе обучения данные подаются нейросети пачками — батчами. Выходные значения для них могут быть какими угодно, и тем их абсолютные значения больше, чем выше значения весов. Если из каждого из них мы вычтем какое-то одно значение и поделим результат на другое, одинаково для всего батча, то мы сохраним качественные соотношения (максимальное, например, все равно останется максимальным), но выход будет более удобным для обработки его следующим слоем.

📌Третий подход работает не всегда. Как уже говорилось, переобученная нейросеть воспринимает многие точки как аномальные, которые хочется обрабатывать отдельно. Идея состоит в наращивании обучающей выборки, чтобы точки были как будто той же природы, что и исходная выборка, но сгенерированы искусственно. Однако тут сразу рождается большое число сопутствующих проблем: подбор параметров для наращивания выборки, критическое увеличение времени обучения и прочие.
Получи ультрасовременное образование из любой точки мира! Четырехлетняя программа бакалавриата по аналитике данных и машинному обучению это:
→ дистанционное образование за 4 года;
→ портфолио, стажировки и трудоустройство;
→ возможность получить 2 диплома;
→ отсрочка от армии.

Специалисты Data Science & Machine Learning находят закономерности в данных и делают выводы. Например, какой способ производства на предприятии тратит меньше энергии, какие товары компании самые популярные или когда в экономике может случиться дефолт. А также создают алгоритмы обучаемого искусственного интеллекта для нейросетей, голосовых помощников, программ распознавания лиц и чат-ботов.

Вот, в каких сферах ты сможешь работать после окончания вуза:
→ Разработка игр.
→ Информационные технологии.
→ Медицина.
→ Финансы.

Получи больше информации, переходи по ссылке: https://clc.am/cJraRQ
Разбор реальной data science задачи
В этом ролике автор разбирает реальную задачу, в котором нужно отфильтровать негативные комментарии и вычислить их кол-во с помощью нейросети обученный на сэмпл-данных.
[ Видео Материал ]
Бесплатный сервис Битрикс24 мощно обновился.

В продукт добавили более 50 новинок и обновлений, которые помогут бизнесу расти и развиваться в сложных условиях.
Во-первых, появились совершенно новые продукты и инструменты: онлайн-редактор для совместной работы с документами в режиме реального времени, официальная интеграция CRM и WhatsApp (чтобы принимать оплату прямо в переписке), организация доставки товаров прямо из CRM, новая улучшенная работа с большим количеством проектов сразу, смарт-процессы для автоматизации работы департаментов.

Во-вторых, ВСЕ обновления уже выпущены и доступны предпринимателям прямо сейчас.

Кликайте на ссылку и смотрите, какие обновления вас ждут: https://www.bitrix24.ru/~meCPI
Аналитик в автоматизации — кто он и чем занимается
Жизнь, работодатели и процессы придумали много мест, где может быть полезен человек-аналитик. То есть такой человек, который углубится в проблему и подумает, как надо. Однако областей аналитики много, что понять, кто есть кто и кем хочется быть, может быть сложно. Как и понять, куда развиваться. 
Как главный аналитик в ADV/web-engineering co, я регулярно отвечаю на подобные вопросы коллег и соискателей на собеседованиях. Надеюсь, что эта статья поможет сформировать представление о возможном развитии и ожидания от работы аналитиком в той или иной компании.
[ Статья ]
Мониторить рынок IT-вакансий проще, когда интересные вакансии сами приходят к тебе.
@GetMeIT_bot подбирает вакансии по твоим предпочтениям: просто настрой фильтры и проверяй входящие.
Всё вокруг автоматизируется и на смену ручному труду приходят машины и алгоритмы. Почти в каждом магазине — кассы самообслуживания, вместо курьеров — роботы, даже новости теперь пишет AI. Кажется, вакансий для простых работяг скоро не будет. Но зато появится еще больший спрос на людей, которые будут разрабатывать и обучать нейросети.  

Поэтому, если вы хотите научиться профессии, которая создает будущее — обратите внимание на курс «Дата-сайентист» от SkillFactory. Вы получите сильную теоретическую базу, а затем будете очень много практиковаться. На курсе вы создадите искусственный интеллект, обучите нейронную сеть, будете анализировать данные и строить прогнозные модели.

В SkillFactory можно учиться когда удобно, скорректировать нагрузку или заморозить курс на время, если, например, уезжаете в отпуск. Курс заточен под то, чтобы создать у вас мотивацию не забросить через пару месяцев. Ментор поможет в трудную минуту и ответит на все вопросы. А после окончания курса карьерный центр помогает студентам с трудоустройством. 

Все еще сомневаетесь? Почитайте отзывы о Skillfactory на независимых сайтах, там их много и с отличными оценками!

Все подробности по ссылке https://clc.am/qSVd9Q
До 24 мая по промокоду ДАТА на курс можно записаться со скидкой в 45%
Линейная алгебра для Data Science и Machine Learning

Линейная алгебра в Data Science и Machine Learning является основополагающей. Новички, начинающие свой путь обучения в области Data Science, а также признанные практики должны развить хорошее понимание основных понятий линейной алгебры.
Специально к новому старту курса математика и Machine Learning для Data Science делимся переводом статьи Бенджамина Оби Тайо — физика, кандидата наук и преподавателя Data Science — о том, что нужно знать, чтобы лучше понимать Data Science и Machine Learning

[ Статья ]
​​Puzzle English (@puzzleng) — это сервис, в котором вы можете учить английский онлайн с любого уровня и для любых целей. Тренируйте словарный запас, смотрите отрывки кино и сериалов, или вообще слушайте подкасты для развития понимания языка на слух. А если хочется подтянуть грамматику — то у ребят есть целый каталог игр и тренажеров, с которыми не будет скучно :)

Кстати, после регистрации вы сразу получите бонус — 2 недели Личного Плана. Это такая персональная программа, в которую входит всё, что перечислено выше. А если сервис очень понравится, то ловите промокод may2021 — он даёт скидку в 66% для покупки премиум-доступа!

Играйте, тренируйтесь и развивайте свой английский вместе с Puzzle English: https://u.to/fLBUGw
DATApedia - канал про Data Science, и все что связано с данными, в котором вы найдете:

— Переведенные зарубежные статьи, которые есть только у нас;
— Возможность предложить нам статью для перевода;
— Полезные видео;
— Профессиональный юмор;

Присоединяйтесь, давайте расти как профессионалы вместе 😉
​​Многоразовый шаблон логирования на Python для всех ваших приложений в Data Science
Идеальный способ отлаживать и отслеживать приложения — хорошо определённые, информативные и удобно структурированные логи. Они являются необходимым компонентом любого — малого, среднего или крупного — проекта на любом языке программирования, не только на Python. Не используйте print() или корневой логгер по умолчанию, вместо этого настройте логирование на уровне проекта. К старту нового потока курса по Data Science, мы перевели статью, автор которой решил поделиться своим шаблоном для логирования. Не лишним будет сказать, что этот шаблон пришёлся по душе многим специалистам — от дата-сайентистов профессионалов и до разработчиков ПО разного уровня.
[ Статья
Автоматизация машинного обучения
Сколько рабочего времени вы тратите на скучные рутинные операции? Представим, что вы начали работать в компании, которая производит однообразные операции с бесконечными таблицами. Например, в крупном ретейлере или у ведущего оператора связи. Ежедневно перед вами ставят задачу выяснить, останется ли клиент с вами или хватит ли товара на полках до конца недели. Алгоритм выглядит просто. Вы берете выборку, изучаете бесконечные ряды признаков, удаляете мусор, генерируете новые признаки, собираете сводную таблицу. Подаете готовые данные в модель, настраиваете параметры и с нетерпением ждете заветных цифр итоговой метрики. Это повторяется день за днем. Затрачивая каждый день всего 60 минут на генерацию фич или подбор параметров, за месяц вы израсходуете минимум 20 часов. Это, без малого, целые сутки, за которые можно выполнить новую задачу, обучить нейросеть или прочесть несколько статей на arxiv’e.
[ Статья ]