Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
629 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​Решаем задачи машинного обучения с помощью алгоритма градиентного бустинга

Градиентный бустинг (Gradient Boosting) – один из самых эффективных инструментов для решения задач машинного обучения, в особенности на соревнованиях Kaggle. Чтобы научиться правильно его применять, разберем подробнее лежащие в основе алгоритма процессы.

Читать...
​​Новый ИИ проверит лояльность членов компартии Китая

Специалисты из Национального научного центра Хэфэй в Китае разработали искусственный интеллект (ИИ), который может «читать мысли» членов коммунистической партии страны. Новый алгоритм анализирует мимику, реакцию зрачков, мозговые волны и другие показатели, по которым определяет «уровень приемлемости идеологического и политического образования».

Читать...
​​Как обучить нейросеть, если разметка данных стоит как самолет

Искусственный интеллект все чаще используется в медицинских целях, в частности для анализа медицинских изображений. Это прекрасный помощник для врачей-рентгенологов, который позволяет определять даже едва различимые человеческому глазу признаки патологий и вообще разгружает медицинских специалистов за счет автоматизации ряда рутинных задач. 

Читать...
​​Яндекс выложила в Open Source модель генерации теста YaLM-100B

Это крупнейшая на сегодняшний день свободно доступная генеративная модель как для русского, так и для английского языка. Ее обучение заняло больше двух месяцев на 800 видеокартах A100. Исследователи отмечают, что открытый доступ к подобным моделям позволяет сохранить высокие темпы инноваций и технологического развития.

Читать...
​​В VK стартовал набор в Академию больших данных MADE — это бесплатное обучение для специалистов с опытом в разработке. 

👉 Регистрируйтесь до 6 августа: https://vk.cc/ceWkU7

Программа длится один год, но будьте готовы к серьезной нагрузке: занятия займут 25–40 часов в неделю. За это время вы сможете повысить свой профессиональный уровень или освоить новое направление в IT.

Что вас ждёт:
🔹Много практики и работа над реальными проектами.
🔹Преподаватели — ведущие эксперты в области Data Science. Например, несколько дисциплин ведёт Сергей Николенко, автор бестселлера «Глубокое обучение» и создатель курсов в СПбГУ, НИУ ВШЭ и Harbour Space University.
🔹Профессиональное сообщество, где преподаватели, выпускники и слушатели делятся знаниями, общаются и помогают в решении сложных задач.

Для поступления нужно сдать экзамены по математике и программированию, пройти соревнование по машинному обучению и анкетирование.
​​META опубликовала модель для перевода текста на 200 языков

Meta выложила в открытый доступ модель NLLB-200 для перевода текста на 200 языков. Проект «No Language Left Behind» является частью планов Meta по поддержке редко используемых языков и разработке универсального переводчика. Он будет использовать NLLB-200 для улучшения перевода в Facebook, Instagram и, в конечном итоге, в метавселенной.

Читать...
​​Работа в Data Science: что важно знать и как этому научиться

Сегодня словосочетания вроде Data Science, Machine Learning, Artificial Intelligence очень популярны. При этом нередко под ними понимаются довольно разные вещи. Это зачастую смущает и запутывает людей, желающих войти в специальность: трудно разобраться, с чего начать, что действительно нужно, а что необязательно для начала. Не претендуя на общность, расскажем, как это видится на основе десятка лет опыта c решением такого рода задач для крупных клиентов со всего мира (сервис / заказная разработка / аутсорс – подставьте термин по вкусу).


Читать...
​​🗣7 инструментов распознавания речи

Чтобы разработать собственную ML-систему распознавания речи, можно воспользоваться следующими фреймворками и библиотеками:

Читать...
​​Нейрон мне в элерон: суррогатные модели

Статья о том как автор применил нейросети при создании сложных технических систем – приспособили GRU в качестве суррогатной модели для испытаний. Реальный кейс для клиента в рамках реального проекта.

Читать...
​​В Data Science не нужна математика (Почти)

Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит копнуть глубже, оказывается, что это не математика, а вышмат.

В реальной повседневной работе Data Scientist'а я каждый день использую знания математики. Притом очень часто это далеко не «вышмат». Никакие интегралы не считаю, детерминанты матриц не ищу, а нужные хитрые формулы и алгоритмы мне оперативнее просто загуглить.

Решил накидать чек-лист из простых математических приёмов, без понимания которых — тебе точно будет сложно в DS. Если ты только начинаешь карьеру в DS, то тебе будет особенно полезно. Мощь вышмата не принижаю, но для старта всё сильно проще, чем кажется. Важно прочитать до конца!

Читать далее...
​​Инструменты анализа временных рядов в ETNA

Статья про методы EDA в библиотеке ETNA, а также о том, что можно увидеть с их помощью в данных и как использовать для улучшения модели прогнозирования.

Читать...
​​SQL HowTo: наперегонки со временем

В PostgreSQL несложно написать запрос, который уйдет в глубокую рекурсию или просто будет выполняться гораздо дольше, чем нам хотелось бы. Как от этого защититься?

Читать далее...
Англоязычный канал на тему DS и MachineLearning.

👉 Welcome
​​Работа над неразмеченными данными с QGIS и opentripmap на практике

Автор делится интересным опытом работы с неразмеченными данными при помощи открытых ресурсов. К сожалению, из-за подписанного NDA, я не смогу полностью поделиться кодом, но, разумеется, всегда готов помочь в комментариях и личных сообщениях с разрешением какого-либо вопроса по теме.

Читать...
​​Разбор базового решения для задачи определения железнодорожной колеи и подвижного состава с Цифрового Прорыва

В данной статье будет рассмотрен кейс от НИИАС-РЖД, в котором необходимо разработать алгоритм определения железнодорожной колеи и подвижного состава для предотвращения чрезвычайных ситуаций на железной дороге.
Спойлер: в конце статьи есть советы для улучшения базового решения.

Читать...
​​Как мы построили систему онбординга для аналитиков-новичков: подводные камни и полезные приёмы

В новой компании аналитик тратит много времени на изучение данных, с которыми ему предстоит работать. В этой статье автор рассказывает, как мы построили процесс онбординга, чтобы погружение новичка проходило эффективно и безболезненно.

Читать...
​​Нужен ли английский программисту? 

Мы совместно с карьерной платформой Jobby постарались комплексно ответить на этот вопрос и дать вам чёткое понимание, как и где английский используется в программировании. 

Английский программисту однозначно нужен (уровня B1 - B2 будет достаточно) и вот, почему: 

🔹 Функции, переменные, классы и тд нужно также обозначать на английском и желательно, чтобы формулировка была максимально близка к сути функции или класса 

 🔹 English также употребляется, когда строчишь комментарий к коду
 
 🔹 Большая часть документации а также огромная часть крутых обучаюших роликов представлена на английском язык.

 🔹 Значительная часть вакансий - зарубежные, а значит основной язык общения - английский

Код – это такой же международный язык, который должен быть понятен всем.

Кстати, найти работу и применить навыки программирования вам поможет карьерная платформа Jobby!
​​Любовь, люди и роботы: как создать чат-бота, за которого не стыдно

Исторически сложилось, что в Ozon основной объём поддержки осуществляется через чат. В 2020 году бот закрывал 27% от общего числа обращений, а в 2022-м — уже 62%. Это сотни тысяч тикетов в день, при этом качество ответов не ухудшилось. Важность чат-бота выросла в разы.

Из этой статьи вы узнаете, за что пользователи любят и ненавидят роботов, зачем вообще нужен чат-бот и на какие метрики мы смотрим. А ещё я расскажу, кто входит в команду разработки бота, что у него под капотом и как устроен процесс генерации фич.

Читать...
​​Новости Data Science: факт-чек Википедии при помощи Sphere, обучение AI-геймингу, обложка для Cosmopolitan и кое-что еще

Сегодня поговорим о новостях из мира Data Science. За пару последних месяцев как отечественные, так и зарубежные компании представили много всего интересного. Отличились и студенты, обучающиеся профессии «Data Scientist Pro», — они разработали нейросеть, которая написала сценарий для сериала СТС «Сидоровы»

Читать...
​​Продвинутый уровень визуализации данных для Data Science на Python

Когнитивное искажение о невозвратных затратах (sunk cost fallacy) является одним из многих вредных когнитивных предубеждений, жертвой которых становятся люди. Это относится к нашей тенденции продолжать посвящать время и ресурсы проигранному делу, потому что мы уже потратили — утонули — так много времени в погоне. Заблуждение о заниженной стоимости применимо к тому, чтобы оставаться на плохой работе дольше, чем мы должны, рабски работать над проектом, даже когда ясно, что он не будет работать, и да, продолжать использовать утомительную, устаревшую библиотеку построения графиков — matplotlib — когда существуют более эффективные, интерактивные и более привлекательные альтернативы.

Читать...
​​Законы мира информационных технологий

Всем известный закон Мёрфи гласит: «Если что-то плохое может случиться, то оно обязательно произойдет». Согласитесь, не самая позитивная установка, особенно когда это касается работы. И тут мне стало любопытно, а есть ли такие законы, которые мне, как ИТ-специалисту, максимально помогут избежать «чего-то плохого». К своему удивлению, я их нашел, и даже не один.

Читать...