Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
629 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​Инфоинженер. Как я делал курс по NLP для МГТУ им. Баумана

Пандемия. Осень. Друг и бывший одногруппник, работающий на кафедре прикладной математики, попросил меня сделать курс по обработке естественного языка для МГТУ имени Баумана. Курс подразумевался быть коротким, около 10 занятий, аудитория — студенты с первого по четвертый курс. Студенты хотели больше знать о том, что их ждет после окончания факультета и чем реально могут заниматься его выпускники. Я вспомнил, что и сам не до конца понимал, в какую сферу податься после диплома, поэтому подумал и согласился.

Читать...
​​Что мы действительно (не)знаем о наличии сознания у сверхбольших нейросетей?

В последнее время чаще стали появляется новости о том, что тот или иной эксперт в области ИИ заявил про появление у машины сознания. То Илья Суцкевер, директор по науке в OpenAI напишет о том, что «может быть, сегодняшние большие нейронные сети немножко обладают сознанием». А то и вовсе инженер Гугла Леймон Блейк найдет у искусственного интеллекта LaMDA разум и сознание и выложит в доказательство диалоги с ним. Резонанс последнего эпизода вообще большой — после объявления о том, что Блека отстранили от работы, а он в свою очередь собирается нанять для ИИ адвоката, разные конспирологические версии появились даже в комментариях на Хабре.

Читать...
​​👨🏻‍💻 3 канала, с помощью которых ты освоишь программирование от А до Я:

Easy Code - настоящий сундук с сокровищами для каждого кодера. Видео-уроки, статьи, шпаргалки, материалы от преподавателей ведущих ВУЗов и многое другое в одном канале.

Просто Python - здесь есть все чтобы упростить тебе изучение Python: интересные библиотеки, функции, советы по написанию кода. Подписывайся, чтобы через пару недель чувствовать себя как рыба в воде!

Просто IT-книги - тысячи бесплатных книг по всем языкам программирования, благодаря которым ты прокачаешь свои скиллы на максимум.
​​Papers, please! Как устроены сервисы по распознаванию лиц для идентификации клиента и проверки документов

В популярной в свое время игре Papers, please! игрок выполняет роль таможенника, проверяющего документы по все более усложняющимся правилам. Главная игровая механика - проверка документов на соответствие всем нормам, таким как верная дата и место выдачи, соответствие имени и фамилии человека на всех документах, срок действия визы, наличие человека в “черных” списках и тому подобное.

Игра привлекла тысячи пользователей по всему миру самобытным стилем и необычной механикой игры, однако для некоторых людей подобная игра показалась бы настоящим кошмаром, ведь в реальной жизни, на своей реальной работе они занимаются тем же самым.

Читать...
​​Решаем задачи машинного обучения с помощью алгоритма градиентного бустинга

Градиентный бустинг (Gradient Boosting) – один из самых эффективных инструментов для решения задач машинного обучения, в особенности на соревнованиях Kaggle. Чтобы научиться правильно его применять, разберем подробнее лежащие в основе алгоритма процессы.

Читать...
​​Новый ИИ проверит лояльность членов компартии Китая

Специалисты из Национального научного центра Хэфэй в Китае разработали искусственный интеллект (ИИ), который может «читать мысли» членов коммунистической партии страны. Новый алгоритм анализирует мимику, реакцию зрачков, мозговые волны и другие показатели, по которым определяет «уровень приемлемости идеологического и политического образования».

Читать...
​​Как обучить нейросеть, если разметка данных стоит как самолет

Искусственный интеллект все чаще используется в медицинских целях, в частности для анализа медицинских изображений. Это прекрасный помощник для врачей-рентгенологов, который позволяет определять даже едва различимые человеческому глазу признаки патологий и вообще разгружает медицинских специалистов за счет автоматизации ряда рутинных задач. 

Читать...
​​Яндекс выложила в Open Source модель генерации теста YaLM-100B

Это крупнейшая на сегодняшний день свободно доступная генеративная модель как для русского, так и для английского языка. Ее обучение заняло больше двух месяцев на 800 видеокартах A100. Исследователи отмечают, что открытый доступ к подобным моделям позволяет сохранить высокие темпы инноваций и технологического развития.

Читать...
​​В VK стартовал набор в Академию больших данных MADE — это бесплатное обучение для специалистов с опытом в разработке. 

👉 Регистрируйтесь до 6 августа: https://vk.cc/ceWkU7

Программа длится один год, но будьте готовы к серьезной нагрузке: занятия займут 25–40 часов в неделю. За это время вы сможете повысить свой профессиональный уровень или освоить новое направление в IT.

Что вас ждёт:
🔹Много практики и работа над реальными проектами.
🔹Преподаватели — ведущие эксперты в области Data Science. Например, несколько дисциплин ведёт Сергей Николенко, автор бестселлера «Глубокое обучение» и создатель курсов в СПбГУ, НИУ ВШЭ и Harbour Space University.
🔹Профессиональное сообщество, где преподаватели, выпускники и слушатели делятся знаниями, общаются и помогают в решении сложных задач.

Для поступления нужно сдать экзамены по математике и программированию, пройти соревнование по машинному обучению и анкетирование.
​​META опубликовала модель для перевода текста на 200 языков

Meta выложила в открытый доступ модель NLLB-200 для перевода текста на 200 языков. Проект «No Language Left Behind» является частью планов Meta по поддержке редко используемых языков и разработке универсального переводчика. Он будет использовать NLLB-200 для улучшения перевода в Facebook, Instagram и, в конечном итоге, в метавселенной.

Читать...
​​Работа в Data Science: что важно знать и как этому научиться

Сегодня словосочетания вроде Data Science, Machine Learning, Artificial Intelligence очень популярны. При этом нередко под ними понимаются довольно разные вещи. Это зачастую смущает и запутывает людей, желающих войти в специальность: трудно разобраться, с чего начать, что действительно нужно, а что необязательно для начала. Не претендуя на общность, расскажем, как это видится на основе десятка лет опыта c решением такого рода задач для крупных клиентов со всего мира (сервис / заказная разработка / аутсорс – подставьте термин по вкусу).


Читать...
​​🗣7 инструментов распознавания речи

Чтобы разработать собственную ML-систему распознавания речи, можно воспользоваться следующими фреймворками и библиотеками:

Читать...
​​Нейрон мне в элерон: суррогатные модели

Статья о том как автор применил нейросети при создании сложных технических систем – приспособили GRU в качестве суррогатной модели для испытаний. Реальный кейс для клиента в рамках реального проекта.

Читать...
​​В Data Science не нужна математика (Почти)

Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит копнуть глубже, оказывается, что это не математика, а вышмат.

В реальной повседневной работе Data Scientist'а я каждый день использую знания математики. Притом очень часто это далеко не «вышмат». Никакие интегралы не считаю, детерминанты матриц не ищу, а нужные хитрые формулы и алгоритмы мне оперативнее просто загуглить.

Решил накидать чек-лист из простых математических приёмов, без понимания которых — тебе точно будет сложно в DS. Если ты только начинаешь карьеру в DS, то тебе будет особенно полезно. Мощь вышмата не принижаю, но для старта всё сильно проще, чем кажется. Важно прочитать до конца!

Читать далее...
​​Инструменты анализа временных рядов в ETNA

Статья про методы EDA в библиотеке ETNA, а также о том, что можно увидеть с их помощью в данных и как использовать для улучшения модели прогнозирования.

Читать...
​​SQL HowTo: наперегонки со временем

В PostgreSQL несложно написать запрос, который уйдет в глубокую рекурсию или просто будет выполняться гораздо дольше, чем нам хотелось бы. Как от этого защититься?

Читать далее...
Англоязычный канал на тему DS и MachineLearning.

👉 Welcome
​​Работа над неразмеченными данными с QGIS и opentripmap на практике

Автор делится интересным опытом работы с неразмеченными данными при помощи открытых ресурсов. К сожалению, из-за подписанного NDA, я не смогу полностью поделиться кодом, но, разумеется, всегда готов помочь в комментариях и личных сообщениях с разрешением какого-либо вопроса по теме.

Читать...
​​Разбор базового решения для задачи определения железнодорожной колеи и подвижного состава с Цифрового Прорыва

В данной статье будет рассмотрен кейс от НИИАС-РЖД, в котором необходимо разработать алгоритм определения железнодорожной колеи и подвижного состава для предотвращения чрезвычайных ситуаций на железной дороге.
Спойлер: в конце статьи есть советы для улучшения базового решения.

Читать...
​​Как мы построили систему онбординга для аналитиков-новичков: подводные камни и полезные приёмы

В новой компании аналитик тратит много времени на изучение данных, с которыми ему предстоит работать. В этой статье автор рассказывает, как мы построили процесс онбординга, чтобы погружение новичка проходило эффективно и безболезненно.

Читать...
​​Нужен ли английский программисту? 

Мы совместно с карьерной платформой Jobby постарались комплексно ответить на этот вопрос и дать вам чёткое понимание, как и где английский используется в программировании. 

Английский программисту однозначно нужен (уровня B1 - B2 будет достаточно) и вот, почему: 

🔹 Функции, переменные, классы и тд нужно также обозначать на английском и желательно, чтобы формулировка была максимально близка к сути функции или класса 

 🔹 English также употребляется, когда строчишь комментарий к коду
 
 🔹 Большая часть документации а также огромная часть крутых обучаюших роликов представлена на английском язык.

 🔹 Значительная часть вакансий - зарубежные, а значит основной язык общения - английский

Код – это такой же международный язык, который должен быть понятен всем.

Кстати, найти работу и применить навыки программирования вам поможет карьерная платформа Jobby!