Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20K subscribers
621 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
Всем привет!
Мы сделали сервис, который отбирает вакансии по вашим интересам.
Настройте личные фильтры: локация, точный технологический стек, и, конечно, не забудьте о деньгах.

Все самые подходящие предложения рынка – в @GetMeIT_bot
​​Парсинг Instagram в промышленных масштабах

Статья о том как можно и нужно парсить огромную социальную платформу как Instagram.

статья
​​Автоматически генерируем стикеры для Телеграма из фото плакатов в интернет-магазине

В этой статье я расскажу, как я автоматически генерировал 42 стикера для Телеграма на основе изображений из интернет-магазина плакатов. На сайте продаются плакаты с разными забавными надписями, но соответствующих стикеров в Телеграме нет. Попробуем сделать сами. Единственная проблема состоит в следующем: чтобы сделать один стикер, нужно скачать фотографию плаката с сайта, отделить надпись от фона в фотошопе и сохранить в нужном разрешении, чтобы она соответствовала требованиям телеграма к стикерам. Поскольку изображений 42, это муторное и трудоемкое занятие.

Давайте автоматизируем.
Нейроканал — новый Telegram-канал, авторы которого собирают лучшие материалы по искусственному интеллекту, машинной обучению, нейронным сетям и другим темам из этой области.

Подключайтесь: @neuro_channel
​​🐦 BigBird от Google: еще одна важная веха в NLP?

Разбираемся, что такое Google BigBird, какие задачи она может решать, и насколько она важна для отрасли.

Статья
​​process mining: 100 строк кода и генератор логов у нас в руках

Заступая на территорию proccess mining, каждый участник рано или поздно будет нуждаться в наборе логов событий, отражающих те или иные специфические моменты в процессах. Эти логи нужны как на этапе демонстрации решения, подсвечивания определенных вопросов, так и для отработки алгоритмов или же тестов на производительность. Оба рекомендуемых сценария «взять с продуктивных систем» или «взять из интернета» терпят фиаско. Как правило, это очень
малые датасеты, слабо удовлетворяющие потребностям как по наполнению, так и по объему.

Статья
​​Как мы планируем работу над проектами в R&D

Задач и идей у нас всегда хватало, желания работать тоже хоть отбавляй, но с менеджментом и координацией были проблемы.

Статья
​​Как принципы ResponsibleAI помогают ML-моделям работать по максимуму?

С помощью ML-моделей сегодня выдают кредиты, регулируют движение на дорогах, определяют цены на товары и многое другое. Однако, процесс их разработки и вывода в продуктивную среду сложен и полон подводных камней. Очень часто качество прогноза, основанного на реальных данных, не соответствует ожиданиям пользователей.

Статья
Каково значение arr[1].length в следующем массиве?

int[][] arr = { {1, 2, 3, 4, 5}, { 6, 7, 8, 9, 10} };
Anonymous Quiz
43%
5
20%
10
14%
1
23%
2
Европейская компания DataWorkshop не так давно запустила свой канал, в котором делится последними событиями из мира Machine Learning.

DataWorkshop регулярно запускает различные образовательные программы по ML, на которых обучилось уже более 10 000 участников из разных стран.

Если вы искали, где можно получить практику в ML на реальных данных, без воды и где сложные вещи объясняются простым языком - вам точно к ним.

Тем более, что в эти выходные они запускают бесплатный (для первой 1000 записавшихся) интенсив по прогнозированию цен на автомобили с помощью ML. Поспешите!

Подробности по ссылке в их канале.
​​🤖 Практическое руководство по NLP: изучаем классификацию текстов с помощью библиотеки fastText

Рассматриваем практическое применение supervised NLP модели fastText для обнаружения сарказма в новостных заголовках.
Статья
3 Крутых языка для Big Data

Python
Да, 39% набрал один из самых крутых языков программирования, который совсем не случайно оказался популярен и среди людей, работающих с обработкой больших потоков данных. В некотором роде это компромисс между изощренностью R и лёгкостью, которую дарит язык Python. Его популярность обосновывается как раз отсутствием необходимости применения идеальных алгоритмов в угоду возможности включать в работу группу программистов, не имеющих специальных навыков. Если вы хотите начать изучать этот язык, рекомендуем пройти наш онлайн-интесив по питону.

Julia
Язык, который возник совсем недавно, но уже попал на радары всех специалистов Big Data. Он прост и масштабируем, как Python, при этом эффективен, как R. Пока язык Julia молод, ему не хватает мелких доработок, библиотек и элементарной человеческой поддержки, но сомнений в его безоблачном будущем практически нет.

Scala
Если вы никогда ранее не слышали об этом языке, то можете просто ознакомиться со статистическими данными ,чтобы понять насколько успешен сегодня и насколько перспективен завтра будет Scala. Java-подобный язык может быть развёрнут под веб и платформу Android. Но главное его преимущество заключается в удобстве и гибкости, которые не дадут вам многие другие языки из Big Data. Twitter, Siemens и LinkedIn подтверждают.
Фронтам на заметку: весь код уже написан.

Чтобы быть спецом, не нужно изобретать велосипед. Просто берёте готовый код, редачите под себя и вуаля – он работает.

А где брать такие заготовки?

На канале Frontender’s notes.

Внутри полезные фичи для работы с кодом, готовые подборки кода с описанием и статьи-советы, которые сэкономят часы нервов каждому фронтендщику.

Вы знаете, что делать - Frontender’s notes
​​Как мы улучшали процесс загрузки товаров на AliExpress.ru: машинное обучение, проблемы и решения

Статья
​​process mining: 100 строк кода и генератор логов у нас в руках

Продакт-менеджерам посвящается...
Заступая на территорию proccess mining, каждый участник рано или поздно будет нуждаться в наборе логов событий, отражающих те или иные специфические моменты в процессах. Эти логи нужны как на этапе демонстрации решения, подсвечивания определенных вопросов, так и для отработки алгоритмов или же тестов на производительность. Оба рекомендуемых сценария «взять с продуктивных систем» или «взять из интернета» терпят фиаско. Как правило, это очень
малые датасеты, слабо удовлетворяющие потребностям как по наполнению, так и по объему.

статья
Всем привет! Если вам по работе необходима или просто интересна сфера Баз Данных, добро пожаловать на канал Базы данных & SQL
Здесь ежедневно выкладывают обучающие материалы, новости и статьи о СУБД, языках запроса, методах сбора и обработке данных, которые будут полезны как для новичков, так и для опытных специалистов.

Материалы для знакомства с каналом:
° Учимся применять оконные функции
° Автоматизация отчётности при помощи SQL и Power BI
° Как подружить Python и базы данных SQL

Подписаться: @db_in_it
Forwarded from Рестарт
#новости

ICPC объявил о том, что на деловую программу Финала в Москве можно будет попасть бесплатно.

На ней будут проходить лекции и мастер-классы от спикеров топовых компаний: Huawei, Jet Brains, Мегафон, 1С и другие.

Расскажут как получить работу в крупной корпорации, зачем технарям развивать soft skills и как строить карьеру в IT.

Мероприятие пройдет 1-2 октября в Манеже, чтобы попасть на него бесплатно нужно просто зарегистрироваться.

GIT
​​Как классифицировать данные без разметки

Пользователи iFunny ежедневно загружают в приложение около 100 000 единиц контента, среди которого не только мемы, но и расизм, насилие, порнография и другие недопустимые вещи.

Статья
​​Чем рука робота лучше вашей, или Автоматизация контроля качества на производстве

Закройте глаза и представьте себя в цехах большого завода. Пусть это будет производство вакцин в ампулах. А вы, как и еще 70 человек, заняты тем, что целыми днями просматриваете ампулы, чтобы отобрать дефектные. И так весь день… Сколько ампул с малейшими отклонениями от нормы вы бы не заметили? Задачу усложняет то, что дефектом считается не только неправильная запайка, но и едва заметная точка на дне ампулы. Можете ли вы быть на 100% уверены, что не пропустили ни одного дефекта?

Статья
⁉️Как выстраивать системы мониторинга и логирования, чтобы они приносили пользу проекту?

🔥Научитесь работать с ключевыми инструментами: Zabbix, Prometheus, ELK и Grafana на онлайн-курсе OTUS.

📚За 3 месяца практики вы построите собственную систему мониторинга и логирования и сможете быстро определять причины инцидентов.
Программа ориентирована на админов и DevOps-инженеров, которые работают с десятками и сотнями серверов.

👉Проходите вступительный тест, чтобы занять место по спец.цене: https://otus.pw/FgHQs/

📌Хотите больше узнать о программе курса, формате обучения и преподавателях? Регистрируйтесь на Demo Day курса 11 Октября: https://otus.pw/vc0V/

Регистрируйтесь сейчас — напомним перед вебинаром!
​​CatBoost 1.0.0

Опубликованная в 2017 году библиотека получила первую «production ready» версию. Ускорение, поддержка Spark, multilabel-классификация и даже открытая документация — обо всём этом рассказывается подробнее в статье разработчиков на Хабре. 

Статья