Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
628 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​Все, что нужно знать об ALBERT, RoBERTa и DistilBERT

Обзор различий и сходств различных трансформеров BERT из библиотеки Hugging Face и как их использовать.

👉 Читать перевод...
👉 Читать оригинал...
​​Решение задачи определения границ предложений

В последнее время в Data Science сообществе фокус исследований сместился в сторону качества данных. Если еще пару лет назад большинство специалистов утверждали, что при использовании подходящих алгоритмов проблему можно решить достаточно хорошо, то сейчас большое внимание уделяют оценке качества данных.

Читать...
​​Рецепт готовки Apache Kafka: как создавался Data Lake на 80 Тb

Kafka позволит вам грамотно организовать работу с большим массивом данных, но в процессе может подкинуть проблем. Иногда придется устроить танцы с бубном, чтобы программа продолжила работать, а не рухнула в момент запуска.

Читать...
​​Самые интересные нейросети открытого доступа

К началу 2020-х годов нейросети успели с переднего края научных разработок проникнуть в сферу общедоступных интернет-развлечений. В наши дни каждый может поэкспериментировать с генерацией текстов или изображений, сгенерировать фотореалистичного человека или кота, превратить набросок качества paint — во вполне сносный пейзаж, и всё такое прочее. И в некоторых случаях даже без регистрации и СМС (ну или почти без оных).

Читать...
Wunder Fund: проект для Python разработчика / Data engineer 🔥

Мы в wunderfund.io занимаемся высокочастотной торговлей на бирже (HFT) с 2014 года, активно используем машинное обучение. Сейчас мы торгуем на 12 биржах по всему миру и наш дневной оборот больше $4 млрд. 

И у нас много данных.

Ищем Питон-разработчиков в команду:

🛠 Вы будете разрабатывать парсеры биржевых данных и программы для надежного их сохранения. Будете развивать автоматический пайплайн ежедневной обработки этих сохраненных данных.

👺 Идеальный человек хорошо знает Python, уже строил пайплайны на Luigi/Airflow/etc и выкатывал их продакшн, работал с облачными платформами.

👾 У нас сильная команда и развитая инженерная культура. Вот небольшое видео с рассказом нашего СТО о том, как устроена работа и вообще — https://youtu.be/662q9FVqp50
А вот более подробное описание вакансии (https://wunderfund.io/jobs/data-eng).

Платим от 200 до 400к в месяц ($3k — $7k). В особых случаях больше, договоримся. 

Контакт @nedifar1703
Многих молодых аналитиков, и не только их, работа с исследованиями уводит в темные дебри поиска проблем, планирования, итераций, выводов, а про презентацию результатов и вовсе забывают. Самое досадное случается, когда все потраченные усилия уходят «в стол». И это далеко не редкость для бизнеса.

В последнем кейсе на Хабре аналитик из Delivery Club поделился подходом их команды по работе с исследованиями. Из статьи вы узнаете, почему так важен подготовительный этап, а в конце вас ждет чек-лист основных действий.
​​Как не перестать быть data driven из-за data driften, или Пару слов о дрейфе данных

Нестабильная экономическая ситуация значительно влияет почти на все сферы жизни общества и бизнеса. Меняется потребительское поведение, производственные и логистические цепочки, закупочные цены, доступность огромного количества товаров и услуг и даже состав конкурентов на рынке. Конечно, это не может не сказаться на качестве многих моделей машинного обучения, поскольку они были обучены на исторических данных, которые уже не актуальны. Это явление известно как дрейф данных или дрейф концепции и оно является основной причиной деградации модели с течением времени. Сейчас особенно полезно знать о методах детекции дрейфа и борьбы с его последствиями, ведь когда данные дрейфуют, прогнозы будут ошибочными, а решения, принятые на основе этих прогнозов, могут негативно влиять на бизнес.

Читать...
​​Самое время начать карьеру в IT-сфере! Участвуйте в бесплатном интенсиве с 18 по 20 августа в 16:00 по московскому времени. Обучитесь новой профессии — 1С-разработчик. 

Регистрируйтесь: 👉 https://clc.to/Y2J2Mg.

👨‍💻 Познакомитесь с платформой 1С и её основными объектами. Создадите базу для торгового предприятия и на её примере поймёте, что 1С — это легко.

💼 К концу интенсива подготовите проект, который станет первым кейсом в вашем портфолио разработчика.

🎁 Всем участникам подарим чек-лист о создании баз данных в 1С и электронную книгу Пола Доэрти и Джеймса Уилсона «Человек + машина» издательства МИФ. Участвуйте, задавайте вопросы и получите сертификат на 10 000 рублей на любой курс Skillbox.
​​Раскрашивание изображений с использованием нейронных сетей

DeOldify — это проект, основанный на глубоком обучении, для раскрашивания и восстановления изображений. Модель использует архитектуру NoGAN для обучения модели.

Мы будем использовать эту модель, чтобы преобразовать некоторые старые черно-белые фотографии, добавив к ним цвет.

Читать...
​​NLP. Проект по распознаванию адресов. Natasha, Pullenti, Stanza

Многие аналитики данных сталкиваются с задачей распознавания адресов, напечатанных на документах. Для решения этой задачи я обратился к инструментам выявления сущностей в тексте с помощью NLP: NLTK, Spacy, Flair, DeepPavlov, Polyglot, AdaptNLP, Stanza, AllenNLP, HanLP, PullEnti, Natasha и т. д. Глаза начали разбегаться. И что же делать? Конечно, выбрать самое лучшее. Я выбрал несколько самых популярных библиотек, поддерживающих русский язык, и сравнил, кукую же из них использовать — Natasha, Stanza и Pullenti. Далее пойдет речь именно об этих библиотеках.

Читать...
​​Найти работу в айти можно 2 методами:

Первый. Бесконечно скроллить HeadHunter и пытаться что-то выклевать на LinkedIN. Офигеть от условий и закрыть.

Второй. Подписаться на Python Job. Это база адекватных предложений, где даже для новичков много мест с хорошей з/п.

Тут найдете работу как в Яндексе (именно сюда крупняки присылают вакансии напрямую), так и в молодых стартапах!

В общем, не теряйте времени и находите работу в 2 клика: @job_python
​​Я нанял AI иллюстратора в свой стартап

И кажется мы оставим его в штате...

Читать...
​​В IT в 30. Как я стал solo Kaggle Grandmaster, устроился на работу, но так и не стал программистом

В этом году мне исполнилось 30 лет, а также случилось много событий, в том числе и позитивных. Во первых, я устроился на вторую в жизни работу(и первую в айти), а во вторых, стал грандмастером. Это сложный путь, на котором было несколько ключевых решений, которые привели меня к себе нынешнему. О нём я и поделюсь далее, начав с детства.

Читать...
​​Хотите получить профессию и стать junior-специалистом по Data Science за 9 месяцев?

31 августа начинается программа «Профессия Data Scientist» На ней вы получите знания и наработаете навыки junior-специалиста с хорошей базой для роста в middle.

Data Scientist — востребованная профессия помогающая бизнесу превращать мёртвые данные в прибыль, поэтому она высоко оплачивается и junior может зарабатывать от 100 000 рублей в месяц.

Программа состоит из 3-х курсов:
— «Python и инструменты машинного обучения»
— «Математика для анализа данных»
— «Методы анализа данных и машинного обучения»

Уже после первого курса вы получите первое удостоверение от МФТИ, некоторым нашим студентам этого хватает, чтобы устроится в крупную компанию на позицию джуниора.

После обучения вы получите:
✔️ Диплом о профессиональной переподготовке МФТИ, который выделит ваше резюме для HR-специалистов и руководителей.
✔️ Готовый первый проект для портфолио. Проекты выполняются самостоятельно под руководством преподавателей курсов и позволяют закрепить весь спектр знаний и навыков, полученных на программе.
✔️ Индивидуальные консультации по трудоустройству от нашего карьерного специалиста.
✔️ Поддержку от сообщества и преподавателей.

По промокоду GADS скидка 5% на программу «Профессия Data Scientist», записывайтесь и начинайте строить карьеру в Big Data! https://fpmi-edu.ru/datascience?utm_source=telegram&utm_medium=partner&utm_campaign=gapartner
​​Нейронные сети для начинающих. [2 части]

На хабре было множество публикаций по данной теме, но все они говорят о разных вещах. Автор решил собрать всё в одну кучку и рассказать людям.

👉 Решение задачи классификации Ирисов Фишера
👉 NumPy. MatplotLib. Операции с изображениями в OpenCV
​​Теория графов как метод раннего выявления болезни Альцгеймера

Древнеримский врач Гален был одним из первых, кто осознал, что именно мозг управляет моторными реакциями, когнитивными функциями и памятью. Но как именно мозг контролирует эти процессы?

Читать...
​​Приветствую!

Неплохой канал для тех кому нравится регулярно решать задачки на Python.

Добро пожаловать! https://news.1rj.ru/str/python_tesst
​​Теория алгоритма лежащего в основе разума

Здесь описан алгоритм мозга, который с небольшими вариациями управляет разнообразными мыслительными процессами и все наше мышление есть по сути его комбинации. Я предполагаю, что он соответствует созданному эволюцией алгоритму разума, так как он простой и универсальный. Проявления этого алгоритма участвуют, как в распознавании картинки, так и в мышлении.

Читать...
​​Почему ИИ так актуален в банковской сфере? 
Узнай на лекции от Газпромбанка уже 25 августа  

Подробнее о лекции:
Где: в Zoom
Во сколько: в 18:00 (по МСК)
Спикер: Адель Валиуллин, начальник отдела искусственного интеллекта Газпромбанка
Что узнаем: почему искусственный интеллект (AI) сегодня так актуален, в каких сферах применяется, какие задачи решаются в банке на основе AI и, конечно, что нужно знать для построения карьеры в data science и AI

Встречаемся 25 августа, регистрируйся по ссылке - https://vk.cc/cfSGCw
​​Прогнозирование спроса: как СберМаркет прогнозирует, что вы закажете вечером в пятницу

Когда вы заказываете продукты к пятничному ужину, мы должны быть уверены, что для доставки хватит сборщиков и курьеров. Поэтому мы прогнозируем число заказов в каждом магазине с точностью до часа. В статье — как мы это сделали на данных, которые устаревают уже за 3 месяца.

Читать...
​​Это телефонный разговор: как мы учили модели прогнозировать успех звонка из банка

Кто-то гадает по звёздам и кофе, кто-то — по фото, а нам в банке пришлось обучить модель предсказания по телефонным звонкам. А заодно пройтись по граблям обработки текстов и звука, выяснить, какие фичи можно извлечь из аудио, как привлечь ML и прикрутить к нему нейросеть, — и сделать всё на основе opensource. 

В прошлом году банк доверил мне провести исследование аудиоданных для целей collection. Если вам интересно, чем может быть полезна правильно обученная модель, анализирующая звонки и прогнозирующая их исход, что использовать для её обучения, с какими сложностями можно столкнуться в процессе и как их обойти, заглядывайте в статью.

Читать...