Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​Стань дата-инженером с Яндекс Практикумом

Сервис онлайн-обучения цифровым профессиям Яндекс Практикум запускает программу обучения по специальности «Инженер данных». Курс предназначен для студентов с как минимум базовым знанием SQL и Python — перед стартом необходимо пройти тест.

Авторы и преподаватели – практикующие эксперты ведущих российских IT-компаний. 

Длительность — 6,5 месяцев. 

Курс на 75% состоит из практических занятий – по окончании программы в вашем портфолио будет не менее 10 проектов.
 
Вы научитесь: 
- работать с технологиями Python, SQL, Metabase, Airflow, PostgreSQL, MongoDB, ClickHouse, Celery, Kafka, Hadoop, Apache Spark, Spark Streaming и Yandex.Cloud
- извлекать, очищать и сохранять данные
- создавать и поддерживать хранилища типов Data Warehouse и Data Lake
- работать со стриминговой обработкой данных и облаками

Претендовать на работу по новой специальности студенты курса смогут уже в ходе обучения – с поиском вакансии помогут специалисты карьерного центра Яндекс Практикум. 

Запись на курс открыта, старт занятий для ближайшего потока студентов – 23 мая. 

Стоимость курса:
95 000 рублей при разовой оплате, при оплате в рассрочку – 17 000 рублей в месяц. 

По завершении программы студенты получат диплом о профессиональной переподготовке. 

Запись на бесплатную вводную часть и подробности по ссылке.
​​ML под ударом: противодействие атакам на алгоритмы машинного обучения

Ежегодно выходят тысячи научных работ об атаках на алгоритмы машинного обучения. Большая часть из них рассказывает о взломе компьютерного зрения, ведь на его примере можно наглядно продемонстрировать последствия атаки. На деле первыми под удар попадают спам-фильтры, классификаторы контента, антивирусные сканеры и системы обнаружения вторжений. Например, достается базе VirusTotal. Туда уже давно пробуют загружать безобидные файлы, которые распознаются, как вредоносные и вызывают цепочки ложных срабатываний.

Читать...
​​Израильский стартап упрощает найм сотрудников с использованием обработки естественного языка

Myinterview – израильский стартап, разрабатывающий инструменты машинного обучения для ускорения и упрощения процессов найма для компаний. Платформа Myinterview расшифровывает видеоинтервью кандидатов, оценивает их навыки и выставляет оценку.
Основатели утверждают, что Myinterview помогает работодателям экономить до 70% времени на найм. Миссия MyInterview состоит в том, чтобы создавать короткие и эффективные воронки найма.

Читать...
​​Аналитик данных с нуля до трудоустройства 

Ключевыми навыками аналитика являются умение собирать, анализировать и презентовать данные. Но где сегодня научиться этим навыкам и освоить основные инструменты аналитики? 

Приглашаем вас на курс «Профессия «Аналитика данных» от Moscow Digital School. Во время обучения вы освоите логические операторы SQL, работу с дашбордами BI, визуализации данных в Python, инструменты Excel и создадите свой аналитический проект. Научитесь строить прогнозы на основе данных и помогать бизнесу принимать решения. 

На курсе вас ждет большой объем практических заданий, а эксперты аналитики будут сопровождать вас на каждом этапе обучение, доступным языком объясняя сложные вещи и отвечая на все ваши вопросы. 

Лучшие студенты получат возможность попасть на стажировку в Ozon, Data Sfera, Agima.

Старт потока: 31 мая 2022.
Скидка 10% на обучение по промокоду: DATASCIENCE
Акция действует 5 дней.
​​На картинке 12 терминов. Сколько из них вы можете объяснить?

Если больше 10 - то вы молодец ✔️
Если меньше - то у вашей карьеры или бизнеса хреновое будущее

Это поправимо. Достаточно 2 минуты в день читать этот канал, который ведут эксперты АНО "Цифровая экономика", и вы быстро войдёте в курс необходимых в 2022 году знаний о цифровизации бизнеса. Как минимум, сможете блеснуть на собеседовании. Как максимум - сможете перезапустить бизнес.

А ещё там подписчикам раздают чек-листы по цифровизации и топовые книги.

Подписывайтесь по этой ссылке: https://news.1rj.ru/str/cdo2day.
​​DATApedia - канал про Data Science, и все что связано с данными, в котором вы найдете:

— Переведенные статьи;
— Полезные видео;
— Интересные опросы;
— Профессиональный юмор;

Присоединяйтесь, давайте расти как профессионалы вместе 😉

Подписаться: @data_science_wiki
​​Зачем бизнесу data science

Встретились как-то продакт с дата-сайентистом в одном офисе и стали выяснять, кто для бизнеса нужнее. Об этом в нашем видеоблоге вышел огромный выпуск, который я решил переделать в статью. Если интересно послушать полный диалог со всеми подробностями – добро пожаловать.

Всем привет! Меня зовут Игорь Уткин, я – дата-сайентист в hh.ru. В этой статье разбираемся: когда компании может понадобиться дата-сайентист, имеет ли собранная модель право на ошибку и как вообще люди уходят в data science. 

Читать...
​​Создание модели машинного обучения с помощью Google Colab без дополнительных настроек

Машинное обучение (МО) сейчас в тренде, поэтому неудивительно, что все компании хотят использовать его для улучшения своих продуктов или услуг. Мы наблюдаем растущий спрос на инженеров в сфере машинного обучения, и такой спрос привлекает внимание специалистов. Однако многим МО может показаться слишком сложным, особенно тем, у кого мало опыта работы с кодом или данными.

Читать...
​​Практические применения генеративных моделей: как мы делали суммаризатор текстов

В последнее время вышло большое количество генеративных моделей для русского языка. Команды Сбера выпустили целое семейство авторегрессионных моделей ruGPT3, ruT5, о которых мы подробно писали ранее. Сегодня мы расскажем, как практически применять обучение таких моделей и какие продукты можно получить на их основе.

Читать...
​​💥 Не пропустите: только что вышла из печати книга «Ценность ваших данных» — титанический труд авторского коллектива компании «Юнидата», в котором аккумулирован обширный опыт международных и российских проектов в области управления данными. 
Это настоящий кладезь информации, связанной данными, на которых строится новый цифровой мир и трансформируется мир прежний. 
Все подробно, четко, структурировано, методологически выверено, и главное — интересно!
👨‍💼👨‍💼👨‍💼 Авторы книги: Сергей Кузнецов, Александр Константинов и Николай Скворцов — не только настоящие профессионалы с многолетним стажем управления данными, но и кураторы выпуска DAMA-DMBOK2 на русском языке — Свода знаний по управлению данными.
Книга будет полезна как начинающим, так и опытным специалистам по управлению данными.
📕 Оставляйте заявки на книгу!
​​Google Imagen: генерация фотореалистичных изображений по описанию

Google представила Imagen — модель, трансформирующую текстовое описание в изображение c разрешением 1024×1024 пикселей. Imagen превзошла OpenAI DALL-E 2 по степени реалистичности изображений.

Читать...
​​Как автоматически переписать текст другими словами, сохранив смысл? Рассказываем про рерайт-сервис

Часто при работе с текстами мы хотим не только выделить главное из больших отрывков, но и переписать текст, сохранив его смысл. В предыдущем посте мы рассказали, как команда SberDevices делала AI Service суммаризатора. Сегодня давайте поговорим про наш опыт создания не просто парафразера, а именно рерайтера текста. В связке эти инструменты могут быть полезны для множества практических задач. Демо обоих сервисов доступны в маркетплейсе AI Services.

Читать...
Самые интересные новости из мира Data Science — дайджест от МТС с комментариями эксперта

В обзоре: 
🔹 модель Contrastive Captioners — наследница CLIP и SimVLM, 
🔸 новая мультимодальная SotA-модель от DeepMind, 
🔹 модель SymphonyNet для генерации симфонической музыки,
🔸 а также о том, что Google Research открыл доступ к своей базе кода для обучения моделей машинного зрения на виртуальных машинах Cloud TPU.

Полезное и интересное чтиво тут.
​​Система распознавания шрифта Брайля. Читаем написанное белым по белому

В 2018 году мы взяли из детдома в семью слепую девочку Анжелу. Тогда я думал, что это чисто семейное обстоятельство, никак не связанное с моей профессией разработчика систем компьютерного зрения. Но благодаря дочери через два года появилась программа и интернет-сервис для распознавания текстов, написанных шрифтом Брайля - Angelina Braille Reader.

Сейчас этот сервис используют сотни людей и в России, и за ее пределами. Тема оказалась хайповой, сюжет о программе даже показали в федеральных новостях на ТВ. Но что важнее - за свою многолетнюю карьеру в ИТ ни в одном проекте я не получал столько искренних благодарностей от пользователей.
Ниже расскажу о том, как делалась эта разработка и с какими трудностями пришлось столкнуться. Более развернутое описание приведено в публикациях [1,2].
Возможно, кто-то захочет внести в проект свой вклад.

Читать...
​​LAION-5B: НОВАЯ ЭРА ОТКРЫТЫХ КРУПНОМАСШТАБНЫХ МУЛЬТИМОДАЛЬНЫХ НАБОРОВ ДАННЫХ

LAION-5B — датасет пар изображение-текст, собранных в Интернете. LAION-5B содержит более 5 миллиардов пар, что делает его крупнейшим среди аналогичных датасетов.

Читать...
​​Яндекс Практикум ищет наставников на курсы по Data Science и Аналитик данных

Ждём специалистов с такими навыками:
▪️Python для анализа данных;
▪️библиотеки pandas, NumPy, Matplotlib, sklearn;
▪️основы математического анализа, линейной алгебры, теории вероятности и статистики.
▪️Мы также ценим опыт преподавания и наставничества.

Мы предлагаем:
→ Частичную занятость.
→ Доход от 30 000 ₽ в месяц.
→ Удалённую работу с гибким графиком от 8 часов в неделю.
→ Сильный опыт менторства: научим давать развивающую обратную связь начинающим аналитикам, работать с критикой и возращениями и учить их совершенствовать проекты.
→ Бесплатное обучение в Школе наставников.
→ Доступ к курсу Практикума по Data Science или Аналитик данных и скидки на остальные курсы.
→ Углубление знаний и развитие софт скиллов.

Помогайте новичкам развиваться и учитесь сами — каждый день. Если вам интересно поработать с нами — оставьте заявку.
​​Deepmind представила универсальную модель Gato

DeepMind представила кросс-модальную универсальную модель с 1.2 миллиардами параметров Gato. Gato может выполнять более 600 задач, таких как воспроизведение видеоигр, создание субтитров к изображениям и управление роботами.

Подробнее тут...
​​Mastercard запустила тестирование оплаты по биометрии

Mastercard начала тестирование программы для розничных магазинов, предлагающей оплату покупок с помощью распознавания лиц или сканирования отпечатков пальцев. Компания планирует в ближайшие годы развернуть новую схему оплаты на весь мир и использовать технологию в метавселенных.

Подробнее...
​​Бесплатные университетские ресурсы по науке о данных

Тут перечислены БЕСПЛАТНЫЕ ресурсы и заметки по науке о данных, доступные в Интернете, некоторые из которых предоставляются лучшими университетами мира.

Читать...
🔥Подпишись на канал @Selectel, там мы каждую неделю:

— Рассказываем о продуктах и языках программирования
— Публикуем обзоры и тесты нового «железа»
— Делимся лайфхаками, новостями и рабочими инструментами

🚀 Переходи, чтобы получать контент одним из первых! 

→ https://news.1rj.ru/str/Selectel/2642
​​Собираем генератор данных на Blender. Часть 1: Объекты

Автор работает в компании Friflex над проектами по оцифровке спорта. Работая над idChess (приложением для распознавания и аналитики шахматных партий), мы расширяем наш датасет синтетическими данными. В качестве движка используем Blender. В этой статье рассмотрим основы взаимодействия с объектами, получение доступа через API, перемещение, масштабирование и вращение.

Читать...