Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​На картинке 12 терминов. Сколько из них вы можете объяснить?

Если больше 10 - то вы молодец ✔️
Если меньше - то у вашей карьеры или бизнеса хреновое будущее

Это поправимо. Достаточно 2 минуты в день читать этот канал, который ведут эксперты АНО "Цифровая экономика", и вы быстро войдёте в курс необходимых в 2022 году знаний о цифровизации бизнеса. Как минимум, сможете блеснуть на собеседовании. Как максимум - сможете перезапустить бизнес.

А ещё там подписчикам раздают чек-листы по цифровизации и топовые книги.

Подписывайтесь по этой ссылке: https://news.1rj.ru/str/cdo2day.
​​DATApedia - канал про Data Science, и все что связано с данными, в котором вы найдете:

— Переведенные статьи;
— Полезные видео;
— Интересные опросы;
— Профессиональный юмор;

Присоединяйтесь, давайте расти как профессионалы вместе 😉

Подписаться: @data_science_wiki
​​Зачем бизнесу data science

Встретились как-то продакт с дата-сайентистом в одном офисе и стали выяснять, кто для бизнеса нужнее. Об этом в нашем видеоблоге вышел огромный выпуск, который я решил переделать в статью. Если интересно послушать полный диалог со всеми подробностями – добро пожаловать.

Всем привет! Меня зовут Игорь Уткин, я – дата-сайентист в hh.ru. В этой статье разбираемся: когда компании может понадобиться дата-сайентист, имеет ли собранная модель право на ошибку и как вообще люди уходят в data science. 

Читать...
​​Создание модели машинного обучения с помощью Google Colab без дополнительных настроек

Машинное обучение (МО) сейчас в тренде, поэтому неудивительно, что все компании хотят использовать его для улучшения своих продуктов или услуг. Мы наблюдаем растущий спрос на инженеров в сфере машинного обучения, и такой спрос привлекает внимание специалистов. Однако многим МО может показаться слишком сложным, особенно тем, у кого мало опыта работы с кодом или данными.

Читать...
​​Практические применения генеративных моделей: как мы делали суммаризатор текстов

В последнее время вышло большое количество генеративных моделей для русского языка. Команды Сбера выпустили целое семейство авторегрессионных моделей ruGPT3, ruT5, о которых мы подробно писали ранее. Сегодня мы расскажем, как практически применять обучение таких моделей и какие продукты можно получить на их основе.

Читать...
​​💥 Не пропустите: только что вышла из печати книга «Ценность ваших данных» — титанический труд авторского коллектива компании «Юнидата», в котором аккумулирован обширный опыт международных и российских проектов в области управления данными. 
Это настоящий кладезь информации, связанной данными, на которых строится новый цифровой мир и трансформируется мир прежний. 
Все подробно, четко, структурировано, методологически выверено, и главное — интересно!
👨‍💼👨‍💼👨‍💼 Авторы книги: Сергей Кузнецов, Александр Константинов и Николай Скворцов — не только настоящие профессионалы с многолетним стажем управления данными, но и кураторы выпуска DAMA-DMBOK2 на русском языке — Свода знаний по управлению данными.
Книга будет полезна как начинающим, так и опытным специалистам по управлению данными.
📕 Оставляйте заявки на книгу!
​​Google Imagen: генерация фотореалистичных изображений по описанию

Google представила Imagen — модель, трансформирующую текстовое описание в изображение c разрешением 1024×1024 пикселей. Imagen превзошла OpenAI DALL-E 2 по степени реалистичности изображений.

Читать...
​​Как автоматически переписать текст другими словами, сохранив смысл? Рассказываем про рерайт-сервис

Часто при работе с текстами мы хотим не только выделить главное из больших отрывков, но и переписать текст, сохранив его смысл. В предыдущем посте мы рассказали, как команда SberDevices делала AI Service суммаризатора. Сегодня давайте поговорим про наш опыт создания не просто парафразера, а именно рерайтера текста. В связке эти инструменты могут быть полезны для множества практических задач. Демо обоих сервисов доступны в маркетплейсе AI Services.

Читать...
Самые интересные новости из мира Data Science — дайджест от МТС с комментариями эксперта

В обзоре: 
🔹 модель Contrastive Captioners — наследница CLIP и SimVLM, 
🔸 новая мультимодальная SotA-модель от DeepMind, 
🔹 модель SymphonyNet для генерации симфонической музыки,
🔸 а также о том, что Google Research открыл доступ к своей базе кода для обучения моделей машинного зрения на виртуальных машинах Cloud TPU.

Полезное и интересное чтиво тут.
​​Система распознавания шрифта Брайля. Читаем написанное белым по белому

В 2018 году мы взяли из детдома в семью слепую девочку Анжелу. Тогда я думал, что это чисто семейное обстоятельство, никак не связанное с моей профессией разработчика систем компьютерного зрения. Но благодаря дочери через два года появилась программа и интернет-сервис для распознавания текстов, написанных шрифтом Брайля - Angelina Braille Reader.

Сейчас этот сервис используют сотни людей и в России, и за ее пределами. Тема оказалась хайповой, сюжет о программе даже показали в федеральных новостях на ТВ. Но что важнее - за свою многолетнюю карьеру в ИТ ни в одном проекте я не получал столько искренних благодарностей от пользователей.
Ниже расскажу о том, как делалась эта разработка и с какими трудностями пришлось столкнуться. Более развернутое описание приведено в публикациях [1,2].
Возможно, кто-то захочет внести в проект свой вклад.

Читать...
​​LAION-5B: НОВАЯ ЭРА ОТКРЫТЫХ КРУПНОМАСШТАБНЫХ МУЛЬТИМОДАЛЬНЫХ НАБОРОВ ДАННЫХ

LAION-5B — датасет пар изображение-текст, собранных в Интернете. LAION-5B содержит более 5 миллиардов пар, что делает его крупнейшим среди аналогичных датасетов.

Читать...
​​Яндекс Практикум ищет наставников на курсы по Data Science и Аналитик данных

Ждём специалистов с такими навыками:
▪️Python для анализа данных;
▪️библиотеки pandas, NumPy, Matplotlib, sklearn;
▪️основы математического анализа, линейной алгебры, теории вероятности и статистики.
▪️Мы также ценим опыт преподавания и наставничества.

Мы предлагаем:
→ Частичную занятость.
→ Доход от 30 000 ₽ в месяц.
→ Удалённую работу с гибким графиком от 8 часов в неделю.
→ Сильный опыт менторства: научим давать развивающую обратную связь начинающим аналитикам, работать с критикой и возращениями и учить их совершенствовать проекты.
→ Бесплатное обучение в Школе наставников.
→ Доступ к курсу Практикума по Data Science или Аналитик данных и скидки на остальные курсы.
→ Углубление знаний и развитие софт скиллов.

Помогайте новичкам развиваться и учитесь сами — каждый день. Если вам интересно поработать с нами — оставьте заявку.
​​Deepmind представила универсальную модель Gato

DeepMind представила кросс-модальную универсальную модель с 1.2 миллиардами параметров Gato. Gato может выполнять более 600 задач, таких как воспроизведение видеоигр, создание субтитров к изображениям и управление роботами.

Подробнее тут...
​​Mastercard запустила тестирование оплаты по биометрии

Mastercard начала тестирование программы для розничных магазинов, предлагающей оплату покупок с помощью распознавания лиц или сканирования отпечатков пальцев. Компания планирует в ближайшие годы развернуть новую схему оплаты на весь мир и использовать технологию в метавселенных.

Подробнее...
​​Бесплатные университетские ресурсы по науке о данных

Тут перечислены БЕСПЛАТНЫЕ ресурсы и заметки по науке о данных, доступные в Интернете, некоторые из которых предоставляются лучшими университетами мира.

Читать...
🔥Подпишись на канал @Selectel, там мы каждую неделю:

— Рассказываем о продуктах и языках программирования
— Публикуем обзоры и тесты нового «железа»
— Делимся лайфхаками, новостями и рабочими инструментами

🚀 Переходи, чтобы получать контент одним из первых! 

→ https://news.1rj.ru/str/Selectel/2642
​​Собираем генератор данных на Blender. Часть 1: Объекты

Автор работает в компании Friflex над проектами по оцифровке спорта. Работая над idChess (приложением для распознавания и аналитики шахматных партий), мы расширяем наш датасет синтетическими данными. В качестве движка используем Blender. В этой статье рассмотрим основы взаимодействия с объектами, получение доступа через API, перемещение, масштабирование и вращение.

Читать...
​​Приглашаем на вебинар Как управлять поведением клиента. Готовое решение на Loginom

🔵Привлекать новых клиентов дороже, чем удерживать старых. Однако бизнес должен работать в обоих направлениях сразу: с новыми и старыми клиентами. Это обеспечивает устойчивость сбыта и стабильные доходы

🟣9 июня 2022 года, в 16:00 мск на вебинаре наши партнеры, компания Reshape Analytics, на практическом примере продемонстрируют готовые аналитические инструменты для управления системой лояльности и расскажут:

🔹Что интересует клиентов
🔹Каковы их приоритеты
🔹Что является критерием эффективности работы с клиентами
🔹Как критерии вовлеченности и лояльности влияют на поведение клиентов и каким образом их отслеживать
🔹Какие показатели клиентской аналитики важны в первую очередь
🔹Как автоматизировать процесс анализа на Loginom
 
Спикер: Вартан Геворгов
Партнер Reshape Analytics

Участие бесплатное, предварительная регистрация обязательна и доступна по ссылке
​​Собираем генератор данных на Blender. Часть 2: Камера

В предыдущей статье мы рассмотрели работу с объектами на Blender. Но для того, чтобы создать минимально жизнеспособный генератор, нужно разобраться в том, как работают камеры.

Читать...
​​Как с помощью Python создать полностью автоматизированную трейдинговую систему на базе ИИ

Можно ли с помощью ИИ автоматизировать набор правил, по которым действуют на бирже профессиональные трейдеры? Команда VK Cloud Solutions перевела статью о том, как это удалось реализовать и что вышло из такой затеи.

Читать...
​​Анализируем речь с помощью Python: Как и о чем говорят на YouTube-канале «вДудь»?

Дисклеймер номер один: 18+. В этой статье присутствует ненормативная лексика, так как некоторые гости Юрия не стесняются в выражениях. Мы не хотим никого задеть или оскорбить чьи-то чувства, присутствие мата объясняется лишь объектом нашего исследования. 

Выход практически каждого ролика на канале «вДудь» считается событием, а некоторые из этих релизов даже сопровождаются скандалами из-за неосторожных высказываний его гостей.

Сегодня при помощи статистических подходов и алгоритмов ML мы будем анализировать прямую речь. В качестве данных используем интервью, которые журналист Юрий Дудь (признан иностранным агентом на территории РФ) берет для своего YouTube-канала. Посмотрим с помощью Python, о чем таком интересном говорили в интервью на канале «вДудь».

Читать статью...