Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​Практические применения генеративных моделей: как мы делали суммаризатор текстов

В последнее время вышло большое количество генеративных моделей для русского языка. Команды Сбера выпустили целое семейство авторегрессионных моделей ruGPT3, ruT5, о которых мы подробно писали ранее. Сегодня мы расскажем, как практически применять обучение таких моделей и какие продукты можно получить на их основе.

Читать...
​​💥 Не пропустите: только что вышла из печати книга «Ценность ваших данных» — титанический труд авторского коллектива компании «Юнидата», в котором аккумулирован обширный опыт международных и российских проектов в области управления данными. 
Это настоящий кладезь информации, связанной данными, на которых строится новый цифровой мир и трансформируется мир прежний. 
Все подробно, четко, структурировано, методологически выверено, и главное — интересно!
👨‍💼👨‍💼👨‍💼 Авторы книги: Сергей Кузнецов, Александр Константинов и Николай Скворцов — не только настоящие профессионалы с многолетним стажем управления данными, но и кураторы выпуска DAMA-DMBOK2 на русском языке — Свода знаний по управлению данными.
Книга будет полезна как начинающим, так и опытным специалистам по управлению данными.
📕 Оставляйте заявки на книгу!
​​Google Imagen: генерация фотореалистичных изображений по описанию

Google представила Imagen — модель, трансформирующую текстовое описание в изображение c разрешением 1024×1024 пикселей. Imagen превзошла OpenAI DALL-E 2 по степени реалистичности изображений.

Читать...
​​Как автоматически переписать текст другими словами, сохранив смысл? Рассказываем про рерайт-сервис

Часто при работе с текстами мы хотим не только выделить главное из больших отрывков, но и переписать текст, сохранив его смысл. В предыдущем посте мы рассказали, как команда SberDevices делала AI Service суммаризатора. Сегодня давайте поговорим про наш опыт создания не просто парафразера, а именно рерайтера текста. В связке эти инструменты могут быть полезны для множества практических задач. Демо обоих сервисов доступны в маркетплейсе AI Services.

Читать...
Самые интересные новости из мира Data Science — дайджест от МТС с комментариями эксперта

В обзоре: 
🔹 модель Contrastive Captioners — наследница CLIP и SimVLM, 
🔸 новая мультимодальная SotA-модель от DeepMind, 
🔹 модель SymphonyNet для генерации симфонической музыки,
🔸 а также о том, что Google Research открыл доступ к своей базе кода для обучения моделей машинного зрения на виртуальных машинах Cloud TPU.

Полезное и интересное чтиво тут.
​​Система распознавания шрифта Брайля. Читаем написанное белым по белому

В 2018 году мы взяли из детдома в семью слепую девочку Анжелу. Тогда я думал, что это чисто семейное обстоятельство, никак не связанное с моей профессией разработчика систем компьютерного зрения. Но благодаря дочери через два года появилась программа и интернет-сервис для распознавания текстов, написанных шрифтом Брайля - Angelina Braille Reader.

Сейчас этот сервис используют сотни людей и в России, и за ее пределами. Тема оказалась хайповой, сюжет о программе даже показали в федеральных новостях на ТВ. Но что важнее - за свою многолетнюю карьеру в ИТ ни в одном проекте я не получал столько искренних благодарностей от пользователей.
Ниже расскажу о том, как делалась эта разработка и с какими трудностями пришлось столкнуться. Более развернутое описание приведено в публикациях [1,2].
Возможно, кто-то захочет внести в проект свой вклад.

Читать...
​​LAION-5B: НОВАЯ ЭРА ОТКРЫТЫХ КРУПНОМАСШТАБНЫХ МУЛЬТИМОДАЛЬНЫХ НАБОРОВ ДАННЫХ

LAION-5B — датасет пар изображение-текст, собранных в Интернете. LAION-5B содержит более 5 миллиардов пар, что делает его крупнейшим среди аналогичных датасетов.

Читать...
​​Яндекс Практикум ищет наставников на курсы по Data Science и Аналитик данных

Ждём специалистов с такими навыками:
▪️Python для анализа данных;
▪️библиотеки pandas, NumPy, Matplotlib, sklearn;
▪️основы математического анализа, линейной алгебры, теории вероятности и статистики.
▪️Мы также ценим опыт преподавания и наставничества.

Мы предлагаем:
→ Частичную занятость.
→ Доход от 30 000 ₽ в месяц.
→ Удалённую работу с гибким графиком от 8 часов в неделю.
→ Сильный опыт менторства: научим давать развивающую обратную связь начинающим аналитикам, работать с критикой и возращениями и учить их совершенствовать проекты.
→ Бесплатное обучение в Школе наставников.
→ Доступ к курсу Практикума по Data Science или Аналитик данных и скидки на остальные курсы.
→ Углубление знаний и развитие софт скиллов.

Помогайте новичкам развиваться и учитесь сами — каждый день. Если вам интересно поработать с нами — оставьте заявку.
​​Deepmind представила универсальную модель Gato

DeepMind представила кросс-модальную универсальную модель с 1.2 миллиардами параметров Gato. Gato может выполнять более 600 задач, таких как воспроизведение видеоигр, создание субтитров к изображениям и управление роботами.

Подробнее тут...
​​Mastercard запустила тестирование оплаты по биометрии

Mastercard начала тестирование программы для розничных магазинов, предлагающей оплату покупок с помощью распознавания лиц или сканирования отпечатков пальцев. Компания планирует в ближайшие годы развернуть новую схему оплаты на весь мир и использовать технологию в метавселенных.

Подробнее...
​​Бесплатные университетские ресурсы по науке о данных

Тут перечислены БЕСПЛАТНЫЕ ресурсы и заметки по науке о данных, доступные в Интернете, некоторые из которых предоставляются лучшими университетами мира.

Читать...
🔥Подпишись на канал @Selectel, там мы каждую неделю:

— Рассказываем о продуктах и языках программирования
— Публикуем обзоры и тесты нового «железа»
— Делимся лайфхаками, новостями и рабочими инструментами

🚀 Переходи, чтобы получать контент одним из первых! 

→ https://news.1rj.ru/str/Selectel/2642
​​Собираем генератор данных на Blender. Часть 1: Объекты

Автор работает в компании Friflex над проектами по оцифровке спорта. Работая над idChess (приложением для распознавания и аналитики шахматных партий), мы расширяем наш датасет синтетическими данными. В качестве движка используем Blender. В этой статье рассмотрим основы взаимодействия с объектами, получение доступа через API, перемещение, масштабирование и вращение.

Читать...
​​Приглашаем на вебинар Как управлять поведением клиента. Готовое решение на Loginom

🔵Привлекать новых клиентов дороже, чем удерживать старых. Однако бизнес должен работать в обоих направлениях сразу: с новыми и старыми клиентами. Это обеспечивает устойчивость сбыта и стабильные доходы

🟣9 июня 2022 года, в 16:00 мск на вебинаре наши партнеры, компания Reshape Analytics, на практическом примере продемонстрируют готовые аналитические инструменты для управления системой лояльности и расскажут:

🔹Что интересует клиентов
🔹Каковы их приоритеты
🔹Что является критерием эффективности работы с клиентами
🔹Как критерии вовлеченности и лояльности влияют на поведение клиентов и каким образом их отслеживать
🔹Какие показатели клиентской аналитики важны в первую очередь
🔹Как автоматизировать процесс анализа на Loginom
 
Спикер: Вартан Геворгов
Партнер Reshape Analytics

Участие бесплатное, предварительная регистрация обязательна и доступна по ссылке
​​Собираем генератор данных на Blender. Часть 2: Камера

В предыдущей статье мы рассмотрели работу с объектами на Blender. Но для того, чтобы создать минимально жизнеспособный генератор, нужно разобраться в том, как работают камеры.

Читать...
​​Как с помощью Python создать полностью автоматизированную трейдинговую систему на базе ИИ

Можно ли с помощью ИИ автоматизировать набор правил, по которым действуют на бирже профессиональные трейдеры? Команда VK Cloud Solutions перевела статью о том, как это удалось реализовать и что вышло из такой затеи.

Читать...
​​Анализируем речь с помощью Python: Как и о чем говорят на YouTube-канале «вДудь»?

Дисклеймер номер один: 18+. В этой статье присутствует ненормативная лексика, так как некоторые гости Юрия не стесняются в выражениях. Мы не хотим никого задеть или оскорбить чьи-то чувства, присутствие мата объясняется лишь объектом нашего исследования. 

Выход практически каждого ролика на канале «вДудь» считается событием, а некоторые из этих релизов даже сопровождаются скандалами из-за неосторожных высказываний его гостей.

Сегодня при помощи статистических подходов и алгоритмов ML мы будем анализировать прямую речь. В качестве данных используем интервью, которые журналист Юрий Дудь (признан иностранным агентом на территории РФ) берет для своего YouTube-канала. Посмотрим с помощью Python, о чем таком интересном говорили в интервью на канале «вДудь».

Читать статью...
​​Открытые алгоритмы Твиттер, к чему это приведет?

Илон Маск заявил, что намерен открыть алгоритмы Twitter и превратить соц. сеть в модель с открытым исходным кодом. Если это произойдет, любой желающий сможет их изучать или использовать в своих целях. Мы (дата-сайнтисты из центра машинного обучения «Инфосистемы Джет») решили пофантазировать, какие возможности дает открытие алгоритмов. А у вас есть мнение на этот счет? Давайте попробуем предсказывать будущее!

Читать...
​​Как живется в США «айтишнику». Три года спустя

Всем привет, меня зовут Виктор. Мне 32 года, 12 из которых работаю "в айти". Начинал с простого сисадмина подай-принеси в Ульяновске, по окончании универа продолжил карьеру в Москве и вот оказался тут. Пока не женат, живу с местной девушкой, которую встретил на просторах Америки. Карьерный путь начал с поддержки инфраструктуры, после получения MBA попробовал себя в менеджменте, потом ушел в разработку изучать пайплайны и скрам и теперь вот снова вернулся в инфраструктуру в позиции тим лида, применяю свой опыт менеджера, но уже с новыми скиллами, все в рамках своей специализации, которая сейчас именуется максимально широким словом DevOps. Никакого специального блога о переезде не вел и это будет мой первый большой обзор своего опыта проживания тут.

Читать...

#longread #relocation
​​Как стать хорошим техлидом

В 2006 году Яндекс и Google приехали в Петербург в Borland, который сокращал команду. Обе компании одновременно открывали в Петербурге свои офисы на его базе. Тогда к нам пришли замечательные ребята. Мы много общались, но больше всего запомнились слова Толи Орлова. Он сказал, что рост Яндекса на тот момент ограничивает только количество лидов, которые бы могли развивать продукты. Что роли техлида и тимлида очень существенны, и часто рост компании зависит только от наличия сильных лидеров. Тогда мне и захотелось узнать, как им стать.

Читать...

#longread #career
​​ИИ может определять расу людей по рентгеновским снимкам, и ученые в шоке

Новые исследования показывают, что нейросети способны определить расу любого человека по его рентгеновским снимкам. Что было бы совершенно невозможно для врача-человека, смотрящего на те же изображения.
Группа ученых из США, Тайваня и Канады опубликовала свою работу в журнале The Lancet Digital Health.

Читать...