Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​Российский рынок технологий с голосовыми решениями на базе ИИ достигнет $561 млн в 2025 году.

SmartSpeech — подобная разработка от команды Сбера.

Что умеет?
Распознавать речь: фильтрует шумы, понимает, закончена фраза или нет, какие эмоции у говорящего.
Синтезировать речь, в том числе на английском – говорить естественно, менять тон и тембр, правильно произносить ё. Не путается при произношении сложных адресов и названий.

Где использовать?
Для превращения аудио в текст и наоборот, для озвучки интерфейсов, автоответов по телефону, голосового управления, в том числе с использованием голосовых помощников.

Как протестировать?
На что способен SmartSpeech в части распознавания речи, можно посмотреть с помощью бесплатного Telegram-бота. Его назначение — конвертировать голосовые сообщения и другие аудиофайлы в текст. 

Для кого подходит?
Особенно оценят специалисты, которые работают со словом. Для бизнеса бот — отличный способ познакомиться с возможностями умной технологии SmartSpeech
​​Почему я ушел из Netflix с позиции разработчика с окладом 450000$

Перевод статьи Michael Lin. Ссылка на оригинал

Читать перевод на хабре...
​​За считанные годы криптовалюты стали частью современного мира и используются для самых разных целей в том числе для инвестирования. Команда Николая Валиотти на канале LEFT JOIN не даёт советы с точки зрения инвесторов, зато они написали скрипты для обработки данных, которые помогают получать нужную информацию о валютах и быстро обрабатывать информацию на бирже инструментами аналитики данных, чтобы принимать взвешенные решения.

Об этом и многом другом вы можете узнать на канале LEFT JOIN. Подписывайтесь!
Forwarded from inDrive.Tech
​​📈 Как оценить изменения в технологическом продукте с помощью данных?

Этому посвящена англоязычная статья дата-сайентиста inDriver Николая Неустроева на Medium. В материале вы найдете подробное описание и примеры 9 экспериментальных и квази-экспериментальных методов для анализа данных.

Статья поможет понять, какой метод анализа данных выбрать, в зависимости от ситуации и ресурсов.
​​Стань дата-инженером с Яндекс Практикумом

Сервис онлайн-обучения цифровым профессиям Яндекс Практикум запускает программу обучения по специальности «Инженер данных». Курс предназначен для студентов с как минимум базовым знанием SQL и Python — перед стартом необходимо пройти тест.

Авторы и преподаватели – практикующие эксперты ведущих российских IT-компаний. 

Длительность — 6,5 месяцев. 

Курс на 75% состоит из практических занятий – по окончании программы в вашем портфолио будет не менее 10 проектов.
 
Вы научитесь: 
- работать с технологиями Python, SQL, Metabase, Airflow, PostgreSQL, MongoDB, ClickHouse, Celery, Kafka, Hadoop, Apache Spark, Spark Streaming и Yandex.Cloud
- извлекать, очищать и сохранять данные
- создавать и поддерживать хранилища типов Data Warehouse и Data Lake
- работать со стриминговой обработкой данных и облаками

Претендовать на работу по новой специальности студенты курса смогут уже в ходе обучения – с поиском вакансии помогут специалисты карьерного центра Яндекс Практикум. 

Запись на курс открыта, старт занятий для ближайшего потока студентов – 23 мая. 

Стоимость курса:
95 000 рублей при разовой оплате, при оплате в рассрочку – 17 000 рублей в месяц. 

По завершении программы студенты получат диплом о профессиональной переподготовке. 

Запись на бесплатную вводную часть и подробности по ссылке.
​​ML под ударом: противодействие атакам на алгоритмы машинного обучения

Ежегодно выходят тысячи научных работ об атаках на алгоритмы машинного обучения. Большая часть из них рассказывает о взломе компьютерного зрения, ведь на его примере можно наглядно продемонстрировать последствия атаки. На деле первыми под удар попадают спам-фильтры, классификаторы контента, антивирусные сканеры и системы обнаружения вторжений. Например, достается базе VirusTotal. Туда уже давно пробуют загружать безобидные файлы, которые распознаются, как вредоносные и вызывают цепочки ложных срабатываний.

Читать...
​​Израильский стартап упрощает найм сотрудников с использованием обработки естественного языка

Myinterview – израильский стартап, разрабатывающий инструменты машинного обучения для ускорения и упрощения процессов найма для компаний. Платформа Myinterview расшифровывает видеоинтервью кандидатов, оценивает их навыки и выставляет оценку.
Основатели утверждают, что Myinterview помогает работодателям экономить до 70% времени на найм. Миссия MyInterview состоит в том, чтобы создавать короткие и эффективные воронки найма.

Читать...
​​Аналитик данных с нуля до трудоустройства 

Ключевыми навыками аналитика являются умение собирать, анализировать и презентовать данные. Но где сегодня научиться этим навыкам и освоить основные инструменты аналитики? 

Приглашаем вас на курс «Профессия «Аналитика данных» от Moscow Digital School. Во время обучения вы освоите логические операторы SQL, работу с дашбордами BI, визуализации данных в Python, инструменты Excel и создадите свой аналитический проект. Научитесь строить прогнозы на основе данных и помогать бизнесу принимать решения. 

На курсе вас ждет большой объем практических заданий, а эксперты аналитики будут сопровождать вас на каждом этапе обучение, доступным языком объясняя сложные вещи и отвечая на все ваши вопросы. 

Лучшие студенты получат возможность попасть на стажировку в Ozon, Data Sfera, Agima.

Старт потока: 31 мая 2022.
Скидка 10% на обучение по промокоду: DATASCIENCE
Акция действует 5 дней.
​​На картинке 12 терминов. Сколько из них вы можете объяснить?

Если больше 10 - то вы молодец ✔️
Если меньше - то у вашей карьеры или бизнеса хреновое будущее

Это поправимо. Достаточно 2 минуты в день читать этот канал, который ведут эксперты АНО "Цифровая экономика", и вы быстро войдёте в курс необходимых в 2022 году знаний о цифровизации бизнеса. Как минимум, сможете блеснуть на собеседовании. Как максимум - сможете перезапустить бизнес.

А ещё там подписчикам раздают чек-листы по цифровизации и топовые книги.

Подписывайтесь по этой ссылке: https://news.1rj.ru/str/cdo2day.
​​DATApedia - канал про Data Science, и все что связано с данными, в котором вы найдете:

— Переведенные статьи;
— Полезные видео;
— Интересные опросы;
— Профессиональный юмор;

Присоединяйтесь, давайте расти как профессионалы вместе 😉

Подписаться: @data_science_wiki
​​Зачем бизнесу data science

Встретились как-то продакт с дата-сайентистом в одном офисе и стали выяснять, кто для бизнеса нужнее. Об этом в нашем видеоблоге вышел огромный выпуск, который я решил переделать в статью. Если интересно послушать полный диалог со всеми подробностями – добро пожаловать.

Всем привет! Меня зовут Игорь Уткин, я – дата-сайентист в hh.ru. В этой статье разбираемся: когда компании может понадобиться дата-сайентист, имеет ли собранная модель право на ошибку и как вообще люди уходят в data science. 

Читать...
​​Создание модели машинного обучения с помощью Google Colab без дополнительных настроек

Машинное обучение (МО) сейчас в тренде, поэтому неудивительно, что все компании хотят использовать его для улучшения своих продуктов или услуг. Мы наблюдаем растущий спрос на инженеров в сфере машинного обучения, и такой спрос привлекает внимание специалистов. Однако многим МО может показаться слишком сложным, особенно тем, у кого мало опыта работы с кодом или данными.

Читать...
​​Практические применения генеративных моделей: как мы делали суммаризатор текстов

В последнее время вышло большое количество генеративных моделей для русского языка. Команды Сбера выпустили целое семейство авторегрессионных моделей ruGPT3, ruT5, о которых мы подробно писали ранее. Сегодня мы расскажем, как практически применять обучение таких моделей и какие продукты можно получить на их основе.

Читать...
​​💥 Не пропустите: только что вышла из печати книга «Ценность ваших данных» — титанический труд авторского коллектива компании «Юнидата», в котором аккумулирован обширный опыт международных и российских проектов в области управления данными. 
Это настоящий кладезь информации, связанной данными, на которых строится новый цифровой мир и трансформируется мир прежний. 
Все подробно, четко, структурировано, методологически выверено, и главное — интересно!
👨‍💼👨‍💼👨‍💼 Авторы книги: Сергей Кузнецов, Александр Константинов и Николай Скворцов — не только настоящие профессионалы с многолетним стажем управления данными, но и кураторы выпуска DAMA-DMBOK2 на русском языке — Свода знаний по управлению данными.
Книга будет полезна как начинающим, так и опытным специалистам по управлению данными.
📕 Оставляйте заявки на книгу!
​​Google Imagen: генерация фотореалистичных изображений по описанию

Google представила Imagen — модель, трансформирующую текстовое описание в изображение c разрешением 1024×1024 пикселей. Imagen превзошла OpenAI DALL-E 2 по степени реалистичности изображений.

Читать...
​​Как автоматически переписать текст другими словами, сохранив смысл? Рассказываем про рерайт-сервис

Часто при работе с текстами мы хотим не только выделить главное из больших отрывков, но и переписать текст, сохранив его смысл. В предыдущем посте мы рассказали, как команда SberDevices делала AI Service суммаризатора. Сегодня давайте поговорим про наш опыт создания не просто парафразера, а именно рерайтера текста. В связке эти инструменты могут быть полезны для множества практических задач. Демо обоих сервисов доступны в маркетплейсе AI Services.

Читать...
Самые интересные новости из мира Data Science — дайджест от МТС с комментариями эксперта

В обзоре: 
🔹 модель Contrastive Captioners — наследница CLIP и SimVLM, 
🔸 новая мультимодальная SotA-модель от DeepMind, 
🔹 модель SymphonyNet для генерации симфонической музыки,
🔸 а также о том, что Google Research открыл доступ к своей базе кода для обучения моделей машинного зрения на виртуальных машинах Cloud TPU.

Полезное и интересное чтиво тут.
​​Система распознавания шрифта Брайля. Читаем написанное белым по белому

В 2018 году мы взяли из детдома в семью слепую девочку Анжелу. Тогда я думал, что это чисто семейное обстоятельство, никак не связанное с моей профессией разработчика систем компьютерного зрения. Но благодаря дочери через два года появилась программа и интернет-сервис для распознавания текстов, написанных шрифтом Брайля - Angelina Braille Reader.

Сейчас этот сервис используют сотни людей и в России, и за ее пределами. Тема оказалась хайповой, сюжет о программе даже показали в федеральных новостях на ТВ. Но что важнее - за свою многолетнюю карьеру в ИТ ни в одном проекте я не получал столько искренних благодарностей от пользователей.
Ниже расскажу о том, как делалась эта разработка и с какими трудностями пришлось столкнуться. Более развернутое описание приведено в публикациях [1,2].
Возможно, кто-то захочет внести в проект свой вклад.

Читать...
​​LAION-5B: НОВАЯ ЭРА ОТКРЫТЫХ КРУПНОМАСШТАБНЫХ МУЛЬТИМОДАЛЬНЫХ НАБОРОВ ДАННЫХ

LAION-5B — датасет пар изображение-текст, собранных в Интернете. LAION-5B содержит более 5 миллиардов пар, что делает его крупнейшим среди аналогичных датасетов.

Читать...
​​Яндекс Практикум ищет наставников на курсы по Data Science и Аналитик данных

Ждём специалистов с такими навыками:
▪️Python для анализа данных;
▪️библиотеки pandas, NumPy, Matplotlib, sklearn;
▪️основы математического анализа, линейной алгебры, теории вероятности и статистики.
▪️Мы также ценим опыт преподавания и наставничества.

Мы предлагаем:
→ Частичную занятость.
→ Доход от 30 000 ₽ в месяц.
→ Удалённую работу с гибким графиком от 8 часов в неделю.
→ Сильный опыт менторства: научим давать развивающую обратную связь начинающим аналитикам, работать с критикой и возращениями и учить их совершенствовать проекты.
→ Бесплатное обучение в Школе наставников.
→ Доступ к курсу Практикума по Data Science или Аналитик данных и скидки на остальные курсы.
→ Углубление знаний и развитие софт скиллов.

Помогайте новичкам развиваться и учитесь сами — каждый день. Если вам интересно поработать с нами — оставьте заявку.
​​Deepmind представила универсальную модель Gato

DeepMind представила кросс-модальную универсальную модель с 1.2 миллиардами параметров Gato. Gato может выполнять более 600 задач, таких как воспроизведение видеоигр, создание субтитров к изображениям и управление роботами.

Подробнее тут...