NEW BOT Телеграм, страница

Channel created

15:26

Для начала – хорошая вводная статья, как представляется текст для языковой модели.
https://towardsdatascience.com/word-subword-and-character-based-tokenization-know-the-difference-ea0976b64e17

Medium

Word, Subword, and Character-Based Tokenization: Know the Difference

The differences that anyone working on an NLP project should know

5 views15:26

bugs ans letters

Для начала – хорошая вводная статья, как представляется текст для языковой модели. #ml #nlp #tokenization
https://towardsdatascience.com/word-subword-and-character-based-tokenization-know-the-difference-ea0976b64e17

6 viewsedited 15:27

bugs ans letters

В продолжение предыдущей статьи. Рассказ в деталях про BPE (byte pair encoding) – один из наиболее распространённых и очень универсальный способ представления текста #ml #nlp #tokenization
https://towardsdatascience.com/byte-pair-encoding-subword-based-tokenization-algorithm-77828a70bee0

Medium

Byte-Pair Encoding: Subword-based tokenization algorithm

Understand subword-based tokenization algorithm used by state-of-the-art NLP models — Byte-Pair Encoding (BPE)

6 viewsedited 15:37

bugs ans letters

Зрелый рассказ про механизмы настройки генерации в GPT-2 – по которым она обходит более крупные модели от EleutherAI (например, GPT-J, с которой было связано определённое количество моих личных надежд)
https://towardsdatascience.com/conditional-text-generation-by-fine-tuning-gpt-2-11c1a9fc639d

Medium

Conditional Text Generation by Fine Tuning GPT-2

Given a noscript and a list of keywords, would GPT-2 be able to generate convincing fake news?

6 views15:38

bugs ans letters

MLOps в радикальном виде: https://habr.com/ru/company/tinkoff/blog/669480/
Мне не близка жёсткая формализация всех процессов, но сама суть “работает – коммить” абсолютно правильна.
Из плюсов рассказа – в Тинькоффе есть весьма жирные модели, нередко MLOps хорошо работает, когда разработчики пилят однотипные модельки для схожих данных для задач классического ML, и перестают работать с жирными языковыми моделями, у которых меняется архитектура (а нередко даже тип) #mlops #russian

Хабр

Как мы подходим к поддержке ML-моделей в синтезе речи

Всем привет! Меня зовут Александра Сорока, я занимаюсь синтезом речи в Tinkoff Voicekit. А это — мой текст о том, зачем вообще думать о долгосрочной поддержке кода и ML-моделей. Я расскажу, почему мы...

6 views15:40

bugs ans letters

Довольно бесполезная верхнеуровневая статья про разработку #voicerecognition бота от Сбера на #habr. Тем не менее, зацепила обзором процесса от начала до конца. #russian
https://habr.com/ru/company/sberdevices/blog/658575/

Хабр

Бесплатный Telegram-бот для расшифровки аудио. Рассказываем кратко, как мы его сделали

Команда SberDevices запустила бесплатный бот в Telegram, который конвертирует русскоязычные голосовые сообщения и аудиофайлы в текстовый формат. Бот работает на основе технологии распознавания речи...

6 viewsedited 15:43

bugs ans letters

Очень годный курс-читшит по #NLP
https://lena-voita.github.io/nlp_course.html
Курс теоретический, писать код, тем более промышленный, он не научит, но в нём собраны ссылки на все ключевые публикации по теме (и совсем немного ссылок малополезных), картинки просто шикарные. Вкупе с желанием найти код для каждой заинтересовавшей методики может помочь заботать обработку текстов за месяц.

lena-voita.github.io

NLP Course | For You

Natural Language Processing course with interactive lectures-blogs, research thinking exercises and related papers with summaries. Also a lot of fun inside!

8 views15:53

bugs ans letters

Мало кто будет читать оригинальную статью про #gpt3, но она вводит основную концепцию применения подобных моделей – дообучение на крайне небольших выборках
https://arxiv.org/abs/2005.14165

6 views15:56

bugs ans letters

Немного в сторону.
Очевидно, разработка промышленных решений для NLP-задач требует подумать, куда и как их деплоить. С учётом сложности и производительности подобных моделей их имеет смысл резервировать путём запуска на кластере. Одним из наиболее распространённых механизмов организации кластера уже несколько лет является #Kubernetes.
@lexfrei мне некоторое время назад продал курс https://kodekloud.com/courses/certified-kubernetes-application-developer-ckad/ , задача которого – рассказать разработчику приложений, как ему учесть эту особенность, продумать архитектуру приложения и не мешать оптимальной выкатке кода на кластер.
Сертификацию по итогам можно пройти здесь: https://www.cncf.io/certification/ckad/

Kodekloud

Certified Kubernetes Application Developer (CKAD) Course | KodeKloud

course by KodeKloud. Learn with our interactive labs and personalized guidance that prepares you for real jobs complete with labs, quizzes, and mock exams.

14 views16:07

bugs ans letters

Абсолютно в сторону: не самая плохая модель для детектирования лица
https://github.com/clcarwin/SFD_pytorch

GitHub

GitHub - clcarwin/SFD_pytorch: A PyTorch Implementation of Single Shot Scale-invariant Face Detector.

A PyTorch Implementation of Single Shot Scale-invariant Face Detector. - GitHub - clcarwin/SFD_pytorch: A PyTorch Implementation of Single Shot Scale-invariant Face Detector.

8 views09:04

About

Blog

Apps

Platform