bugs ans letters – Telegram
bugs ans letters
18 subscribers
34 photos
3 videos
3 files
135 links
Мой канал для себя про NLP. В основном – помойка из ссылок.
Download Telegram
Channel created
Для начала – хорошая вводная статья, как представляется текст для языковой модели. #ml #nlp #tokenization
https://towardsdatascience.com/word-subword-and-character-based-tokenization-know-the-difference-ea0976b64e17
В продолжение предыдущей статьи. Рассказ в деталях про BPE (byte pair encoding) – один из наиболее распространённых и очень универсальный способ представления текста #ml #nlp #tokenization
https://towardsdatascience.com/byte-pair-encoding-subword-based-tokenization-algorithm-77828a70bee0
Зрелый рассказ про механизмы настройки генерации в GPT-2 – по которым она обходит более крупные модели от EleutherAI (например, GPT-J, с которой было связано определённое количество моих личных надежд)
https://towardsdatascience.com/conditional-text-generation-by-fine-tuning-gpt-2-11c1a9fc639d
MLOps в радикальном виде: https://habr.com/ru/company/tinkoff/blog/669480/
Мне не близка жёсткая формализация всех процессов, но сама суть “работает – коммить” абсолютно правильна.
Из плюсов рассказа – в Тинькоффе есть весьма жирные модели, нередко MLOps хорошо работает, когда разработчики пилят однотипные модельки для схожих данных для задач классического ML, и перестают работать с жирными языковыми моделями, у которых меняется архитектура (а нередко даже тип) #mlops #russian
Очень годный курс-читшит по #NLP
https://lena-voita.github.io/nlp_course.html
Курс теоретический, писать код, тем более промышленный, он не научит, но в нём собраны ссылки на все ключевые публикации по теме (и совсем немного ссылок малополезных), картинки просто шикарные. Вкупе с желанием найти код для каждой заинтересовавшей методики может помочь заботать обработку текстов за месяц.
Мало кто будет читать оригинальную статью про #gpt3, но она вводит основную концепцию применения подобных моделей – дообучение на крайне небольших выборках
https://arxiv.org/abs/2005.14165
Немного в сторону.
Очевидно, разработка промышленных решений для NLP-задач требует подумать, куда и как их деплоить. С учётом сложности и производительности подобных моделей их имеет смысл резервировать путём запуска на кластере. Одним из наиболее распространённых механизмов организации кластера уже несколько лет является #Kubernetes.
@lexfrei мне некоторое время назад продал курс https://kodekloud.com/courses/certified-kubernetes-application-developer-ckad/ , задача которого – рассказать разработчику приложений, как ему учесть эту особенность, продумать архитектуру приложения и не мешать оптимальной выкатке кода на кластер.
Сертификацию по итогам можно пройти здесь: https://www.cncf.io/certification/ckad/
Forwarded from Oleg Ur: ("⁧;("
Для начала (читать в фоне)
- https://www.cs101.com - как устроены эти считающие железки
- https://vk.com/wall-101965347_168131 - примерно оно же, единая книга. Можно в бумажном виде.
- https://habr.com/ru/post/664360/ - тебе придётся писать скрипты. Даже простейшая задача на фильтрацию или сортировку может быть решена разными способами.

Читать и практиковаться
- Обязательно освоить консоль и не то что не бояться её, а хотеть туда перейти – потому что графическая морда может быть любая, а консоль даже при переходе с Linux на BSD и QNX похожа: https://ubuntu.com/tutorials/command-line-for-beginners#1-overview
- опционально – пройти vimtutor (http://www2.geog.ucl.ac.uk/~plewis/teaching/unix/vimtutor). Он не обязателен и вряд ли ты с ним будешь работать, но поставить его можно куда угодно (хоть на малину, хоть на 486 комп), он весьма мощный, а главное – умея с ним хоть как-то работать, ты поймёшь, что делать с машиной, которая от тебя за три пизды фаерволла
- обязательно – https://www.freecodecamp.org/news/the-docker-handbook/ (поставить и возиться. Как выяснилось, Костя тоже не вполне понимает, как дебажить, если из докера внутри Linux-системы в виртуалке не пробрасывается 8080 порт. Вчера полтора часа убили, хотя и весело)

Потом, для понимания, зачем ты это всё делаешь и как тебе поддерживать чужие системы (можно вечерами во время работы): https://sre.google/books/