bugs ans letters – Telegram
bugs ans letters
18 subscribers
34 photos
3 videos
3 files
135 links
Мой канал для себя про NLP. В основном – помойка из ссылок.
Download Telegram
Ладно, раз я уж пытаюсь казаться MLOps-ом-самозванцем – придётся оправдываться.
- Базовая статья про системы управления версиями для программистов, которые полезли в данные
- Настройка DVC + MLFlow (нет, не надо так делать в реальности, через год убьётесь дальше мигрировать, за год наобучать пару терабайт данных – раз плюнуть)
#mlops #лытдыбр
Мне очень нравится подход Shazam: у них, по-видимому, есть две модели, онлайновая быстрая и точная медленная. Большинство запросов обрабатывает онлайновая, но если она не распознаёт трек – он отправляется в очередь медленной, которая когда-нибудь отдаёт результат и мы получаем We tried again and found…
Притом база для обучения обеих, кажется, одинаковая, но точная имеет больше информации на входе – вероятно, там меньше жёстких фильтров и больше магии со свёртками.
Любителям Generative Fill в Photoshop: Google зарелизил модель, очень достойно справляющуюся с этой задачей.
Обёрнута в JAX, посему завести локально – некоторая возня, впрочем, вполне предсказуемая и однотипная.
Forwarded from Dr. Boris
oxml.zip
61.1 MB
украл для вас презы с первых двух дней OxML
http://www.incompleteideas.net/IncIdeas/BitterLesson.html
https://horace.io/brrr_intro.html
#философия
tl;dr – не один и не два исследователя расстраиваются, что численные методы зачастую лучше работают на больших данных, чем эвристики. На примере NLP-задач – большая модель с правильным токенизатором уже лет десять работает лучше правил и эвристик от лингвистов.
Впрочем, это, возможно, не так плохо: до этого тысячи лет наука дробилась и рождала всё новые направления на стыке технологий, может быть, пора чуть прибраться?
Forwarded from Empires Burn
О цензуре в генеративных ИИ: интереснейший материал о том почему важно иметь неподцензурные модели и как удалять фильтры из существующих моделей


https://erichartford.com/uncensored-models
Огромная (до 16В) модель T5, разработанная для задач дополнения кода и, кажется, способная потягаться с DaVinci от OpenAI.
К вопросу о тестовых заданиях в Яндекс и производные.
https://academy.yandex.ru/dataschool/stepbystep
Forwarded from SIGSEGV DREC
О компиляторах

Тут в чате написали вопрос про тему, в которой я не профессионал, так что... Отвечу, но это будет самый субъективный мяу в истории канала.

Подборка от коллег в целом и Павла Советова в частности наверняка содержит рекомендации лучше, но... Мяу...

X. Курс Ильи Дединского. Который я до конца не прошёл, но по большей части выполнил. Возможно, расскажу потом о задачах подробнее. Но... Он эксклюзивно для МФТИ, теперь ещё не для всех факультетов.

Y. DragonBook. Произвела не самое лучше впечатление и коллегами не рекомендуется (о чём я узнал поздно). На мой взгляд читать можно, так как положения в ней достаточно общие, что позволяет им не стареть. Но КПД этого действия не всегда достаточно высок.

Z. Конструирование компиляторов, Никлаус Вирт. Читана полностью, что несложно ввиду размера. Достаточно похожий на пункт X подход, в котором основы показываются на компиляторе сравнительно реалистичного языка в код для языковой виртуальной RISC-машины. Главный минус — Оберон в качестве языка изложения. Сказать, что это отвратительно — ничего не сказать. Требует переработки или хотя бы дополнения листингами на языке вроде C.

Θ. Engineering a compiler. Читаю сейчас, довольно приятная книга с современным, но в то же время достаточно общим подходом. Из минусов только объём и отсутствие перевода, но мы можем смириться с таким положением дел.

В общих чертах мой опыт в теоретических основах таков.
Давно надо было запостить. Статья про формат ProRAW, плавно перетекающая в историю вычислительной фотографии с спин-оффами, как оно вообще работает, сколько кадров и в какой битности было снято вашим телефоном (в том числе до нажатия на кнопку, ну или тапа по экрану, если кнопки нет) для получения одного кадра.
#cv #proraw
Выскажу штуку за которую меня будут бить коллеги по цеху, но она имеет смысл, по меньшей мере для меня самого.
Когда у меня много ГПУ, я смотрю что утилизация под 100, ничего не течёт, не просидает - живём короче. Но любые истории про подумать: например когда модель не работает должным образом или явно хуже чем должна я могу тупо залить компьютом - воткнуть больше эпох, больше модель, пролить больше данных.

Для мозга и менеджера это очень понятное решение, они явно должно работать.

Это напоминает планиметрию:
В школе были такие люди которые решали любую планиметрию на трех теоремах - не ну построим три доп окружности, посчитаем систему уравнений, бумаги много ща все решим.

В DL так тоже можно, ВСЁ текущее поколение LM основано на этом - давайте фильтранем данные умнее, давайте прокрутим больше токенов и больше модель.

Текущие ресерчи архитектур скорее мертвы чем живы, полтора китайца ковыряют rwkv, но без особых успехов и это печально.

Не думаю что для ближайшего поколения моделей правила скейлинга изменяться, но уже сейчас надо внимательно изучать альтернативные лоссы, структуры функций и почему трансформеры так работают.

https://horace.io/brrr_intro.html
Forwarded from F0RTHSP4CE
CS 285 (DRL Berkely Course Seminars)
16:00 PM Sunday, 15 October
📍 F0RTHSP4CE, Janashia 11/18, upper floor

There is fancy course about Deep Reinforcement Learning.
Deep Reinforcement Learning is about how to get dimond in Minecraft by learning agents with deep neural networks.
This events are seminars to achive some understanding of this secret knowledge. On the first lectures we study lectures 4 and 5 (Inroduction and Policy Gradients) (1, 2, 3 will be some prerequisites homework)

Give like if you want to come.

Есть такой фенси курс по глубокому обучению с подкреплением.
Deep Reinforcement Learning это про то, как достать алмаз в Майнкрафте обучая агентов с помощью нейронных сетей.
Мы попытаемся постичь это тайное знание. Первые лекции будут под номерами 4 и 5 (Inroduction and Policy Gradients)

Ставьте лайки, кто хочет прийти.

by @metya
Language: EN | RU
Entrance: free, optional donation to hackerspace
Host: @metya
Forwarded from Connectable Jobs (Irina Chuvasheva)
Мы запустили канал с вакансиями только в разработке и ML 🚀

Помимо позиции CV Scientist в Picsart, там можно найти

Python Developer в TradingView
NLP Engineer в Replika, $5000 - $8000
– Software Engineer в Pagoda (ранее NEAR Protocol), от $123 000 в год
– QA Engineer в JetBrains
– Frontend Developer в Plata Card
– DevOps Engineer в Wargaming
– и много других!

Подписывайтесь на @dev_connectablejobs, чтобы не пропускать еще больше новых вакансий. И делитесь со своими друзьями, которым это может быть актуально 💙
bugs ans letters
Давно надо было запостить. Статья про формат ProRAW, плавно перетекающая в историю вычислительной фотографии с спин-оффами, как оно вообще работает, сколько кадров и в какой битности было снято вашим телефоном (в том числе до нажатия на кнопку, ну или тапа…
Вдогонку. #cv #proraw
Статья Вастрика (на английском) про современное* состояние дел в цифровой фотографии на её переднем крае: в смартфонах. Начинается с простого и очевидного, заканчивается объяснением, зачем были прикручены первые нейросетевые модели в ПО для камер (нет, не чтобы дорисовывать губы и убирать прыщи, про это в самом конце тоже есть, это кринж).
*где-то на 2019 год, с некоторыми обновлениями, но в целом история, кажется, пока сильно не поменялась: прорывов не наблюдается, наблюдается улучшение камер и софта без изменения количественных показателей.
#ml #clustering #visualisation
Внезапно – отличное видео, как работает t-SNE. Понимать, как работает PCA и LDA не обязательно, но если знаете – лишним не будет.
Смотреть на 1.5х минимум.
Forwarded from Dan
Zlibrary постоянно банят, поэтому лучше пользоваться их приложениями либо заходить через tor (так и скачивать можно куда больше)
Сейчас работает вот эта ссылка https://ru.singlelogin.re/
Оставлю себе #memo про железо