NEW BOT Телеграм, страница

bugs ans letters

Ладно, раз я уж пытаюсь казаться MLOps-ом-самозванцем – придётся оправдываться.
- Базовая статья про системы управления версиями для программистов, которые полезли в данные
- Настройка DVC + MLFlow (нет, не надо так делать в реальности, через год убьётесь дальше мигрировать, за год наобучать пару терабайт данных – раз плюнуть)
#mlops #лытдыбр

W&B

Intro to MLOps: Data and Model Versioning

In this article, we explore why version control in Machine Learning must go beyond source code, and cover datasets and models for traceability and reproducibility. .

18 views15:14

bugs ans letters

Мне очень нравится подход Shazam: у них, по-видимому, есть две модели, онлайновая быстрая и точная медленная. Большинство запросов обрабатывает онлайновая, но если она не распознаёт трек – он отправляется в очередь медленной, которая когда-нибудь отдаёт результат и мы получаем We tried again and found…
Притом база для обучения обеих, кажется, одинаковая, но точная имеет больше информации на входе – вероятно, там меньше жёстких фильтров и больше магии со свёртками.

10 viewsedited 21:27

bugs ans letters

Любителям Generative Fill в Photoshop: Google зарелизил модель, очень достойно справляющуюся с этой задачей.
Обёрнута в JAX, посему завести локально – некоторая возня, впрочем, вполне предсказуемая и однотипная.

GitHub

GitHub - google-research/magvit: Official JAX implementation of MAGVIT: Masked Generative Video Transformer

Official JAX implementation of MAGVIT: Masked Generative Video Transformer - google-research/magvit

13 views14:55

bugs ans letters

Forwarded from Dr. Boris

oxml.zip

61.1 MB

украл для вас презы с первых двух дней OxML

15 views12:05

bugs ans letters

http://www.incompleteideas.net/IncIdeas/BitterLesson.html
https://horace.io/brrr_intro.html
#философия
tl;dr – не один и не два исследователя расстраиваются, что численные методы зачастую лучше работают на больших данных, чем эвристики. На примере NLP-задач – большая модель с правильным токенизатором уже лет десять работает лучше правил и эвристик от лингвистов.
Впрочем, это, возможно, не так плохо: до этого тысячи лет наука дробилась и рождала всё новые направления на стыке технологий, может быть, пора чуть прибраться?

44 views22:19

bugs ans letters

Forwarded from Empires Burn

О цензуре в генеративных ИИ: интереснейший материал о том почему важно иметь неподцензурные модели и как удалять фильтры из существующих моделей

https://erichartford.com/uncensored-models

Cognitive Computations

Uncensored Models

I am publishing this because many people are asking me how I did it, so I will explain.
https://huggingface.co/ehartford/WizardLM-30B-Uncensored
https://huggingface.co/ehartford/WizardLM-13B-Uncensored
https://huggingface.co/ehartford/WizardLM-7B-Unc...

18 views11:05

bugs ans letters

https://www.udemy.com/certificate/UC-080b27f4-5d9c-4547-bf74-964cb2abaffc/
#memo

16 views18:14

bugs ans letters

Огромная (до 16В) модель T5, разработанная для задач дополнения кода и, кажется, способная потягаться с DaVinci от OpenAI.

GitHub

CodeT5/CodeT5+ at main · salesforce/CodeT5

Home of CodeT5: Open Code LLMs for Code Understanding and Generation - salesforce/CodeT5

16 views11:59

bugs ans letters

Синтез речи на 22 языках с открытым кодом и весами. Весьма достойная работа и статья.
#NLP #tts

GitHub

GitHub - snakers4/silero-models: Silero Models: pre-trained text-to-speech models made embarrassingly simple

Silero Models: pre-trained text-to-speech models made embarrassingly simple - snakers4/silero-models

14 views10:46

bugs ans letters

К вопросу о тестовых заданиях в Яндекс и производные.
https://academy.yandex.ru/dataschool/stepbystep

12 views09:26

bugs ans letters

Forwarded from SIGSEGV DREC

О компиляторах

Тут в чате написали вопрос про тему, в которой я не профессионал, так что... Отвечу, но это будет самый субъективный мяу в истории канала.

Подборка от коллег в целом и Павла Советова в частности наверняка содержит рекомендации лучше, но... Мяу...

X. Курс Ильи Дединского. Который я до конца не прошёл, но по большей части выполнил. Возможно, расскажу потом о задачах подробнее. Но... Он эксклюзивно для МФТИ, теперь ещё не для всех факультетов.

Y. DragonBook. Произвела не самое лучше впечатление и коллегами не рекомендуется (о чём я узнал поздно). На мой взгляд читать можно, так как положения в ней достаточно общие, что позволяет им не стареть. Но КПД этого действия не всегда достаточно высок.

Z. Конструирование компиляторов, Никлаус Вирт. Читана полностью, что несложно ввиду размера. Достаточно похожий на пункт X подход, в котором основы показываются на компиляторе сравнительно реалистичного языка в код для языковой виртуальной RISC-машины. Главный минус — Оберон в качестве языка изложения. Сказать, что это отвратительно — ничего не сказать. Требует переработки или хотя бы дополнения листингами на языке вроде C.

Θ. Engineering a compiler. Читаю сейчас, довольно приятная книга с современным, но в то же время достаточно общим подходом. Из минусов только объём и отсутствие перевода, но мы можем смириться с таким положением дел.

В общих чертах мой опыт в теоретических основах таков.

GitHub

GitHub - true-grue/Compiler-Development: Что читать о разработке компиляторов

Что читать о разработке компиляторов. Contribute to true-grue/Compiler-Development development by creating an account on GitHub.

12 views11:45

bugs ans letters

#offtop Документ про структуру китайского интернета (да, включая “Золотой щит”) и возможное влияние на рунет.

Google Docs

Китайский интернет

Невероятный заголовок 🙂 Органы цензуры в Китае ● Отдел пропаганды ЦК КПК Врезка: 一个机构两块牌子 / Один орган - две вывески ● Пресс-канцелярия Госсовета КНР ● Государственная канцелярия по делам интернет-информации КНР ● Министерства Как работает цензура? Врезка:…

9 views18:38

bugs ans letters

Давно надо было запостить. Статья про формат ProRAW, плавно перетекающая в историю вычислительной фотографии с спин-оффами, как оно вообще работает, сколько кадров и в какой битности было снято вашим телефоном (в том числе до нажатия на кнопку, ну или тапа по экрану, если кнопки нет) для получения одного кадра.
#cv #proraw

Lux — iPhone camera apps, camera reviews and more

Understanding ProRAW

We make the most popular RAW camera for iPhone, so when Apple revealed their new ProRAW image format, we were beyond excited.

Then they announced it’s coming to the built-in camera app.

Many developers in our shoes would freak out, thinking Apple…

29 views21:38

bugs ans letters

Forwarded from Love. Death. Transformers.

Выскажу штуку за которую меня будут бить коллеги по цеху, но она имеет смысл, по меньшей мере для меня самого.
Когда у меня много ГПУ, я смотрю что утилизация под 100, ничего не течёт, не просидает - живём короче. Но любые истории про подумать: например когда модель не работает должным образом или явно хуже чем должна я могу тупо залить компьютом - воткнуть больше эпох, больше модель, пролить больше данных.

Для мозга и менеджера это очень понятное решение, они явно должно работать.

Это напоминает планиметрию:
В школе были такие люди которые решали любую планиметрию на трех теоремах - не ну построим три доп окружности, посчитаем систему уравнений, бумаги много ща все решим.

В DL так тоже можно, ВСЁ текущее поколение LM основано на этом - давайте фильтранем данные умнее, давайте прокрутим больше токенов и больше модель.

Текущие ресерчи архитектур скорее мертвы чем живы, полтора китайца ковыряют rwkv, но без особых успехов и это печально.

Не думаю что для ближайшего поколения моделей правила скейлинга изменяться, но уже сейчас надо внимательно изучать альтернативные лоссы, структуры функций и почему трансформеры так работают.

https://horace.io/brrr_intro.html

11 views21:53

bugs ans letters

Forwarded from F0RTHSP4CE

CS 285 (DRL Berkely Course Seminars)
⏱ 16:00 PM Sunday, 15 October
📍 F0RTHSP4CE, Janashia 11/18, upper floor

There is fancy course about Deep Reinforcement Learning.
Deep Reinforcement Learning is about how to get dimond in Minecraft by learning agents with deep neural networks.
This events are seminars to achive some understanding of this secret knowledge. On the first lectures we study lectures 4 and 5 (Inroduction and Policy Gradients) (1, 2, 3 will be some prerequisites homework)

Give like if you want to come.

Есть такой фенси курс по глубокому обучению с подкреплением.
Deep Reinforcement Learning это про то, как достать алмаз в Майнкрафте обучая агентов с помощью нейронных сетей.
Мы попытаемся постичь это тайное знание. Первые лекции будут под номерами 4 и 5 (Inroduction and Policy Gradients)

Ставьте лайки, кто хочет прийти.

by @metya
Language: EN | RU
Entrance: free, optional donation to hackerspace
Host: @metya

11 views08:21

bugs ans letters

Forwarded from Dealer.AI

Пошла жара. " А вот НКРЯ, похоже, совсем не так охотно делится своими данными."
https://roem.ru/17-10-2023/301112/razrabatyvaemyj-yandeksom-nacionalnyj/

Roem.ru

Разрабатываемый «Яндексом» Национальный корпус русского языка запрещается краулить посторонним

В блоге на Хабре о том, как правильно расставлять ударения, который использовал спарсенные данные Национального корпуса русского языка (НКРЯ) выяснилось интересное: Пользователь morosowdm (в составе // Роем в вашем Телеграме: https://news.1rj.ru/str/roemru

13 views19:56

bugs ans letters

Forwarded from Connectable Jobs (Irina Chuvasheva)

Мы запустили канал с вакансиями только в разработке и ML 🚀

Помимо позиции CV Scientist в Picsart, там можно найти

– Python Developer в TradingView
– NLP Engineer в Replika, $5000 - $8000
– Software Engineer в Pagoda (ранее NEAR Protocol), от $123 000 в год
– QA Engineer в JetBrains
– Frontend Developer в Plata Card
– DevOps Engineer в Wargaming
– и много других!

Подписывайтесь на @dev_connectablejobs, чтобы не пропускать еще больше новых вакансий. И делитесь со своими друзьями, которым это может быть актуально 💙

Dev & ML Connectable Jobs

Вакансии от 300+ зарубежных компаний с русскоговорящими фаундерами или командами. Наши читатели уже получили офферы в JetBrains, 1inch, Neon, Chatfuel и другие компании💙

Разместить вакансию: https://cutt.ly/wwCoGNAm

Q&A: @connectable_jobs_team

14 views13:10

bugs ans letters

Вдогонку. #cv #proraw
Статья Вастрика (на английском) про современное* состояние дел в цифровой фотографии на её переднем крае: в смартфонах. Начинается с простого и очевидного, заканчивается объяснением, зачем были прикручены первые нейросетевые модели в ПО для камер (нет, не чтобы дорисовывать губы и убирать прыщи, про это в самом конце тоже есть, это кринж).
*где-то на 2019 год, с некоторыми обновлениями, но в целом история, кажется, пока сильно не поменялась: прорывов не наблюдается, наблюдается улучшение камер и софта без изменения количественных показателей.

vas3k.blog

Вычислительная Фотография

На презентациях любого смартфона сегодня отдельное место уделяют успехе его камеры. Pixel научился снимать в полной темноте, Huawei зумит лучше бинокля, Samsung получил восемь объективов, а в iPhone ваши друзья выглядят на 30% богаче.

38 views10:18

bugs ans letters

#ml #clustering #visualisation
Внезапно – отличное видео, как работает t-SNE. Понимать, как работает PCA и LDA не обязательно, но если знаете – лишним не будет.
Смотреть на 1.5х минимум.

YouTube

StatQuest: t-SNE, Clearly Explained

15 viewsedited 15:18

bugs ans letters

Forwarded from Dan

Zlibrary постоянно банят, поэтому лучше пользоваться их приложениями либо заходить через tor (так и скачивать можно куда больше)
Сейчас работает вот эта ссылка https://ru.singlelogin.re/

ru.singlelogin.re

Best adult videos and photos

Free Porn Videos and photos

14 views05:22

bugs ans letters

Оставлю себе #memo про железо

10 views15:19

About

Blog

Apps

Platform