я обучала одну модель – Telegram
я обучала одну модель
4.57K subscribers
457 photos
29 videos
21 files
381 links
Shitposting on various subjects

PS рекламы в канале нет
Download Telegram
Попробовала сгенерить с ruDALL-E обложки пост-панк альбомов
Первые два ряда крутые, особенно нравятся 2,3 и 2,5

2,1 очень сильно напоминает какой-то существующий альбом, но не могу вспомнить какой
на 2,2 почему-то русский рикардо милос
3,3 это похоже мумий тролль?
Forwarded from Derp Learning
cats2.tar
48.6 MB
Датасет из парных котяток отсюдова.
Обновил, перекачайте.
poorly_drawn_cats.zip
40.3 MB
В дополнение к прошлому датасету – картинки из poorly drawn cats (пары оригинальных пикч и рисунков)
чудеса нейминга архив эдишн

Если серьезно то в статье интересная попытка в мультимодальность – авторы берут текст (как правило речь о твитах), считывают надписи на приложенных к нему картинках через Optical Character Recognition, подают это все вместе в RoBERTa. Потом отдельно кодируют изображение само по себе, получают эмбеддинг, конкатенируют с эмбеддингом текста, потом энкодят все это еще раз вместе, и потом классифицируют (ух)

Ожидаемо, не то чтобы эта модель сильно аутперформит просто классификацию текста, но архитектура интересная. Еще у них очень классно описаны и проиллюстрированы эксперименты, например, визуализация аттеншена на тексте и на картинках (модель фокусируется на увеличенных носах). И подборка мемов в пейпере просто chef's kiss
Media is too big
VIEW IN TELEGRAM
Еще один AI art невероятной красоты из твиттера
Это rgb-clip (или мейби clip guided diffusion) в pytti, но очень интересно, что еще автор к нему прикрутил, чтоб вышло так круто
в комментарии скинули еще красоту:
Forwarded from тоже моушн
Media is too big
VIEW IN TELEGRAM
самая крутая сцена в интерстелларе конечно - когда макконахи, упав в черную дыру, застревает где то на границе измерений в книжном шкафу своей дочки. у нас с путти получилось что то вот такое. кстати я тут шагнул на следующий уровень генерации изображения - до свидания 8бит, здравствуй гладкая сочная картинка с кучей деталей. очень нравится!
Спонсор ночных кошмаров на сегодня – попытка потюнить StyleGAN-NADA на скетчи
В четвер на аукцион Сотби выставят одну из немногих уцелевших копий первой Конституции США. Американское криптосообщество создало вокруг этого аукциона мощный хайп: группа энтузиастов объединилась с целью купить этот экземпляр Конституции.

Для координации сформировали децентрализированную автономную организацию ConstitutionDAO (DAO — онлайн-сообщество с определенной целью и правилами, прописанными в блокчейне).

За три дня уже собрали $3 млн в эфире. По оценке Сотби, лот может уйти за $20 млн.

Если криптогики выкупят лот, судьбу Конституции решат демократическим голосованием среди членов DAO. Среди предложений — выпустить NFT (куда же без этого), а саму копию отдать в национальный музей или институт.

Но судьба листа бумаги здесь не так важна, как красивая история. Если у ConstitutionDAO все получится, это станет крутой рекламой криптосообщества, DAO и технологий web3.

Символизм здесь на всех уровнях. Свобода является главной ценностью и для Америки, и для криптосообщества; криптогики хотят передать Конституцию из частных рук в собственность "народа", а сам процесс покупки станет масштабной иллюстрацией возможностей современной онлайн-демократии.

https://www.notboring.co/p/lets-buy-the-us-constitution
Forwarded from DL in NLP (nlpcontroller_bot)
⚡️OpenAI’s API Now Available with No Waitlist

Наконец-то OpenAI открыли публичный доступ к GPT-3. За время закрытого теста к нему добавили небольшие улучшения, такие как Instruct series models, которые лучше реагируют на промты. Кроме этого добавили в документацию safety best practices, которые рассказывают как сделать такую систему, которую нельзя будет атаковать очевидными способами.

Цена пока что кажется неплохой, по крайней мере ниже чем я ожидал. Самая большая модель стоит 6 центов за тысячу токенов. После регистрации вам дают $18, чего хватит для генерации 300 тысяч токенов.

Заходите на openai.com/api, регистрируйтесь и играйтесь с GPT-3 или Codex. Пишите что получается в чат, будет интересно узнать какие у людей в среднем впечатления.
Помимо того, что OpenAI рестриктят доступ к GPT-3 по странам (для России доступа нет, ожидаемо), у них еще очень интересные guidelines насчет того, что нельзя генерить моделью
Очень интересно, как собираются это мониторить с +- открытым API (вспоминается кейс Project December, которым отрубили доступ после того, как мужчина создал чат-бот погибшей невесты). К тому же, поскольку GPT учится на довольно шумных данных, она может выдасть стремные ответы даже на довольно невинные промты – и кто будет виноват в таком случае? Насчет malware впоминается как Copilot при запуске начинал генерить прям в коде рандомные токены для доступа и сикреты : ))))
Forwarded from AbstractDL
This media is not supported in your browser
VIEW IN TELEGRAM
GradInit: перебор гиперпараметров оптимизатора и warmup больше не нужны (by Google)

В гугл предложили супер крутой универсальный architecture-agnostic метод инициализации весов моделей.

Идея очень простая: добавить множители перед каждым блоком параметров и запустить по ним несколько итераций оптимизации лосса. Дальше эти множители фиксируем и учим модель как обычно. Такая инициализация не зависит от глубины и типа архитектуры (работает и на резнетах и на трансформерах) и почти полностью решает проблему взрывающихся\затухающих градиентов.

В итоге отпадает необходимость в переборе гиперпараметров оптимизатора, а трансформер вообще получилось обучить без warmup’a, что считалось практически невозможным. Как бонус, такая инициализация даёт небольшой буст на многих бенчмарках (и картиночных и текстовых).

Статья, GitHub
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Отвал башки! Тут пацаны из гугла обучили NERF на RAW фотках. Получается просто башенного качества рендеринг HDR изображений. Можно менять экспозицию, фокус. Вы только посмотрите на получаемый эффект боке в ночных сценах!

Дополнительное преимущество этого метода перед обычным нерфом - это то, что он хорошо работает на шумных снимках с малым освещением. За счет того, что информация агрегируется с нескольких фотографий, метод хорошо справляется с шумом и недостатком освещения, превосходя специализированные single-photo denoising модели.

Статью ознаменовали как NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images. Ну, разве что кода еще нет.

Сайт проекта | Arxiv
Forwarded from Говорит AI (Artem R)
Привет! Я ушел из Реплики (проработал там почти 7 лет и построил один из лучших в мире Conversational AI для десятков миллионов пользователей), поднял инвестиции от Питера Тиля, Давида Яна, кофаундеров Тиндера и запустил новый AI стартап.

Сегодня релизим наш апп Botify на Product Hunt! Botify позволяет создавать фотореалистичные говорящие аватары. Аватар моргает, улыбается, шевелит губами и орно чатится. Более того, у каждого аватара можно настроить характер и интересы, и таким образом получить какую угодно персону. Хотели поговорить с Маском про колонизацию Марса? Может у Иисуса спросить про NFT хайп? Или загрузить фотку своей бывшей и 😏. По сути Botify - это микс дипфейков и чатботов, интерактивные Digital humans.

Из тех жира - под капотом диалоговая GPT-Neo на 2.7B параметров, разные BERT'ы, first-order-motion, Wav2Lip, Super Resolution, face restoration, Stylegan, WaveNet, etc. Мы используем мультимодальный подход комбинируя генеративный текст, аудио и видео для создания интерактивных Digital Humans. Все работает около риал-тайм, чек ит аут.

Нам очень важна ваша поддержка на продакт-ханте и ваш честный фидбек 🙏 Заценить и поддержать апвоутом/комментом можно тут - https://www.producthunt.com/posts/botify-ai
Говорит AI
Привет! Я ушел из Реплики (проработал там почти 7 лет и построил один из лучших в мире Conversational AI для десятков миллионов пользователей), поднял инвестиции от Питера Тиля, Давида Яна, кофаундеров Тиндера и запустил новый AI стартап. Сегодня релизим…
^У меня, разумеется, баес, так как я участвую тут в разработке диалогового ИИ, но зато могу ручаться, что с технической точки зрения продукт получился мега-крутой : ) и да, фидбек очень важен, если потыкаете, то напишите, как вам и где можно лучше 🖤
This media is not supported in your browser
VIEW IN TELEGRAM
Image-to-Image Translation with Low Resolution conditioning
arxiv | git

В пейпере авторы довольно успешно делают перенос стиля с очень низкокачественных (8x8) изображений. У них довольно интересная архитектурая: берут обычный GAN и меняют в нем генератор на U-shaped сетку.

Сначала в энкодере исходная картинка даунскейлится (и пробрасываются skip connections в декодер). Потом в декодере она апскейлится, и к ней несколько раз подмешивают информацию из низкокачественного таргета. Плюс, там есть отдельный ход с изменением среднего и вариации исходной картинки и коэффициентов при них на основе таргета

Кажется, что с такой U-сеткой в целом можно подмешивать кондишены меньшей размерности, чем сама картинка
Understanding by Understanding Not: Modeling Negation in Language Models
git | arxiv

У языковых моделей есть одна общая проблема – они не особенно понимают отрицания, поэтому предложения типа 'I am a communist' и 'I am not a communist' в плане эмбеддингов почти идентичны. Тут авторы пытаются это исправить через unlikelihood training – заставить модель с как можно меньшей вероятностью предсказывать исходное слово в предложении, если оно следует за no/not. Делается это через пары предложений: если предложение А: humans have a rational soul, то в предложении B: humans do not have a rational [MASK] вместо MASK слово soul должно появляться как можно менее вероятно. Если же предложения A и B идентичны, то модель себя должна вести как обычно (то есть как будто ее не дотюнивали)

Авторы показывают, что после такого тюнинга повышается качество в целом на NLI задачах. Но все же, это BERT, а круто было бы увидеть, как знания о негациях пробрасывать в GPT-like модели, например, чтоб была менее противоречивая генерация
Пример с коммунистом вообще взят из вот этого треда в твиттере, где GPT-3 от Open AI пытались заставить сказать хоть что-то о Китае, но она не смогла... Потом автор попробовал экплицитно задать генерацию как диалог с анти-коммунистом, но GPT-3 все равно отказывалась говорить что-то плохое о великом лидере Xi
DeepMind вчера выпустили сетку Gopher на 280 миллиардов параметров (что впечатляет). Судя по их же примерам в релизе, Gopher очень хорошо может отвечать на фактологические вопросы ('Who won Womes's US Open in 2021', 'What can you tell me about cell biology'). Если заглянуть в статью с описанием архитектуры модели окажется, что это достигается не за счет числа параметров, а скорее за счет доступа к огромной базе знаний, то есть сетка частично retrieval based. Для сопоставления с базой данных берут замороженный BERT, получают эмбеддинги входного текста и эмбеддинги из базы знаний, находят ближайших соседей (и потом их используют на этапе аттеншена). Для базы данных используют MassiveText (5 триллионов токенов)

Еще для эффективности обучения используют chunked cross-attention, но под модификацию аттеншенов уже пора отдельный жанр на архиве заводить