Метаверсище и ИИще – Telegram
Метаверсище и ИИще
46.8K subscribers
5.93K photos
4.35K videos
45 files
6.82K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Адобченко вывел FireFly из беты и выкатил мудреную систему кредитов.

Жалко, я надеялся, что Адобченко включит использование Firefly в подписку, тем самым еще более расширив User Base.

Но жажда наживы взяла верх, и теперь, чтобы пользоваться ИИ-функциями в Адобченсковских продуктах, вам придется покупать кредиты. Без кредитов тоже будет работать, но оооочень медленно. В общем все, как у ИИ-попрошаек в интернете.

Итак. Generatie Fill/Expand в Photoshop, теперь доступны без необходимости установки бета-версии. Кроме того, компания также запускает Firefly как отдельное веб-приложение.

Каждый раз, когда вы нажимаете кнопку Сделать красиво «Создать» вы тратите один кредит.

Все, кто пользуется существующими подписками Adobe, получит пригоршню кредитов. Вот полный список:

Все приложения Creative Cloud: 1000.
Одно приложение Creative Cloud (включает Illustrator, InDesign, Photoshop, Premiere Pro, AfterEffects, Audition, Animate, Dreamweaver, Stock, Photography 1 ТБ): 500
Платные подписки Adobe Stock: 500
Adobe Экспресс Премиум: 250
Adobe Firefly Премиум: 100
Creative Cloud для предприятий Все приложения: 1000
Creative Cloud Pro Plus Все приложения: 3000
Бесплатные пользователи с Adobe ID; Adobe Express, Adobe Firefly, Creative Cloud: 25

В общем вставайте в очередь за кредитами.

https://techcrunch.com/2023/09/13/adobes-firefly-generative-ai-models-are-now-generally-available-get-pricing-plans/
👎30🔥4👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Еще в прошлой жизни, проживая в Дахабе, я как-то зашел в только что открытый ресторан Аманда в Ассале. Там сидели Костя и Аня, которые взяли помещение в управление, отреставрировали его и запустили в народ. Те, кто был в Дахабе, знают местный колорит и особенности оперирования точками питания. Мы часто захаживали к ним поболтать и припасть свежих для Дахаба блюд.
Было это лет 10 назад.
Позавчера интернетик пульнул в меня вот таким видео. Я сначала хотел запостить его в категорию "Рендер или видео", а потом пригляделся и вздрогнул. Это ж Костя! Оказалось, что Костя в какой-то момент покинул Дахаб и, внимание, "записался в космонавты". В буквальном смысле. И его взяли!
Он стал третьим российским космонавтом, который отправился на МКС на корабле Crew Dragon в рамках программы перекрестных полетов РФ и США.
Удивительно, как в 2023 году короток путь в космос. Нужно просто захотеть.
Явшоке.
🔥114👍12👎3
Как ускорить генерацию в Automatic1111 в два с лишним раза (для Stable Diffusion 1.5) или хотя бы на 25% (для SDXL).

Я может бы чего-то не знаю, но все носятся с флагом --xformers, передавая из уст в уста легенду о том, что это ускоряет генерацию.

Я посчитал картинку 1024х1024 в Stable Diffusion 1.5 за 10.7 секунд.
Потом зашел в Settings->Optimizations и поставил вместо xformers метод Cross attention optimization="sdp - scaled dot product"
Получил 4.6 секунды!!! Проверил 5 раз.

Затем проделал то же самое с SDXL. Там прирост уже "всего" 25 процентов.
7.0 сек у xformers
5.7 сек у sdp-no-mem

Генерил одну и ту же картинку с одним и тем же сидом, кликая несколько раз, чтобы исключить подгрузку всякой шняги в первом просчете. Сэмплер - DPM++ 2M SDE Karras или Euler a

Может я чего-то не знаю про Automatic1111 (теперь знаю, почитал тут про --opt-sdp-attention May results in faster speeds than using xFormers on some systems but requires more VRAM)

А теперь огромная ложка дегтя. Все это у меня сработало на линуксе, на серваке, с картой A100 80ГБ VRAM.

Повторить трюк на ноуте в RTX2080 не удалось. Там xformers действительно на пару процентов быстрее.

Прилагаю скриншоты для SD1.5 и SDXL. А для тех, кто не верит даже сделал видос для SDXL. Все параметры генерации можно углядеть на видосе.
👍17
С chatGPT и Линукс не страшен

Недавно провели исследование того, как chatGPT помогает людям в работе.
Тестировали не на всех людях, а на консультантах (там Boston Consulting Group в партнерах исследования, и понятно почему).
Если вкратце, то люди использующие chatGPT в своей консультационной деятельности были более, чем на 40% продуктивны (по метрикам принятым в этой деятельности). Подробно можно прочитать об этом тут, а я приподнавалю личного опыта и истерик по этому поводу.

Я три года назад описывал свои ламерские пляски с Линуксом вот тут. И главный урок, который я извлек, работая с Линуксом - видишь ошибку при установке чего-нибудь, гуглишь ея, на пятом ответе нападаешь на след и делаешь все как говорят на стековерфлоу в самом первом ответе. Потом мне этот же совет озвучивали разные линуксоведы.
(тут дисклаймер - я ни разу не линуксоид, я упоротый виндовед, с опытом работы в IRIX в лихих 90-х).

А тут мне достался доступ по ssh к серваку с Убунтой, где жужжат восемь A100 80 ГБ.
И мне, конечно, приспичило накатить туда и Automatic1111 и Fooocus и много еще чего для тестирования. Написать скрипты, сообразить как смотреть картинки через gradio, как править файлы на серваке.
И я уже по привычке занес непрямые руки над гуглом, получив первую порцию странных ошибок, но потом вспомнил про chatGPT.
И робко спросил его "шозахрень".
chatGPT мне мило растолковал за кодировки файлов и формат конца строк (хотя ошибки были о чем угодно, только не об этом), присоветовал Notepad ++. Потом помог разобраться с X11Forwarding-ом, просветил за WSL и рассказал еще много чего полезного про Убунту и не только.
Если бы я по старинке гуглил, то потратил бы те самые две недели, как в 2020-м. А тут управился за вечер. Да еще и поумнел (старт с низкой базы вестимо).
В общем это я о чем.
Через пару лет (быстрее), мы забудем про гуглинг и про просеивание ссылок.
Будет просто вопрос и ответ. Уточнения и ответ. А не запрос и рытьё в ссылках, уточнение запроса и рытье в ссылках.
Интернетик сожмется до ввода вопросов, и вывода ответов. Интерфейсик сами подберете.
Или вам нравится рыться в ссылках, перебирать сайтами и читать бесконечные обзоры типа "ваще крутые ИИ-инструменты на каждый день"?
🔥55👍3
Очень классная оживлялка статических картинок от Гугла.
Никакого кипения или других родовых артефактов диффузионных моделей.
Отличный пример того, как можно подучивать ИИ на конкретных практических задачах и не пытаться делать генератор всего на свете.
Делает бесшовные, годные к зацикливанию анимации - может хорошо зайти и для дизайна сайтов, и в оживление презентаций, и в моушен-дизайн, и в рекламу. А уж про мемы я вообще молчу.
Плюс вы можете сами попробовать потаскать мышкой направление "оживления" - интерактивное демо есть на сайте.
https://generative-dynamics.github.io/
👍43🔥11
Forwarded from Psy Eyes (Andrey Bezryadin)
Media is too big
VIEW IN TELEGRAM
Код Render-a-video опубликован.

Модель сочетает SD + Optical Flow и отличается хорошей консистентностью видео без фликера. И даже работает без трени или файнтюна.

Кнопки в веб-интерфейсе:
Run 1st Key Frame — генерим только 1-й кадр, чтобы настроить промты/модели/параметры.

Run Key Frames — проход по ключевым кадрам на основе настроек первого кадра, что позволяет задать временные параметры для лучшей консистентности перед запуском на всё видео.

Run Propogation — применение настроек ключевых кадров на остальные кадры для полного перевода видео.

Run All — запустись всё разом.

Демо
Гитхаб
🔥28👍4
This media is not supported in your browser
VIEW IN TELEGRAM
Мне кажется, мы давно не выпивали за уходящие профессии.
Как насчет помянуть ротоскоперов, не чокаясь, и заодно взбодрить всех композеров.
Особенно тех, кто до сих пор сидит в After Effects.
И покрикивает: "выдели-ка мужика в белом, а нет, красную машину, и маску для нее давай".
Владение инструментом плавно трансформируется во владение языком.
И это относится не только к графике...
👍38🔥13
Ну, за промпт-инженеров!
ИИ эволюционирует и начинает писать промпты сам для себя лучше, чем кожаные.

И вот этих вот набранных по объявлению элитных промпт-инженеров можно потихоньку увольнять (в разметчики).

Китайские коллеги из Микрософта соединили эволюционные алгоритмы и промпт-инжиниринг. ИИ берет ворох промптов и допинывает их до годного. Превосходящего по эффективности вымученные кожаные промпты.

В общем ИИ сам новые рабочие места породил, сам и заберёт.

А вы до сих пор слушаете курсы по промпт-инжинирингу, написанные с помощью chatGPT?

Уже не модно...

Ссылка для умных:
https://huggingface.co/papers/2309.08532
🔥52👍4
Minority Report - уже не хорошее кино с Томом Круизом, а повседневность.
Встраивание камер в очки и лыжные маски - это не только ценный мех, но и неограниченные возможности по распознаванию ваших преступных намерений, которые уже крутятся у вас в голове. Ну и распознаванию вас с потрохами.
Датчики могут работать в обе стороны. Распознавать нарушителей порядка снаружи, и делать полный профиль вашей кожаной башки и тех мыслей, что в ней крутятся. Надел очочки - ИИ получил не только фоточку вашей башочки, но и отличную 3Д-биометрию. Которая тут же сохранилась в блокчейн базах нужных органов.
Это я к чему? А к тому, что Minority Report - уже не хорошее кино с Томом Круизом, а повседневность.
Смотрите, китайцы уже раздали полицейским AR-очки, которые могут распознавать лица и детектировать преступников из базы еще пять лет назад, в начале 2018 года. И даже отловили некоторое количество оных.
Об этом можно почитать тут:
https://www.scmp.com/news/china/society/article/2132395/chinese-police-scan-suspects-using-facial-recognition-glasses
И пока мы тут воздыхаем над непонятно когда доступной масочкой от Эппле, китайские стартаперы, близкие к нужным ведомствам уже лет семь как пилят вполне себе рабочие устройства:
https://asia.nikkei.com/Business/Companies/Chinese-startup-makes-facial-recognition-glasses-for-police

Но это китайцы, которые по старомодному мнению некоторых подписчиков, ничего сами не придумывают, а только воруют. Типа как ИИ.

Но вот через пять лет, в Европе, а точнее в Шотландии, решили быть как китайцы, не придумывать, а взять готовое.

"Шотландская полиция рассматривает возможность использования умных очков для обнаружения преступников, перевода на языки и даже чтения по губам"
А управление полиции Шотландии (SPA) вчера утвердило планы на 400 миллионов фунтов стерлингов по созданию «цифрового подразделения» по борьбе с киберпреступностью.

Высшее руководство признало, что сотрудники используют устаревшие технологии после многих лет нехватки финансирования, что задержало внедрение нательных видеокамер (BWV), что поднимает вопросы о том, как быстро новые гаджеты могут быть введены в эксплуатацию.

Источник, конечно, желтоват. И цифры могут быть левыми. Но вряд ли соответствующие ведомства и вояки будут отмахиваться от трендов и возможностей compuper vision на стероидах ИИ.
Да они и не отмахиваются, просто об этом не принято писать в белых источниках.
Ибо:
"Мы все отчаянно хотим, чтобы полиция Шотландии адаптировалась к XXI веку"
Подробнее тут:
https://www.dailymail.co.uk/news/article-12444469/Scottish-police-consider-using-smart-glasses-spot-criminals-translate-languages-lip-read.html
👍4🔥3
Трушный китайский метаверс или всевидящий мегамозг.

Что-то меня сегодня пробило на Китай, закрою тему вот таким постом.

Китайцы создают "городской мозг", объединяя компьютеры, лежащие в основе "умных городов", которые уже сканируют страну от широких проспектов Пекина до улиц небольших городов, собирая и обрабатывая терабайты информации от сложных сетей датчиков, камер и других устройств, которые отслеживают дорожное движение, лица, голоса и походку людей и даже ищут еще не начавшиеся, но потенциальные драки.

По словам разработчиков, новый "мозг", оснащенный функциями наблюдения и обработки визуальной информации по образцу человеческого зрения, будет более эффективным, менее энергозатратным и позволит "улучшить управление". "Мы называем это вычислениями на бионической сетчатке глаза", - пишет Гао Вэнь, ведущий исследователь в области искусственного интеллекта.

А теперь представьте: соединяем все эти модальности: зрение и слух камер наблюдения, недоступные кожаному сенсорные способности разнообразных датчиков и миллиардно-параметрические способности больших языковых моделей.
Увязанные в вот такой городской метаверс-датацентр, который китайцы так и называют - "городской мозг". Немного масштабирования и вот уже появляется государственный мозг.

И пока чувствительные западные парни рядятся по поводу AGI, этики и "выравнивания", китайцы уже создают вот такие мегамозги, возможности которых (учитывая потоки данных и мультмодальность) в общем-то не поддаются моему кожаному представлению. Это - нечто другое, потусторонее. По ту сторону кожаной вместимости мозга.

И китайским парням глубоко насрать на чувства верующих в этические опасности ИИ:

Товарищ Си также предупредил Политбюро, что ученые должны обращать внимание на риск, но пока ключевой риск, связанный с ИИ, который упоминается в Китае, является политическим, с новым законом, введенным в августе, ставшим первым правилом, согласно которому ИИ «должен придерживаться основных социалистических ценностей»."

«Политическая позиция и идеология ChatGPT подсознательно повлияют на его сотни миллионов групп пользователей, став самой массивной пропагандистской машиной для западных ценностей и идеологии»

В общем, Китайский Мегамозг появится, похоже, быстрее всех. Ибо китайцы не озабочены дискуссиями типа "А это уже AGI или еще нет". Они просто строят вот такие городские мозги, размывая грань между интеллектом кожаным и государственным. Будет просто общий интеллект.

https://www.newsweek.com/china-aims-replicate-human-brain-bid-dominate-global-ai-1825084

Спасибо за наводку Буковскому.
👍33👎2
Почему я называю все эти ужасы выше трушным метаверсом?
Да потому, что построение виртуальных миров начинается не со смешных аватаров и комнаток в виаре, а со сбора данных и оцифровки нашего мира. К которым уже потом можно прикрутить любую оболочку.

Два года назад писал вот такой текст, еще до ИИ-хайпа и даже до Метаверс-хайпа. Через две недели после эпического заявления Марка:

И если мы ждали межжанровых слияний типа кино+игры, то сейчас становится понятно, что вся эта безумная компьютерная графика призвана быть оболочкой для несущегося на нас непонятного Метаверса. Мир стремительно оцифровывается. Мы, со своими ID, INN, маршрутами в такси и лавиной данных с телефонов и фитнес-трекеров. Наши дома со всеми BIM-потрохами. Наши города со всеми камерами наблюдения. Все это – миллиарды записей в базах данных. Которые ждут, когда кто-то, наконец, прикрутит к ним 3Д-оболочку и построит параллельную копию этого мира, которая будет жить рядом с нами. А накопленные технологии кино, анимации, рендеринга и композа будут призваны сделать весь это Метаверс еще выразительнее и реалистичнее.

Оцифровка планеты стремительно идет через развитие технологий сканирования (лидары, фотограмметрия, нейросетки) и сбора данных(датчики, камеры). И самое интересное происходит в области "оцифровки людей". 2020 год породил невиданный спрос на созданию аватаров (не в последнюю очередь из-за бума видеоконференций) и оживлению их новыми средствами. Аватары стали жить собственными, пусть пока и короткими жизнями.

Как будто в прошлой жизни все это было - CG EVENT: Digital Humans. Но похоже не ошибся, все катится туда, куда катится, а ИИ лишь ускоряет процесс.
https://cgevent.ru/program-2020-online
👍12
Завтра у меня на The Hub будет питчиться стартап MUBR - очень классная идея: вы можете видеть, какую музыку слушают ваши друзья в моменте. В виде виджета. Типа олдскульной подписи в сообщениях "Настроение: норм. Музыка: такая-то".
Причем идея-то масштабируется далеко за пределы музыки. Мы не только слушаем, но и смотрим. А если уж совсем расширить сознание, то и воспринимаем мир, через все, что угодно. И вот этот "шаринг восприятия мира в моменте" - это прямо килер-фича.
Это я к тому, что ребята сегодня продактхантятся. Предлагаю поддержать, идея отличная.
https://www.producthunt.com/posts/mubr
🔥13👍4
This media is not supported in your browser
VIEW IN TELEGRAM
Что-то потянуло на старое. На графику.
Пока мы тут восхищаемся гауссианами и нерфами, труженики 3Д по-прежнему пилят сцены с помощью мыши и некривых рук.
Тут вот мне прислали канал человека, который строчит реалтаймовую недвижку в Блендоре с помощью EEVEE (это такой как бы рендер и в то же время вьюпорт).
Я немного залип, чего и вам желаю.
Да, я знаю, что есть UE. Но для того, чтобы пересесть в него с "нормального" 3Д нужно немножко сойти с ума. Ну и то, что вьюпорт Блендора настолько ловкий для меня прям сюрприз. Я просто слишком увлекся ИИ и подотстал от 3Д-жизни.
Поглядите сюда, тут стотыщ таких видео:
https://www.youtube.com/@denniswoo1993/videos
🔥33👍3
Для меня все это выглядит как ацкий пиар ход Интел, который немного вонзил Stability AI за возможно помянуть ее всуе.
Я не очень верю, что интеловские карты могу дать фору NVidia H100. Но возможно в коментах есть взрослые мальчики, которые больше в теме, чем диванный блогер.

Во вторник корпорация Intel объявила об одном из первых в мире крупных использований своих ускорителей Gaudi2 для искусственного интеллекта (ИИ). Суперкомпьютер, построенный в сотрудничестве с компанией Dell, будет использоваться компанией Stability AI для приложений генеративного ИИ.

Новый суперкомпьютер Intel построен на базе новейших процессоров Intel Xeon Scalable и содержит до 4 тыс. аппаратных ускорителей искусственного интеллекта Intel Habana Gaudi2. Если предположить, что в каждой машине используется восемь процессоров Habana Gaudi2, то в машине насчитывается до 500 узлов. Учитывая, что Gaudi2 от Intel обладает впечатляющей производительностью, сравнимой с H100 от Nvidia в некоторых приложениях, суперкомпьютер должен быть достаточно мощным. Вероятно, речь идет о производительности 7-8 FP16 ExaFLOPS в области искусственного интеллекта.
https://www.tomshardware.com/news/intel-builds-large-ai-supercomputer-xeon-meets-gaudi2
👍7
OpenAI бахнул DALL-E 3. Пользователи Stable Diffusion и Midjourney могут спать спокойно.

Пока все с восторгом постят ссылку на блог Open AI, давайте приглядимся к картинкам и почитаем внимательно буквы.

1. В инсте Open AI (да, есть такая) много новых картинок, но вы почти не увидите там людей, лиц и фотореализма. В основном это отличные стилизации, много абстракции, интерьеры, хорошие композиции, модель отлично исполняет в дизайн. Но все, что связано с реалистичными кожаными, похоже, зачищено очень сильно.

2. Вот тут совсем жоско: представители OpenAI сообщили в электронном письме, что DALL-E 3 обучен отказываться от создания изображений в стиле ныне живущих художников. В отличие от DALL-E 2, который при подсказке может имитировать искусство в стиле определенных художников.
Все это напоминает ситуацию с выходом Stable Diffusion 2.0, которая осталась унылой и нелюбимой версией в сообществе. Поглядим, что случится с DALL-E 3.

3. OpenAI также позволит (ныне живущим) художникам исключать свои произведения из будущих версий DALL-E. Авторы могут отправить изображение, права на которое у них есть, и запросить его удаление, заполнив форму на своем веб-сайте. Будущая версия DALL-E сможет блокировать результаты, похожие на изображение и стиль исполнителя.

4. Параиноидальные акценты на безопасности: OpenAI заявила, что работала с внешними «красными командами» — группами, которые намеренно пытались взломать систему, чтобы проверить ее безопасность — и полагались на классификаторы ввода — как способ научить языковые модели игнорировать определенные слова, чтобы избежать явных или жестоких подсказок. DALL-E 3 также не сможет воссоздавать изображения общественных деятелей, если в подсказке конкретно упоминается имя.
Будут ли celebrities включены в "общественных деятелей" пока непонятно. А ведь один из самых эффективных трюков при генерации лиц всегда был "looks like Name Surname" - модель резко повышала качество, ведь в датасете было огромное количество изображений нужной персоны. Но, похоже, лица будут не welcome, так что придется умерить аппетиты.

5. Цензура и вотермарки. Упомянуто встраивание специальных меток, чтобы отслеживать "изображения, созданные с помощью ИИ"

6. Улучшена генерация текста и рук (привет Ideogram). Об этом, правда мы читаем в каждом пресс-релизе каждой новой версии конкурентов. Надо смотреть за пределами представленного черри-пикинга как будет в реальности.

7. DALL-E 3 гораздо лучше справляется с пониманием пространственных отношений, описанных в промптах (помните лошадь на астронавте?), что делает проще и точнее построение сложных ракурсов и композиций. Тут пользователи Midjourney такие: пруфы давайте.

8. ОСНОВНОЙ АКЦЕНТ - это работа с промптами и интеграция с chatGPT. Автоматизация, ускорение и акцентированное упрощение промпт-дизайна. Я уже выпивал на днях за промпт-инженеров - тренд налицо. Промпты будет писать chatGPT. Достаточно скормить ему идею или свой чахлый промпт - он раскучерявит его так, чтобы было красиво. А за курсы промптинга для генерации картинок тоже можно будет выпить, не чокаясь. DALL-E 3 лучше понимает контекст, что делает передачу "идеи" менее словообильной задачей и позволяет сосредоточиться на "замысле".

9. Ничего про inpainting, outpaintig, generative fill и уж тем более про 3Д, управление камерой или (о боги), аналоги Control Net, без которых уже как без рук.
🔥11👍6👎3
10. Про доступ. DALL-E 3 будет доступен для клиентов ChatGPT Plus и Enterprise в НАЧАЛЕ октября. Пока непонятно, сколько кредитов будет у пользователей chatGPT Plus. И сколько они будут стоить в плане расходования и в плане пополнения.
Через API и через https://labs.openai.com/ - "позднее осенью".

Что думает диванная редакция:
пока все опубликованные картинки - это очень хорошо проработанные, с огромным количеством деталей изображения в духе "массового искусства". Красивые стили, много абстракций, сюрреализм, шикарные иллюстрации, дизайны, интерьеры. Некоторые примеры просто завораживают новизной и замыслом. Но территория реализьма, гиперреализьма, фотореализьма, портретов, натурализма - похоже мимо. Безопасность превыше всего.
Так что Цивитай останется оплотом свободы творчества и самовыражения.

При этом DALL-E будет активно встраиваться во все партнерские и околомикрософтовские продукты. Генерация презентаций, иллюстраций, дизайнов, логосов в нужном контексте и в нужном продукте, да еще и на стероидах помощи от chatGPT - это будет прям мейнстрим.
Гуглу с его Бардом и Идеограмом надо будет проявить чудеса пиара и изворотливости, чтобы хоть что-то ответить на такие интеграции.

В общем самое интересное - это сращивание LLM и моделей генерации визуального контента, когда генерация превращается из заклинательного промпт-инжиниринга в формулировку кожаных идей на еще более понятном языке, из которого ИИ заберет и контекст, и замысел, и то самое творческое начало и предложит вам варианты, от которых вы не сможете отказаться.
Читаем тут: https://openai.com/dall-e-3
Смотрим тут: https://www.instagram.com/openaidalle/
🔥13👍1
Картинки из DALL-E 3.
Как генератор идей - потрясающе. Вы все еще стоите на позициях "да что он может, статистический попугай?" и "ничего нового, один плагиат"?

Хотя юзеры Midjourney щас такие "даничоособенного, мы так давно умеем".
🔥38