NEW BOT Телеграм, страница

ᴢɪᴘ ʟᴏɢ

Forwarded from test

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

160 viewsKristina Zipa, 16:41

12 месяцев. Союз-Мультфильм. 1956 год.
Применён алгоритм Real-ESRGAN для увеличения разрешения видео в 4 раза.
ESRGAN широко применяется как компонент в других алгоритмах обработки изображений для адаптации к работе с данными высокого разрешения.

Исходник низкого разрешения (почему-то заболочено в РФ).
Это видео в youtube (выберите 4к в настройках).

К сожалению, деталей не везде хватает, и изображение получается хоть и чётким, но с недостаточной прорисовкой лиц, например.

186 viewsKristina Zipa, edited 11:33

ᴢɪᴘ ʟᴏɢ

12 месяцев. Союз-Мультфильм. 1956 год. Применён алгоритм Real-ESRGAN для увеличения разрешения видео в 4 раза. ESRGAN широко применяется как компонент в других алгоритмах обработки изображений для адаптации к работе с данными высокого разрешения. Исходник…

🔼Обновила исходник, работает на мобильном

Please open Telegram to view this post

VIEW IN TELEGRAM

163 viewsKristina Zipa, 14:07

ᴢɪᴘ ʟᴏɢ

Время подводить итоги года

🔣

Мои впечатления от прошедшего года и ожидания от следующего
2023 был для меня интересным годом:
- распространились и значительно развились языковые модели, они стали доступнее (API, локальные варианты), мощнее (смесь экспертов), разностороннее (умеют пользоваться сторонними инструментами, пишут код, решают математические проблемы)
- возникло огромное число применений для генеративных моделей, очень многие проблемы, над которыми раньше бились годами, теперь решаются элементарно (преобразование текста в изображение, стилизация, паноптическая сегментация, реалистичный рендеринг в реальном времени)
- увеличилось представительство русскоязычного ИИ-комьюнити в Телеграм (например, каналу Сиолошная ещё нет и года, а у него уже 30к подписчиков)
- увеличился темп научных и информационных трансформаций, уменьшилсь время внедрения в продукты
- генеративное искусство подняло творческие возможности человека на небывалый доселе уровень

От 2024 года я ожидаю:
- Выход языковой модели Q* от ChatGPT, развитие генеративных моделей text в video, text в 3D до продуктового уровня, развитие моделей управляемой генерации аудио
- Усиление конфронтации между E/ACC и редукционистами, вероятно массовые протесты, ожесточённые споры экспертов
- Внедрение ИИ в робототехнику, решение задачи планирования для роботов, появление домашних роботов расширенной функциональности
- Развитие ИИ-медицины, ИИ-обучения
- Наполнение интернета fake news в небывалых количествах из-за развития генеративок и дип-фейков голоса и лица

PS. Очень жду, что в 2024 году ИИ сделают продолжение сериала "Светлячок". С помощью LLM могли бы сделать текст, а с помощью text-to-video + аватаров сгенерировать видеоряд.

Please open Telegram to view this post

VIEW IN TELEGRAM

186 viewsKristina Zipa, edited 16:10

ᴢɪᴘ ʟᴏɢ

Время подводить итоги года 🔣Мои впечатления от прошедшего года и ожидания от следующего 2023 был для меня интересным годом: - распространились и значительно развились языковые модели, они стали доступнее (API, локальные варианты), мощнее (смесь экспертов)…

🔣

О себе и своих планах
Сейчас многие рассказывают о своём продвижении на пути к целям за прошедший год, о планах, успехах и неудачах. Честно говоря, я никогда не ставила себе никаких конкретных задач на год или что-то вроде того. Не отношу себя к достигаторам, а всего лишь хочу быть тем человеком, которому интересно жить, творить, открывать новое, делиться и что-то улучшать. Я считаю, что технологии - мои естественные помощники и союзники!

У Самурая нет цели, только путь

И наверное, на следующий год я пожелаю себе не сворачивать с пути и не терять вдохновение.

🔣

Пожелания подписчикам

Желаю Вам не чахнуть в ожиданьи,
Желаю Вам не рваться в страшный бой!
Желаю не бежать от начинаний,
Желаю не бояться быть собой!

Желаю не гордиться интеллектом,
Желаю не отлынивать душой,
Желаю мир вокруг наполнить светом
И царствовать над роком и судьбой.

Желаю странствовать и быть во всеоружьи:
Генеративки, роботы, ИИ.
Ходить по краю бездны простодушно,
Страхуясь тросами надежды и любви.

Желаю совершать, а не стараться.
Желаю делать, а не говорить.
В себе желаю Вам не сомневаться,
Быть лучше!
... ну и мой канал любить

😉

Please open Telegram to view this post

VIEW IN TELEGRAM

195 viewsKristina Zipa, edited 16:10

ᴢɪᴘ ʟᴏɢ

YouTube

Guillaume Verdon: Beff Jezos, E/acc Movement, Physics, Computation & AGI | Lex Fridman Podcast #407

Guillaume Verdon (aka Beff Jezos on Twitter) is a physicist, quantum computing researcher, and founder of e/acc (effective accelerationism) movement. Please support this podcast by checking out our sponsors:
- LMNT: https://drinkLMNT.com/lex to get free sample…

По дороге в гости послушала интервью с Гийомом Вердоном в подкасте Лекса Фридмана
В подкасте рассматривалось много интересных тем, но я выделю основные тезисы.
Кто такой Гийом Вердон?
🔣Физик, прикладной математик и инженер в области квантовых вычислений, основатель компании Extropic, которая стремится создать вычислительное оборудование для генеративного искусственного интеллекта.
🔣Гийом создал анонимный аккаунт Beff Jesos в X для свободного самовыражения и независимой оценки его идей вне зависимости от его личности и достижений.

Beff Jesos изложил принципы эффективного аккселерационизма E/Acc, перевод на русский

🔣

E/Acc - Effective Accelerationism (образовано от слияния Effective altruism и Accelerationism)
🔣Современная философская концепция, выступающая за ускорение технического прогресса как оптимального курса действий
🔣Сторонники E/Acc поддерживают прогресс в области искусственного интеллекта
🔣ИИ - великий социальный уравнитель, контроль ИИ приведёт к монополии и социальному неравенству
🔣Безопасность искусственного интеллекта важна, но не должна быть единственным аргументом для регулирования, поскольку может быть использована как инструмент коррупции и централизации власти. Она должна быть достигнута за счет рыночных сил, а не жесткого государственного регулирования.
🔣Также искусственный интеллект может быть разделен на более мелкие подсистемы для повышения отказоустойчивости.
Движение E/Acc стремится к:
🔣росту и самосознанию, используя естественные тенденции системы для адаптации к собственному росту.
🔣балансу между централизацией и децентрализацией, а также к поиску новых субкультур и эвристических подходов к жизни.

Интеллект и квантовые вычисления - симбиоз для решения новых задач
🔣Квантовый искусственный интеллект может помочь в решении сложных проблем, таких как парниковый эффект и ядерная физика:

🔣

🔣Квантовые датчики фиксируют квантово-механический образ мира и помогают заглянуть в самые ранние уголки Вселенной

🔣

🔣Квантовое машинное обучение может быть использовано для обработки этих данных
🔣Квантовое машинное обучение может быть применено для изучения новой геометрии и понимания квантовой гравитации

И в завершение приведу несколько интересных лично мне мыслей из интервью

компании являются своего рода смесью экспертных моделей

Интеллект - это способность воспринимать, предсказывать и контролировать мир

Математика - это изучение математики ради математики, физика - применение математики для понимания окружающего мира, инженерия - применение физики для взлома мира.

Инопланетяне могут быть мыслями, идеями или мемами, внедрёнными в наше сознание, поскольку мы не знаем, откуда берутся мысли.

👌

Хочу отметить, что хотя по духу мне очень близок оптимизм эффективных аккселерационистов, меня тревожит в их аргументации исходное наивное предположение, будто бы поиск оптимума биологической жизнью не приводит к её вымиранию (см. ошибка выжившего), и будто бы эволюционный отбор и рыночная конкуренция приводит к стабильному развитию. Напротив, они склонны к кризисам (Великая Депрессия, Массовое вымирание). При изобретении ядерной бомбы работы не производились на рыночном основании.

Please open Telegram to view this post

VIEW IN TELEGRAM

178 viewsKristina Zipa, edited 19:38

ᴢɪᴘ ʟᴏɢ

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

152 viewsKristina Zipa, 08:09

ᴢɪᴘ ʟᴏɢ

Video

Ещё до Нового Года попробовала 2 решения text-to-video: Pika и leonardo.ai (image-to-motion).
Оба решения браузерные, для конечного пользователя.

Если выбирать из них одну, то я однозначно бы выбрала leonardo.ai, и вот почему:
➖Pika генерирует клише. Генерации, выполненные в реалистичном стиле, всё-таки не впечатляют.
➖Pika сразу стоит трёхсекундное видео без возможности задать начальный кадр.
➕Pika позволяет объекту совершать размашистые движения. Однако это даётся ценой ошибок побъектов по глубине - рука Санты переднего плана спряталась за ёлочку. Такие огрехи напоминают фактологические ошибки первых нейросетей text-to-image с генерацией неверного числа пальцев, тут мы видим подобные фактологические ошибки в новой модальности, связанной с динамикой.
➕Зато Pika позволяет редактировать выделенную область в видео. К сожалению, у меня не получилось заставить её сгенерировать котёнка на коленях у Санты.
➕Pika позволяет использовать изображение или видео для затравки.

Теперь пару слов о Leonardo:
➕Leonardo сохраняет гораздо более высокий уровень реалистичности.
➕Если не указывать в promt явное движение, то будет просто сгенерирован какой-то сдвиг или поворот объекта. Тем не менее, возможно создать и сложные эффекты.
➕Впечатляющую подборку работ художников в leonardo я выкладывала в Новогодней сториз.
➕Leonardo вначале предлагает сгенерировать кадры, которые затем уже можно анимировать. Поскольку на платформе встроен полноценный редактор stable diffusion, то можно провести полную редактуру исходного кадра.
➖Чего не хватает, так это отдельного промптинга на анимацию для уточнения совершаемого действия .
➖Также была бы интересна возможность локального редактирования видео.
➖Ошибки в динамике также очень значительные.

Резюме такое: модели text-to-video начали стадию внедрения в продукты. Пока они ещё достаточно сырые, но уже сейчас можно с их помощью создавать приятные анимации. Пока ещё создание подходящей анимации требует большого числа повторов, и как следствие, машинных и человеческих ресурсов, чтобы избавиться от неприятных ошибок.
Но учитывая прогресс генеративных сетей, через несколько месяцев будут выстроены удобные общедоступные пайплайны с широкими возможностями редактирования видео. В частности, можно упомянуть недавний MotionCtrl, позволяющий задавать траекторию камеры в генерации.

🔣

🔣 ... некоторые видео смотрите в комментариях.

Please open Telegram to view this post

VIEW IN TELEGRAM

pika.art

The idea-to-video platform that sets your creativity in motion.

309 viewsKristina Zipa, 08:09

ᴢɪᴘ ʟᴏɢ

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

OpenLRM (проект, статья, github, демо) - алгоритм реконструкции 3D-объекта по одной фотографии за 5 секунд.

➗Строит NeRF представление на выходе (из которого можно семплировать меш, карты глубины и так далее)
➗Генерализуется без привязки к типу объекта
➗Работает на разрешении 512 пикселей
➗Использует в реализации DINO-encoder для патчей, Triplane-представление, лосс при обучении контролируется на четырёх кадрах (основной и 3 дополнительных) по метрикам MSE + 2* LPIPS
➗Обучен на синтетических Objaverse и реальных данных MVImgNet в соотношении 1:3 за 3 суток на 128 картах A100 (40GB)

Мои впечатления:
➕Задумка прекрасная. Мне нравится простота идеи - через лоссы других кадров учить генерализацию объёмного представлния.
➕Радует и скорость обучения, и скорость инференса
➖Мало данных для обучения. Нужно больше данных, будет совершенно другой уровень обобщения.
➖Низкое разрешение результата
➖Привязка в начальной сегментации

В целом, эта работа выглядит как начальная точка для гонки в этом направлении, поэтому в течение года ждём прогресса.

🔣

1️⃣Мой форк с питон-ноутбуком и градио-приложением, визуализирующим меш, а не видео, как в официальном демо. Загружаем ваши, либо мои данные, выделяем в ноутбуке объект, готовим данные, считаем, визуализируем результаты.
2️⃣Мой публичный колаб, чтобы не возиться с репозиторием.
3️⃣Huggingface сейчас запрашивает деньжатки за GPU, поэтому деплой там не даю, вместо этого сделала ещё один публичный колаб, который развёртывает app. Запустите обе ячейки с кодом, дождитесь выдачи таких записей, и перейдите по ссылке возле public URL.

======== Loaded model from checkpoint ========
Running on local URL:  http://127.0.0.1:7860
Running on public URL: https://daa4388790604c4ce9.gradio.live

Please open Telegram to view this post

VIEW IN TELEGRAM

244 viewsKristina Zipa, edited 12:55

ᴢɪᴘ ʟᴏɢ

⚡️

⚡️Сразу потестила говорящие головы DreamTalk. Источник новости, и там все ссылки.
Применила к примерам из ноутбука + добавила свою фотку. Прикладываю в комментах фото -> видео алгоритма -> видео после апскейла.

Во-первых, конечно, вау! Отдельно можно задать динамику поведения, выражение лица, аудио и фотографию. А ведь это диффузия!
Во-вторых, грустно, что разрешение всего лишь 256 x 256. Сразу прикрутила Real-ESRGAN (тот, который увеличил нам советский мультик), и он дорисовал лица, не соответствующие реальности.

❓Интересно, а есть какие-нибудь image-guided upscaler-s? Не слышали о таких?

Please open Telegram to view this post

VIEW IN TELEGRAM

0:26

Machinelearning

🦜 DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models

DreamTalk - это фреймворк для создания выразительных говорящих голов, который может создавать высококачественные видеоролики говорящих голов в различных стилях речи.…

205 viewsKristina Zipa, edited 18:03

ᴢɪᴘ ʟᴏɢ

Мыслишки

💡

и вопрос

❓

к подписчикам.
Пришла в голову некоторая концепция, о которой ниже. Слышали ли вы о подобных решениях или о работах в этом направлении?🔍

Юзкейсы.

1️⃣

Вы, наверное, уже заметили, что я люблю нейросети, причём на разных уровнях погружения 💙
🔵Во-первых, я стараюсь следить за публикациями и релизами кода.
🔵Во-вторых, обожаю демки на huggingface и google colab-ы для Open Source.
🔵В-третьих, частенько тестирую production web-решения.
Нейросети помогают мне насытить жизнь правильно подобранным и улучшенным контентом:
🔵прочесть транскрипцию или саммаризацию вместо видео,
🔵очистить голос, синтезировать голос\видео по тексту,
🔵помочь придумать мелодию к моим стихам и т.д.
С одной стороны, я нередко задумываюсь, а зачем мне всё это?
А с другой замечаю, что старые типы искусства: кино, театр больше не питают меня так, как ожившие генерации leonardo.ai.
За прошедший год, у меня уже собрался некоторый набор задач и инструментов, которые я использую. Судя по комментариям пользователей в телеграм, у многих подобная ситуация. В моём случае почти все инструменты Open Source и развёрнуты локально на домашней машине + есть несколько web-решений с ограниченным лимитом бесплатного использования.

Я столкнулась со следующими проблемами:
🔵Поиск самого удобного на текущий момент решения. Как правило, одна и та же технология обыгрывается несколькими продуктами, а на разных уровнях технологического стека существуют свои решения.

Часто бывает так, что сначала вышла статья и есть удобный space на huggingface, я пользуюсь онлайн-сервисом, а потом он пропадает, потому что там довольно дорого, и тогда я разворачиваю локально у себя эту аппку или работаю в колабе. А иногда бывает так, что я просто разворачиваю локально код к гитхаба.

🔵Доступ к вычислительным ресурсам. Поскольку я тяготею к бесплатным локальным версиям, я оказываюсь привязана к своей вычислительной машине. Соответственно, считать что-то удалённо можно через Remote Desktop-средства или разворачивать серверный доступ к своим нейросетям. Всё это довольно кастомизованные решения. К тому же, мой вычислительный узел ограничен по памяти и мощности, а значит я не могу считать на нём всё подряд.
🔵Неуниверсальность интерфейсов. Мне нравится, когда в Telegram есть бот, решающий мою задачу. Мне удобно было бы каждый раз получать результаты обработки моих запросов через повторяемый интерфейс в мобильнике. Мне очень нравится практика использования gradio-приложений, и когда решение есть на huggingface, я прихожу в восторг. С продуктовыми веб-решениями всё менее удобно для работы с мобильника.

2️⃣

Недавно я увидела вопрос:

как получить транскрипцию длинного видео, не возясь с кодом

Вроде бы,🔠

🔠

🔠, вариантов - миллион.
А с другой стороны, какой из этих миллиона вариантов вам подойдёт? Нет универсального ответа. Есть .exe для винды, есть онлайн-тулзы с лимитом, есть боты, есть колабы и т.д. Наверняка, есть приложения для Android и iPhone.
3️⃣А тут ещё Ян ЛеКун пророчит победу благого 🔠

🔠

🔠а.

〰️

Все эти соображения натолкнули меня на следующую мысль:

А что если использовать распределённый между машинами инференс на нейросетях с web-интерфейсом?

⬇️

Please open Telegram to view this post

VIEW IN TELEGRAM

173 viewsKristina Zipa, edited 19:14

ᴢɪᴘ ʟᴏɢ

Мыслишки 💡 и вопрос❓к подписчикам. Пришла в голову некоторая концепция, о которой ниже. Слышали ли вы о подобных решениях или о работах в этом направлении?🔍 Юзкейсы. 1️⃣ Вы, наверное, уже заметили, что я люблю нейросети, причём на разных уровнях погружения…

⬆️

А что если использовать распределённый между машинами инференс на нейросетях с web-интерфейсом?

📌

🔠

Когда мы используем торрент-трекеры, у нас есть сиды и пиры. Сиды раздают файлы, пиры находятся в процессе скачивания. Каждый сид выступает хранилищем экземпляра файла, а комп выступает как сетевое файловое хранилище. При этом в протоколе предусмотрена защита от личеров (то есть от юзеров, которые берут больше, чем отдают). Похожую схему можно было бы использовать и для расчётов, превратив компы в вычислительные узлы.
Это не столь уж необычно. Например, для майнинга криптовалют используют майнинговый пул.

📌

🔠

Когда мы используем генеративные боты в дискорде, мы приходим на один из серверов и отдаём запросы только этому боту. Теперь представьте, что вы обладаете информацией об услугах всех ботов на всех серверах дискорда. Тогда вы можете осуществить scheduling: выбрать наиболее свободный сервер, осуществляющий нужную вам услугу и получить результат быстрее.
Теперь обобщим эту идею с владельцев дискорд-серверов на всех пользователей, у которых есть простаивающий без дела ПК с неплохой видеокартой.

📌

🔠

▫️Допустим, один владелец ПК разворачивает у себя сервисы для whisper и stable diffusion, а другой, с более мощным компом, - сервис для llm mixtral.
▫️При этом каждый из них генерирует ключи API, к которым опционально привязана платёжная транзакция, выставляющая цену за вычисления (в базе - 0, потому что у нас открытые ко всему Open Source-щики).
▫️Некий юзер может получить доступ (бесплатно или за деньги) к их API-ключу и воспользоваться их железом для своих расчётов. При этом у этого юзера есть некоторые баллы, которые он тратит, когда считает на чужих компах и получает, когда другие считают на его компе (защита от личеров).
▫️Также у нас есть третий владелец ПК, который не хочет, чтобы кто-то посторонний использовал его комп для расчётов, а хочет считать только сам. Он генерирует закрытый ключ API, и использует его сам, пользуясь web-интерфейсом с любого своего устройства.

〰️

Я нашла следующие упоминания похожих идей:
1. Идею распределённого обучения выдвигали Learning@home в библиотеке Hivemind Library (причём, в частности, использование столь нашумевшей в этом году Mixture of Experted в distributed режиме).
2. Распределённое хранилище самих файлов моделей (явно используя torrent).

Существует много библиотек для распределённого обучения (примеры), но насколько я понимаю, кроме Hivemind все ориентированы на кластерные вычисления.

〰️

Итак, 🔠

🔠

1️⃣Слышали ли вы о подобных решениях или о работах в этом направлении?
2️⃣Может быть, вы использовали библиотеки для распределённого между машинами инференса?
3️⃣Поучаствовали бы вы лично в такой кооперации с другими пользователями, чтобы получать бесплатное или более дешёвое решение и не зависеть от корпораций?

Please open Telegram to view this post

VIEW IN TELEGRAM

195 viewsKristina Zipa, 19:16

ᴢɪᴘ ʟᴏɢ

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

Когда Стивен снимал пародийное видео про призраков, он и не подозревал, что однажды сам им станет!

👻

А всё благодаря ProPainter - бесплатному средству удаления объектов в видео.
Эта задача давно и глубоко изучается. Но это решение показывает прекрасный уровень Open Source, подходящий для некоторых практических применений. Поэтому если вам нужно:
➗убрать логотипы
➗выделить фон из видеопотока для последующего использования в играх или задаче реконструкции
➗убрать лишние объекты с видеосъёмки
То пробуйте демо, в котором от пользователя требуется загрузить видео и интерактивно разметить маски на одном кадре.
Мои впечатления от демки:
➕низкое время работы
➕высокая точность (артефактов почти нет)
➖демка иногда падает, если накликать много точек в изначальной сегментации
➖не работает с длинными видео

Детали и пояснения
Предыдущие решения на основе потока оперировали или только на домене изображений или на домене признаков, а трансформеры требовали много ресурсов:
- При глобальном распространении на домене изображений возникали артефакты из-за неточностей оптического потока
- Трансформеры не позволяли заглядывать в сильно удалённые в прошлое кадры
В статье представили модель DDP (двухдоменное распространение для изображений и признаков) - разделение потока вычисления на область изображений и область признаков с их дальнейшим объединением.
А также представили MSVT (разреженный видеотрансформер) - для оптимизации памяти и вычислений).
По метрике PSNR алгоритм превзошёл аналоги на 1.46 dB с сохранением эффективности.
Обучен на Youtube-VOS, тестирован на Youtube-VOS, Davis.
Использованные в решении концепции и модели: RAFT (модель оптического потока), RFC (завершение повторяющегося потока).

Заставлю любого исчезнуть

😁

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

257 viewsKristina Zipa, 12:21

ᴢɪᴘ ʟᴏɢ

Мне понравился мультфильм Spider-Man: Across the Spider-Verse (яркий, эмоциональный, динамичный и вдохновляющий фильм)

А потому пробую LoRA, превращающая всё в вязаные нитки на персонажах.

Нью-Йорк Сити особенно удался, правда?

197 viewsKristina Zipa, 14:27

ᴢɪᴘ ʟᴏɢ

Сегодня сочельник
Рассуждения о вопросы церкви и веры далеки от моих интересов, однако мне интересны вопросы жизни, духовности и нравственности. Я отношу себя к части христианского мира и христианской цивилизации. Часто стараюсь поступать по-христиански, и я думаю, что если понимать Церковь как Сообщество людей, разделяющих христианские принципы, а Молитву - как проявление намерения исправить несовершенства реальности, то я подпишусь под каждым пунктом.

Иногда нам на пути встречаются разврат и праздность. Всё, чего я хочу от ИИ и роботов - чтобы они усвоили у нас лучшее, включая этичность и духовность, чтобы они были милостивы и благородны, и сердечны по-возможности.

Мы видим, что эмоциональная окраска языка и изображений генеративных моделей проявляется всё сильнее. Становится всё легче поверить ботам (см. пост в Адель и ML), соблазнительно для смертных использовать это их свойство во зло. Но я верю и надеюсь, что добрые боты станут нашими ангелами, которым мы ещё не раз скажем спасибо за помощь с нашими проблемами.

217 viewsKristina Zipa, 20:44

About

Blog

Apps

Platform