ᴢɪᴘ ʟᴏɢ – Telegram
ᴢɪᴘ ʟᴏɢ
150 subscribers
97 photos
49 videos
6 files
102 links
IT, AI, Robots
Download Telegram
Media is too big
VIEW IN TELEGRAM
Лучше один раз увидеть, чем 100 раз услышать 👎📣

А вечер начинался мило...
Я готовила пост про детские книжки, представляете? Раскатала у себя локально нейросеточку, чтобы спокойно поиграться с настройками. Вожделенно предвкушала, как сейчас открою внутренности демки и сделаю из неё что-то более юзабельное для моих нужд, напишу пару строк кода наконец...

Но чёрт меня дёрнул поискать в интернете альтернативы. 👀 А потом погуглить 🔍ещё. В итоге пост совсем другой, а тот, милый, опубликую позже, потому что это слишком важный опыт, от которого меня просто колотит!

И я хочу, чтобы вас тоже ПЛЮЩИЛО! 🔴
➡️➡️➡️
Ребята, мы приехали в конец тоннеля! Мне уже попадались новости про виртуальных телеведущих ▶️, мы помним мемный момент из недавней трансляции по ТВ с двойником Путина, но мне казалось, что эти технологии слишком сложные, не для всех, появятся в проде не скоро.

Но нет, дорогие друзья! Помните, пару месяцев назад волну отечественных мемасиков, переведённых на английский? Они были созданы проектом HeyGen. После этого сайт продолжал обновлять функциональность.
🔄
И сейчас мы имеем вот что:
1️⃣Нужно записать двухминутное видео, на котором говорить и жестикулировать как обычно.
2️⃣Это двухминутное видео превратится в видео на любом языке с любым текстом но с вашим голосом, мимикой, жестами, внешностью и окружением.
3️⃣Текст можно сгенерировать тут же с помощью ChatGPT.

Выводы
Одно дело читать о том, что это где-то есть, а другое - пробовать. Я вас призываю попробовать, открыть глаза на произошедшее и примерить к своей жизни и к информации, которую вы получаете\будете получать.

Я записала аватара у себя на кухне за полночь, поэтому уж простите за кустарность и внешний вид. Я думаю, что у вас получится сняться намного лучше!

Ну и ещё, упомяну один минус сайта - абсолютно ужасный не юзабельный интерфейс редактирования текста. Это даже больший шок для меня, чем то, что я сделала аватара менее чем за час.

🔣🔣🔣
Делитесь мыслями, впечатлениями, аватарами в комментариях 💬
Please open Telegram to view this post
VIEW IN TELEGRAM
8
#объясняем
LoRA (Low-Rank Adaptation of Large Language Models) — это метод адаптации тяжёлых моделей (языковых, мультимодальных, генеративных) под решение специфических задач для использования на определённх доменах. Его основная идея в модификации весов существующей предобученной модели с помощью низкоранговых матриц.

В традиционном подходе к дообучению (fine-tuning) больших языковых моделей обновляются все веса модели, что требует значительных вычислительных ресурсов и времени. LoRA же позволяет адаптировать модель, изменяя только небольшое подмножество параметров, что делает процесс более эффективным. Для получения окончательных результатов комбинируются как оригинальные, так и адаптированные веса.
В принципе, LoRA может быть применена к любому подмножеству матриц весов в нейронной сети, но обычно применяется только к блокам внимания (attention).

Преимущества:
значительное сокращение количества обучаемых параметров
возможность использовать лёгкие портативные LoRA для различных последующих задач, построенных на их основе.
производительность LoRA моделей сопоставима с производительностью полного дообучения
время inference не меняется, потому что веса адаптера могут быть объединены с базовой моделью

Примеры практических задач:
Специализированные языковые приложения: адаптация для работы с юридическими, медицинскими или техническими текстами.
Персонализация ответов: в случаях, когда нужно адаптировать модель для генерации текста, соответствующего определенному стилю или предпочтениям конкретного пользователя.
Мультиязычные приложения: адаптация модели для лучшего понимания и генерации текста на менее распространенных языках, для которых может не хватать обучающих данных.
Новые знания: в новостных приложениях, где модель должна быстро адаптироваться к текущим событиям и тенденциям.
Стилизация в моделях генерации визуального контента: задать определённый стиль или жанр.
Решение других задач: семантическая сегментация, классификация изображений.

Объяснениe на hugging face
Please open Telegram to view this post
VIEW IN TELEGRAM
8
This media is not supported in your browser
VIEW IN TELEGRAM
Минутка самодеятельности. Сказка "Маленькая рыбка". Автор: Елена Ульева. Сборник Добрые дела

Мотивация: оживить сказку из бумажной книжки.

Как создавалось видео:
1. Запись своего голоса на диктофон. Конвертация в текст. any2text.ru
2. Синтез голоса с помощью Yandex Speech Kit.
3. Сфотографированные и кропнутые иллюстрации из детской книжки (4 штуки) анимированы с помощью пайплайна PIA.
4. Для анимации использован консольный интерфейс и работа через .yaml файлы.
5. Многочисленная фильтрация нагенерённого, ручные вызовы ffmpeg для кропов\склеек\конвертаций.

Вся работа велась на локальной машине, кустарно. Это OpenSource. Как видим, качество сильно уступает production решениям.

Я экспериментировала с другими вариантами сцен и моделей, и конечно, видно, что эффектов кот наплакал, галлюцинаций тьма.

Наверное, чтобы создавать мультики или оживлять книжки нужно обязательно проводить некоторую сегментацию, затягивать фон и анимировать уже только выбранных персонажей.

Вопросы к читателям:
1. Вам было бы интересно узнать подробностей? Если да, то какие?
2. Вам было бы интересно копнуть эту тему поглубже?

Ну и как обычно, в комментарии припасла кое-что ещё.
7
This media is not supported in your browser
VIEW IN TELEGRAM
Wow-wow! Посмотрите, что я нашла!🔝
Прекрасный стартап spiritme.tech, который не просто генерирует аватаров, но работает напрямую с вашей ПРЕЗЕНТАЦИЕЙ!
Достаточно закинуть на сайт файлик, выбрать аватара или создать своего, и получите шикарнейшее видео!

Если вы блоггер или лектор в институте, только представьте, насколько удобнее вам будет готовить интерактивные материалы! 📊📈

На этот раз я использовала прекрасного, харизматичного ведущего, чтобы он представил презентацию, которую для меня автоматически сгенерировал другой сервис на основе ИИ. Таким образом, от меня требовался только промпт к презентации (идея), остальное сделали алгоритмы. Идея презентации шуточная, не удивляйтесь! 🤡

Их аватары:
🔣Реалистичны
🔣Эмоциональны
🔣Могут скопировать вас и ваше поведение
То есть ничем не уступают предыдущему решению, но предлагают совершенно уникальный продукт - генерацию напрямую по презентациям.

SpiritMe поддерживает несколько языков, включая английский, французский, испанский и русский.

Ребята настоящие инноваторы. Они:
- запустили кастомных аватаров ещё в феврале
- первыми сделали эмоциональный движок
- первыми представили решение для презентаций

Пока ещё сайт находится в разработке, и не работает на ОС Linux из-за некоторых системных особенностей. Запускайте на Windows, MacOS в браузерах на базе Chromium.
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Встретила любопытную ёмкую статью про грядущие тренды в ИИ на медиум, и перевела её для вашего удобства (теперь на русском и без VPN).
Статья базируется на статистических данных и описывает текущие состояние дел в различных направлениях внедрения ИИ.

Перечислю кратко тезисы и к некоторым добавлю свои комментарии (выделены в виде цитат)
1. Продолжится рост Генеративного ИИ.
Продолжается текущий тренд

2. Трансформируются рабочие процессы за счёт личных средств автоматизации работников. Это может быть опасным для корпоративных секретов компании.
Продолжается текущий тренд, одна из моих мотиваций для ведения этого канала - держать себя и подписчиков в курсе доступного инструментария

3. Прогнозируется рост Open Source за счёт внедрения ИИ в стек компаний среднего размера.
Тренд может упереться в ограниченность доступных вычислительных ресурсов для крупных моделей. Однако обработчики изображений и квантованные языковые модели вполне можно использовать на современной графической карте, чего достаточно для решения многих задач мелкого бизнеса. Среднему бизнесу нужны будут сервера помощнее, а с железом у нас в стране вопросы.

4. Использование страховых механизмов для борьбы с рисками галлюцинаций.
Считаю это решение закономерным. Страховщикам придётся серьёзно поломать голову для просчёта конкретных рисков сбоя LLM.

5. 75% программистов к 2028 году будут писать код с использованием ИИ.
Думаю, что программисты первыми вступят в симбиоз с ИИ не только в плане кода, но и в плане стиля жизни.

6. Для борьбы с ошибками ИИ на предприятиях нужно внедрять систему управления рисками (AI Trism).
Ничего не слышала об этой системе до сих пор. А Вы?

7. Ожидается бум персонализации на базе ИИ - усиление персональных рекомендаций.
Рекомендательные системы плавно переходят на новый технологический виток

8. Синергетическое развития ИИ и квантовых технологий: ИИ будут помогать создавать программы для квантовых компьютерах, на которых будет запускаться ИИ. И так в цикле.
9. Усиление законодательной регуляции ИИ по всему миру.
10. Озабоченность этикой ИИ. Выравнивание ИИ.
Недавно искала новые курсы по ИИ в ведущих ВУЗах США, поразило обилие курсов, связанных с эмоциями и этикой ИИ.

А недавно китайские учёные показали, что
страх усиливает способности ИИ
к управлению автомобилями.

11. Трансформация рынка труда - появление новых профессий и изменение механизмов существующих (менеджер по продуктам ИИ, Инженер ИИ, Этик ИИ, Менеджер данных ИИ, Аналитик настроений, Специалист по регулированию ИИ, Дизайнер взаимодействия человека и компьютера).
Если подумать шире, возможно в будущем нам предстоит ассоциировать себя не столь со специальностью, сколько с перечнем решаемых нами (разумеется, с помощью ИИ-агентов), задач. А смена компетенции станет намного более простой, нежели сейчас

12. Онлайн поиск на базе ИИ будет: персонализированным, учитывающим контекст, работающим на естественном языке и с визуальными запросами.
Всё это уже есть, откройте Гугл

13. Внедрение ботов в клиентскую поддержку пока что вызывает конфликт между ожиданиями менеджеров от роста производительности и реальностью в виде недоверия клиентов.
Думаю, до решения вопроса с юридической регуляцией, оценкой рисков и прогресса в этике, осторожность вполне обоснована.
4
На мой взгляд, в статье не затронуты другие важные инновационные сферы для внедрения ИИ, такие как:
1. Ускорение научных изысканий. В том числе применение ИИ к поиску новых соединений, лекарств, в биотехнологиях.
2. Трансформация медийного\информационного пространства. Изменение путей генерации и передачи контента от человека к человеку.
3. Изменение подхода к образованию: персонализация, ещё большая доступность, вариативность форм подачи образовательного контента, возможность симуляций лабораторных работ в виртуальной реальности и многие другие перспективы.
4. Внедрение ИИ в медицине. Анализ болезней по КТ, постановка диагнозов, прогнозирование развития заболеваний.
5. Внедрение ИИ на производстве и в сельском хозяйстве. Нас ждут ещё более автоматические тракторы. А роботы уже заменили людей на складах.
6. Продолжение развития беспилотных автомобилей.
7. Внедрение ИИ для распознавания людей в магазинах с автоматической оплатой и так далее и тому подобное...

Год спустя мы откроем этот пост и сравним, насколько изменился мир за 2024 год.
5
Умная колонка отрастит ножки

В начале января на выставке покажут LG Smart Home AI Agent - двуногого мини-робота, оснащённого языковой моделью.

🔠По задумке создателей он будет выступать в роли менеджера умного дома - то есть работать как колонка на ножках: синхронизироваться с устройствами, управлять ими, сообщать владельцу о неисправностях.
🔠Мобильность даёт ему дополнительные функции: взаимодействие с животными, патрулирование дома, экономия электричества (отключать ненужные приборы и включать их обратно).
🔠Третье его достоинство - распознавание и учёт человеческих эмоций.
🔠Цена робота пока не известна. Мне кажется, что это прикольное новшество, но не достаточно практичное.

Лично я для дома жду доступную колонку-пылесос с рукой манипулятором, а Вы?
Please open Telegram to view this post
VIEW IN TELEGRAM
31
Очередное расследование🔎

Недавно друг прислал мне чудесную фотографию Луны (слева) 🌕, которая не могла меня не заинтересовать.
Подпись к фотографии: Вечерняя Луна над вершиной Монте-Визо и башней в Турине. Автор фото: Valerio Minato, 15 декабря 2023 года.

Я часто имею дело со сгенерированными изображениями, и сразу закралось сомнение: не фейк ли это? 🤔 Ища источники изображения, обнаружила похожую фотографию (справа), опубликованную в 2022 году в запрещенной в РФ соцсети Instagram 📸.

Так как именно был подобран ракурс и место съёмки? Оказывается, астрофотографы действительно планируют свои работы заранее, и используют для этого цифровые инструменты 🌌🔭.

Для съёмки правого изображения было использовано приложение PhotoPills. Оно отнюдь не новое, вышло на Андроид ещё в 2017. В приложении есть различные калькуляторы и инструменты планирования, каждый из которых помогает фотографам в разных аспектах их работы, например:
Калькулятор Солнца помогает фотографам понять положение и движение солнца в течение дня ☀️. Он полезен для планирования съемок во время золотого часа, синего часа, восхода и заката, обеспечивая фотографа информацией о том, когда свет будет идеальным для желаемых кадров.
Калькулятор Луны предоставляет информацию о фазах луны, времени восхода и захода, а также о положении луны в любой заданный момент 🌙. Это особенно полезно для ночной фотографии или при планировании снимков, включающих луну в определенной фазе.
Калькуляторы Млечного Пути, Метеорных Дождей, точечных звёзд и звёздных треков - рассчитывают оптимальные настройки съёмки, предлагают оптимальные даты для фиксации значимых событий 🌠🌌.

Такой осознанный подход позволяет фотографам минимизировать число бесплодных усилий, а получать результат почти всякий раз, как они взяли в руки камеру 📷.
🔣🔣🔣
А Вы когда-нибудь занимались художественной фотографией? Удавалось ли Вам сделать удачные снимки? Какие цифровые средства вам в этом помогли? 🤳
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7
Forwarded from Адель и МЛь
This media is not supported in your browser
VIEW IN TELEGRAM
I wanna return to monkey,
I wanna be wild and free,
I wanna return to monkey,
modern life is not for me

Топовая AI композиция, припев вообще доставляет 🎶🎸

By Suno.ai
3
Хочу познакомить вас с моим другом. Я знаю Карэна уже 15 лет. Помню, как на парах он кодил какой-то нереальный фронтенд с безупречным дизайном, никто из нас не мог себе и представить ничего подобного тогда!

За эти годы, Карэн работал над сайтами, мобильными приложениями, играми и не потерял энтузиазм. А теперь он с радостью готов заразить им нас, чтобы мы тоже полюбили Django.
Недавно он запустил ютьюб-канал!
🔣Канал на английском языке
🔣Каждое видео - подробный тьюториал, в конце которого вы создадите свой собственный проект
🔣Например, у Карэна есть видео про создание своего ChatGPT4 бота в Telegram
🔣А недавно, Карэн начал выпускать новый плейлист про FullStack разработку

В новогодние праздники планирую уделить время этим видео, хочу разобраться в теме.
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Это не похоже на обычный контент моего канала, сегодня будут
🔠🔠🔠🔠🔠
Но не какие-нибудь там, из интернетика, а из моей айтишной жизни.

🤡🙂🆒
Итак, сегодня я сделала 3 смешных открытия:
У программного кода есть пол (code has a gender)
Страшная ошибка из прошлого "core dumped" всё ещё возникает (даже от безобидной питоновской библиотеки для визуализации графиков)
.pth в английской раскладке эквивалентен слову юзер в русской (между строк: юзер, учи pytorch!)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
31
DiffMorpher - подход на основе диффузии, обеспечивающий плавную и естественную интерполяцию изображений.
Ранее первенство в этой задаче принадлежало моделям на основе GAN.
Идея алгоритма:
1. Для каждого изображения пользователь вводит промпт, по которому учится ЛОРА.
2. Затем производится инверсия, строятся скрытые шумы с учётом ЛОРА.
3. Эти скрытые шумы линейно смешиваются на каждом шаге денойзинга, также смешиваются веса ЛОР, слои внимания, текстовые эмбеддинги.
4. При этом обратное преобразование происходит уже по смешанным параметрам.
5. Обширные эксперименты демонстрируют, что DiffMorpher обеспечивает значительно лучшие эффекты преобразования изображений, чем предыдущие методы, для различных категорий объектов, устраняя критический функциональный разрыв, который отличал диффузионные модели от GAN.
Проект, Колаб
2
Практические примечания от меня к работе с моделью:
1. Картинки должны быть квадратными.
2. Вначале лучше посчитать ЛорЫ, потом нажать на кнопку "Расчёт без лоры".
3. Генерируется 16 кадров разрешением 512.
4. Работает 2 минуты на видео.
Интерполирует плавно, но в процессе всё равно анархия.
Анимацию движения таким образом не сделать.
Интерполяцию следует производить между двумя когерентными объектами.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
12 месяцев. Союз-Мультфильм. 1956 год.
Применён алгоритм Real-ESRGAN для увеличения разрешения видео в 4 раза.
ESRGAN широко применяется как компонент в других алгоритмах обработки изображений для адаптации к работе с данными высокого разрешения.

Исходник низкого разрешения (почему-то заболочено в РФ).
Это видео в youtube (выберите 4к в настройках).

К сожалению, деталей не везде хватает, и изображение получается хоть и чётким, но с недостаточной прорисовкой лиц, например.
5
Время подводить итоги года
🔣Мои впечатления от прошедшего года и ожидания от следующего
2023 был для меня интересным годом:
- распространились и значительно развились языковые модели, они стали доступнее (API, локальные варианты), мощнее (смесь экспертов), разностороннее (умеют пользоваться сторонними инструментами, пишут код, решают математические проблемы)
- возникло огромное число применений для генеративных моделей, очень многие проблемы, над которыми раньше бились годами, теперь решаются элементарно (преобразование текста в изображение, стилизация, паноптическая сегментация, реалистичный рендеринг в реальном времени)
- увеличилось представительство русскоязычного ИИ-комьюнити в Телеграм (например, каналу Сиолошная ещё нет и года, а у него уже 30к подписчиков)
- увеличился темп научных и информационных трансформаций, уменьшилсь время внедрения в продукты
- генеративное искусство подняло творческие возможности человека на небывалый доселе уровень

От 2024 года я ожидаю:
- Выход языковой модели Q* от ChatGPT, развитие генеративных моделей text в video, text в 3D до продуктового уровня, развитие моделей управляемой генерации аудио
- Усиление конфронтации между E/ACC и редукционистами, вероятно массовые протесты, ожесточённые споры экспертов
- Внедрение ИИ в робототехнику, решение задачи планирования для роботов, появление домашних роботов расширенной функциональности
- Развитие ИИ-медицины, ИИ-обучения
- Наполнение интернета fake news в небывалых количествах из-за развития генеративок и дип-фейков голоса и лица

PS. Очень жду, что в 2024 году ИИ сделают продолжение сериала "Светлячок". С помощью LLM могли бы сделать текст, а с помощью text-to-video + аватаров сгенерировать видеоряд.
Please open Telegram to view this post
VIEW IN TELEGRAM
5