PROAI expert – Telegram
PROAI expert
20K subscribers
319 photos
117 videos
5 files
266 links
Экспертное ответвление культового канала о нейросетях PROAI — @pro_ai_news. Только экспертный контент и общение с экспертом в живую.

По всем вопросам — @Benji_Pan

Реклама — ТОЛЬКО @neiromanager

РКН - https://gosuslugi.ru/snet/67ee8214a33d562f1a3de770
Download Telegram
Конкурс ИИ-красоток 💃

Уже не первый случай, когда компании проводят конкурс красоты среди моделей, созданных с помощью ИИ.

Конкурс, о котором я рассказываю сейчас организовала платформа Fanvue. На ней можно зарабатывать на продаже фото и видео, почти как онлифанс, только там разрешают использование ИИ.

В апреле компания объявила о проведении «первой в своем роде» программы вознаграждений World AI Creator Awards (WAICA); «Miss AI» стала ее частью. Жюри оценивало участников по красоте, технологии и влиянию. 8 июля объявили список победителей.

1. Первое место заняла Кенза Лейли из Марокко, имеющая более 197 000 подписчиков в Instagram. Она на первой фотографии.

Получит денежный приз в размере $5000 от Fanvue, доступ к программе наставничества Imagine Education стоимостью $3000 и PR-поддержку на сумму более $5000.

2. Второе место оказалось у Лалины из Франции.

Ее автор стремился создать девушку, максимально приближенную к человеку, чтобы она выглядела реалистично.

За второе место предусмотрена награда и поддержка на общую сумму $5000.

3. Португальская ИИ-модель Оливия С заняла третье место.

Оливия позиционируется как «ИИ-путешественница в большом реальном мире». Автор модели использует Midjourney для создания фотографий и Adobe AI для их обработки.

За третье место положена награда на общую сумму $2000.

Остальные места поочередно тоже можно посмотреть в прикрепленных фотографиях.

Что думаете о таких конкурсах?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2🆒1
Предчувствую скорое создание RPG-игры, которая генерируется в реальном времени 🌈

Вы просто посмотрите на эти видеодемонстрации.

В современном мире виртуальная реальность и игры становятся все более популярными, и технологии для создания виртуальных миров стремительно развиваются. Одной из передовых разработок в этой области является WonderWorld — инновационная платформа, которая позволяет генерировать и исследовать интерактивные 3D-сцены всего из одного изображения.

Основные принципы работы

WonderWorld использует передовые методы обработки изображений и машинного обучения для создания реалистичных и связных 3D-сцен. Одной из ключевых технологий является Fast Gaussian Surfels, которая позволяет оптимизировать геометрию сцены за менее чем одну секунду. Это обеспечивает быстрое и качественное отображение виртуальных миров.

Процесс генерации

Пользователь загружает одно изображение и может задавать текстовые описания для генерации новых элементов сцены. Система также позволяет изменять ракурс камеры для добавления новых объектов в нужных местах. Весь процесс занимает менее 10 секунд на одном графическом процессоре A6000 GPU, что делает WonderWorld идеальным инструментом для создания виртуальной реальности, игр и креативного дизайна.

Преимущества и возможности

WonderWorld значительно сокращает время на создание 3D-сцен, что открывает новые горизонты для пользователей. Платформа может применяться в различных областях, от разработки игр до создания виртуальных туров и архитектурных визуализаций.

WonderWorld представляет собой значительный шаг вперед в области генерации виртуальных миров. Благодаря своей скорости и простоте использования, эта платформа открывает новые возможности для креативных проектов и интерактивных приложений. Ожидается, что полная версия кода и программного обеспечения будет доступна в ближайшее время, что позволит широкой аудитории воспользоваться преимуществами этой технологии.

Для более детальной информации и примеров можно посетить сайт проекта WonderWorld.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍1👾1
Проверка Heygen 👨‍💻

Гиганты видеоаватаров выпустили свой сервис для оживления фото по загруженному звуку.

Оценивая по их прошлым продуктам, и по ценам, кхм, ожидаешь увидеть самый лучший результат. Вот я это и решил проверить.

Основное отличие от других в том, что HeyGen сами должны добавить хорошие анимации, в отличии от многих сервисов липсинка, но глаза, как видно в конце, все равно уходят куда-то не туда. Да и губы не совсем правильно попадают.

Да, и кстати, нейросеть решила обрезать изначальное фото до крупного плана лица. Исходник прикреплен вторым файлом.

Оставляю это на Ваш суд.

И, кстати, этот сервис выпущен отдельным редактором по этой ссылке.

Пока что можно даже бесплатно попробовать.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Эффект Манделы в ИИ? 😐

Так, нет, я не буду рассказывать о чем-то похожем на теории заговора, а просто немного задумался.

Сейчас много и часто выходят новые нейросетевые модели, которые создают дипфейк, синхронизируют движение губ с текстом и накладывают мимику из одного видео на другое. Как пример последнее LivePotrtrait, о котором недавно писал в основном канале. Чтобы удобно было сравнить - это на первом видео.

И вот ребята из fal.ai сделали тизер похожей штуки, только в реальном времени.

И о чем я, собственно, задумался. Не знаю, будет ли для Вас секретом, что нейросети и Искусственный Интеллект существуют достаточно давно, а не последние два года, которые они хайпят, как минимум в виде Machine Learning.

И мне вспомнилось, как папу лет назад люди сидели на стримах с масками животных, которые хоть и минимально, но повторяли их мимику, движения головы и открывали рот под слова. В реальном времени. Да и в SnapChat что-то похожее было.

А сейчас выпускают модели как на втором видео, и в контексте текущей линии развития ИИ, это выглядит как что-то очень новое.

И вот я думаю, это я просто запомнил слишком идеализированно те маски, или как будто не так уж быстро развиваются модели с повторением мимики.

Ну и еще вариант, что наложить мимику на лицо другого человека, а не фури, намного сложнее, чем мне кажется.

Есть у Вас мысли на этот счет?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Небольшой ликбез и история развития языковых моделей 🙌

Мы много говорим про нейросети и ИИ, но, мне кажется, не всегда понимаем, что это вообще такое и как работает. Сегодня хочу вас немного погрузить в определения, связанные с языковыми моделями и когда они появлялись.

Что такое языковое моделирование и как оно развивалось?

Языковое моделирование — это процесс, который помогает компьютерам понимать и обрабатывать человеческий язык. Это включает в себя создание текстов и представление языка в такой форме, чтобы машина могла его прочитать и понять. Давайте рассмотрим основные этапы развития языковых моделей.

🙌N-граммные модели

В 1980-1990-х годах популярными были n-граммные модели. Они предсказывали следующее слово в тексте, основываясь на предыдущих словах. Например, биграммная модель (N=2) использует два предыдущих слова для предсказания следующего. Однако, такие модели не всегда точны и нуждаются в специальных методах коррекции, таких как сглаживание.

🙌Нейронные сети

В 2000 году Йошуа Бенжио предложил использовать нейронные сети для улучшения языковых моделей. Вместо простого подсчета слов, нейронные сети строят сложные зависимости между словами. Это позволило моделям лучше понимать контекст.

🙌 Рекуррентные нейронные сети (RNN)

RNN могут учитывать всю последовательность слов для предсказания следующего. Это делает их более точными, особенно когда важно учитывать дальние связи между словами. Улучшенные версии RNN, такие как LSTM, ещё больше повысили их эффективность.

🙌 Трансформеры

В 2017 году были представлены трансформеры. Они заменили RNN благодаря своей способности обрабатывать текст быстрее и эффективнее за счёт параллельной обработки. Трансформеры используют механизм самовнимания, что позволяет им лучше понимать контекст и предсказывать слова.

🙌 Оценка качества моделей

Для оценки качества языковых моделей используется метрика "перплексия". Чем ниже перплексия, тем лучше модель предсказывает текст. Также применяются специализированные тесты, такие как MMLU и HumanEval, для оценки моделей, настроенных на выполнение конкретных задач.

🙌 Итоги

За последние десятилетия языковые модели прошли долгий путь: от простых n-грамм до мощных трансформеров. 

И сейчас мы вкушаем уже не просто распознаватели текста, а программы, которые могут решать задачи и одновременно работать с разными типами данных. Интересно, что будет завтра.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72
Новые вехи 3D-генерации 🙏

В последнее время часто натыкаюсь на определение гауссова сплэтинга в контексте генерации 3D-моделей и миров в играх или анимации. Недавно я писал о проге, которая уже неплохо генерирует игровые локации.

Если честно, сам еще не до конца понимаю, как это работает. Гугл говорит, что это метод восстановления трехмерных изображений в реальном времени и ренедеринг изображений с разных сторон объекта.

И сейчас снова наткнулся на статью, в которой описывается новая нейросеть с открытым кодом, которая привносит новый метод генерации  высококачественных полигональных сеток из "плоского" видео.

Примечательность в том, что для создания модели с полигонами достаточно одного видео. Причем программа добавляет даже те трехмерные фрагменты движения объектов или животных, которых нет на исходном видео - она сама достраивает их, отслеживая верхние точки.

Интересно то, что человек здесь обгоняет нейросети, потому что опытному 3D-художнику нужно всего лишь одно изображение для создания таких сеток, а нейросетям нужна серия снимков с разных сторон. Поэтому программа, которую мы сегодня рассматриваем - это новый шаг в развитии 3D-генерации.

Вот еще чуть-чуть и мы увидим игровые и метаверсные миры, которые создаются пока мы по ним перемещаемся. И тогда, конечно, игровая, а может и кино- промышленность очень сильно видоизмениться.

Ссылка на статью.

Код на GitHub.
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Внутренние документы OpenAI раскрывают проект "Strawberry" 🍓

Кодовое имя "Strawberry": агентство Reuters сообщает, что это внутреннее название нового проекта OpenAI, ранее известного как Q*. Информация взята из внутренней документации, полученной источником и просмотренной Reuters.

Основные моменты:

План исследований: документ описывает, как OpenAI собирается использовать Strawberry для проведения глубоких исследований. Для этого была значительно улучшена способность модели к рассуждению.

Отсутствие публичной информации: нет подробностей о возможном публичном появлении системы, а также о принципах её работы, которые сохраняются в секрете даже от большинства сотрудников OpenAI.

Демонстрация возможностей: ранее в этом году два источника видели демонстрацию Q*, где система отвечала на сложные научные и математические вопросы, выходящие за рамки возможностей современных моделей. Эта информация впервые появляется в отчёте Reuters, что может свидетельствовать о её подтверждении.

Внутренние презентации: в четверг на еженедельной встрече OpenAI демонстрировали новые навыки моделей, как сообщал Bloomberg. Связь этого события с проектом Strawberry/Q* не подтверждена.

Долгосрочное планирование: в документе подчёркивается, что Strawberry нацелен на выполнение задач с длинным горизонтом планирования, требующих выполнения ряда действий в течение длительного времени.

Дообучение модели: обучение модели проводилось на наборе данных "deep-research". Предполагается, что это промежуточные мысли, которые приводят к выводам и не сохраняются в обычных наборах данных, что затрудняет моделям их изучение.

Тестирование на программистах: OpenAI планирует протестировать возможности Strawberry в выполнении задач программистов и инженеров машинного обучения.

Следите за обновлениями, чтобы первыми узнать о дальнейших новостях проекта Strawberry!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Логотип! За минуту! Бесплатно! 🤩

Я тут Вам полезную нейросеть принес. Бесплатную совсем. Честно-честною. Но только с ограничением по количеству генераций за день. Но результат выдается в 4 вариантах, так что Вам вполне хватит и протестировать и даже сделать логотип для друга.

Разработчики, видимо, выкатили тестовый вариант сервиса и отрабатывают ошибки, потому что уведомления о них выскакивают достаточно часто. Но простое обновление страницы вполне помогает. Просто будьте к этому готовы.

Итак, сервис очень минималистичный. Нажимаем на "Начать бесплатно", попадаем в редактор. В первом окошке справа пишем основной символ логотипа. Именно там описывайте все визуальные нюансы, потому что текст из следующего окошка переносится на изображение. Именно там пишите название компании, если нужно.

Дальше выбирайте стиль: минималистичный, умеренный или сложный. Но я, если честно, сильной разницы не заметил. Нейросеть генерирует варианты примерно в одном и там же стиле.

Дальше выбираете отрасль компании и создаете логотип. После, если видите в результатах то, что не хотите там видеть, добавляете негативный промпт.

Логотипы генерируются достаточно милые, но меня смущает, что иногда добавляются подписи, которых не было в запросе. Очень похоже, что они добавляются из названия отрасли.

В принципе это всё. Переходите по ссылке и тестируйте.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73
🧠OpenAI представляет GPT-4o mini, меньшую и более дешевую модель ИИ 

Подробный разбор

OpenAI представила GPT-4o mini в четверг, свою последнюю небольшую модель ИИ. Компания заявляет, что GPT-4o mini, которая дешевле и быстрее текущих передовых моделей ИИ OpenAI, выпускается для разработчиков, а также через веб и мобильное приложение ChatGPT для потребителей. Корпоративные пользователи получат доступ на следующей неделе.

Компания утверждает, что GPT-4o mini превосходит ведущие в отрасли небольшие модели ИИ в задачах рассуждения, связанных с текстом и изображениями. По мере улучшения небольших моделей ИИ они становятся все более популярными среди разработчиков благодаря своей скорости и экономической эффективности по сравнению с более крупными моделями, такими как GPT-4 Omni или Claude 3.5 Sonnet. Они являются полезным вариантом для выполнения простых задач в больших объемах, которые разработчики могут многократно выполнять с помощью модели ИИ.

GPT-4o mini заменит GPT-3.5 Turbo как самую маленькую модель, предлагаемую OpenAI. Компания утверждает, что ее новейшая модель ИИ набирает 82% на MMLU, эталоне для измерения рассуждения, по сравнению с 79% для Gemini 1.5 Flash и 75% для Claude 3 Haiku, согласно данным Artificial Analysis. На MGSM, который измеряет математические рассуждения, GPT-4o mini набрала 87%, по сравнению с 78% для Flash и 72% для Haiku.

Кроме того, OpenAI заявляет, что GPT-4o mini значительно дешевле в эксплуатации, чем предыдущие передовые модели, и более чем на 60% дешевле, чем GPT-3.5 Turbo. Сегодня GPT-4o mini поддерживает текст и изображения в API, и OpenAI заявляет, что модель будет поддерживать видео и аудио возможности в будущем.

«Для того чтобы каждый уголок мира мог пользоваться ИИ, мы должны сделать модели гораздо более доступными», — сказал руководитель Product API OpenAI Оливье Годемент в интервью TechCrunch. «Я думаю, что GPT-4o mini — это действительно большой шаг в этом направлении».

Для разработчиков, работающих с API OpenAI, GPT-4o mini стоит 15 центов за миллион входных токенов и 60 центов за миллион выходных токенов. Модель имеет контекстное окно размером 128 000 токенов, примерно равное длине книги, и ограничение знаний на октябрь 2023 года.

OpenAI не раскрывает точный размер GPT-4o mini, но утверждает, что он находится примерно на одном уровне с другими небольшими моделями ИИ, такими как Llama 3 8b, Claude Haiku и Gemini 1.5 Flash. Однако компания заявляет, что GPT-4o mini быстрее, экономичнее и умнее, чем ведущие в отрасли маленькие модели, согласно предварительным тестам в арене чатботов LMSYS.org. Ранние независимые тесты, похоже, это подтверждают.

«По сравнению с сопоставимыми моделями, GPT-4o mini очень быстрый, со средней скоростью вывода 202 токена в секунду», — сказал Джордж Кэмерон, соучредитель Artificial Analysis, в электронном письме TechCrunch. «Это более чем в 2 раза быстрее, чем GPT-4o и GPT-3.5 Turbo и представляет собой привлекательное предложение для случаев использования, зависящих от скорости, включая многие потребительские приложения и агентские подходы к использованию LLM».
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🥰1