{AI} love you | Нейросет – Telegram
{AI} love you | Нейросет
245 subscribers
89 photos
16 videos
88 links
Авторский канал о prompt-gramming.
Гайды, разборы, ревью, рекомендации и личные инсайты о нейросетях.

Автор — @troclap
____________
Курс "ChatGPT в работе"
на Stepik: https://stepik.org/a/200358
на GetCourse: https://ailoveyou.getcourse.ru/gpt-assistant
Download Telegram
#ОбзорГены №6

Многое из того, что попало в эту подборку, быстро исчезнет из внимания, потому что наступившая неделя должна принести новости, которые "перевернут игру".

{ Свежак }

🔠 Prompt Generator от Claude: лучшая попытка автоматизации промпт-инжиниринга.
🔠 Adobe выкатили конструктор изометрических 3D-сцен Project Neo. Один из лучших юзкейсов — создание референсов для генерации пейзажных сцен.
🔠 ElevenLabs снова всех уделал в звуке, представив свой txt2music. Udio по вокалу бил Suno, а ElevenLabs бьет Udio.
🔠 Bernini: 3D генератор от Автодеска. Генерация 3D подбирается к промышленности.
🔠 Компания Gradient выпустила LLaMA-3-8B с 4M (!!) контекстным окном. Ну, о-о-очень много.
🔠 Google представил ScreenAI для работы с UX продукта. Шаг в сторону LAM (large action model).
🔠 Gazelle — первая open source VoiceToLLM модель. Врата, которые раскрыла модель Hume и в которые похоже попадет сегодняшний релиз от OpenAI.

{ Пульс }

⚡️ LLaMA-3-70B бьет топов в креативных задачах (поэзия и проза, брейншторминг), но проигрывает в сложных (математика, перевод, суммаризация).
⚡️ Чат-бот gpt2 сделал клон игры Flappy Bird по zero-shot промпту.
⚡️ Учет лёгких планеты: все 50 млн км лесов с точностью до 1 метра в высоту и с разрешением в каждое дерево.
⚡️ ML-модель позволила расшифровать алфавит кашалотов.
⚡️ Исследование физических свойств предметов в ИИ-реальности.
⚡️ Ученые из Мэрилэнда изобрели мантию-невидимку, которая скрывается от Computer Vision моделей.

{ Текстуры }

Кейс про маркетинговые LLM-опросы — нетривиальное решение очевидной задачи.
Отличная подборка LLM-кейсов от Леши Хахунова и Димы Мацкевича.
"Превзойдет ли цифровой интеллект биологический?" — лекция от Jeoffrey Hinton с важными идеями.
30+ легендарных статей от Ильи Суцкевера, которые помогут разобраться во всём (!)
Обзор рынка: число AI-стартапов в мире, применение GenAI в России, топ-100 LLM в одной таблице, самая масштабная карта MAD-рынка и перевернутая структура прибыльности GenAI-индустрии.
Ролик, в котором девушка (не) шутит про то, что усердно работает для того, чтобы ее муж мог позволить себе терять по $30тыс в месяц на своем AI-стартапе.

{ Находки }

😯 Cleanlab — LLM-чатбот с проверкой надежности ответов.
😯 Recraft — пока лучший сервис для векторизации и генерации векторных изображений.
😯 WebCamMotionCapture — софт для стилизации вебкам-трансляций.

{ Перекресток мнений }

Inpainting / Restyling / Evaluation. Самая частая претензия к GenAI-креативам в тексте / картинке / музыке / видео — это отсутствие привычного творческого контроля. По мере того, как новая модальность пробивает порог массовости применения, становится заметно, что в GenAI-пайплайнах есть своя форма творческого контроля, которая отличается от до-генеративного. Музыкальный генератор Udio вот-вот внедрил Audio Inpainting, знакомый по картинкам и видео. В изображениях Inpainting и Control Net уже серьезно перевернули процесс, создав феноменальные ComfyUI-пайплайны. Компонент, которого мне пока не хватает нигде — это Evaluation. Сейчас его выполняет человеческий вкус, и превосходный AI-креатив выходит от людей с безупречным вкусом.

#llm #promptgramming #3d #lam #speech #review #gamedev #ecology #stem #cv #marketing #usecase #map #rag #vector #restyle #video #inpainting
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1
OpenAI показали крошки от того, на что новая модель GPT-4o способна. В демо сконцентрировались на голосовом общении (впечатляющем!), но посмотрите, что случилось с визуалом 👆:
— генерация рукописного текста
— идеальная передача печатного текста
— наконец, инфографика ✔️
— брендирование (перенос лого из входного изображения)
— генерация 3D на основе 6 консистентных изображений 👇🏻

Первая true-multimodal модель, где на вход и на выход подаются все модальности, с которыми нейросети вообще справляются. Плюс на стыке модальностей очевидно возникли новые способности, которых не было у mono-modal моделей по отдельности. В очередной раз OpenAI выпустили лидирующую general use модель.

#openai #speech #image #3d #vision #consistency
👍4
Главная интрига для меня: как скажется более оптимальный мультиязычный токенизатор на генерацию текста по-русски?

Именно старый токенизатор отвечал за большую часть отставания в качестве генерации на русском языке в отличие от английского. Это было критично, например, для SEO-статей.

Первые результаты (у меня уже появился доступ к GPT-4o) впечатляют. Качество русскоязычного текста заметно улучшилось. Ушли словесный мусор и безудержные эпитеты.

Еще нужно тестировать, но кажется скоро рунет резко заполнится AI-текстом.

#llm #text
🔥2
Google привычно скорее разочаровывает нежели очаровывает. OpenAI раз за разом их обыгрывает медийно и по перформансу моделей. Сломать эту тенденцию не получается.

Но когда на презентации слово "AI" звучит 120 раз, то парочка выстрелов всегда в яблочко. На мой взгляд, есть две пользовательские сферы, в которых у Google все шансы всех обыграть:
1. Персонализация AI-чатбота (за счет того, что Google уже знает о вас).
2. Внутрикадровый AI-поиск в Youtube (есть мнение, что он придет на смену Google-поиску).

И то, и другое упоминалось вчера, без особых акцентов. Для первого уже есть NotebookLM, для второго Google AI Studio. У обоих beta-проектов есть очевидные достоинства, и они недооценены. Странно, что Google не может расставить акценты и грамотно пропиарить успешные решения.

#release #text #video #rag
👍1
ChatGPT в работе — IX

Запускаю новый поток авторского курса {AI} love you.
Next week.
Краткое изложение предыдущих серий:
ровно год назад родилась идея создать месячный курс по нейросетям для новичков;
с сентября курс сфокусирован на ChatGPT (как идеальном тренажере для всего остального);
с января добавились значимые блоки про GPT-ассистентов / разбор кейсов и приземление персонального ассистента в Telegram.

Со временем цель обучения менялась, и сейчас я бы сформулировал ее провокативно: приобрести привычку пользоваться ChatGPT каждый день. Подсаживаю на умный опиум. Это означает писать и отправлять файлы / скриншоты / голосовые в чатбот, извлекать оттуда ответы / иллюстрации (как 👆) / код и замешивать это всё в кастомного GPT-ассистента.


Обновления:
1️⃣ 9-му потоку повезло с релизом GPT-4o — прекрасная модель со всеми возможностями ChatGPT Plus. Посмотрите распаковку ChatGPT Plus — 15-минутный обзор функционала.
2️⃣ Полноценно заработал telegram-бот не только с бесплатным доступом к GPT-4 (чем не удивишь), но и выдачей персональных заданий и консультаций по учебному материалу.
3️⃣ В качестве эксперимента добавил блок по prompt-gramming (созданию микро IT-решений по текстовой подсказке).

Форматы: видеоуроки + практикум + кейсы + вебинары + мини-проект.

Linkset
— Подробности на GetCourse и на Stepik
Вводная лекция про LLM
Разбор кейса про маркетинговые LLM-опросы
Презентация генератора древних новостей (один из финальных проектов)

Курс можно пройти индивидуально в свободном темпе или в группе в синхронном формате. Поток рассчитан на любые когнитивные профессии. Для записи пишите в ЛС (@troclap) или заполняйте заявку на сайтах.

#edu #chatgpt #course
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Консистентность

Когда ко мне приходят с визуальными задачами, всегда (!) визуализация уже существует в голове заказчика и ее нужно реализовать "на бумаге". Это вызывает две сложности для применения GenAI:
1) как повторить "существующую" (иногда она буквально существует как референс) визуализацию, создав ее заново с нуля (так работают генераторы картинок)?
2) как перенести утвержденный стиль на новые темы / объекты / ситуации? Собственно, консистентность!

Год назад многие задачи ставили меня в тупик. Помню, никак не удавалось в Midjourney v5 (через describe и multi-image reference) повторить мультяшного векторного персонажа и его семейство. Позже стало понятно, что для этого существуют LoRA, ControlNet и IP-Adapter в Stable Diffusion. На худой конец можно ловко применить Inpaint (Generative Fill).


Недавно помогал оформлять обложки для буклетов (20 разных тем в едином стиле). Придумал пайплайн с участием ChatGPT, DALL-E и парочкой специфичных нейросеток. То, что вы видите — это не финальный результат, а полуфабрикат после DALL-E. Он удивительно хорош (но не идеален) по консистентности (цветовая схема, символизм, минимализм).

Бонус. В процессе поиска оптимального векторайзера (лучше, чем у Adobe) присмотрелся к Recraft AI, который по-дружески нахваливал канал "Метаверсище и ИИще" (у Recraft русские корни). Подтверждаю, в юзкейсе с векторной графикой он среди лучших.

#image #dalle #consistency #vector
👍5
Говорящий дэшборд

То, что LLM можно впустить почти всюду — стало общим местом. Но для конкретного человека это звучит абстракцией, у него десятки (может сотня) задач, дай бог, найти пару сверхполезных применений ИИ и десяток вообще. Далеко не всюду.

Расскажу про реальный кейс, к которому я прикасался, и он из числа нестандартных — тех, что придут в голову не сразу.

BI-аналитики (и не только) любят дэшборды из PowerBI. Красивые, интерактивные, как приборная панель космолета из футуристического кино. Эти предметы дизайна обзавелись анимацией и сложными примочками, но до 2024-го обходились почти без ИИ. Это медленно меняется. Microsoft выкатил полноценный блок под названием Narrative Visuals, который комментирует содержание дэшборда при каждой смене состояния (изменении фильтрации или добавлении данных). Хороший разбор всех встроенных ИИ-фич в PowerBI тут.


С практической точки зрения для российской компании это путь в преисподнюю. Потому что неудобно подключать (данные должны храниться в Северной Америке или Западной Европе) и очень (!) дорого (около 11$/час за GPT-4 под капотом). Поэтому мы не видим широкое распространение "говорящих" дэшбордов. Но есть хак (даже два). Тот же самый функционал Narrative Visuals реализуем через PowerApps (no-code платформа внутри экосистемы Microsoft): в официальной версии (за 500$ в месяц) и через кастомное подключение (20$ в месяц за доступ к функционалу + плата за токены).

На выходе у вас дэшборд, который содержит кнопку создания комментария или всплывающее окно поверх дэшборда с той же кнопкой. Полезно не просто для описательного комментария, а для выдвижения гипотез / инсайтов на основе данных.

#dashboard #text #llm #powerbi #usecase
👍1🔥1
#ОбзорГены №7

Две недели прошли под влиянием трех топовых презентаций: OpenAI, Google I/O и Microsoft Build. Остальное чуть померкло, потому что гиганты навалили много, в том числе изумруды.

{ Свежак }

🔠 Вышла true-multimodal модель от OpenAI — GPT-4o. Там столько достойного внимания, что релиз до сих пор распаковывается. Например, новый Data Analysis внутри ChatGPT.
🔠 На конференции Google I/O показали проект Astra: видео-чатбот внутри смартфона или Google Glasses (!). И мно-о-о-го другого, например, music2music модель.
🔠 Microsoft представил концепцию Copilot+PC — того самого более глубокого заземления AI в операционную систему и аппаратное обеспечение, которое все ждут. Другие значимые релизы.
🔠 Suno выпустил audio2audio функцию — то, что позволит лучше контролировать процесс музыкального производства.

{ Пульс }

⚡️ В консоли Claude (аналог OpenAI Platform) появились переменные для кастомизации промптов.
⚡️ Hugging Face, на котором размещают все демки свежих исследований, расширил возможность пользоваться ими бесплатно через Zero GPU.
⚡️ Google в пакете со всем остальным выпустил виртуальную примерочную.
⚡️ Как всегда, сразу же появился системный промпт GPT-4o (для ценителей).

{ Текстуры }

Говорящий дэшборд и Консистентность в DALL-E — делюсь наблюдениями от работы над двумя проектами.
Список ютуб-канал на тему AI — многое входит и в мой ютуб-сет.
Еще один туториал про запуск LLM локально — правильный навык.
Статья кинокритика Марии Кувшиновой о том, как нейросети стали апостолами сюрреализма.
Воркфлоу по переносу персонажа в любую локацию и видео нового уровня на основе AnimateDiff + Inpainting + After Effect — две роскошных визуальных работы.
Гениальные предметы интерьера, созданные через ИИ-перенос стиля.

{ Находки }

😯 Chatter — новостной голосовой подкаст от Hume.
😯 Off/Script — производство реальных вещей, вдохновленных AI-творчеством.

{ Перекресток мнений }

GenAI революция vs эволюция. На мой взгляд, революционный потенциал еще высок (в AI-агентах и внедрении в аппаратное обеспечение), однако стало ярко виден эволюционный потенциал — то, как GenAI-продукты планомерно расширяют охват задач и залезают на знакомые территории со своими правилами воркфлоу. Быстрые примеры: GPT-4o вместо умной колонки, Krea / Leonardo вместо фотошопа, AI Data Analysis вместо PowerBI, RAG-чатбот вместо отраслевого поисковика. Везде идет именно эволюционная борьба (можно сказать, естественный отбор 😃): конкуренты перенимают приемы друг друга, защищают core преимущества.

#llm #promptgramming #analysis #multimodal #music #video #gadget #gpu #fashion #usecases #image #media #production #evolution
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Image Reference

В визуальный генератор Leonardo AI недавно завезли мощный инструментарий контроля по входным изображениям: Style / Character / Content Reference. Вчера случайно воспользовался ими, когда обратились с быстрым запросом, который не получалось самостоятельно решить. Киллерфича, на мой взгляд — то, что различные инструменты контроля объединили в один удобный UI прямо в строке ввода промпта. Можно загрузить по одной картинке для каждого типа контроля. Результат выше — это первая попытка.

Напоминаю про Leonardo AI, что это лучший сервис поверх Stable Diffusion с отличным бесплатным лимитом в день.

#image #stablediffusion #reference