{AI} love you | Нейросет – Telegram
{AI} love you | Нейросет
245 subscribers
89 photos
16 videos
88 links
Авторский канал о prompt-gramming.
Гайды, разборы, ревью, рекомендации и личные инсайты о нейросетях.

Автор — @troclap
____________
Курс "ChatGPT в работе"
на Stepik: https://stepik.org/a/200358
на GetCourse: https://ailoveyou.getcourse.ru/gpt-assistant
Download Telegram
OpenAI показали крошки от того, на что новая модель GPT-4o способна. В демо сконцентрировались на голосовом общении (впечатляющем!), но посмотрите, что случилось с визуалом 👆:
— генерация рукописного текста
— идеальная передача печатного текста
— наконец, инфографика ✔️
— брендирование (перенос лого из входного изображения)
— генерация 3D на основе 6 консистентных изображений 👇🏻

Первая true-multimodal модель, где на вход и на выход подаются все модальности, с которыми нейросети вообще справляются. Плюс на стыке модальностей очевидно возникли новые способности, которых не было у mono-modal моделей по отдельности. В очередной раз OpenAI выпустили лидирующую general use модель.

#openai #speech #image #3d #vision #consistency
👍4
Главная интрига для меня: как скажется более оптимальный мультиязычный токенизатор на генерацию текста по-русски?

Именно старый токенизатор отвечал за большую часть отставания в качестве генерации на русском языке в отличие от английского. Это было критично, например, для SEO-статей.

Первые результаты (у меня уже появился доступ к GPT-4o) впечатляют. Качество русскоязычного текста заметно улучшилось. Ушли словесный мусор и безудержные эпитеты.

Еще нужно тестировать, но кажется скоро рунет резко заполнится AI-текстом.

#llm #text
🔥2
Google привычно скорее разочаровывает нежели очаровывает. OpenAI раз за разом их обыгрывает медийно и по перформансу моделей. Сломать эту тенденцию не получается.

Но когда на презентации слово "AI" звучит 120 раз, то парочка выстрелов всегда в яблочко. На мой взгляд, есть две пользовательские сферы, в которых у Google все шансы всех обыграть:
1. Персонализация AI-чатбота (за счет того, что Google уже знает о вас).
2. Внутрикадровый AI-поиск в Youtube (есть мнение, что он придет на смену Google-поиску).

И то, и другое упоминалось вчера, без особых акцентов. Для первого уже есть NotebookLM, для второго Google AI Studio. У обоих beta-проектов есть очевидные достоинства, и они недооценены. Странно, что Google не может расставить акценты и грамотно пропиарить успешные решения.

#release #text #video #rag
👍1
ChatGPT в работе — IX

Запускаю новый поток авторского курса {AI} love you.
Next week.
Краткое изложение предыдущих серий:
ровно год назад родилась идея создать месячный курс по нейросетям для новичков;
с сентября курс сфокусирован на ChatGPT (как идеальном тренажере для всего остального);
с января добавились значимые блоки про GPT-ассистентов / разбор кейсов и приземление персонального ассистента в Telegram.

Со временем цель обучения менялась, и сейчас я бы сформулировал ее провокативно: приобрести привычку пользоваться ChatGPT каждый день. Подсаживаю на умный опиум. Это означает писать и отправлять файлы / скриншоты / голосовые в чатбот, извлекать оттуда ответы / иллюстрации (как 👆) / код и замешивать это всё в кастомного GPT-ассистента.


Обновления:
1️⃣ 9-му потоку повезло с релизом GPT-4o — прекрасная модель со всеми возможностями ChatGPT Plus. Посмотрите распаковку ChatGPT Plus — 15-минутный обзор функционала.
2️⃣ Полноценно заработал telegram-бот не только с бесплатным доступом к GPT-4 (чем не удивишь), но и выдачей персональных заданий и консультаций по учебному материалу.
3️⃣ В качестве эксперимента добавил блок по prompt-gramming (созданию микро IT-решений по текстовой подсказке).

Форматы: видеоуроки + практикум + кейсы + вебинары + мини-проект.

Linkset
— Подробности на GetCourse и на Stepik
Вводная лекция про LLM
Разбор кейса про маркетинговые LLM-опросы
Презентация генератора древних новостей (один из финальных проектов)

Курс можно пройти индивидуально в свободном темпе или в группе в синхронном формате. Поток рассчитан на любые когнитивные профессии. Для записи пишите в ЛС (@troclap) или заполняйте заявку на сайтах.

#edu #chatgpt #course
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Консистентность

Когда ко мне приходят с визуальными задачами, всегда (!) визуализация уже существует в голове заказчика и ее нужно реализовать "на бумаге". Это вызывает две сложности для применения GenAI:
1) как повторить "существующую" (иногда она буквально существует как референс) визуализацию, создав ее заново с нуля (так работают генераторы картинок)?
2) как перенести утвержденный стиль на новые темы / объекты / ситуации? Собственно, консистентность!

Год назад многие задачи ставили меня в тупик. Помню, никак не удавалось в Midjourney v5 (через describe и multi-image reference) повторить мультяшного векторного персонажа и его семейство. Позже стало понятно, что для этого существуют LoRA, ControlNet и IP-Adapter в Stable Diffusion. На худой конец можно ловко применить Inpaint (Generative Fill).


Недавно помогал оформлять обложки для буклетов (20 разных тем в едином стиле). Придумал пайплайн с участием ChatGPT, DALL-E и парочкой специфичных нейросеток. То, что вы видите — это не финальный результат, а полуфабрикат после DALL-E. Он удивительно хорош (но не идеален) по консистентности (цветовая схема, символизм, минимализм).

Бонус. В процессе поиска оптимального векторайзера (лучше, чем у Adobe) присмотрелся к Recraft AI, который по-дружески нахваливал канал "Метаверсище и ИИще" (у Recraft русские корни). Подтверждаю, в юзкейсе с векторной графикой он среди лучших.

#image #dalle #consistency #vector
👍5
Говорящий дэшборд

То, что LLM можно впустить почти всюду — стало общим местом. Но для конкретного человека это звучит абстракцией, у него десятки (может сотня) задач, дай бог, найти пару сверхполезных применений ИИ и десяток вообще. Далеко не всюду.

Расскажу про реальный кейс, к которому я прикасался, и он из числа нестандартных — тех, что придут в голову не сразу.

BI-аналитики (и не только) любят дэшборды из PowerBI. Красивые, интерактивные, как приборная панель космолета из футуристического кино. Эти предметы дизайна обзавелись анимацией и сложными примочками, но до 2024-го обходились почти без ИИ. Это медленно меняется. Microsoft выкатил полноценный блок под названием Narrative Visuals, который комментирует содержание дэшборда при каждой смене состояния (изменении фильтрации или добавлении данных). Хороший разбор всех встроенных ИИ-фич в PowerBI тут.


С практической точки зрения для российской компании это путь в преисподнюю. Потому что неудобно подключать (данные должны храниться в Северной Америке или Западной Европе) и очень (!) дорого (около 11$/час за GPT-4 под капотом). Поэтому мы не видим широкое распространение "говорящих" дэшбордов. Но есть хак (даже два). Тот же самый функционал Narrative Visuals реализуем через PowerApps (no-code платформа внутри экосистемы Microsoft): в официальной версии (за 500$ в месяц) и через кастомное подключение (20$ в месяц за доступ к функционалу + плата за токены).

На выходе у вас дэшборд, который содержит кнопку создания комментария или всплывающее окно поверх дэшборда с той же кнопкой. Полезно не просто для описательного комментария, а для выдвижения гипотез / инсайтов на основе данных.

#dashboard #text #llm #powerbi #usecase
👍1🔥1
#ОбзорГены №7

Две недели прошли под влиянием трех топовых презентаций: OpenAI, Google I/O и Microsoft Build. Остальное чуть померкло, потому что гиганты навалили много, в том числе изумруды.

{ Свежак }

🔠 Вышла true-multimodal модель от OpenAI — GPT-4o. Там столько достойного внимания, что релиз до сих пор распаковывается. Например, новый Data Analysis внутри ChatGPT.
🔠 На конференции Google I/O показали проект Astra: видео-чатбот внутри смартфона или Google Glasses (!). И мно-о-о-го другого, например, music2music модель.
🔠 Microsoft представил концепцию Copilot+PC — того самого более глубокого заземления AI в операционную систему и аппаратное обеспечение, которое все ждут. Другие значимые релизы.
🔠 Suno выпустил audio2audio функцию — то, что позволит лучше контролировать процесс музыкального производства.

{ Пульс }

⚡️ В консоли Claude (аналог OpenAI Platform) появились переменные для кастомизации промптов.
⚡️ Hugging Face, на котором размещают все демки свежих исследований, расширил возможность пользоваться ими бесплатно через Zero GPU.
⚡️ Google в пакете со всем остальным выпустил виртуальную примерочную.
⚡️ Как всегда, сразу же появился системный промпт GPT-4o (для ценителей).

{ Текстуры }

Говорящий дэшборд и Консистентность в DALL-E — делюсь наблюдениями от работы над двумя проектами.
Список ютуб-канал на тему AI — многое входит и в мой ютуб-сет.
Еще один туториал про запуск LLM локально — правильный навык.
Статья кинокритика Марии Кувшиновой о том, как нейросети стали апостолами сюрреализма.
Воркфлоу по переносу персонажа в любую локацию и видео нового уровня на основе AnimateDiff + Inpainting + After Effect — две роскошных визуальных работы.
Гениальные предметы интерьера, созданные через ИИ-перенос стиля.

{ Находки }

😯 Chatter — новостной голосовой подкаст от Hume.
😯 Off/Script — производство реальных вещей, вдохновленных AI-творчеством.

{ Перекресток мнений }

GenAI революция vs эволюция. На мой взгляд, революционный потенциал еще высок (в AI-агентах и внедрении в аппаратное обеспечение), однако стало ярко виден эволюционный потенциал — то, как GenAI-продукты планомерно расширяют охват задач и залезают на знакомые территории со своими правилами воркфлоу. Быстрые примеры: GPT-4o вместо умной колонки, Krea / Leonardo вместо фотошопа, AI Data Analysis вместо PowerBI, RAG-чатбот вместо отраслевого поисковика. Везде идет именно эволюционная борьба (можно сказать, естественный отбор 😃): конкуренты перенимают приемы друг друга, защищают core преимущества.

#llm #promptgramming #analysis #multimodal #music #video #gadget #gpu #fashion #usecases #image #media #production #evolution
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Image Reference

В визуальный генератор Leonardo AI недавно завезли мощный инструментарий контроля по входным изображениям: Style / Character / Content Reference. Вчера случайно воспользовался ими, когда обратились с быстрым запросом, который не получалось самостоятельно решить. Киллерфича, на мой взгляд — то, что различные инструменты контроля объединили в один удобный UI прямо в строке ввода промпта. Можно загрузить по одной картинке для каждого типа контроля. Результат выше — это первая попытка.

Напоминаю про Leonardo AI, что это лучший сервис поверх Stable Diffusion с отличным бесплатным лимитом в день.

#image #stablediffusion #reference