{AI} love you | Нейросет – Telegram
{AI} love you | Нейросет
245 subscribers
89 photos
16 videos
88 links
Авторский канал о prompt-gramming.
Гайды, разборы, ревью, рекомендации и личные инсайты о нейросетях.

Автор — @troclap
____________
Курс "ChatGPT в работе"
на Stepik: https://stepik.org/a/200358
на GetCourse: https://ailoveyou.getcourse.ru/gpt-assistant
Download Telegram
#ОбзорГены №5

Относительно скромный период в плане релизов, хотя не без громких утечек. И все равно масса интересного.

{ Свежак }

🔠 GPT-5 (или около того) появилась на чатбот арене под загадочным названием gpt2.
🔠 Релиз нового поколения ИИ-аватаров от Synthesia (конкурента HeyGen).
🔠 Вышла версия LLaMA-3-8B (легковесная) с контекстным окном в 1 миллион токенов (!), как у Gemini 1.5.
🔠 Китайский генератор видео Vidu первым приблизился к качеству, заданному Sora от OpenAI.

{ Пульс }

⚡️ Медицинская модель OpenBioLLM 70B вышла на первое место по тестам на медицинских задачах (даже выше GPT-4).
⚡️ LMSYS разработали новый бенчмарк Arena Hard v0.1 на основе анализа пользовательских запросов на Chatbot Arena.
⚡️ Складывается новый тип устойчивых моделей — генерация изображения человека по одному (!) обучающему фото. Новая модель из этого класса — Consistent ID.
⚡️ Аналогичная ситуация в виртуальных примерочных (одеть человека в заданную одежду), качество моделей растет. Две новые — IDM-VTON и Magic Clothing.
⚡️ По-настоящему важно: прорыв в редактировании человеческого ДНК с помощью ИИ.

{ Текстуры }

ChatGPT-3.5 всё — пора пользоваться другими LLM.
Разбор продакшена нашумевшего ИИ-видео Air Head (при участии Sora). Спойлер: остается много человеческого труда.
Тренды в GenAI от Степана Гершуни.
Marques Brownlee разносит второе AI-based носимое устройство, на этот раз Rabbit R1.
Исследование «Яков и Партнёры» о влиянии GenAI в горно-металлургической отрасли.

{ Находки }

😯 ImgSys — арена для сравнения разных файнтюнов Stable Diffusion моделей.
😯 Speechmatics — лучшая speech-to-text модель, судя по бенчмаркам.
😯 Shadow — сервис по аренде облачного ПК с мощным GPU (до 16 ГБ VRAM).

{ Перекресток мнений }

Цикл обновления GenAI. Несмотря на постоянное FoMO в GenAI, на мой взгляд, сложились четкие циклы. За один год базовая модель устаревает (сменяется поколение моделей), каждые три месяца — происходит значимый шаг вперед. Это всё применимо только для тех классов моделей, которые прошли свой "ChatGPT-момент" (X), то есть массовая аудитория почувствовала и научилась извлекать ценность технологии. По ту сторону X сейчас: LLM, RAG-чатботы, Code Interpretator, VLM (Vision-модели), генерация / restyle / inpainting / upscale изображения, depth-анимация, расшифровка речи, TTS (синтез речи), генерация музыки и их композ. Всё.

#llm #text #ai_avatar #video #med #benchmark #consistent #clothes #video #trend #device #image #speech #gpu
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Маркетинговые LLM-опросы

Банальная идея — использовать LLM как респондентов на всевозможных опросах — почему-то незаслуженно игнорируется. Возможно за банальностью, возможно из-за "отсутствия субъектности" у чатботов их мнение само по себе неинтересно. За этим всем упускают тот факт, что LLM — интересный респондент со своим искаженно объективным мнением после прочтения всего интернета и обучения с учителем 😃

Слегка зашел на территорию ютуберов: сделал яркую обложку и придумал подводку к видеоразбору этого кейса. Сам разбор записан в рамках вебинара из курса "ChatGPT в работе", где мы разбираем такие и многие другие полезные юзкейсы языковых нейросеток. Накопилось много отснятого материала, который хочется вынести наружу. Темп повествования на вебинаре не такой бойкий, как в видеоуроках, зато есть спонтанные моменты, в которые проникают интересные мысли. Напишите в комментах здесь или на ютубе, как вам? выпускать такие ролики дальше? если да, накидайте свои кейсы.

Возвращаясь к теме, на мой взгляд, в 2024-м должно появиться research-агентство, которое станет специализироваться на LLM-опросах, необязательно только маркетинговых, но и социологических в целом тоже.

#llm #usecase #research #marketing #youtube
Дополнение к циклам обновления GenAI

Четкие циклы обновлений и крупных релизов сложились не спонтанно, а являются намеренной политикой провайдеров моделей. В недавнем выступлении Sam Altman несколько раз подчеркивает, что видит ценность в постепенном улучшении моделей, а не скачками (грубо говоря от GPT-4 к GPT-5). Все в индустрии понимают, что находятся на восходящем тренде, и приучают к этому потребителей моделей, чтобы не шокировать общественность.

Новое поколение: раз в 1-1,5 года (очень дорогое удовольствие, от $10M)
Значимый апгрейд: каждые 3 месяца (чаще либо не получается, либо считают ненужным)

#llm #text #cycle
IT-ЖКХ

До сих пор IT-инженеры не воспринимаются "настоящими" инженерами, как те, что строят машины, мосты, электростанции. Близок момент слияния смыслов.

AI одновременно сравнивают с электричеством и атомной бомбой. Дата-центры становятся супер-компьютерами (вычисления важнее хранения данных). Если прицепить к этому преобразование энергии в электричество (что уже в планах), то получается "умная" электростанция, или производство интеллекта из энергоресурсов.

Теперь сожмем эту идею в миниатюру — "AI-печка" в быту 😳. Не видел, чтобы о ней кто-то рассуждал. До распространения быстрого интернета в домах стояли системные блоки с up-to-date компонентами, по специфичности обслуживания они похожи на газовые котлы. Геймеры и 3D-профи никогда не расставались с ними, а большинство ушли пользоваться легкими девайсами и облачными сервисами. Можно взять в аренду облачный кусочек "умной" электростанции.
Но мне кажется, что "AI-печка" (неважно от чего она питается: от дров / газа / солнечных батарей или из розетки) не лишена смысла. Три юзкейса с ходу:
1. Запуск искусственного интеллекта в юрте местах без доступа к интернету
2. Безопасное голосовое управление "умным домом" (без подключения к интернету)
3. Персональный ассистент, знающий конфиденциальную информацию о вас


Если вы уже на середине текста подумали "что за фантастика?" (другой вариант — "что за ерунда?"), то давайте я еще накину 😃
Jeoffrey Hinton (один из славной Deep Learning четверки) предполагает, что возможно отказаться от разделения на аппаратное и программное обеспечение. Можно тренировать AI-модель, которая бы работала на конкретном аппарате без дополнительного программирования. Это энергоэффективно за счет перехода от цифровых вычислений (нули и единицы) к аналоговым (непрерывным). Похоже на смену архитектуры компьютера от транзисторов к нейронам. Их порядки сопоставимы: десятки млрд транзисторов в современном компьютере vs сотни млрд параметров в передовых LLM. Рекомендую видео целиком, гипотеза про слияние аппаратного и программного обеспечения на 28-й минуте.

Подведу итог. У AI (как продукта IT) есть потенциал залезть настолько глубоко в hardware, что его разработка и обслуживание будут неотличимы от машин, мостов, электростанций.

#opinion #energy #hardware #engineering
🔥1
Radiowave girls 🖤

Красоту в студию. AI боженька в смешении стилей. Взято отсюда.

#image #midjourney #restyle
#ОбзорГены №6

Многое из того, что попало в эту подборку, быстро исчезнет из внимания, потому что наступившая неделя должна принести новости, которые "перевернут игру".

{ Свежак }

🔠 Prompt Generator от Claude: лучшая попытка автоматизации промпт-инжиниринга.
🔠 Adobe выкатили конструктор изометрических 3D-сцен Project Neo. Один из лучших юзкейсов — создание референсов для генерации пейзажных сцен.
🔠 ElevenLabs снова всех уделал в звуке, представив свой txt2music. Udio по вокалу бил Suno, а ElevenLabs бьет Udio.
🔠 Bernini: 3D генератор от Автодеска. Генерация 3D подбирается к промышленности.
🔠 Компания Gradient выпустила LLaMA-3-8B с 4M (!!) контекстным окном. Ну, о-о-очень много.
🔠 Google представил ScreenAI для работы с UX продукта. Шаг в сторону LAM (large action model).
🔠 Gazelle — первая open source VoiceToLLM модель. Врата, которые раскрыла модель Hume и в которые похоже попадет сегодняшний релиз от OpenAI.

{ Пульс }

⚡️ LLaMA-3-70B бьет топов в креативных задачах (поэзия и проза, брейншторминг), но проигрывает в сложных (математика, перевод, суммаризация).
⚡️ Чат-бот gpt2 сделал клон игры Flappy Bird по zero-shot промпту.
⚡️ Учет лёгких планеты: все 50 млн км лесов с точностью до 1 метра в высоту и с разрешением в каждое дерево.
⚡️ ML-модель позволила расшифровать алфавит кашалотов.
⚡️ Исследование физических свойств предметов в ИИ-реальности.
⚡️ Ученые из Мэрилэнда изобрели мантию-невидимку, которая скрывается от Computer Vision моделей.

{ Текстуры }

Кейс про маркетинговые LLM-опросы — нетривиальное решение очевидной задачи.
Отличная подборка LLM-кейсов от Леши Хахунова и Димы Мацкевича.
"Превзойдет ли цифровой интеллект биологический?" — лекция от Jeoffrey Hinton с важными идеями.
30+ легендарных статей от Ильи Суцкевера, которые помогут разобраться во всём (!)
Обзор рынка: число AI-стартапов в мире, применение GenAI в России, топ-100 LLM в одной таблице, самая масштабная карта MAD-рынка и перевернутая структура прибыльности GenAI-индустрии.
Ролик, в котором девушка (не) шутит про то, что усердно работает для того, чтобы ее муж мог позволить себе терять по $30тыс в месяц на своем AI-стартапе.

{ Находки }

😯 Cleanlab — LLM-чатбот с проверкой надежности ответов.
😯 Recraft — пока лучший сервис для векторизации и генерации векторных изображений.
😯 WebCamMotionCapture — софт для стилизации вебкам-трансляций.

{ Перекресток мнений }

Inpainting / Restyling / Evaluation. Самая частая претензия к GenAI-креативам в тексте / картинке / музыке / видео — это отсутствие привычного творческого контроля. По мере того, как новая модальность пробивает порог массовости применения, становится заметно, что в GenAI-пайплайнах есть своя форма творческого контроля, которая отличается от до-генеративного. Музыкальный генератор Udio вот-вот внедрил Audio Inpainting, знакомый по картинкам и видео. В изображениях Inpainting и Control Net уже серьезно перевернули процесс, создав феноменальные ComfyUI-пайплайны. Компонент, которого мне пока не хватает нигде — это Evaluation. Сейчас его выполняет человеческий вкус, и превосходный AI-креатив выходит от людей с безупречным вкусом.

#llm #promptgramming #3d #lam #speech #review #gamedev #ecology #stem #cv #marketing #usecase #map #rag #vector #restyle #video #inpainting
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1
OpenAI показали крошки от того, на что новая модель GPT-4o способна. В демо сконцентрировались на голосовом общении (впечатляющем!), но посмотрите, что случилось с визуалом 👆:
— генерация рукописного текста
— идеальная передача печатного текста
— наконец, инфографика ✔️
— брендирование (перенос лого из входного изображения)
— генерация 3D на основе 6 консистентных изображений 👇🏻

Первая true-multimodal модель, где на вход и на выход подаются все модальности, с которыми нейросети вообще справляются. Плюс на стыке модальностей очевидно возникли новые способности, которых не было у mono-modal моделей по отдельности. В очередной раз OpenAI выпустили лидирующую general use модель.

#openai #speech #image #3d #vision #consistency
👍4
Главная интрига для меня: как скажется более оптимальный мультиязычный токенизатор на генерацию текста по-русски?

Именно старый токенизатор отвечал за большую часть отставания в качестве генерации на русском языке в отличие от английского. Это было критично, например, для SEO-статей.

Первые результаты (у меня уже появился доступ к GPT-4o) впечатляют. Качество русскоязычного текста заметно улучшилось. Ушли словесный мусор и безудержные эпитеты.

Еще нужно тестировать, но кажется скоро рунет резко заполнится AI-текстом.

#llm #text
🔥2
Google привычно скорее разочаровывает нежели очаровывает. OpenAI раз за разом их обыгрывает медийно и по перформансу моделей. Сломать эту тенденцию не получается.

Но когда на презентации слово "AI" звучит 120 раз, то парочка выстрелов всегда в яблочко. На мой взгляд, есть две пользовательские сферы, в которых у Google все шансы всех обыграть:
1. Персонализация AI-чатбота (за счет того, что Google уже знает о вас).
2. Внутрикадровый AI-поиск в Youtube (есть мнение, что он придет на смену Google-поиску).

И то, и другое упоминалось вчера, без особых акцентов. Для первого уже есть NotebookLM, для второго Google AI Studio. У обоих beta-проектов есть очевидные достоинства, и они недооценены. Странно, что Google не может расставить акценты и грамотно пропиарить успешные решения.

#release #text #video #rag
👍1
ChatGPT в работе — IX

Запускаю новый поток авторского курса {AI} love you.
Next week.
Краткое изложение предыдущих серий:
ровно год назад родилась идея создать месячный курс по нейросетям для новичков;
с сентября курс сфокусирован на ChatGPT (как идеальном тренажере для всего остального);
с января добавились значимые блоки про GPT-ассистентов / разбор кейсов и приземление персонального ассистента в Telegram.

Со временем цель обучения менялась, и сейчас я бы сформулировал ее провокативно: приобрести привычку пользоваться ChatGPT каждый день. Подсаживаю на умный опиум. Это означает писать и отправлять файлы / скриншоты / голосовые в чатбот, извлекать оттуда ответы / иллюстрации (как 👆) / код и замешивать это всё в кастомного GPT-ассистента.


Обновления:
1️⃣ 9-му потоку повезло с релизом GPT-4o — прекрасная модель со всеми возможностями ChatGPT Plus. Посмотрите распаковку ChatGPT Plus — 15-минутный обзор функционала.
2️⃣ Полноценно заработал telegram-бот не только с бесплатным доступом к GPT-4 (чем не удивишь), но и выдачей персональных заданий и консультаций по учебному материалу.
3️⃣ В качестве эксперимента добавил блок по prompt-gramming (созданию микро IT-решений по текстовой подсказке).

Форматы: видеоуроки + практикум + кейсы + вебинары + мини-проект.

Linkset
— Подробности на GetCourse и на Stepik
Вводная лекция про LLM
Разбор кейса про маркетинговые LLM-опросы
Презентация генератора древних новостей (один из финальных проектов)

Курс можно пройти индивидуально в свободном темпе или в группе в синхронном формате. Поток рассчитан на любые когнитивные профессии. Для записи пишите в ЛС (@troclap) или заполняйте заявку на сайтах.

#edu #chatgpt #course
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Консистентность

Когда ко мне приходят с визуальными задачами, всегда (!) визуализация уже существует в голове заказчика и ее нужно реализовать "на бумаге". Это вызывает две сложности для применения GenAI:
1) как повторить "существующую" (иногда она буквально существует как референс) визуализацию, создав ее заново с нуля (так работают генераторы картинок)?
2) как перенести утвержденный стиль на новые темы / объекты / ситуации? Собственно, консистентность!

Год назад многие задачи ставили меня в тупик. Помню, никак не удавалось в Midjourney v5 (через describe и multi-image reference) повторить мультяшного векторного персонажа и его семейство. Позже стало понятно, что для этого существуют LoRA, ControlNet и IP-Adapter в Stable Diffusion. На худой конец можно ловко применить Inpaint (Generative Fill).


Недавно помогал оформлять обложки для буклетов (20 разных тем в едином стиле). Придумал пайплайн с участием ChatGPT, DALL-E и парочкой специфичных нейросеток. То, что вы видите — это не финальный результат, а полуфабрикат после DALL-E. Он удивительно хорош (но не идеален) по консистентности (цветовая схема, символизм, минимализм).

Бонус. В процессе поиска оптимального векторайзера (лучше, чем у Adobe) присмотрелся к Recraft AI, который по-дружески нахваливал канал "Метаверсище и ИИще" (у Recraft русские корни). Подтверждаю, в юзкейсе с векторной графикой он среди лучших.

#image #dalle #consistency #vector
👍5