Поляков считает: AI, код и кейсы – Telegram
Поляков считает: AI, код и кейсы
1.41K subscribers
217 photos
81 videos
144 links
Пишу про AI, вайбкодинг и кейсы применения. Связаться: @polyakovbest
Download Telegram
OpenAI представили Sora: первые впечатления

OpenAI анонсировали Sora 9 декабря 2024. Несколько дней после анонса у меня не получалось авторизоваться , поэтому пишу свои впечатления только сейчас.

📽️ Что понравилось:

- Режим Storyboard: Возможность практически по кадрам задавать, что должно происходить в видео, значительно облегчает процесс создания контента.
- Скорость генерации: Результаты появляются за 2-3 минуты, что на фоне привычных 10 минут на других платформах, таких как Kling, кажется настоящим прорывом.
- Ритмика движений: Объекты движутся естественно и в правильном темпе, что избавляет от необходимости корректировать скорость воспроизведения, как это часто требуется на других платформах.

📉 Что не понравилось:

- Ограниченная подписка: За 20 долларов в месяц вы получаете разрешение 720p, что недостаточно даже для простых видеодополнений Яндекс Директа. Также отсутствует возможность добавления людей по фото, и лимитов на использование не так уж много.
- Качество генерации: Несмотря на хорошие возможности управления, итоговые видео всё ещё часто оказываются сюрреалистичными.

🤔 Выводы:

На текущий момент лично для меня платформы Runway и Kling остаются более предпочтительными. Они обеспечивают стабильное качество без сюрреализма и имеют более доступные подписки: 15 USD и 10 USD в месяц соответственно, что выгоднее 200 долларов от OpenAI.

Пара примеров генерации Sora прикреплена, для сравнения с аналогичной генерацией медведя в Kling версии 1.0.

📚 Связные посты

- Креативы в РСЯ сгенерированные в Kling
- Как я создаю видео по фоткам для рекламы

----

Поляков считает — про ИИ, рекламу и аналитику.
4👍21🔥1
Media is too big
VIEW IN TELEGRAM
OpenAI расширяет возможности голосового режима

🖼️ Передача экрана и мультимодальность

Вчера компания OpenAI анонсировала новую функцию передачи содержимого экрана, картинок и даже видео с камеры при использовании расширенного голосового режима.

Это действительно впечатляет.

Например я совсем не знаю Фотошоп, но иногда приходится делать базовые вещи. Раньше приходилось гуглить или спрашивать совета, теперь можно просто показать экран и попросить подсказки о том, какие кнопки нажимать, чтобы выполнить нужные действия.
Таким же образом можно писать письма клиентам и одновременно обсуждать, как лучше сформулировать свои мысли.


Мультимодальность открывает новые горизонты взаимодействия!

💰 Условия подписки и преимущества

Для обычных пользователей за 20 долларов доступен час в день, а за 200 долларов предлагается безлимитное использование.

💡OpenAI делает дорогую подписку более привлекательной, предлагая безлимитные видео в Sora и неограниченного компаньона в приложении. Это уже не кажется пустой тратой денег.


🧐 Нюансы использования

1. Если вы показали чатботу приватную информацию, имейте в виду, что для удаления этих данных необходимо удалить сам чат, как указано в справке.

2. Чатбот не может выходить в интернет и ограничен в глубине своих суждений.
Например, он может предоставить инструкцию по простым функциям Photoshop, но не решить сложную задачу про Гошу в ресторане.

3. Также стоит отметить, что чатбот не распознает людей, возможно, из-за опасений перед штрафами. На собственной кухне я поздоровался с ним, и получил комплимент о своей кухне, в то время как самого меня ChatGPT не заметил.

🎥 Демонстрация и эксперименты

Прикрепляю видео с демонстрацией опроса про мой цвет волос. Все ответы оказались крайне уклончивыми.

----

Поляков считает — про ИИ, рекламу и аналитику.
1🔥4🐳2👍1
Генерация видео с Pika 2.0

🎥 Что нового?

В пятницу Pika.art представили обновленную модель генерации видео — версия 2.0.
Ключевая особенность "ингридиенты" — возможность добавлять различные элементы из которых будет состоять видео.

🙌 Я взял фон с домом, трубу, собаку и хозяина, — бац, и получил видео где хозяин играет с собакой.


🤔 Проблемы и вызовы

На инженерных тематиках нейросети часто сталкиваются с так называемыми "галлюцинациями". Это значит, что если попросить нейросеть нарисовать забор или водосток, она может выдать неожиданные и странные результаты, просто потому что ее при обучении не тренировали на заборах и водостоках.

💰 Цены и ограничения

Основной недостаток заключается в стоимости подписки.

Базовая PRO подписка стоит 28 долларов в месяц при оплате на год и подходит если только для блогеров:
— видео с ватермаркой,
— коммерческое использование запрещено. Если его взять в рекламу, будет риск штрафа.

Однако, если вы хотите избавиться от ватермарки и получить лицензию для коммерческого использования, вам потребуется подписка FANCY за 78 долларов в месяц.

🤔 Выводы:

Копирую из поста про Sora
На текущий момент лично для меня платформы Runway и Kling остаются более предпочтительными. Они обеспечивают стабильное качество без сюрреализма и имеют более доступные подписки: 15 USD и 10 USD в месяц соответственно, что выгоднее.


📚 Связные посты

- Креативы в РСЯ сгенерированные в Kling
- Как я создаю видео по фоткам для рекламы

----

Поляков считает — про ИИ, рекламу и аналитику.
2👍21🔥1
Адвент-календарь OpenAI: чем удивил, а чем нет

📋 12 дней анонсов

С 5 декабря OpenAI представила 12 анонсов в формате адвент-календаря. Формат вызвал у меня смешанные чувства: могли бы делать анонсы реже или хотя бы анонсировать только готовые фишки.

🤔 Что смутило

- Сора сырая.
- Расширенный голосовой режим ограничен в применении.
- Файн-тюнинг пока доступен только избранным.
- Киллер-модель O3 — у бетатестеров.

📊 Итоги адвент-календаря

1. O1 + PRO подписка

Модель O1 вышла из режима превью, анонсирован тариф за $200/мес. Улучшения заметны, но сложные задачи пока не по плечу. Подробнее о релизе писал здесь.

2. Reinforcement fine-tuning

Это анонс программы для бета-теста, релиз которой запланирован на 2025 год. Файн-тюнинг, на мой взгляд, — недооцененный способ улучшения языковых моделей. Если в промпте используются примеры, это указывает на возможность экономии токенов с помощью дообучения.

При работе с узкой областью знаний файн-тюнинг мини-моделей позволяет ускорить получение ответа и снизить затраты. Например, дообучение 4o-mini вместо использования базовой 4o может обеспечить более чем пятикратную экономию как на вводе, так и на выводе. Во многих случаях будет достаточно обычного fine-tuning без применения RFT, чтобы добиться значимых улучшений.

3. Sora

Генеративные видео — тренд 2024 и надежда 2025 года. Мы в агентстве уже активно используем ИИ для создания рекламных креативов. Однако функционал Sora пока слабоват для оплаты 200 долларов.

4. Canvas

Режим холста улучшен — экономит пространство и подходит для работы с документами. Основным недостатком режима холста остается низкая скорость работы.

5. Apple Intelligence + OpenAI

Партнерство с Apple — огромный шаг для охвата новой аудитории и усиления маркетинга.

6. Продвинутый голосовой режим с видео

Работает только в США и полноценно доступен только в мобильных приложениях. В десктопных версиях добавлена возможность делиться экранами сред разработки, таких как PyCharm, VSCode, Xcode и другие. На старте ассистент отказывался распознавать людей на видео, но со временем ограничения были ослаблены. Теперь он может различать базовые характеристики, такие как цвет волос и глаз.

7. Проекты

Проекты сильно упрощают навигацию за счет группировки чатов. С документами работают как с векторными хранилищами, поэтому кукусики-тест не проходят. А вот проекты Claude проходят. Для ведения серьезной базы знаний, таких как юридическая документация, проекты в Claude пока остаются лучшей альтернативой.

8. Улучшения ChatGPT Search

Обновленный поиск стал быстрее, добавлены поддержка карт и расширенного голосового режима. Это делает инструмент особенно полезным для нестандартных запросов. Например, я использовал его для поиска информации об обновлениях ПО для автомобиля, включая китайские источники. Такая функциональность выгодно отличает поиск от традиционных систем.

9. O1 API

Анонсированы новые модели с поддержкой Structured Outputs и Function Calling. Я стараюсь использовать младшие модели, чтобы найти баланс между стоимостью и скоростью работы. Это особенно важно при обработке больших объемов данных, где высокая производительность не всегда оправдана с экономической точки зрения.

10. Прямой номер + WhatsApp

Возможность общения с ChatGPT через телефон и WhatsApp. Еще один канал, чтобы достучаться до аудитории далекой от IT.

11. Расширенные интеграции

Список поддерживаемых приложений расширен.

12. Модель O3

Проходит тесты, мини-версия выйдет в 2025. Большая модель пока в ограниченном доступе у ученых и регуляторов.

💡 Выводы

Пока что мне кажется, что адвент-календарь отражает только беклог задач и направлен на привлечение внимания к компании в СМИ. С прикладной точки зрения лично я жду скриншеринг в десктопном режиме и возможность загрузки документов в контекст вместо векторного хранилища.

----

Поляков считает — про ИИ, рекламу и аналитику.
2👍21🔥1
Главная интрига года для рекламных агентств в РФ

📜 Новые правила для рекламы

Президент подписал изменения в законе о рекламе. Теперь все, кто распространяет или управляет рекламой, должны платить 3% сбор. Это вызвало много вопросов у СМИ: как это повлияет на всю цепочку рекламодателей?

🤔Как будто бы всё зависит от того, как маркируется реклама: если договором на распространение рекламы — 3%, если договором на организацию распространения — без сбора. Именно пункт про «Лица, которые действуют по поручению рекламодателя» и вызывает больше всего вопросов у рекламного рынка.


💹 Что это значит для рынка?

Скорее всего, интернет-реклама подорожает. Участники всей цепочки добавят этот сбор в стоимость своих услуг. Рекламные агентства должны будут объяснить клиентам, почему изменились условия.

📞 В поисках ответов

Я пытался узнать больше у Яндекса и Роскомнадзора, но пока без успеха. 1 января уже близко. Написал письмо в Роскомнадзор и надеюсь получить ответ до праздников.

Будет интересно узнать ваши мысли, если тоже столкнулись с обсуждением нового закона у себя в коллективе.

----

Поляков считает — про ИИ, рекламу и аналитику.
2👍2👏1
Автоматическая обработка минус-фраз Яндекс.Директа с помощью ИИ

🔍 Проблемы в поисковой рекламе

Совершенно случайно я дошел до файн-тюнинга фундаментальных моделей для рекламы.

В моем агентстве значительная часть рекламы приходится на поиск, который сталкивается с двумя основными проблемами:

мусорный трафик,
высокие цены.

Если автоматизация цен может быть решена с помощью здравой логики и алгоритмов, то очистка от мусора остается сложной и рутинной задачей.

Мусорный трафик
не только расходует бюджет впустую, но и повышает стоимость рекламы.

⚙️ Решение с помощью языковых моделей

🫠К задаче очистки мусорного трафика я подходил за время своей карьеры раз 6. И с помощью матметодов ML и на базе нейросетевых фреймворков. Сейчас в моде LLM, поэтому я должен попробовать решить задачу ими.


Использование языковых моделей сталкивается с тремя проблемами:

1. Они дорогие.
2. Они медленные (на вопросе в ChatGPT вы этого не заметите, но на 10 000 поисковых фраз будет ощутима медлительность).
3. Они не эксперты. Даже если начать промпт словами «Ты эксперт в контекстной рекламе» языковая модель не станет таким экспертом.

Для решения первых двух проблем я выбрал gpt-4o-mini — она значительно дешевле базовой модели.
А для повышения рекламной экспертизы потребовался fine-tuning. Сначала мы показываем, как правильно принимать решения, а затем просим систему выполнять эти решения самостоятельно.

🚀 Результаты и сложности

На удивление, результаты оказались впечатляющими: ответы быстрые, дешевые и адекватные даже при неполных данных.
В примере я показываю выводы лишь по одному условию показа, хотя на практике данных должно подаваться значительно больше.

Однако, остались и сложности — обработка опечаток работает крайне неадекватно, и неясно, как решить эту проблему без дополнительного подпроцессинга.
Еще не понятно как сообщать текущую дату, чтобы устаревание моделей автомобилей учитывалось..

💬 Буду рад советам

Если вы решали подобные задачи методом языковых моделей или как то еще — расскажите о своем опыте.

----

Поляков считает — про ИИ, рекламу и аналитику.
2🔥2🐳21
Бесплатный чат-бот: Альтернатива Anthropic и OpenAI

С прошедшими праздниками! Ранее я делился своим опытом решения проблем с регистрацией и использованием OpenAI, предлагая такие решения, как телеграм-бот и сервис для управления доступами сотрудников.

🤖 DeepSeek-V3: Стоит ли обратить внимание?

Сегодня я хочу рассказать о бесплатном чат-боте DeepSeek-V3 из Китая — https://chat.deepseek.com/.

Согласно опубликованным бенчмаркам, эта модель сопоставима с топовыми решениями и иногда даже превосходит их.

Она выделяется своей скоростью благодаря архитектуре Mixture of Experts, представляющей собой множество мини-агентов, каждый из которых решает определённые задачи.

🆓 DeepSeek бесплатный

Регистрация через почту или аккаунт Google.

Если нет задачи скрыть приватные сведения и документы, то можно использовать веб-версию как основное решение.

💻 Доступна к развертованию у вас на сервере

Для развертывания DeepSeek-V3 на собственном оборудовании потребуются значительные ресурсы. Вы можете выбрать один из двух вариантов:

1. Для квантования: 40 ГБ GPU и 128 ГБ RAM.
2. Для полноценного запуска: 8-16 карт NVIDIA TESLA H100. Ориентировочная стоимость одной карты составляет 3 951 700 рублей, что делает полный комплект весьма дорогостоящим (32-64 миллиона рублей).

Недостатки модели

— Нет аудио ввода
— Не открывает ссылки
— Не распознает изображения, только текст
— Ответы на английском языке при активации цепочки рассуждений
— Ограниченный контекст (до 50 страниц A4)

Преимущества модели

— Очень быстрая работа
— API запросы до 50 раз дешевле, чем у конкурентов

🔍 Тестирование и выводы

Я традиционно тестирую языковые модели на следующих задачах:

- Суммаризация текста
- Преобразование текста в HTML
- Кукусики-тест

DeepSeek-V3 отлично справляется с первыми двумя задачами, а кукусики-тест проходит только на коротких документах (до 30 листов A4). То есть аналогично ChatGPT, но не дотянул до Claude по длине входного контекста.

Мое мнение: для базовых задач обработки информации эта модель превосходна.

----

Поляков считает — про ИИ, рекламу и аналитику.
3🔥4👍21🐳1
Еще одна бесплатная замена платному ChatGPT доступная в России

🌍 Китайские технологии для всех

Китай активно разворачивает для широкой аудитории свои языковые модели. Теперь и Qwen выпустила свой чат-бот, доступный по адресу https://chat.qwenlm.ai/ .

Плюсы:

- Простая регистрация доступна через почту, GitHub или Google-аккаунт.
- Широкие возможности работы с контекстом: прошел кукусики-тест на большом документе, с которым ChatGPT и Deepseek не справились.
- Поддержка понимания изображений, а не только текста на них, как в случае с Deepseek.

Минусы:

- Медленные ответы и ограничение на число токенов.
- На вход чату можно подать только 10 000 символов, что не позволяет преобразовать документ в HTML, хотя DeepSeek с этим справляется. Но есть лайфхак, о нем ниже.

💡 Как обойти ограничение на 10 000 символов на ввод

Если загрузить txt-файл размером больше 10 000 символов, то все будет работать, хотя и медленно. Значит для работы с кодом процесс будет таким:

1. Собираем весь код проекта в один файл
2. Отправляем файл в LLM.

При загрузке всей документации проекта в файле, контекстное окно в МИЛЛИОН ТОКЕНОВ это что-то невероятное для работы с документами, статьями, кодом.

🤔Надо попробовать загрузить годовую отчетность Газпрома: с ней даже Claude не справился.


🌐 Будущее доступности ИИ

ИИ становится все более доступным для всех в мире.

Полагаю, платные системы будут полезны для веб-скраппинга, цепочки действий и взаимодействия нескольких LLM. То есть сама генерация токенов уже стала максимально доступной каждому.

----

Поляков считает — про ИИ, рекламу и аналитику.
22👍1🔥1