Поляков считает: AI, код и кейсы – Telegram
Поляков считает: AI, код и кейсы
1.33K subscribers
202 photos
77 videos
134 links
Пишу про AI, рекламу и аналитику. Связаться: @polyakovbest
Download Telegram
Как я потратил неделю на "простую" задачу извлечения данных

Задача звучала элементарно: вытащить список услуг из PDF-договора. Pydantic-схема, пара промптов — что может пойти не так?

Оказалось, всё.

🔍 Проблема: масштаб убивает точность

В типичном договоре — 200-300 услуг. Даже Qwen 256B на таком объёме выдаёт только 90% списка. Звучит неплохо, пока не осознаёшь: оператору придётся вручную искать, какие 20-30 услуг модель потеряла.

По трудозатратам это ничем не отличается от ручного ввода всех услуг. Зато с ИИ.

🛠️ Попытка №1: LangExtract от Google

Библиотека с 17 000 звёзд на GitHub, красивые демки, обещания "Optimized for Long Documents: Overcomes the "needle-in-a-haystack" challenge бла бла бла...". Идеально же?

Реальность оказалась другой:

🔸 Даже на MacBook Pro M4 Max с 48GB unified memory один документ мог обрабатываться по 60 минут
🔸 Библиотека режет текст на чанки по 1000 символов — и, ТАААА-ДАААА-ММММ, ломает таблицы пополам
🔸 use_schema_constraints работает только с Gemini, для остальных моделей — рулетка с форматом ответа
🔸 В issues на GitHub — десятки жалоб на некорректный JSON

💡 Покопался в коде и обнаружил: langextract — это просто обёртка над промптами. Никакой магии, только нарезка текста и склейка примеров в запрос.


🤖 Попытка №2: Локальные модели через Ollama

Раз железо позволяет — протестировали разные модели: qwen3-30b, gpt-oss:20b, gemma3:27b. Для проверки использовал свой старый needle-in-a-haystack тест с вымышленными сущностями.

Результаты... своеобразные:

🔸 gemma3 считала "VX-6R" и "аккумулятор" живыми существами — а вымышленных из теста не нашла
🔸 Один и тот же атрибут в разных запусках оказывался в разных ключах: то "factor", то "attribute", то "characteristics"
🔸 JSON постоянно обрезался на середине или содержал синтаксические ошибки

Больше параметров ≠ лучше результат. gpt-oss:20b работал стабильнее мелких моделей, но всё равно терял данные на длинных документах.

📄 Корень проблемы: не модель, а данные

Копнул глубже и понял: дело не только в LLM. Дело в том, что приходит на вход.

OCR выдаёт текст с нарушенным порядком элементов. Из-за небольшого наклона скана строки таблицы "съезжают". Вместо логичного "Лифтер | 72 часа | 2913₽" получаем:


Лифтер
72
Специалист, ответственный за организацию...
2913,00
72...
Водитель погрузчика


Модель видит кашу и выдаёт кашу.

Решение: дизайн важнее модели

Отказались от полной автоматизации. Новый подход:

1️⃣ Человек загружает скан и показывает, где начинается и заканчивается таблица с услугами

2️⃣ Парсим первую страницу, чтобы понять структуру заголовков через LLM.

3️⃣ Запускаем параллельное извлечение — каждая страница обрабатывается параллельно.

Ключевой момент: не пытаемся восстановить таблицу из OCR-каши. Работаем с сырым текстом — LLM справляется.

На уровне одной страницы модели Qwen и Gemma до 32B справляются отлично. Быстро, дёшево, без галлюцинаций. 100% услуг извлечены.

🎯 Вместо того чтобы заставлять ИИ делать всё, мы дали ему задачу по силам. Человек тратит 30 секунд на разметку — и получает 100% точность вместо 90%.


----

Какой самый неожиданный затык вы встречали в "простых" задачах с ИИ?

----

Поляков считает — про ИИ, рекламу и аналитику.
3🔥102👍2
Channel name was changed to «Поляков считает: AI, код и кейсы»
Голосование 2025: если одна подписка на AI, то какая?

Хочется подвести итоги года, но тема AI настолько многогранна, что непонятно с какой стороны заходить. Год выдался невероятным на релизы — каждый месяц что-то переворачивало представление о возможном.

Мы с коллегами по AI-комьюнити решили провести серию голосований — каждый в своём канале, по своей номинации. В итоге соберём срез: какие компании и явления стали знаковыми для ИИ в 2025.

🗳️ Темы

🔸 Одна подписка года — Поляков считает: AI, код и кейсы
🔸 Код с ИИ в 2025 — Глеб Кудрявцев про AI кодинг
🔸 Событие года в AI Coding — Тимур Хахалев про AI Coding
🔸 AI Headliner года — Константин Доронин
🔸 ИИ-компаньон года — Бунак и Цифра: chatGPT / AI в бизнесе

Это авторские каналы, без репостов новостей. Если еще не подписались, очень советую.

📊 Моя эволюция

В 2024 я обходился ChatGPT Plus и Claude Pro. В 2025-м список разросся: ChatGPT, Claude Max, Perplexity, Google AI, Cursor, Poe, Krea, Kling, ElevenLabs, Make...

💡 Когда-то думал, что одной нейросети хватит на всё. Оказалось, специализация побеждает универсальность — и кошелёк страдает.


Мои предпочтения за год менялись сильно. В начале года — поклонник ChatGPT. По мере развития кодинг-агентов стал адептом Claude. Потом офигел от точного контекста Gemini на миллион токенов. А затем снова полюбил ChatGPT за Codex.

🏆 Кандидаты — все по $20/мес

ChatGPT Plus — GPT-5, ChatGPT Image, Codex для кода, DeepResearch для глубокой аналитики. Универсальный комбайн.

Claude Pro — сильнейший в работе с текстом и кодом. Claude Code в комплекте. жесткие лимиты.

Google AI Pro — контекст на миллион токенов, NotebookLM, генерация фото и видео через Veo и Nano Banana, кодинг-агент Antigravity.

Perplexity Pro — доступ к GPT, Claude, Gemini в одном месте. Лучший для поиска в интернете с цитатами на источники.

💰 Все базовые подписки выровнялись на $20/мес, премиум — на $200. Рынок нащупал якоря.


🎯 Мой выбор

Сейчас на Claude Max за $100 — считаю лучшим для работы. Но понимаю, что это вкусовщина. Интересно, что выберете вы.

----

Поляков считает — ИИ, код и кейсы.
34🔥3👍2
Media is too big
VIEW IN TELEGRAM
Kling научился переносить движения с любого видео на вашу фотографию

Долго ждал, когда ИИ позволит улучшить видео из молодости — ну, чтобы внукам показать, как дед ногами размахивал.

В 2006 всё снималось на первые телефоны, качество так себе.

Пробовал разные апскейлеры — результат отстой, покажу в комментариях. И вот теперь можно просто взять любое видео и надеть на себя (или любого персонажа).

🎬 Что такое Motion Control

Kling выкатил фичу, которая реально работает. А рекламный ролик-то какой крутой.

Суть простая:

🔸 Загружаешь референсное видео (танец, трюк, жесты)
🔸 Загружаешь свою фотографию
🔸 ИИ переносит движения кадр за кадром на твоего персонажа

Это не Motion Brush, где рисуешь траектории вручную. Motion Control извлекает всю хореографию из видео-образца и применяет её к статичному изображению.

💡 По сути: берёшь любое видео с YouTube — брейк-данс, прыжок с парашютом, полёт на крыле самолёта как у Тома Круза — загружаешь свою фотку, и вот ты уже это делаешь.


🔧 Как протестить?

Мануал: app.klingai.com/global/quickstart/motion-control-user-guide

Галерея работ комьюнити для вдохновения: app.klingai.com/global/activity-zone

Сам инструмент находится тут https://app.klingai.com/global/video-motion-control/new — это вкладка Video, не O1.

⚠️ Ложка дёгтя

Kling работает через веб — никаких установок приложения не нужно. Но есть нюансы:

🔸 Кредитная система непрозрачная — одна и та же генерация может съедать разное количество кредитов
🔸 Бесплатные кредиты сгорают, если не использовать в тот же день
🔸 Саппорт, по отзывам, практически не отвечает. Сам пробовал — нашел ответы в Дискорде.
🔸 Непрозрачное лицензирование. Я так и не смог понять, есть ли у меня права на коммерческое распространение.

Но для экспериментов — вполне рабочий инструмент.

💭 Мысль напоследок

На базовые движения нет авторских прав. Приседания, отжимания, танцевальные связки — вот это всё фольклор и общественное достояние.

А значит, любой фитнес-блогер теперь может «клонировать» тренировки любого инструктора, надев их на свою внешность. Или наоборот — продавать свой образ, который выполняет чужие программы.

----

Поляков считает — AI, код и кейсы
44👍2🔥1
Claude for Chrome: Anthropic тихо выпустил браузерного агента для всех

Пока все следили за OpenAI и Perplexity, Anthropic вчера открыл Chrome-расширение для всех платных подписчиков. Без громких анонсов — просто обновление в документации.

🕹️ Что умеет агент

Claude теперь управляет браузером: кликает, заполняет формы, переключается между вкладками. Работает в связке с Claude Code — пишешь код в терминале, тестируешь в браузере, Claude читает консольные ошибки и DOM напрямую.

💡 По сути это полноценный агентный браузер на базе Chrome — даёшь задачу, агент сам разбирается, куда нажать и что ввести.


Попробовал создать счётчик в Яндекс.Метрике с целью — агент справился за 5 минут. На подписке Max потратил 2% лимита, на Pro ушло бы около 10%. И это модель Haiku — самая дешевая.

⚙️ Ключевые фишки

🔸 Есть возможность выбора модели: Haiku 4.5, Sonnet 4.5 или Opus 4.5.

🔸 Можно создавать задачи по расписанию из промптов Есть шорткаты — быстрые команды.

🔸 Teach Claude — записываешь действия, Claude учится и повторяет

🔸 Мультитаб — агент работает с несколькими вкладками одновременно


🛡️ Про безопасность

Пишут, что успешность prompt-injection атак снизили с 23.6% до ~1% — но только на Opus 4.5, самой дорогой модели. Это лучше Comet от Perplexity, где летом шумели уязвимости.

Сразу заблокировали: финансы, крипто, банки. Логично — там самые высокие риски. Для действий на сайтах ведется отдельный лист разрешений.

🎯 Почему это важно

Anthropic сделали поздно, но правильно:

1️⃣ Классический Chrome — не нужно переучивать пользователей

2️⃣ Работают с существующими логинами — агент действует от имени юзера

3️⃣ Серьёзно подошли к безопасности — в отличие от Comet, который запустился с дырами

4️⃣ Идея с группами вкладок — шикарная. Задал вопрос и все диалоги из него будут открываться внутри одной группы вкладок. Понятная связь и организация. Не будет замусоревания.

Если раньше Comet выглядел достойной альтернативой, теперь Claude выравнивается с рынком. А учитывая качество моделей — может и обогнать.

📌 Расширение: https://claude.com/chrome
📌 Безопасность: https://support.claude.com/en/articles/12902428-using-claude-in-chrome-safely

Другие посты про ИИ-браузеры:
Атлас — анонс, безопасность, цензура
Комет — анонс

----

Поляков считает — AI, код и кейсы
63👍2🔥1
Your Year with ChatGPT: OpenAI запустил свой Year Recap

OpenAI выпустил свои итоги года для пользователей.

😁 Функция — хороший повод проверить свои настройки приватности в ChatGPT. Если вы видите итоги года, значит OpenAI хранит вашу историю и использует память.


🎯 Как активировать

Обязательно американский прокси.

Открываете chatgpt.com/?q=YourYearWithChatGPT или пишете в чат «show me my year with ChatGPT».

Получаете серию слайдов в стиле Stories: статистику использования, «награды» за стиль работы и AI-сгенерированную картинку, которая иллюстрирует ваш год.

📊 Что внутри

Функция показывает ключевые темы ваших разговоров, количество чатов, самый «разговорчивый» день. Выдаёт награды вроде «Creative Debugger» — если часто отлаживали код через чат. А ещё генерирует поэму о вашем годе и картинку по мотивам.

Забавный штрих: OpenAI добавил метрику по em-dashes (длинным тире), которыми вы обменялись с ботом. Они все слышат.

⚠️ Ограничения

🔸 Работает только в англоязычных странах: США, UK, Канада, Австралия, Новая Зеландия
🔸 Требует включённых памяти и истории чатов
🔸 Не работает для Team, Enterprise и Education аккаунтов
🔸 Нужен минимальный порог активности — иначе увидите только базовую статистику

🎨 Мой результат

У меня на картинке код, работа с офисными документами, и, на удивление — забор. Видимо, AI намекает на work-life balance.

А у вас что получилось?

----

Поляков считает — AI, код и кейсы
2🔥31👍1
Итоги года в ИИ: кто победил в голосованиях

Мы с коллегами по AI-комьюнити и авторами телеграм-каналов провели совместные голосования по итогам 2025 года. Пришло время подвести итоги.

🗳️ Номинации

🔸 Одна подписка года — Поляков считает
🔸 Код с ИИ в 2025 — Глеб Кудрявцев
🔸 Событие года в AI Coding — Тимур Хахалев
🔸 AI Headliner года — Константин Доронин
🔸 ИИ-компаньон года — Анастасия Бунак

🏆 Результаты

В моём канале за лучшую подписку боролись ChatGPT Plus и Claude Pro — оба набрали по 32%. Но если кликнуть на цифры, ChatGPT выиграл ровно на один голос.

По другим номинациям:

1️⃣ Топ-3 кодинг-агентов (Глеб Кудрявцев): Cursor, Claude Code и… копипаста чатов с ИИ

2️⃣ Событие года (Тимур Хахалев): появление вайб-кодинга как явления и релиз Claude Code

3️⃣ Хедлайнер в ИИ (Константин Доронин): Anthropic с большим отрывом. Дайте угадаю — потому что зарелизили Claude Code?

4️⃣ ИИ-компаньон (Анастасия Бунак): ChatGPT с огромным отрывом

💡 Забавное наблюдение: почти во всех голосованиях победил или почти победил продукт от Anthropic. ChatGPT — для всех и каждого, Claude — для технарей.


🎯 Моё мнение

Лично для меня Claude всё же лучше. Это не просто языковая модель и кодинг-агент, а даже универсальный мультитул: в считанные секунды выдернуть аудиодорожку из видео, сконвертировать файлы, найти что-то на диске.

Но результаты голосования показывают, что для большинства ChatGPT остаётся «комбайном по умолчанию». И это объяснимо — он первым захватил рынок и продолжает удерживать позиции.

📽️ В видео к посту я разместил то, как для меня выглядят победители — один техничный, другой находчивый, почему там афроамериканцы спросите у veo.


🎄 С наступающим!

Всех с наступающим Новым годом! Пусть 2026-й принесёт много ярких релизов и интересных экспериментов.

Спасибо, что читаете канал и участвуете в обсуждениях — это делает работу над контентом осмысленной.

----

Ваш Поляков считает — AI, код и кейсы
2🔥31👍1