Вышел GLM-4.6V — первая в линейке GLM с нативным вызовом* функций для визуальных задач.
Когда речь заходит про OCR, я сразу начинаю в нём разбираться, мне нравиться возиться с моделями, которые умеют работать с видео, картинками.
Обычно модели работают так:
1. Смотрят на картинку
2. Описывают её текстом (на картинке кнопка синего цвета)
3. Потом на основе текста решают что делать
*GLM-4.6V работает иначе: смотрит на картинку и сразу выполняет действие, без промежуточного описания и без лишних шагов.
Для агентов это важно (меньше потерь информации, быстрее результат)
Имеет две версии:
• GLM-4.6V (106B) — флагман с контекстом 128K
• GLM-4.6V-Flash (9B) — быстрая версия для локального запуска
C GLM-4.6V можно:
• Распознать текст с картинки или документа
• Проанализировать изображение
• Сгенерировать отчёт с картинками и текстом
• Разобрать видео: суммировать или найти конкретные моменты
• Скопировать интерфейс: загрузить скриншот и получить код
Контекст 128K, что примерно 150 страниц документов, 200 слайдов или часовое видео за один проход.
Цены по API (за 1M токенов):
• GLM-4.6V: $0.6 вход / $0.9 выход
• GLM-4.6V-Flash: бесплатно
[Попробовать тут] | [API] | [Блог]
@tips_ai #news
Когда речь заходит про OCR, я сразу начинаю в нём разбираться, мне нравиться возиться с моделями, которые умеют работать с видео, картинками.
Обычно модели работают так:
1. Смотрят на картинку
2. Описывают её текстом (на картинке кнопка синего цвета)
3. Потом на основе текста решают что делать
*GLM-4.6V работает иначе: смотрит на картинку и сразу выполняет действие, без промежуточного описания и без лишних шагов.
Для агентов это важно (меньше потерь информации, быстрее результат)
Имеет две версии:
• GLM-4.6V (106B) — флагман с контекстом 128K
• GLM-4.6V-Flash (9B) — быстрая версия для локального запуска
C GLM-4.6V можно:
• Распознать текст с картинки или документа
• Проанализировать изображение
• Сгенерировать отчёт с картинками и текстом
• Разобрать видео: суммировать или найти конкретные моменты
• Скопировать интерфейс: загрузить скриншот и получить код
Контекст 128K, что примерно 150 страниц документов, 200 слайдов или часовое видео за один проход.
Цены по API (за 1M токенов):
• GLM-4.6V: $0.6 вход / $0.9 выход
• GLM-4.6V-Flash: бесплатно
[Попробовать тут] | [API] | [Блог]
@tips_ai #news
👍21🔥8❤7
Если только начинаете разбираться в кодинге с ИИ, вот базовые ресурсы от самих разработчиков:
Claude Code (Anthropic Academy):
• [Claude Code in Action] — курс по Claude Code для начинающих
• [Cookbooks] — коллекция готовых примеров и рецептов
Codex:
• [Academy.openai] — обучающий сайт OpenAI
• [Developers hub] — как начать, руководство по Codex
• [Cookbooks] — примеры и руководства по разработке
Cursor:
• [Cursor Learn] — мини курс от курсора по AI-разработке
• [Docs] — документация по курсору
Gemini CLI:
• [Docs] — документация по Gemini CLI
• [Практическое руководство]
GitHub Copilot:
• [Документация] по GitHub Copilot
Понятно, что без опыта в разработке сложнее.
Но вайбкодинг это крутой инструмент для обучения. Можно учиться в процессе, создавать своё и разбираться почему оно работает или нет.
Главное задавать вопросы, сомневаться в ответах и пробовать.
@tips_ai #tools
Claude Code (Anthropic Academy):
• [Claude Code in Action] — курс по Claude Code для начинающих
• [Cookbooks] — коллекция готовых примеров и рецептов
Codex:
• [Academy.openai] — обучающий сайт OpenAI
• [Developers hub] — как начать, руководство по Codex
• [Cookbooks] — примеры и руководства по разработке
Cursor:
• [Cursor Learn] — мини курс от курсора по AI-разработке
• [Docs] — документация по курсору
Gemini CLI:
• [Docs] — документация по Gemini CLI
• [Практическое руководство]
GitHub Copilot:
• [Документация] по GitHub Copilot
Понятно, что без опыта в разработке сложнее.
Но вайбкодинг это крутой инструмент для обучения. Можно учиться в процессе, создавать своё и разбираться почему оно работает или нет.
Главное задавать вопросы, сомневаться в ответах и пробовать.
@tips_ai #tools
👍34🔥13❤8
This media is not supported in your browser
VIEW IN TELEGRAM
В ChatGPT появился Photoshop, Express и Acrobat
Оказывается в чате могу:
• Редактировать фото в Photoshop
• Создавать дизайны в Adobe Express
• Работать с PDF через Acrobat
Бесплатно для всех пользователей ChatGPT. Подключить в настройках, раздел «Приложения и коннекторы»
@tips_ai #news
Оказывается в чате могу:
• Редактировать фото в Photoshop
• Создавать дизайны в Adobe Express
• Работать с PDF через Acrobat
Бесплатно для всех пользователей ChatGPT. Подключить в настройках, раздел «Приложения и коннекторы»
@tips_ai #news
🔥25👍17❤5
This media is not supported in your browser
VIEW IN TELEGRAM
Openscreen — альтернатива Screen Studio для скринкаста.
Мне очень нравится Screen Studio на Mac: красиво записывает демки, с увеличением курсора.
Но у меня и так куча подписок, вот и нашёл бесплатную альтернативу.
Даже на винду себе поставил.
Что умеет:
• Запись экрана или отдельных приложений
• Ручные зумы с настройкой глубины и длительности
• Аннотации: текст, стрелки, изменения фона
• Экспорт в любые соотношения сторон
Без водяных знаков. Советую!
@tips_ai #tools
Мне очень нравится Screen Studio на Mac: красиво записывает демки, с увеличением курсора.
Но у меня и так куча подписок, вот и нашёл бесплатную альтернативу.
Даже на винду себе поставил.
Что умеет:
• Запись экрана или отдельных приложений
• Ручные зумы с настройкой глубины и длительности
• Аннотации: текст, стрелки, изменения фона
• Экспорт в любые соотношения сторон
Без водяных знаков. Советую!
@tips_ai #tools
👍27🔥13❤9
Меня пригласили поучаствовать в AI-буткемпе от Community Sprints — 4 дня лайвов про AI-агентов в продукте, маркетинге и бизнесе.
Раньше нигде не участвовал в таком формате, решил попробовать.
Что внутри буткемпа:
• 30+ кейсов от фаундеров, маркетологов и продактов
• Как строить и использовать AI-агентов в реальных задачах
• Что работает и растит бизнес, а что нет
Спикеры:
Бесплатно. При регистрации на один лайв, в боте сразу появляется ссылка на следующий.
Регистрация [тут]
@tips_ai
Раньше нигде не участвовал в таком формате, решил попробовать.
Что внутри буткемпа:
• 30+ кейсов от фаундеров, маркетологов и продактов
• Как строить и использовать AI-агентов в реальных задачах
• Что работает и растит бизнес, а что нет
Спикеры:
Андрей Анищенко @ Ebac
Дима Зборовский @ Deliveroo
Ваня Замесин @ JTBD Academy
Алекс Ларьяновский @ Realytics
Алекс Беляев @ Community Sprints
Константин Сухачев @ Overgear
Ислам Мидов @ 2pr
Настя Рябова @ TripleTen
Это я (Игорь Трунин) @ WhisperAI
Макс Епифанов @ TripleTen
Дмитрий Сергеев @ Dashly
Дарья Щурик @ Greeneration
Сева Устинов @ Elly Analytics
Анна Шигарданова @ Zalando
Андрон Алексанян @ Simulative
Александр Поваляев @ AI Mindset
Бесплатно. При регистрации на один лайв, в боте сразу появляется ссылка на следующий.
Регистрация [тут]
@tips_ai
👍14❤8🔥7
У OpenAI обновка GPT-5.2 — для кода и долгих агентских задач
Три версии:
• GPT-5.2 Instant — быстрая для ежедневных задач
• GPT-5.2 Thinking — для сложной работы с размышлениями
• GPT-5.2 Pro — максимальное качество, когда можно подождать
Улучшили код, фронтенд стал заметно лучше и галлюцинации на 30% меньше чем GPT-5.1
Длинный контекст — почти 100% точность на 256k токенов.
Vision — ошибки на графиках и скриншотах сократились вдвое.
За API ценник подрос: $1.75 за 1M входных токенов, $14 за выходные.
Будет доступно для платных планов и в API для разработчиков.
Полезные ссылки:
• GPT-5.2 Prompting Guide
• GPT-5.2 prompt optimizer
• GPT-5.2 руководство
@tips_ai #news
Три версии:
• GPT-5.2 Instant — быстрая для ежедневных задач
• GPT-5.2 Thinking — для сложной работы с размышлениями
• GPT-5.2 Pro — максимальное качество, когда можно подождать
Улучшили код, фронтенд стал заметно лучше и галлюцинации на 30% меньше чем GPT-5.1
Длинный контекст — почти 100% точность на 256k токенов.
Vision — ошибки на графиках и скриншотах сократились вдвое.
За API ценник подрос: $1.75 за 1M входных токенов, $14 за выходные.
Будет доступно для платных планов и в API для разработчиков.
Полезные ссылки:
• GPT-5.2 Prompting Guide
• GPT-5.2 prompt optimizer
• GPT-5.2 руководство
@tips_ai #news
👍12🔥6❤2🤡1