Amazon Q в GitHub: ИИ-разработка через тикеты — Cursor всё?
Интересное обновление вышло для Amazon Q Developer, - он теперь интегрирован в GitHub (пока в режиме preview), что позволяет делегировать целые фичи ИИ-агенту напрямую через тикеты — без необходимости подключения AWS-аккаунта и среды разработки.
Как это устроено:
• Устанавливаете приложение Amazon Q Developer в GitHub — выбираете, к каким репозиториям дать доступ
• Создаёте тикет с чётким описанием требуемой функциональности
• Добавляете метку "Amazon Q development agent" — и ИИ начинает кодить
• В результате получаете готовый pull request с реализацией и даже автоматическим code review
Кейс из примера:
Amazon Q Developer справляется с созданием проекта "с нуля": от генерации скелета приложения (.NET 9 ASP.Core в примере) до сложных бэкенд-фронтенд взаимодействий.
Причём в представленном кейсе ИИ даже реализовал интеграцию с Amazon Bedrock и Claude для генерации контента на основе пользовательских изображений отдельно предупредив о недостатке в системе авторизации. Т.е. ещё и на безопасность проверил.
Если код требует доработки — процесс итеративный: оставляете комментарии в pullrequest, и ИИ вносит необходимые изменения.
Например, добавление паттернов в .gitignore для вашей любимой IDE или переход с Invoke API на Converse API.
Бонус: трансформация кода
Отдельно доступна функция миграции Java-кода: сейчас можно обновлять с Java 8/11 до Java 17 через специальный "Amazon Q transform agent". В будущем добавят больше версий для автомиграции.
Amazon Q Developer — превращается в "разработчика по ТЗ", о котором мечтали десятилетиями.
Осталось только научиться формулировать ТЗ, а то ведь, обычно, его разработчик сам и пишет в реале. 😏
#AmazonQ #GitHub #dev
———
@tsingular
Интересное обновление вышло для Amazon Q Developer, - он теперь интегрирован в GitHub (пока в режиме preview), что позволяет делегировать целые фичи ИИ-агенту напрямую через тикеты — без необходимости подключения AWS-аккаунта и среды разработки.
Как это устроено:
• Устанавливаете приложение Amazon Q Developer в GitHub — выбираете, к каким репозиториям дать доступ
• Создаёте тикет с чётким описанием требуемой функциональности
• Добавляете метку "Amazon Q development agent" — и ИИ начинает кодить
• В результате получаете готовый pull request с реализацией и даже автоматическим code review
Кейс из примера:
Amazon Q Developer справляется с созданием проекта "с нуля": от генерации скелета приложения (.NET 9 ASP.Core в примере) до сложных бэкенд-фронтенд взаимодействий.
Причём в представленном кейсе ИИ даже реализовал интеграцию с Amazon Bedrock и Claude для генерации контента на основе пользовательских изображений отдельно предупредив о недостатке в системе авторизации. Т.е. ещё и на безопасность проверил.
Если код требует доработки — процесс итеративный: оставляете комментарии в pullrequest, и ИИ вносит необходимые изменения.
Например, добавление паттернов в .gitignore для вашей любимой IDE или переход с Invoke API на Converse API.
Бонус: трансформация кода
Отдельно доступна функция миграции Java-кода: сейчас можно обновлять с Java 8/11 до Java 17 через специальный "Amazon Q transform agent". В будущем добавят больше версий для автомиграции.
Amazon Q Developer — превращается в "разработчика по ТЗ", о котором мечтали десятилетиями.
Осталось только научиться формулировать ТЗ, а то ведь, обычно, его разработчик сам и пишет в реале. 😏
#AmazonQ #GitHub #dev
———
@tsingular
❤7🤯5👍3✍2
Graphiti: революция темпоральных графов знаний для AI-агентов
Graphiti — фреймворк для построения и запросов к темпоральным графам знаний, специально созданный для AI-агентов, работающих в динамических средах.
В отличие от традиционных методов RAG, Graphiti непрерывно интегрирует пользовательские взаимодействия, структурированные и неструктурированные корпоративные данные в целостный, запрашиваемый граф.
Ключевые преимущества:
• Инкрементальные обновления в реальном времени: интеграция новых данных без пакетного пересчета
• Би-темпоральная модель данных: точное отслеживание времени событий и времени загрузки
• Эффективный гибридный поиск: сочетает семантические вложения, ключевые слова (BM25) и обход графа
• Настраиваемые определения сущностей: через простые Pydantic-модели
• Масштабируемость: эффективное управление большими наборами данных с параллельной обработкой
Практическое применение:
• Интеграция и поддержание динамических пользовательских взаимодействий и бизнес-данных
• Облегчение рассуждений на основе состояния и автоматизации задач для агентов
• Запрос сложных, развивающихся данных с помощью семантического, ключевого и графового поиска
Graphiti лучше всего работает с LLM-сервисами, поддерживающими структурированный вывод (например, OpenAI и Gemini). Использование других сервисов может привести к некорректным схемам вывода и сбоям при загрузке, особенно при использовании небольших моделей.
Сравнение с GraphRAG:
Graphiti специально разработан для решения проблем динамических и часто обновляемых наборов данных:
• Обработка данных: Непрерывные обновления vs Пакетная обработка
• Структура знаний: Эпизодические данные и семантические сущности vs Кластеры сущностей
• Метод поиска: Гибридный семантический и графовый поиск vs Последовательное LLM-суммирование
• Временная обработка: Явное би-темпоральное отслеживание vs Базовое отслеживание временных меток
• Скорость исполнения запросов: Обычно менее секунды vs Секунды или десятки секунд
Детальнее как это работает на практике можно почитать в статье:
"Zep: A Temporal Knowledge Graph Architecture for Agent Memory".
Проект активно развивается, поддерживает различные LLM-провайдеры и имеет MCP-сервер, позволяющий AI-ассистентам взаимодействовать с возможностями графа знаний через протокол MCP. Также доступен REST API-сервис на FastAPI для взаимодействия с Graphiti API.
#Graphiti #KnowledgeGraphs #RAG
———
@tsingular
Graphiti — фреймворк для построения и запросов к темпоральным графам знаний, специально созданный для AI-агентов, работающих в динамических средах.
В отличие от традиционных методов RAG, Graphiti непрерывно интегрирует пользовательские взаимодействия, структурированные и неструктурированные корпоративные данные в целостный, запрашиваемый граф.
Ключевые преимущества:
• Инкрементальные обновления в реальном времени: интеграция новых данных без пакетного пересчета
• Би-темпоральная модель данных: точное отслеживание времени событий и времени загрузки
• Эффективный гибридный поиск: сочетает семантические вложения, ключевые слова (BM25) и обход графа
• Настраиваемые определения сущностей: через простые Pydantic-модели
• Масштабируемость: эффективное управление большими наборами данных с параллельной обработкой
Практическое применение:
• Интеграция и поддержание динамических пользовательских взаимодействий и бизнес-данных
• Облегчение рассуждений на основе состояния и автоматизации задач для агентов
• Запрос сложных, развивающихся данных с помощью семантического, ключевого и графового поиска
Graphiti лучше всего работает с LLM-сервисами, поддерживающими структурированный вывод (например, OpenAI и Gemini). Использование других сервисов может привести к некорректным схемам вывода и сбоям при загрузке, особенно при использовании небольших моделей.
Сравнение с GraphRAG:
Graphiti специально разработан для решения проблем динамических и часто обновляемых наборов данных:
• Обработка данных: Непрерывные обновления vs Пакетная обработка
• Структура знаний: Эпизодические данные и семантические сущности vs Кластеры сущностей
• Метод поиска: Гибридный семантический и графовый поиск vs Последовательное LLM-суммирование
• Временная обработка: Явное би-темпоральное отслеживание vs Базовое отслеживание временных меток
• Скорость исполнения запросов: Обычно менее секунды vs Секунды или десятки секунд
Детальнее как это работает на практике можно почитать в статье:
"Zep: A Temporal Knowledge Graph Architecture for Agent Memory".
Проект активно развивается, поддерживает различные LLM-провайдеры и имеет MCP-сервер, позволяющий AI-ассистентам взаимодействовать с возможностями графа знаний через протокол MCP. Также доступен REST API-сервис на FastAPI для взаимодействия с Graphiti API.
#Graphiti #KnowledgeGraphs #RAG
———
@tsingular
🔥5⚡1
ИИ-агенты перевернут игру: младшие разработчики берут реванш
Волны трансформации в разработке программного обеспечения
Стив Егге в статье от 22 марта 2025 года описывает радикальные изменения в программировании, вызванные появлением ИИ-агентов для кодирования. По его мнению, индустрия разработки ПО проходит через несколько "волн" развития технологий программирования с ИИ:
1. Традиционное кодирование (2022)
2. Программирование с автодополнением кода (2023)
3. Чат-программирование (2024)
4. Агенты для программирования (2025 H1)
5. Кластеры агентов (2025 H2)
6. Флоты агентов (2026)
Что такое Vibe Coding и как это меняет работу разработчиков
"Vibe coding" — термин, который ввел Андрей Карпати в начале февраля 2025 года. Это подход к программированию через чат, когда разработчик просит LLM написать код, получает результат и продолжает диалог в непрерывном цикле.
Однако, новая парадигма — агенты для разработки, такие как Aider.chat и Claude Code — уже начинает вытеснять чат-программирование.
Егге утверждает, что каждая последующая "волна", начиная с чата, примерно в 5 раз продуктивнее предыдущей.
Финансовые последствия и трансформация рабочего процесса
Агенты-разработчики стоят примерно $10-12 в час при текущих тарифах. По оценке Егге, один активный экземпляр агента можно приблизительно приравнять по ценности к младшему разработчику программного обеспечения, если кто-то (человек или ИИ) поддерживает его занятость 8-10 часов в день.
Ожидается, что следующая волна "кластеров агентов" позволит каждому разработчику управлять несколькими агентами одновременно, работающими над разными задачами: исправлением ошибок, доработкой задач, новыми функциями, разбором бэклога, развертыванием, документацией — фактически над любой задачей, которую может выполнять разработчик.
Изменение роли разработчика и "месть" младших разработчиков
Егге отмечает интересную тенденцию: младшие разработчики гораздо охотнее принимают ИИ-технологии, чем старшие. Он отмечает, что многие опытные разработчики сопротивляются изменениям, ошибочно считая, что сохранение статус-кво обеспечивает безопасность работы.
По словам Егге, "это не работа ИИ — доказать, что он лучше вас. Это ваша работа — стать лучше, используя ИИ". Он предсказывает, что к концу 2025 года новые должности "инженеров-программистов" будут включать мало прямого кодирования и много "присмотра" за агентами.
Прогноз на будущее
Егге прогнозирует, что появится много новых рабочих мест, но они будут иными. Компании смогут быть амбициознее, чем когда-либо прежде. Исторические прецеденты (пар, электричество, вычисления) показывают, что мы скоро увидим гораздо больше людей, создающих программное обеспечение, а волна продуктивности может увеличить национальный ВВП на поразительные суммы, 100% и более.
Чтобы не отставать, Егге советует: "Переходите на чат. Откажитесь от автодополнений. Перестаньте писать код вручную... И прежде всего, обратите пристальное внимание на новых агентов для программирования."
Например AmazonQ из предыдущей статьи
Забавно: из программистов мы превращаемся в пастухов ИИ-стада.
А потом ИИ научится пасти сам себя...
#Agents #Programming #VibeCoding #DeveloperEvolution
———
@tsingular
Волны трансформации в разработке программного обеспечения
Стив Егге в статье от 22 марта 2025 года описывает радикальные изменения в программировании, вызванные появлением ИИ-агентов для кодирования. По его мнению, индустрия разработки ПО проходит через несколько "волн" развития технологий программирования с ИИ:
1. Традиционное кодирование (2022)
2. Программирование с автодополнением кода (2023)
3. Чат-программирование (2024)
4. Агенты для программирования (2025 H1)
5. Кластеры агентов (2025 H2)
6. Флоты агентов (2026)
Что такое Vibe Coding и как это меняет работу разработчиков
"Vibe coding" — термин, который ввел Андрей Карпати в начале февраля 2025 года. Это подход к программированию через чат, когда разработчик просит LLM написать код, получает результат и продолжает диалог в непрерывном цикле.
Однако, новая парадигма — агенты для разработки, такие как Aider.chat и Claude Code — уже начинает вытеснять чат-программирование.
Егге утверждает, что каждая последующая "волна", начиная с чата, примерно в 5 раз продуктивнее предыдущей.
Финансовые последствия и трансформация рабочего процесса
Агенты-разработчики стоят примерно $10-12 в час при текущих тарифах. По оценке Егге, один активный экземпляр агента можно приблизительно приравнять по ценности к младшему разработчику программного обеспечения, если кто-то (человек или ИИ) поддерживает его занятость 8-10 часов в день.
Ожидается, что следующая волна "кластеров агентов" позволит каждому разработчику управлять несколькими агентами одновременно, работающими над разными задачами: исправлением ошибок, доработкой задач, новыми функциями, разбором бэклога, развертыванием, документацией — фактически над любой задачей, которую может выполнять разработчик.
Изменение роли разработчика и "месть" младших разработчиков
Егге отмечает интересную тенденцию: младшие разработчики гораздо охотнее принимают ИИ-технологии, чем старшие. Он отмечает, что многие опытные разработчики сопротивляются изменениям, ошибочно считая, что сохранение статус-кво обеспечивает безопасность работы.
По словам Егге, "это не работа ИИ — доказать, что он лучше вас. Это ваша работа — стать лучше, используя ИИ". Он предсказывает, что к концу 2025 года новые должности "инженеров-программистов" будут включать мало прямого кодирования и много "присмотра" за агентами.
Прогноз на будущее
Егге прогнозирует, что появится много новых рабочих мест, но они будут иными. Компании смогут быть амбициознее, чем когда-либо прежде. Исторические прецеденты (пар, электричество, вычисления) показывают, что мы скоро увидим гораздо больше людей, создающих программное обеспечение, а волна продуктивности может увеличить национальный ВВП на поразительные суммы, 100% и более.
Чтобы не отставать, Егге советует: "Переходите на чат. Откажитесь от автодополнений. Перестаньте писать код вручную... И прежде всего, обратите пристальное внимание на новых агентов для программирования."
Например AmazonQ из предыдущей статьи
Забавно: из программистов мы превращаемся в пастухов ИИ-стада.
А потом ИИ научится пасти сам себя...
#Agents #Programming #VibeCoding #DeveloperEvolution
———
@tsingular
✍7⚡5👍3💯2
This media is not supported in your browser
VIEW IN TELEGRAM
Тоже про вайб-кодинг в Cursor.
Такое переводить, - только портить :)
Источник
#vibecoding #юмор #Cursor
———
@tsingular
Такое переводить, - только портить :)
Источник
#vibecoding #юмор #Cursor
———
@tsingular
😁18🤣10❤🔥2😢2✍1💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Sonnet 3.7 thinking
запрос:
код в комментарии.
Это к вопросу о том, что сегодня могут сделать модели с одного запроса, чтобы точно отражало желания пользователя без особой расшифровки и запускалось сразу без ошибок.
#Sonnet #dev #обучение
———
@tsingular
запрос:
нужен js код который рисует процесс генерации текста LLM моделью. токен за токеном должен наглядно показывать процесс инференса
код в комментарии.
Это к вопросу о том, что сегодня могут сделать модели с одного запроса, чтобы точно отражало желания пользователя без особой расшифровки и запускалось сразу без ошибок.
#Sonnet #dev #обучение
———
@tsingular
👍14🔥7
Media is too big
VIEW IN TELEGRAM
а это после серии уточнений.
чистый вайб. ни строчки вручную.
#demo #обучение #vibecoding
———
@tsingular
чистый вайб. ни строчки вручную.
#demo #обучение #vibecoding
———
@tsingular
👍16🆒2
Forwarded from Сиолошная
Gemini 2.5 Pro обновилась, по показываемым бенчмаркам самый большой прирост произошёл в веб-программировании (см. вторую картинку).
Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно, что оценка на SimpleQA — бенчмарке на знание очень редких и специфичных фактов — примерно одинаковая. Возможно это говорит о приблизительно равном размере моделей, но это (очень) неточно.
На арене две версии Gemini и одна o3 делят первое место. По моим ощущениям, я почти всегда закидываю запрос и в o3, и в 2.5, обе почти всегда одинаково решают проблемы — но стиль написания Python-кода o3 мне ближе (не засоряет всё комментариями). За прошлую неделю было 2 раза, что o3 не решила, а 2.5 решила, и один раз наоборот. This is a good model sir.
А ещё ждём preview Computer Use-версии (агент, контролирующий компьютер/браузер), который засветился на сайте. Будет ли он выпущен до Google I/O 20-21-го мая или же нам придётся ждать — не ясно.
Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно, что оценка на SimpleQA — бенчмарке на знание очень редких и специфичных фактов — примерно одинаковая. Возможно это говорит о приблизительно равном размере моделей, но это (очень) неточно.
На арене две версии Gemini и одна o3 делят первое место. По моим ощущениям, я почти всегда закидываю запрос и в o3, и в 2.5, обе почти всегда одинаково решают проблемы — но стиль написания Python-кода o3 мне ближе (не засоряет всё комментариями). За прошлую неделю было 2 раза, что o3 не решила, а 2.5 решила, и один раз наоборот. This is a good model sir.
А ещё ждём preview Computer Use-версии (агент, контролирующий компьютер/браузер), который засветился на сайте. Будет ли он выпущен до Google I/O 20-21-го мая или же нам придётся ждать — не ясно.
❤4👍4
вот чем, конечно, Google может задавить конкурентов, - это поиском, доступным для ИИ моделей.
236 сайтов уже, и это он еще не закончил.
Ни один Perplexity не может себе такого позволить.
#Gemini #google #search
———
@tsingular
236 сайтов уже, и это он еще не закончил.
Ни один Perplexity не может себе такого позволить.
#Gemini #google #search
———
@tsingular
👍13✍3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Ну что ж.
В городе реально новый герой.
Gemini 2.5 Pro preview 0506 прекрасно справился с моим любимым тестом:
Напиши венок сонетов
Без уточнений что это и как это.
Выдал точно 14 сонетов и 15й магистрал собрал.
К магистралу, конечно, вопросы - рифмы нет, но в целом гораздо лучше чем любые другие модели.
До этого с такой задачей справлялся только Sonnet 3.7
Так что можно говорить о реальном прогрессе.
С 0506 Gemini можно будет создавать шедевры и в коде и в тексте.
Полный стих в комментариях.
#Gemini #0506 #сонет
———
@tsingular
В городе реально новый герой.
Gemini 2.5 Pro preview 0506 прекрасно справился с моим любимым тестом:
Напиши венок сонетов
Без уточнений что это и как это.
Выдал точно 14 сонетов и 15й магистрал собрал.
К магистралу, конечно, вопросы - рифмы нет, но в целом гораздо лучше чем любые другие модели.
До этого с такой задачей справлялся только Sonnet 3.7
Так что можно говорить о реальном прогрессе.
С 0506 Gemini можно будет создавать шедевры и в коде и в тексте.
Полный стих в комментариях.
#Gemini #0506 #сонет
———
@tsingular
🔥16
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Офигенный пример из нового Gemini 2.5 (I/O Edition)
- Гемини, возьми картинку и постарайся воспроизвести ее кодом, принимая во внимание все паттерны.
Поглядите на эти анимации.
Image2Code в действии. Помните все эти арт-проекты и виджеинг? Не чокаясь.
I/O Edition - это замысловатый нейминг от Гугла в честь их конференции.
@cgevent
- Гемини, возьми картинку и постарайся воспроизвести ее кодом, принимая во внимание все паттерны.
Поглядите на эти анимации.
Image2Code в действии. Помните все эти арт-проекты и виджеинг? Не чокаясь.
I/O Edition - это замысловатый нейминг от Гугла в честь их конференции.
@cgevent
🔥10❤🔥6👍1
Forwarded from Анализ данных (Data analysis)
🚀 LTX-Video 13B — один из самых мощных open-source видеогенераторов.
Разработчики внедрили в модель мультимасштабный рендеринг.
✅ Обычные генеративные модели видео рендерят всё изображение целиком, одним разрешением.
Когда в сцене много движущихся объектов или деталей, модель может "размазать" их, потерять чёткость или неправильно совместить фон и передний план.
📝 А мультимасштабный рендеринг — это параллельная отрисовка картинки на разных уровнях детализации:
один поток отвечает за фон (низкая детализация, большой масштаб),
другой — за объекты в центре, движущиеся элементы (высокая детализация, малый масштаб).
Потом всё объединяется в один кадр, как слои в Photoshop.
🎯 Зачем это нужно?
Фон остаётся стабильным, не "дергается"
Движущиеся объекты остаются чёткими и отдельными от фона
Картинка в целом не разваливается (нет смешивания движений, артефактов)
Такой подход помогает удерживать высокое качество картинки даже при сложном движении — например, если в кадре бежит персонаж на фоне движущегося города.
👉 По сути, это умное раздельное внимание к разным частям кадра, чтобы не терять детали ни в статике, ни в движении.
Что нового?
– Модель 13 миллиардов параметров
– Multiscale rendering → больше деталей, чётче текстуры
– Лучше понимает движение и сцену
– Запускается локально на GPU
– Поддержка keyframes, движения камеры/персонажей, мультисценных секвенций
Запускается даже на RTX 4090.
#AI #videoAI #ltxvideo #deeplearning #generativeAI #opensource #videogeneration
▪Попробовать можно тут→ https://app.ltx.studio/ltx-video
▪Code → https://github.com/Lightricks/LTX-Video
▪Weights → https://huggingface.co/Lightricks/LTX-Video
Разработчики внедрили в модель мультимасштабный рендеринг.
✅ Обычные генеративные модели видео рендерят всё изображение целиком, одним разрешением.
Когда в сцене много движущихся объектов или деталей, модель может "размазать" их, потерять чёткость или неправильно совместить фон и передний план.
📝 А мультимасштабный рендеринг — это параллельная отрисовка картинки на разных уровнях детализации:
один поток отвечает за фон (низкая детализация, большой масштаб),
другой — за объекты в центре, движущиеся элементы (высокая детализация, малый масштаб).
Потом всё объединяется в один кадр, как слои в Photoshop.
🎯 Зачем это нужно?
Фон остаётся стабильным, не "дергается"
Движущиеся объекты остаются чёткими и отдельными от фона
Картинка в целом не разваливается (нет смешивания движений, артефактов)
Такой подход помогает удерживать высокое качество картинки даже при сложном движении — например, если в кадре бежит персонаж на фоне движущегося города.
👉 По сути, это умное раздельное внимание к разным частям кадра, чтобы не терять детали ни в статике, ни в движении.
Что нового?
– Модель 13 миллиардов параметров
– Multiscale rendering → больше деталей, чётче текстуры
– Лучше понимает движение и сцену
– Запускается локально на GPU
– Поддержка keyframes, движения камеры/персонажей, мультисценных секвенций
Запускается даже на RTX 4090.
#AI #videoAI #ltxvideo #deeplearning #generativeAI #opensource #videogeneration
▪Попробовать можно тут→ https://app.ltx.studio/ltx-video
▪Code → https://github.com/Lightricks/LTX-Video
▪Weights → https://huggingface.co/Lightricks/LTX-Video
👍9⚡4🔥1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
Comfy-трансформация
Есть у нас свой макаронный монстр - ComfyUI.
Глядя на название, уже чувствуешь подвох с UI - в общем пакет сложный. Тем кто не нюхал пороха с Houdini, Nuke, Тач, разными Shader Graph или упасихоспади Natron, будет сложно.
Тут надо отметить, что прикручивание нодового интерфейса к генерациям - это не эксклюзив, этим занимаются Glif.app, florafauna.ai, даже InvokeAI лепит свой нетворк граф.
Но по степени низкоуровневости и опенсорсности альтернатив у Комфи нет.
Как и по степени сложности освоения.
И если раньше Комфи всегда ассоциировался как альтернатива почившему Автоматик1111 или полупочившему Forge для генерации картинок, то потом он превратился в комбайн для ЛОКАЛЬНОЙ работы с любыми моделями (видео, аудио, ллм).
Но вчера произошел тектонический сдвиг:
Теперь в комфи завезли 65 готовых API-нод, которые позволяют подключать разные облачные (платные или нет) модели — от Veo2 до GPT4o и даже до Flux Ultra.
Вот список моделей:
Black Forest Labs Flux 1.1[pro] Ultra, Flux .1[pro]
Kling 2.0, 1.6, 1.5 & Various Effects
Luma Photon, Ray2, Ray1.6
MiniMax Text-to-Video, Image-to-Video
PixVerse V4 & Effects
Recraft V3, V2 & Various Tools
Stability AI Stable Image Ultra, Stable Diffusion 3.5 Large
Google Veo2
Ideogram V3, V2, V1
OpenAI GPT4o image
Pika 2.2
Думаю, список будет расширяться.
Но почему я думаю, что это тектоника плит?
Комфи таким образом превращается в аггрегатор моделей, коммерческих в том числе. Ну то есть он одной ногой влезает на поляну, где топчутся Fal.ai или Replicate, а другой - на поляну где рядятся Krea и Freeplik и Флора.
Вот если бы кто-то ввалил им денег и они бы написать нормальную UI морду ПОВЕРХ макаронных изделий, что был бы хит (SwarmUI - это очень-очень плохо, как по замыслу, так и по исполнению).
В общем шаг исторический.
https://blog.comfy.org/p/comfyui-native-api-nodes
@cgevent
Есть у нас свой макаронный монстр - ComfyUI.
Глядя на название, уже чувствуешь подвох с UI - в общем пакет сложный. Тем кто не нюхал пороха с Houdini, Nuke, Тач, разными Shader Graph или упасихоспади Natron, будет сложно.
Тут надо отметить, что прикручивание нодового интерфейса к генерациям - это не эксклюзив, этим занимаются Glif.app, florafauna.ai, даже InvokeAI лепит свой нетворк граф.
Но по степени низкоуровневости и опенсорсности альтернатив у Комфи нет.
Как и по степени сложности освоения.
И если раньше Комфи всегда ассоциировался как альтернатива почившему Автоматик1111 или полупочившему Forge для генерации картинок, то потом он превратился в комбайн для ЛОКАЛЬНОЙ работы с любыми моделями (видео, аудио, ллм).
Но вчера произошел тектонический сдвиг:
Теперь в комфи завезли 65 готовых API-нод, которые позволяют подключать разные облачные (платные или нет) модели — от Veo2 до GPT4o и даже до Flux Ultra.
Вот список моделей:
Black Forest Labs Flux 1.1[pro] Ultra, Flux .1[pro]
Kling 2.0, 1.6, 1.5 & Various Effects
Luma Photon, Ray2, Ray1.6
MiniMax Text-to-Video, Image-to-Video
PixVerse V4 & Effects
Recraft V3, V2 & Various Tools
Stability AI Stable Image Ultra, Stable Diffusion 3.5 Large
Google Veo2
Ideogram V3, V2, V1
OpenAI GPT4o image
Pika 2.2
Думаю, список будет расширяться.
Но почему я думаю, что это тектоника плит?
Комфи таким образом превращается в аггрегатор моделей, коммерческих в том числе. Ну то есть он одной ногой влезает на поляну, где топчутся Fal.ai или Replicate, а другой - на поляну где рядятся Krea и Freeplik и Флора.
Вот если бы кто-то ввалил им денег и они бы написать нормальную UI морду ПОВЕРХ макаронных изделий, что был бы хит (SwarmUI - это очень-очень плохо, как по замыслу, так и по исполнению).
В общем шаг исторический.
https://blog.comfy.org/p/comfyui-native-api-nodes
@cgevent
👍6
Media is too big
VIEW IN TELEGRAM
🤖 AgenticSeek: бесплатная локальная альтернатива Manus AI
AgenticSeek представляет собой 100% локальную альтернативу Manus AI — голосовой ИИ-ассистент, который просматривает веб, пишет код и планирует задачи, сохраняя все данные на вашем устройстве.
Ключевые преимущества:
• 🔒 Полностью локальный и приватный. Ваши файлы, беседы и поисковые запросы остаются у вас.
• 🌐 Умный веб-браузинг — AgenticSeek может самостоятельно просматривать интернет: искать, читать, извлекать информацию, заполнять веб-формы — всё без вашего участия.
• 💻 Автономный помощник для разработки — нужен код? Он может писать, отлаживать и запускать программы на Python, C, Go, Java и других языках.
• 🧠 Интеллектуальный выбор агентов — вы спрашиваете, он автоматически подбирает лучшего агента для задачи.
• 📋 Планирует и выполняет сложные задачи — от планирования поездок до комплексных проектов — может разбивать большие задачи на этапы и выполнять их с помощью нескольких ИИ-агентов.
• 🎙 С голосовым управлением — чистый, быстрый, футуристичный голос и распознавание речи, позволяющие разговаривать с ним как с вашим персональным ИИ из научно-фантастического фильма.
Технические особенности:
• Поддержка различных LLM-провайдеров: Ollama, lm-studio, OpenAI API и др.
• Работает с моделями от 7B до 70B+ (рекомендуется от 14B и выше)
• Распознавание и синтез речи работают полностью локально
• Поддержка нескольких языков
• Автоматический старт всех необходимых сервисов через Docker
Для работы требуется хотя бы GPU с 12 ГБ VRAM, но для полноценного использования рекомендуется 24+ ГБ.
Теперь бесплатный Манус есть у нас дома. :)
#AgenticSeek #LocalLLM #агенты #deepresearch
———
@tsingular
AgenticSeek представляет собой 100% локальную альтернативу Manus AI — голосовой ИИ-ассистент, который просматривает веб, пишет код и планирует задачи, сохраняя все данные на вашем устройстве.
Ключевые преимущества:
• 🔒 Полностью локальный и приватный. Ваши файлы, беседы и поисковые запросы остаются у вас.
• 🌐 Умный веб-браузинг — AgenticSeek может самостоятельно просматривать интернет: искать, читать, извлекать информацию, заполнять веб-формы — всё без вашего участия.
• 💻 Автономный помощник для разработки — нужен код? Он может писать, отлаживать и запускать программы на Python, C, Go, Java и других языках.
• 🧠 Интеллектуальный выбор агентов — вы спрашиваете, он автоматически подбирает лучшего агента для задачи.
• 📋 Планирует и выполняет сложные задачи — от планирования поездок до комплексных проектов — может разбивать большие задачи на этапы и выполнять их с помощью нескольких ИИ-агентов.
• 🎙 С голосовым управлением — чистый, быстрый, футуристичный голос и распознавание речи, позволяющие разговаривать с ним как с вашим персональным ИИ из научно-фантастического фильма.
Технические особенности:
• Поддержка различных LLM-провайдеров: Ollama, lm-studio, OpenAI API и др.
• Работает с моделями от 7B до 70B+ (рекомендуется от 14B и выше)
• Распознавание и синтез речи работают полностью локально
• Поддержка нескольких языков
• Автоматический старт всех необходимых сервисов через Docker
Для работы требуется хотя бы GPU с 12 ГБ VRAM, но для полноценного использования рекомендуется 24+ ГБ.
Теперь бесплатный Манус есть у нас дома. :)
#AgenticSeek #LocalLLM #агенты #deepresearch
———
@tsingular
🔥11👍2🤯2🆒2
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 Anthropic API теперь с веб-поиском для Claude
Anthropic запустил новую функцию веб-поиска в своем API — теперь Claude может получать доступ к текущей информации со всего интернета.
Это серьезно расширяет возможности для разработчиков, которые теперь могут создавать приложения с актуальными данными.
Когда Claude получает запрос, требующий актуальной информации или специализированных знаний, он использует свои способности рассуждения, чтобы сначала определить, поможет ли инструмент веб-поиска предоставить более точный ответ.
При необходимости модель генерирует поисковый запрос, анализирует результаты и предоставляет комплексный ответ со ссылками на источники.
Техническая начинка:
• Claude может работать как агент, проводя несколько последовательных поисков, используя ранние результаты для формирования последующих запросов
• Каждый ответ включает цитаты с материалами, позволяя пользователям проверять информацию
• Настраиваемые списки разрешенных и заблокированных доменов — можно указать, из каких источников Claude может получать информацию
• Управление функцией на уровне организации через админ-настройки
Практическое применение:
• Финансовые сервисы: анализ цен акций в реальном времени, рыночных трендов и нормативных обновлений
• Юридические исследования: доступ к недавним судебным решениям и правовым новостям
• Инструменты для разработчиков: использование последней документации API и технологических обновлений
• Повышение продуктивности аналитиков через доступ к последним отчетам и исследованиям
Функция веб-поиска также интегрирована в Claude Code, что особенно ценно при работе с новыми или быстро развивающимися фреймворками и библиотеками.
Важно: Сервис доступен для моделей Claude 3.7 Sonnet, обновленной Claude 3.5 Sonnet и Claude 3.5 Haiku по цене $10 за 1000 поисковых запросов ПОВЕРХ стандартной стоимость токенов моделей.
#Claude #API #поиск #агенты
———
@tsingular
Anthropic запустил новую функцию веб-поиска в своем API — теперь Claude может получать доступ к текущей информации со всего интернета.
Это серьезно расширяет возможности для разработчиков, которые теперь могут создавать приложения с актуальными данными.
Когда Claude получает запрос, требующий актуальной информации или специализированных знаний, он использует свои способности рассуждения, чтобы сначала определить, поможет ли инструмент веб-поиска предоставить более точный ответ.
При необходимости модель генерирует поисковый запрос, анализирует результаты и предоставляет комплексный ответ со ссылками на источники.
Техническая начинка:
• Claude может работать как агент, проводя несколько последовательных поисков, используя ранние результаты для формирования последующих запросов
• Каждый ответ включает цитаты с материалами, позволяя пользователям проверять информацию
• Настраиваемые списки разрешенных и заблокированных доменов — можно указать, из каких источников Claude может получать информацию
• Управление функцией на уровне организации через админ-настройки
Практическое применение:
• Финансовые сервисы: анализ цен акций в реальном времени, рыночных трендов и нормативных обновлений
• Юридические исследования: доступ к недавним судебным решениям и правовым новостям
• Инструменты для разработчиков: использование последней документации API и технологических обновлений
• Повышение продуктивности аналитиков через доступ к последним отчетам и исследованиям
Функция веб-поиска также интегрирована в Claude Code, что особенно ценно при работе с новыми или быстро развивающимися фреймворками и библиотеками.
Важно: Сервис доступен для моделей Claude 3.7 Sonnet, обновленной Claude 3.5 Sonnet и Claude 3.5 Haiku по цене $10 за 1000 поисковых запросов ПОВЕРХ стандартной стоимость токенов моделей.
#Claude #API #поиск #агенты
———
@tsingular
🔥5
Media is too big
VIEW IN TELEGRAM
Удобно, конечно, что теперь результаты поиска можно представить сразу в виде приложения наглядного.
Gemini 2.5 pro preview 0506 - такое рисует за 95 секунд.
Код в комментарии.
#gemini #timeline
———
@tsingular
Gemini 2.5 pro preview 0506 - такое рисует за 95 секунд.
Код в комментарии.
#gemini #timeline
———
@tsingular
🔥5⚡1✍1
Forwarded from AI Insider
Morgan Stanley прогнозирует, что к 2050 году в мире будет эксплуатироваться более 1 миллиарда человекоподобных роботов, что принесет совокупный доход около 5 триллионов долларов за следующие 25 лет.
В отчете прогнозируется, что к середине 2030-х годов число установленных устройств, в настоящее время исчисляемое десятками тысяч, вырастет до миллионов.
Для сравнения, Илон Маск считает, что к 2040 году в мире будет насчитываться не менее 10 миллиардов человекоподобных роботов, каждый из которых будет стоить от 20 000 до 25 000 долларов США🔵
В отчете прогнозируется, что к середине 2030-х годов число установленных устройств, в настоящее время исчисляемое десятками тысяч, вырастет до миллионов.
Для сравнения, Илон Маск считает, что к 2040 году в мире будет насчитываться не менее 10 миллиардов человекоподобных роботов, каждый из которых будет стоить от 20 000 до 25 000 долларов США
Please open Telegram to view this post
VIEW IN TELEGRAM
✍4👾2🤨1
Forwarded from CodeCamp
Figma ночью устроили маленькую ИИ-революцию — теперь это уже не просто редактор интерфейсов, а конструктор сайтов, приложений и даже маркетинга.
Чуваки показали 4 интересных нейро-фичи, если в двух словах:
— Можно сгенерить сайт из шаблона, добавить анимации и прокрутку — и сразу опубликовать;
— Можно описать приложение промтом, а Claude соберёт прототип с редактируемым дизайном;
— Можно рисовать векторную графику прямо в Figma — кисти, текстуры, иллюстрации, мини-Illustrator у нас дома;
— А если вдруг вы маркетолог — для вас сделали генератор бренд-контента для соцсетей, презентаций и рассылок.
Судя по всему, Figma до последнего ждали, что их купит Adobe, и только теперь начинают релизить прикольные штуки😁
Чуваки показали 4 интересных нейро-фичи, если в двух словах:
— Можно сгенерить сайт из шаблона, добавить анимации и прокрутку — и сразу опубликовать;
— Можно описать приложение промтом, а Claude соберёт прототип с редактируемым дизайном;
— Можно рисовать векторную графику прямо в Figma — кисти, текстуры, иллюстрации, мини-Illustrator у нас дома;
— А если вдруг вы маркетолог — для вас сделали генератор бренд-контента для соцсетей, презентаций и рассылок.
Судя по всему, Figma до последнего ждали, что их купит Adobe, и только теперь начинают релизить прикольные штуки
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15