NEW BOT Телеграм, страница

Forwarded from Нейронавт | Нейросети в творчестве

CogView4-6B

Генератор картинок
Конкурент flux

Поддерживает очень длинный контекст, хорошо следует промпту

Выходное разрешение от 512 до 2048 пикселей с шагом 32

По потреблению памяти терпимо. Главный вопрос что с кастомизацией?

Гитхаб
Демо

#text2image

👎2

1.48K views14:20

Generative Ai

Forwarded from Нейронавт | Нейросети в творчестве

0:53

This media is not supported in your browser

VIEW IN TELEGRAM

LTX-Video v0.9.5

Обновка видеогенератора

- Поддержка ключевых кадров и продолжения видео
- нативная поддержка в #ComfyUI
- Поддержка более высоких разрешений
- Улучшенное понимание промптов
- Улучшенный VAE
- Новое интерактивное веб-приложение в LTX-Studio
- Автоматическое улучшение промптов

Кому интересно, оно без цензуры

Гитхаб
ComfyUI

Попробовать на офсайте (притворитесь что вы не в России)

👍1

1.72K views10:09

Generative Ai

Forwarded from Machinelearning

1:10

This media is not supported in your browser

VIEW IN TELEGRAM

🚀🚀🚀 HunyuanVideo I2V - новая версия одной из лучших опенсорс моделей преобразования изображения в видео!

Код обучения I2V здесь! 🛩️🛩️🛩️🛩️🛩️🛩️

Китайский зверь с 13B-параметрами.

Единственная модель, которая может сравниться с Runway Gen-3 и Wan 2.1.

Генерации выглядит хорошо!

▪Github: https://github.com/Tencent/HunyuanVideo-I2V
▪HF: https://huggingface.co/tencent/HunyuanVideo-I2V

@ai_machinelearning_big_data

#Imagetovideo #diffusionmodels #videogeneration #imagetovideo #generation

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥2❤1

2.12K views11:25

Generative Ai

Forwarded from e/acc

OpenAI презентовал новые продукты для разработки агентов

1. Web Search. Любой ваш агент через OAI может искать и использовать информацию из интернета.

2. File Search. Поиск по локальным файлам.

3. Computer Use. Вы можете сделать агента, который управляет компьютером автономно.

4. Multi-agent framework! Swarm теперь называется Agents SDK, который позволяет передавать беседы между агентами сохраняя контекст.

5. Observability, tracing — удар в сторону Ланграфа.

Стрим еще идет, буду обновлять пост: https://www.youtube.com/live/hciNKcLwSes

👍2🔥2

2.09K views17:28

Generative Ai

Forwarded from Data Secrets

OpenAI выкатили в API три новые аудио-модели

🔷 Первые две – speech2text. Лучше Whisper, и вообще заявляют SOTA, которые к тому же хорошо работают с акцентами, шумом и быстрой речью.

Отличие между двумя – в размерах (ну и цене): первая gpt-4o-transcribe, вторая – gpt-4o-mini-transcribe. Разницу в метриках и приросты оцените сами 👆

🔷 Третья моделька – gpt-4o-mini-tts – позанятнее. Это, наоборот, text2speech, то есть модель, проговаривающая текст. Но не просто проговаривающая, а с той интонацией и тем голосом, которые зададите вы. Поиграться уже можно здесь www.openai.fm/

🔷 Ну и новая либа для агентов Agents SDK теперь тоже поддерживает аудио, так что с этого дня там можно создавать говорящих агентов.

openai.com/index/introducing-our-next-generation-audio-models/

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🤯2👎1

1.86K views21:18

Generative Ai

Forwarded from Life2film

Обновили GPT4o и он теперь умеет фотошопить!) Или рисовать новые или стилизовать… теперь для обычных задач может и не нужны сложности с comfyui или flux…

Консистентные персонажи (сохраняет персонажа), смена стиля, работа с текстом (даже с кирилицей), прозрачные фоны….

Мне точно пригодиться. Особенно если появиться в апи.

https://openai.com/index/introducing-4o-image-generation/

👍8❤1👎1

1.58K views07:23

Generative Ai

Forwarded from Machinelearning

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

VideoMind - это агент для анализа видео, разработанный для точного понимания контента с привязкой ко времени.

Основная цель инструмента - обеспечить "temporal-grounded video understanding", то есть способность отвечать на вопросы о видео, точно указывая на конкретные моменты (визуальные доказательства) в видеоряде, что является сложной задачей для стандартных больших языковых моделей.

Как работает:
🟢 Внутри использует ролевой агентный подход (role-based agentic workflow), который включает специализированные компоненты (роли), такие как планировщик (planner) для координации, локализатор (grounder) для привязки ко времени, верификатор (verifier) для оценки точности временных интервалов и ответчик (answerer) для формулировки ответа.
🟢 Разработчики использовали очень интересную стратегию "Chain-of-LoRA", которая позволяет эффективно переключаться между различными ролями с помощью легковесных адаптеров LoRA (Low-Rank Adaptation) без необходимости загружать несколько отдельных моделей, оптимизируя баланс между гибкостью и вычислительной эффективностью.

✔️ Результаты: демонстрирует SOTA производительность на 14 бенчмарках для различных задач понимания видео, включая ответы на вопросы с привязкой ко времени (Grounded VideoQA), временную локализацию событий (VTG) и общие ответы на вопросы по видео (VideoQA).

🟡

🟡

🟡

🟡

🟡

Checkpoints

@ai_machinelearning_big_data

#agent #ai #ml #video

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1🔥1

1.26K views11:03

Generative Ai

Forwarded from Data Secrets

OpenAI официально запустили свою OpenAI Academy для всех

Помните, мы рассказывали, что OpenAI открывает OpenAI Academy для помощи ИИ-разработчикам и бизнесу в развивающихся регионах? Так вот теперь они расширились, и их курсы и вебинары стали доступны бесплатно абсолютно всем.

В основном это курсы по промпт-инжинерингу и тому, как использовать продукты OpenAI, но для разработчиков тоже что-то добавили.

Например, вот – курс с практическими уроками по дистилляции, файн-тюнингу, разворачиванию Realtime API и оркестрации мульти-агентных систем. А 8 апреля пройдет стрим про построение GraphRAG.

Стоит заглянуть, в общем: academy.openai.com

👍3❤1👎1

1.33K views11:09

Generative Ai

Forwarded from Data Secrets

Бывший исследователь OpenAI Даниэль Кокотаджило предсказал, что случится с ИИ в 2026–2027

В 2024 Дэниэль вошел в список топ-100 самых влиятельных людей в ИИ по версии журнала TIME. Он известен двумя вещами.

Во-первых, в том же 2024 он с шумом ушел с высокой позиции в OpenAI, отказавшись подписать NDA. За подпись ему предлагали примерно $2 миллиона в виде акций, но он выбрал свободу слова.

Во-вторых, в 2021, еще до прихода в OpenAI и задолго до успеха ChatGPT, он написал статью, в которой описал свое виденье того, как будет выглядеть ИИ до 2026, и пока оказался необыкновенно прав. Представьте: он предсказал и массовый хайп, и венчурный бум, и даже ограничение экспорта чипов из США в Китай еще до того, как кто-либо вообще хотя бы единожды поговорил с чат-ботом.

Так вот, на днях Дэниэль показал свой новый прогноз до 2028. Его он разрабатывал уже не один, а с командой его собственной лаборатории AI Futures Project. Вот этот документ, вот подкаст по нему. Основное:

⭐️

2025: агенты развиваются, но их эффективность все еще ограничена. Тем не менее, внутри компаний уже начинают разворачивать узкоспециализированных агентов, автоматизирующих некоторые задачи.

⭐️

Конец 2025: GPT-3 moment для агентов. Появляется система, действительно способная действовать автономно.

⭐️

Начало 2026: флагмагманские агенты дают 50%-ное ускорение алгоритмического прогресса в компаниях. Китай объединяет все свои ведущие AI-компании в единый центр, чтобы догнать США.

⭐️

Конец 2026: массовые увольнения и перестройка рынка труда.

⭐️

Начало 2027: новые прорывы, полная автоматизация разработки, экономика растет, но разрыв между классам увеличивается.

⭐️

Конец 2027: оказывается, что агенты не вполне безопасны, и вот тут возникает развилка. Либо в этот момент человечество решит приостановить разработку и поработать над элайментом, либо гонка продолжается.

Ну а дальше вы поняли. Либо суперинтеллект поглощает власть над всеми сферами жизни и людям каюк, либо развитие немного притормаживается и больше внимания мы начинаем уделять безопасности и жесткому международному мониторингу.

Что сказать. Сохраняйте, проверим через 3 года.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3

1.25K views16:19

Generative Ai

🦙 Llama 4 от Meta: мульти-модальный ИИ нового поколения

Meta представила Llama 4 — модель с поддержкой текста, изображений и аудио, ориентированную на агентные сценарии и улучшенное рассуждение.

Что нового
- 🔀 Мультимодальность: единая модель для текста, аудио и изображений
- 🧠 Лучшие reasoning-навыки: сложные задачи и многошаговые запросы
- ⚙️ Mixture-of-Experts: активация только части модели для эффективности
- 🦾 Агентные функции: выполнение последовательных действий по команде

Meta вложит $65 млрд в инфраструктуру и обучила модель с 10× большим compute, чем Llama 2. Внедрение — в продуктах вроде Facebook и Ray-Ban Smart Glasses.

https://ai.meta.com/blog/llama-4-multimodal-intelligence/

🔥2

1.37K views19:18

Generative Ai

Forwarded from Агенты ИИ | AGI_and_RL

Тут толпа исследователей из разных компаний и универов сделалил большую обзорку по современным компонентам агентов

Обучение, ризонинги, память, world models, много про RL, реварды, действия и вызов тулов, эволюционные системы, самоулучшение, сейфти и вообще куча всего

190 страниц текста и 74 страницы ссылок

красота, стоит обратить внимание

Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems
https://arxiv.org/abs/2504.01990

Листик со ссылками
https://github.com/FoundationAgents/awesome-foundation-agents

👍4❤1

1.64K views14:50

Generative Ai

Forwarded from Machinelearning

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

Google не шутку разошлись сегодня!

Они выкатили Firebase Studio - новую облачную агенсткую среду разработки, в которой есть весь инструментарий для быстрого создания полнофункциональных приложений с искусственным интеллектом, и все это в одном месте.

Вы можете создавать приложения на естественном языке, тестить их и развертывать в одном месте 🔥

По сути, это бесплатная альтернатива Cursor, Bolt или v0, прямо в браузере.

https://goo.gle/4cvcUzY

Апдейт: Еще Google дропнули Agent Development Kit (ADK) — новую среду с открытым исходным кодом работы с мульит-агентами!
- открыли доступ к Veo 2 через Gemini API!
- и запускать свой новый MCP протокол Agent2Agent Protocol

@ai_machinelearning_big_data

#GoogleCloudNext #FirebaseStudio

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2🔥2

1.65K views22:54

Generative Ai

Forwarded from Denis Sexy IT 🤖

Google выпустил манул по промпт инженерингу на 68 страниц – в нем все существующие стратегии составления промптов:

https://www.kaggle.com/whitepaper-prompt-engineering

Все кто хотели вкатиться в LLM-парселтанг, время пришло

Kaggle

Prompt Engineering

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

👍5👎5

1.93K views06:42

Generative Ai

Forwarded from e/acc

OpenAI анонсировал новую модель. После 4.5, очевидно, идет... 4.1

Модель дешевле и при этом умнее и быстрее, чем 4o и даже 4.5. Поддерживает до миллиона токенов контекста и стоит сильно дешевле для кешированных запросов.

Идет в трех вариантах: 4.1, mini и nano. Результаты для кодинга можно оценить на картинке. Это НЕ reasoning модель, поэтому с o1-о3 справедливее будет сравнивать грядущую o4.

Уже доступна в API!

👎3👍2

1.7K views20:29

Generative Ai

Forwarded from Denis Sexy IT 🤖

У OpenAI вышел классный гайд для бизнеса, на тему того как внедрять GenAI в бизнесс процессы:
https://openai.com/business/guides-and-resources/

Внутри 3 части:
– АИ на предприятии: Опыт семи передовых компаний
– Практическое руководство по созданию агентов ИИ: Что агенты АИ могут сделать для ваших сотрудников?
– Определение и масштабирование сценариев применения АИ: На чём концентрируются компании, первыми внедрившие АИ

Я полистал и там внутри много вещей на которых лично я набивал шишки в практике с GenAI, очень рекомендую корпоративным менеджерам

Openai

OpenAI Learning Hub: AI Guides, Tutorials & Resources

Explore OpenAI’s expert content designed for business. Featuring in-depth resources to accelerate AI adoption for startups, enterprises, and developers.

👍2❤1🔥1

1.54K views13:04

Generative Ai

Forwarded from Data Secrets

Anthropic выкатили гайд по вайб-кодингу

😎

23 страницы посвящены тому, как программировать с агентами (в частности, с Claude Code). Собраны советы, best practices, примеры, антипримеры и даже готовые промпты.

Отдельное внимание уделяется безопасности данных и мульти-агентным процессам.

Полезно, если пользуетесь каким-нибудь подобным инструментом каждый день

PDF

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👎1

1.28K views12:19

Generative Ai

🎧 Amphion: универсальная платформа для генерации мультимодального аудио от OpenMMLab

Зачем нужен Amphion
Amphion — это модульная open-source библиотека для создания и обработки аудио с помощью генеративных моделей. Поддерживает TTS, звуковые эффекты, музыку, шумы, аудио редактирование и многое другое. Построена для работы с PyTorch.

Особенности
🔌 Модульная архитектура — ядро разделено на три уровня: backend (обработка аудио), frontend (UI/API/CLI) и pipeline (инференс).
🎙️ Мультимодальность — поддержка как TTS, так и генерации SFX, музыки, редактирования и конверсии речи.
🧩 Богатая экосистема — можно использовать собственные модели или готовые пайплайны, включая TTS, voice conversion, аудиоредакторы.
📦 Поддержка разных форматов — WAV, MP3 и др.
💡 Интеграция с HuggingFace — загрузка моделей и конфигов прямо из Model Hub.

Поддерживаемые модели
- TTS: FastSpeech2, VITS, Grad-TTS
- VC: ContentVec + DiffVC
- SE/Enhancement: MetricGAN, Diffusion-based models
- AudioLM и DiffSound в разработке

🛠 Пример использования:


python tools/infer.py \
  --pipeline tts \
  --input_text "Привет, мир!" \
  --output output.wav

https://github.com/open-mmlab/Amphion

GitHub

GitHub - open-mmlab/Amphion: Amphion (/æmˈfaɪən/) is a toolkit for Audio, Music, and Speech Generation. Its purpose is to support…

Amphion (/æmˈfaɪən/) is a toolkit for Audio, Music, and Speech Generation. Its purpose is to support reproducible research and help junior researchers and engineers get started in the field of audi...

👍2👎1

1.76K views16:21

Generative Ai

Как запустить стартап в 10× быстрее с помощью AI агентов, Cursor и MCP на стеке Next.js + Tailwind CSS + shadcn/ui.

В этом видео вы узнаете:
✅ Как настроить Cursor Agent для автогенерации PRD и кода лендинга
✅ 3 AI‑агента для анализа конкурентов, глубинного ресёрча и маркетинга
✅ Пошаговый live‑coding: от пустого репозитория до деплоя

https://www.youtube.com/watch?v=i2mFvjE3zJY

YouTube

Как запустить стартап в 10× быстрее с AI агентами и Cursor AI / MCP| Live‑coding на Next.js

В этом видео я показываю, как ускорить запуск вашего стартапа в 10× раз с помощью AI агентов, Cursor Agent и MCP на стеке Next.js + Tailwind CSS + shadcn/ui.

В этом видео вы узнаете:
✅ Как настроить Cursor Agent для автогенерации PRD и кода лендинга
✅…

👍3👎3🔥1

2.1K views20:10

About

Blog

Apps

Platform