Forwarded from e/acc
Вместо того чтобы объяснять шестилетке как работает умножение и деление, мы с ним завайбкодили игру. Вместе с Клодом, втроем у нас заняло около часа на всю реализацию. Игру можно добавить на айпад ребенку — весело, приятно и полезно.
Мой воркфлоу:
— прошу gemini собрать общую идею в единый док
— прошу клод на основе него собрать PRD и план реализации
— прошу клод имплементировать им же написанный план, обязательно начиная с тестов
— тестирую сам; если что-то не работает, прошу исправить
— прошу клод сделать план на следующую версию
и так далее
Играть: https://supermath-wheat.vercel.app/
Мой воркфлоу:
— прошу gemini собрать общую идею в единый док
— прошу клод на основе него собрать PRD и план реализации
— прошу клод имплементировать им же написанный план, обязательно начиная с тестов
— тестирую сам; если что-то не работает, прошу исправить
— прошу клод сделать план на следующую версию
и так далее
Играть: https://supermath-wheat.vercel.app/
Forwarded from Ai molodca (Dobrokotov)
Media is too big
VIEW IN TELEGRAM
Ну что ж, добро пожаловать в эру контекстных видео-моделей. 😅
Runway Aleph — в каждой второй новости и будто бы вновь заставляет перегретый нейросетями мозг испытать то самое забытое чувство техномагии.
А что на деле? Для теста выбрал шедевр кинематографа, с которым вы наверняка знакомы. Промпты — одноклеточные, из серии: Make (что-то).
Первое впечатление:
1) В целом — жесть, круто.
2) Жаль, что пока только пять секунд.
3) Плохо справляется с мелкими объектами, динамичными или комплексными движениями камеры, нестандартными концептами — в общем, всё те же болячки видео-моделей.
4) Кредиты сгорают со скоростью света — берите анлим.
5) В целом — круто, жесть.
Продолжаю тестировать и жду заявленный аналог от Luma. Думаю, скоро подтянутся Kling и прочие китайские товарищи.
Runway Aleph — в каждой второй новости и будто бы вновь заставляет перегретый нейросетями мозг испытать то самое забытое чувство техномагии.
А что на деле? Для теста выбрал шедевр кинематографа, с которым вы наверняка знакомы. Промпты — одноклеточные, из серии: Make (что-то).
Первое впечатление:
1) В целом — жесть, круто.
2) Жаль, что пока только пять секунд.
3) Плохо справляется с мелкими объектами, динамичными или комплексными движениями камеры, нестандартными концептами — в общем, всё те же болячки видео-моделей.
4) Кредиты сгорают со скоростью света — берите анлим.
5) В целом — круто, жесть.
Продолжаю тестировать и жду заявленный аналог от Luma. Думаю, скоро подтянутся Kling и прочие китайские товарищи.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from vc.ru
После публикации финансового отчёта Тим Кук провёл общее совещание с сотрудниками Apple, где напомнил о важности ИИ-революции. Он считает, что компания может наверстать разрыв с другими игроками.
«Мы редко были первыми. ПК были до Mac, смартфоны — до iPhone, планшеты — до iPad», но компания создавала их «современные» версии, — сказал он
vc.ru/apple/2136123
«Мы редко были первыми. ПК были до Mac, смартфоны — до iPhone, планшеты — до iPad», но компания создавала их «современные» версии, — сказал он
vc.ru/apple/2136123
Forwarded from e/acc
если сводить ИИ прогресс к единой метрике — то это количество минут, в течение которых ИИ способен выполнять автономную и полезную работу, которая по эффективности не хуже того, что делает эксперт в данной области.
2023: менее 1 минуты
2024: 3–4 минуты
2025: 5–15 минут
2026: я ожидаю (и вижу уже по непубличным демо) от 30 минут до пары часов
2023: менее 1 минуты
2024: 3–4 минуты
2025: 5–15 минут
2026: я ожидаю (и вижу уже по непубличным демо) от 30 минут до пары часов
Forwarded from Адель и МЛь
Помните хаки промпт инжиниринга? «Я дам тебе чаевые», «От этого зависит моя карьера» и т.д.
Похоже, с современными моделями это все больше не работает.
И даже chain-of-thought промптинг на non-reasoning моделях больше не помогает.
Серия статей:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5165270
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5375404
Source
Похоже, с современными моделями это все больше не работает.
И даже chain-of-thought промптинг на non-reasoning моделях больше не помогает.
Серия статей:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5165270
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5375404
Source
Сэм Альтман подтверждает, что сериал «Пантеон» классный.
Если в двух словах, то в в сериале для улучшения нейросетейрешили загружать реальных людей . Ну и дальше обыгрывается всё, что вы можете себе представить. Мне запомнились люди протестующие против ИИ, ждем в реальности такое.
Если в двух словах, то в в сериале для улучшения нейросетей
Perplexity запартнерились с сервисом бронирования в ресторанах Open Table
https://www.perplexity.ai/hub/blog/book-a-table-with-perplexity-and-opentable
К вопросу о том, что делать агентов на понятной инфраструктуре правильнее, чем пытаться кликать по разным сайтам или звонить роботами по телефонам.
https://www.perplexity.ai/hub/blog/book-a-table-with-perplexity-and-opentable
К вопросу о том, что делать агентов на понятной инфраструктуре правильнее, чем пытаться кликать по разным сайтам или звонить роботами по телефонам.
Forwarded from 42 секунды
The Information: Cognition предложил выкупить акции сотрудников из Windsurf и говорит, что баланс между «работой и личной жизнью» невозможен
– Cognition предложил выкупить акции примерно 200 сотрудникам
– Ранее Cognition приобрел конкурирующий ИИ-стартап Windsurf
– Согласно письму, сотрудники получат зарплату за девять месяцев
– Недавно Cognition уволил 30 сотрудников из команды Windsurf
– Остальные должны решить до 10 августа: останутся или хотят уйти
– Cognition требуют от всех новых сотрудников полной самоотдачи
– Глава Cognition пишет: «Мы аутсайдеры, требования высоки»
– Он также не верит «в баланс между работой и личной жизнью»
– Миссия стартапа важна, «разделять эти два аспекта невозможно»
– Сотрудники Cognition проводят в офисе «6 дней и 80 часов/нед.»
– Благодаря сделке штат Cognition вырос впятеро (был 39 чел.)
– Также сделка помогла значительно увеличить выручку Cognition
– ARR Windsurf был около $82 млн, что соответствует Cognition
@ftsec
– Cognition предложил выкупить акции примерно 200 сотрудникам
– Ранее Cognition приобрел конкурирующий ИИ-стартап Windsurf
– Согласно письму, сотрудники получат зарплату за девять месяцев
– Недавно Cognition уволил 30 сотрудников из команды Windsurf
– Остальные должны решить до 10 августа: останутся или хотят уйти
– Cognition требуют от всех новых сотрудников полной самоотдачи
– Глава Cognition пишет: «Мы аутсайдеры, требования высоки»
– Он также не верит «в баланс между работой и личной жизнью»
– Миссия стартапа важна, «разделять эти два аспекта невозможно»
– Сотрудники Cognition проводят в офисе «6 дней и 80 часов/нед.»
– Благодаря сделке штат Cognition вырос впятеро (был 39 чел.)
– Также сделка помогла значительно увеличить выручку Cognition
– ARR Windsurf был около $82 млн, что соответствует Cognition
@ftsec
Forwarded from 42 секунды
Bloomberg: Новая команда Apple работает над ИИ-продуктом, похожим на ChatGPT
– Внутри Apple появилась новая команда под названием «Answers»
– Команда «Answers» разрабатывает упрощенную версию ChatGPT
– Руководители Apple считали, что компании не нужен свой чат-бот
– Они считали, что отсутствие чат-бота не показывает ее отставание
– Реальность же такова, что чат-боты на базе ИИ стали популярны
– Различные чат-боты обслуживают сотни миллионов пользователей
– Система Apple Intelligence сейчас не предлагает варианты поиска
– Она обобщает данные, редактирует текст, работает с фото и др.
– Система не содержит ничего похожего на ChatGPT, Gemini и др.
– Apple создала команду «Answers, Knowledge and Information»
– Команда намерена создать новый интерфейс поиска как ChatGPT
– Могут появиться новое приложение и серверная инфраструктура
@ftsec
– Внутри Apple появилась новая команда под названием «Answers»
– Команда «Answers» разрабатывает упрощенную версию ChatGPT
– Руководители Apple считали, что компании не нужен свой чат-бот
– Они считали, что отсутствие чат-бота не показывает ее отставание
– Реальность же такова, что чат-боты на базе ИИ стали популярны
– Различные чат-боты обслуживают сотни миллионов пользователей
– Система Apple Intelligence сейчас не предлагает варианты поиска
– Она обобщает данные, редактирует текст, работает с фото и др.
– Система не содержит ничего похожего на ChatGPT, Gemini и др.
– Apple создала команду «Answers, Knowledge and Information»
– Команда намерена создать новый интерфейс поиска как ChatGPT
– Могут появиться новое приложение и серверная инфраструктура
@ftsec
Forwarded from GPT/ChatGPT/AI Central Александра Горного
Вышел Claude Opus 4.1
В Anthropic утверждают, что модель лучше работает с кодом и успешнее справляется с агентскими задачами.
Opus 4.1 уже доступна для платных подписчиков, в Claude Code и через API.
https://www.anthropic.com/news/claude-opus-4-1
В Anthropic утверждают, что модель лучше работает с кодом и успешнее справляется с агентскими задачами.
Opus 4.1 уже доступна для платных подписчиков, в Claude Code и через API.
https://www.anthropic.com/news/claude-opus-4-1
Forwarded from Denis Sexy IT 🤖
Если что, модели с лицензией Apache 2.0, можно использовать официально в стартапах своих и как хочется – лица хейтеров OpenAI имадженировали ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
Почему OpenAI, сейчас решили выложить такие крутые модели сейчас?
Все соц-сети гудят в ожидании ChatGPT 5 чуть ли не на этой неделе.
Все соц-сети гудят в ожидании ChatGPT 5 чуть ли не на этой неделе.
This media is not supported in your browser
VIEW IN TELEGRAM
Eleven Labs выпустили Eleven Music — свою highest quality AI music model.
- Complete control over genre, style, and structure
- Multi-lingual, including English, Spanish, German, Japanese and more
- Edit the sound and lyrics of individual sections or the whole song
https://elevenlabs.io/music
- Complete control over genre, style, and structure
- Multi-lingual, including English, Spanish, German, Japanese and more
- Edit the sound and lyrics of individual sections or the whole song
https://elevenlabs.io/music
Forwarded from e/acc
Google сделали симуляционную видео-модель. В отличии от Veo, она поддерживает инпут от пользователя как в компьютерной игре. Сам мир имеет память и симулируемую физику: вы можете пройти по улице, вернуться и сцена будет такой же как раньше. При этом это не игровой движок, а именно нейронка.
Разница между фильмами и играми окончательно стирается. Ты будешь смотреть кино, а потом в любой интересный момент сможешь впрыгнуть в историю и взаимодействовать с героями.
Разница между фильмами и играми окончательно стирается. Ты будешь смотреть кино, а потом в любой интересный момент сможешь впрыгнуть в историю и взаимодействовать с героями.
Forwarded from Сиолошная
В преддверии выхода GPT-5 — выжимка двух постов TheInformation (первый и второй):
— Изначально Orion, ставший GPT-4.5, хотели сделать GPT-5. Однако большинство трюков, которые исследователи нашли на «маленьких» моделях, потеряли свою эффективность при масштабировании. Так происходит часто, но тут, видимо, упадок был больше ожидаемого.
— по данным аутлета, o3 имеет ту же базовую модель, что и o1 (я так думал с первого дня + про это рассказывал Dylan Patel), поэтому все приросты, что мы видели — исключительно за счёт дотренировки рассуждениям.
— o3 в ChatGPT тупее o3, показанной в декабре. Основная причина в том, что первая — это исследовательский результат, а вторая — это продукт, который дотренировали на человечность общения, поддержку чата, итд.
— Ещё в июне в OpenAI не было модели настолько хорошей, чтобы называться GPT-5. Рад, что ребята справились с техническими трудностями🩷
— Однако у OpenAI все еще был козырь в рукаве: компания разрабатывала то, что исследователи назвали «универсальным верификатором», который автоматизирует процесс проверки ответов в процессе обучения. Этот процесс по сути заключается в поручении версии LLM проверки и оценки ответов другой модели с использованием различных источников для их исследования. Тут могут пригодиться и веб-поиск из Deep Research / o3, и навыки написания кода, и другие.
— Сейчас все модели, что мы видим, были обучены рассуждениям в доменах с простой верификацией. Magistral, DeepSeek R1, Qwen, o3 — все учились по большей степени на задачах математики, где ответ легко извлечь и сравнить за долю секунды с исходным, и на задачах программирования, где код решения запускался на разных тестах и либо их проходил, либо нет. Конечно, добавляли тесты с выбором ответа из разных доменов (физика, биология, итд), но ключевое здесь — ответ везде легко извлечь и проверить. «Универсальный верификатор» позволяет перевернуть страницу и начать обучаться рассуждениям на задачах, где критерии оценки ответа не очевидны и даже субъективны.
— «Технические детали работы универсального верификатора пока неясны. По сути, он заключается в поручении LLM проверки и оценки ответов другой модели»
— «Один исследователь рассказал, что верификатор может быть похож на концепцию генеративно-состязательных сетей (GAN). В GAN есть две модели: модель-генератор, которая пытается создать поддельные данные, такие как текст, изображения и аудио, и модель-дискриминатор, которая пытается отличить поддельные данные, созданные ИИ, от настоящих данных, созданных человеком. В ходе итеративного обучения модель-генератор учится генерировать высококачественные данные, неотличимые от реальных» (ну а в контексте GPT-5, видимо, генерировать ответы, неотличимые от правильных)
Пока на ум приходит две статьи, которые, надеюсь, разберу в канале:
— Inference-Time Scaling for Generalist Reward Modeling от DeepSeek
— Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning от ByteDance
Ну а какой выйдет GPT-5 и насколько она BIG или не BIG мы узнаем уже совсем скоро!
— Изначально Orion, ставший GPT-4.5, хотели сделать GPT-5. Однако большинство трюков, которые исследователи нашли на «маленьких» моделях, потеряли свою эффективность при масштабировании. Так происходит часто, но тут, видимо, упадок был больше ожидаемого.
— по данным аутлета, o3 имеет ту же базовую модель, что и o1 (я так думал с первого дня + про это рассказывал Dylan Patel), поэтому все приросты, что мы видели — исключительно за счёт дотренировки рассуждениям.
— o3 в ChatGPT тупее o3, показанной в декабре. Основная причина в том, что первая — это исследовательский результат, а вторая — это продукт, который дотренировали на человечность общения, поддержку чата, итд.
— Ещё в июне в OpenAI не было модели настолько хорошей, чтобы называться GPT-5. Рад, что ребята справились с техническими трудностями
— Однако у OpenAI все еще был козырь в рукаве: компания разрабатывала то, что исследователи назвали «универсальным верификатором», который автоматизирует процесс проверки ответов в процессе обучения. Этот процесс по сути заключается в поручении версии LLM проверки и оценки ответов другой модели с использованием различных источников для их исследования. Тут могут пригодиться и веб-поиск из Deep Research / o3, и навыки написания кода, и другие.
— Сейчас все модели, что мы видим, были обучены рассуждениям в доменах с простой верификацией. Magistral, DeepSeek R1, Qwen, o3 — все учились по большей степени на задачах математики, где ответ легко извлечь и сравнить за долю секунды с исходным, и на задачах программирования, где код решения запускался на разных тестах и либо их проходил, либо нет. Конечно, добавляли тесты с выбором ответа из разных доменов (физика, биология, итд), но ключевое здесь — ответ везде легко извлечь и проверить. «Универсальный верификатор» позволяет перевернуть страницу и начать обучаться рассуждениям на задачах, где критерии оценки ответа не очевидны и даже субъективны.
— «Технические детали работы универсального верификатора пока неясны. По сути, он заключается в поручении LLM проверки и оценки ответов другой модели»
— «Один исследователь рассказал, что верификатор может быть похож на концепцию генеративно-состязательных сетей (GAN). В GAN есть две модели: модель-генератор, которая пытается создать поддельные данные, такие как текст, изображения и аудио, и модель-дискриминатор, которая пытается отличить поддельные данные, созданные ИИ, от настоящих данных, созданных человеком. В ходе итеративного обучения модель-генератор учится генерировать высококачественные данные, неотличимые от реальных» (ну а в контексте GPT-5, видимо, генерировать ответы, неотличимые от правильных)
Пока на ум приходит две статьи, которые, надеюсь, разберу в канале:
— Inference-Time Scaling for Generalist Reward Modeling от DeepSeek
— Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning от ByteDance
Ну а какой выйдет GPT-5 и насколько она BIG или не BIG мы узнаем уже совсем скоро!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Мониторинг СМИ для БГ Поисковых сервисов и ИИ
Илон Маск пообещал открыть исходный код Grok 2
Глава xAI Илон Маск заявил, что откроет исходный код чат-бота Grok 2 на следующей неделе.
#нейросети
Глава xAI Илон Маск заявил, что откроет исходный код чат-бота Grok 2 на следующей неделе.
#нейросети
👍1