Forwarded from Анализ данных (Data analysis)
🔥 2025 - год, когда LLM действительно изменились. Коротко и по делу, по мотивам поста Андрея Карпты
2025 оказался неожиданно сильным годом для LLM. Не просто улучшения метрик, а реальные сдвиги в том, как модели обучаются, как ими пользуются и как вообще стоит думать об их «интеллекте».
Главное за 2025 по мнению Карпты:
1. RLVR — Reinforcement Learning from Verifiable Rewards
До 2025 стандартный стек выглядел так: pretraining → SFT → RLHF. В 2025 к этому стеку добавился новый, ключевой этап- RLVR.
Вместо субъективной человеческой оценки модель обучают на автоматически проверяемых наградах: задачи по математике, коду, логике. В результате LLM сама находит стратегии рассуждения - дробит задачи, проверяет гипотезы, возвращается назад.
Важно не «что мы показали модели», а то, что она сама нашла рабочие способы думать. Этот этап оказался невероятно эффективным по соотношению capability к стоимости, из-за чего значительная часть вычислений ушла не в pretraining, а в длинные RL-прогоны.
Побочный эффект — появился новый регулятор мощности: test-time compute. Больше «времени на размышление» — выше качество. o1 показал идею, o3 в начале 2025 сделал перелом — разницу стало чувствовать интуитивно.
2. «Призраки, а не животные» и рваный интеллект
В 2025 индустрия наконец осознала форму LLM-интеллекта. Мы не «растим животных». Мы «призываем призраков».
LLM оптимизированы не под выживание и социальные группы, а под имитацию текста, получение наград в формальных задачах и апвоты. Поэтому интеллект получается рваным:
- гениальны в одном
- наивны и уязвимы в другом
RLVR усиливает этот эффект - модели становятся сверхсильными в верифицируемых доменах и странно слабыми вне их. Отсюда и потеря доверия к бенчмаркам: они почти всегда верифицируемы, а значит легко «обрастают jagged-улучшениями». Обучение на тесте стало искусством.
Можно побить все бенчмарки и всё ещё быть далеко от AGI.
3. Cursor и новый слой LLM-приложений
Cursor показал, что появился новый класс LLM-продуктов - «Cursor для X».
Это не просто интерфейс к модели, а слой, который:
- делает context engineering
- оркестрирует множество LLM-вызовов в DAG
- балансирует стоимость и качество
- дает специализированный UI
- вводит «ползунок автономности»
Вероятный сценарий: LLM-лабы делают «универсального студента», а приложения превращают их в специалистов — добавляя данные, инструменты, сенсоры и обратную связь.
4. Claude Code - AI, который живет на твоем компьютере
Claude Code стал первым убедительным агентом, который работает локально, в твоем окружении, с твоими файлами и контекстом.
Это важный сдвиг. Не облачные контейнеры и абстрактные агенты, а «дух», который живет рядом с разработчиком. В мире рваных возможностей это оказалось гораздо полезнее, чем агентные своры в облаке.
Форм-фактор CLI сделал этот сдвиг особенно наглядным: AI - это уже не сайт, а постоянный спутник.
5. Vibe coding
2025 - год, когда стало возможно писать сложные программы, почти забыв, что код вообще существует.
Vibe coding демократизирует программирование:
- обычные люди могут создавать софт
- профессионалы пишут больше, быстрее и смелее
- код стал дешевым, одноразовым, экспериментальным
Можно написать программу ради одной проверки, одного бага, одной идеи - и выкинуть. Это изменит и софт, и профессии.
6. Nano banana и будущее интерфейсов
Чат - это терминал 80-х. Удобно для машины, плохо для человека.
Люди предпочитают визуальное мышление: схемы, изображения, анимации, интерфейсы. LLM должны общаться с нами в этих форматах. Gemini Nano banana - первый намек на настоящий LLM-GUI, где текст, изображения и знания слиты в одной модели.
Это не просто генерация картинок — это новый пользовательский слой для интеллекта.
2025 показал: LLM - это новый тип интеллекта. Он одновременно умнее и глупее, чем ожидали. Он невероятно полезен, но мы реализовали, возможно, даже не 10% его потенциала.
Прогресс будет быстрым. Работы впереди — море. Поле идей - открыто.
https://x.com/karpathy/status/2002118205729562949
@data_analysis_ml
2025 оказался неожиданно сильным годом для LLM. Не просто улучшения метрик, а реальные сдвиги в том, как модели обучаются, как ими пользуются и как вообще стоит думать об их «интеллекте».
Главное за 2025 по мнению Карпты:
1. RLVR — Reinforcement Learning from Verifiable Rewards
До 2025 стандартный стек выглядел так: pretraining → SFT → RLHF. В 2025 к этому стеку добавился новый, ключевой этап- RLVR.
Вместо субъективной человеческой оценки модель обучают на автоматически проверяемых наградах: задачи по математике, коду, логике. В результате LLM сама находит стратегии рассуждения - дробит задачи, проверяет гипотезы, возвращается назад.
Важно не «что мы показали модели», а то, что она сама нашла рабочие способы думать. Этот этап оказался невероятно эффективным по соотношению capability к стоимости, из-за чего значительная часть вычислений ушла не в pretraining, а в длинные RL-прогоны.
Побочный эффект — появился новый регулятор мощности: test-time compute. Больше «времени на размышление» — выше качество. o1 показал идею, o3 в начале 2025 сделал перелом — разницу стало чувствовать интуитивно.
2. «Призраки, а не животные» и рваный интеллект
В 2025 индустрия наконец осознала форму LLM-интеллекта. Мы не «растим животных». Мы «призываем призраков».
LLM оптимизированы не под выживание и социальные группы, а под имитацию текста, получение наград в формальных задачах и апвоты. Поэтому интеллект получается рваным:
- гениальны в одном
- наивны и уязвимы в другом
RLVR усиливает этот эффект - модели становятся сверхсильными в верифицируемых доменах и странно слабыми вне их. Отсюда и потеря доверия к бенчмаркам: они почти всегда верифицируемы, а значит легко «обрастают jagged-улучшениями». Обучение на тесте стало искусством.
Можно побить все бенчмарки и всё ещё быть далеко от AGI.
3. Cursor и новый слой LLM-приложений
Cursor показал, что появился новый класс LLM-продуктов - «Cursor для X».
Это не просто интерфейс к модели, а слой, который:
- делает context engineering
- оркестрирует множество LLM-вызовов в DAG
- балансирует стоимость и качество
- дает специализированный UI
- вводит «ползунок автономности»
Вероятный сценарий: LLM-лабы делают «универсального студента», а приложения превращают их в специалистов — добавляя данные, инструменты, сенсоры и обратную связь.
4. Claude Code - AI, который живет на твоем компьютере
Claude Code стал первым убедительным агентом, который работает локально, в твоем окружении, с твоими файлами и контекстом.
Это важный сдвиг. Не облачные контейнеры и абстрактные агенты, а «дух», который живет рядом с разработчиком. В мире рваных возможностей это оказалось гораздо полезнее, чем агентные своры в облаке.
Форм-фактор CLI сделал этот сдвиг особенно наглядным: AI - это уже не сайт, а постоянный спутник.
5. Vibe coding
2025 - год, когда стало возможно писать сложные программы, почти забыв, что код вообще существует.
Vibe coding демократизирует программирование:
- обычные люди могут создавать софт
- профессионалы пишут больше, быстрее и смелее
- код стал дешевым, одноразовым, экспериментальным
Можно написать программу ради одной проверки, одного бага, одной идеи - и выкинуть. Это изменит и софт, и профессии.
6. Nano banana и будущее интерфейсов
Чат - это терминал 80-х. Удобно для машины, плохо для человека.
Люди предпочитают визуальное мышление: схемы, изображения, анимации, интерфейсы. LLM должны общаться с нами в этих форматах. Gemini Nano banana - первый намек на настоящий LLM-GUI, где текст, изображения и знания слиты в одной модели.
Это не просто генерация картинок — это новый пользовательский слой для интеллекта.
2025 показал: LLM - это новый тип интеллекта. Он одновременно умнее и глупее, чем ожидали. Он невероятно полезен, но мы реализовали, возможно, даже не 10% его потенциала.
Прогресс будет быстрым. Работы впереди — море. Поле идей - открыто.
https://x.com/karpathy/status/2002118205729562949
@data_analysis_ml
❤2
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Правительство США продолжает публиковать файлы дела Эпштейна – и современный OSINT это не только сделать веб сайт который похож на сервисы гугла со всеми файлами дела, но и собрать все доступные фотографии со слушаний и сгенерировать 3D-пространства на их основе
Каждый раз впечатляюсь силой коллаборации интернета – ждем Minecraft сервер
Каждый раз впечатляюсь силой коллаборации интернета – ждем Minecraft сервер
Forwarded from DeCenter — блокчейн, биткоин, инвестиции
🔮 Виталик Бутерин назвал рынки предсказаний более рациональной альтернативой социальным сетям, особенно при обсуждении острых тем.
Пользователи онлайн-платформ могут безответственно нагнетать панику. Аналогичным образом действуют медиа, которые часто повышают уровень тревоги сенсационными заголовками и тем самым способствуют спорам.
Платформы прогнозов решают эту проблему через механизм финансовой ответственности — необдуманные или «глупые» ставки приводят к реальным убыткам.
@DeCenter
Пользователи онлайн-платформ могут безответственно нагнетать панику. Аналогичным образом действуют медиа, которые часто повышают уровень тревоги сенсационными заголовками и тем самым способствуют спорам.
Платформы прогнозов решают эту проблему через механизм финансовой ответственности — необдуманные или «глупые» ставки приводят к реальным убыткам.
@DeCenter
Forwarded from BBC News | Русская служба
Media is too big
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔1🤯1🏆1
У меня тут друг сделал прекрасный проект с саммари коллективного бессознательного итога года - https://worstregards.com/
@maxrepost 👾
@maxrepost 👾
Worstregards
WORST REGARDS
A collective fuck you letter from humanity to 2025.
🍌1
Forwarded from Анализ данных (Data analysis)
Acontext - это open-source проект, который решает одну из самых болезненных проблем AI-систем: управление контекстом, памятью и состоянием между запросами.
Проект создан командой MemoDB и нацелен на разработчиков, которые строят:
- LLM-приложения
- агентные системы
- RAG-пайплайны
- long-running AI-процессы
Что делает Acontext:
- Выносит контекст из prompt’ов в отдельный слой
- Даёт структурированную «память» вместо хаотичного текста
- Позволяет хранить, обновлять и переиспользовать контекст между вызовами модели
- Упрощает построение stateful AI-приложений
- Снижает токен-оверход и стоимость inference
Ключевая идея:
контекст — это не строка, а управляемый объект.
Почему это важно:
- prompt’ы перестают разрастаться
- поведение модели становится стабильнее
- проще отлаживать и масштабировать систему
- легче добавлять новые источники знаний
Acontext особенно полезен для:
- AI-агентов
- чатов с памятью
- multi-step reasoning
- инструментальных LLM-пайплайнов
Если ты строишь что-то сложнее одного запроса к модели — без слоя управления контекстом дальше будет только боль.
Репозиторий:
https://github.com/memodb-io/Acontext
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Zavtracast (Dmitriy Zombak)
Пиратский сайт и "теневая библиотека" Anna's Archive, ставивший свой целью изначально сделать архив всех книг на свете, решил сделать копию всей музыки на свете.
Ну, по крайней мере той, что загружена в стриминговый сервис Spotify.
В блогпосте (может не открыться, поскольку регулярно лежит), авторы пишут, как они подходят к этому делу - музыка собирается по метадате, ведётся статистика популярности, отдельные архивы ведут на сами музыкальные файлы, которые перекодируются в свободный кодек OGG Vorbis (с битрейтом 75kbps, качество довольно среднее, но авторы и не ставят перед собой задачу архивировать музыку в максимальном качестве).
Все архивы весят около 300 Тб. Они распределены по популярности. Пиратам удалось выкачать из Spotify около 86 млн треков, созданных до июля 2025 (всё что вышло позже в архивы уже не попало).
Всего в Spotify опубликовано около 256 млн треков от 15.45 млн артистов, объединённых в 58.6 млн альбомов, но, как уверяют авторы архива, эти 86 млн от 256 млн соответствует музыкальным вкусам примерно 96% людей, слушающих Spotify. Остальное это или совсем не популярные треки, которые никто толком не слушает или треки с нулём прослушиваний вообще.
Также они поделились статистикой того, какие треки в Spotify самые популярные. Там внезапно неожиданный "белый шум" на четвёртом месте. Что поделать, он сейчас популярен, особенно среди людей, кто под него спит.
Авторы делают примечание, что их алгоритм подсчета популярности может давать сбои, поскольку базируется на том, как часто слушают треки и насколько недавно эти прослушивания были сделаны. Песни, которые сейчас часто крутят, будут иметь большую популярность, чем те, которые крутили в прошлом.
1. Lady Gaga, Bruno Mars - Die With a Smile
2. Bad Bunny - DtMF
3. Billie Eilish - Birds of a Feather
4. Dream Supplier, Baby Sleeps, Background White Noise - Clean Baby Sleep White Noise (Loopable)
5. Bad Bunny - Baile Inolvidable
6. Kendrick Lamar - Not Like Us
7. Gracie Abrams - That's So True
8. Rose, Bruno Mars - APT.
9. Kendrick Lamar - All the Stars (with SZA)
10. Gigi Perez - Sailor Song
Авторы не ставят перед собой задачу распространять пиратскую музыку (как не ставили задачу и распространять книги). На самом сайте выложены только ссылки на торрент-файлы, а архивы распространяют пользователи. По мнению авторов Anna's Archive, их цель - создать некий "архив музыки" для всего человечества, поскольку никаких других по-настоящему глобальных архивов не существует и никто этого больше не делает. В Spotify загружена далеко не вся музыка всего мира, но это хорошее начало для такого архива.
Также сейчас юридически придраться к ним сложно, поскольку доступны пока что только архивы с метаданными (около ~200Гб json-файлов, рай для исследователей музыкальных жанров), но не архивы с самими треками (их выложат позже).
Впрочем, Anna's Archive к блокировкам не привыкать, поскольку их и закрывали и пытались преследовать уголовно, а в части стран (Италии, Нидерландах, Бельгии, Великобритании, Германии) их сайты забанены наглухо по решению суда.
@zavtracast
Ну, по крайней мере той, что загружена в стриминговый сервис Spotify.
В блогпосте (может не открыться, поскольку регулярно лежит), авторы пишут, как они подходят к этому делу - музыка собирается по метадате, ведётся статистика популярности, отдельные архивы ведут на сами музыкальные файлы, которые перекодируются в свободный кодек OGG Vorbis (с битрейтом 75kbps, качество довольно среднее, но авторы и не ставят перед собой задачу архивировать музыку в максимальном качестве).
Все архивы весят около 300 Тб. Они распределены по популярности. Пиратам удалось выкачать из Spotify около 86 млн треков, созданных до июля 2025 (всё что вышло позже в архивы уже не попало).
Всего в Spotify опубликовано около 256 млн треков от 15.45 млн артистов, объединённых в 58.6 млн альбомов, но, как уверяют авторы архива, эти 86 млн от 256 млн соответствует музыкальным вкусам примерно 96% людей, слушающих Spotify. Остальное это или совсем не популярные треки, которые никто толком не слушает или треки с нулём прослушиваний вообще.
Также они поделились статистикой того, какие треки в Spotify самые популярные. Там внезапно неожиданный "белый шум" на четвёртом месте. Что поделать, он сейчас популярен, особенно среди людей, кто под него спит.
Авторы делают примечание, что их алгоритм подсчета популярности может давать сбои, поскольку базируется на том, как часто слушают треки и насколько недавно эти прослушивания были сделаны. Песни, которые сейчас часто крутят, будут иметь большую популярность, чем те, которые крутили в прошлом.
1. Lady Gaga, Bruno Mars - Die With a Smile
2. Bad Bunny - DtMF
3. Billie Eilish - Birds of a Feather
4. Dream Supplier, Baby Sleeps, Background White Noise - Clean Baby Sleep White Noise (Loopable)
5. Bad Bunny - Baile Inolvidable
6. Kendrick Lamar - Not Like Us
7. Gracie Abrams - That's So True
8. Rose, Bruno Mars - APT.
9. Kendrick Lamar - All the Stars (with SZA)
10. Gigi Perez - Sailor Song
Авторы не ставят перед собой задачу распространять пиратскую музыку (как не ставили задачу и распространять книги). На самом сайте выложены только ссылки на торрент-файлы, а архивы распространяют пользователи. По мнению авторов Anna's Archive, их цель - создать некий "архив музыки" для всего человечества, поскольку никаких других по-настоящему глобальных архивов не существует и никто этого больше не делает. В Spotify загружена далеко не вся музыка всего мира, но это хорошее начало для такого архива.
Также сейчас юридически придраться к ним сложно, поскольку доступны пока что только архивы с метаданными (около ~200Гб json-файлов, рай для исследователей музыкальных жанров), но не архивы с самими треками (их выложат позже).
Впрочем, Anna's Archive к блокировкам не привыкать, поскольку их и закрывали и пытались преследовать уголовно, а в части стран (Италии, Нидерландах, Бельгии, Великобритании, Германии) их сайты забанены наглухо по решению суда.
@zavtracast
❤4
Forwarded from Дизраптор
Никогда такого не было, и вот опять:
Брахман по имени Навин Рао привлек почти 500 мультов в 2-месячный (!) стартап без продукта (!!). У бро есть лишь сайт и публичные заявления о миссии. И в его стартап Unconventional AI несут свои бабки a16z, Lightspeed Venture, Databricks и лично Джефф Безос. Оценка = $4,5 млрд.
Ладно, на самом деле господин Рао - чел известный. Ранее он продал по стартапу Intel и той же Databricks. Похоже, его слову верят. Но всё равно. Чем именно его стартап вызвал такой ажиотаж?
Unconventional AI собирается разрабатывать альтернативные вычисления для ИИ. Не как у современных ИИ-чипов, а прям другие. Поясню:
У современных GPU память в одном месте, вычисления - в другом. И львиная доля энергии тратится не на "математику", а не перегонку данных. А учитывая, насколько ИИ-мощности сейчас золотые, и какое рубилово за них идёт... ну вы поняли.
Так вот, этот стартап хочет сделать "вычисления, как в мозге". Чтобы память и вычисления в одном месте: in-memory computing. И считалось всё только по сигналу - event-based. Есть и другие отличия, но не буду сейчас влезать в эти тонкие материи. В результате - серьёзная экономия энергии и удешевление этого нашего эйай.
Это называется "нейроморфные вычисления". На самом деле, такие чипы уже есть - например, Intel Loihi или IBM TrueNorth, но они плохо подходят для ИИ. А этот стартап, по всей видимости, собирается сделать такие, которые будут хорошо подходить.
Возможно, не такая уж и пустышка. Конечно, если они реально что-то выкатят на рынок, а не просто дополнят собой совокупную капитализацию эйай-голландского штурвала-рынка.
Дизраптор
Брахман по имени Навин Рао привлек почти 500 мультов в 2-месячный (!) стартап без продукта (!!). У бро есть лишь сайт и публичные заявления о миссии. И в его стартап Unconventional AI несут свои бабки a16z, Lightspeed Venture, Databricks и лично Джефф Безос. Оценка = $4,5 млрд.
Ладно, на самом деле господин Рао - чел известный. Ранее он продал по стартапу Intel и той же Databricks. Похоже, его слову верят. Но всё равно. Чем именно его стартап вызвал такой ажиотаж?
Unconventional AI собирается разрабатывать альтернативные вычисления для ИИ. Не как у современных ИИ-чипов, а прям другие. Поясню:
У современных GPU память в одном месте, вычисления - в другом. И львиная доля энергии тратится не на "математику", а не перегонку данных. А учитывая, насколько ИИ-мощности сейчас золотые, и какое рубилово за них идёт... ну вы поняли.
Так вот, этот стартап хочет сделать "вычисления, как в мозге". Чтобы память и вычисления в одном месте: in-memory computing. И считалось всё только по сигналу - event-based. Есть и другие отличия, но не буду сейчас влезать в эти тонкие материи. В результате - серьёзная экономия энергии и удешевление этого нашего эйай.
Это называется "нейроморфные вычисления". На самом деле, такие чипы уже есть - например, Intel Loihi или IBM TrueNorth, но они плохо подходят для ИИ. А этот стартап, по всей видимости, собирается сделать такие, которые будут хорошо подходить.
Возможно, не такая уж и пустышка. Конечно, если они реально что-то выкатят на рынок, а не просто дополнят собой совокупную капитализацию эйай-
Дизраптор
👍1😁1🤯1😢1
Forwarded from Медуза — LIVE
WhatsApp заявил о намерении «бороться» за своих пользователей в России
Представитель мессенджера заявил Reuters, что, ограничивая доступ к WhatsApp, «российское правительство стремится лишить более 100 миллионов человек права на частную, защищенную сквозным шифрованием связь прямо перед началом праздничного сезона».
Роскомнадзор в 2025 году начал блокировать работу WhatsApp. Накануне источник РБК на телеком-рынке заявил, что cкорость работы WhatsApp в России уже снизилась на 70-80%.
@meduzalive
Представитель мессенджера заявил Reuters, что, ограничивая доступ к WhatsApp, «российское правительство стремится лишить более 100 миллионов человек права на частную, защищенную сквозным шифрованием связь прямо перед началом праздничного сезона».
«WhatsApp глубоко интегрирован в структуру каждого сообщества в стране — от родительских и рабочих групп до дружеских, соседских и семейных чатов в разных регионах России. Мы полны решимости бороться за наших пользователей, потому что принуждение людей к использованию менее безопасных и навязанных правительством приложений может привести только к снижению безопасности для российских граждан», — сказал представитель WhatsApp.
Роскомнадзор в 2025 году начал блокировать работу WhatsApp. Накануне источник РБК на телеком-рынке заявил, что cкорость работы WhatsApp в России уже снизилась на 70-80%.
@meduzalive
🤣4❤2😢2😁1
Тут начинается серия предновогодних подарков от моих друзей и коллег!
Мои друзья из Guide DAO дают максимальную скидку в году — 50% на все буткемпы, включая их новый курс по AI.
Промокод
Пока все обсуждают нейросети на уровне пользователя, ребята запустили полноценный буткемп по созданию AI-агентов.
▪️RAG-системы — делаем ботов, которые отвечают на вопросы из вашей базы знаний
▪️Многоагентные процессы — настраиваем взаимодействие нескольких AI между собой
▪️Адаптивные агенты с MCP — подключаем сторонние сервисы, чтобы агент работал «из коробки»
▪️Готовые кейсы для портфолио: интеграция в бизнес, кастомные агенты для аналитики и поддержки, демо для работодателей
Подробнее в боте:
@GuideDAO_hallo_bot
P.S. Если у вас есть подарки для подписчиков Maxrepost - не стесняйтесь присылать их в личку до 30 декабря!
Мои друзья из Guide DAO дают максимальную скидку в году — 50% на все буткемпы, включая их новый курс по AI.
Промокод
ISMORELOVELY даёт 30%, плюс еще 20% новогодней скидки на сайте. Итог: 50%!Пока все обсуждают нейросети на уровне пользователя, ребята запустили полноценный буткемп по созданию AI-агентов.
▪️RAG-системы — делаем ботов, которые отвечают на вопросы из вашей базы знаний
▪️Многоагентные процессы — настраиваем взаимодействие нескольких AI между собой
▪️Адаптивные агенты с MCP — подключаем сторонние сервисы, чтобы агент работал «из коробки»
▪️Готовые кейсы для портфолио: интеграция в бизнес, кастомные агенты для аналитики и поддержки, демо для работодателей
Подробнее в боте:
@GuideDAO_hallo_bot
P.S. Если у вас есть подарки для подписчиков Maxrepost - не стесняйтесь присылать их в личку до 30 декабря!
Guide DAO
Web3 development courses: Solidity, NFT, DAO, DeFi
👍4❤1
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
И очень круто как Disney инвестирует в роботов из сказок – вот вам Олаф которого показали в том месяце в Диснейленде, а тут можно посмотреть кусочек выступления с ним же
Forwarded from museum lamer (toma)
моя любимая цифровая архивная инициатива последнего времени — это то, как люди переложили опубликованные в неудобном виде файлы Эпштейна в разные удобные и знакомые сервисы и интерфейсы:
https://www.jmail.world/
письма — в gmail, простите — в Jmail
фотографии — гугл фото
файлы по делу — гугл диск
покупки — аккаунт на амазоне
полеты — гугл флайтс
VR-тур по дому Эпштейна
и Jopify — c показаниями или записями судов c ним и Гислейн Максвелл
бонус трек — Jemini обученная на всем этом архиве
если я правильно понимаю, сделали это ребята из https://reducto.ai/
https://www.jmail.world/
письма — в gmail, простите — в Jmail
фотографии — гугл фото
файлы по делу — гугл диск
покупки — аккаунт на амазоне
полеты — гугл флайтс
VR-тур по дому Эпштейна
и Jopify — c показаниями или записями судов c ним и Гислейн Максвелл
бонус трек — Jemini обученная на всем этом архиве
если я правильно понимаю, сделали это ребята из https://reducto.ai/
Forwarded from Zavtracast (Ярослав Ивус)
Amazon хочет превратить Fallout Shelter в реалити-шоу. Об этом сообщает инсайдер Джефф Снайдер. При создании стриминг вдохновляется реалити по «Игре в кальмара».
По задумке, участники будут управлять своими убежищами и соперничать друг с другом.
@zavtracast
По задумке, участники будут управлять своими убежищами и соперничать друг с другом.
@zavtracast
Forwarded from e/acc
Создатель одного из самых популярных тестов AGI для ИИ в 2022 и 2023 годах говорил публично, что тест вряд ли будет пройден в течении многих лет. В декабре 2024 модель OpenAI o3 показала выше 85%, что превосходит средний результат людей.
После этого был запущен куда более сложный текст ARC-AGI-2, а сегодня вот официально опубликовано решение Poetiq (опенсорсная обвязка вокруг LLM) с использованием GPT-5.2, которое показало 75% в челлендже. Они использовали модель в режиме мега-пупер размышлений (читай: длина CoT), но как видно на графике это меньше $10 на задачу.
Не прошло и года, а очередной бенчмарк AGI уже не торт. Понятно, что goalpost продолжит двигаться, но вот посмотреть промты и логику работы Poetiq я очень рекомендую.
Это не совсем «один промпт = один ответ», а мета-система, которая показывает LLM несколько пар вход-выход, просит придумать правило и часто сразу написать Python-код, затем сама запускает этот код на тренировочных примерах, смотрит где не совпало, возвращает фидбек модели и заставляет исправлять (иногда меняя стратегию или даже выбирая другую модель для следующего шага). Фактически, это аудирующая сама себя система, которая обучается вне LLM и использует опыт решения для новых задач.
После этого был запущен куда более сложный текст ARC-AGI-2, а сегодня вот официально опубликовано решение Poetiq (опенсорсная обвязка вокруг LLM) с использованием GPT-5.2, которое показало 75% в челлендже. Они использовали модель в режиме мега-пупер размышлений (читай: длина CoT), но как видно на графике это меньше $10 на задачу.
Не прошло и года, а очередной бенчмарк AGI уже не торт. Понятно, что goalpost продолжит двигаться, но вот посмотреть промты и логику работы Poetiq я очень рекомендую.
Это не совсем «один промпт = один ответ», а мета-система, которая показывает LLM несколько пар вход-выход, просит придумать правило и часто сразу написать Python-код, затем сама запускает этот код на тренировочных примерах, смотрит где не совпало, возвращает фидбек модели и заставляет исправлять (иногда меняя стратегию или даже выбирая другую модель для следующего шага). Фактически, это аудирующая сама себя система, которая обучается вне LLM и использует опыт решения для новых задач.
👍1