🦙 Meta представила Llama 4 — новую линейку MoE-моделей с рекордным качеством и контекстом до 10M токенов
Llama 4 — это эволюция в экосистеме LLM от Meta. Модели построены на архитектуре Mixture-of-Experts (MoE).
Основные модели:
🦅 Llama 4 Scout
— 17B активных параметров, 16 экспертов, 109B total
— Умещается в один NVIDIA H100 (в Int4)
— 10M context length (!), pre/post-trained на 256K
— Лучшая модель в классе для long-context reasoning, codebase QA, multi-doc summarization
— iRoPE: архитектура с interleaved attention без positional embeddings
— Превосходит Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1
🚁 Llama 4 Maverick
— 17B активных, 128 экспертов, 400B total
— Бьёт GPT-4o, Gemini 2.0 Flash, близко к DeepSeek v3.1 на reasoning/coding
— ELO 1417 на LMArena (experimental chat version)
— Превосходный trade-off между качеством и затратами
— Построен через codistillation от Behemoth
🐘 Llama 4 Behemoth (preview)
— 288B активных, 16 экспертов, ~2T total
— Лучший performance на STEM-бенчмарках (GPQA Diamond, MATH-500)
— Использован как teacher для Scout и Maverick
— Обновлённая RL-инфраструктура и curriculum RL с динамическим фильтром сложности
🔬 Техдетали:
• Pretraining: 30T+ токенов (в 2× больше, чем у Llama 3), FP8 precision, early fusion мультимодальности (текст+видео+изображения)
• Post-training: новый pipeline → lightweight SFT → online RL → lightweight DPO (обучены на 200+ языках , включая визуальные задачи на 48 изображениях)
🔗 Доступны для скачивания: llama.com и Hugging Face
Llama 4 — это эволюция в экосистеме LLM от Meta. Модели построены на архитектуре Mixture-of-Experts (MoE).
Основные модели:
🦅 Llama 4 Scout
— 17B активных параметров, 16 экспертов, 109B total
— Умещается в один NVIDIA H100 (в Int4)
— 10M context length (!), pre/post-trained на 256K
— Лучшая модель в классе для long-context reasoning, codebase QA, multi-doc summarization
— iRoPE: архитектура с interleaved attention без positional embeddings
— Превосходит Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1
🚁 Llama 4 Maverick
— 17B активных, 128 экспертов, 400B total
— Бьёт GPT-4o, Gemini 2.0 Flash, близко к DeepSeek v3.1 на reasoning/coding
— ELO 1417 на LMArena (experimental chat version)
— Превосходный trade-off между качеством и затратами
— Построен через codistillation от Behemoth
🐘 Llama 4 Behemoth (preview)
— 288B активных, 16 экспертов, ~2T total
— Лучший performance на STEM-бенчмарках (GPQA Diamond, MATH-500)
— Использован как teacher для Scout и Maverick
— Обновлённая RL-инфраструктура и curriculum RL с динамическим фильтром сложности
🔬 Техдетали:
• Pretraining: 30T+ токенов (в 2× больше, чем у Llama 3), FP8 precision, early fusion мультимодальности (текст+видео+изображения)
• Post-training: новый pipeline → lightweight SFT → online RL → lightweight DPO (обучены на 200+ языках , включая визуальные задачи на 48 изображениях)
🔗 Доступны для скачивания: llama.com и Hugging Face
🔥35❤8👍8😁1
Стрим: Новые reasoning модели от OpenAI o3 и o4-mini
— добавили возможность работать с изображениями (модель может смотреть на разные части изображения, и обрабатывать их используя утилиты python)
https://www.youtube.com/live/sq8GBPUb3rk?si=yIrS0pSPTko_Y1wo
— добавили возможность работать с изображениями (модель может смотреть на разные части изображения, и обрабатывать их используя утилиты python)
https://www.youtube.com/live/sq8GBPUb3rk?si=yIrS0pSPTko_Y1wo
YouTube
OpenAI o3 & o4-mini
Greg Brockman, Mark Chen, Eric Mitchell, Brandon McKinzie, Wenda Zhou, Fouad Matin, Michael Bolin, and Ananya Kumar introduce and demo OpenAI o3 and o4-mini.
👍15☃1⚡1❤1
😁55🔥3👍1
GPT-5: Основные особенности новой мультимодальной модели от OpenAI [Part I]
0. Модель с гибким уровнем рассуждения — думает столько, сколько требует задача.
1. Уровень PhD практически во всех областях.
2. Лучшая модель для написания кода.
3. Значительно меньше галлюцинаций — примерно в 10 раз меньше заблуждений.
👩🏫 Пользователи с подпиской Pro получат безлимитный доступ к GPT-5. Обычные пользователи после достижения лимита будут переключаться на GPT-5 Mini.
💻 Показали, как модель генерирует визуализацию эффекта Бернулли в реальном времени. По сравнению с тем, как модели кодили еще год назад, очевидно, что reasoning помогает в более точной постановке задач для самой же модели.
🖥 Также модель закодила пример продукта Midnight in Paris — очередной AI-стартап по изучению языков «за пару минут».
Генерация интерфейса, логики, интерактивных элементов, видно что GPT-5 не просто кодит, а достаточно точно понимает цель продукта и типичный интерфейс.
📄 / GPT-5: System Card /
0. Модель с гибким уровнем рассуждения — думает столько, сколько требует задача.
1. Уровень PhD практически во всех областях.
2. Лучшая модель для написания кода.
3. Значительно меньше галлюцинаций — примерно в 10 раз меньше заблуждений.
👩🏫 Пользователи с подпиской Pro получат безлимитный доступ к GPT-5. Обычные пользователи после достижения лимита будут переключаться на GPT-5 Mini.
💻 Показали, как модель генерирует визуализацию эффекта Бернулли в реальном времени. По сравнению с тем, как модели кодили еще год назад, очевидно, что reasoning помогает в более точной постановке задач для самой же модели.
🖥 Также модель закодила пример продукта Midnight in Paris — очередной AI-стартап по изучению языков «за пару минут».
Генерация интерфейса, логики, интерактивных элементов, видно что GPT-5 не просто кодит, а достаточно точно понимает цель продукта и типичный интерфейс.
📄 / GPT-5: System Card /
🔥28👍8❤5🥴2
GPT-5: Основные особенности новой мультимодальной модели от OpenAI [Part II]
🔉 Проапгрейдили голосовой режим. А также увеличили лимиты: бесплатным юзерам до часа, платным — почти безлимит (что это значит — хз)
📩 Интеграция с Google Calendar и Gmail. Позволяет OpenAI работать с расписанием и электронной почтой, типа «Есть ли у меня срочные или непрочитанные письма?»
💊 Фокус на медецинской помощи
Тут я наблюдаю манипуляцию и попытки «онко-маркетинга» — стратегии, играющей на страхе и тревогах клиентов перед раком... с о м н и т е л ь н о
⏳ Как мы поняли из вчерашней утечки в API доступны: GPT-5, GPT-5 mini и GPT-5 nano. Так же можно выбирать режим minimal reasoning (когда нужно побыстрее или/и подешевле). Контекст держит на нормальном уровне не только на 64k токенах, но и на 128k
💻 Модель показывает себя хорошо в анализе больших кодовых баз
📄 / GPT-5: For Developers /
🔉 Проапгрейдили голосовой режим. А также увеличили лимиты: бесплатным юзерам до часа, платным — почти безлимит (что это значит — хз)
📩 Интеграция с Google Calendar и Gmail. Позволяет OpenAI работать с расписанием и электронной почтой, типа «Есть ли у меня срочные или непрочитанные письма?»
💊 Фокус на медецинской помощи
Тут я наблюдаю манипуляцию и попытки «онко-маркетинга» — стратегии, играющей на страхе и тревогах клиентов перед раком... с о м н и т е л ь н о
⏳ Как мы поняли из вчерашней утечки в API доступны: GPT-5, GPT-5 mini и GPT-5 nano. Так же можно выбирать режим minimal reasoning (когда нужно побыстрее или/и подешевле). Контекст держит на нормальном уровне не только на 64k токенах, но и на 128k
💻 Модель показывает себя хорошо в анализе больших кодовых баз
📄 / GPT-5: For Developers /
❤15🥴7
4.9 = x + 4.11
Увы, X = -0.21 ✅
Главное, что GPT5 уверенно добавляет ✅ к ответу
PHD уровень, говорили они
Увы, X = -0.21 ✅
Главное, что GPT5 уверенно добавляет ✅ к ответу
PHD уровень, говорили они
😁59🫡10💯6❤3🥴2👍1
🖍 Claude Sonnet 4.5 от Anthropic
У меня на экране — барчарт SWE-bench Verified. у соннета 4.5 — 77.2% «без параллели», 82.0% с параллельным тест-тайм вычислением. справа сереют gpt-5 и его codex-вариант (72.8/74.5), в хвосте gemini 2.5 pro (67.2). Становится ясно: эпоха «попробуем один раз прогнать» умерла — теперь побеждает тот, кто умеет гонять агентные пайплайны.
Что антрoпик реально привезли:
▫️ Школьная математика и рассуждение: AIME-2025 до 100% «юзая python» (без — 87.0%) у GPT-5 99.6% (без — 94.6%, имхо у GPT-5 даже лучше), GPQA-Diamond 83.4%, мультиязычный MMLU 89.1%. Кстати, GPT-5 обгоняет на визуальных MMMU, а gemini держит GPQA-диамант выше.
▫️ Долгое внимание: в реальных задачах модель не теряет нить >30 часов + «high compute» режим = параллельные попытки + отбраковка
tl;dr
1) Sonnet 4.5 — новый лидер в реальном кодинге
2) Лучше GPT-5? На бумаге — да, а так хз, надо тестить. Ну а так догоняющее развитие никто не отменял
👓 https://www.anthropic.com/news/claude-sonnet-4-5
У меня на экране — барчарт SWE-bench Verified. у соннета 4.5 — 77.2% «без параллели», 82.0% с параллельным тест-тайм вычислением. справа сереют gpt-5 и его codex-вариант (72.8/74.5), в хвосте gemini 2.5 pro (67.2). Становится ясно: эпоха «попробуем один раз прогнать» умерла — теперь побеждает тот, кто умеет гонять агентные пайплайны.
Что антрoпик реально привезли:
▫️ Школьная математика и рассуждение: AIME-2025 до 100% «юзая python» (без — 87.0%) у GPT-5 99.6% (без — 94.6%, имхо у GPT-5 даже лучше), GPQA-Diamond 83.4%, мультиязычный MMLU 89.1%. Кстати, GPT-5 обгоняет на визуальных MMMU, а gemini держит GPQA-диамант выше.
▫️ Долгое внимание: в реальных задачах модель не теряет нить >30 часов + «high compute» режим = параллельные попытки + отбраковка
tl;dr
1) Sonnet 4.5 — новый лидер в реальном кодинге
2) Лучше GPT-5? На бумаге — да, а так хз, надо тестить. Ну а так догоняющее развитие никто не отменял
👓 https://www.anthropic.com/news/claude-sonnet-4-5
❤15🔥7👍2👎2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
📺 Sora 2 от OpenAI
- Sota по video генерации
Релиз через 10 минут
ждем
- Sota по video генерации
Релиз через 10 минут
ждем
❤17👎2
👁 Sora 2 от Open AI
— Sota в видео генерации: самое глубокое понимание геометрии, динамики и физики доступное в видео моделях на сегодняшний день
— Звук генерируется вместе с видео
— Запуск приложения; экспериментального генеративного аналога Тик-Тока, работает так:
◽️Создается «нейронный» аватар личности. Похоже на настройку FaceID + и тюн голоса для Siri
◽️Ну а дальше можно генерировать любые видео со звуком, синхронизацией своих губ, речи или без таковой без дорого продакшена
Уверен, что в ближайшие годы интернет заполнят миллиарды подобных генераций, но говна там и без этого хватало, не страшно.
Аппка SORA пока доступна в iOS в США и Канаде.
tl;dr Октябрь 2025: видео генерация решена
https://www.youtube.com/live/gzneGhpXwjU?si=qVqDtqN0QFBZReuD
— Sota в видео генерации: самое глубокое понимание геометрии, динамики и физики доступное в видео моделях на сегодняшний день
— Звук генерируется вместе с видео
— Запуск приложения; экспериментального генеративного аналога Тик-Тока, работает так:
◽️Создается «нейронный» аватар личности. Похоже на настройку FaceID + и тюн голоса для Siri
◽️Ну а дальше можно генерировать любые видео со звуком, синхронизацией своих губ, речи или без таковой без дорого продакшена
Уверен, что в ближайшие годы интернет заполнят миллиарды подобных генераций, но говна там и без этого хватало, не страшно.
Аппка SORA пока доступна в iOS в США и Канаде.
tl;dr Октябрь 2025: видео генерация решена
https://www.youtube.com/live/gzneGhpXwjU?si=qVqDtqN0QFBZReuD
YouTube
Introducing Sora 2
Bill Peebles, Rohan Sahai, and Thomas Dimson introduce and demo Sora 2 and the new Sora app.
https://openai.com/index/sora-2/
https://openai.com/index/sora-2/
❤6🙉4👎2🔥2
SORA 2 ЭТО ПОРТАЛ В АД!
😁43👎11💊9👍2