Forwarded from Живем в обществе
Хэдж-фонд, который инвестирует исключительно в сумки Hermès. Норм идея?
Forbes
You Can Now Invest In A Hedge Fund Dedicated To Hermès Bags
Luxury asset investment company LUXUS debuts a fund dedicated to Hermès Birkin and Kelly bags—and investors get first dibs on the purses.
😁51💅3🔥1
Forwarded from Сиолошная
https://www.anthropic.com/news/claude-opus-4-5
Claude Opus 4.5 таки смог взять 80% на SWE-bench Verified!
Бонусом в модель добавили effort control — прямо как у OpenAI: high, medium, low, дольше думает = лучше решает.
На бенчмарках... ВНЕЗАПНО ждём, потому что цена упала до $5/$25 за миллион токенов (в 3 раза).
Claude Opus 4.5 таки смог взять 80% на SWE-bench Verified!
Бонусом в модель добавили effort control — прямо как у OpenAI: high, medium, low, дольше думает = лучше решает.
На бенчмарках... ВНЕЗАПНО ждём, потому что цена упала до $5/$25 за миллион токенов (в 3 раза).
🔥39 2💩1
Love. Death. Transformers.
Выглядит как пиздатая замена deepseek3.1~ на русском, mtp, MLA , на русском бодро болтает, метрики sub frontier, жду апи и померяю на всяком. Ждём статью на архив и будет понятнее https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview https://huggingface.co/ai…
https://huggingface.co/DevQuasar/ai-sage.GigaChat3-702B-A36B-preview-bf16-GGUF/tree/main
Хабр
Теперь с gguf, но монстр тот еще
Хабр
Теперь с gguf, но монстр тот еще
🔥26 8💩1
Love. Death. Transformers.
https://huggingface.co/DevQuasar/ai-sage.GigaChat3-702B-A36B-preview-bf16-GGUF/tree/main Хабр Теперь с gguf, но монстр тот еще
бтв мне не оч понятна тряска с тем что у гигачата архитектура дипсиковая
- мало кто может позволить себе делать аблейшены архитектур и получать принципиально лучшие. Те же мистрали сидят на llamalike и ничего
- есть kimi k2 которая тоже дипсик и ничего
- кореляцию весов стоит считать без ln - иначе выходит что квен это инициализация лламой (или наоборот) вот реп я более чем верю что гигачат мог обучить свою модель такого класса с нуля, к тому же это действительно единственная современная реально русская модель за последние 4 года.
Русского опенсурса настолько мало что да, я буду неиронично впрягатся за сбер который не очень люблю и у меня нет восторгов от организации и тд, но стоит разделять автора и творение. Гигачат сам по себе все же уникальная штука с точки зрения того что он вообще есть с учетом дефецита всего
- мало кто может позволить себе делать аблейшены архитектур и получать принципиально лучшие. Те же мистрали сидят на llamalike и ничего
- есть kimi k2 которая тоже дипсик и ничего
- кореляцию весов стоит считать без ln - иначе выходит что квен это инициализация лламой (или наоборот) вот реп я более чем верю что гигачат мог обучить свою модель такого класса с нуля, к тому же это действительно единственная современная реально русская модель за последние 4 года.
Русского опенсурса настолько мало что да, я буду неиронично впрягатся за сбер который не очень люблю и у меня нет восторгов от организации и тд, но стоит разделять автора и творение. Гигачат сам по себе все же уникальная штука с точки зрения того что он вообще есть с учетом дефецита всего
GitHub
GitHub - Inf1delis/check-model-weight-corr
Contribute to Inf1delis/check-model-weight-corr development by creating an account on GitHub.
2👍199🔥54❤🔥35💩16💯4💔4👏2🤔1🍓1
новый флюкс клевый!
внутри mistral vlm 24b как текстовый и картиночный энкодер + теперь поддерживается промптинг с нескольких картинок, результаты не такие впечетляющие как у бананы, но лучше чем у qwen edit + поддержка до 4к и худо бедно русский текст поддерживает
https://bfl.ai/blog/flux-2
внутри mistral vlm 24b как текстовый и картиночный энкодер + теперь поддерживается промптинг с нескольких картинок, результаты не такие впечетляющие как у бананы, но лучше чем у qwen edit + поддержка до 4к и худо бедно русский текст поддерживает
https://bfl.ai/blog/flux-2
🔥41👍11😁8
мальчики не завидуем, 1.5tb оперативки дада ddr5 да и два gold проца, ну да моя личная, а что?
😁93 48🎉8🔥3❤🔥2👍2💅2
Forwarded from Denis Sexy IT 🤖
Илья дал большое интервью:
https://www.youtube.com/watch?v=aR20FWCCjAs
Вот главное:
– Сейчас модели выглядят намного умнее на тестах, чем в реальных задачах: они переобучены на эвалы и плохо обобщают, особенно в сложных многошаговых сценариях
– Главный технический барьер к AGI - ненадёжное обобщение и низкая «человеческая» обучаемость; простое масштабирование предобучения и RL это не решит
– Эпоха «масштабируем всё предобучением» заканчивается: данные конечны, RL жрёт много вычислений; начинается новая «эпоха исследований» с поиском новых рецептов обучения (в т.ч. ценностные функции, архитектур моделей, другие виды RL и т.п.).
– Будущее AGI видится как система, которая учится как человек: один и тот же базовый разум может быстро осваивать разные профессии, постоянно дообучаясь в реальном мире, а не «готовый мозг, который знает всё из коробки»
– Массовое распространение таких АИ-учеников по экономике почти неизбежно приведёт к очень быстрому росту производительности и ВВП; скорость будет сильно зависеть от регулирования в разных странах
– Скорее всего появится много сверхсильных АИ от разных компаний, специализирующихся по нишам (право, медицина, R&D и т.д.), а не один «богоподобный» монополист-суперинтеллект (аниме Пантеон смотрели? Пора если нет)
– Основной риск - огромная мощь: если сделать чрезвычайно сильного целеустремлённого агента, даже с «хорошей» целью, результат может сильно не понравиться людям; желательно ограничивать максимальную мощность единичных систем
– В качестве цели для первых суперинтеллектов он рассматривает «заботу о чувствующих существах» (в т.ч. о самом АИ) как более реалистичную и устойчивую, чем «забота только о людях», но признаёт, что это не идеальное решение
– Он ожидает постепенный, но всё более заметный показ мощных АИ обществу: по мере роста реальной силы моделей компании и государства станут намного более параноидальны и начнут активно координироваться по безопасности и регулированию
– Краткосрочный «хороший» сценарий - универсальный высокий доход и то, что АИ делает почти всю работу; долгосрочно это нестабильно, потому что люди выпадают из активного участия в принятии решений
– Один из возможных (ему самому не очень нравящийся) способов долгосрочной стабилизации - частичное слияние людей с АИ через продвинутые нейроинтерфейсы, чтобы люди разделяли понимание с системами и оставались в контуре управления
– Оценка горизонта: до АИ, который учится как человек и может стать базой для суперинтеллекта, примерно 5-20 лет; текущий «чистый масштабинг» в какой-то момент упрётся в потолок
– SSI (его АИ лаба) он описывает как «чисто исследовательскую» компанию с другим техническим подходом к обобщению и безопасности, которая не ставит ставку на простое наращивание масштаба текущих архитектур, и ожидает, что в итоге крупные игроки всё равно сойдутся в общих стратегиях по безопасному выводу суперинтеллекта в мир
https://www.youtube.com/watch?v=aR20FWCCjAs
Вот главное:
– Сейчас модели выглядят намного умнее на тестах, чем в реальных задачах: они переобучены на эвалы и плохо обобщают, особенно в сложных многошаговых сценариях
– Главный технический барьер к AGI - ненадёжное обобщение и низкая «человеческая» обучаемость; простое масштабирование предобучения и RL это не решит
– Эпоха «масштабируем всё предобучением» заканчивается: данные конечны, RL жрёт много вычислений; начинается новая «эпоха исследований» с поиском новых рецептов обучения (в т.ч. ценностные функции, архитектур моделей, другие виды RL и т.п.).
– Будущее AGI видится как система, которая учится как человек: один и тот же базовый разум может быстро осваивать разные профессии, постоянно дообучаясь в реальном мире, а не «готовый мозг, который знает всё из коробки»
– Массовое распространение таких АИ-учеников по экономике почти неизбежно приведёт к очень быстрому росту производительности и ВВП; скорость будет сильно зависеть от регулирования в разных странах
– Скорее всего появится много сверхсильных АИ от разных компаний, специализирующихся по нишам (право, медицина, R&D и т.д.), а не один «богоподобный» монополист-суперинтеллект (аниме Пантеон смотрели? Пора если нет)
– Основной риск - огромная мощь: если сделать чрезвычайно сильного целеустремлённого агента, даже с «хорошей» целью, результат может сильно не понравиться людям; желательно ограничивать максимальную мощность единичных систем
– В качестве цели для первых суперинтеллектов он рассматривает «заботу о чувствующих существах» (в т.ч. о самом АИ) как более реалистичную и устойчивую, чем «забота только о людях», но признаёт, что это не идеальное решение
– Он ожидает постепенный, но всё более заметный показ мощных АИ обществу: по мере роста реальной силы моделей компании и государства станут намного более параноидальны и начнут активно координироваться по безопасности и регулированию
– Краткосрочный «хороший» сценарий - универсальный высокий доход и то, что АИ делает почти всю работу; долгосрочно это нестабильно, потому что люди выпадают из активного участия в принятии решений
– Один из возможных (ему самому не очень нравящийся) способов долгосрочной стабилизации - частичное слияние людей с АИ через продвинутые нейроинтерфейсы, чтобы люди разделяли понимание с системами и оставались в контуре управления
– Оценка горизонта: до АИ, который учится как человек и может стать базой для суперинтеллекта, примерно 5-20 лет; текущий «чистый масштабинг» в какой-то момент упрётся в потолок
– SSI (его АИ лаба) он описывает как «чисто исследовательскую» компанию с другим техническим подходом к обобщению и безопасности, которая не ставит ставку на простое наращивание масштаба текущих архитектур, и ожидает, что в итоге крупные игроки всё равно сойдутся в общих стратегиях по безопасному выводу суперинтеллекта в мир
YouTube
Ilya Sutskever – We're moving from the age of scaling to the age of research
Ilya & I discuss SSI’s strategy, the problems with pre-training, how to improve the generalization of AI models, and how to ensure AGI goes well.
𝐄𝐏𝐈𝐒𝐎𝐃𝐄 𝐋𝐈𝐍𝐊𝐒
* Trannoscript: https://www.dwarkesh.com/p/ilya-sutskever-2
* Apple Podcasts: https://podcasts.…
𝐄𝐏𝐈𝐒𝐎𝐃𝐄 𝐋𝐈𝐍𝐊𝐒
* Trannoscript: https://www.dwarkesh.com/p/ilya-sutskever-2
* Apple Podcasts: https://podcasts.…
👍34 12🔥8😁7🤔2
Forwarded from Гречневые мысли
https://huggingface.co/inclusionAI/LLaDA2.0-flash
https://huggingface.co/inclusionAI/LLaDA2.0-mini
Нифига себе, они под мой пост в канал релиз что ли подгадали?
TLDR: 100b и 16b MoE текстовые диффузии, по метрикам +- на уровне Qwen3-30b и Qwen3-8b. Учили на 20Т токенов. Фреймворк опенсорсят.
https://huggingface.co/inclusionAI/LLaDA2.0-mini
Нифига себе, они под мой пост в канал релиз что ли подгадали?
TLDR: 100b и 16b MoE текстовые диффузии, по метрикам +- на уровне Qwen3-30b и Qwen3-8b. Учили на 20Т токенов. Фреймворк опенсорсят.
huggingface.co
inclusionAI/LLaDA2.0-flash · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍27🔥6🤔4
Гречневые мысли
https://huggingface.co/inclusionAI/LLaDA2.0-flash https://huggingface.co/inclusionAI/LLaDA2.0-mini Нифига себе, они под мой пост в канал релиз что ли подгадали? TLDR: 100b и 16b MoE текстовые диффузии, по метрикам +- на уровне Qwen3-30b и Qwen3-8b. Учили…
Надо переучить и назвать
Red
Samara
Auto
Club
Red
Samara
Auto
Club
💯40 11😁6 2💩1
Continuous batching +ar это основа цены и перфоманса современного инференса, без этого все хитрые kV hit cache префил что шалаве хиджаб - бессмысленно. Почитайте, хорошая вводная статья.
Если по простому - с помощью continuous batching можно добавлять запросы в обработку когда некоторые старые запросы уже обработаны, а новые уже идут. За счёт чего карты постоянно утилизируются и нет необходимости ждать когда дойдет прошлый батч
https://huggingface.co/blog/continuous_batching
Если по простому - с помощью continuous batching можно добавлять запросы в обработку когда некоторые старые запросы уже обработаны, а новые уже идут. За счёт чего карты постоянно утилизируются и нет необходимости ждать когда дойдет прошлый батч
https://huggingface.co/blog/continuous_batching
huggingface.co
Continuous batching from first principles
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥25👍4
Forwarded from Labrats
- Я прочитал три книги Пелевина. Такое странное чувство. Словно пропитался буддийским пофигизмом.
- Это ненадолго. Скоро сессия.
#вдохновлено_подписчиком
- Это ненадолго. Скоро сессия.
#вдохновлено_подписчиком
😁44🔥3
- Я прочитал три книги Пелевина. Такое странное чувство. Словно пропитался буддийским пофигизмом
- Зачем ты мухомор лижешь
- Зачем ты мухомор лижешь
🍓71 41🌚7 3 2🔥1🦄1
девочки пишут статью: аффиляции одного вуза, распределяют места
аффиляции мальчиков: Palantir, концерн Калашников, Вкусно и Точка, TSMC, Nestle, openai, тот смешной чел из бара, позиции в списке авторов распределены с помощью русской рулетки
аффиляции мальчиков: Palantir, концерн Калашников, Вкусно и Точка, TSMC, Nestle, openai, тот смешной чел из бара, позиции в списке авторов распределены с помощью русской рулетки
❤🔥112😍30🔥11👍2🤔2💯1
Forwarded from Data Blog
Ещё одна библиотека, до которой у меня (пока) не доходят руки, но новая, свежая, как булочки в пекарне.
Привет, друзья!
🔠 ICX360 — ещё одна библиотека для in-context объяснений LLM. In-context здесь — отсылка на то, что объяснения привязываются к input — к словам, предложениям или частям промпта, на основании которых LLM сгенерировала output.
Что внутри:
• Pertubation-based методы (то есть — методы на основе вмешательства — заменяем, убираем, искажаем часть и смотрим, как меняется выход);
• Contrastive explanations (ссылаясь на CELL your Model) — автоматически созданные «отредактированные» промпты. Идея: найти «слегка изменённую» версию промпта, при которой модель даёт заметно другой ответ по заданной метрике.
• Реализация Token Highlighter — метод, унифицированный на анализ токенов, которые могут вести к jailbreak-поведению.
И ещё:
• Поддерживают большие inputs на основе уровневых объяснений — от крупных частей входа (предложений) до слов и фраз (App. C. 3)
В комплекте:
Методы, документация, тесты и быстрые стартовые ноутбуки (Colab прямо сразу). Ноутбуки я потрогала — классные! Хочу сделать что-то интересное.
В общем, делаем
и +1 в копилку исследования моделей)
Привет, друзья!
🔠 ICX360 — ещё одна библиотека для in-context объяснений LLM. In-context здесь — отсылка на то, что объяснения привязываются к input — к словам, предложениям или частям промпта, на основании которых LLM сгенерировала output.
Что внутри:
• Pertubation-based методы (то есть — методы на основе вмешательства — заменяем, убираем, искажаем часть и смотрим, как меняется выход);
• Contrastive explanations (ссылаясь на CELL your Model) — автоматически созданные «отредактированные» промпты. Идея: найти «слегка изменённую» версию промпта, при которой модель даёт заметно другой ответ по заданной метрике.
• Реализация Token Highlighter — метод, унифицированный на анализ токенов, которые могут вести к jailbreak-поведению.
И ещё:
• Поддерживают большие inputs на основе уровневых объяснений — от крупных частей входа (предложений) до слов и фраз (App. C. 3)
В комплекте:
Методы, документация, тесты и быстрые стартовые ноутбуки (Colab прямо сразу). Ноутбуки я потрогала — классные! Хочу сделать что-то интересное.
В общем, делаем
uv pip install icx360
uv run python -m spacy download en_core_web_sm
uv run python -m spacy download en_core_web_trf
и +1 в копилку исследования моделей)
GitHub
GitHub - IBM/ICX360: In-Context Explainability 360 toolkit
In-Context Explainability 360 toolkit. Contribute to IBM/ICX360 development by creating an account on GitHub.
🥱17👍14❤🔥5🔥2
Love. Death. Transformers.
кто модель z image назвал?? modelscope Paper
мне нравится новая китайская мода заставлять clevels тильтовать и оправдыватся перед инвесторами почему у них хуже за х10 денег
папир
папир
😁84🔥5😢2🤔1🗿1
Forwarded from еба́ные идеи для резерча
Отдельные разработчики Яндекса выглядят как бомжи — Шмель
😁91💯13🥴8👍2
Отдельные ресечеры аири пахнут как бомжи после выполнения KPI внедрений Rl — админ
😁80😢8❤🔥5🤔5🥴5🙊1