Love. Death. Transformers.
Выглядит как пиздатая замена deepseek3.1~ на русском, mtp, MLA , на русском бодро болтает, метрики sub frontier, жду апи и померяю на всяком. Ждём статью на архив и будет понятнее https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview https://huggingface.co/ai…
https://huggingface.co/DevQuasar/ai-sage.GigaChat3-702B-A36B-preview-bf16-GGUF/tree/main
Хабр
Теперь с gguf, но монстр тот еще
Хабр
Теперь с gguf, но монстр тот еще
🔥26 8💩1
Love. Death. Transformers.
https://huggingface.co/DevQuasar/ai-sage.GigaChat3-702B-A36B-preview-bf16-GGUF/tree/main Хабр Теперь с gguf, но монстр тот еще
бтв мне не оч понятна тряска с тем что у гигачата архитектура дипсиковая
- мало кто может позволить себе делать аблейшены архитектур и получать принципиально лучшие. Те же мистрали сидят на llamalike и ничего
- есть kimi k2 которая тоже дипсик и ничего
- кореляцию весов стоит считать без ln - иначе выходит что квен это инициализация лламой (или наоборот) вот реп я более чем верю что гигачат мог обучить свою модель такого класса с нуля, к тому же это действительно единственная современная реально русская модель за последние 4 года.
Русского опенсурса настолько мало что да, я буду неиронично впрягатся за сбер который не очень люблю и у меня нет восторгов от организации и тд, но стоит разделять автора и творение. Гигачат сам по себе все же уникальная штука с точки зрения того что он вообще есть с учетом дефецита всего
- мало кто может позволить себе делать аблейшены архитектур и получать принципиально лучшие. Те же мистрали сидят на llamalike и ничего
- есть kimi k2 которая тоже дипсик и ничего
- кореляцию весов стоит считать без ln - иначе выходит что квен это инициализация лламой (или наоборот) вот реп я более чем верю что гигачат мог обучить свою модель такого класса с нуля, к тому же это действительно единственная современная реально русская модель за последние 4 года.
Русского опенсурса настолько мало что да, я буду неиронично впрягатся за сбер который не очень люблю и у меня нет восторгов от организации и тд, но стоит разделять автора и творение. Гигачат сам по себе все же уникальная штука с точки зрения того что он вообще есть с учетом дефецита всего
GitHub
GitHub - Inf1delis/check-model-weight-corr
Contribute to Inf1delis/check-model-weight-corr development by creating an account on GitHub.
2👍199🔥54❤🔥35💩16💯4💔4👏2🤔1🍓1
новый флюкс клевый!
внутри mistral vlm 24b как текстовый и картиночный энкодер + теперь поддерживается промптинг с нескольких картинок, результаты не такие впечетляющие как у бананы, но лучше чем у qwen edit + поддержка до 4к и худо бедно русский текст поддерживает
https://bfl.ai/blog/flux-2
внутри mistral vlm 24b как текстовый и картиночный энкодер + теперь поддерживается промптинг с нескольких картинок, результаты не такие впечетляющие как у бананы, но лучше чем у qwen edit + поддержка до 4к и худо бедно русский текст поддерживает
https://bfl.ai/blog/flux-2
🔥41👍11😁8
мальчики не завидуем, 1.5tb оперативки дада ddr5 да и два gold проца, ну да моя личная, а что?
😁93 48🎉8🔥3❤🔥2👍2💅2
Forwarded from Denis Sexy IT 🤖
Илья дал большое интервью:
https://www.youtube.com/watch?v=aR20FWCCjAs
Вот главное:
– Сейчас модели выглядят намного умнее на тестах, чем в реальных задачах: они переобучены на эвалы и плохо обобщают, особенно в сложных многошаговых сценариях
– Главный технический барьер к AGI - ненадёжное обобщение и низкая «человеческая» обучаемость; простое масштабирование предобучения и RL это не решит
– Эпоха «масштабируем всё предобучением» заканчивается: данные конечны, RL жрёт много вычислений; начинается новая «эпоха исследований» с поиском новых рецептов обучения (в т.ч. ценностные функции, архитектур моделей, другие виды RL и т.п.).
– Будущее AGI видится как система, которая учится как человек: один и тот же базовый разум может быстро осваивать разные профессии, постоянно дообучаясь в реальном мире, а не «готовый мозг, который знает всё из коробки»
– Массовое распространение таких АИ-учеников по экономике почти неизбежно приведёт к очень быстрому росту производительности и ВВП; скорость будет сильно зависеть от регулирования в разных странах
– Скорее всего появится много сверхсильных АИ от разных компаний, специализирующихся по нишам (право, медицина, R&D и т.д.), а не один «богоподобный» монополист-суперинтеллект (аниме Пантеон смотрели? Пора если нет)
– Основной риск - огромная мощь: если сделать чрезвычайно сильного целеустремлённого агента, даже с «хорошей» целью, результат может сильно не понравиться людям; желательно ограничивать максимальную мощность единичных систем
– В качестве цели для первых суперинтеллектов он рассматривает «заботу о чувствующих существах» (в т.ч. о самом АИ) как более реалистичную и устойчивую, чем «забота только о людях», но признаёт, что это не идеальное решение
– Он ожидает постепенный, но всё более заметный показ мощных АИ обществу: по мере роста реальной силы моделей компании и государства станут намного более параноидальны и начнут активно координироваться по безопасности и регулированию
– Краткосрочный «хороший» сценарий - универсальный высокий доход и то, что АИ делает почти всю работу; долгосрочно это нестабильно, потому что люди выпадают из активного участия в принятии решений
– Один из возможных (ему самому не очень нравящийся) способов долгосрочной стабилизации - частичное слияние людей с АИ через продвинутые нейроинтерфейсы, чтобы люди разделяли понимание с системами и оставались в контуре управления
– Оценка горизонта: до АИ, который учится как человек и может стать базой для суперинтеллекта, примерно 5-20 лет; текущий «чистый масштабинг» в какой-то момент упрётся в потолок
– SSI (его АИ лаба) он описывает как «чисто исследовательскую» компанию с другим техническим подходом к обобщению и безопасности, которая не ставит ставку на простое наращивание масштаба текущих архитектур, и ожидает, что в итоге крупные игроки всё равно сойдутся в общих стратегиях по безопасному выводу суперинтеллекта в мир
https://www.youtube.com/watch?v=aR20FWCCjAs
Вот главное:
– Сейчас модели выглядят намного умнее на тестах, чем в реальных задачах: они переобучены на эвалы и плохо обобщают, особенно в сложных многошаговых сценариях
– Главный технический барьер к AGI - ненадёжное обобщение и низкая «человеческая» обучаемость; простое масштабирование предобучения и RL это не решит
– Эпоха «масштабируем всё предобучением» заканчивается: данные конечны, RL жрёт много вычислений; начинается новая «эпоха исследований» с поиском новых рецептов обучения (в т.ч. ценностные функции, архитектур моделей, другие виды RL и т.п.).
– Будущее AGI видится как система, которая учится как человек: один и тот же базовый разум может быстро осваивать разные профессии, постоянно дообучаясь в реальном мире, а не «готовый мозг, который знает всё из коробки»
– Массовое распространение таких АИ-учеников по экономике почти неизбежно приведёт к очень быстрому росту производительности и ВВП; скорость будет сильно зависеть от регулирования в разных странах
– Скорее всего появится много сверхсильных АИ от разных компаний, специализирующихся по нишам (право, медицина, R&D и т.д.), а не один «богоподобный» монополист-суперинтеллект (аниме Пантеон смотрели? Пора если нет)
– Основной риск - огромная мощь: если сделать чрезвычайно сильного целеустремлённого агента, даже с «хорошей» целью, результат может сильно не понравиться людям; желательно ограничивать максимальную мощность единичных систем
– В качестве цели для первых суперинтеллектов он рассматривает «заботу о чувствующих существах» (в т.ч. о самом АИ) как более реалистичную и устойчивую, чем «забота только о людях», но признаёт, что это не идеальное решение
– Он ожидает постепенный, но всё более заметный показ мощных АИ обществу: по мере роста реальной силы моделей компании и государства станут намного более параноидальны и начнут активно координироваться по безопасности и регулированию
– Краткосрочный «хороший» сценарий - универсальный высокий доход и то, что АИ делает почти всю работу; долгосрочно это нестабильно, потому что люди выпадают из активного участия в принятии решений
– Один из возможных (ему самому не очень нравящийся) способов долгосрочной стабилизации - частичное слияние людей с АИ через продвинутые нейроинтерфейсы, чтобы люди разделяли понимание с системами и оставались в контуре управления
– Оценка горизонта: до АИ, который учится как человек и может стать базой для суперинтеллекта, примерно 5-20 лет; текущий «чистый масштабинг» в какой-то момент упрётся в потолок
– SSI (его АИ лаба) он описывает как «чисто исследовательскую» компанию с другим техническим подходом к обобщению и безопасности, которая не ставит ставку на простое наращивание масштаба текущих архитектур, и ожидает, что в итоге крупные игроки всё равно сойдутся в общих стратегиях по безопасному выводу суперинтеллекта в мир
YouTube
Ilya Sutskever – We're moving from the age of scaling to the age of research
Ilya & I discuss SSI’s strategy, the problems with pre-training, how to improve the generalization of AI models, and how to ensure AGI goes well.
𝐄𝐏𝐈𝐒𝐎𝐃𝐄 𝐋𝐈𝐍𝐊𝐒
* Trannoscript: https://www.dwarkesh.com/p/ilya-sutskever-2
* Apple Podcasts: https://podcasts.…
𝐄𝐏𝐈𝐒𝐎𝐃𝐄 𝐋𝐈𝐍𝐊𝐒
* Trannoscript: https://www.dwarkesh.com/p/ilya-sutskever-2
* Apple Podcasts: https://podcasts.…
👍34 12🔥8😁7🤔2
Forwarded from Гречневые мысли
https://huggingface.co/inclusionAI/LLaDA2.0-flash
https://huggingface.co/inclusionAI/LLaDA2.0-mini
Нифига себе, они под мой пост в канал релиз что ли подгадали?
TLDR: 100b и 16b MoE текстовые диффузии, по метрикам +- на уровне Qwen3-30b и Qwen3-8b. Учили на 20Т токенов. Фреймворк опенсорсят.
https://huggingface.co/inclusionAI/LLaDA2.0-mini
Нифига себе, они под мой пост в канал релиз что ли подгадали?
TLDR: 100b и 16b MoE текстовые диффузии, по метрикам +- на уровне Qwen3-30b и Qwen3-8b. Учили на 20Т токенов. Фреймворк опенсорсят.
huggingface.co
inclusionAI/LLaDA2.0-flash · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍27🔥6🤔4
Гречневые мысли
https://huggingface.co/inclusionAI/LLaDA2.0-flash https://huggingface.co/inclusionAI/LLaDA2.0-mini Нифига себе, они под мой пост в канал релиз что ли подгадали? TLDR: 100b и 16b MoE текстовые диффузии, по метрикам +- на уровне Qwen3-30b и Qwen3-8b. Учили…
Надо переучить и назвать
Red
Samara
Auto
Club
Red
Samara
Auto
Club
💯40 11😁6 2💩1
Continuous batching +ar это основа цены и перфоманса современного инференса, без этого все хитрые kV hit cache префил что шалаве хиджаб - бессмысленно. Почитайте, хорошая вводная статья.
Если по простому - с помощью continuous batching можно добавлять запросы в обработку когда некоторые старые запросы уже обработаны, а новые уже идут. За счёт чего карты постоянно утилизируются и нет необходимости ждать когда дойдет прошлый батч
https://huggingface.co/blog/continuous_batching
Если по простому - с помощью continuous batching можно добавлять запросы в обработку когда некоторые старые запросы уже обработаны, а новые уже идут. За счёт чего карты постоянно утилизируются и нет необходимости ждать когда дойдет прошлый батч
https://huggingface.co/blog/continuous_batching
huggingface.co
Continuous batching from first principles
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥25👍4
Forwarded from Labrats
- Я прочитал три книги Пелевина. Такое странное чувство. Словно пропитался буддийским пофигизмом.
- Это ненадолго. Скоро сессия.
#вдохновлено_подписчиком
- Это ненадолго. Скоро сессия.
#вдохновлено_подписчиком
😁44🔥3
- Я прочитал три книги Пелевина. Такое странное чувство. Словно пропитался буддийским пофигизмом
- Зачем ты мухомор лижешь
- Зачем ты мухомор лижешь
🍓71 41🌚7 3 2🔥1🦄1
девочки пишут статью: аффиляции одного вуза, распределяют места
аффиляции мальчиков: Palantir, концерн Калашников, Вкусно и Точка, TSMC, Nestle, openai, тот смешной чел из бара, позиции в списке авторов распределены с помощью русской рулетки
аффиляции мальчиков: Palantir, концерн Калашников, Вкусно и Точка, TSMC, Nestle, openai, тот смешной чел из бара, позиции в списке авторов распределены с помощью русской рулетки
❤🔥112😍30🔥11👍2🤔2💯1
Forwarded from Data Blog
Ещё одна библиотека, до которой у меня (пока) не доходят руки, но новая, свежая, как булочки в пекарне.
Привет, друзья!
🔠 ICX360 — ещё одна библиотека для in-context объяснений LLM. In-context здесь — отсылка на то, что объяснения привязываются к input — к словам, предложениям или частям промпта, на основании которых LLM сгенерировала output.
Что внутри:
• Pertubation-based методы (то есть — методы на основе вмешательства — заменяем, убираем, искажаем часть и смотрим, как меняется выход);
• Contrastive explanations (ссылаясь на CELL your Model) — автоматически созданные «отредактированные» промпты. Идея: найти «слегка изменённую» версию промпта, при которой модель даёт заметно другой ответ по заданной метрике.
• Реализация Token Highlighter — метод, унифицированный на анализ токенов, которые могут вести к jailbreak-поведению.
И ещё:
• Поддерживают большие inputs на основе уровневых объяснений — от крупных частей входа (предложений) до слов и фраз (App. C. 3)
В комплекте:
Методы, документация, тесты и быстрые стартовые ноутбуки (Colab прямо сразу). Ноутбуки я потрогала — классные! Хочу сделать что-то интересное.
В общем, делаем
и +1 в копилку исследования моделей)
Привет, друзья!
🔠 ICX360 — ещё одна библиотека для in-context объяснений LLM. In-context здесь — отсылка на то, что объяснения привязываются к input — к словам, предложениям или частям промпта, на основании которых LLM сгенерировала output.
Что внутри:
• Pertubation-based методы (то есть — методы на основе вмешательства — заменяем, убираем, искажаем часть и смотрим, как меняется выход);
• Contrastive explanations (ссылаясь на CELL your Model) — автоматически созданные «отредактированные» промпты. Идея: найти «слегка изменённую» версию промпта, при которой модель даёт заметно другой ответ по заданной метрике.
• Реализация Token Highlighter — метод, унифицированный на анализ токенов, которые могут вести к jailbreak-поведению.
И ещё:
• Поддерживают большие inputs на основе уровневых объяснений — от крупных частей входа (предложений) до слов и фраз (App. C. 3)
В комплекте:
Методы, документация, тесты и быстрые стартовые ноутбуки (Colab прямо сразу). Ноутбуки я потрогала — классные! Хочу сделать что-то интересное.
В общем, делаем
uv pip install icx360
uv run python -m spacy download en_core_web_sm
uv run python -m spacy download en_core_web_trf
и +1 в копилку исследования моделей)
GitHub
GitHub - IBM/ICX360: In-Context Explainability 360 toolkit
In-Context Explainability 360 toolkit. Contribute to IBM/ICX360 development by creating an account on GitHub.
🥱17👍14❤🔥5🔥2
Love. Death. Transformers.
кто модель z image назвал?? modelscope Paper
мне нравится новая китайская мода заставлять clevels тильтовать и оправдыватся перед инвесторами почему у них хуже за х10 денег
папир
папир
😁84🔥5😢2🤔1🗿1
Forwarded from еба́ные идеи для резерча
Отдельные разработчики Яндекса выглядят как бомжи — Шмель
😁91💯13🥴8👍2
Отдельные ресечеры аири пахнут как бомжи после выполнения KPI внедрений Rl — админ
😁80😢8❤🔥5🤔5🥴5🙊1
Low precision training and inference affect both the quality and cost of language models,
but current scaling laws do not account for this. In this work, we devise “precision-aware” scaling laws for both training and inference. We propose that training in lower precision reduces
the model’s effective parameter count, allowing us to predict the additional loss incurred from
training in low precision and post-train quantization. For inference, we find that the degradation introduced by post-training quantization increases as models are trained on more data,
eventually making additional pretraining data actively harmful. For training, our scaling laws
allow us to predict the loss of a model with different parts in different precisions, and suggest
that training larger models in lower precision may be compute optimal. We unify the scaling
laws for post and pretraining quantization to arrive at a single functional form that predicts
degradation from training and inference in varied precisions. We fit on over 465 pretraining runs
and validate our predictions on model sizes up to 1.7B parameters trained on up to 26B tokens.
paper
but current scaling laws do not account for this. In this work, we devise “precision-aware” scaling laws for both training and inference. We propose that training in lower precision reduces
the model’s effective parameter count, allowing us to predict the additional loss incurred from
training in low precision and post-train quantization. For inference, we find that the degradation introduced by post-training quantization increases as models are trained on more data,
eventually making additional pretraining data actively harmful. For training, our scaling laws
allow us to predict the loss of a model with different parts in different precisions, and suggest
that training larger models in lower precision may be compute optimal. We unify the scaling
laws for post and pretraining quantization to arrive at a single functional form that predicts
degradation from training and inference in varied precisions. We fit on over 465 pretraining runs
and validate our predictions on model sizes up to 1.7B parameters trained on up to 26B tokens.
paper
🥴18😁4👍3🤔3 2🔥1