Коллеги из команды выпустили технический отчет по обученной ими небольшой LLM под названием Гамаюн (рис.1) с 1.5B параметров и тренировкой с нуля на всего лишь 2.5T токенах: https://arxiv.org/abs/2512.21580 . Модель мультилингвальна и имеет фокус на русском языке. На ряде бенчмарков она превосходит Qwen2.5-1.5B и сравнима с Qwen3-1.7B, несмотря на то, что последние обучены на корпусах намного большего размера (18T - 36T). Модель также является SoTA на MERA (русскоязычный бенч) среди LLM размера 1-2B параметров.
К сожалению, веса в открытый доступ пока что выложить не разрешили, но должны разрешить выложить их для новой версии модели, которая ожидается через несколько месяцев. В утешение можно почитать технический отчет и узнать, как натренировать LLM с нуля с небольшим компьютом на небольшом количестве токенов! А еще можно почитать скрины диалогов с разными ранними версиями модели, полученных до полного завершения тренировки (рис. 2-10).😼 Даже жалко, что итоговая версия стала более нормисной и теперь выдает подобные приколы намного реже... 😒
#объяснения_статей
К сожалению, веса в открытый доступ пока что выложить не разрешили, но должны разрешить выложить их для новой версии модели, которая ожидается через несколько месяцев. В утешение можно почитать технический отчет и узнать, как натренировать LLM с нуля с небольшим компьютом на небольшом количестве токенов! А еще можно почитать скрины диалогов с разными ранними версиями модели, полученных до полного завершения тренировки (рис. 2-10).
#объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52💩18 14❤11🔥8 8😁6❤🔥2
Forwarded from Непрерывное математическое образование
https://mccme.ru/free-books/
Дед Мороз напоминает про страницу, на которой бесплатно доступны файлы множества книг (в основном издательства МЦНМО)
брошюры библиотеки «Математическое просвещение» и Летней школы «Современная математика», доклады семинара «Глобус» и материалы выездного семинара учителей, книги Арнольда и Гельфанда, Прасолова и Шеня и многое другое.
новогодние каникулы — как раз хорошая возможность спокойно почитать
Дед Мороз напоминает про страницу, на которой бесплатно доступны файлы множества книг (в основном издательства МЦНМО)
брошюры библиотеки «Математическое просвещение» и Летней школы «Современная математика», доклады семинара «Глобус» и материалы выездного семинара учителей, книги Арнольда и Гельфанда, Прасолова и Шеня и многое другое.
новогодние каникулы — как раз хорошая возможность спокойно почитать
2🏆49 27🔥18❤14🦄2💩1🎅1
Техножрица 👩💻👩🏫👩🔧
Коллеги из команды выпустили технический отчет по обученной ими небольшой LLM под названием Гамаюн (рис.1) с 1.5B параметров и тренировкой с нуля на всего лишь 2.5T токенах: https://arxiv.org/abs/2512.21580 . Модель мультилингвальна и имеет фокус на русском…
По просьбам читателей - вот примеры генераций последнего чекпойнта Гамаюна ( https://arxiv.org/abs/2512.21580 ).
Напомню контекст: модель 1.5B параметров, обученная моими коллегами на 2.5T токенов, показала SOTA-качество среди моделей сопоставимого размера на нескольких бенчмарках, включая MERA. Главный фокус работы был в том, чтобы понять, как добиться достойного качества при ограниченном бюджете на обучение.
#объяснения_статей
Напомню контекст: модель 1.5B параметров, обученная моими коллегами на 2.5T токенов, показала SOTA-качество среди моделей сопоставимого размера на нескольких бенчмарках, включая MERA. Главный фокус работы был в том, чтобы понять, как добиться достойного качества при ограниченном бюджете на обучение.
#объяснения_статей
❤42👍14💩11🔥5 4 4😁2😢2 1
КИБЕРНОГОТОЧКИ для КИБЕРБИМБО!
(Спасибо Монете за новость 👑 )
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💅76❤🔥38🔥11❤5💩2👍1🎄1
Forwarded from Тагир Анализирует
В последние годы регулярно появляются (и улучшаются) новые сервисы для написания кода, математики и аналитики. Задумываешься о том, что хард скиллы становятся все меньшим преимуществом на рынке труда
Ну а что – сейчас можно закинуть понятно описанную задачу в гпт, пройтись по шагам и получить приемлемый результат, который скорее всего будет лучше, чем у посредственного сотрудника
И вот на этом фоне Financial Times напоминает важный (и немного неприятный для кого-то) вывод, который получился из анализа данных Минтруда США с выборкой в 900+ профессий:
Причем там же есть второй слой, который (судя по комментариям к статье) многих триггерит:
По картинке видно, что комбинация “сильные софты + слабая математика” в среднем последние годы выглядит лучше, чем “сильная математика + слабые софты”. Такой тренд присутствует уже давно, но ИИ ускорил и его
То есть менее технически подкованный человек с хорошим софтами будет чувствовать себя лучше, чем сильный технарь без софтов. Оно и понятно – ему будет проще договориться с людьми, пропушить задачу, подстроиться или сменеджерить ожидания, а помощь со сложными вычислениями можно получить со стороны коллег или ИИ
Мы не говорим про крайности вроде сильных технарей с плохими софтами в ситуации, когда определенную задачу может сделать только 5 человек со всего рынка – тут про общий тренд
Да, это не значит, что харды не нужны. Скорее наоборот – они становятся базовой базой, а не конкурентным преимуществом. Курс по софтскиллам нннннужен?
Все таки харды часто можно подтянуть, а вот способность нормально работать с людьми и контекстом – намного сложнее. Ну и если человек токсичный или тяжело идущий на контакт, то это очень сложно – он должен быть оооочень сильным спецом, чтобы оставаться на своем месте, и то до тех пор, пока не найдется более приятный человек
Ну и мое любимое про график: ось там не от нуля, так что визуально это выглядит драматичнее, чем в абсолюте – но тренд от этого не исчезает.
А вы как считаете? Похоже на правду?
@tagir_analyzes
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50 28 13❤10🤔6💩4🔥3🤡3😭3
Хотела написать про предыдущий репост, тип, уточнить, что сами по себе харды по прежнему нужны но теперь благодаря Chatgpt, Claude и т.п. их намного проще подтягивать по мере работы. А софты подтягивать легче не стало. Поэтому акцент мог сместиться на них. Что-то в таком духе. Наверняка криво сформулировала, сейчас все будут обсирать в комментариях этот пост, но лучше я не могу. В последнее время я чувствую себя депрессивно и не могу писать длинные умные посты. Не могу найти в себе силы даже найти бота для репортов на спам.
5😢95❤52💔30🤝6💊6😭1🗿1