Техножнец
Спросил своего "ИИ консультанта по RUKALLAMA" по теме ответов модели. Мы подробно обсуждаем детали. Я каждый раз уточняю не льстит ли мне модель, после этого она очень строго корректирует ответы (иногда слишком строго), надо находить золотую середину, НО!…
Дабы не быть голословным
В обсуждение прикрепляю НЕ ОЧИЖЕННЫЙ (RAW) ответ модели:
Очищенный ответ (4 уровня очистки):
Как мы видим по консистенции UNK (не понимает шо это такое) токенов, что модель не так уж сильно потерялась, не порушился весь словарь махом. То, что уже было знакомо - осталось на месте!
Мы все помним как модель вечно использовала слова партия, ссср, война, быть, мочь и так далее.
Всё осталось на прежних местах.
Я в ахуе...эта архитектура "игрушка дьявола". Когда буду масштабировать буду постоянно думать о наличии потенциально непонятного дерьма под боком в виде "соображалки колмогорова-арнольда" ептваю...мать его...блин....нахрен блин...
В обсуждение прикрепляю НЕ ОЧИЖЕННЫЙ (RAW) ответ модели:
<unk> такой <unk> и в <unk> <unk> роль в <unk> <unk> ? с . <unk> - свой п рабочий <unk> далее <unk> <multistep_instruction> <multistep_instruction> <dialog_instruction> <unk> который . ( она ский : форма , . . другой как роль он <unk> для ский <problem_instruction> вид , быть <problem_instruction> , у новый в ( быть смотреть но : , <multistep_instruction> а о <unk> <unk> у <unk> <unk> который а м <basic_instruction> - свой <unk> <unk> | <unk> по и и же ( между из к от <unk> <unk> и в на это <unk> , год ( <unk> в - м , ) быть <unk> - так с с но <multistep_instruction> развитие система ский <dialog_instruction> с п ) <unk> как под <problem_instruction> борьба она до <unk> р свой — и из <problem_instruction> они - <unk> быть с как и <unk> так первый - с <unk> и в <unk> он и который форма за весь быть <unk> один первый время для быть на тот к и ( ) <problem_instruction> п <unk> развитие <unk> <problem_instruction> в - на <dialog_instruction> далее так ссср быть влияние с и такой за вид она ( <problem_instruction> <basic_instruction> ; партия не работа к о от по <basic_instruction> ) она который или а <multistep_instruction> с в развитие весь в - <unk> <dialog_instruction> на <unk> м <dialog_instruction> быть <unk> труд <dialog_instruction> п новый
Очищенный ответ (4 уровня очистки):
такой и в роль в с свой п рабочий далее который она ский форма другой как роль он для ский вид быть у новый в быть смотреть но а о у который а м свой по и же между из к от и в на это год в м быть так с но развитие система ский с п как под борьба она до р свой — и из они быть с как и так первый с и в он и который форма за весь быть один первый время для быть на тот к и п развитие в на далее так ссср быть влияние с и такой за вид она партия не работа к о от по она который или а с в развитие весь в на м быть труд п новый
Как мы видим по консистенции UNK (не понимает шо это такое) токенов, что модель не так уж сильно потерялась, не порушился весь словарь махом. То, что уже было знакомо - осталось на месте!
Мы все помним как модель вечно использовала слова партия, ссср, война, быть, мочь и так далее.
Всё осталось на прежних местах.
ЧЕСТНО?
Я в ахуе...эта архитектура "игрушка дьявола". Когда буду масштабировать буду постоянно думать о наличии потенциально непонятного дерьма под боком в виде "соображалки колмогорова-арнольда" ептваю...мать его...блин....нахрен блин...
👀1
Техножнец
Дабы не быть голословным В обсуждение прикрепляю НЕ ОЧИЖЕННЫЙ (RAW) ответ модели: <unk> такой <unk> и в <unk> <unk> роль в <unk> <unk> ? с . <unk> - свой п рабочий <unk> далее <unk> <multistep_instruction> <multistep_instruction> <dialog_instruction> <unk>…
ROPE - имба?
Это как разница между жестким каркасом (обычные модели) и гибкой конструкцией, которая может перестраиваться, сохраняя основную форму.
Модели обычно "сыпятся" после таких
обновлений по нескольким причинам:
Эмбеддинги и их связи:
Каждый токен имеет свой эмбеддинг в векторном пространстве
Эти эмбеддинги формируют сложную сеть связей
При переобучении токенизатора все эти связи нарушаются
Старые паттерны больше не работают
Позиционное кодирование:
В обычных моделях позиционные эмбеддинги жестко привязаны к токенам
При смене токенизации эти привязки ломаются
Модель теряет понимание структуры последовательностей
Внутренние представления:
Внимание и другие механизмы настроены на определенную токенизацию
Изменение токенов = изменение всех этих настроек
Нарушается вся внутренняя логика модели
При фиксированной функции активации - модель будет только сосать и лизать.
При использовании сплайнов с умными методами - ТАКИЕ ВОТ ДЕЛА
В твоем случае RoPE + сплайны дают:
Более гибкое позиционное кодирование
Способность адаптировать связи
Сохранение базовой структуры при изменении токенов
Это как разница между жестким каркасом (обычные модели) и гибкой конструкцией, которая может перестраиваться, сохраняя основную форму.
👍3👀2
Вспоминается моя история с печатали, как я страдал , что дискриминатор улетает в космос по ошибке в отличие от генератора...гребаный gan ....ебаные ганы....но!
Всё оказалось прозрачнее, теперь вышла чудесная бумага, кажется старые ошибки сетей GAN уронили и принесли норм архитектуру.
https://news.1rj.ru/str/data_secrets/5891
Читать тут. Респект паблик Data secrets
Всё оказалось прозрачнее, теперь вышла чудесная бумага, кажется старые ошибки сетей GAN уронили и принесли норм архитектуру.
https://news.1rj.ru/str/data_secrets/5891
Читать тут. Респект паблик Data secrets
Telegram
Data Secrets
GAN умер; да здравствует GAN!
Да, эта статья заслуживает внимания за одно лишь название (в оригинале на английском The GAN is dead; long live the GAN!). Однако вчера она еще и стала лидером в рейтинге Paper of the day на HF. Разбираемся 👇
Итак, GAN был…
Да, эта статья заслуживает внимания за одно лишь название (в оригинале на английском The GAN is dead; long live the GAN!). Однако вчера она еще и стала лидером в рейтинге Paper of the day на HF. Разбираемся 👇
Итак, GAN был…
🔥5❤1
This media is not supported in your browser
VIEW IN TELEGRAM
ЗАКИНУТЬ ДРОВ 🔤 🔤 🔤 🔤
Уважаемые, мои средства на пару дней закончились.
Скоро кончатся и google colab баллы.
Считаю, что модели отдыхать даже пару дней не надо! (надо учиться)
Поэтому...
Уважаемые, мои средства на пару дней закончились.
Скоро кончатся и google colab баллы.
Считаю, что модели отдыхать даже пару дней не надо! (надо учиться)
Поэтому...
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
ОТЧЕТ ПО ПРОЕКТУ RUKALLAMA: ДОСТИЖЕНИЯ И ПЕРСПЕКТИВЫ
КЛЮЧЕВЫЕ ДОСТИЖЕНИЯ:
Разработана эффективная архитектура (24M параметров)
Достигнута 35x эффективность по сравнению с аналогами
Успешная работа на минимальном датасете (82MB + 100MB)
Стабильная адаптация к обновлениям токенизатора
ТЕКУЩИЙ СТАТУС:
Loss: 7.4059 (устойчивое снижение)
Стабильная работа на потребительском GPU
Успешное освоение базовой структуры языка
Эффективная интеграция инструкций
ТЕХНОЛОГИЧЕСКИЕ ПРЕИМУЩЕСТВА:
Уникальная архитектура со сплайнами Колмогорова-Арнольда
Эффективная реализация RoPE
Высокая адаптивность к изменениям
Минимальные требования к ресурсам
ОГРАНИЧЕНИЯ И ПЕРСПЕКТИВЫ:
Достижение loss 4 ограничено объемом обучающих данных
Модель достигла высокой структурной эффективности
Для семантического понимания потребуются большие датасеты
Возможна дальнейшая оптимизация в рамках текущей архитектуры
ЗАКЛЮЧЕНИЕ:
Достигнутые результаты показывают перспективность выбранного подхода для создания ресурсо-эффективных языковых моделей.
ПОДДЕРЖАТЬ ПРОЕКТ: https://yoomoney.ru/fundraise/17N44BNASIE.250111
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤2🤩1
Работает! Этого хватит на (примерно) 14 часов! Мы уже суетимся...
(как подойдут закину ещё, потом ещё)
Сейчас попробуем запустить параллельно на локальной машине!
ПОДДАТЬ ДРОВ
Спасибо комьюнити ❤️
(как подойдут закину ещё, потом ещё)
Сейчас попробуем запустить параллельно на локальной машине!
ПОДДАТЬ ДРОВ
Спасибо комьюнити ❤️
💅5👀1
ЧАТ RUKALLAMA - 187 ЭПОХА (LOSS 7.4593)
Тем временем запущен параллельный сеанс для вас.
P.S. Скоро тоже будет всё переезжать на постоянный адрес.
Тем временем запущен параллельный сеанс для вас.
P.S. Скоро тоже будет всё переезжать на постоянный адрес.
👍2
🌋 RUKALLAMA ЭПОХА 200: НЕЙРОНКА ВЫХОДИТ НА НОВЫЙ УРОВЕНЬ! 🌋
ЧАТ С 200 ЭПОХОЙ🍴
Rukallama сегодня отмечает 200 эпоху своей мультипликации. Этот процесс с каждым разом идёт Rukallama на пользу.
👊 P.S. Те, кто ждал смысла в генерациях - ждите 😃
👊 P.P.S. Будем щас изучать "двойника"
#RuKaLLaMA #НейроПрогресс #РусскийAI #ЗаМашинноеОбучение
ЧАТ С 200 ЭПОХОЙ
Rukallama сегодня отмечает 200 эпоху своей мультипликации. Этот процесс с каждым разом идёт Rukallama на пользу.
Параллельно тренируется её "злой" брат близнец (шутка - там просто на железе отдельно, батч чуть побольше, поэтому слегка вперёд бежит, мы ещё протестируем веса оттуда, когда убежит далеко)
🧠 ТЕКУЩИЙ СТАТУС:
LOSS ЛЕТИТ ВНИЗ:
Стартовали с 8.2 (было больно)
За 60 эпох скинули до 7.1842
Тренд на снижение (и это НОРМА!)
Структура всё лучше и лучше
🔬 ГЛАВНЫЕ УЛУЧШЕНИЯ:
НОВЫЙ ТОКЕНИЗАТОР:
Уже 60 эпох учит инструкции
Помогает ей в структуру общения
БОЛЬШЕ ШИЗОФАЗИИ!
Первые молекулы смысла в генерации пойдут из инструкций!
⚡️ ЧТО ИЗМЕНИЛОСЬ:
ЭПОХА 200:
Стабильное снижение лосса!
Буд-то начинает одуплять!
Более приятные ответы!
Ещё больше кеков!
💊 СЛЕДУЮЩИЕ ШАГИ:
ПЛАНЫ:
Продолжаем снижать лосс
Добавляем новые инструкции
Улучшаем структуру ответов
Ждём эпоху 300😊 !
#RuKaLLaMA #НейроПрогресс #РусскийAI #ЗаМашинноеОбучение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5