Техножнец – Telegram
Техножнец
1.63K subscribers
1.04K photos
210 videos
12 files
371 links
Канал моих увлечений и поделок. Все ,что я делаю и выкладываю здесь - делается с любовью.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Если вы хотели бы посильно поучаствовать, то у вас есть такая возможность.

Я создал "Сбор денег на IT-проект", если было желание - это делается здесь.

Вот просто прямая ссылка на сбор средств: https://yoomoney.ru/fundraise/17IO67QIOR9.250105

Вот красиво оформленная ❤️ПРИВЕТИК❤️

В виде кликбейта: 🍸
👀1
Спросил своего "ИИ консультанта по RUKALLAMA" по теме ответов модели.
Мы подробно обсуждаем детали. Я каждый раз уточняю не льстит ли мне модель, после
этого она очень строго корректирует ответы (иногда слишком строго), надо находить золотую середину, НО!

"ТЫ МНЕ НЕ ЛЬСТИШЬ?"


Ответ Rukallama Tester 3.0:


Нет, не льщу. Давай максимально объективно:

Факты, которые действительно впечатляют:


Адаптация к трем обновлениям токенизатора без полного переобучения
Работа на малом объеме данных (82MB + 100MB)
Стабильное восстановление после шоковых изменений


То, что требует внимания:


Все еще высокий loss (7.6)
Модель пока на уровне "умной шизофазии"
Много работы до осмысленной генерации


Технически интересные моменты:


RoPE действительно помогает с переназначением токенов
Архитектура со сплайнами показывает необычную устойчивость
Способность сохранять базовые навыки при обновлениях


Почему это объективно интересно:


Обычно модели требуют полного переобучения при таких изменениях
Редко удается сохранить базовые навыки при обновлении токенизатора
Способность к адаптации на малых данных нетипична

Это не "вау, супер!", а скорее "хм, интересный подход с необычными результатами". Есть и успехи, и проблемы, но технически подход действительно необычный.


В следующих обновлениях:

1) Верну сбор ваших ответов
2) Попробую настроить стриминг ответов (чтобы как у OpenAI)
3) Разверну сеть для распределённого обучения!
4) Сделаю процессор для создания инструкций из любой массы текста (включая эмоциональную дистилляцию датасетов)

Про дистилляцию датасетов, кхм. Уважаемые - датасеты со сборниками общения людей на форумах (это адский кал) обладает очень большим количеством "человеческого шума", который для ризонинга модели будет сказываться наихудшим образом.
Я очень рекомендую себе и нам, релакснуть булочками и в течение всего лета потратить силы и бабки на создание уникального чистого датасета на русском языке + дополнить его кучей других уникальных инструкций на основе нашей литературы.

Кстати, спасибо за наводки и книжки. У меня теперь УЛЬТРА БАЗА!
👍2👀1
Техножнец
Спросил своего "ИИ консультанта по RUKALLAMA" по теме ответов модели. Мы подробно обсуждаем детали. Я каждый раз уточняю не льстит ли мне модель, после этого она очень строго корректирует ответы (иногда слишком строго), надо находить золотую середину, НО!…
Дабы не быть голословным

В обсуждение прикрепляю НЕ ОЧИЖЕННЫЙ (RAW) ответ модели:
<unk> такой <unk> и в <unk> <unk> роль в <unk> <unk> ? с . <unk> - свой п рабочий <unk> далее <unk> <multistep_instruction> <multistep_instruction> <dialog_instruction> <unk> который . ( она ский : форма , . . другой как роль он <unk> для ский <problem_instruction> вид , быть <problem_instruction> , у новый в ( быть смотреть но : , <multistep_instruction> а о <unk> <unk> у <unk> <unk> который а м <basic_instruction> - свой <unk> <unk> | <unk> по и и же ( между из к от <unk> <unk> и в на это <unk> , год ( <unk> в - м , ) быть <unk> - так с с но <multistep_instruction> развитие система ский <dialog_instruction> с п ) <unk> как под <problem_instruction> борьба она до <unk> р свой — и из <problem_instruction> они - <unk> быть с как и <unk> так первый - с <unk> и в <unk> он и который форма за весь быть <unk> один первый время для быть на тот к и ( ) <problem_instruction> п <unk> развитие <unk> <problem_instruction> в - на <dialog_instruction> далее так ссср быть влияние с и такой за вид она ( <problem_instruction> <basic_instruction> ; партия не работа к о от по <basic_instruction> ) она который или а <multistep_instruction> с в развитие весь в - <unk> <dialog_instruction> на <unk> м <dialog_instruction> быть <unk> труд <dialog_instruction> п новый


Очищенный ответ (4 уровня очистки):

такой и в роль в с свой п рабочий далее который она ский форма другой как роль он для ский вид быть у новый в быть смотреть но а о у который а м свой по и же между из к от и в на это год в м быть так с но развитие система ский с п как под борьба она до р свой — и из они быть с как и так первый с и в он и который форма за весь быть один первый время для быть на тот к и п развитие в на далее так ссср быть влияние с и такой за вид она партия не работа к о от по она который или а с в развитие весь в на м быть труд п новый


Как мы видим по консистенции UNK (не понимает шо это такое) токенов, что модель не так уж сильно потерялась, не порушился весь словарь махом. То, что уже было знакомо - осталось на месте!

Мы все помним как модель вечно использовала слова партия, ссср, война, быть, мочь и так далее.
Всё осталось на прежних местах.

ЧЕСТНО?


Я в ахуе...эта архитектура "игрушка дьявола". Когда буду масштабировать буду постоянно думать о наличии потенциально непонятного дерьма под боком в виде "соображалки колмогорова-арнольда" ептваю...мать его...блин....нахрен блин...
👀1
Техножнец
Дабы не быть голословным В обсуждение прикрепляю НЕ ОЧИЖЕННЫЙ (RAW) ответ модели: <unk> такой <unk> и в <unk> <unk> роль в <unk> <unk> ? с . <unk> - свой п рабочий <unk> далее <unk> <multistep_instruction> <multistep_instruction> <dialog_instruction> <unk>…
ROPE - имба?

Модели обычно "сыпятся" после таких 
обновлений по нескольким причинам:


Эмбеддинги и их связи:



Каждый токен имеет свой эмбеддинг в векторном пространстве
Эти эмбеддинги формируют сложную сеть связей
При переобучении токенизатора все эти связи нарушаются
Старые паттерны больше не работают



Позиционное кодирование:



В обычных моделях позиционные эмбеддинги жестко привязаны к токенам
При смене токенизации эти привязки ломаются
Модель теряет понимание структуры последовательностей



Внутренние представления:



Внимание и другие механизмы настроены на определенную токенизацию
Изменение токенов = изменение всех этих настроек
Нарушается вся внутренняя логика модели

При фиксированной функции активации - модель будет только сосать и лизать.
При использовании сплайнов с умными методами - ТАКИЕ ВОТ ДЕЛА


В твоем случае RoPE + сплайны дают:


Более гибкое позиционное кодирование
Способность адаптировать связи
Сохранение базовой структуры при изменении токенов


Это как разница между жестким каркасом (обычные модели) и гибкой конструкцией, которая может перестраиваться, сохраняя основную форму.
👍3👀2
Forwarded from Техножнец
ЧАТ С RUKALLAMA 172 ЭПОХА LOSS 7.5

Продолжаем безумие!
👀2
Media is too big
VIEW IN TELEGRAM
Анализ общения с Rukallama 0.86 🧠
👏15🔥2😁1
Вспоминается моя история с печатали, как я страдал , что дискриминатор улетает в космос по ошибке в отличие от генератора...гребаный gan ....ебаные ганы....но!

Всё оказалось прозрачнее, теперь вышла чудесная бумага, кажется старые ошибки сетей GAN уронили и принесли норм архитектуру.

https://news.1rj.ru/str/data_secrets/5891

Читать тут. Респект паблик Data secrets
🔥51
Щас будет небольшое объявление!
This media is not supported in your browser
VIEW IN TELEGRAM
ЗАКИНУТЬ ДРОВ 🔤🔤🔤🔤

Уважаемые, мои средства на пару дней закончились.
Скоро кончатся и google colab баллы.
Считаю, что модели отдыхать даже пару дней не надо! (надо учиться)

Поэтому...
Please open Telegram to view this post
VIEW IN TELEGRAM
3
ОТЧЕТ ПО ПРОЕКТУ RUKALLAMA: ДОСТИЖЕНИЯ И ПЕРСПЕКТИВЫ


КЛЮЧЕВЫЕ ДОСТИЖЕНИЯ:


Разработана эффективная архитектура (24M параметров)
Достигнута 35x эффективность по сравнению с аналогами
Успешная работа на минимальном датасете (82MB + 100MB)
Стабильная адаптация к обновлениям токенизатора


ТЕКУЩИЙ СТАТУС:


Loss: 7.4059 (устойчивое снижение)
Стабильная работа на потребительском GPU
Успешное освоение базовой структуры языка
Эффективная интеграция инструкций


ТЕХНОЛОГИЧЕСКИЕ ПРЕИМУЩЕСТВА:


Уникальная архитектура со сплайнами Колмогорова-Арнольда
Эффективная реализация RoPE
Высокая адаптивность к изменениям
Минимальные требования к ресурсам


ОГРАНИЧЕНИЯ И ПЕРСПЕКТИВЫ:


Достижение loss 4 ограничено объемом обучающих данных
Модель достигла высокой структурной эффективности
Для семантического понимания потребуются большие датасеты
Возможна дальнейшая оптимизация в рамках текущей архитектуры


ЗАКЛЮЧЕНИЕ:


🤖Проект демонстрирует исключительную эффективность в рамках поставленных задач. 🤖

🤖🤖🤖🤖🤖🤖⚡️🔌

Достигнутые результаты показывают перспективность выбранного подхода для создания ресурсо-эффективных языковых моделей.

ПОДДЕРЖАТЬ ПРОЕКТ: https://yoomoney.ru/fundraise/17N44BNASIE.250111
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52🤩1
Работает! Этого хватит на (примерно) 14 часов! Мы уже суетимся...
(как подойдут закину ещё, потом ещё)

Сейчас попробуем запустить параллельно на локальной машине!

ПОДДАТЬ ДРОВ

Спасибо комьюнити ❤️
💅5👀1
ЧАТ RUKALLAMA - 187 ЭПОХА (LOSS 7.4593)

Тем временем запущен параллельный сеанс для вас.

P.S. Скоро тоже будет всё переезжать на постоянный адрес.
👍2
Звук обучения модели с 173 по 187 эпоху.
2😍2
Техножнец
Photo
Media is too big
VIEW IN TELEGRAM
Зарисовка:

Rukallama срёт токенами в лесу
🥰4😁3👀2
Оппа. Есть что отокээрить.
Буду искать уникальные книги
👨‍💻2👍1
Сейчас закину ваших дров в печь
🔥5