Техножнец – Telegram
Техножнец
1.63K subscribers
1.04K photos
210 videos
12 files
371 links
Канал моих увлечений и поделок. Все ,что я делаю и выкладываю здесь - делается с любовью.
Download Telegram
ЧАТ RUKALLAMA - 187 ЭПОХА (LOSS 7.4593)

Тем временем запущен параллельный сеанс для вас.

P.S. Скоро тоже будет всё переезжать на постоянный адрес.
👍2
Звук обучения модели с 173 по 187 эпоху.
2😍2
Техножнец
Photo
Media is too big
VIEW IN TELEGRAM
Зарисовка:

Rukallama срёт токенами в лесу
🥰4😁3👀2
Оппа. Есть что отокээрить.
Буду искать уникальные книги
👨‍💻2👍1
Сейчас закину ваших дров в печь
🔥5
Закинул! Продолжаем!
🔥4
🔥5👍1
🌋 RUKALLAMA ЭПОХА 200: НЕЙРОНКА ВЫХОДИТ НА НОВЫЙ УРОВЕНЬ! 🌋

ЧАТ С 200 ЭПОХОЙ 🍴

Rukallama сегодня отмечает 200 эпоху своей мультипликации. Этот процесс с каждым разом идёт Rukallama на пользу.

Параллельно тренируется её "злой" брат близнец (шутка - там просто на железе отдельно, батч чуть побольше, поэтому слегка вперёд бежит, мы ещё протестируем веса оттуда, когда убежит далеко)


🧠 ТЕКУЩИЙ СТАТУС:


LOSS ЛЕТИТ ВНИЗ:

Стартовали с 8.2 (было больно)
За 60 эпох скинули до 7.1842
Тренд на снижение (и это НОРМА!)
Структура всё лучше и лучше


🔬 ГЛАВНЫЕ УЛУЧШЕНИЯ:


НОВЫЙ ТОКЕНИЗАТОР:

Уже 60 эпох учит инструкции
Помогает ей в структуру общения
БОЛЬШЕ ШИЗОФАЗИИ!
Первые молекулы смысла в генерации пойдут из инструкций!


⚡️ ЧТО ИЗМЕНИЛОСЬ:


ЭПОХА 200:

Стабильное снижение лосса!
Буд-то начинает одуплять!
Более приятные ответы!
Ещё больше кеков!


💊 СЛЕДУЮЩИЕ ШАГИ:


ПЛАНЫ:

Продолжаем снижать лосс
Добавляем новые инструкции
Улучшаем структуру ответов
Ждём эпоху 300😊!




👊P.S. Те, кто ждал смысла в генерациях - ждите 😃

👊P.P.S. Будем щас изучать "двойника"

#RuKaLLaMA #НейроПрогресс #РусскийAI #ЗаМашинноеОбучение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Техножнец
🌋 RUKALLAMA ЭПОХА 200: НЕЙРОНКА ВЫХОДИТ НА НОВЫЙ УРОВЕНЬ! 🌋 ЧАТ С 200 ЭПОХОЙ 🍴 Rukallama сегодня отмечает 200 эпоху своей мультипликации. Этот процесс с каждым разом идёт Rukallama на пользу. Параллельно тренируется её "злой" брат близнец (шутка - там…
КОРРЕКТИРОВКА: Крен корабля!


После длительного анализа моего токенизатора я пришел к выводу.
Сделал не очень. Надо ещё раз постараться и подумать, посижу подумаю.


Будет ещё обновление токенизатора перед продолжением плана.
Пока что попытаюсь добиться LOSS: 6 и остановлю тренировку.
После этого внедрю новый токенизатор и буду смотреть на свойства модели.



ЕСЛИ ЧЕ - СТАРТАНЁМ ЗАНОВО! 

Но уже совместным кластером - с помощью распределённого обучения.


Почему это нормально?


Лично для меня проблема - это то, что поможет сделать модель лучше.
Проблема - это понимание ситуации. Обычно пока я не понимаю, то это не проблема - а непонятка и муть.
Непонятки и муть позади: я точно уверен, что надо обновлять токенизатор.


Лол, снова придется переписывать домовую книгу токенов.
Сделаю гибкий словарь, чтобы он пополнялся автоматически.


P.S. Параллельно создал около 800 вопросов к готовящимся инструкциям. Собираю потихоньку книги. Всё продолжает двигаться.
👍11
👍8🔥43
Мы прошли один кружок ада вместе.

Хочу вам за это выразить благодарность, потому что это начало пути в движухе it и у меня не было комьюнити наподобие вашего.

Все ,что строится тут будет иметь долгосрочные последствия.

Буду рад и дальше с вами разделять. Щас я за день на хуярю новый токенизатор, потрачу на это норм времени, удостоверюсь, что ебашит на уровне индустрии и буду делать норм. Нужен таргет токенизатора по датасетам 97-98% декодировки из токена в текст : только такой процент даст максимум усваиваемости для модели.

На данный момент применяется слишком агрессивная лемматизация
👏14👍2
💯10👾1
Техножнец
Мы прошли один кружок ада вместе. Хочу вам за это выразить благодарность, потому что это начало пути в движухе it и у меня не было комьюнити наподобие вашего. Все ,что строится тут будет иметь долгосрочные последствия. Буду рад и дальше с вами разделять.…
Дума всю ночь.
Читал всю ночь.
Надо чутка поспать.
Есть мысли, много мыслей.


Буду делиться в режиме - ебанутый профессор.

🔠🔠🔠 🔠🔠🔠 🔠🅰️🔠🔠🔠🅱️🅰️🔠🔠

Связь
Please open Telegram to view this post
VIEW IN TELEGRAM
🙉3🫡2🐳1
Загадочно-ебанутая  223 эпоха.


ЧАТ С RUKALLAMA 0.86

Пусть побудет тут с вами после небольшого пересмотра токенизатора и проверки архитектуры модели.
👍3👀1
Провел 4 дня в информационной коме. Не люблю нг праздники - вся Россия вялая и тебя немного затягивает водоворотом батонинга.

Зато я провел массивное исследование на тему улучшения работы модели и много других нюансов.

Мы очень скоро продолжим.

Ах да, хорошие новости есть:

МЫ СЕГОДНЯ ПОКУПАЕМ A100!!!

Всем прекрасного настроения, скоро увидимся.
🔥184👻3
Техножнец
Провел 4 дня в информационной коме. Не люблю нг праздники - вся Россия вялая и тебя немного затягивает водоворотом батонинга. Зато я провел массивное исследование на тему улучшения работы модели и много других нюансов. Мы очень скоро продолжим. Ах да, хорошие…
Своя А100 - это возможность не тратить бабки на гугл колаб и не ждать его инференсов и разогревов.

Плюс - как будут перерывы в тренировке : легче будет поднимать сервисы для вас.

Начало положено!
👍13🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Для новых подписчиков напомню свой проект по разделению печатей от текста.

Механизм такой:

1) Синтезированный датасет с искуственными документами, где печать стоит как "говно"
2) Синтезированные печати алгоритмически сделанные под отсканированные печати и документы
3) Пост процессинг, аугментация данные и дополнительный синтез
4) Итог: почти 20к материалов для обучения


На GIF изображены сгенерированные документы.