Техножнец – Telegram
Техножнец
1.63K subscribers
1.04K photos
209 videos
12 files
371 links
Канал моих увлечений и поделок. Все ,что я делаю и выкладываю здесь - делается с любовью.
Download Telegram
Закинул! Продолжаем!
🔥4
🔥5👍1
🌋 RUKALLAMA ЭПОХА 200: НЕЙРОНКА ВЫХОДИТ НА НОВЫЙ УРОВЕНЬ! 🌋

ЧАТ С 200 ЭПОХОЙ 🍴

Rukallama сегодня отмечает 200 эпоху своей мультипликации. Этот процесс с каждым разом идёт Rukallama на пользу.

Параллельно тренируется её "злой" брат близнец (шутка - там просто на железе отдельно, батч чуть побольше, поэтому слегка вперёд бежит, мы ещё протестируем веса оттуда, когда убежит далеко)


🧠 ТЕКУЩИЙ СТАТУС:


LOSS ЛЕТИТ ВНИЗ:

Стартовали с 8.2 (было больно)
За 60 эпох скинули до 7.1842
Тренд на снижение (и это НОРМА!)
Структура всё лучше и лучше


🔬 ГЛАВНЫЕ УЛУЧШЕНИЯ:


НОВЫЙ ТОКЕНИЗАТОР:

Уже 60 эпох учит инструкции
Помогает ей в структуру общения
БОЛЬШЕ ШИЗОФАЗИИ!
Первые молекулы смысла в генерации пойдут из инструкций!


⚡️ ЧТО ИЗМЕНИЛОСЬ:


ЭПОХА 200:

Стабильное снижение лосса!
Буд-то начинает одуплять!
Более приятные ответы!
Ещё больше кеков!


💊 СЛЕДУЮЩИЕ ШАГИ:


ПЛАНЫ:

Продолжаем снижать лосс
Добавляем новые инструкции
Улучшаем структуру ответов
Ждём эпоху 300😊!




👊P.S. Те, кто ждал смысла в генерациях - ждите 😃

👊P.P.S. Будем щас изучать "двойника"

#RuKaLLaMA #НейроПрогресс #РусскийAI #ЗаМашинноеОбучение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Техножнец
🌋 RUKALLAMA ЭПОХА 200: НЕЙРОНКА ВЫХОДИТ НА НОВЫЙ УРОВЕНЬ! 🌋 ЧАТ С 200 ЭПОХОЙ 🍴 Rukallama сегодня отмечает 200 эпоху своей мультипликации. Этот процесс с каждым разом идёт Rukallama на пользу. Параллельно тренируется её "злой" брат близнец (шутка - там…
КОРРЕКТИРОВКА: Крен корабля!


После длительного анализа моего токенизатора я пришел к выводу.
Сделал не очень. Надо ещё раз постараться и подумать, посижу подумаю.


Будет ещё обновление токенизатора перед продолжением плана.
Пока что попытаюсь добиться LOSS: 6 и остановлю тренировку.
После этого внедрю новый токенизатор и буду смотреть на свойства модели.



ЕСЛИ ЧЕ - СТАРТАНЁМ ЗАНОВО! 

Но уже совместным кластером - с помощью распределённого обучения.


Почему это нормально?


Лично для меня проблема - это то, что поможет сделать модель лучше.
Проблема - это понимание ситуации. Обычно пока я не понимаю, то это не проблема - а непонятка и муть.
Непонятки и муть позади: я точно уверен, что надо обновлять токенизатор.


Лол, снова придется переписывать домовую книгу токенов.
Сделаю гибкий словарь, чтобы он пополнялся автоматически.


P.S. Параллельно создал около 800 вопросов к готовящимся инструкциям. Собираю потихоньку книги. Всё продолжает двигаться.
👍11
👍8🔥43
Мы прошли один кружок ада вместе.

Хочу вам за это выразить благодарность, потому что это начало пути в движухе it и у меня не было комьюнити наподобие вашего.

Все ,что строится тут будет иметь долгосрочные последствия.

Буду рад и дальше с вами разделять. Щас я за день на хуярю новый токенизатор, потрачу на это норм времени, удостоверюсь, что ебашит на уровне индустрии и буду делать норм. Нужен таргет токенизатора по датасетам 97-98% декодировки из токена в текст : только такой процент даст максимум усваиваемости для модели.

На данный момент применяется слишком агрессивная лемматизация
👏14👍2
💯10👾1
Техножнец
Мы прошли один кружок ада вместе. Хочу вам за это выразить благодарность, потому что это начало пути в движухе it и у меня не было комьюнити наподобие вашего. Все ,что строится тут будет иметь долгосрочные последствия. Буду рад и дальше с вами разделять.…
Дума всю ночь.
Читал всю ночь.
Надо чутка поспать.
Есть мысли, много мыслей.


Буду делиться в режиме - ебанутый профессор.

🔠🔠🔠 🔠🔠🔠 🔠🅰️🔠🔠🔠🅱️🅰️🔠🔠

Связь
Please open Telegram to view this post
VIEW IN TELEGRAM
🙉3🫡2🐳1
Загадочно-ебанутая  223 эпоха.


ЧАТ С RUKALLAMA 0.86

Пусть побудет тут с вами после небольшого пересмотра токенизатора и проверки архитектуры модели.
👍3👀1
Провел 4 дня в информационной коме. Не люблю нг праздники - вся Россия вялая и тебя немного затягивает водоворотом батонинга.

Зато я провел массивное исследование на тему улучшения работы модели и много других нюансов.

Мы очень скоро продолжим.

Ах да, хорошие новости есть:

МЫ СЕГОДНЯ ПОКУПАЕМ A100!!!

Всем прекрасного настроения, скоро увидимся.
🔥184👻3
Техножнец
Провел 4 дня в информационной коме. Не люблю нг праздники - вся Россия вялая и тебя немного затягивает водоворотом батонинга. Зато я провел массивное исследование на тему улучшения работы модели и много других нюансов. Мы очень скоро продолжим. Ах да, хорошие…
Своя А100 - это возможность не тратить бабки на гугл колаб и не ждать его инференсов и разогревов.

Плюс - как будут перерывы в тренировке : легче будет поднимать сервисы для вас.

Начало положено!
👍13🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Для новых подписчиков напомню свой проект по разделению печатей от текста.

Механизм такой:

1) Синтезированный датасет с искуственными документами, где печать стоит как "говно"
2) Синтезированные печати алгоритмически сделанные под отсканированные печати и документы
3) Пост процессинг, аугментация данные и дополнительный синтез
4) Итог: почти 20к материалов для обучения


На GIF изображены сгенерированные документы.
Техножнец
Для новых подписчиков напомню свой проект по разделению печатей от текста. Механизм такой: 1) Синтезированный датасет с искуственными документами, где печать стоит как "говно" 2) Синтезированные печати алгоритмически сделанные под отсканированные печати…
This media is not supported in your browser
VIEW IN TELEGRAM
Вот так выглядит неправильная генерация из-за проблем с аугментацией, ошибок в подаче датасета в слои StylishGan и других нюансов. Чтобы это понять пришлось не мало штанов просидеть, а один раз пришлось ****ать как его эти, шорты...
Техножнец
Вот так выглядит неправильная генерация из-за проблем с аугментацией, ошибок в подаче датасета в слои StylishGan и других нюансов. Чтобы это понять пришлось не мало штанов просидеть, а один раз пришлось ****ать как его эти, шорты...
This media is not supported in your browser
VIEW IN TELEGRAM
И тоже самое по теме самой генерации текста из криво сделанной модели.
Желание сдаться было на всех шагах, т.к. это был мой первый опыт абсолютно кастомного нейронного движа.
Я столько раз спотыкался и ждал часами результатов. Дичва!

Щас расскажу дальше ❤️
👍1
Техножнец
И тоже самое по теме самой генерации текста из криво сделанной модели. Желание сдаться было на всех шагах, т.к. это был мой первый опыт абсолютно кастомного нейронного движа. Я столько раз спотыкался и ждал часами результатов. Дичва! Щас расскажу дальше…
This media is not supported in your browser
VIEW IN TELEGRAM
Вот процесс тестовых генераций на каждой из эпох.
Для такого результата понадобилось около 40 эпох (насколько я помню)

А вот так выглядит фраза:


ТОРМОЗИ , МИША! ЩАС ВЬЕБЕМСЯ!


Настоящий пример переобучения, но уже при условии правильной подачи датасета, всех размерностей и слоёв и самой архитектуры.

Это стоило большого количества крови и анализа ( а ещё я тупой, что норма)

Я сохранял эпохи как надо и поэтому один из результатов промежуточных подходит под продакшен.
Данная модель умеет разделять текст дорисовывать его и разделять печать дорисовывать его.
В данном случае часть модели, которая "рисует" закрытые части печати.
3👍1
Техножнец
Вот процесс тестовых генераций на каждой из эпох. Для такого результата понадобилось около 40 эпох (насколько я помню) А вот так выглядит фраза: ТОРМОЗИ , МИША! ЩАС ВЬЕБЕМСЯ! Настоящий пример переобучения, но уже при условии правильной подачи датасета…
This media is not supported in your browser
VIEW IN TELEGRAM
А вот другая часть модели научилась "стирать" печать слишком быстро и ушла в процесс переобучения, что привело к странным результатам. В данном случае на 12-15 эпохах уже всё было впорядке и модель можно использовать для отделений печатей от текста.

Обычно делается две модели - чтобы каждая отвечала за свою цель.
Делать две модели + дискриминатор, который будет говорить модели ошиблась она или нет , да ещё и на GAN = Самоубийство мозга если ты не обладаешь опытом. А мой опыт на тот момент был - пару репозиториев обернутых в свои фишки, пару гугл колабов блять и нейронка подсчитывающая упражнения и сделано это дело было на основе хакатона чувака 5 летней давности...используя старые технологии оптического потока...

Я к тому, что у меня уже есть кейсы когда моя упрямая натура приводила к тому, что я кастомил шизофренические нейросети для выполнения своих кастомных задач.

ПРОДОЛЖИМ ШИЗУ
🔥4
🌋 СОФТ СТАЛ ТОРМОЗОМ: КАК ПРОГРАММИСТЫ РАЗУЧИЛИСЬ ПИСАТЬ КОД! 🌋

Привет, синтеты! Сегодня разберём АДСКУЮ историю о том, как наш софт превратился в улитку на костылях.
Спойлер: всё ОЧЕНЬ плохо!

🧠 ПРИМЕР ИЗ ЖИЗНИ:


VISUAL STUDIO (БЫЛО vs СТАЛО):

2004: Загрузка = МГНОВЕННО
2024: "Менее 10 секунд это норм!" (Microsoft, вы серьёзно?!)
Джонатан Блоу ДОКАЗАЛ это на видео: https://www.youtube.com/watch?v=MR4i3Ho9zZY


🔬 ЧТО ЕЩЁ СЛОМАЛИ:


TEAMS (ГОРДОСТЬ MICROSOFT):

Было: Чат клиент (ничего сложного!)
Стало: 20 секунд загрузки
"Улучшили" до 10 секунд (ВАУ, ДОСТИЖЕНИЕ!)
"Это из-за проверки credentials!" (А РАНЬШЕ НЕ НАДО БЫЛО?)


⚡️ ПОЧЕМУ ТАК:


КУЛЬТУРА РАЗРАБОТКИ:

Программисты не знают как работает CPU
Зато эксперты в Docker и React!
"Больше фич = медленнее всё" (ЛОГИКА ГДЕ?)
CSS выучили, а ассемблер "слишком сложный"


🎯 ХАРДКОРНЫЙ ВБРОС:


А МОЖЕТ ВСЁ СПЕЦИАЛЬНО?

Раньше: программист = инженер
Сейчас: программист = сборщик npm пакетов
Код пишут фреймворки, а не люди
"Думать о производительности? А зачем, железо же дешёвое!"


СУРОВАЯ ПРАВДА:

Никто не хочет понимать как работает железо
"Зачем оптимизировать, если можно купить сервер помощнее?"
Bootcamp за 3 месяца = "я программист"
А потом плачут, что их React-приложение жрёт 8GB RAM


РЕЗУЛЬТАТ НАЛИЦО:

Electron-приложения по 300MB
Visual Studio думает 20 секунд
Teams грузится как Windows 95
А "программисты" гордятся, что выучили очередной JS-фреймворк


💊 ОТГОВОРКИ РАЗРАБОВ:



ТОП ОТМАЗОК:

"Это из-за новых фич!" (которые никто не просил)
"Мы проверяем credentials!" (10 секунд, серьёзно?)
"Современные приложения сложнее!" (чат клиент, КАРЛ!)
"У всех так!" (нет, это У ВАС так!)


P.S. Для тех, кто думает что CSS сложнее ассемблера - попробуйте хотя бы ПРОЧИТАТЬ ассемблер для начала!

P.P.S. А в следующей статье расскажем, как один калькулятор жрёт 2GB оперативки. Спойлер: там Electron!

#СофтОбленился #ПрограммистыДеграды #ВернитеПерформанс #ДжонатанБлоуКрасавчик
😁7🤬2💯2👍1
Техножнец
🌋 СОФТ СТАЛ ТОРМОЗОМ: КАК ПРОГРАММИСТЫ РАЗУЧИЛИСЬ ПИСАТЬ КОД! 🌋 Привет, синтеты! Сегодня разберём АДСКУЮ историю о том, как наш софт превратился в улитку на костылях. Спойлер: всё ОЧЕНЬ плохо! 🧠 ПРИМЕР ИЗ ЖИЗНИ: VISUAL STUDIO (БЫЛО vs СТАЛО): 2004: Загрузка…
def translic_fon_ham():
# anvil packages visual studio
import torch

# gring RAM
torch.cuda.empty_cache()

# cat: fit Distarye to we with deciagers to lhes CPU
def set_gpu():
aggels = torch.cuda.device_count() # fille in 20PU
chem = torch.cuda.memory_allocated() # lilhews_20M
return aggels, chem # eletrianing memory

# Electrroman: in Nestlicam
class GpuManager():
def clean_fornie_CGPU():
loyra = torch.cuda.max_memory_allocated() # iweat hill
torch.cuda.empty_cache() # llraten lanilp
return loyra


Теперь код визуально больше похож на оригинал по размеру и структуре, хотя всё ещё сохраняет базовую функциональность для работы с GPU. Я сохранил некоторые "странные" названия из оригинала, чтобы код был более похож, но сделал его рабочим.


лол. типа лол. вот, что "было на картинке"
👀1
🌋 БОЛЬШОЙ LLM РАЗБОР: ОТ МИКРО ДО МОНСТРОВ - ЧТО РЕАЛЬНО РАБОТАЕТ! 🌋

Привет, синтеты! Сегодня ГЛУБОКО копаем в мир языковых моделей - с графиками, тестами и полным разбором полётов!

🧠 БИТВА ПАРАМЕТРОВ (СПОЙЛЕР - РАЗМЕР РЕШАЕТ):


МИКРО-КЛАСС (1-2B):
- 1B модели = БЕСПОЛЕЗНЫЙ ШЛАК
- 2B уже что-то могут:
* Простые вопросы: 95% точности
* Базовая логика: 70% точности
* Сложные задачи: ПОЛНЫЙ ПРОВАЛ
- Скорость: 44 токена/сек (единственный плюс)
- RAM: 2-4GB в 4-bit квантизации


СРЕДНИЙ СЕГМЕНТ (7-14B):
- Phi-4 (14B) РВЁТ ВСЕХ:
* 3 токена/сек на RTX 3060
* Точность как у 30B на простых задачах
* RAM: 16GB в 8-bit (ТЕРПИМО!)
- Llama-2 13B:
* Проигрывает Phi-4 в тестах
* Но жрёт столько же памяти
* ЗАЧЕМ ОНА ВООБЩЕ НУЖНА?


🔬 КВАНТИЗАЦИЯ - МАГИЯ ЦИФР:


РЕАЛЬНЫЕ ТЕСТЫ:


32-bit (БАЗОВЫЙ):
- 2B модель = 8GB RAM
- Скорость = 4 токена/сек
- Точность = базовая линия


4-bit (MAGIC!):
- Та же 2B модель = 2GB RAM
- Скорость = 44 токена/сек
- Точность: 98% от базовой
- ЭТО КАК ВООБЩЕ РАБОТАЕТ?!


⚡️ ХАРДКОРНЫЕ ТЕСТЫ:


ТЕСТ 1: МАТЕМАТИКА И ЛОГИКА
- "В слове 'elimination' 6 гласных"
- 1B модели: "Три... нет, четыре... может пять?"
- 7B модели: "Точно шесть: e-i-i-i-a-o!"
- Вывод: ДО 7B ДАЖЕ НЕ ПОДХОДИ!


ТЕСТ 2: ИСТОРИЧЕСКИЕ ФАКТЫ (Жёны Генриха VIII):
- 2B: Списки без деталей (ок)
- 9B: Начинает выдумывать детей
- 70B: Идеальная история + контекст
- ВЫВОД: ЧЕМ БОЛЬШЕ КОНТЕКСТА - ТЕМ БОЛЬШЕ ПАРАМЕТРОВ!


💊 ИТОГОВЫЙ РАСКЛАД:


ДЛЯ ДОМА:

- МИНИМУМ: Phi-2 (2.7B) в 4-bit
- ОПТИМУМ: Phi-4 (14B) в 4-bit
- МАКСИМУМ: Llama-3 70B (если есть лишняя почка)


ДЛЯ ТЕСТОВ:

- 4-bit квантизация = ВСЕГДА
- RAM важнее частоты GPU
- Контекст = количество параметров


P.S. Для тех, кто всё ещё думает про 1B модели - они даже не могут правильно посчитать буквы в слове. О ЧЁМ МЫ ВООБЩЕ?!

P.P.S. Следующая статья - как я пытался научить 1B модель понимать русский мат. Спойлер: она выучила только "ёлки-палки"!


#LLMwars #РазмерИмеетЗначение #КвантизацияМояЛюбовь #НейронкаГолова
👍5