NEW BOT Телеграм, страница

Техножнец

Закинул! Продолжаем!

🔥4

265 views13:38

Техножнец

ЧАТ с 195 эпохой

оппа

🔥5👍1

242 viewsedited 13:56

Техножнец

🌋 RUKALLAMA ЭПОХА 200: НЕЙРОНКА ВЫХОДИТ НА НОВЫЙ УРОВЕНЬ! 🌋

ЧАТ С 200 ЭПОХОЙ

🍴

Rukallama сегодня отмечает 200 эпоху своей мультипликации. Этот процесс с каждым разом идёт Rukallama на пользу.

Параллельно тренируется её "злой" брат близнец (шутка - там просто на железе отдельно, батч чуть побольше, поэтому слегка вперёд бежит, мы ещё протестируем веса оттуда, когда убежит далеко)

🧠 ТЕКУЩИЙ СТАТУС:

LOSS ЛЕТИТ ВНИЗ:

Стартовали с 8.2 (было больно)
За 60 эпох скинули до 7.1842
Тренд на снижение (и это НОРМА!)
Структура всё лучше и лучше

🔬 ГЛАВНЫЕ УЛУЧШЕНИЯ:

НОВЫЙ ТОКЕНИЗАТОР:

Уже 60 эпох учит инструкции
Помогает ей в структуру общения
БОЛЬШЕ ШИЗОФАЗИИ!
Первые молекулы смысла в генерации пойдут из инструкций!

⚡️ ЧТО ИЗМЕНИЛОСЬ:

ЭПОХА 200:

Стабильное снижение лосса!
Буд-то начинает одуплять!
Более приятные ответы!
Ещё больше кеков!

💊 СЛЕДУЮЩИЕ ШАГИ:

ПЛАНЫ:

Продолжаем снижать лосс
Добавляем новые инструкции
Улучшаем структуру ответов
Ждём эпоху 300😊!

👊P.S. Те, кто ждал смысла в генерациях - ждите 😃

👊P.P.S. Будем щас изучать "двойника"

#RuKaLLaMA #НейроПрогресс #РусскийAI #ЗаМашинноеОбучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

265 viewsedited 23:15

Техножнец

🌋 RUKALLAMA ЭПОХА 200: НЕЙРОНКА ВЫХОДИТ НА НОВЫЙ УРОВЕНЬ! 🌋 ЧАТ С 200 ЭПОХОЙ 🍴 Rukallama сегодня отмечает 200 эпоху своей мультипликации. Этот процесс с каждым разом идёт Rukallama на пользу. Параллельно тренируется её "злой" брат близнец (шутка - там…

КОРРЕКТИРОВКА: Крен корабля!

После длительного анализа моего токенизатора я пришел к выводу.
Сделал не очень. Надо ещё раз постараться и подумать, посижу подумаю.

Будет ещё обновление токенизатора перед продолжением плана.
Пока что попытаюсь добиться LOSS: 6 и остановлю тренировку.
После этого внедрю новый токенизатор и буду смотреть на свойства модели.

ЕСЛИ ЧЕ - СТАРТАНЁМ ЗАНОВО!

Но уже совместным кластером - с помощью распределённого обучения.

Почему это нормально?

Лично для меня проблема - это то, что поможет сделать модель лучше.
Проблема - это понимание ситуации. Обычно пока я не понимаю, то это не проблема - а непонятка и муть.
Непонятки и муть позади: я точно уверен, что надо обновлять токенизатор.

Лол, снова придется переписывать домовую книгу токенов.
Сделаю гибкий словарь, чтобы он пополнялся автоматически.

P.S. Параллельно создал около 800 вопросов к готовящимся инструкциям. Собираю потихоньку книги. Всё продолжает двигаться.

👍11

262 views03:04

Техножнец

👍8🔥4❤3

252 views15:43

Техножнец

Мы прошли один кружок ада вместе.

Хочу вам за это выразить благодарность, потому что это начало пути в движухе it и у меня не было комьюнити наподобие вашего.

Все ,что строится тут будет иметь долгосрочные последствия.

Буду рад и дальше с вами разделять. Щас я за день на хуярю новый токенизатор, потрачу на это норм времени, удостоверюсь, что ебашит на уровне индустрии и буду делать норм. Нужен таргет токенизатора по датасетам 97-98% декодировки из токена в текст : только такой процент даст максимум усваиваемости для модели.

На данный момент применяется слишком агрессивная лемматизация

👏14👍2

286 viewsedited 23:20

Техножнец

💯10👾1

332 views23:54

Техножнец

Следует отметить, что есть люди, которым не стрёмно заделиться.

https://www.youtube.com/watch?v=l8pRSuU81PU&t=1218s&ab_channel=AndrejKarpathy

Андрюхе - юважениум.
Видос достаточно старый, но хороший!

YouTube

Let's reproduce GPT-2 (124M)

We reproduce the GPT-2 (124M) from scratch. This video covers the whole process: First we build the GPT-2 network, then we optimize its training to be really fast, then we set up the training run following the GPT-2 and GPT-3 paper and their hyperparameters…

406 views03:55

Техножнец

Дума всю ночь.
Читал всю ночь.
Надо чутка поспать.
Есть мысли, много мыслей.

Буду делиться в режиме - ебанутый профессор.

🔠

🅰️

🔠

🅱️

🅰️

🔠

Связь

Please open Telegram to view this post

VIEW IN TELEGRAM

🙉3🫡2🐳1

409 views07:00

Техножнец

Загадочно-ебанутая  223 эпоха.

ЧАТ С RUKALLAMA 0.86

Пусть побудет тут с вами после небольшого пересмотра токенизатора и проверки архитектуры модели.

👍3👀1

423 views15:00

Техножнец

Загадочно-ебанутая 223 эпоха. ЧАТ С RUKALLAMA 0.86 Пусть побудет тут с вами после небольшого пересмотра токенизатора и проверки архитектуры модели.

🤝8😁7🤯3👀2

429 views15:24

Техножнец

Провел 4 дня в информационной коме. Не люблю нг праздники - вся Россия вялая и тебя немного затягивает водоворотом батонинга.

Зато я провел массивное исследование на тему улучшения работы модели и много других нюансов.

Мы очень скоро продолжим.

Ах да, хорошие новости есть:

МЫ СЕГОДНЯ ПОКУПАЕМ A100!!!

Всем прекрасного настроения, скоро увидимся.

🔥18❤4👻3

442 views14:56

Техножнец

Провел 4 дня в информационной коме. Не люблю нг праздники - вся Россия вялая и тебя немного затягивает водоворотом батонинга. Зато я провел массивное исследование на тему улучшения работы модели и много других нюансов. Мы очень скоро продолжим. Ах да, хорошие…

Своя А100 - это возможность не тратить бабки на гугл колаб и не ждать его инференсов и разогревов.

Плюс - как будут перерывы в тренировке : легче будет поднимать сервисы для вас.

Начало положено!

👍13🔥6

330 views14:57

Техножнец

This media is not supported in your browser

VIEW IN TELEGRAM

Для новых подписчиков напомню свой проект по разделению печатей от текста.

Механизм такой:

1) Синтезированный датасет с искуственными документами, где печать стоит как "говно"
2) Синтезированные печати алгоритмически сделанные под отсканированные печати и документы
3) Пост процессинг, аугментация данные и дополнительный синтез
4) Итог: почти 20к материалов для обучения

На GIF изображены сгенерированные документы.

291 viewsedited 15:25

Техножнец

Для новых подписчиков напомню свой проект по разделению печатей от текста. Механизм такой: 1) Синтезированный датасет с искуственными документами, где печать стоит как "говно" 2) Синтезированные печати алгоритмически сделанные под отсканированные печати…

This media is not supported in your browser

VIEW IN TELEGRAM

Вот так выглядит неправильная генерация из-за проблем с аугментацией, ошибок в подаче датасета в слои StylishGan и других нюансов. Чтобы это понять пришлось не мало штанов просидеть, а один раз пришлось ****ать как его эти, шорты...

262 viewsedited 15:27

Техножнец

This media is not supported in your browser

VIEW IN TELEGRAM

И тоже самое по теме самой генерации текста из криво сделанной модели.
Желание сдаться было на всех шагах, т.к. это был мой первый опыт абсолютно кастомного нейронного движа.
Я столько раз спотыкался и ждал часами результатов. Дичва!

Щас расскажу дальше ❤️

👍1

271 viewsedited 15:28

Техножнец

И тоже самое по теме самой генерации текста из криво сделанной модели. Желание сдаться было на всех шагах, т.к. это был мой первый опыт абсолютно кастомного нейронного движа. Я столько раз спотыкался и ждал часами результатов. Дичва! Щас расскажу дальше…

This media is not supported in your browser

VIEW IN TELEGRAM

Вот процесс тестовых генераций на каждой из эпох.
Для такого результата понадобилось около 40 эпох (насколько я помню)

А вот так выглядит фраза:

ТОРМОЗИ , МИША! ЩАС ВЬЕБЕМСЯ!

Настоящий пример переобучения, но уже при условии правильной подачи датасета, всех размерностей и слоёв и самой архитектуры.

Это стоило большого количества крови и анализа ( а ещё я тупой, что норма)

Я сохранял эпохи как надо и поэтому один из результатов промежуточных подходит под продакшен.
Данная модель умеет разделять текст дорисовывать его и разделять печать дорисовывать его.
В данном случае часть модели, которая "рисует" закрытые части печати.

✍3👍1

258 viewsedited 15:30

Техножнец

Вот процесс тестовых генераций на каждой из эпох. Для такого результата понадобилось около 40 эпох (насколько я помню) А вот так выглядит фраза: ТОРМОЗИ , МИША! ЩАС ВЬЕБЕМСЯ! Настоящий пример переобучения, но уже при условии правильной подачи датасета…

This media is not supported in your browser

VIEW IN TELEGRAM

А вот другая часть модели научилась "стирать" печать слишком быстро и ушла в процесс переобучения, что привело к странным результатам. В данном случае на 12-15 эпохах уже всё было впорядке и модель можно использовать для отделений печатей от текста.

Обычно делается две модели - чтобы каждая отвечала за свою цель.
Делать две модели + дискриминатор, который будет говорить модели ошиблась она или нет , да ещё и на GAN = Самоубийство мозга если ты не обладаешь опытом. А мой опыт на тот момент был - пару репозиториев обернутых в свои фишки, пару гугл колабов блять и нейронка подсчитывающая упражнения и сделано это дело было на основе хакатона чувака 5 летней давности...используя старые технологии оптического потока...

Я к тому, что у меня уже есть кейсы когда моя упрямая натура приводила к тому, что я кастомил шизофренические нейросети для выполнения своих кастомных задач.

ПРОДОЛЖИМ ШИЗУ

🔥4

241 viewsedited 15:34

Техножнец

🌋 СОФТ СТАЛ ТОРМОЗОМ: КАК ПРОГРАММИСТЫ РАЗУЧИЛИСЬ ПИСАТЬ КОД! 🌋

Привет, синтеты! Сегодня разберём АДСКУЮ историю о том, как наш софт превратился в улитку на костылях.
Спойлер: всё ОЧЕНЬ плохо!

🧠 ПРИМЕР ИЗ ЖИЗНИ:

VISUAL STUDIO (БЫЛО vs СТАЛО):

2004: Загрузка = МГНОВЕННО
2024: "Менее 10 секунд это норм!" (Microsoft, вы серьёзно?!)
Джонатан Блоу ДОКАЗАЛ это на видео: https://www.youtube.com/watch?v=MR4i3Ho9zZY

🔬 ЧТО ЕЩЁ СЛОМАЛИ:

TEAMS (ГОРДОСТЬ MICROSOFT):

Было: Чат клиент (ничего сложного!)
Стало: 20 секунд загрузки
"Улучшили" до 10 секунд (ВАУ, ДОСТИЖЕНИЕ!)
"Это из-за проверки credentials!" (А РАНЬШЕ НЕ НАДО БЫЛО?)

⚡️ ПОЧЕМУ ТАК:

КУЛЬТУРА РАЗРАБОТКИ:

Программисты не знают как работает CPU
Зато эксперты в Docker и React!
"Больше фич = медленнее всё" (ЛОГИКА ГДЕ?)
CSS выучили, а ассемблер "слишком сложный"

🎯 ХАРДКОРНЫЙ ВБРОС:

А МОЖЕТ ВСЁ СПЕЦИАЛЬНО?

Раньше: программист = инженер
Сейчас: программист = сборщик npm пакетов
Код пишут фреймворки, а не люди
"Думать о производительности? А зачем, железо же дешёвое!"

СУРОВАЯ ПРАВДА:

Никто не хочет понимать как работает железо
"Зачем оптимизировать, если можно купить сервер помощнее?"
Bootcamp за 3 месяца = "я программист"
А потом плачут, что их React-приложение жрёт 8GB RAM

РЕЗУЛЬТАТ НАЛИЦО:

Electron-приложения по 300MB
Visual Studio думает 20 секунд
Teams грузится как Windows 95
А "программисты" гордятся, что выучили очередной JS-фреймворк

💊 ОТГОВОРКИ РАЗРАБОВ:

ТОП ОТМАЗОК:

"Это из-за новых фич!" (которые никто не просил)
"Мы проверяем credentials!" (10 секунд, серьёзно?)
"Современные приложения сложнее!" (чат клиент, КАРЛ!)
"У всех так!" (нет, это У ВАС так!)

P.S. Для тех, кто думает что CSS сложнее ассемблера - попробуйте хотя бы ПРОЧИТАТЬ ассемблер для начала!

P.P.S. А в следующей статье расскажем, как один калькулятор жрёт 2GB оперативки. Спойлер: там Electron!

#СофтОбленился #ПрограммистыДеграды #ВернитеПерформанс #ДжонатанБлоуКрасавчик

😁7🤬2💯2👍1

269 views16:13

Техножнец

🌋 СОФТ СТАЛ ТОРМОЗОМ: КАК ПРОГРАММИСТЫ РАЗУЧИЛИСЬ ПИСАТЬ КОД! 🌋 Привет, синтеты! Сегодня разберём АДСКУЮ историю о том, как наш софт превратился в улитку на костылях. Спойлер: всё ОЧЕНЬ плохо! 🧠 ПРИМЕР ИЗ ЖИЗНИ: VISUAL STUDIO (БЫЛО vs СТАЛО): 2004: Загрузка…

def translic_fon_ham():
    # anvil packages visual studio
    import torch

    # gring RAM
    torch.cuda.empty_cache()

    # cat: fit Distarye to we with deciagers to lhes CPU
    def set_gpu():
        aggels = torch.cuda.device_count()  # fille in 20PU
        chem = torch.cuda.memory_allocated()  # lilhews_20M
        return aggels, chem  # eletrianing memory

    # Electrroman: in Nestlicam
    class GpuManager():
        def clean_fornie_CGPU():
            loyra = torch.cuda.max_memory_allocated()  # iweat hill
            torch.cuda.empty_cache()  # llraten lanilp
            return loyra

Теперь код визуально больше похож на оригинал по размеру и структуре, хотя всё ещё сохраняет базовую функциональность для работы с GPU. Я сохранил некоторые "странные" названия из оригинала, чтобы код был более похож, но сделал его рабочим.

лол. типа лол. вот, что "было на картинке"

👀1

267 views16:31

Техножнец

🌋 БОЛЬШОЙ LLM РАЗБОР: ОТ МИКРО ДО МОНСТРОВ - ЧТО РЕАЛЬНО РАБОТАЕТ! 🌋

Привет, синтеты! Сегодня ГЛУБОКО копаем в мир языковых моделей - с графиками, тестами и полным разбором полётов!

🧠 БИТВА ПАРАМЕТРОВ (СПОЙЛЕР - РАЗМЕР РЕШАЕТ):

МИКРО-КЛАСС (1-2B):
- 1B модели = БЕСПОЛЕЗНЫЙ ШЛАК
- 2B уже что-то могут:
* Простые вопросы: 95% точности
* Базовая логика: 70% точности
* Сложные задачи: ПОЛНЫЙ ПРОВАЛ
- Скорость: 44 токена/сек (единственный плюс)
- RAM: 2-4GB в 4-bit квантизации

СРЕДНИЙ СЕГМЕНТ (7-14B):
- Phi-4 (14B) РВЁТ ВСЕХ:
* 3 токена/сек на RTX 3060
* Точность как у 30B на простых задачах
* RAM: 16GB в 8-bit (ТЕРПИМО!)
- Llama-2 13B:
* Проигрывает Phi-4 в тестах
* Но жрёт столько же памяти
* ЗАЧЕМ ОНА ВООБЩЕ НУЖНА?

🔬 КВАНТИЗАЦИЯ - МАГИЯ ЦИФР:

РЕАЛЬНЫЕ ТЕСТЫ:

32-bit (БАЗОВЫЙ):
- 2B модель = 8GB RAM
- Скорость = 4 токена/сек
- Точность = базовая линия

4-bit (MAGIC!):
- Та же 2B модель = 2GB RAM
- Скорость = 44 токена/сек
- Точность: 98% от базовой
- ЭТО КАК ВООБЩЕ РАБОТАЕТ?!

⚡️ ХАРДКОРНЫЕ ТЕСТЫ:

ТЕСТ 1: МАТЕМАТИКА И ЛОГИКА
- "В слове 'elimination' 6 гласных"
- 1B модели: "Три... нет, четыре... может пять?"
- 7B модели: "Точно шесть: e-i-i-i-a-o!"
- Вывод: ДО 7B ДАЖЕ НЕ ПОДХОДИ!

ТЕСТ 2: ИСТОРИЧЕСКИЕ ФАКТЫ (Жёны Генриха VIII):
- 2B: Списки без деталей (ок)
- 9B: Начинает выдумывать детей
- 70B: Идеальная история + контекст
- ВЫВОД: ЧЕМ БОЛЬШЕ КОНТЕКСТА - ТЕМ БОЛЬШЕ ПАРАМЕТРОВ!

💊 ИТОГОВЫЙ РАСКЛАД:

ДЛЯ ДОМА:

- МИНИМУМ: Phi-2 (2.7B) в 4-bit
- ОПТИМУМ: Phi-4 (14B) в 4-bit
- МАКСИМУМ: Llama-3 70B (если есть лишняя почка)

ДЛЯ ТЕСТОВ:

- 4-bit квантизация = ВСЕГДА
- RAM важнее частоты GPU
- Контекст = количество параметров

P.S. Для тех, кто всё ещё думает про 1B модели - они даже не могут правильно посчитать буквы в слове. О ЧЁМ МЫ ВООБЩЕ?!

P.P.S. Следующая статья - как я пытался научить 1B модель понимать русский мат. Спойлер: она выучила только "ёлки-палки"!

#LLMwars #РазмерИмеетЗначение #КвантизацияМояЛюбовь #НейронкаГолова

👍5

277 views23:15

About

Blog

Apps

Platform