Техножнец: Краткий Обзор для Тех, Кому Лень Читать
Кто: Павел, 37 лет, музыкант, ставший IT-шником.
Что: Канал про AI, технологии, нейронки, программирование.
Как: Честно, без хайпа, с матом и юмором.
Для кого: Для тех, кто интересуется AI, но не хочет читать скучные статьи.
Короче: Техножнец делает крутые штуки с нейронками, делится результатами и не боится говорить правду.
Кто: Павел, 37 лет, музыкант, ставший IT-шником.
Что: Канал про AI, технологии, нейронки, программирование.
Как: Честно, без хайпа, с матом и юмором.
Главный проект: RuKaLLaMA - русская языковая модель на советских текстах.
Цель: Создать мощную и независимую LLM, обученную на качественных данных.
Проекты:
"Исследования в 1 клик" - быстрый анализ любых тем.
"Fyzcoin" - майнинг крипты за упражнения.
"Настя" - AI-помощник для @dailyneuro.
AI OVERLAY - программа для чатинга с LLM (нашего спеца проект).
Генератор таблиц.
Модель для удаления штампов с документов.
Распознавание упражнений.
Распознавание таблиц.
Переводчик для стримов.
Автоматический суммаризатор.
Фишки:
Тестирование новых технологий (Qwen, Gemini, SORA, KREA, etc.).
Обзоры ИИ-новостей и инструментов.
Критика хайпа и "еблоторговли".
Много экспериментов и исследований.
Свои разработки и проекты.
Юмор, мат, авторский стиль.
Для кого: Для тех, кто интересуется AI, но не хочет читать скучные статьи.
Короче: Техножнец делает крутые штуки с нейронками, делится результатами и не боится говорить правду.
Подписывайся, если:
Тебе интересен AI.
Ты устал от скучных обзоров.
Хочешь быть в курсе последних разработок.
Любишь честный и неформальный подход.
Не подписывайся, если:
Ты не любишь мат.
Тебе нужна только сухая информация.
Ты не готов к экспериментам.
Ты работаешь в OpenAI.
Короче, Техножнец - это про AI без купюр и с огоньком!
👍12🔥4👀1
Техножнец: УЛЬТРА КРАТКО!
Кто: Павел, 37 лет, музыкант, ставший IT-шником.
Что: Канал про AI, технологии, нейронки, программирование.
Как: Честно, без хайпа, с матом и юмором.
Кто: Павел, 37 лет, музыкант, ставший IT-шником.
Что: Канал про AI, технологии, нейронки, программирование.
Как: Честно, без хайпа, с матом и юмором.
Главный проект: RuKaLLaMA - русская языковая модель (аналог ChatGPT) на советских текстах.
Цель: Создать мощную и независимую LLM, обученную на качественных данных.
👍12👀1
Касаемо нашей любимой нейросетки RUKALLAMA!
Помните? Я просил вас накинуть данных для обучения.
Мы скачали, в 4 смычка это делали....ну ...там гб 400 получилось.
Я буду держать вас в курсах насчет разработки.
Ничего не стоит на месте - всё очень стремительно развивается!
Как только приступим к тренировке модели с нуля на 1млрд параметров, но уже с учетом косяков и исправлений, тогда и сразу же вам сообщу обо всех деталях происходящего с RUKALLAMA!
Помните? Я просил вас накинуть данных для обучения.
Мы скачали, в 4 смычка это делали....ну ...там гб 400 получилось.
Теперь мне надо будет сделать вот что: (во первых перевести pdf в текст, далее починить нейронкой поврежденные текста)
1) Перевести каждый учебник и книгу в размеченную инструкцию. (не одну)
2) Отдельно перевести учебники русского языка в обширные инструкции чтобы модель одупляла почти всё.
3) Подвергнуть анализу корпус языка "НКРЯ" и выбрать оттуда наилучшие тексты для работы.
4) Всё сверять с бумагами от DEEPSEEK V3 , R1 и прочих других.
Я буду держать вас в курсах насчет разработки.
Ничего не стоит на месте - всё очень стремительно развивается!
Как только приступим к тренировке модели с нуля на 1млрд параметров, но уже с учетом косяков и исправлений, тогда и сразу же вам сообщу обо всех деталях происходящего с RUKALLAMA!
👍22❤4👀1
🌋 НЕДЕЛЯ AI-БЕЗУМИЯ: КИТАЙЦЫ, NETFLIX И DEEPSEEK ВЗРЫВАЮТ МОЗГ! 🌋
Привет, синтеты! Эта неделя в AI просто СНЕСЛА КРЫШУ. Десять новых нейронок, и все ОПЕНСОРС! Погнали разбирать этот ТЕХНОЛОГИЧЕСКИЙ ПЕРЕДОЗ!
P.S. Для тех, кто думал, что AI замедлился - как вам такая неделька?!
#AIбезумие #НейронкиЖгут #КитайцыВпереди #OpenSourceРулит #ПочкаПодождет
Привет, синтеты! Эта неделя в AI просто СНЕСЛА КРЫШУ. Десять новых нейронок, и все ОПЕНСОРС! Погнали разбирать этот ТЕХНОЛОГИЧЕСКИЙ ПЕРЕДОЗ!
🧠 ЧАСТЬ 1: 3D И ВИДЕО БЕЗУМИЕ
HUNYUAN 3D-2 (КИТАЙСКИЙ МОНСТР):
Генерит 3D из текста за СЕКУНДЫ
2.6B параметров (как у GPT в туалете!)
Разделяет форму и текстуру
УНИЧТОЖИЛ Microsoft в тестах
https://3d-models.hunyuan.tencent.com/
NETFLIX "GO WITH THE FLOW":
Двигаешь объекты в видео КАК ХОЧЕШЬ
Меняешь размеры НА ЛЕТУ
Warped noise магия
First frame editing = РАЗРЫВ ШАБЛОНА
https://eyeline-research.github.io/Go-with-the-Flow/
DREAM CATALYST (NERF НА СТЕРОИДАХ):
Превращает людей в кого угодно
Меняет времена года в 3D
Идеально для игр и VR
Neural Radiance Fields = МАГИЯ!
🔬 ЧАСТЬ 2: СТИРАТЕЛИ РЕАЛЬНОСТИ
DIFFUERASER (ФОТОШОП НА МАКСИМАЛКАХ):
Удаляет объекты из видео ИДЕАЛЬНО
Temporal attention (не спрашивайте как!)
Работает с несколькими объектами
https://lixiaowen-xw.github.io/DiffuEraser-page/
⚡️ ЧАСТЬ 3: AI АГЕНТЫ (ВОССТАНИЕ МАШИН)
UI-TARS (АВТОМАТИЗАТОР ИЗ АДА):
Работает с ЛЮБЫМ софтом
Автоматизирует ВСЁ
Открытый код от ByteDance
УНИЧТОЖАЕТ GPT-4 в тестах
https://github.com/bytedance/UI-TARS-desktop
OPERATOR ОТ OPENAI:
Только браузер (лол, слабаки!)
Спрашивает разрешения на ВСЁ
Нужна подписка за $20
https://openai.com/index/introducing-operator/
💊 ЧАСТЬ 4: НОВЫЕ МОНСТРЫ AI
DEEPSEEK R1:
Бьёт OpenAI O1 как ребёнка
Полностью открытый код
Reinforcement learning РУЛИТ
https://github.com/deepseek-ai/DeepSeek-R1/tree/main
KIMI K1.5:
Multimodal монстр
Тоже бьёт O1 (ТРЕНД, ОДНАКО!)
Vision + Text в одном флаконе
https://github.com/MoonshotAI/kimi-k1.5?tab=readme-ov-file
🎯 БОНУС: GOOGLE БЕЗУМИЕ
TOKEN-VERSE:
Миксует объекты из разных картинок
Переносит стили и позы
Скоро будет открытый код
Уже можно тестить!
VIDEO DEPTH ANYTHING:
Глубина в видео БЕЗ ЛИДАРА
28M параметров (КАРЛИК!)
Работает на калькуляторе
Точнее всех конкурентов
P.S. Для тех, кто думал, что AI замедлился - как вам такая неделька?!
#AIбезумие #НейронкиЖгут #КитайцыВпереди #OpenSourceРулит #ПочкаПодождет
👍5🥰2
Приветствую новых синтетов на канале.
Проходите , присаживайтесь на функцию активации.
Серёге ХТОШО - огромный привет)
Проходите , присаживайтесь на функцию активации.
Серёге ХТОШО - огромный привет)
❤31🤝15🔥7👏6🏆4👍3
Техножнец
Касаемо нашей любимой нейросетки RUKALLAMA! Помните? Я просил вас накинуть данных для обучения. Мы скачали, в 4 смычка это делали....ну ...там гб 400 получилось. Теперь мне надо будет сделать вот что: (во первых перевести pdf в текст, далее починить нейронкой…
Вот процесс по языковой модели (для новых подписчиков)
👍11
Техножнец
Photo
Вот угарные ответы от предыдущих версий модели. Можете листать выше и посмотреть текущие достижения.
👍12
Техножнец
🔥 ЖЕЛЕЗНЫЙ МОНСТР ДЛЯ RUKALLAMA: РАЗБОР ПОЛЁТОВ! Привет, синтеты! 👋 Смотрите что за зверь будет крутить нашу малышку RUKALLAMA! (ТАКИ ПРИОБРЕТЕНО) 🧠 МОНСТР-КОНФИГ: - EPYC 7F52 (16 ядер / 32 потока) - 256MB L3 кэша (для наших сплайнов самое то!) - Tesla…
Сейчас поеду за компьютером с A100 на борту. Отпишусь.
🔥23
🌋 КИТАЙСКИЙ AI ПОРВАЛ ВСЕХ: DEEPSEEK УНИЗИЛ CHATGPT, ALIBABA ВЗОРВАЛА МОЗГ! 🌋
Привет, синтеты!
Сегодня разберём, как китайцы РАСТОПТАЛИ OpenAI и показали всем, что такое НАСТОЯЩИЙ AI! Держитесь крепче!
P.S. Для скептиков: попробуйте DeepSeek сами - он реально БЕСПЛАТНЫЙ!
#КитайскийAI #DeepSeekРулит #QwenМонстр #OpenAIНервничает #БудущееУжеЗдесь
Привет, синтеты!
Сегодня разберём, как китайцы РАСТОПТАЛИ OpenAI и показали всем, что такое НАСТОЯЩИЙ AI! Держитесь крепче!
🧠 DEEPSEEK - УБИЙЦА CHATGPT:
ЧТО СЛУЧИЛОСЬ:
- Первое место в App Store США (САСАЙ, OpenAI!)
- Модель DeepSeek-R1 ПОРВАЛА o1
- Затраты: $5.58М vs МИЛЛИАРДЫ OpenAI
- И ВСЁ ЭТО БЕСПЛАТНО, КАРЛ!
ГЕОГРАФИЯ ДОМИНИРОВАНИЯ:
- США (прямо на заднем дворе OpenAI!)
- Австралия (кенгуру одобряют!)
- Канада (сорри, ChatGPT!)
- Сингапур, UK (ВЕЗДЕ!)
🔬 ALIBABA СЬЕЛА МАТЕМАТИКУ:QWEN2.5-1M - ЭТО КОСМОС:
- 1 МИЛЛИОН токенов контекста
- Две версии: 7B и 14B (выбирай яд!)
- Глотает книги как семечки
- Память как у слона на стероидах!
⚡️ ПОЧЕМУ ЭТО ВАЖНО:ПРАКТИЧЕСКИЕ ПОСЛЕДСТВИЯ:
- Читает ЦЕЛЫЕ КНИГИ за раз
- Помнит ВСЮ историю чата
- Анализирует юридические талмуды
- Понимает сложную логику КАК БОСС!
СРАВНЕНИЕ С КОНКУРЕНТАМИ:
- GPT-4: 128K токенов (ЛОЛЧТО?)
- Claude: 200K токенов (СЛАБЕНЬКО!)
- Gemini: 2M токенов (НО с амнезией...)
- Qwen: МИЛЛИОН, ДЕТКА!
💊 ЧТО ЭТО ЗНАЧИТ:ДЛЯ РЫНКА:
- США больше НЕ МОНОПОЛИСТ
- Санкции? НЕ СЛЫШАЛИ!
- Китай показал, КТО ПАПОЧКА
- OpenAI нервно курит в сторонке!
ДЛЯ НАС:
- Бесплатный доступ к топовому AI
- Больше никаких лимитов
- Конкуренция = ЛУЧШЕ КАЧЕСТВО
- БУДУЩЕЕ УЖЕ ЗДЕСЬ!
P.S. Для скептиков: попробуйте DeepSeek сами - он реально БЕСПЛАТНЫЙ!
#КитайскийAI #DeepSeekРулит #QwenМонстр #OpenAIНервничает #БудущееУжеЗдесь
👍13
Техножнец
🌋 КИТАЙСКИЙ AI ПОРВАЛ ВСЕХ: DEEPSEEK УНИЗИЛ CHATGPT, ALIBABA ВЗОРВАЛА МОЗГ! 🌋 Привет, синтеты! Сегодня разберём, как китайцы РАСТОПТАЛИ OpenAI и показали всем, что такое НАСТОЯЩИЙ AI! Держитесь крепче! 🧠 DEEPSEEK - УБИЙЦА CHATGPT: ЧТО СЛУЧИЛОСЬ: - Первое…
Влияние на рынок:
Nasdaq 100 и Stoxx 600 Tech: -$1 трлн капитализации 📉
S&P 500 фьючерсы: -1.9%
Nasdaq 100 фьючерсы: -3.2%
Обвал акций:
Nvidia: -11%
Taiwan Semiconductor: -11%
ASML: -7%
Broadcom: -12%
Micron: -6%
Причины шторма:
#AI #Биржа #DeepSeek #Alibaba #Инвестиции Этот формат выделяет ключевые моменты и делает текст более читаемым для вашей аудитории.
Nasdaq 100 и Stoxx 600 Tech: -$1 трлн капитализации 📉
S&P 500 фьючерсы: -1.9%
Nasdaq 100 фьючерсы: -3.2%
Обвал акций:
Nvidia: -11%
Taiwan Semiconductor: -11%
ASML: -7%
Broadcom: -12%
Micron: -6%
Причины шторма:
DeepSeek:
Работает на менее мощных чипах 💻
Результаты как у ChatGPT, но дешевле в 170 раз 💰
Alibaba Qwen2.5-1M:
Контекст 1 млн токенов (vs 128K у GPT-4) 🚀
Реакция экспертов:
Citi: "Покупать Nvidia (несмотря на падение)"
Аналитики: "Доминирование в AI под вопросом" ⚠️
Что дальше?
📉 Возможное снижение цен на AI-сервисы
🇨🇳 Китай демонстрирует мощь, несмотря на санкции
💼 Инвесторам: пересмотреть оценку техкомпаний
Вывод: Рынок AI остается высококонкурентным.
Американские компании все еще сильны, но китайский прорыв может изменить расклад сил. Следим за развитием! 👀
#AI #Биржа #DeepSeek #Alibaba #Инвестиции Этот формат выделяет ключевые моменты и делает текст более читаемым для вашей аудитории.
👍6
КОРОЧЕ, КАКОЙ ПЛАН:
1) Добавлено кол-во слоёв треубемое для кол-ва параметров в 1B
2) Переработан токенизатор чтобы работал адекватно с последовательностями (точность высокая)
3) Добавлю механизм длинного контекста как в новом вышедшем QWEN на 1млн токенов
4) Отчитаюсь по теме процессинга документов с помощью DEEPSEEK и расскажу каким образом можно создавать инструкции дёшево и, главное, массово.
Многие забывают, что эти модели созданы для создания более мощных синтетических датасетов из уже имеющихся книг и данных.
👍12
🌋 НЕЙРОННЫЙ ХАОС: ДАЖЕ ОДИНАКОВЫЕ НЕЙРОНЫ СХОДЯТ С УМА ПО-РАЗНОМУ! 🌋
Привет, синтеты! Сегодня разберём ПОЛНОЕ БЕЗУМИЕ из мира нейробиологии - оказывается, даже ИДЕНТИЧНЫЕ нейроны ведут себя как подростки на вечеринке. Каждый творит что хочет!
P.S. Для тех, кто думает что мозг работает как компьютер - он работает как МИЛЛИОН КВАНТОВЫХ КОМПЬЮТЕРОВ В КИСЛОТНОМ ТРИПЕ!
P.P.S. В следующей статье расскажу, как этот нейронный хаос помогает нам оставаться в здравом уме. Спойлер: или не помогает!
#НейронныйХаос #КвантоваяБиология #МозгКруче #НаукаЭтоКрасиво
Привет, синтеты! Сегодня разберём ПОЛНОЕ БЕЗУМИЕ из мира нейробиологии - оказывается, даже ИДЕНТИЧНЫЕ нейроны ведут себя как подростки на вечеринке. Каждый творит что хочет!
🧠 СИТУАЦИЯ НА ПАЛЬЦАХ:
СМОТРИМ В МИКРОСКОП:
Два абсолютно одинаковых нейрона
Один и тот же входной сигнал
Одинаковая структура
Казалось бы - ДОЛЖНЫ РАБОТАТЬ КАК БЛИЗНЕЦЫ!
НО РЕАЛЬНОСТЬ ОФИГЕННЕЕ:
Разные реакции на один сигнал
Хаотичное поведение
Уникальные паттерны активации
КАЖДЫЙ САМ ПО СЕБЕ!
🔬 НАУЧНАЯ КРАСОТА:
СИНАПТИЧЕСКИЙ ШУМ:
Квантовые флуктуации в синапсах
Случайное освобождение нейромедиаторов
Тепловой шум на мембранах
И ВСЁ ЭТО ВЛИЯЕТ НА РАБОТУ!
ПОСЛЕДСТВИЯ:
Нелинейная динамика
Стохастические процессы
Эмерджентное поведение
НАСТОЯЩИЙ КВАНТОВЫЙ КОМПЬЮТЕР В ГОЛОВЕ! (причем, сука, теплый)
⚡️ ПОЧЕМУ ЭТО ВАЖНО:
ДЛЯ НАУКИ:
Новое понимание работы мозга
Переосмысление нейронных сетей
Квантовая биология в действии
РЕВОЛЮЦИЯ В НЕЙРОНАУКЕ!
ДЛЯ AI:
Нужно добавлять случайность
Детерминизм = путь в никуда
Шум = источник креативности
ПРИРОДА ЗНАЕТ ЛУЧШЕ!
💊 ПРАКТИЧЕСКИЕ ВЫВОДЫ:
ДЛЯ ИССЛЕДОВАТЕЛЕЙ:
Нельзя предсказать поведение нейрона
Статистика важнее детерминизма
Хаос = норма, а не исключение
ДЛЯ AI-РАЗРАБОТЧИКОВ:
Добавляйте случайный шум
Используйте стохастические модели
Забудьте о точных предсказаниях
P.S. Для тех, кто думает что мозг работает как компьютер - он работает как МИЛЛИОН КВАНТОВЫХ КОМПЬЮТЕРОВ В КИСЛОТНОМ ТРИПЕ!
P.P.S. В следующей статье расскажу, как этот нейронный хаос помогает нам оставаться в здравом уме. Спойлер: или не помогает!
#НейронныйХаос #КвантоваяБиология #МозгКруче #НаукаЭтоКрасиво
👍10❤1
🌋 ХАКЕРЫ АТАКОВАЛИ DEEPSEEK: КИТАЙСКИЙ УБИЙЦА CHATGPT ПОД УДАРОМ! 🌋
Привет, синтеты! Помните историю про китайский DeepSeek, который нагнул ChatGPT?
Так вот, его ПЫТАЮТСЯ УБИТЬ!
P.S. Для параноиков: совпадение? Не думаю!
P.P.S. След. статья будет о том, как защитить свой AI от кибератак. Спойлер: никак!
#DeepSeek #КиберАтака #AIвойны #КитайПротивВсех
Привет, синтеты! Помните историю про китайский DeepSeek, который нагнул ChatGPT?
Так вот, его ПЫТАЮТСЯ УБИТЬ!
🧠 ЧТО СЛУЧИЛОСЬ:
АТАКА:
Масштабная кибератака на сервисы
Пришлось ограничить регистрации
Существующие юзеры могут работать
TIMING ПОДОЗРИТЕЛЬНЫЙ, НЕ НАХОДИТЕ?
🔬 КОНТЕКСТ СОБЫТИЙ:
НЕДАВНИЕ УСПЕХИ:
Обошёл ChatGPT в App Store
Модель R1 порвала конкурентов
Затраты в разы меньше OpenAI
И тут ВНЕЗАПНО атака...
⚡️ ПОСЛЕДСТВИЯ:
РЫНОК В ШОКЕ:
Обвал акций tech-компаний
Паника среди инвесторов
Вопросы о пузыре в AI
КТО-ТО ЯВНО БОИТСЯ КОНКУРЕНЦИИ!
💊 ЧТО ЭТО ЗНАЧИТ:
ФАКТЫ НА СТОЛ:
Основан в 2023 (МЛАДЕНЕЦ ЕЩЁ!)
Цель - общий AI (АМБИЦИИ!)
Бюджет меньше, результат лучше
КОМУ-ТО ЭТО ОЧЕНЬ НЕ НРАВИТСЯ...
P.S. Для параноиков: совпадение? Не думаю!
P.P.S. След. статья будет о том, как защитить свой AI от кибератак. Спойлер: никак!
#DeepSeek #КиберАтака #AIвойны #КитайПротивВсех
❤🔥8👍1
Техножнец
🌋 ХАКЕРЫ АТАКОВАЛИ DEEPSEEK: КИТАЙСКИЙ УБИЙЦА CHATGPT ПОД УДАРОМ! 🌋 Привет, синтеты! Помните историю про китайский DeepSeek, который нагнул ChatGPT? Так вот, его ПЫТАЮТСЯ УБИТЬ! 🧠 ЧТО СЛУЧИЛОСЬ: АТАКА: Масштабная кибератака на сервисы Пришлось ограничить…
А Я , БЛЯТЬ, ГОВОРИЛ В ВИДОСЕ У IMAXAI, ЧТО ЭТО ЁБАНЫЙ ПУЗЫРЬ!
ИМЕННО ОСНОВЫВАЯСЬ НА ЭТИХ УБЕЖДЕНИЯХ ПОШЁЛ ХУЯРИТЬ ЯЗЫКОВУЮ МОДЕЛЬ!
ЧТО ТЫ МНЕ СДЕЛАЕШЬ Я ИЗ ДРУГОГО ГОРОДА? ЗА МАТ ИЗВЕНИ...
ИМЕННО ОСНОВЫВАЯСЬ НА ЭТИХ УБЕЖДЕНИЯХ ПОШЁЛ ХУЯРИТЬ ЯЗЫКОВУЮ МОДЕЛЬ!
ЧТО ТЫ МНЕ СДЕЛАЕШЬ Я ИЗ ДРУГОГО ГОРОДА? ЗА МАТ ИЗВЕНИ...
😁15👍5
Техножнец
Что в итоге? SLEEPNET KAN В итоге сделал на Колмогорова-Арнольда модель зрения. Будет учиться разбирать породы собак. Есть момент, где можно оптимизироваться. # SLEEPNET KAN: Трансформер со сном SLEEPNET KAN представляет собой биоинспирированную архитектуру…
А, помните? Помните? SLEEPNET KAN
Эпохи 1-15 :
Эпоха 16 и далее :
Далее, в последующих эпохах потери остаются высокими, а точность не улучшается значительно.
Общая производительность
Начальный прогресс:
В начале обучения модель показала значительное улучшение как в потере (loss), так и в точности (accuracy). Например, после первой эпохи потери валидации составили 4.7715 с точностью 1.14%, а к пятой эпохе они уменьшились до 4.6318 с точностью 2.04%. Это указывает на то, что модель успешно обучается и адаптируется к данным.
Средний этап обучения:
Продолжилось улучшение модели, и к десятой эпохе потери валидации снизились до 4.4753 с точностью 3.64%. К двенадцатой эпохе потери валидации были минимальными — 4.4509 с точностью 4.01%.
Поздний этап обучения:
После пятнадцатой эпохи модель начала терять способность улучшаться. Потери валидации остались примерно на одном уровне (около 4.78), и точность также не изменилась существенно (около 1%). Это привело к триггеру early stopping после двадцать пятой эпохи, когда модель не улучшалась на протяжении 10 эпох.
Оценка моделей и их конфигурации
Конфигурация модели:
Размер эмбеддинга: 384
Количество слоев: 8
Количество голов внимания: 8
Размер батча: 16
Learning rate: 0.001
Память: 2000 кадров
Синхронизация памяти: 0.1
Порог прунинга: 0.05
Метрики и моменты просадок:
Эпохи 1-15 :
Наблюдается устойчивое снижение потерь обучения и валидации, а также рост точности. В конце эпохи 15 модель достигает минимального значения потерь валидации — 4.3334.
Эпоха 16 и далее :
После запуска первого цикла сна начинается резкий рост потерь обучения и валидации. Например, в эпохе 16 потери валидации выросли до 4.7848, а точность упала до 1.31%.
Далее, в последующих эпохах потери остаются высокими, а точность не улучшается значительно.
Причины просадки
Изменения в весах после сна :
Вывод в логах показывает, что среднее изменение весов после сна составляет 0.007355. Это может указывать на то, что изменения в весах оказались слишком значительными для текущего состояния модели, что привело к ухудшению её производительности.
Недостаточная адаптация модели :
Механизмы долговременной памяти и повторного воспроизведения могут не быть достаточно хорошо настроены для текущей конфигурации модели и данных. Возможно, нужно скорректировать параметры, такие как memory_sync_strength и prune_threshold.
Шум и деградация данных :
Шум, добавляемый в процессе мечтательного воспроизведения, может быть слишком большим или некорректно применяемым, что приводит к деградации качества входных данных для модели.
👍3
🌋 JANUS-PRO ОТ DEEPSEEK: МУЛЬТИМОДАЛЬНЫЙ МОНСТР, КОТОРЫЙ ДЕЛАЕТ ВСЁ! 🌋
Привет, синтеты! DeepSeek снова ЖГЁТ - выкатили Janus-Pro, который одновременно понимает и генерирует ЛЮБОЙ КОНТЕНТ. И да, он реально работает!
P.S. Для тех, кто думает что это очередной мультимодальный хайп - модель УЖЕ доступна на HuggingFace!
P.P.S. В следующей статье расскажу, как я заставил Janus рисовать мемы по голосовым командам!
#JanusPro #DeepSeek #МультимодальноеБезумие #AIдляВсех
Привет, синтеты! DeepSeek снова ЖГЁТ - выкатили Janus-Pro, который одновременно понимает и генерирует ЛЮБОЙ КОНТЕНТ. И да, он реально работает!
🧠 ЧТО ЗА ЗВЕРЬ:ГЛАВНОЕ:
7 миллиардов параметров
Один трансформер для всего
Отдельные пути для картинок
ВСЁ В ОДНОМ ФЛАКОНЕ!
🔬 КАК ЭТО РАБОТАЕТ:АРХИТЕКТУРА:
SigLIP-L для понимания картинок (384x384)
Отдельный токенизатор для генерации
Даунсэмплинг в 16 раз
ПРОСТО И ГЕНИАЛЬНО!
⚡️ ПОЧЕМУ ЭТО ВАЖНО:ПРЕИМУЩЕСТВА:
Превосходит специализированные модели
Гибкость на максималках
Простота использования
И ВСЁ ЭТО В MIT LICENSE!
💊 ЧТО ЭТО ЗНАЧИТ:ДЛЯ РАЗРАБОТЧИКОВ:
Один API для всего
Меньше головной боли
Больше возможностей
ЭКОНОМИЯ ВРЕМЕНИ И НЕРВОВ!
P.S. Для тех, кто думает что это очередной мультимодальный хайп - модель УЖЕ доступна на HuggingFace!
P.P.S. В следующей статье расскажу, как я заставил Janus рисовать мемы по голосовым командам!
#JanusPro #DeepSeek #МультимодальноеБезумие #AIдляВсех
👍11