Pavel Zloi – Telegram
Pavel Zloi
2.18K subscribers
582 photos
49 videos
2 files
836 links
директор ИИ · инженер‑интегратор
@eprogrammist | https://github.com/EvilFreelancer

20 лет в IT
∈ 10 лет в разработке
∈ 3 года в ML/AI

Поддержать автора:
https://pay.cloudtips.ru/p/937f48ac
Download Telegram
Всем привет!

Сегодня хочу рассказать про одну небольшую нейросеть под названием SkillNER.

Это очень интересный проект направленный на извлечение из текста ключевых слов (NER) описывающих хардскилс (названия технологий), а также софтскилс (дополнительные навыки), которые упоминаются в тексте.

Пример использования с последующим составлением графа технологий можете посмотреть в данном юпитерианском блокноте.

#graph #ner #ai
3🔥1
Уже третий раз мои советы про создание Dockerfile публикуются на странице официального аккаунта #Docker в Twitter.
👍16🔥8👨‍💻1
Сегодня за завтраком прочёл статью про атаку на большие языковые модели, оказывается если попросить LLM бесконечно повторять одно и то же слово нужной тематики, то в какой-то момент она начинает выдавать базу^W сэмплы из своего датасета.

В исследовании участвовали разные языковые модели, в том числе и ChatGPT, в публикации пишут что если экстраполировать результаты их исследования, то получается, что модели дословно помнят около одного процента данных, на которых их обучали.

А среди этих данных удалось обнаружить такие замечательные вещи как хеши криптокошельков, ники в соц.сетях, почтовые ящики, куски JS кода которые составители датасета забыли вычистить, в общем очень интересная тема поднимается, рекомендую ознакомиться.

Подробнее почитать про то как проводить атаку можно тут.

#habr #llm | #arxiv 2311.17035
👍4🤯3🔥1
Всем привет! Обновил вчера репозиторий saiga-custom, добавил в него юпитерианский блокнот для тренировки ruGPT-3.5 13B на датасетах Saiga (rulm) и поправил описание.

В ближайшее время там появится ещё пару блокнотов, но о них подробнее расскажу в другой раз.

#saiga #gpt
🔥5
#яндекс #ии

Яндекс открыл доступ к YandexGPT API для пользователей.

Возможность воспользоваться технологией появилась сегодня, доступ открыт через облачную платформу в режиме превью. Кроме того, Яндекс запустил программу грантов Yandex Cloud Boost AI: технологические компании смогут получить миллион рублей на использование YandexGPT API для создания чат-ботов и умных помощников, генерации текстовой информации в бизнес-приложениях и веб-сервисах

@imaxairu Подписаться
👍3
Всем привет! Спешу порадовать вас моей очередной публикацией, на этот раз я решил рассказать подробно о том, как можно сгенерировать синтетический датасет в формате чата, который впоследствии можно использовать для обучения модели имитатора.

Публикация повествует о том как я делал небольшую модель на базе ruGPT-3.5 дообученной на датасетах Saiga для проекта имитатора исторического деятеля по имени Иван Яковлевич Яковлев, данный человек знаменит своим вкладом в развитие чувашской культуры и письменности.

Желаю приятного прочтения!

#zen #dataset #gpt
🔥15
Всем привет! На этой неделе пощупал несколько моделей ИИ и хочу поделиться впечатлениями.

Jetbrains AI Assistant - это любопытное решение, которое позволяет интегрировать ИИ в любую IDE за авторством коллектива Jetbrains. Как я понял из описания их решения это (пока что?) очередная обёртка вокруг ChatGPT, стоит всего 100 баксов в год (что к слову на 20 баксов в год дешевле чем ChatGPT). По ощущениям это простенький RAG вокруг кодовой базы текущего проекта, умеет решать как простые задачки (уровня Copilot), так и более сложные, скажем просишь систему написать интеграционные тесты для всех методов нужного класса просто указав пусть до него и через время система возвращает ответ.

К сожалению нет отдельного API, но можно попробовать, используя баги в ChatGPT, вытянуть системный промт и на коленке в связке с LangChain склепать аналог данного решения.

Google Bard (Gemini Pro) - Ещё одна языковая модель, уверяла меня, что не является обёрткой над ChatGPT, а основана на Gemini Pro, возможно так оно и есть. На вопросы про кодинг отвечает средне, по-русски пишет грамотно, в целом неплохая альтернатива для случаев когда надо иметь запасной вариант. Интеграции в IDE от Jetbrains пока что нет.

Ключик для работы с API через Google API Console можно получить, пример использования:
curl -s "https://generativelanguage.googleapis.com/v1beta/models/gemini-pro:generateContent?key=$API_KEY" -H 'Content-Type: application/json' -X POST -d '{"contents": [{"parts":[{"text": "A joke about a pelican"}]}]}'| jq '.candidates[0].content.parts[0].text' -r


GigaChat Pro - намедни Сбер Devices выкатил релиз обновлённой GigaChat, в описании релиза было сказано, что она стала ещё умнее, по ощущениям и истории переписок с прошлыми версиями кодить и правда стала чуточку получше, возможно это как-то связано со скорым релизом GigaCode (к которой у меня до сих пор нет доступа). На логические головоломки по прежнему отвечает средненько, есть хорошая документация для API и проект gigachaing (руссифицированный форк langchain).

YandexGPT API - гостью из будущего (Алису) выпустили в народ, так что теперь можно прикрутить данный проект к своим решениям, встроить в цепочки LangChain и например заставить общаться с GigaChain о высоких материях. Пишет сносный код уровня Copilot (в смысле с отдельными простенькими функциями справляется, всё что сложнее уже не очень). Чтобы пользоваться надо завести учётку на Yandex Cloud и добавить соответствующий сервис, по цене будет примерно в 2 раза дороже чем ChatGPT 3.5. Из любопытных моментов добавили поддержку извлечения эмбеддингов из текста, что будет очень удобно для создания русскоязычных RAG систем.

#новости
👍9
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔊 Amphion: An Open-Source Audio, Music, and Speech Generation Toolkit

Amphion - это новый инструмент с открытым исходным кодом, позволяющий создавать речь, звуки и песни.

Он разработан для поддержки исследований в области аудио, музыки и генерации речи.

С его помощью Тейлор Свифт демонстрирует свой талант, исполняя песни на китайском. 😊🎵

🖥 GitHub: https://github.com/open-mmlab/Amphion

📚 Paper: arxiv.org/abs/2312.09911

🥩 HF: https://huggingface.co/amphion

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Листал ленту и наткнулся на сообщение в котором упоминался алгоритм Лема для генерации сюжетов научно-фантастических романов. Прикладываю читабельную и красивую версии :)

Примечателен тот факт, что для того чтобы разработать данный алгоритм Станислав Лем изучил сотни научно-фантастических романов.

PS. Указанный алгоритм был впервые опубликован на форзаце книги "Фантастика и футурология" аж в начале 70х годов прошлого века.

PPS. Земля подвергается нашествию маленьких внеземных существ, которые не понимают нас и являются нерадиоактивными и не могут быть уничтожены атомной бомбой, но учёные изобретают новое оружие, которое отказывает и поэтому они устанавливают систему доброжелательной диктатуры (конец)

Это краткий пересказ сюжета первых двух из трёх книг серии Трисолярис за авторством Лю Цысиня ;)
🔥81
Всем привет! Хочу рассказать про ещё одну обученную мною модель под названием PavelGPT-7B-128K-v0.1-LoRA, на этот раз я взял скрипты Saiga (rulm) и модифицировал их таким образом, чтобы получить языковую модель типа INSTRUCT, но с данными оформленными в виде чата (для того чтобы её было легко использовать в связке с проектами типа text-generation-webui).

В качестве основы взял Yarn-Mistral-7b-128k, а датасеты собирал так, чтобы модель могла не только решать базовые задачи, но и отгадывать загадки, а ещё решать несложные математические задачки, писать небольшие тексты, составлять оглавление и создавать простые скрипты.

Вот все ссылочки, которые могут пригодиться:
- скрипт обучения модели
- отчёт обучения на wandb
- тестовые ответы модели в карточке на huggingface
- скрипт запуска модели

PS. Мне давно хотелось сделать себе чуть более умного помощника для работы с документацией которую я храню в Obsidian и пока что впечатления от использования данной модели более приятные чем от предыдущих моих экспериментов.

Надеюсь вам данная моделька тоже окажется полезной :)

#ai #saiga #gpt
🔥28👍31
Pavel Zloi
Всем привет! Хочу рассказать про ещё одну обученную мною модель под названием PavelGPT-7B-128K-v0.1-LoRA, на этот раз я взял скрипты Saiga (rulm) и модифицировал их таким образом, чтобы получить языковую модель типа INSTRUCT, но с данными оформленными в виде…
Всем привет! Под занавес года по просьбам трудящихся подготовил ещё и GGUF версию модели PavelGPT. Имеются варианты с квантизациями q2, q3, q4 и q8, по идее такой набор должен покрыть все возможные варианты (включая даже слабенькие железки).

Помимо этого обновил скрипт тренировки модели, добавил в него секции конвертации в GGUF и операции по квантизации.

PS. Сори, что пропал на неделю, причиной тому стал банальный грипп, но со вчерашнего дня я уже более-менее вернулся в норму.
🔥21👍5
Осталось совсем немного времени до нового года, поэтому хочу пожелать всем в следующем удачи, крепкого здоровья, везения и успехов как в личном так и в научном плане :)

В общем поздравляю всех с наступающим Новым 2024 годом!
🔥2012❤‍🔥5
Всем привет! У меня сейчас процесс подготовки к защите диплома, уже вот-вот защита будет, так что было не очень много свободного времени на хобби.

А тем временем меня пригласили на бета-тест сберовского GitVerse. При входе система спросила мой Sber ID, после чего предложила ввести мой ник и имя пользователя.

Внешне GitVerse отдалённо напоминает что-то среднее между Gitea и GitLab. Понравилась возможность упрощённого импорта проектов, можно например импортировать приватные репы с GitHub просто указав свой персональный токен. Система поддерживает импорт из GitHub, GitLab, Gitea и классических Git репозиториев.

Не нашёл возможность создавать группы/команды/компании, вероятно это добавят позже.

Пока что впечатления приятные, надо будет ещё немного пощупать, ну как минимум прозеркалировать все мои проекты с GitHub.

#sber #git
🔥8💩8👍2
Forwarded from Mikhail Tikhomirov
Всем привет! Некоторое время назад мы в лаборатории НИВЦ МГУ провели интересную серию экспериментов по адаптации LLM на русский язык, которые в итоге вылились в статью Impact of Tokenization on LLaMa Russian Adaptation (https://arxiv.org/abs/2312.02598), о чем я и хочу рассказать.

Большинство выходящих LLM являются либо англо(-китайско) язычными, либо мультиязычными, но все равно с упором на английский язык. При этом явно заметна разница в том, насколько хорошо работают такие модели на своем “родном” языке и на русском. Так как тема LLM очень интересная и наверняка с нами надолго, мы решили исследовать, можно ли адаптировать LLM на русский язык, а также какая все же токенизация подходит лучше для русского языка: BPE или Unigram.

Существует работа китайцев https://arxiv.org/pdf/2304.08177.pdf (а также еще некоторые похожие), в которых они расширяли исходную токенизацию новыми токенами, таким образом получив размер словаря в ~50к, а затем дообучали модель с помощью LoRa на 20 и 120 GB данных (два разных варианта). В результате полученные модели протестировали на C-Eval и получили качество чуть лучше исходных моделей.

Мы решили пойти по схожему пути, но с некоторыми отличиями. Во-первых, мы исследовали гипотезу, что Unigram токенизация лучше подходит для русского языка, чем BPE, как с точки зрения морфологии, так и с точки зрения перформанса моделей. Для этого мы обучили полностью новую токенизацию в 32тыс. токенов на русскоязычном корпусе (и BPE и Unigram). Соответственно слои эмбеддингов и lm head нужно было переинициализировать заново, что было сделано усреднением. Во-вторых, мы решили тюнить только слой эмбедингов и lm head, не трогая весь остальной трансформер, так как боялись испортить модель, ну и для экономии ресурсов.

Эксперименты проводили на LLaMa-7B, обучали на несколько переработанном rulm (https://huggingface.co/datasets/IlyaGusev/rulm) ~43GB на кластере с 16 V100. Тестировали все это дело на russian super glue, используя код из https://github.com/IlyaGusev/rulm.

И вот результаты, которые у нас получились (графики и таблички из статьи в пост не влезут, возможно, если будет интерес, распишу подробнее где-нибудь еще):

1. Качество на rsg у ruadapt моделей слегка выше, чем у исходной llama,
2. Unigram показал стабильно лучше результат, чем BPE,
3. Оценка людьми тоже показала небольшой перевес в сторону ruadapt модели.

Но один из главных результатов в другом. Имея схожее качество, как и у исходной модели, ruadapt модель на русскоязычных текстах показывает более высокую скорость работы из-за более подходящей токенизации. Генерация одного и того же по длине (в символах, не токенах!) текста становится быстрее до 60% и скорость обучения также растет, например в случае rsg до 30%.

Из некоторых моментов не включенных в статью, так как были обнаружены позднее:
1. Сходимость с lr=2e-5 показала себя лучше, чем с lr=3e-4.
2. Попытка обучить Mistral оказалась неудачной, после 0.8 эпохи обучение разошлось. Над причинами можно гадать, но есть как гипотеза в том, что на используемых версиях библиотек есть такая проблема, так и гипотеза о том, что это результат обучения в fp16 модели, которая исходно была в bf16 (а bf16 лучше работает с большими числами, если не ошибаюсь) с заморозкой почти всех весов привел такому результату.
3. ruadapt модели плохо реагировали на repetition penalty, как будто были слишком “неуверенные”.
4. Если тестировать на mmlu (а также mera) в zero-shot и few-shot, метрики на большинстве датасетов слегка ниже, чем у исходной модели, хотя и не слишком существенно.

В итоге мы обучили еще одну модель, уже на основе llama-2 7b, учили две эпохи вместо одной, а также с lr=2e-5. Данную модель (и ее инстракт версию) и выложили в репозиторий на hf. У нее, по моим экспериментам, проблема с repetition_penalty уже пропала, да и в целом она получше первых версий моделей, о которых мы писали в статье.

ruadapt llama-2: https://huggingface.co/rccmsu/ruadapt_llama2_7b_v0.1
ruadapt llama-2 saiga: https://huggingface.co/rccmsu/ruadapt_saiga2_7b_v0.1
🔥131
Всем привет! Ну чтож, закончилась моя эпопея с университетом и вторым высшим образованием. Вчера у меня была защита диплома, как и ожидалось защитился на отлично, плюс комиссия решила выдать мне диплом с отличием, то бишь красный.

А это значит, что у меня наконец появится свободное время :)
🔥36👍13❤‍🔥7👏1🍾1
Forwarded from GigaChat
Апгрейд суперспособностей в GigaChat Pro

▪️ Увеличили контекст беседы в два раза — с 4 тысяч до 8 тысяч токенов. Теперь GigaChat будет «держать в голове» вашу беседу на протяжении примерно 12 страниц А4.

▪️ Сделали апдейт датасетов по экономике, медицине и праву. Модель стала лучше отвечать на экономические, медицинские, правовые вопросы — больше экспертности и точности в сложных терминах.

▪️ Добавили экспертные и редакторские данные, прокачали функцию text2image. Обучили на опыте реальных экспертов, редакторов и художников — нейросетевая модель вновь поумнела.

Ждём запросы прямо сейчас 👇
Приятно увидеть на Хабре упоминание моего первого ВУЗа, имею ввиду МТУСИ конечно же (оригинал новости).

Расстраивает только тот факт, что автор публикации про правильное написание запросов к нейросетям генерирующим картинки не потрудился приложить ссылку на научную работу о которой идёт речь, а поскольку я человек любознательный мне захотелось почитать о чём же там речь, полез искать и нашёл ссылки на научные работы:

- Русская версия на elibrary тут
- On english here and here (английские за пейволом, так что не знаю что там в них)

Прочёл публикацию, в целом дельные рекомендацию в ней даются, больше всего позабавил момент про то что нейросети плохо считают.

PS. Сам алгоритм можно найти на 87й странице русскоязычной публикации или в первом комментарии к данному посту.
Всем привет! Сегодня я рад поделиться с вами свежим материалом, который только что появился в моем блоге на Дзен под названием Перевод на разные языки используя модель NLLB.

Данная публикация является моими пометками на полях сделанными в процессе интеграции модели No Language Left Behind (NLLB) в один небольшой проект над которым я работаю последние пару дней. По ходу пьесы накопились заметки и дабы они не ушли в стол решил оформить их в формате эдакой небольшой публикации.

Не забудьте поделиться своими мыслями и впечатлениями в комментариях под публикацией или прямо здесь, в Telegram! Ваша обратная связь вдохновляет меня на создание новых интересных материалов.

Желаю приятного прочтения!

#transformers #gpt #translation
🔥10