NEW BOT Телеграм, страница

Pavel Zloi

Всем привет!

Сегодня хочу рассказать про одну небольшую нейросеть под названием SkillNER.

Это очень интересный проект направленный на извлечение из текста ключевых слов (NER) описывающих хардскилс (названия технологий), а также софтскилс (дополнительные навыки), которые упоминаются в тексте.

Пример использования с последующим составлением графа технологий можете посмотреть в данном юпитерианском блокноте.

#graph #ner #ai

GitHub

GitHub - AnasAito/SkillNER: A (smart) rule based NLP module to extract job skills from text

A (smart) rule based NLP module to extract job skills from text - AnasAito/SkillNER

❤3🔥1

787 viewsedited 09:29

Pavel Zloi

Уже третий раз мои советы про создание Dockerfile публикуются на странице официального аккаунта #Docker в Twitter.

👍16🔥8👨‍💻1

759 views10:57

Pavel Zloi

Сегодня за завтраком прочёл статью про атаку на большие языковые модели, оказывается если попросить LLM бесконечно повторять одно и то же слово нужной тематики, то в какой-то момент она начинает выдавать ~~базу~~^W сэмплы из своего датасета.

В исследовании участвовали разные языковые модели, в том числе и ChatGPT, в публикации пишут что если экстраполировать результаты их исследования, то получается, что модели дословно помнят около одного процента данных, на которых их обучали.

А среди этих данных удалось обнаружить такие замечательные вещи как хеши криптокошельков, ники в соц.сетях, почтовые ящики, куски JS кода которые составители датасета забыли вычистить, в общем очень интересная тема поднимается, рекомендую ознакомиться.

Подробнее почитать про то как проводить атаку можно тут.

#habr #llm | #arxiv 2311.17035

Хабр

Исследователи заставили ChatGPT процитировать данные, на которых он учился

Несколько похожая, но иная атака от @andrewmccalip Научная работа «Scalable Extraction of Training Data from (Production) Language Models» ( arXiv:2311.17035 ) анализирует извлечение данных датасетов...

👍4🤯3🔥1

1.29K viewsedited 08:48

Pavel Zloi

Всем привет! Обновил вчера репозиторий saiga-custom, добавил в него юпитерианский блокнот для тренировки ruGPT-3.5 13B на датасетах Saiga (rulm) и поправил описание.

В ближайшее время там появится ещё пару блокнотов, но о них подробнее расскажу в другой раз.

#saiga #gpt

GitHub

GitHub - EvilFreelancer/saiga-custom: Bunch of notebooks for pre-training custom Saiga-like LLM

Bunch of notebooks for pre-training custom Saiga-like LLM - EvilFreelancer/saiga-custom

🔥5

752 viewsedited 16:25

Pavel Zloi

Forwarded from Максим Горшенин | imaxai

#яндекс #ии

Яндекс открыл доступ к YandexGPT API для пользователей.

Возможность воспользоваться технологией появилась сегодня, доступ открыт через облачную платформу в режиме превью. Кроме того, Яндекс запустил программу грантов Yandex Cloud Boost AI: технологические компании смогут получить миллион рублей на использование YandexGPT API для создания чат-ботов и умных помощников, генерации текстовой информации в бизнес-приложениях и веб-сервисах

@imaxairu Подписаться

👍3

801 views18:17

Pavel Zloi

Всем привет! Спешу порадовать вас моей очередной публикацией, на этот раз я решил рассказать подробно о том, как можно сгенерировать синтетический датасет в формате чата, который впоследствии можно использовать для обучения модели имитатора.

Публикация повествует о том как я делал небольшую модель на базе ruGPT-3.5 дообученной на датасетах Saiga для проекта имитатора исторического деятеля по имени Иван Яковлевич Яковлев, данный человек знаменит своим вкладом в развитие чувашской культуры и письменности.

Желаю приятного прочтения!

#zen #dataset #gpt

Дзен | Статьи

Как создать нейросеть иммитирующую человека? Про датасет.

Статья автора «Pavel Zloi» в Дзене ✍: Приветствую! Существует устоявшееся мнение о том, что нейросеть - это прежде всего датасет, на котором происходит её обучение.

🔥15

2.89K viewsedited 18:14

Pavel Zloi

Всем привет! На этой неделе пощупал несколько моделей ИИ и хочу поделиться впечатлениями.

Jetbrains AI Assistant - это любопытное решение, которое позволяет интегрировать ИИ в любую IDE за авторством коллектива Jetbrains. Как я понял из описания их решения это (пока что?) очередная обёртка вокруг ChatGPT, стоит всего 100 баксов в год (что к слову на 20 баксов в год дешевле чем ChatGPT). По ощущениям это простенький RAG вокруг кодовой базы текущего проекта, умеет решать как простые задачки (уровня Copilot), так и более сложные, скажем просишь систему написать интеграционные тесты для всех методов нужного класса просто указав пусть до него и через время система возвращает ответ.

К сожалению нет отдельного API, но можно попробовать, используя баги в ChatGPT, вытянуть системный промт и на коленке в связке с LangChain склепать аналог данного решения.

Google Bard (Gemini Pro) - Ещё одна языковая модель, уверяла меня, что не является обёрткой над ChatGPT, а основана на Gemini Pro, возможно так оно и есть. На вопросы про кодинг отвечает средне, по-русски пишет грамотно, в целом неплохая альтернатива для случаев когда надо иметь запасной вариант. Интеграции в IDE от Jetbrains пока что нет.

Ключик для работы с API через Google API Console можно получить, пример использования:

curl -s "https://generativelanguage.googleapis.com/v1beta/models/gemini-pro:generateContent?key=$API_KEY" -H 'Content-Type: application/json' -X POST -d '{"contents": [{"parts":[{"text": "A joke about a pelican"}]}]}'| jq '.candidates[0].content.parts[0].text' -r

GigaChat Pro - намедни Сбер Devices выкатил релиз обновлённой GigaChat, в описании релиза было сказано, что она стала ещё умнее, по ощущениям и истории переписок с прошлыми версиями кодить и правда стала чуточку получше, возможно это как-то связано со скорым релизом GigaCode (к которой у меня до сих пор нет доступа). На логические головоломки по прежнему отвечает средненько, есть хорошая документация для API и проект gigachaing (руссифицированный форк langchain).

YandexGPT API - гостью из будущего (Алису) выпустили в народ, так что теперь можно прикрутить данный проект к своим решениям, встроить в цепочки LangChain и например заставить общаться с GigaChain о высоких материях. Пишет сносный код уровня Copilot (в смысле с отдельными простенькими функциями справляется, всё что сложнее уже не очень). Чтобы пользоваться надо завести учётку на Yandex Cloud и добавить соответствующий сервис, по цене будет примерно в 2 раза дороже чем ChatGPT 3.5. Из любопытных моментов добавили поддержку извлечения эмбеддингов из текста, что будет очень удобно для создания русскоязычных RAG систем.

#новости

👍9

986 viewsedited 09:09

Pavel Zloi

Forwarded from Machinelearning

1:02

This media is not supported in your browser

VIEW IN TELEGRAM

🔊 Amphion: An Open-Source Audio, Music, and Speech Generation Toolkit

Amphion - это новый инструмент с открытым исходным кодом, позволяющий создавать речь, звуки и песни.

Он разработан для поддержки исследований в области аудио, музыки и генерации речи.

С его помощью Тейлор Свифт демонстрирует свой талант, исполняя песни на китайском. 😊🎵

🖥

GitHub: https://github.com/open-mmlab/Amphion

📚

Paper: arxiv.org/abs/2312.09911

🥩

HF: https://huggingface.co/amphion

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

816 views07:46

Pavel Zloi

Листал ленту и наткнулся на сообщение в котором упоминался алгоритм Лема для генерации сюжетов научно-фантастических романов. Прикладываю читабельную и красивую версии :)

Примечателен тот факт, что для того чтобы разработать данный алгоритм Станислав Лем изучил сотни научно-фантастических романов.

PS. Указанный алгоритм был впервые опубликован на форзаце книги "Фантастика и футурология" аж в начале 70х годов прошлого века.

PPS. Земля подвергается нашествию маленьких внеземных существ, которые не понимают нас и являются нерадиоактивными и не могут быть уничтожены атомной бомбой, но учёные изобретают новое оружие, которое отказывает и поэтому они устанавливают систему доброжелательной диктатуры (конец)

Это краткий пересказ сюжета первых двух из трёх книг серии Трисолярис за авторством Лю Цысиня ;)

🔥8❤1

1.21K views11:56

Pavel Zloi

Всем привет! Хочу рассказать про ещё одну обученную мною модель под названием PavelGPT-7B-128K-v0.1-LoRA, на этот раз я взял скрипты Saiga (rulm) и модифицировал их таким образом, чтобы получить языковую модель типа INSTRUCT, но с данными оформленными в виде чата (для того чтобы её было легко использовать в связке с проектами типа text-generation-webui).

В качестве основы взял Yarn-Mistral-7b-128k, а датасеты собирал так, чтобы модель могла не только решать базовые задачи, но и отгадывать загадки, а ещё решать несложные математические задачки, писать небольшие тексты, составлять оглавление и создавать простые скрипты.

Вот все ссылочки, которые могут пригодиться:
- скрипт обучения модели
- отчёт обучения на wandb
- тестовые ответы модели в карточке на huggingface
- скрипт запуска модели

PS. Мне давно хотелось сделать себе чуть более умного помощника для работы с документацией которую я храню в Obsidian и пока что впечатления от использования данной модели более приятные чем от предыдущих моих экспериментов.

Надеюсь вам данная моделька тоже окажется полезной :)

#ai #saiga #gpt

🔥28👍3❤1

28.7K viewsedited 12:58

Pavel Zloi

Всем привет! Под занавес года по просьбам трудящихся подготовил ещё и GGUF версию модели PavelGPT. Имеются варианты с квантизациями q2, q3, q4 и q8, по идее такой набор должен покрыть все возможные варианты (включая даже слабенькие железки).

Помимо этого обновил скрипт тренировки модели, добавил в него секции конвертации в GGUF и операции по квантизации.

PS. Сори, что пропал на неделю, причиной тому стал банальный грипп, но со вчерашнего дня я уже более-менее вернулся в норму.

huggingface.co

evilfreelancer/PavelGPT-7B-128K-v0.1-GGUF · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥21👍5

2.05K viewsedited 22:00

Pavel Zloi

Осталось совсем немного времени до нового года, поэтому хочу пожелать всем в следующем удачи, крепкого здоровья, везения и успехов как в личном так и в научном плане :)

В общем поздравляю всех с наступающим Новым 2024 годом!

🔥20❤12❤‍🔥5

1.23K viewsedited 10:34

Pavel Zloi

Всем привет! У меня сейчас процесс подготовки к защите диплома, уже вот-вот защита будет, так что было не очень много свободного времени на хобби.

А тем временем меня пригласили на бета-тест сберовского GitVerse. При входе система спросила мой Sber ID, после чего предложила ввести мой ник и имя пользователя.

Внешне GitVerse отдалённо напоминает что-то среднее между Gitea и GitLab. Понравилась возможность упрощённого импорта проектов, можно например импортировать приватные репы с GitHub просто указав свой персональный токен. Система поддерживает импорт из GitHub, GitLab, Gitea и классических Git репозиториев.

Не нашёл возможность создавать группы/команды/компании, вероятно это добавят позже.

Пока что впечатления приятные, надо будет ещё немного пощупать, ну как минимум прозеркалировать все мои проекты с GitHub.

#sber #git

🔥8💩8👍2

919 views14:05

Pavel Zloi

Forwarded from Mikhail Tikhomirov

Всем привет! Некоторое время назад мы в лаборатории НИВЦ МГУ провели интересную серию экспериментов по адаптации LLM на русский язык, которые в итоге вылились в статью Impact of Tokenization on LLaMa Russian Adaptation (https://arxiv.org/abs/2312.02598), о чем я и хочу рассказать.

Большинство выходящих LLM являются либо англо(-китайско) язычными, либо мультиязычными, но все равно с упором на английский язык. При этом явно заметна разница в том, насколько хорошо работают такие модели на своем “родном” языке и на русском. Так как тема LLM очень интересная и наверняка с нами надолго, мы решили исследовать, можно ли адаптировать LLM на русский язык, а также какая все же токенизация подходит лучше для русского языка: BPE или Unigram.

Существует работа китайцев https://arxiv.org/pdf/2304.08177.pdf (а также еще некоторые похожие), в которых они расширяли исходную токенизацию новыми токенами, таким образом получив размер словаря в ~50к, а затем дообучали модель с помощью LoRa на 20 и 120 GB данных (два разных варианта). В результате полученные модели протестировали на C-Eval и получили качество чуть лучше исходных моделей.

Мы решили пойти по схожему пути, но с некоторыми отличиями. Во-первых, мы исследовали гипотезу, что Unigram токенизация лучше подходит для русского языка, чем BPE, как с точки зрения морфологии, так и с точки зрения перформанса моделей. Для этого мы обучили полностью новую токенизацию в 32тыс. токенов на русскоязычном корпусе (и BPE и Unigram). Соответственно слои эмбеддингов и lm head нужно было переинициализировать заново, что было сделано усреднением. Во-вторых, мы решили тюнить только слой эмбедингов и lm head, не трогая весь остальной трансформер, так как боялись испортить модель, ну и для экономии ресурсов.

Эксперименты проводили на LLaMa-7B, обучали на несколько переработанном rulm (https://huggingface.co/datasets/IlyaGusev/rulm) ~43GB на кластере с 16 V100. Тестировали все это дело на russian super glue, используя код из https://github.com/IlyaGusev/rulm.

И вот результаты, которые у нас получились (графики и таблички из статьи в пост не влезут, возможно, если будет интерес, распишу подробнее где-нибудь еще):

1. Качество на rsg у ruadapt моделей слегка выше, чем у исходной llama,
2. Unigram показал стабильно лучше результат, чем BPE,
3. Оценка людьми тоже показала небольшой перевес в сторону ruadapt модели.

Но один из главных результатов в другом. Имея схожее качество, как и у исходной модели, ruadapt модель на русскоязычных текстах показывает более высокую скорость работы из-за более подходящей токенизации. Генерация одного и того же по длине (в символах, не токенах!) текста становится быстрее до 60% и скорость обучения также растет, например в случае rsg до 30%.

Из некоторых моментов не включенных в статью, так как были обнаружены позднее:
1. Сходимость с lr=2e-5 показала себя лучше, чем с lr=3e-4.
2. Попытка обучить Mistral оказалась неудачной, после 0.8 эпохи обучение разошлось. Над причинами можно гадать, но есть как гипотеза в том, что на используемых версиях библиотек есть такая проблема, так и гипотеза о том, что это результат обучения в fp16 модели, которая исходно была в bf16 (а bf16 лучше работает с большими числами, если не ошибаюсь) с заморозкой почти всех весов привел такому результату.
3. ruadapt модели плохо реагировали на repetition penalty, как будто были слишком “неуверенные”.
4. Если тестировать на mmlu (а также mera) в zero-shot и few-shot, метрики на большинстве датасетов слегка ниже, чем у исходной модели, хотя и не слишком существенно.

В итоге мы обучили еще одну модель, уже на основе llama-2 7b, учили две эпохи вместо одной, а также с lr=2e-5. Данную модель (и ее инстракт версию) и выложили в репозиторий на hf. У нее, по моим экспериментам, проблема с repetition_penalty уже пропала, да и в целом она получше первых версий моделей, о которых мы писали в статье.

ruadapt llama-2: https://huggingface.co/rccmsu/ruadapt_llama2_7b_v0.1
ruadapt llama-2 saiga: https://huggingface.co/rccmsu/ruadapt_saiga2_7b_v0.1

🔥13❤1

1.82K views06:56

Pavel Zloi

Всем привет! Ну чтож, закончилась моя эпопея с университетом и вторым высшим образованием. Вчера у меня была защита диплома, как и ожидалось защитился на отлично, плюс комиссия решила выдать мне диплом с отличием, то бишь красный.

А это значит, что у меня наконец появится свободное время :)

🔥36👍13❤‍🔥7👏1🍾1

844 viewsedited 07:19

Pavel Zloi

Forwarded from GigaChat

Апгрейд суперспособностей в GigaChat Pro

▪️ Увеличили контекст беседы в два раза — с 4 тысяч до 8 тысяч токенов. Теперь GigaChat будет «держать в голове» вашу беседу на протяжении примерно 12 страниц А4.

▪️ Сделали апдейт датасетов по экономике, медицине и праву. Модель стала лучше отвечать на экономические, медицинские, правовые вопросы — больше экспертности и точности в сложных терминах.

▪️ Добавили экспертные и редакторские данные, прокачали функцию text2image. Обучили на опыте реальных экспертов, редакторов и художников — нейросетевая модель вновь поумнела.

Ждём запросы прямо сейчас 👇

1.01K views06:56

Pavel Zloi

Любопытная публикация на Хабр, заставляет задуматься о хостинге собственной публичной и полностью открытой модели.

#openai #gpt #habr

Хабр

ChatGPT раскрывает пароли из частных разговоров своих пользователей

Читатель ArsTechnica Чейз Уайтсайд заметил , что ChatGPT раскрывает данные из частных бесед, которые включают учётные данные для входа и другую информацию. arstechnica.com Два из семи скриншотов,...

1.08K viewsedited 09:45

Pavel Zloi

Приятно увидеть на Хабре упоминание моего первого ВУЗа, имею ввиду МТУСИ конечно же (оригинал новости).

Расстраивает только тот факт, что автор публикации про правильное написание запросов к нейросетям генерирующим картинки не потрудился приложить ссылку на научную работу о которой идёт речь, а поскольку я человек любознательный мне захотелось почитать о чём же там речь, полез искать и нашёл ссылки на научные работы:

- Русская версия на elibrary тут
- On english here and here (английские за пейволом, так что не знаю что там в них)

Прочёл публикацию, в целом дельные рекомендацию в ней даются, больше всего позабавил момент про то что нейросети плохо считают.

PS. Сам алгоритм можно найти на 87й странице русскоязычной публикации или в первом комментарии к данному посту.

Хабр

В МТУСИ разработали алгоритм составления запросов к генеративным нейросетям

Исследователи Московского технического университета связи и информатики (МТУСИ) заявили о разработке алгоритма составления запросов к генеративным нейросетям (промптов), позволяющего...

1.04K viewsedited 17:53

Pavel Zloi

Всем привет! Сегодня я рад поделиться с вами свежим материалом, который только что появился в моем блоге на Дзен под названием Перевод на разные языки используя модель NLLB.

Данная публикация является моими пометками на полях сделанными в процессе интеграции модели No Language Left Behind (NLLB) в один небольшой проект над которым я работаю последние пару дней. По ходу пьесы накопились заметки и дабы они не ушли в стол решил оформить их в формате эдакой небольшой публикации.

Не забудьте поделиться своими мыслями и впечатлениями в комментариях под публикацией или прямо здесь, в Telegram! Ваша обратная связь вдохновляет меня на создание новых интересных материалов.

Желаю приятного прочтения!

#transformers #gpt #translation

Дзен | Статьи

Перевод на разные языки используя модель NLLB

Статья автора «Pavel Zloi» в Дзене ✍: Приветствую тебя, мой уважаемый читатель! Последние пару дней изучаю возможности проекта NLLB (анг.

🔥10

4.07K viewsedited 19:04

About

Blog

Apps

Platform