WTF is this manual? – Telegram
WTF is this manual?
27 subscribers
174 photos
40 videos
78 files
690 links
Obscure IT and graphs of...what?
Download Telegram
Forwarded from Open Source
GPT3 Powered CLI

Инструмент который использует API OpenAI GPT3 для преобразования команд на естественном (английском) языке в команды терминал CLI

https://github.com/abhagsain/ai-cli
Forwarded from AbstractDL
This media is not supported in your browser
VIEW IN TELEGRAM
GPT для чайников: от токенизации до файнтюнинга

Сделал для вас небольшой colab туториал про GPT. Там подробно и с примерами разобраны такие темы как:
1. Устройство GPT-1,2,3
2. Токенизация
3. Методы генерации текста
4. Файнтюнинг (прям в колабе)
Если вы давно хотели поиграться с GPT, но всё не доходили руки, то новогодние праздники — самое время 😉

colab, хабр
Forwarded from GitHub Community
TextQL – инструмент, который позволяет выполнять SQL-запросы на структурированных текстовых форматах - CSV или TSV

Ссылка на проект

GitHub | #Interesting #Go
Forwarded from partially unsupervised
Рубрика "мои кенты - мое богатство". 👬

Я обещал написать про быстрый инференс, и вот подвернулся случай. У меня есть два предпочтения, которым я предпочитаю следовать в дизайне инференс-сервисов:
- никаких динамических графов, все должно быть сконвертировано в ONNX, даже легкие scikit-learn модели, и потом гоняться в ONNXRuntime. Это и минимизирует ошибки с одной стороны, и позволяет дешево сменить core model, да и запускать можно одинаково хоть локально, хоть на сервере, только бэкенд подмени;
- если можно что-то вынести на serverless (например, в AWS Lambda), надо выносить - это простой способ сглаживать нагрузку.

У лямбд есть несколько проблем:
- неидеальное масштабирование (с нуля до многих тысяч параллельных запусков мгновенно не вырастешь, что бы там ни говорили маркетинговые описания);
- медленный cold start (в эту сторону есть подвижки);
- нет GPU, и потому инференс жирных моделей скорее затруднителен, да и экономически не очень выгоден.

Так вот, мои старые кореша Андрей и Игорь решили починить одну из этих проблем и пилят платформу everinfer.ai, которая прям соответствует моим представлениям о прекрасном:

from everinfer import Client

client = Client('my_secret_key')
pipeline = client.register_pipeline('my_model_name', ['onnx/model.onnx'])
runner = client.create_engine(pipeline['uuid'])
preds = runner.predict([inputs])

Внутри ONNXRuntime, Rust 🦀, ScyllaDB и прочие модные технологии, благодаря чему инференс получается довольно быстрым. Слегка потестировал, получилось чуть быстрее локального запуска ONNXRuntime на CPU, даже с учетом сетевых издержек.

Платформа только-только открывается для внешних пользователей и предлагает первым тестерам бесплатное железо для инференса и помощь в запуске (хотя API простой как табуретка, вряд ли понадобится много помощи). Можете писать сразу @andrey_kiselev и просить доступ.
Forwarded from 1chat bridge ⤵️
simpson: The other type that I want more of is the field of rationals. This can be done slowly with integers for numerator and denominator, but there's a p-adic notation that's faster and that I'm trying to figure out how to make practical, called 'quote notation': http://www.cs.toronto.edu/~hehner/ratno.pdf
Forwarded from Open Source
​​FacilMap

FacilMap — это безопасная для конфиденциальности универсальная онлайн-карта с открытым исходным кодом, которая сочетает в себе различные сервисы на основе OpenStreetMap и позволяет легко находить места, планировать маршруты и создавать собственные карты с маркерами, линиями и маршрутами.

▫️Различные стили карты для дорог, топографии, езды на велосипеде, пешеходного туризма, общественного транспорта, водной навигации...
▫️Поиск мест и отображение информации о них (веб-сайт, часы работы, ...)
▫️Рассчитывайте маршруты и корректируйте их перетаскиванием. Можно показать профиль высоты.
▫️Удобный для смартфона интерфейс.
▫️Создавайте и делитесь пользовательскими картами с маркерами, линиями и маршрутами на них.
и многое многое другое....

https://github.com/FacilMap/facilmap

Site: https://facilmap.org/
Forwarded from GitHub Community
netplotинструмент, который считает сколько пакетов ваши работающие программы отправили за определенный период времени

Позволяет мониторить с какими IP-адресами связывались ваши запущенные программы. Также показывает, каким образом вы продаете свои данные Google, Facebook и подобным

Ссылка на проект

GitHub | #Monitor #Useful #Interesting
Forwarded from Open Source
This media is not supported in your browser
VIEW IN TELEGRAM
Vimium Everywhere

Небольшой экспериментальный скрипт AutoHotkey для общесистемной навигации с помощью клавиатуры, совместимый с GNU/Linux и Windows

Это немного похоже на Vimium, но для любого приложения, а не только для браузеров.

https://github.com/phil294/vimium-everywhere
🍖 Методы автоматического реферирования: экстрактивные методы

На этот раз рассмотрим извлекающие методы, которым нужны эталонные рефераты для обучения. При этом эти методы всё ещё могут лишь выбирать предложения из оригинального текста. К методам этой группы и относятся описываемые ниже SummaRuNNer и BertSumExt.

Machine Learning
Monads are like burritos, or koalas... I've always seen them as bananas. Do you like bananas? I hope you do.
Forwarded from Senior Python Developer
Query JSON

JMESpath – это язык запросов для JSON, который позволяет получать необходимые данные из документа или словаря JSON. Библиотека доступна как для Python, так и для других ЯП, что расширяет ее возможности.
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp
Итоги года в Natural Language Processing

Хочу сделать небольшой пост с самыми яркими работами этого года, изменившими ландшафт исследований.

🌸Демо: на широкую аудиторию вышли демо
DALL-E 2, MidJourney, Stable Diffusion — text-to-image еще никогда не утверждался так сильно как флагман ИИ, but here we are))
ChatGPT — генерация текста в нативном формате, offline RL + фокус на zero-shot и длинный контекст
Трансформерные архитектуры и их модификации с диффузиями стали применяться к данным разных модельностей и областей уже давно — надеюсь, в следующем году нас будут ждать рабочие общие архитектуры для многих типов сразу.


🌸Многоязычность: в практику NLP стремительно вводятся все новые и новые языки, наконец добавляя существенное разнообразие в англоцентричную картину предыдущих лет. На ACL, наконец, стартовало десятилетие языков мира.
No Language Left Behind (NLLB) — машинный перевод и новый датасет на 200+ языков мира, включая малоресурсные языки
Building Machine Translation Systems for the Next Thousand Languages — машинный перевод для 1000+ языков мира. Эта и предыдущая работы возможны, безусловно, благодаря доступу носителей на платформы, социальные сети, поисковики, где данные для этих языков наконец стали накапливаться.
XGLM, mGPT — впервые, многоязычныt декодеры , на 30+ и 60+ языков мира
Обзор Рудера — state of multilingualty

🌸Open Source догнал по масштабам проприетарные решения.
Коллаборация BigScience, объединяющая более 400 авторов со всего мира, ведет разработку открытых решений для ИИ, воспроизводя лучшие практики закрытых решений. К моделям прилагаются открытые очищенные датасеты!
BLOOM — мультиязычная языковая модель, 176 млрд параметров
BigCode — мультиязычная модель, обученная на языках программирования, из последних — SantaCoder
Библиотека Petals (про нее напишу отдельно!) — распределенное обучение нейронок torrent-like

Модели от больших компаний, выпущенные в открытый доступ:
YaLM — русская языковая модель на 100 млрд параметров
GALACTICA — языковая модель на 120 млрд параметров, обученная на корпусе научных статей paperswithcode
NLLB — машинный перевод на 200+ языков, модель на 3.3 млрд параметров, есть дистиллированные версии
Stable Diffusion — text-to-image и все остальное на английском

🌸Ограничения: пока качество растет, накал конкуренции не спадает: вводятся новые лицензии,
— ограничивающие использование моделей
— формально не открытые, но сохраняющие открытость чекпоинтов
— защищающие разработчиков, а не пользователей.
Responsible AI License — BLOOM, Stable Diffufion, BigCode вышли под OpenRAIL-M, есть и другие модификации лицензии для датасетов и кода.

Ваши ожидания от 2023?
Forwarded from Open Source
​​MouseRemote

Это приложение для Android, которое превращает ваш смартфон или планшет в сенсорную панель вашего компьютера или ноутбука.

MouseRemoteServer должен быть запущен на компьютере для удаленного управления.

Связь осуществляется через локальную сеть.

https://github.com/Akshayaap/TouchDroid

F-droid: https://f-droid.org/packages/com.akshayaap.mouseremote/
Forwarded from iggisv9t channel
Я скачал все графы