Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Нашел забавный сайт (правда с ужасным интерфейсом) где собраны звуки которые постепенно исчезают из-за технологического прогресса:
https://citiesandmemory.com/obsolete-sounds/
Больше всего обидно, что исчезают пастухи поющие своим овцам в Словакии. И это чертовы технологии испортили тоже!
https://citiesandmemory.com/obsolete-sounds/
Больше всего обидно, что исчезают пастухи поющие своим овцам в Словакии. И это чертовы технологии испортили тоже!
Forwarded from Open Source
GPT3 Powered CLI
Инструмент который использует API OpenAI GPT3 для преобразования команд на естественном (английском) языке в команды терминал CLI
https://github.com/abhagsain/ai-cli
Инструмент который использует API OpenAI GPT3 для преобразования команд на естественном (английском) языке в команды терминал CLI
https://github.com/abhagsain/ai-cli
Forwarded from AbstractDL
This media is not supported in your browser
VIEW IN TELEGRAM
GPT для чайников: от токенизации до файнтюнинга
Сделал для вас небольшой colab туториал про GPT. Там подробно и с примерами разобраны такие темы как:
1. Устройство GPT-1,2,3
2. Токенизация
3. Методы генерации текста
4. Файнтюнинг (прям в колабе)
Если вы давно хотели поиграться с GPT, но всё не доходили руки, то новогодние праздники — самое время 😉
colab, хабр
Сделал для вас небольшой colab туториал про GPT. Там подробно и с примерами разобраны такие темы как:
1. Устройство GPT-1,2,3
2. Токенизация
3. Методы генерации текста
4. Файнтюнинг (прям в колабе)
Если вы давно хотели поиграться с GPT, но всё не доходили руки, то новогодние праздники — самое время 😉
colab, хабр
Forwarded from GitHub Community
TextQL – инструмент, который позволяет выполнять SQL-запросы на структурированных текстовых форматах - CSV или TSV
⤷ Ссылка на проект
GitHub | #Interesting #Go
⤷ Ссылка на проект
GitHub | #Interesting #Go
Forwarded from partially unsupervised
Рубрика "мои кенты - мое богатство". 👬
Я обещал написать про быстрый инференс, и вот подвернулся случай. У меня есть два предпочтения, которым я предпочитаю следовать в дизайне инференс-сервисов:
- никаких динамических графов, все должно быть сконвертировано в ONNX, даже легкие scikit-learn модели, и потом гоняться в ONNXRuntime. Это и минимизирует ошибки с одной стороны, и позволяет дешево сменить core model, да и запускать можно одинаково хоть локально, хоть на сервере, только бэкенд подмени;
- если можно что-то вынести на serverless (например, в AWS Lambda), надо выносить - это простой способ сглаживать нагрузку.
У лямбд есть несколько проблем:
- неидеальное масштабирование (с нуля до многих тысяч параллельных запусков мгновенно не вырастешь, что бы там ни говорили маркетинговые описания);
- медленный cold start (в эту сторону есть подвижки);
- нет GPU, и потому инференс жирных моделей скорее затруднителен, да и экономически не очень выгоден.
Так вот, мои старые кореша Андрей и Игорь решили починить одну из этих проблем и пилят платформу everinfer.ai, которая прям соответствует моим представлениям о прекрасном:
Платформа только-только открывается для внешних пользователей и предлагает первым тестерам бесплатное железо для инференса и помощь в запуске (хотя API простой как табуретка, вряд ли понадобится много помощи). Можете писать сразу @andrey_kiselev и просить доступ.
Я обещал написать про быстрый инференс, и вот подвернулся случай. У меня есть два предпочтения, которым я предпочитаю следовать в дизайне инференс-сервисов:
- никаких динамических графов, все должно быть сконвертировано в ONNX, даже легкие scikit-learn модели, и потом гоняться в ONNXRuntime. Это и минимизирует ошибки с одной стороны, и позволяет дешево сменить core model, да и запускать можно одинаково хоть локально, хоть на сервере, только бэкенд подмени;
- если можно что-то вынести на serverless (например, в AWS Lambda), надо выносить - это простой способ сглаживать нагрузку.
У лямбд есть несколько проблем:
- неидеальное масштабирование (с нуля до многих тысяч параллельных запусков мгновенно не вырастешь, что бы там ни говорили маркетинговые описания);
- медленный cold start (в эту сторону есть подвижки);
- нет GPU, и потому инференс жирных моделей скорее затруднителен, да и экономически не очень выгоден.
Так вот, мои старые кореша Андрей и Игорь решили починить одну из этих проблем и пилят платформу everinfer.ai, которая прям соответствует моим представлениям о прекрасном:
from everinfer import ClientВнутри ONNXRuntime, Rust 🦀, ScyllaDB и прочие модные технологии, благодаря чему инференс получается довольно быстрым. Слегка потестировал, получилось чуть быстрее локального запуска ONNXRuntime на CPU, даже с учетом сетевых издержек.
client = Client('my_secret_key')
pipeline = client.register_pipeline('my_model_name', ['onnx/model.onnx'])
runner = client.create_engine(pipeline['uuid'])
preds = runner.predict([inputs])
Платформа только-только открывается для внешних пользователей и предлагает первым тестерам бесплатное железо для инференса и помощь в запуске (хотя API простой как табуретка, вряд ли понадобится много помощи). Можете писать сразу @andrey_kiselev и просить доступ.
Forwarded from 1chat bridge ⤵️
simpson: The other type that I want more of is the field of rationals. This can be done slowly with integers for numerator and denominator, but there's a p-adic notation that's faster and that I'm trying to figure out how to make practical, called 'quote notation': http://www.cs.toronto.edu/~hehner/ratno.pdf
Forwarded from Open Source
FacilMap
FacilMap — это безопасная для конфиденциальности универсальная онлайн-карта с открытым исходным кодом, которая сочетает в себе различные сервисы на основе OpenStreetMap и позволяет легко находить места, планировать маршруты и создавать собственные карты с маркерами, линиями и маршрутами.
▫️Различные стили карты для дорог, топографии, езды на велосипеде, пешеходного туризма, общественного транспорта, водной навигации...
▫️Поиск мест и отображение информации о них (веб-сайт, часы работы, ...)
▫️Рассчитывайте маршруты и корректируйте их перетаскиванием. Можно показать профиль высоты.
▫️Удобный для смартфона интерфейс.
▫️Создавайте и делитесь пользовательскими картами с маркерами, линиями и маршрутами на них.
и многое многое другое....
https://github.com/FacilMap/facilmap
Site: https://facilmap.org/
FacilMap — это безопасная для конфиденциальности универсальная онлайн-карта с открытым исходным кодом, которая сочетает в себе различные сервисы на основе OpenStreetMap и позволяет легко находить места, планировать маршруты и создавать собственные карты с маркерами, линиями и маршрутами.
▫️Различные стили карты для дорог, топографии, езды на велосипеде, пешеходного туризма, общественного транспорта, водной навигации...
▫️Поиск мест и отображение информации о них (веб-сайт, часы работы, ...)
▫️Рассчитывайте маршруты и корректируйте их перетаскиванием. Можно показать профиль высоты.
▫️Удобный для смартфона интерфейс.
▫️Создавайте и делитесь пользовательскими картами с маркерами, линиями и маршрутами на них.
и многое многое другое....
https://github.com/FacilMap/facilmap
Site: https://facilmap.org/
Forwarded from GitHub Community
netplot – инструмент, который считает сколько пакетов ваши работающие программы отправили за определенный период времени
Позволяет мониторить с какими IP-адресами связывались ваши запущенные программы. Также показывает, каким образом вы продаете свои данные Google, Facebook и подобным
⤷ Ссылка на проект
GitHub | #Monitor #Useful #Interesting
Позволяет мониторить с какими IP-адресами связывались ваши запущенные программы. Также показывает, каким образом вы продаете свои данные Google, Facebook и подобным
⤷ Ссылка на проект
GitHub | #Monitor #Useful #Interesting
Forwarded from Open Source
This media is not supported in your browser
VIEW IN TELEGRAM
Vimium Everywhere
Небольшой экспериментальный скрипт AutoHotkey для общесистемной навигации с помощью клавиатуры, совместимый с GNU/Linux и Windows
Это немного похоже на Vimium, но для любого приложения, а не только для браузеров.
https://github.com/phil294/vimium-everywhere
Небольшой экспериментальный скрипт AutoHotkey для общесистемной навигации с помощью клавиатуры, совместимый с GNU/Linux и Windows
Это немного похоже на Vimium, но для любого приложения, а не только для браузеров.
https://github.com/phil294/vimium-everywhere
Forwarded from Machine Learning | Нейронные сети, ИИ, Big Data
🍖 Методы автоматического реферирования: экстрактивные методы
На этот раз рассмотрим извлекающие методы, которым нужны эталонные рефераты для обучения. При этом эти методы всё ещё могут лишь выбирать предложения из оригинального текста. К методам этой группы и относятся описываемые ниже SummaRuNNer и BertSumExt.
Machine Learning
На этот раз рассмотрим извлекающие методы, которым нужны эталонные рефераты для обучения. При этом эти методы всё ещё могут лишь выбирать предложения из оригинального текста. К методам этой группы и относятся описываемые ниже SummaRuNNer и BertSumExt.
Machine Learning
Monads are like burritos, or koalas... I've always seen them as bananas. Do you like bananas? I hope you do.
GitHub
GitHub - Fuco1/banana.el: Monads for elisp
Monads for elisp. Contribute to Fuco1/banana.el development by creating an account on GitHub.
Forwarded from Senior Python Developer
Query JSON
JMESpath – это язык запросов для JSON, который позволяет получать необходимые данные из документа или словаря JSON. Библиотека доступна как для Python, так и для других ЯП, что расширяет ее возможности.
JMESpath – это язык запросов для JSON, который позволяет получать необходимые данные из документа или словаря JSON. Библиотека доступна как для Python, так и для других ЯП, что расширяет ее возможности.
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp
Итоги года в Natural Language Processing
Хочу сделать небольшой пост с самыми яркими работами этого года, изменившими ландшафт исследований.
🌸Демо: на широкую аудиторию вышли демо
DALL-E 2, MidJourney, Stable Diffusion — text-to-image еще никогда не утверждался так сильно как флагман ИИ, but here we are))
ChatGPT — генерация текста в нативном формате, offline RL + фокус на zero-shot и длинный контекст
Трансформерные архитектуры и их модификации с диффузиями стали применяться к данным разных модельностей и областей уже давно — надеюсь, в следующем году нас будут ждать рабочие общие архитектуры для многих типов сразу.
🌸Многоязычность: в практику NLP стремительно вводятся все новые и новые языки, наконец добавляя существенное разнообразие в англоцентричную картину предыдущих лет. На ACL, наконец, стартовало десятилетие языков мира.
No Language Left Behind (NLLB) — машинный перевод и новый датасет на 200+ языков мира, включая малоресурсные языки
Building Machine Translation Systems for the Next Thousand Languages — машинный перевод для 1000+ языков мира. Эта и предыдущая работы возможны, безусловно, благодаря доступу носителей на платформы, социальные сети, поисковики, где данные для этих языков наконец стали накапливаться.
XGLM, mGPT — впервые, многоязычныt декодеры , на 30+ и 60+ языков мира
Обзор Рудера — state of multilingualty
🌸Open Source догнал по масштабам проприетарные решения.
Коллаборация BigScience, объединяющая более 400 авторов со всего мира, ведет разработку открытых решений для ИИ, воспроизводя лучшие практики закрытых решений. К моделям прилагаются открытые очищенные датасеты!
BLOOM — мультиязычная языковая модель, 176 млрд параметров
BigCode — мультиязычная модель, обученная на языках программирования, из последних — SantaCoder
Библиотека Petals (про нее напишу отдельно!) — распределенное обучение нейронок torrent-like
Модели от больших компаний, выпущенные в открытый доступ:
YaLM — русская языковая модель на 100 млрд параметров
GALACTICA — языковая модель на 120 млрд параметров, обученная на корпусе научных статей paperswithcode
NLLB — машинный перевод на 200+ языков, модель на 3.3 млрд параметров, есть дистиллированные версии
Stable Diffusion — text-to-image и все остальное на английском
🌸Ограничения: пока качество растет, накал конкуренции не спадает: вводятся новые лицензии,
— ограничивающие использование моделей
— формально не открытые, но сохраняющие открытость чекпоинтов
— защищающие разработчиков, а не пользователей.
Responsible AI License — BLOOM, Stable Diffufion, BigCode вышли под OpenRAIL-M, есть и другие модификации лицензии для датасетов и кода.
Ваши ожидания от 2023?
Итоги года в Natural Language Processing
Хочу сделать небольшой пост с самыми яркими работами этого года, изменившими ландшафт исследований.
🌸Демо: на широкую аудиторию вышли демо
DALL-E 2, MidJourney, Stable Diffusion — text-to-image еще никогда не утверждался так сильно как флагман ИИ, but here we are))
ChatGPT — генерация текста в нативном формате, offline RL + фокус на zero-shot и длинный контекст
Трансформерные архитектуры и их модификации с диффузиями стали применяться к данным разных модельностей и областей уже давно — надеюсь, в следующем году нас будут ждать рабочие общие архитектуры для многих типов сразу.
🌸Многоязычность: в практику NLP стремительно вводятся все новые и новые языки, наконец добавляя существенное разнообразие в англоцентричную картину предыдущих лет. На ACL, наконец, стартовало десятилетие языков мира.
No Language Left Behind (NLLB) — машинный перевод и новый датасет на 200+ языков мира, включая малоресурсные языки
Building Machine Translation Systems for the Next Thousand Languages — машинный перевод для 1000+ языков мира. Эта и предыдущая работы возможны, безусловно, благодаря доступу носителей на платформы, социальные сети, поисковики, где данные для этих языков наконец стали накапливаться.
XGLM, mGPT — впервые, многоязычныt декодеры , на 30+ и 60+ языков мира
Обзор Рудера — state of multilingualty
🌸Open Source догнал по масштабам проприетарные решения.
Коллаборация BigScience, объединяющая более 400 авторов со всего мира, ведет разработку открытых решений для ИИ, воспроизводя лучшие практики закрытых решений. К моделям прилагаются открытые очищенные датасеты!
BLOOM — мультиязычная языковая модель, 176 млрд параметров
BigCode — мультиязычная модель, обученная на языках программирования, из последних — SantaCoder
Библиотека Petals (про нее напишу отдельно!) — распределенное обучение нейронок torrent-like
Модели от больших компаний, выпущенные в открытый доступ:
YaLM — русская языковая модель на 100 млрд параметров
GALACTICA — языковая модель на 120 млрд параметров, обученная на корпусе научных статей paperswithcode
NLLB — машинный перевод на 200+ языков, модель на 3.3 млрд параметров, есть дистиллированные версии
Stable Diffusion — text-to-image и все остальное на английском
🌸Ограничения: пока качество растет, накал конкуренции не спадает: вводятся новые лицензии,
— ограничивающие использование моделей
— формально не открытые, но сохраняющие открытость чекпоинтов
— защищающие разработчиков, а не пользователей.
Responsible AI License — BLOOM, Stable Diffufion, BigCode вышли под OpenRAIL-M, есть и другие модификации лицензии для датасетов и кода.
Ваши ожидания от 2023?
2022 - 2032 International Decade of Indigenous Languages
The United Nations declared 2019 The Year of Indigenous Languages (IY2019) in order to raise awareness of the important contribution they make to our world’s rich cultural diversity.
Forwarded from Open Source
MouseRemote
Это приложение для Android, которое превращает ваш смартфон или планшет в сенсорную панель вашего компьютера или ноутбука.
MouseRemoteServer должен быть запущен на компьютере для удаленного управления.
Связь осуществляется через локальную сеть.
https://github.com/Akshayaap/TouchDroid
F-droid: https://f-droid.org/packages/com.akshayaap.mouseremote/
Это приложение для Android, которое превращает ваш смартфон или планшет в сенсорную панель вашего компьютера или ноутбука.
MouseRemoteServer должен быть запущен на компьютере для удаленного управления.
Связь осуществляется через локальную сеть.
https://github.com/Akshayaap/TouchDroid
F-droid: https://f-droid.org/packages/com.akshayaap.mouseremote/