Forwarded from Machine Learning | Нейронные сети, ИИ, Big Data
🍖 Методы автоматического реферирования: экстрактивные методы
На этот раз рассмотрим извлекающие методы, которым нужны эталонные рефераты для обучения. При этом эти методы всё ещё могут лишь выбирать предложения из оригинального текста. К методам этой группы и относятся описываемые ниже SummaRuNNer и BertSumExt.
Machine Learning
На этот раз рассмотрим извлекающие методы, которым нужны эталонные рефераты для обучения. При этом эти методы всё ещё могут лишь выбирать предложения из оригинального текста. К методам этой группы и относятся описываемые ниже SummaRuNNer и BertSumExt.
Machine Learning
Monads are like burritos, or koalas... I've always seen them as bananas. Do you like bananas? I hope you do.
GitHub
GitHub - Fuco1/banana.el: Monads for elisp
Monads for elisp. Contribute to Fuco1/banana.el development by creating an account on GitHub.
Forwarded from Senior Python Developer
Query JSON
JMESpath – это язык запросов для JSON, который позволяет получать необходимые данные из документа или словаря JSON. Библиотека доступна как для Python, так и для других ЯП, что расширяет ее возможности.
JMESpath – это язык запросов для JSON, который позволяет получать необходимые данные из документа или словаря JSON. Библиотека доступна как для Python, так и для других ЯП, что расширяет ее возможности.
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp
Итоги года в Natural Language Processing
Хочу сделать небольшой пост с самыми яркими работами этого года, изменившими ландшафт исследований.
🌸Демо: на широкую аудиторию вышли демо
DALL-E 2, MidJourney, Stable Diffusion — text-to-image еще никогда не утверждался так сильно как флагман ИИ, but here we are))
ChatGPT — генерация текста в нативном формате, offline RL + фокус на zero-shot и длинный контекст
Трансформерные архитектуры и их модификации с диффузиями стали применяться к данным разных модельностей и областей уже давно — надеюсь, в следующем году нас будут ждать рабочие общие архитектуры для многих типов сразу.
🌸Многоязычность: в практику NLP стремительно вводятся все новые и новые языки, наконец добавляя существенное разнообразие в англоцентричную картину предыдущих лет. На ACL, наконец, стартовало десятилетие языков мира.
No Language Left Behind (NLLB) — машинный перевод и новый датасет на 200+ языков мира, включая малоресурсные языки
Building Machine Translation Systems for the Next Thousand Languages — машинный перевод для 1000+ языков мира. Эта и предыдущая работы возможны, безусловно, благодаря доступу носителей на платформы, социальные сети, поисковики, где данные для этих языков наконец стали накапливаться.
XGLM, mGPT — впервые, многоязычныt декодеры , на 30+ и 60+ языков мира
Обзор Рудера — state of multilingualty
🌸Open Source догнал по масштабам проприетарные решения.
Коллаборация BigScience, объединяющая более 400 авторов со всего мира, ведет разработку открытых решений для ИИ, воспроизводя лучшие практики закрытых решений. К моделям прилагаются открытые очищенные датасеты!
BLOOM — мультиязычная языковая модель, 176 млрд параметров
BigCode — мультиязычная модель, обученная на языках программирования, из последних — SantaCoder
Библиотека Petals (про нее напишу отдельно!) — распределенное обучение нейронок torrent-like
Модели от больших компаний, выпущенные в открытый доступ:
YaLM — русская языковая модель на 100 млрд параметров
GALACTICA — языковая модель на 120 млрд параметров, обученная на корпусе научных статей paperswithcode
NLLB — машинный перевод на 200+ языков, модель на 3.3 млрд параметров, есть дистиллированные версии
Stable Diffusion — text-to-image и все остальное на английском
🌸Ограничения: пока качество растет, накал конкуренции не спадает: вводятся новые лицензии,
— ограничивающие использование моделей
— формально не открытые, но сохраняющие открытость чекпоинтов
— защищающие разработчиков, а не пользователей.
Responsible AI License — BLOOM, Stable Diffufion, BigCode вышли под OpenRAIL-M, есть и другие модификации лицензии для датасетов и кода.
Ваши ожидания от 2023?
Итоги года в Natural Language Processing
Хочу сделать небольшой пост с самыми яркими работами этого года, изменившими ландшафт исследований.
🌸Демо: на широкую аудиторию вышли демо
DALL-E 2, MidJourney, Stable Diffusion — text-to-image еще никогда не утверждался так сильно как флагман ИИ, but here we are))
ChatGPT — генерация текста в нативном формате, offline RL + фокус на zero-shot и длинный контекст
Трансформерные архитектуры и их модификации с диффузиями стали применяться к данным разных модельностей и областей уже давно — надеюсь, в следующем году нас будут ждать рабочие общие архитектуры для многих типов сразу.
🌸Многоязычность: в практику NLP стремительно вводятся все новые и новые языки, наконец добавляя существенное разнообразие в англоцентричную картину предыдущих лет. На ACL, наконец, стартовало десятилетие языков мира.
No Language Left Behind (NLLB) — машинный перевод и новый датасет на 200+ языков мира, включая малоресурсные языки
Building Machine Translation Systems for the Next Thousand Languages — машинный перевод для 1000+ языков мира. Эта и предыдущая работы возможны, безусловно, благодаря доступу носителей на платформы, социальные сети, поисковики, где данные для этих языков наконец стали накапливаться.
XGLM, mGPT — впервые, многоязычныt декодеры , на 30+ и 60+ языков мира
Обзор Рудера — state of multilingualty
🌸Open Source догнал по масштабам проприетарные решения.
Коллаборация BigScience, объединяющая более 400 авторов со всего мира, ведет разработку открытых решений для ИИ, воспроизводя лучшие практики закрытых решений. К моделям прилагаются открытые очищенные датасеты!
BLOOM — мультиязычная языковая модель, 176 млрд параметров
BigCode — мультиязычная модель, обученная на языках программирования, из последних — SantaCoder
Библиотека Petals (про нее напишу отдельно!) — распределенное обучение нейронок torrent-like
Модели от больших компаний, выпущенные в открытый доступ:
YaLM — русская языковая модель на 100 млрд параметров
GALACTICA — языковая модель на 120 млрд параметров, обученная на корпусе научных статей paperswithcode
NLLB — машинный перевод на 200+ языков, модель на 3.3 млрд параметров, есть дистиллированные версии
Stable Diffusion — text-to-image и все остальное на английском
🌸Ограничения: пока качество растет, накал конкуренции не спадает: вводятся новые лицензии,
— ограничивающие использование моделей
— формально не открытые, но сохраняющие открытость чекпоинтов
— защищающие разработчиков, а не пользователей.
Responsible AI License — BLOOM, Stable Diffufion, BigCode вышли под OpenRAIL-M, есть и другие модификации лицензии для датасетов и кода.
Ваши ожидания от 2023?
2022 - 2032 International Decade of Indigenous Languages
The United Nations declared 2019 The Year of Indigenous Languages (IY2019) in order to raise awareness of the important contribution they make to our world’s rich cultural diversity.
Forwarded from Open Source
MouseRemote
Это приложение для Android, которое превращает ваш смартфон или планшет в сенсорную панель вашего компьютера или ноутбука.
MouseRemoteServer должен быть запущен на компьютере для удаленного управления.
Связь осуществляется через локальную сеть.
https://github.com/Akshayaap/TouchDroid
F-droid: https://f-droid.org/packages/com.akshayaap.mouseremote/
Это приложение для Android, которое превращает ваш смартфон или планшет в сенсорную панель вашего компьютера или ноутбука.
MouseRemoteServer должен быть запущен на компьютере для удаленного управления.
Связь осуществляется через локальную сеть.
https://github.com/Akshayaap/TouchDroid
F-droid: https://f-droid.org/packages/com.akshayaap.mouseremote/
Forwarded from Open Source
Deduplicator
Поиск, сортировка, фильтрация и удаление дубликатов файлов
Deduplicator использует fxhash (некриптографический алгоритм хеширования) под капотом, который работает очень быстро. В результате Deduplicator способен обрабатывать огромные объемы данных за пару секунд.
Во время тестирования Deduplicator смог просмотреть 8,6 ГБ pdf-файлов и обнаружить дубликаты за 2,9 секунды.
https://github.com/sreedevk/deduplicator
Поиск, сортировка, фильтрация и удаление дубликатов файлов
Deduplicator использует fxhash (некриптографический алгоритм хеширования) под капотом, который работает очень быстро. В результате Deduplicator способен обрабатывать огромные объемы данных за пару секунд.
Во время тестирования Deduplicator смог просмотреть 8,6 ГБ pdf-файлов и обнаружить дубликаты за 2,9 секунды.
https://github.com/sreedevk/deduplicator
category-theory-for-programmers.pdf
15.7 MB
Excellent read, explaining categories on the borderline between C++ and Haskell. Not about "how Haskell" as usual, but rather "why"
Logical Defence (Připravte se k boji proti sofistů světa s touto krásnou aplikaci.) - https://f-droid.org/packages/za.co.lukestonehm.logicaldefence
f-droid.org
Logical Defense | F-Droid - Free and Open Source Android App Repository
Encyclopedia of logical fallacies
Forwarded from Katja K Consulting
Все клевые штуки доходят до меня в последнюю очередь. Так что врываюсь с залипательной картой книг от гугла.
Вдруг вы еще не составили список чтения на ближайшее время
Вдруг вы еще не составили список чтения на ближайшее время
Withgoogle
An Ocean of Books
Explore the Ocean of Books to find your favourite authors’ islands and discover similar ones near them.
Forwarded from IT Chats 🌍
↕️↘️ Содержание
0️⃣1️⃣ Windows
0️⃣2️⃣ Linux: общие вопросы
0️⃣3️⃣ Linux: дистрибутивы
0️⃣4️⃣ Другие ОС
0️⃣5️⃣ Компьютерное Железо
0️⃣6️⃣ Компьютерные Сети
0️⃣7️⃣ Программирование
0️⃣8️⃣ Инструменты разработчика
0️⃣9️⃣ Системное программирование
1️⃣0️⃣ C и C++
1️⃣1️⃣ Rust
1️⃣2️⃣ .NET (C#, F#)
1️⃣3️⃣ Java (Kotlin, Scala)
1️⃣4️⃣ Python
1️⃣5️⃣ Ruby
1️⃣6️⃣ Go
1️⃣7️⃣ Функциональное Программирование
1️⃣8️⃣ Другие языки
1️⃣9️⃣ Backend-разработка
2️⃣0️⃣ Разработка ботов
2️⃣1️⃣ PHP
2️⃣2️⃣ CMS
2️⃣3️⃣ Javanoscript и Frontend
2️⃣4️⃣ Frontend-фреймворки
2️⃣5️⃣ HTML и CSS
2️⃣6️⃣ UI и UX
2️⃣7️⃣ Хостинги
2️⃣8️⃣ Безопасность
2️⃣9️⃣ DevOps
3️⃣0️⃣ Тестирование
3️⃣1️⃣ Базы Данных
3️⃣2️⃣ Desktop-разработка
3️⃣3️⃣ Мобильная разработка
3️⃣4️⃣ Embedded Systems
3️⃣5️⃣ Электроника
3️⃣6️⃣ Алгоритмы
3️⃣7️⃣ Математика
3️⃣8️⃣ Графика и GameDev
3️⃣9️⃣ Data Science, ML, AI
4️⃣0️⃣ Маркетинг и SEO
4️⃣1️⃣ Офисное ПО
4️⃣2️⃣ Работа и проекты
4️⃣3️⃣ OpenSource-проекты
4️⃣4️⃣ Криптовалюты
4️⃣5️⃣ Разное
4️⃣6️⃣ Полезные боты
📣 Подписаться на канал
0️⃣1️⃣ Windows
0️⃣2️⃣ Linux: общие вопросы
0️⃣3️⃣ Linux: дистрибутивы
0️⃣4️⃣ Другие ОС
0️⃣5️⃣ Компьютерное Железо
0️⃣6️⃣ Компьютерные Сети
0️⃣7️⃣ Программирование
0️⃣8️⃣ Инструменты разработчика
0️⃣9️⃣ Системное программирование
1️⃣0️⃣ C и C++
1️⃣1️⃣ Rust
1️⃣2️⃣ .NET (C#, F#)
1️⃣3️⃣ Java (Kotlin, Scala)
1️⃣4️⃣ Python
1️⃣5️⃣ Ruby
1️⃣6️⃣ Go
1️⃣7️⃣ Функциональное Программирование
1️⃣8️⃣ Другие языки
1️⃣9️⃣ Backend-разработка
2️⃣0️⃣ Разработка ботов
2️⃣1️⃣ PHP
2️⃣2️⃣ CMS
2️⃣3️⃣ Javanoscript и Frontend
2️⃣4️⃣ Frontend-фреймворки
2️⃣5️⃣ HTML и CSS
2️⃣6️⃣ UI и UX
2️⃣7️⃣ Хостинги
2️⃣8️⃣ Безопасность
2️⃣9️⃣ DevOps
3️⃣0️⃣ Тестирование
3️⃣1️⃣ Базы Данных
3️⃣2️⃣ Desktop-разработка
3️⃣3️⃣ Мобильная разработка
3️⃣4️⃣ Embedded Systems
3️⃣5️⃣ Электроника
3️⃣6️⃣ Алгоритмы
3️⃣7️⃣ Математика
3️⃣8️⃣ Графика и GameDev
3️⃣9️⃣ Data Science, ML, AI
4️⃣0️⃣ Маркетинг и SEO
4️⃣1️⃣ Офисное ПО
4️⃣2️⃣ Работа и проекты
4️⃣3️⃣ OpenSource-проекты
4️⃣4️⃣ Криптовалюты
4️⃣5️⃣ Разное
4️⃣6️⃣ Полезные боты
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from GitHub Community
Vial – кроссплатформенная программа для настройки клавиатуры в режиме реального времени
Позволяет настроить слои, макросы, комбинации клавиш, кастомную раскладку и многое другое..
⤷ Ссылка на проект
GitHub | #Interesting #Windows #MacOS #Linux #Useful
Позволяет настроить слои, макросы, комбинации клавиш, кастомную раскладку и многое другое..
⤷ Ссылка на проект
GitHub | #Interesting #Windows #MacOS #Linux #Useful
Forwarded from Open Source
LinkFree
LinkFree — это альтернатива LinkTree с открытым исходным кодом.
Платформа, на которой люди, занимающиеся технологиями, могут иметь единый центр для демонстрации своего контента, чтобы ускорить свою карьеру, в то же время внося свой вклад в проект с открытым исходным кодом и являясь частью сообщества, которое имеет право голоса в том, куда движется проект.
В вашем профиле будут ссылки на ваши социальные сети и контент. Вы также можете добавить свою временную шкалу, отзывы и предстоящие события, в которых вы участвуете.
https://github.com/EddieHubCommunity/LinkFree
Пример профиля LinkFree https://linkfree.eddiehub.io/eddiejaoude
LinkFree — это альтернатива LinkTree с открытым исходным кодом.
Платформа, на которой люди, занимающиеся технологиями, могут иметь единый центр для демонстрации своего контента, чтобы ускорить свою карьеру, в то же время внося свой вклад в проект с открытым исходным кодом и являясь частью сообщества, которое имеет право голоса в том, куда движется проект.
В вашем профиле будут ссылки на ваши социальные сети и контент. Вы также можете добавить свою временную шкалу, отзывы и предстоящие события, в которых вы участвуете.
https://github.com/EddieHubCommunity/LinkFree
Пример профиля LinkFree https://linkfree.eddiehub.io/eddiejaoude
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
УХ БЛЯ! Наткнулся на нейродебаггер, который исправляет ошибки в коде и объясняет их с помощью GPT-3.
Сам пока не пробовал, вечером посмотрю, но выглядит многообещающе.
Инструмент бесплатный, сайт проекта тут. Там же ссылка на гитхаб и инструкцию по установке
Сам пока не пробовал, вечером посмотрю, но выглядит многообещающе.
Инструмент бесплатный, сайт проекта тут. Там же ссылка на гитхаб и инструкцию по установке