WTF is this manual? – Telegram
WTF is this manual?
27 subscribers
174 photos
40 videos
78 files
690 links
Obscure IT and graphs of...what?
Download Telegram
Forwarded from partially unsupervised
Я уже недавно писал, что в эпоху LLM регулярки снова стали актуальным инструментом так называемого AI. Regex-in-the-loop как промежуточный вариант между "слепо доверимся черному ящику" и относительно дорогим human-in-the-loop.

И вот для тех, кто уже перешел с ChatGPT на что-то опенсорсное из зоопарка парнокопытных, уже появился враппер, который заставляет LLM-ку отвечать в заданном формате. Идея очень простая:

ReLLM filters non-matching tokens pre-generation. For each token, ReLLM tests every possible completion against a partial regex. For the potential completions that do not match the pattern, ReLLM masks the logits so that the language model does not generate them.

У меня нет бенчмарков, потому голословно выскажу предположение, что для ряда нехитрых продакшен задач такой нехитрый костыль сильно сократит отставание опенсорсных LLM от великого и могучего OpenAI.
Хотите посмотреть на крутейшую коллекцию txt-файлов 1960-1980 годов?

Всего файлов примерно 60 тысяч, и весят они больше гигабайта (!!!). Что в файлах? Главным образом это архивы BBS-ок (bulletin board system, чисто текстовый протокол связи, который использовался до веба и параллельно ему) 1982-1996 годов. Если вам когда-нибудь хотелось посмотреть на то, что это за такая "свобода" интернетов, которую мы потеряли, вам сюда (и желательно через тор): тут и пираты, и хакеры, и криптоанархисты, и просто анархисты разной степени деструктивности и политической сознательности. Среди тем - хакерство, оккультное, вепщества, политика, наука и не вполне наука, научная фантастика, всяческое выживалие, теории заговора, НЛО, вирусы, сексуальность, телефонный фрикинг. Отдельная директория отведена под полные архивы отдельных BBS-ок.

Речь идёт не только о .txt, но о любых ascii-файлах, которые бережно собирает замечательный энтузиаст-архивист Джейсон Скотт с дискет, магнитных лент, дисков и других носителей. Файлы могут быть довольно экзотичных расширений (.nfo, .box, .ght, .01) или не иметь их вовсе, но в целом всё читается обычным блокнотом.

Если у вас хороший браузер, он будет ругаться: сайт Скотта работает на http (без заветной буковки s), но это не страшно, потому что это good old static web. Никаких куки, никакого интерактива, никаких данных от пользователей, голый html-2.

По какой-то загадочной причине хочется прислать вам ссылку не на оригинал, а на зеркало: https://textfiles.vistech.net/
👍1
Forwarded from GitHub Community
OCRmyPDFинструмент, что конвертирует обычный PDF в доступный для поиска файл, добавляя текстовый слой OCR к отсканированным PDF-файлам

Это позволяет выполнять их поиск по тексту или копирование и вставку

Ссылка на проект

GitHub | #Interesting #Useful
Forwarded from Open Source
This media is not supported in your browser
VIEW IN TELEGRAM
Video-LLaMA

Аудиовизуальная языковая модель ИИ, настроенная для понимания видео.

https://github.com/DAMO-NLP-SG/Video-LLaMA
Forwarded from akater
В тему: я сюда еще не писал, что релизнул билд-систему, которой сопровождаю свои пакеты, написанные в Орге.

Она и сама себя почти полностью билдит, я прям доволен.

Хотя в основном она мне нужна как нечто минималистичное, чтоб ею уже устанавливать настоящую билд-систему, но (1) это когда еще будет (2) некоторые люди вот собирают части своего конфига из Орга, и я подумал, может, им полезно будет.  Мне никогда не казалась хорошей идея танглить инит из одного-единственного орг-файла, но вот танглить из базы знаний в виде кучи орг-файлов — это осмысленнее.

Так что вот: fakemake. Если че-то непонятно написано в начале, жду замечаний. Ссылка верная, но м.б. недоступна в некоторых частях мира.
Forwarded from GitHub Community
Spyglassинструмент личной поисковой системы, которая индексирует то, что вам нужно, предоставляя вам информацию в простом и быстром интерфейсе

Позволяет пользователям сканировать и индексировать локальные документы/папки, различные интернет-темы, документы Google Диска, репозитории GitHub, сохраненные/проголосованные посты Reddit, Gmail, и многое другое

Ссылка на проект

GitHub | #Interesting #Search
Forwarded from Open Source
​​Black Hat Python

Код и упражнения из книги «Black Hat Python: программирование на Python для хакеров и пентестеров» прошедший рефакторинг и переписанный на Python 3

Книга является важной вехой для пентестинга с Python и получила положительные отзывы по всему миру.

Исходный код и упражнения из книги, охватывают такие темы как основы работы в сети, инструменты сниффинга, Scapy и ARP, интеграция Burp Suite, вредоносы для ОС Windows и многое другое...

https://github.com/carloocchiena/blackhat_python_book_code
Forwarded from GitHub Community
GPT Engineerинструмент на основе GPT OpenAI, который генерирует целые большие кодовые базы на основе запроса пользователя

Пользователи могут указать, что желают сделать благодаря ИИ, а инструмент будет задавать вопросы, уточняя все тонкости перед генерацией кода

Ссылка на проект

GitHub | #Interesting #AI
Forwarded from ultimately related
В каком-то чате скинули видос. Очень красивое решение одного вопроса Эрдёша.

https://youtu.be/ppaXUxsEjMQ

Будем вводить разные линейные порядки на множестве вещественных чисел.

Стандартный порядок интересен тем, что там, например, очень много арифметических прогрессий записаны в возрастающем порядке (все, имеющие положительную разность). Давайте зашафлим числа, получим новое отношение порядка. Эрдеш спрашивает: правда ли, что в новом порядке обязательно найдется сколь угодно длинная арифметическая прогрессия, записанная в своем порядке?

Вот оказывается, что нет, существуют так называемые "хаотичные порядки". Линейное упорядочивание (R, <) называется хаотичным, если не существуют трёх различных чисел x, y, z, для которых y = ½(x + z) и x < y < z.

Построение происходит в три этапа примерно так:

1. Сначала индуктивно строится хаотичное упорядочивание Z.

2. На любой конечный набор рациональных можно его продолжить, домножив члены набора на большое целое число. На бесконечное не получается так просто.

3. Зато можно сделать так: упорядочиваем Q и строим дерево, где на n-м уровне сидят хаотичные упорядочивания {q_1, ..., q_n} (ребро проводим, когда одно упорядочивание расширяет другое). По лемме Кёнига в дереве найдется бесконечная ветвь, это даст хаотичный порядок на Q.

4. На R делаем так, выбираем базис Гамеля (базис R как Q-векторного пространства), теперь на все вещественные числа можно распространить порядок с Q лексиографически (смотрим на коэффициенты в разложении по базису, базис упорядочен стандартно).
Forwarded from Open Source
This media is not supported in your browser
VIEW IN TELEGRAM
text-to-colorscheme

Это плагин neovim, который позволяет генерировать новые цветовые схемы «на лету» с помощью текстовой подсказки с использованием ChatGPT.

https://github.com/svermeulen/text-to-colorscheme
Forwarded from Alexander Chichigin
Кому-то может быть интересно поиграться: https://github.com/Exafunction/codeium-parse
CLI tool с tree-sitter и некоторым набором грамматик внутри, чтобы парсить исходники и выполнять запросы к полученному AST. Умеет выдавать результаты в JSON для последующих преобразований.
Forwarded from Code Learning
DeepCode.

Сканер
программного кода, который умеет находить ошибки и в дальнейшем предоставлять разработчикам рекомендации по их исправлению.

⤷ Ознакомиться на сайте

Code Learning | #Projects
Forwarded from Книжная библиотека | IT
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from dobbry vechur
Если вдруг тут есть такие же упоротые любители линукса и огромных vcv-патчей как я - очень советую https://github.com/Frogging-Family/linux-tkg, хороший сборник linux-патчей для гейминга. В моём случае очень заметно повысили производительность рэка.