NEW BOT Телеграм, страница - 928519652

bugs ans letters

18 subscribers

34 photos

3 videos

3 files

135 links

Мой канал для себя про NLP. В основном – помойка из ссылок.

Download Telegram

About

Blog

Apps

Platform

bugs ans letters

bugs ans letters

Forwarded from AbstractDL

Your Transformer is Secretly Linear

Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь один nn.Linear(), а модель будет работать, будто бы ничего не поменялось!

Такая неадекватная линейность наблюдается во всех трансформерах-декодерах (GPT, Llama, Mistral, и тд.). Мы предполагаем, что это связано с feature triggering режимом, то есть нелинейность "вспыхивает" на очень небольшом количестве важных токенов (что-то похожее было в статье Deja Vu). Поэтому совсем уж много слоёв таким образом заменить нельзя, нелинейность хоть сама по себе и крошечная, но её влияние очень быстро накапливается.

Ещё из интересных наблюдений — по мере претрейна нелинейность растёт, а во время файнтюнинга (или RLHF) она всегда падает. Исходя из этого, мы придумали регуляризацию, которая немножко усиливает нелинейность и бустит метрики на претрейне.

P.S. Вместе с кодом для оценки линейности слоёв трансформеров мы выкладываем и код к прошлой нашей статье про анизотропию и внутреннюю размерность.

Статья, GitHub, хабр

125 views13:42

bugs ans letters

Невероятно крутая статья про связь компьютерной лингвистики как науки, NLP и датасаенса в целом по состоянию на 2024. В ней же есть ссылка на the bitter lesson, но, собственно, статья показывает ценность лингвистики в долгосрочной перспективе. #linguistics

237 views08:07

bugs ans letters

Уже не совсем новая статейка про #prompt engineering для #llm

How to write great AI prompts

Use language to make your AI model do what you want it to, even if you aren't an AI engineer.

130 views09:36

bugs ans letters

Forwarded from Voice stuff

В чём смысл Incremental FastPitch

Сейчас большинство систем ТТС работают с глобальным вниманием, из-за трансформеров под капотом. Это здорово и улучшает интонацию, но создаёт проблемы когда мы делаем стриминг речи из LLM. А LLM во время инференса выдают нам результат рекуррентно, с самплингом, посимвольно.

В общем, есть у вас LLM, которая очень медленная и, каким бы быстрым ваш ТТС не был, нужно ждать пока LLM доделает свою реплику до конца, или, хотя бы, до точки.

Тут приходит на помощь инкрементный ТТС. Он позволяет генерировать речь уже на первых нескольких токенах. А это в свою очередь, экономит где-то полсекунды-секунду от общей задержки системы, что очень сильно влияет на отзывчивость системы.

За ссылку спасибо @milana_shhanukova.

https://arxiv.org/abs/2401.01755

Incremental FastPitch: Chunk-based High Quality Text to Speech

Parallel text-to-speech models have been widely applied for real-time speech synthesis, and they offer more controllability and a much faster synthesis process compared with conventional...

78 views09:54

bugs ans letters

Увидел новый акроним для машинного обучения.

1.14K views10:36

bugs ans letters

Forwarded from Love. Death. Transformers.

Симпатичная open source книжка DevOps for Data Science полезная для всех кто сисадминит и хочет развиваться в сторону дата инфраструктуры. Не охватывает платформы, охватывает большую часть фундаментальных вопросов. Полезное и для дата инженеров тоже.

DevOps for Data Science

35 views11:00

bugs ans letters

Forwarded from DLStories

Очень классный туториал с недавнего ICML: Physics of Language Models.

Я бы даже сказала, что это не туториал, а довольно большая работа по LLM explainability. Конкретнее, авторы хотят приблизиться к ответу на вопросы "где находится и как устроен intelligence у LLM" и "что делать, чтобы intelligence усилить, т.е. подойти ближе к AGI".

Подход у них довольно интересный. Авторы делят intelligence на три категории:
- Language structures. Это о том, как LLM выучивает сложную структуру языка. Т.е. какие механизмы в этом задействованы и как идейно происходит обработка текста;
- Reasoning. Это про способность LLM к рассуждениям, выводам и аргументации;
- Knowledge. Как устроено хранение информации в LLM, как ей манипулировать и как объем информации, которую вмещает LLM, зависит от количества ее параметров.

Изучать это все предлагают следующим образом: давайте для каждой категории сгенерируем синтетические данные с заранее известными свойствами, на которых будем обучать LLM и смотреть, как LLM эти свойства выучивает. К примеру, для language structures авторы предложили сгенерировать датасет семейства контекстно-свободных грамматик со сложной структурой (более сложной, чем у обычных английских текстов). Обучая модель на таких данных авторы смотрят на то, что происходит внутри модели (например, какие паттерны attention активируются) и делают выводы о том, каким образом, каким алгоритмом LLM обрабатывает язык.

В посте ниже опишу общие выводы, которые авторы делают из своей работы. А вот ссылки на видео/статьи туториала:
Сайт
Part 1: Hierarchical Language Structures:
- Видео;
- Статья на arxiv;
Part 2: Grade-School Math:
- Видео будет тут после 20 августа;
- Статьи на arxiv: часть 1, часть 2 обещают вот-вот;
Part 3: Knowledge:
- Видео;
- Статьи на arxiv: часть 1, часть 2, часть 3

35 views00:22

bugs ans letters

О. Отличная статья, начинающаяся решением поставленной задачи, и заканчивающаяся глоссарием "Linux для чайников за 15 минут".
#memo #cs101

Как я пришёл к пониманию основ создания Live-дистрибутивов Linux, решив починить свой старый SSD

Был у меня старенький SSD объёмом 240 Гбайт от Kingston, который внезапно перестал работать, вообще перестал распознаваться в системе. Попробовал я подключить SSD к другому компьютеру, попробовал...

31 views15:02

bugs ans letters

Обширная статья про обучение действительно Large Language Models, про проблемы распараллеливания на несколько кластеров и синхронизации данных. Со времён BigARTM задачи не сильно изменились, но результаты впечатляют.
#ml #llm #operations

Multi-Datacenter Training: OpenAI’s Ambitious Plan To Beat Google’s Infrastructure

Gigawatt Clusters, Telecom Networking, Long Haul Fiber, Hierarchical & Asynchronous SGD, Distributed Infrastructure Winners Buildouts of AI infrastructure are insatiable due to the continued im…

55 views12:55

bugs ans letters

Forwarded from Den4ik Research

RUPhon - новый открытый IPA фонемизатор для русского языка!

Совместно с @intexcp мы разработали RUPhon - библиотеку для фонемизации русского текста, использующую модели RUAccent-encoder. Модель поддерживает два языка: русский и английский.

Ключевые особенности

1. Модель может обрабатывать ударения на входе
2. Модель имеет относительно небольшой размер (от 55 до 120 мегабайт)

Метрики (F1)

charsiuG2P -> 0.9236
Omogre -> 0.9601
ru_g2p_ipa_bert_large -> 0.9868
RUPhon-small -> 0.9970
RUPhon-big -> 0.9990

А если вы хотите автоматически расставлять ударения, установите RUAccent и используйте его вместе с RUPhon!

Ссылка на библиотеку: https://github.com/Den4ikAI/ruphon
Донат: https://pay.cloudtips.ru/p/b9d86686

@den4ikresearch

37 views17:52

bugs ans letters

Forwarded from Градиент обреченный (Sergei Averkiev)

🔺 Transformer Explainer

Классная интерактивная визуализация про то, как работает трансформер.

Можно покрутить температуру и посмотреть как меняются вероятности распределения следующего токена. Можно вбить свой текст. Можно просто почитать статью под диаграммой.

Напомню также про классическую статью Illustrated Transformer

👉 Визуализация | GitHub | Видео

67 views22:49

bugs ans letters

Forwarded from Voice stuff

Лучший superresolution, который мне доводилось использовать.
Изображение слева во что только не преваращалось. И в белых, и в азиаток, и в аниме-гёрл. Вот эта моделька пока первая на моей памяти, которая достоверно восстанавливает это лицо. И с другими тоже хорошо работает.

https://arxiv.org/pdf/2401.13627
https://github.com/Fanghua-Yu/SUPIR

Попробовать можно вот тут
https://supir.suppixel.ai

35 views15:27

bugs ans letters

Forwarded from Things I read: учитель информатики

хочу в среду и четверг провести ещё несколько созвонов по часу, на которых научу вас курсорить с помощью этого прототипа

или мб попробуем replit agent

если у вас есть идея веб-приложения, и вы:
— заблокированы так как не знаете с чего начать
— не верите, что LLMки уже научились писать код, и боитесь пробовать
— не можете локально настроить среду разработчика, потому что не хватает скиллов
— не понимаете, как декомпозировать задачу на маленькие итерации, из которых можно закодить весь проект, не изучая программирование

то пишите в лс и предлагайте время в среду или в четверг (утром-днём по москве)

@vitalypavlenko

ChatGPT - Идеи веб-приложений по сложности

A conversational AI system that listens, learns, and challenges

36 views09:24

bugs ans letters

#ml #classification #bert #howto
Неплохое хауту по обучению с нуля классификатора. Всё же полезнее, чем в 2024 году на MNIST тренироваться, или на спам-классификаторах из 2007.

Sebastianraschka

Building A GPT-Style LLM Classifier From Scratch

Finetuning a GPT Model for Spam Classification

42 views09:25

bugs ans letters

#offtop #генетика
На Медузе на редкость потрясающего качества научно-популярная статья в категории "тут Нобелевку дали, объясняем".
На мой взгляд, прекрасно развивает и дополняет то лучшее с уроков биологии в школе почти двадцать лет назад, что нам давали в рамках "вот учебник, а вот что с тех пор исследовали".

Полвека назад многим ученым казалось, что биологию наконец удалось подчинить простым законам логики. Лауреаты Нобелевской премии…

В 2024 году Нобелевскую премию по физиологии и медицине присудили американским ученым Виктору Эмбросу и Гэри Равкуну за «открытие микроРНК и исследование их роли в посттранскрипционной регуляции экспрессии генов». Работы лауреатов, хоть и связаны с практической…

48 views09:33

bugs ans letters

Forwarded from Vladimir Protasov

Беглый гуглеж говорит вот чего: https://www.reddit.com/r/LocalLLaMA/comments/1cjvva9/llama_3_70b_3_k_s_partial_offload_possibleexcept/

From the LocalLLaMA community on Reddit

Explore this post and more from the LocalLLaMA community

41 views11:56

bugs ans letters

Forwarded from Системный Блокъ

Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP

Недавно СМИ облетела новость об увольнении всех российских программистов из компании ABBYY (тоже в прошлом российской, а теперь уже совсем нет). Теперь, когда страсти вокруг обсуждения дискриминации сотрудников по паспорту улеглись, хочется поговорить о более глубокой истории. Закат ABBYY — это фиксация проигрыша последней битвы лингвистов за автоматическую обработку языка. Мир Data Science победил. Главный редактор «Системного Блока» Даниил Скоринкин, работавший ABBYY в 2013–2017, подводит итоги и пытается сформулировать уроки из этой истории.

Что за ABBYY и при чем тут лингвисты и NLP?

История ABBYY началась в 1989 году, когда студент МФТИ Давид Ян решил сделать электронный словарь для подготовки к экзамену. Так появились Lingvo, а затем — система распознавания символов FineReader. Продукты ABBYY развивались, и компания стала глобальным лидером оптического распознавания в 1990-е и 2000-е. Затем ABBYY двинулась покорять машинный перевод.
На вооружение они взяли идеи известных лингвистов — в первую очередь Модели «Смысл ⇔ Текст» (прочитать о ней можно в нашем интервью с И. А. Мельчуком). Амбиция была в том, чтобы разобрать человеческие языки как формальные структуры на базе семантической иерархии. Но естественный язык устроен противоречиво и постоянно изменяется, подход оказался негибким и немасштабируемым

Что пошло не так?

В 2006-м появилась первая версия Google Translate. Она была несовершенной, но главное, что в ней был другой — статистический — подход. И масштабируемость. Для её улучшения не нужны были сотни лингвистов, только еще больше примеров перевода. В 2010-х стало ясно, что никаких шансов тягаться с Google Translate у ABBYY не было. С перевода ABBYY переключилась на задачи информационного поиска и извлечения информации из текста, но и там столкнулась с теми же проблемами: описания языка на базе лингвистической теории оказались немасштабируемыми, а решения уступали подходам на основе чистого машинного обучения.

C новой проблемой компания столкнулась весной 2022 – им пришлось выехать из России, чтобы сохранить зарубежных клиентов. Следующим ударом стали большие языковые модели, который научились лучше и быстрее выполнять те же задачи, что и классические системы распознавания от ABBYY. Сейчас от компании осталась только вывеска, действующие продукты и небольшое количество менеджеров и специалистов по продажам.

Какие уроки мы извлекаем?

За 70 лет исследований ИИ стало ясно, что самые общие методы, опирающиеся на масштабирование вычислений, намного эффективнее всех остальных. А желание ABBYY сделать универсальную NLP-систему с опорой на лингвистическую теорию оказалось утопией.

И всё-таки ABBYY успела сделать много важного: открывала кафедры на Физтехе и в РГГУ, оцифровывала наследия Льва Толстого и архива Большого театра. А еще благодаря ей появился «Системный Блокъ», ведь сооснователи издания познакомились именно там. И именно там вы сможете прочитать полную версию поста с мемами и более детальным описанием цифровой «Вавилонской башни», которую пыталась строить ABBYY.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP - Системный Блокъ

Недавно СМИ облетела новость об увольнении всех российских программистов из компании ABBYY (тоже в прошлом российской, а теперь уже совсем нет). Теперь, когда страсти вокруг обсуждения дискриминации сотрудников по паспорту улеглись, хочется поговорить о более…

❤3

36 views15:37

bugs ans letters

#ml #infrastructure Хорошая большая статья про обучение действительно больших моделей на большой инфраструктуре.
При всём при том оставляет некоторое ощущение – "а к чему это всё"?
Даже удивительно, что популярная статья читается как научная статья старой школы, когда проблемы поставлены, а решений толком не предвидится, типа живите с этим.

Multi-Datacenter Training: OpenAI’s Ambitious Plan To Beat Google’s Infrastructure

Gigawatt Clusters, Telecom Networking, Long Haul Fiber, Hierarchical & Asynchronous SGD, Distributed Infrastructure Winners Buildouts of AI infrastructure are insatiable due to the continued im…

39 views02:05

bugs ans letters

Возможно, все уже давно прочли, но пусть будет для заметки.
Alibaba успешно обучила относительно небольшую (32 миллиарда параметров в самом крупном варианте) модель (Qwen-2.5-Coder).
Заметна тенденция, как и с Министрелями, делать относительно небольшие специализированные модели; также заметно желание умещаться в лимит видеопамяти популярных объёмов (24-40-48-80 Gb), и при этом заметен рост числа параметров в каждой категории.
Интересно, что в основном постере сравнения идут с очень свежими моделями: что было год назад, то давно прошло.
#ml #code #davinci github

Qwen2.5-Coder just changed the game for AI programming—and it’s free

Alibaba's new AI coding assistant, Qwen2.5-Coder, challenges GPT-4o with state-of-the-art code generation, offering free and open-source AI tools to developers worldwide despite U.S. chip restrictions.

35 views17:58

bugs ans letters

Forwarded from Ruadaptная комната

В продолжении наших экспериментов с адаптацией Qwen-2.5 моделей мы выпускаем RuadaptQwen-2.5-32B-Instruct (v1)! Вероятно самая большая открытая модель на данный момент, адаптированная на русский язык (в частности у нее один из наилучших токенайзеров среди открытых моделей для русского языка).

Модель была оценена на бенчмарке MERA (см. картинку).
Некоторая особенность сабмита на MERA в том, что в нем был использован кастомный промпт (есть в карточке сабмита), но для честного сравнения мы также добавили сабмит с исходной версией модели с таким же промптом.

Ссылка на модель:
https://huggingface.co/msu-rcc-lair/RuadaptQwen-32B-instruct

GGUF версия:
https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct-GGUF

Попробовать можно тут:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5

Будем рады фидбеку по достоинствам и недостатком модели.

40 views18:28