NEW BOT Телеграм, страница - 228114698

bugs ans letters

18 subscribers

34 photos

3 videos

3 files

135 links

Мой канал для себя про NLP. В основном – помойка из ссылок.

Download Telegram

About

Blog

Apps

Platform

bugs ans letters

bugs ans letters

Увидел новый акроним для машинного обучения.

1.14K views10:36

bugs ans letters

Forwarded from Love. Death. Transformers.

Симпатичная open source книжка DevOps for Data Science полезная для всех кто сисадминит и хочет развиваться в сторону дата инфраструктуры. Не охватывает платформы, охватывает большую часть фундаментальных вопросов. Полезное и для дата инженеров тоже.

DevOps for Data Science

35 views11:00

bugs ans letters

Forwarded from DLStories

Очень классный туториал с недавнего ICML: Physics of Language Models.

Я бы даже сказала, что это не туториал, а довольно большая работа по LLM explainability. Конкретнее, авторы хотят приблизиться к ответу на вопросы "где находится и как устроен intelligence у LLM" и "что делать, чтобы intelligence усилить, т.е. подойти ближе к AGI".

Подход у них довольно интересный. Авторы делят intelligence на три категории:
- Language structures. Это о том, как LLM выучивает сложную структуру языка. Т.е. какие механизмы в этом задействованы и как идейно происходит обработка текста;
- Reasoning. Это про способность LLM к рассуждениям, выводам и аргументации;
- Knowledge. Как устроено хранение информации в LLM, как ей манипулировать и как объем информации, которую вмещает LLM, зависит от количества ее параметров.

Изучать это все предлагают следующим образом: давайте для каждой категории сгенерируем синтетические данные с заранее известными свойствами, на которых будем обучать LLM и смотреть, как LLM эти свойства выучивает. К примеру, для language structures авторы предложили сгенерировать датасет семейства контекстно-свободных грамматик со сложной структурой (более сложной, чем у обычных английских текстов). Обучая модель на таких данных авторы смотрят на то, что происходит внутри модели (например, какие паттерны attention активируются) и делают выводы о том, каким образом, каким алгоритмом LLM обрабатывает язык.

В посте ниже опишу общие выводы, которые авторы делают из своей работы. А вот ссылки на видео/статьи туториала:
Сайт
Part 1: Hierarchical Language Structures:
- Видео;
- Статья на arxiv;
Part 2: Grade-School Math:
- Видео будет тут после 20 августа;
- Статьи на arxiv: часть 1, часть 2 обещают вот-вот;
Part 3: Knowledge:
- Видео;
- Статьи на arxiv: часть 1, часть 2, часть 3

35 views00:22

bugs ans letters

О. Отличная статья, начинающаяся решением поставленной задачи, и заканчивающаяся глоссарием "Linux для чайников за 15 минут".
#memo #cs101

Как я пришёл к пониманию основ создания Live-дистрибутивов Linux, решив починить свой старый SSD

Был у меня старенький SSD объёмом 240 Гбайт от Kingston, который внезапно перестал работать, вообще перестал распознаваться в системе. Попробовал я подключить SSD к другому компьютеру, попробовал...

31 views15:02

bugs ans letters

Обширная статья про обучение действительно Large Language Models, про проблемы распараллеливания на несколько кластеров и синхронизации данных. Со времён BigARTM задачи не сильно изменились, но результаты впечатляют.
#ml #llm #operations

Multi-Datacenter Training: OpenAI’s Ambitious Plan To Beat Google’s Infrastructure

Gigawatt Clusters, Telecom Networking, Long Haul Fiber, Hierarchical & Asynchronous SGD, Distributed Infrastructure Winners Buildouts of AI infrastructure are insatiable due to the continued im…

55 views12:55

bugs ans letters

Forwarded from Den4ik Research

RUPhon - новый открытый IPA фонемизатор для русского языка!

Совместно с @intexcp мы разработали RUPhon - библиотеку для фонемизации русского текста, использующую модели RUAccent-encoder. Модель поддерживает два языка: русский и английский.

Ключевые особенности

1. Модель может обрабатывать ударения на входе
2. Модель имеет относительно небольшой размер (от 55 до 120 мегабайт)

Метрики (F1)

charsiuG2P -> 0.9236
Omogre -> 0.9601
ru_g2p_ipa_bert_large -> 0.9868
RUPhon-small -> 0.9970
RUPhon-big -> 0.9990

А если вы хотите автоматически расставлять ударения, установите RUAccent и используйте его вместе с RUPhon!

Ссылка на библиотеку: https://github.com/Den4ikAI/ruphon
Донат: https://pay.cloudtips.ru/p/b9d86686

@den4ikresearch

37 views17:52

bugs ans letters

Forwarded from Градиент обреченный (Sergei Averkiev)

🔺 Transformer Explainer

Классная интерактивная визуализация про то, как работает трансформер.

Можно покрутить температуру и посмотреть как меняются вероятности распределения следующего токена. Можно вбить свой текст. Можно просто почитать статью под диаграммой.

Напомню также про классическую статью Illustrated Transformer

👉 Визуализация | GitHub | Видео

67 views22:49

bugs ans letters

Forwarded from Voice stuff

Лучший superresolution, который мне доводилось использовать.
Изображение слева во что только не преваращалось. И в белых, и в азиаток, и в аниме-гёрл. Вот эта моделька пока первая на моей памяти, которая достоверно восстанавливает это лицо. И с другими тоже хорошо работает.

https://arxiv.org/pdf/2401.13627
https://github.com/Fanghua-Yu/SUPIR

Попробовать можно вот тут
https://supir.suppixel.ai

35 views15:27

bugs ans letters

Forwarded from Things I read: учитель информатики

хочу в среду и четверг провести ещё несколько созвонов по часу, на которых научу вас курсорить с помощью этого прототипа

или мб попробуем replit agent

если у вас есть идея веб-приложения, и вы:
— заблокированы так как не знаете с чего начать
— не верите, что LLMки уже научились писать код, и боитесь пробовать
— не можете локально настроить среду разработчика, потому что не хватает скиллов
— не понимаете, как декомпозировать задачу на маленькие итерации, из которых можно закодить весь проект, не изучая программирование

то пишите в лс и предлагайте время в среду или в четверг (утром-днём по москве)

@vitalypavlenko

ChatGPT - Идеи веб-приложений по сложности

A conversational AI system that listens, learns, and challenges

36 views09:24

bugs ans letters

#ml #classification #bert #howto
Неплохое хауту по обучению с нуля классификатора. Всё же полезнее, чем в 2024 году на MNIST тренироваться, или на спам-классификаторах из 2007.

Sebastianraschka

Building A GPT-Style LLM Classifier From Scratch

Finetuning a GPT Model for Spam Classification

42 views09:25

bugs ans letters

#offtop #генетика
На Медузе на редкость потрясающего качества научно-популярная статья в категории "тут Нобелевку дали, объясняем".
На мой взгляд, прекрасно развивает и дополняет то лучшее с уроков биологии в школе почти двадцать лет назад, что нам давали в рамках "вот учебник, а вот что с тех пор исследовали".

Полвека назад многим ученым казалось, что биологию наконец удалось подчинить простым законам логики. Лауреаты Нобелевской премии…

В 2024 году Нобелевскую премию по физиологии и медицине присудили американским ученым Виктору Эмбросу и Гэри Равкуну за «открытие микроРНК и исследование их роли в посттранскрипционной регуляции экспрессии генов». Работы лауреатов, хоть и связаны с практической…

48 views09:33

bugs ans letters

Forwarded from Vladimir Protasov

Беглый гуглеж говорит вот чего: https://www.reddit.com/r/LocalLLaMA/comments/1cjvva9/llama_3_70b_3_k_s_partial_offload_possibleexcept/

From the LocalLLaMA community on Reddit

Explore this post and more from the LocalLLaMA community

41 views11:56

bugs ans letters

Forwarded from Системный Блокъ

Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP

Недавно СМИ облетела новость об увольнении всех российских программистов из компании ABBYY (тоже в прошлом российской, а теперь уже совсем нет). Теперь, когда страсти вокруг обсуждения дискриминации сотрудников по паспорту улеглись, хочется поговорить о более глубокой истории. Закат ABBYY — это фиксация проигрыша последней битвы лингвистов за автоматическую обработку языка. Мир Data Science победил. Главный редактор «Системного Блока» Даниил Скоринкин, работавший ABBYY в 2013–2017, подводит итоги и пытается сформулировать уроки из этой истории.

Что за ABBYY и при чем тут лингвисты и NLP?

История ABBYY началась в 1989 году, когда студент МФТИ Давид Ян решил сделать электронный словарь для подготовки к экзамену. Так появились Lingvo, а затем — система распознавания символов FineReader. Продукты ABBYY развивались, и компания стала глобальным лидером оптического распознавания в 1990-е и 2000-е. Затем ABBYY двинулась покорять машинный перевод.
На вооружение они взяли идеи известных лингвистов — в первую очередь Модели «Смысл ⇔ Текст» (прочитать о ней можно в нашем интервью с И. А. Мельчуком). Амбиция была в том, чтобы разобрать человеческие языки как формальные структуры на базе семантической иерархии. Но естественный язык устроен противоречиво и постоянно изменяется, подход оказался негибким и немасштабируемым

Что пошло не так?

В 2006-м появилась первая версия Google Translate. Она была несовершенной, но главное, что в ней был другой — статистический — подход. И масштабируемость. Для её улучшения не нужны были сотни лингвистов, только еще больше примеров перевода. В 2010-х стало ясно, что никаких шансов тягаться с Google Translate у ABBYY не было. С перевода ABBYY переключилась на задачи информационного поиска и извлечения информации из текста, но и там столкнулась с теми же проблемами: описания языка на базе лингвистической теории оказались немасштабируемыми, а решения уступали подходам на основе чистого машинного обучения.

C новой проблемой компания столкнулась весной 2022 – им пришлось выехать из России, чтобы сохранить зарубежных клиентов. Следующим ударом стали большие языковые модели, который научились лучше и быстрее выполнять те же задачи, что и классические системы распознавания от ABBYY. Сейчас от компании осталась только вывеска, действующие продукты и небольшое количество менеджеров и специалистов по продажам.

Какие уроки мы извлекаем?

За 70 лет исследований ИИ стало ясно, что самые общие методы, опирающиеся на масштабирование вычислений, намного эффективнее всех остальных. А желание ABBYY сделать универсальную NLP-систему с опорой на лингвистическую теорию оказалось утопией.

И всё-таки ABBYY успела сделать много важного: открывала кафедры на Физтехе и в РГГУ, оцифровывала наследия Льва Толстого и архива Большого театра. А еще благодаря ей появился «Системный Блокъ», ведь сооснователи издания познакомились именно там. И именно там вы сможете прочитать полную версию поста с мемами и более детальным описанием цифровой «Вавилонской башни», которую пыталась строить ABBYY.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP - Системный Блокъ

Недавно СМИ облетела новость об увольнении всех российских программистов из компании ABBYY (тоже в прошлом российской, а теперь уже совсем нет). Теперь, когда страсти вокруг обсуждения дискриминации сотрудников по паспорту улеглись, хочется поговорить о более…

❤3

36 views15:37

bugs ans letters

#ml #infrastructure Хорошая большая статья про обучение действительно больших моделей на большой инфраструктуре.
При всём при том оставляет некоторое ощущение – "а к чему это всё"?
Даже удивительно, что популярная статья читается как научная статья старой школы, когда проблемы поставлены, а решений толком не предвидится, типа живите с этим.

Multi-Datacenter Training: OpenAI’s Ambitious Plan To Beat Google’s Infrastructure

Gigawatt Clusters, Telecom Networking, Long Haul Fiber, Hierarchical & Asynchronous SGD, Distributed Infrastructure Winners Buildouts of AI infrastructure are insatiable due to the continued im…

39 views02:05

bugs ans letters

Возможно, все уже давно прочли, но пусть будет для заметки.
Alibaba успешно обучила относительно небольшую (32 миллиарда параметров в самом крупном варианте) модель (Qwen-2.5-Coder).
Заметна тенденция, как и с Министрелями, делать относительно небольшие специализированные модели; также заметно желание умещаться в лимит видеопамяти популярных объёмов (24-40-48-80 Gb), и при этом заметен рост числа параметров в каждой категории.
Интересно, что в основном постере сравнения идут с очень свежими моделями: что было год назад, то давно прошло.
#ml #code #davinci github

Qwen2.5-Coder just changed the game for AI programming—and it’s free

Alibaba's new AI coding assistant, Qwen2.5-Coder, challenges GPT-4o with state-of-the-art code generation, offering free and open-source AI tools to developers worldwide despite U.S. chip restrictions.

35 views17:58

bugs ans letters

Forwarded from Ruadaptная комната

В продолжении наших экспериментов с адаптацией Qwen-2.5 моделей мы выпускаем RuadaptQwen-2.5-32B-Instruct (v1)! Вероятно самая большая открытая модель на данный момент, адаптированная на русский язык (в частности у нее один из наилучших токенайзеров среди открытых моделей для русского языка).

Модель была оценена на бенчмарке MERA (см. картинку).
Некоторая особенность сабмита на MERA в том, что в нем был использован кастомный промпт (есть в карточке сабмита), но для честного сравнения мы также добавили сабмит с исходной версией модели с таким же промптом.

Ссылка на модель:
https://huggingface.co/msu-rcc-lair/RuadaptQwen-32B-instruct

GGUF версия:
https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct-GGUF

Попробовать можно тут:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5

Будем рады фидбеку по достоинствам и недостатком модели.

40 views18:28

bugs ans letters

Despite its impressive output, generative AI doesn’t have a coherent understanding of the world | MIT News | Massachusetts Institute of Technology
https://news.mit.edu/2024/generative-ai-lacks-coherent-world-understanding-1105
#философия #llm

Despite its impressive output, generative AI doesn’t have a coherent understanding of the world

Large language models can achieve incredible performance on some tasks without having internalized a coherent model of the world or the rules that govern it, MIT researchers find. This means these models are likely to fail unexpectedly if they are deployed…

40 views18:54

bugs ans letters

#database #architecture Картинка шибко простенькая, но пусть будет

44 views19:01

bugs ans letters

Forwarded from Градиентное погружение (Максим Герасимов)

🔥TensorRT-LLM

👉Ваш любимый нейронный ускоритель получил расширение!

TensorRT - движок, который применяет оптимизации для эффективного использования NVIDIA-GPU в Deep Learning.

Что интересного?

💡Интеграция с NVIDIA Triton Inference Server
💡Поддержка Multiple GPU
💡Python API (очень напоминает API HF)
💡Есть поддержка 17 моделей (с примерами): Blib2, LLaMa 1/2, GPT-like, StarCoder, Bert, etc
💡Поддержка квантизации: FP32, FP16, BF16, FP8, INT8, INT4
💡Beam-search & Greedy-search
... и многое другое!

Multi-head Attention (MHA), Multi-query Attention (MQA), Group-query Attention (GQA), In-flight Batching, Paged KV Cache for the Attention, Tensor Parallelism, Pipeline Parallelism, INT4/INT8 Weight-Only Quantization (W4A16 & W8A16), SmoothQuant, GPTQ, AWQ, RoPE

@gradientdip

Конечно, сейчас проект сыроват, но все впереди

Github
Performance (не нашел сравнения с обычным TensorRT)
Документация

🔥1

44 views23:54

bugs ans letters

Forwarded from Плотва

взрыв градиента
за авторством stepan
(❣️)

45 views15:57