Всё про Алгоритмы и Структуры данных – Telegram
Всё про Алгоритмы и Структуры данных
7.93K subscribers
329 photos
36 videos
5 files
2.8K links
Мы не претендуем на оригинальность контента, мы лишь собираем материал из открытых источников.

Ссылка: @Portal_v_IT

Сотрудничество, авторские права: @oleginc, @tatiana_inc

Канал на бирже: https://telega.in/c/structuredata
Download Telegram
Обрабатываем строки в 109 раз быстрее, чем Nvidia на H100

Недавно я выпустил StringZilla v4 — первый релиз с поддержкой CUDA моей библиотеки для обработки строк, нацеленной в первую очередь на SIMD. Это означает, что теперь она стала быстрой не только на CPU, но и на GPU!

https://habr.com/ru/articles/949522/

Алгоритмы и Структуры данных
🤯1
Квантование в картинках: раскрываем тайны сжатия LLM

Большие языковые модели (LLM, Large Language Model), как подсказывает их название, часто отличаются значительными размерами и слишком велики для того, чтобы нормально работать на обычных компьютерах. Масштабы этих моделей могут измеряться миллиардами параметров. Обычно для обеспечений достойной скорости их работы необходимы GPU с серьёзными объёмами видеопамяти (VRAM).

Из-за этого проводится всё больше и больше исследований, посвящённых уменьшению размеров подобных моделей. Исследователи совершенствуют обучение моделей, используют адаптеры, прибегают к другим способам их оптимизации. Один из главных приёмов уменьшения размеров моделей называется квантованием (quantization).

https://habr.com/ru/companies/wunderfund/articles/950118/

Алгоритмы и Структуры данных
Ещё 20+ игр, которые прокачивают логику, алгоритмы и радуют умный мозг [по следам комментариев на Habr]

Я выложила вчера подборку «15 игр, которые прокачивают логику, алгоритмы, ассемблер и силу земли». И столько классных ссылок в комментарии накидали, что я чуток опухла, но сделала отдельную подборку, по горячим следам. Спасибо большое всем, кто внес свой вклад.

https://habr.com/ru/companies/timeweb/articles/645593/

Алгоритмы и Структуры данных
Почему Игнорирование Божественного в Коде Приводит к Пространственному Коллапсу

Этот отчет представляет Hive Chat как «Живое Приложение» и раскрывает его уникальную философскую основу. Мы утверждаем, что пренебрежение «священными» принципами — онтологической чистотой, биоинспирированной архитектурой и целостными метриками здоровья — приводит к хрупкому, неустойчивому программному обеспечению. Принимая эти принципы, Улей способствует созданию надежных, эволюционирующих и по-настоящему совместных систем человек-ИИ, предлагая жизненно важную альтернативу традиционным, часто хаотичным, парадигмам разработки.

https://habr.com/ru/articles/950498/

Алгоритмы и Структуры данных
Алгоритм поиска аномалий Isolation Fores

Меня
зовут Михаил Васильев, я старший специалист по машинному обучению в компании Makves (входит в группу компаний «Гарда»). Эта статья — вторая в цикле, посвященном поиску аномалий. В первой статье мы поговорили о том, что такое аномалии и почему их сложно искать, а также по шагам разобрали алгоритмы HBOS и ECOD.

Сегодня предлагаю разобрать еще один интересный алгоритм: Isolation Forest, а также немного углубиться в проблематику задачи.

https://habr.com/ru/companies/garda/articles/938366/

Алгоритмы и Структуры данных
Анализ гипотез и очень, ооооооочень странные дела

Лет 5 назад я усиленно пытался вникнуть в тервер и статы: книги, статьи, вебсёрфинг. Даже написал несколько статей: раз, два, три. Вообще, в планах было написать довольно большой цикл статей, что бы подсветить какие-то самые сложные вещи, да и самому в них разобраться - совместить полезное с полезным, так сказать. Однако, в какой-то момент я решил, что полученных знаний достаточно для новых проектов и ушел в работу. Работал. Работал. Работал.

https://habr.com/ru/articles/950618/

Алгоритмы и Структуры данных
Планы CS Space на осенний семестр

Как обещали в первом посте, возвращаемся с подробным анонсом осенних курсов. В этом семестре мы организуем большие и малые курсы, охватывающие несколько тем в компьютерных науках, искусственном интеллекте и математике.

https://habr.com/ru/articles/950722/

Алгоритмы и Структуры данных
Как работать с нейросетями эффективно: теория и практика

Языковые нейросети являются мощнейшим инструментом, который может существенно ускорить и упростить работу во многих профессиях: разработчиков, SMM- и SEO-специалистов, маркетологов, копирайтеров и журналистов, HR, аналитиков, проджект- и продукт-менеджеров и многих других, кто ежедневно работает с информацией. Они могут помочь в разработке ПО, написании контента, поиске и обобщении информации, обработке и структурировании данных, могут давать советы, подсказывать пути и инструменты для принятия решений. Однако фундамент языковых ИИ хоть и был формально изобретен еще в середине прошлого века, в практический обиход нейросети вошли совсем недавно, и не все умеют эффективно ими пользоваться. В данной статье я опишу наиболее эффективные практики работы с языковыми нейросетями, которые известны на сегодняшний день.

https://habr.com/ru/articles/950730/

Алгоритмы и Структуры данных
Как работать с нейросетями эффективно: теория и практика

Языковые нейросети являются мощнейшим инструментом, который может существенно ускорить и упростить работу во многих профессиях: разработчиков, SMM- и SEO-специалистов, маркетологов, копирайтеров и журналистов, HR, аналитиков, проджект- и продукт-менеджеров и многих других, кто ежедневно работает с информацией. Они могут помочь в разработке ПО, написании контента, поиске и обобщении информации, обработке и структурировании данных, могут давать советы, подсказывать пути и инструменты для принятия решений. Однако фундамент языковых ИИ хоть и был формально изобретен еще в середине прошлого века, в практический обиход нейросети вошли совсем недавно, и не все умеют эффективно ими пользоваться. В данной статье я опишу наиболее эффективные практики работы с языковыми нейросетями, которые известны на сегодняшний день.

Примечание: статья описывает работу только с нейросетями, которые генерируют текст. Для генерации изображений, звука, видео, синтеза речи существуют свои методы, которые выходят за рамки данного текста.

https://habr.com/ru/articles/950730/

Алгоритмы и Структуры данных
Краткая история комплексных чисел

Вам это может показаться странным, но были времена, когда отрицательные числа казались людям чем-то неестественным, причём даже тем людям, которые зарабатывали себе на жизнь числами — математикам. Как можно считать числом то, что не имеет физического воплощения? С отрицательными числами в итоге смирились, но уж что точно невозможно было терпеть, так это совсем непонятную величинуi, квадрат которой-1, это уже противоречит всякому здравому смыслу. Тем не менее время показало, что законы физики и математики, сформулированные с использованиемi имеют больший смысл, чем законы, сформулированные без неё. Еще в 19 веке Карл Фридрих Гаусс отметил, что "Если бы вместо того, чтобы называть +1, −1,\sqrt{−1}​ положительной, отрицательной или мнимой (или даже невозможной) единицей, их назвали бы, скажем, прямой, обратной или боковой единицей, то едва ли можно было бы говорить о какой-либо темноте".

В статье хочу рассказать о том, как небольшой математический трюк, придуманный для решения кубических уравнений 500 лет назад, вошёл в фундамент современной науки и инженерии.

https://habr.com/ru/articles/950774/

Алгоритмы и Структуры данных
Как измерить количество информации?

Мы ежедневно работаем с информацией из разных источников. При этом каждый из нас имеет некоторые интуитивные представления о том, что означает, что один источник является для нас более информативным, чем другой. Однако далеко не всегда понятно, как это правильно определить формально. Не всегда большое количество текста означает большое количество информации. Например, среди СМИ распространена практика, когда короткое сообщение из ленты информационного агентства переписывают в большую новость, но при этом не добавляют никакой «новой информации». Или другой пример: рассмотрим текстовый файл с романом Л.Н. Толстого «Война и мир» в кодировке UTF-8. Его размер — 3.2 Мб. Сколько информации содержится в этом файле? Изменится ли это количество, если файл перекодировать в другую кодировку? А если заархивировать? Сколько информации вы получите, если прочитаете этот файл? А если прочитаете его второй раз?

https://habr.com/ru/companies/JetBrains-education/articles/599637/

Алгоритмы и Структуры данных
15 игр, которые прокачивают логику, алгоритмы, ассемблер и силу земли

Есть «Super Mario», признанная классика видео игр. Есть «Doom», который запускают на чайниках и тестах на беременность. Есть супер-популярные по статистике twitch.tv игры («League of Legends», «GTA V», «Fortnite», «Apex Legends») которые стримят пятая часть всех стриммеров.

А есть игры, на которые очень мало обзоров, но они супер крутые — игры про алгоритмы. Игры, в которых можно кодить на ретро-компьютере; игры, которые надо взламывать; игры, где можно программировать контроллеры или поведение персонажей; игры, где можно создавать свою игру внутри игры.

Под катом подборка классных игр про алгоритмы за последние 10 лет. Если что-то упустила — буду рада дополнениям.

https://habr.com/ru/companies/timeweb/articles/599835/

Алгоритмы и Структуры данных
2
Интерпретация моделей и диагностика сдвига данных: LIME, SHAP и Shapley Flow

В этом обзоре мы рассмотрим, как методы LIME и SHAP позволяют объяснять предсказания моделей машинного обучения, выявлять проблемы сдвига и утечки данных, осуществлять мониторинг работы модели в production и искать группы примеров, предсказания на которых объясняются схожим образом.

Также поговорим о проблемах метода SHAP и его дальнейшем развитии в виде метода Shapley Flow, объединяющего интерпретацию модели и многообразия данных.

https://habr.com/ru/companies/ods/articles/599573/

Алгоритмы и Структуры данных
Как мы используем LLVM для ускорения формирования отчётов

Для бизнес-приложений очень важна возможность быстро сформировать нужный отчёт. Для этого, в частности, важно быстро получить результат запроса (часто – очень сложного запроса) к СУБД. Что не всегда просто, потому что с этой СУБД работают на чтение и запись тысячи (а иногда - десятки тысяч) пользователей.

Чтобы не нагружать рабочую СУБД запросами для отчетов мы разработали механизм копий баз данных, копирующий данные (все или их часть) из рабочей БД в отдельную БД для отчетности. Пользователи могут строить отчеты на «отчетной» БД, быстрее получая результат и не нагружая рабочую базу.

Для дальнейшего ускорения формирования отчетности мы разработали Дата акселератор — собственную SQL-совместимую in-memory базу данных, ориентированную на максимальную производительность в задачах OLAP. Дата акселератор может использоваться в качестве «отчетной БД» и позволяет существенно (иногда – на порядки) ускорить формирование отчетов.

https://habr.com/ru/companies/1c/articles/645365/

Алгоритмы и Структуры данных
1
k-means in Clickhouse

Алгоритм k-means хорошо известен и применяется когда надо быстро разделить массив данных на группы или т.н. "кластеры". Предполагается, что каждый элемент данных имеет набор численных метрик, и мы можем говорить как о позиции точки в некотором многомерном пространстве, так и о их взаимной близости.

k-means относится к категории EM-алогоритмов (Expectanion-Maximization), где мы попеременно определяем насколько правильно текущее разбиение точек на кластеры, а затем немного его улучшаем.

Этот достаточно простой алгоритм, был сформулирован ещё в 1950-х, и с тех пор реализован на самых разных языках программирования. Есть реализации для MySQL и Postgress, и даже для Excel.

https://habr.com/ru/articles/645291/

Алгоритмы и Структуры данных
Разделяй и Властвуй. Разбор задач

Решение задач с помощью метода "Разделяй и Властвуй" или по-английски "Divide and Conquer" является одним из базовых методов по ускорению алгоритмов. Примером тому служит переход от квадратичной сложности пузырьковой сортировки или сортировки вставками к сложности \inline O(n\log{n}) при сортировке слиянием. Или переход от линейной сложности к логарифмической, при реализации поиска элемента в отсортированном массиве (см. бинарный поиск).


В этой статье мы рассмотрим два примера задач с пояснениями и кодом, в которых будет использоваться этот подход.

https://habr.com/ru/companies/otus/articles/599309/

Алгоритмы и Структуры данных
ИИ-поиск в 2ГИС: как учим нейросети понимать настроение, фото и смыслы

Поиск — одна из ключевых функций в 2ГИС. Он помогает миллионам пользователей каждый день находить нужные места в городе. Долгое время мы опирались на классические методы: морфологию, справочник организаций, геопозицию и популярность объектов. Это позволяло покрывать множество сценариев, но со временем стало понятно — этого недостаточно.

Пользователи хотят искать так, как думают: по настроению, по смыслу или вообще без слов — по фотографии блюда или интерьера. Мы решили переосмыслить подход к поиску. В этой статье рассказываем, как мы решали три задачи:

https://habr.com/ru/companies/2gis/articles/951008/

Алгоритмы и Структуры данных
Музыка и математика: как аккорды вдохновляют архитектуру алгоритмов

Эта статья — эксперимент на стыке музыки, математики и программирования. Мы попробуем взглянуть на аккорды не как на набор звуков, а как на архитектурные паттерны. Я покажу, как гармонические последовательности могут подсказать нам структуру алгоритмов, приведу примеры кода и проведу параллели между миром нот и миром вычислений.

https://habr.com/ru/articles/951718/

Алгоритмы и Структуры данных
Как JPEG стал стандартом изображений в интернете

JPEG — формат-динозавр. Ему уже за тридцать, но он по-прежнему живее всех живых: даже в 2025 году изображения в JPEG встречаются повсюду.

В конце 80-х инженерам нужно было как-то справляться с растущими размерами файлов. Интернет был медленным, а фотографии — всё тяжелее. Тогда и придумали решение: сжатие с потерями, основанное на дискретном косинусном преобразовании (DCT). Если по-простому, DCT — это способ выкинуть из картинки то, чего наш глаз почти не заметит, и оставить главное. В итоге получаем файл в разы меньше, а картинка всё ещё выглядит прилично.

Почему именно этот подход победил конкурентов, кто его протолкнул и как JPEG стал «языком» интернета для изображений — обо всём этом дальше.

https://habr.com/ru/companies/first/articles/951960/

Алгоритмы и Структуры данных
👍1