NEW BOT Телеграм, страница

Data Mining | Анализ данных🚀

📎 Нашли для вас неплохое объяснение сети Колмогорова-Арнольда.

⚪ В видео рассматриваются: введение в многоуровневый перцептрон, введение в аппроксимацию данных, кривые Безье, B-сплайны, теорема универсальной аппроксимации, теорема представления Колмогорова-Арнольда, сети Колмогорова-Арнольда, сравнение MLP и KAN, обучаемые функции, количество параметров, расширение сетки, интерпретируемость и непрерывное обучение.

https://youtu.be/-PFIkkwWdnM?si=DlxRWw0YFQIdGiD5

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Kolmogorov-Arnold Networks: MLP vs KAN, Math, B-Splines, Universal Approximation Theorem

In this video, I will be explaining Kolmogorov-Arnold Networks, a new type of network that was presented in the paper "KAN: Kolmogorov-Arnold Networks" by Liu et al.
I will start the video by reviewing Multilayer Perceptrons, to show how the typical Linear…

8❤‍🔥3⚡1👍1🔥1

1.12K views16:12

Data Mining | Анализ данных🚀

💡Обзорная статья рассматривает проблему обучения с помощью зашумленных меток в контексте глубокого обучения.

Представлен обзор 62 методов обучения с учетом шумных меток, категоризированных по пяти группам.

Авторы провели систематическое сравнение шести характеристик для оценки их эффективности. Осветили методы оценки шума и используемые метрики оценки.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤‍🔥1

1.21K views18:50

Data Mining | Анализ данных🚀

💯13❤‍🔥73

1.94K views17:59

Data Mining | Анализ данных🚀

🧬 В статье рассматриваются ключевые аспекты квантового машинного обучения, включая NISQ и методы обеспечения устойчивости к ошибкам в квантовых вычислениях.

Обсуждаются основные концепции, алгоритмы и статистическая теория обучения.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍63

1.01K views18:30

Data Mining | Анализ данных🚀

Прочитал любопытное исследование про распространение ИИ в науке. За последние 40 лет использование ИИ в научных публикациях выросло в 13 раз! Среди юзеров-лидеров — инженеры, экологи и медики 👏

Но есть нюанс: хотя исследования с ИИ и становятся более распространенными, они как бы существуют отдельно от традиционных исследований. Как масло в воде — вроде везде, но не смешивается.

В общем, видим, как ИИ захватывает науку, но пока не очень хорошо интегрируется. Авторы изучили около 80 млн публикаций, чтобы прийти к таким выводам.

Если интересно, полное исследование можно найти здесь.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥73👍2💯1

1.55K views19:01

Data Mining | Анализ данных🚀

💥

Статья касается различных аспектов развития языковых моделей, начиная от Transformer и BERT, до более новых моделей типа GPT и RETRO.

Обсуждаются методы предварительного обучения, контекстуализированные эмбеддинги, и использование баз данных для улучшения работы моделей при генерации текста.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤‍🔥2

1.01K views18:30

Data Mining | Анализ данных🚀

Cтатья объясняет концепцию ранней остановки, ее плюсы и минусы, реализацию на Scikit-Learn и TensorFlow.

Она охватывает смещение и разброс, концепции переобучения и недообучения, регуляризацию, и дает примеры применения ранней остановки как в классических моделях машинного обучения (Scikit-Learn), так и в глубоком обучении (TensorFlow).

👍5❤‍🔥22

1.06K views19:07

Data Mining | Анализ данных🚀

🚕 Kак Uber использует теорию графов, вложения и механизм самовнимания для предсказания времени прибытия машины?

Рассматриваются традиционные алгоритмы маршрутизации, интеграция ML для учета времени суток и погодных условий, и использование кодирования признаков и самообучающихся архитектур для повышения точности прогнозов.

https://codecompass00.substack.com/p/uber-billion-dollar-problem-predicting-eta

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥6👍5🔥41

1.61K views17:06

Data Mining | Анализ данных🚀

📍Рассматриваются основы позиционного кодирования в трансформерах, объясняя, как синусоидальные функции вводят информацию о позициях токенов, что помогает моделям распознавать порядок элементов в последовательности.

Обсуждаются различные методы позиционного кодирования, включая обучаемые векторы и роторные кодировки, которые улучшают обработку длинных контекстов.

https://codecompass00.substack.com/p/positional-encoding-transformers

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍3❤‍🔥2

1.02K views19:34

Data Mining | Анализ данных🚀

Любопытный подкаст с Francois Chollet (создатель Keros). Парни обсудили ARC Prize на $1🍋, а именно:

Предпосылки и значимость соревнования ARC.
Сравнение ARC с другими тестами ИИ.
Проблема закрытости передовых исследований.
Возможные подходы к решению задач ARC.
Роль масштабирования моделей и "базовых знаний" в ИИ.
Влияние подобных конкурсов на развитие общего ИИ.

https://youtu.be/UakqL6Pj9xo?si=J9eiX4Z8ph46gwD_

YouTube

Francois Chollet - Why The Biggest AI Models Can't Solve Simple Puzzles

Here is my conversation with Francois Chollet and Mike Knoop on the $1 million ARC-AGI Prize they're launching today.

I did a bunch of socratic grilling throughout, but Francois’s arguments about why LLMs won’t lead to AGI are very interesting and worth…

❤‍🔥53

957 views15:17

Data Mining | Анализ данных🚀

Рассматриваются основные метрики оценки для NLP моделей, включая BLEU, NIST, METEOR, ROUGE, CIDEr, SPICE и BERTscore. Каждая метрика направлена на оценку качества перевода, суммаризации или других задач обработки естественного языка, используя различные подходы к сравнению гипотезы с эталоном, включая учет precision, recall, семантической аналогии и contextual embedding.

👍6

1K views15:35

Data Mining | Анализ данных🚀

Подробное введение в LSTM сети, охватывая их уникальную архитектуру, роль ворот и важность функций активации tanh и sigmoid.

Книга также содержит практические примеры использования LSTM сетей в Python с использованием TensorFlow для различных задач, включая обработку естественного языка и прогнозирование временных рядов.

https://medium.com/@palashm0002/understanding-and-implementing-lstm-networks-41ca52495108

❤‍🔥4🔥21

990 views15:34

Data Mining | Анализ данных🚀

➡️

Исследование проверяет эффективность стратегии обрезки слоев для предварительно обученных LLM, показывая минимальное снижение производительности до удаления значительной части слоев.

Авторы предлагают оптимальный блок слоев для обрезки на основе их сходства и применяют квантизаци и адаптеры низкого ранга, что позволяет значительно экономить вычислительные ресурсы и улучшать задержки при выводе.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5💯2❤‍🔥1

934 views15:35

Data Mining | Анализ данных🚀

Исследование анализирует, как внедрение синтетических данных влияет на масштабирование нейронных моделей.

Авторы разрабатывают теоретическую модель для предсказания возможного деградирования моделей при изменении масштабных законов, что подтверждается экспериментами с использованием трансформера и Llama2.

👍6

954 views15:36

Data Mining | Анализ данных🚀

⏩В статье рассматриваются ограничения векторного поиска для LLM и утверждается, что он не всегда является лучшим решением.

Приводятся примеры инфраструктурных стэков от известных венчурных компаний, критикуется доминирование векторного поиска и предлагаются альтернативные методы поиска.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6

931 views15:36

Data Mining | Анализ данных🚀

В статье обсуждаются проблемы концептуального дрейфа, который возникает, когда изменяется распределение данных, на основе которых обучена модель.

Представлены методы мониторинга и предотвращения дрейфа, такие как онлайн-обучение, периодическое переобучение моделей, использование ансамблевых методов и отбрасывание признаков.

Также описаны лучшие практики, включающие сбор и предобработку данных, их разметку, обнаружение дрейфа и его устранение.

❤‍🔥6💯21

872 views15:36

Data Mining | Анализ данных🚀

Статья охватывает основы Retrieval Augmented Generation, её применение для улучшения LLM, и решения проблем, связанных с генерацией некорректной информации.

Автор обсуждает, как интеграция методов извлечения информации может повысить точность и эффективность ИИ-ассистентов.

👍6❤‍🔥2

923 views15:37

Data Mining | Анализ данных🚀

Исследование рассматривает MoE-основанные большие языковые модели и их оптимальную настройку для инференции.

Авторы изучают зависимость производительности модели от её размера, объёма данных и числа экспертов в MoE, предлагая улучшенные методы настройки для достижения эффективности на этапе инференции при сохранении высокой производительности.

👍63❤‍🔥2

965 views15:37

Data Mining | Анализ данных🚀

Обзор применения Dropout регуляризации для борьбы с переобучением в моделях машинного обучения.

В статье рассматривается понятие переобучения и его важность, а также объясняется, как работает Dropout в нейронных сетях и как его можно применить к моделям машинного обучения на примере MLP, включая выбор оптимального коэффициента Dropout.

👍6❤‍🔥3🔥2

917 views15:38

Data Mining | Анализ данных🚀

Исследуются методы визуализации скрытых состояний языковых моделей Transformer с целью понять, как модели генерируют текст. Статья демонстрирует визуализации ранжирования токенов, логитов и вероятностей softmax на разных слоях моделей, таких как GPT-2 XL. Цель этих визуализаций - раскрыть принципы принятия решений моделью и процесс её работы от входных данных к выходным токенам через каждый слой модели.

👍6❤‍🔥3🔥2

887 views15:39

Data Mining | Анализ данных🚀

Парни создали объединённое ядро CUDA, которое деквантовывает значения fp6 до fp16 перед выполнением обычного умножения матриц fp16 с накопителями fp32. Это аналогично существующим ядрам для низкобитового вывода 4 бит и 8 бит, но с новым сложным форматом.

FP6-LLM позволяет выполнять вывод моделей быстрее в режиме, ограниченном пропускной способностью памяти (малые размеры пакетов), используя меньшие веса.

link

❤‍🔥6

932 views15:39

About

Blog

Apps

Platform