Обсуждаются различные методы позиционного кодирования, включая обучаемые векторы и роторные кодировки, которые улучшают обработку длинных контекстов.
https://codecompass00.substack.com/p/positional-encoding-transformers
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍3❤🔥2
Любопытный подкаст с Francois Chollet (создатель Keros). Парни обсудили ARC Prize на $1🍋, а именно:
Предпосылки и значимость соревнования ARC.
Сравнение ARC с другими тестами ИИ.
Проблема закрытости передовых исследований.
Возможные подходы к решению задач ARC.
Роль масштабирования моделей и "базовых знаний" в ИИ.
Влияние подобных конкурсов на развитие общего ИИ.
https://youtu.be/UakqL6Pj9xo?si=J9eiX4Z8ph46gwD_
Предпосылки и значимость соревнования ARC.
Сравнение ARC с другими тестами ИИ.
Проблема закрытости передовых исследований.
Возможные подходы к решению задач ARC.
Роль масштабирования моделей и "базовых знаний" в ИИ.
Влияние подобных конкурсов на развитие общего ИИ.
https://youtu.be/UakqL6Pj9xo?si=J9eiX4Z8ph46gwD_
YouTube
Francois Chollet - Why The Biggest AI Models Can't Solve Simple Puzzles
Here is my conversation with Francois Chollet and Mike Knoop on the $1 million ARC-AGI Prize they're launching today.
I did a bunch of socratic grilling throughout, but Francois’s arguments about why LLMs won’t lead to AGI are very interesting and worth…
I did a bunch of socratic grilling throughout, but Francois’s arguments about why LLMs won’t lead to AGI are very interesting and worth…
❤🔥5 3
Рассматриваются основные метрики оценки для NLP моделей, включая BLEU, NIST, METEOR, ROUGE, CIDEr, SPICE и BERTscore. Каждая метрика направлена на оценку качества перевода, суммаризации или других задач обработки естественного языка, используя различные подходы к сравнению гипотезы с эталоном, включая учет precision, recall, семантической аналогии и contextual embedding.
👍6
Подробное введение в LSTM сети, охватывая их уникальную архитектуру, роль ворот и важность функций активации tanh и sigmoid.
Книга также содержит практические примеры использования LSTM сетей в Python с использованием TensorFlow для различных задач, включая обработку естественного языка и прогнозирование временных рядов.
https://medium.com/@palashm0002/understanding-and-implementing-lstm-networks-41ca52495108
Книга также содержит практические примеры использования LSTM сетей в Python с использованием TensorFlow для различных задач, включая обработку естественного языка и прогнозирование временных рядов.
https://medium.com/@palashm0002/understanding-and-implementing-lstm-networks-41ca52495108
❤🔥4🔥2 1
Авторы предлагают оптимальный блок слоев для обрезки на основе их сходства и применяют квантизаци и адаптеры низкого ранга, что позволяет значительно экономить вычислительные ресурсы и улучшать задержки при выводе.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5💯2❤🔥1
Исследование анализирует, как внедрение синтетических данных влияет на масштабирование нейронных моделей.
Авторы разрабатывают теоретическую модель для предсказания возможного деградирования моделей при изменении масштабных законов, что подтверждается экспериментами с использованием трансформера и Llama2.
Авторы разрабатывают теоретическую модель для предсказания возможного деградирования моделей при изменении масштабных законов, что подтверждается экспериментами с использованием трансформера и Llama2.
👍6
Приводятся примеры инфраструктурных стэков от известных венчурных компаний, критикуется доминирование векторного поиска и предлагаются альтернативные методы поиска.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
В статье обсуждаются проблемы концептуального дрейфа, который возникает, когда изменяется распределение данных, на основе которых обучена модель.
Представлены методы мониторинга и предотвращения дрейфа, такие как онлайн-обучение, периодическое переобучение моделей, использование ансамблевых методов и отбрасывание признаков.
Также описаны лучшие практики, включающие сбор и предобработку данных, их разметку, обнаружение дрейфа и его устранение.
Представлены методы мониторинга и предотвращения дрейфа, такие как онлайн-обучение, периодическое переобучение моделей, использование ансамблевых методов и отбрасывание признаков.
Также описаны лучшие практики, включающие сбор и предобработку данных, их разметку, обнаружение дрейфа и его устранение.
❤🔥6💯2 1
Статья охватывает основы Retrieval Augmented Generation, её применение для улучшения LLM, и решения проблем, связанных с генерацией некорректной информации.
Автор обсуждает, как интеграция методов извлечения информации может повысить точность и эффективность ИИ-ассистентов.
Автор обсуждает, как интеграция методов извлечения информации может повысить точность и эффективность ИИ-ассистентов.
👍6❤🔥2
Исследование рассматривает MoE-основанные большие языковые модели и их оптимальную настройку для инференции.
Авторы изучают зависимость производительности модели от её размера, объёма данных и числа экспертов в MoE, предлагая улучшенные методы настройки для достижения эффективности на этапе инференции при сохранении высокой производительности.
Авторы изучают зависимость производительности модели от её размера, объёма данных и числа экспертов в MoE, предлагая улучшенные методы настройки для достижения эффективности на этапе инференции при сохранении высокой производительности.
👍6 3❤🔥2
Обзор применения Dropout регуляризации для борьбы с переобучением в моделях машинного обучения.
В статье рассматривается понятие переобучения и его важность, а также объясняется, как работает Dropout в нейронных сетях и как его можно применить к моделям машинного обучения на примере MLP, включая выбор оптимального коэффициента Dropout.
В статье рассматривается понятие переобучения и его важность, а также объясняется, как работает Dropout в нейронных сетях и как его можно применить к моделям машинного обучения на примере MLP, включая выбор оптимального коэффициента Dropout.
👍6❤🔥3🔥2
Исследуются методы визуализации скрытых состояний языковых моделей Transformer с целью понять, как модели генерируют текст. Статья демонстрирует визуализации ранжирования токенов, логитов и вероятностей softmax на разных слоях моделей, таких как GPT-2 XL. Цель этих визуализаций - раскрыть принципы принятия решений моделью и процесс её работы от входных данных к выходным токенам через каждый слой модели.
👍6❤🔥3🔥2
Парни создали объединённое ядро CUDA, которое деквантовывает значения fp6 до fp16 перед выполнением обычного умножения матриц fp16 с накопителями fp32. Это аналогично существующим ядрам для низкобитового вывода 4 бит и 8 бит, но с новым сложным форматом.
FP6-LLM позволяет выполнять вывод моделей быстрее в режиме, ограниченном пропускной способностью памяти (малые размеры пакетов), используя меньшие веса.
link
FP6-LLM позволяет выполнять вывод моделей быстрее в режиме, ограниченном пропускной способностью памяти (малые размеры пакетов), используя меньшие веса.
link
❤🔥6
Статья освещает методы оптимизации гиперпараметров для ML, начиная от ручного подбора и заканчивая байесовской модельно-основанной оптимизацией. Она подробно объясняет принципы построения вероятностной модели целевой функции и использования её для эффективного выбора оптимальных гиперпараметров, а также обсуждает преимущества этого подхода по сравнению с традиционными методами.
❤🔥6
Статья касается различных аспектов развития языковых моделей, начиная от Transformer и BERT, до более новых моделей типа GPT и RETRO.
Обсуждаются методы предварительного обучения, контекстуализированные эмбеддинги, и использование баз данных для улучшения работы моделей при генерации текста.
Обсуждаются методы предварительного обучения, контекстуализированные эмбеддинги, и использование баз данных для улучшения работы моделей при генерации текста.
👍5
Pассматривается создание инструмента для извлечения, анализа и визуализации данных статистики статей на Medium, включая построение интерактивных графиков, применение ML методов для анализа зависимостей и прогнозирования будущих показателей.
Автор демонстрирует не только техническую реализацию инструмента, но и применяет его для получения интересных инсайтов из своих собственных данных статистики Medium.
Автор демонстрирует не только техническую реализацию инструмента, но и применяет его для получения интересных инсайтов из своих собственных данных статистики Medium.
👍4
Статья обсуждает контроверсию вокруг фторирования воды, подчеркивая его эффективность и безопасность на основе мета-анализов и исследований. Автор рассматривает аргументы противников, подчеркивая необходимость осмысленного подхода к научным данных в общественном здравоохранении.
👍6❤🔥2🐳2
Статья рассматривает применение моделей глубокого обучения, включая архитектуры на основе трансформеров, для задачи ранжирования в системах информационного поиска. Обсуждаются модели типа MonoBERT и DuoBERT для переранжировки запросов, а также использование моделей типа T5 для ранжирования документов на основе последовательностей.
❤🔥6👍3
Автор делится примером, когда нужно оставить только имена длиннее пяти букв, и примером, когда нужно заменить короткие имена на символ-заполнитель. Объясняется, почему порядок частей в этих включениях различается и как это соотносится с документацией Python. Статья также кратко рассматривает разницу между выражениями и операторами, помогая понять, почему тернарный оператор является выражением и как его использовать в списковых включениях.
❤🔥4👍3🔥1
Йошуа Бенгио рассказывает о рисках работы с большими языковыми моделями, как, например, когда модель придумывает ответы, которые звучат правдоподобно, но на самом деле неверны. Он предлагает способ борьбы с этим — улучшать тексты и модели шаг за шагом, чтобы избежать таких ошибок. Подробнее👇
https://yoshuabengio.org/2024/07/09/reasoning-through-arguments-against-taking-ai-safety-seriously/
https://yoshuabengio.org/2024/07/09/reasoning-through-arguments-against-taking-ai-safety-seriously/
Please open Telegram to view this post
VIEW IN TELEGRAM
Yoshua Bengio
Reasoning through arguments against taking AI safety seriously - Yoshua Bengio
About a year ago, a few months after I publicly took a stand with many other peers to warn the public of the dangers related…
🔥6👍2❤🔥1