Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​🔥K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences

Эффективная и надежная платформа, основанная на ключевом понимании: изображения и видео обладают более высокой интуитивностью восприятия, чем тексты, что позволяет быстро оценивать несколько образцов одновременно.

K-Sort Arena использует сравнения K-wise, позволяя моделям K участвовать в соревнованиях «все против всех», которые дают гораздо более богатую информацию, чем парные сравнения. Для повышения надежности системы мы используем вероятностное моделирование и байесовские методы обновления.

Благодаря своей высокой эффективности K-Sort Arena может непрерывно включать новые модели и обновлять таблицу лидеров с минимальным количеством голосов.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​🗣Гайд по работе языковых моделей для начинающих

В этой статье вы узнаете о том, как устроены самые популярные языковые модели и что нужно знать, чтобы начать с ними работать.

Читать...
​​👾Как мы обучали нейросеть распознавать юридические документы

В этой статье мы рассмотрим разработку нейронной сети для анализа и верификации юридических документов, в частности, нормативных правовых актов.

Читать...
​​🗣Dolphin: длинный контекст как новая модальность для энергоэффективных языковых моделей на устройстве

Подход решает проблемы значительного потребления энергии и задержек, присущие моделям на устройстве.

Dolphin использует компактный декодер параметров 0,5B для извлечения обширной контекстной информации во встраивание памяти, существенно сокращая длину входных данных для первичной модели декодера параметров 7B.

Этот инновационный метод позволяет обрабатывать существенно более длинные контексты без типичных вычислительных затрат, связанных с расширенными последовательностями входных данных.

Эмпирические оценки демонстрируют 10-кратное улучшение энергоэффективности и 5-кратное сокращение задержек по сравнению с обычными методами обработки полноразмерного контекста без потери качества ответа.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
МТС Web Services запустила два новых кластера виртуальной инфраструктуры с графическими ускорителями, тем самым увеличив собственные GPU-мощности для обучения искусственного интеллекта на 40%. До конца года эта цифра увеличится еще в 3-4 раза.

Запуск новых сегментов позволит большему числу предприятий упростить и ускорить обучение и инференс собственных AI- и ML-моделей, за счет размещения их в облаке MWS. Инфраструктура подойдет для работы с любыми AI-моделями во всех отраслях экономики. А получить доступ к ней можно из любой точки страны.  
 
Также до конца года на базе GPU-инфраструктуры будут развернуты: платформа для разработки, обучения и развертывания ML-моделей, уже готовые модели ИИ для разных индустрий и направлений, доступные по API и AI-сервисы по модели SaaS.

@DevspПодписаться
​​😍Топ-7 высокооплачиваемых профессий в сфере ИИ

В этой статье мы разберёмся, что ждёт работодателей и соискателей в ближайшем будущем и каким специалистам в сфере ИИ, или AI, готовы платить больше всего.

Читать...
​​👾Создание искусственного датасета для обучения модели с использованием Paddle OCR

В этой статье мы подробно расскажем, как именно подошли к этому процессу.

Читать...
🗣Яндекс анонсировал Practical ML Conf, которая пройдет 14 сентября и будет доступна для просмотра онлайн

Это мероприятие, на котором Яндекс ежегодно анонсирует свои крупные запуски и делится опытом.

Все подробности и регистрация тут

@DevspПодписаться
​​⚙️Как котята лапками настраивают GPU в Kubernetes и при чем тут эффект Манделы

В этой статье мы рассмотрим волшебный инструмент, который позволяет это делать без костылей и велосипедов, если у вас лапки.

Читать...
​​⚡️Хайп вокруг аппаратного ускорения ИИ и реальная ситуация. Обучение модели на телефоне и результаты в миллисекундах

В этой статье мы запустим TensorFlow Lite на устройствах разного класса и года выпуска и посмотрим, что там с производительностью и ускорением.

Читать...
​​😍Автоматизация Code Review с помощью LLM

В этой статье мы подробно рассмотрим жизненный цикл ревью и подход RAG, разработанный в Faire для выполнения различных контекстно-специфических автоматизированных ревью.

Читать...
​​👾Почему нейросети становятся угрозой для природы и что с этим сделать

В этой статье мы расскажем, как это влияет на работу и развитие дата-центров, и какие меры можно предпринять для увеличения энергоэффективности.

Читать...
​​🗣InkubaLM: A small language model for low-resource African languages

​​InkubaLM, небольшая языковая модель с 0,4 миллиарда параметров, которая достигает производительности, сопоставимой с моделями со значительно большим количеством параметров и более обширными данными обучения для таких задач, как машинный перевод, вопросы и ответы, AfriMMLU и задача AfriXnli.

В частности, InkubaLM превосходит многие более крупные модели в анализе настроений и демонстрирует замечательную согласованность на нескольких языках.

Эта работа представляет собой решающий шаг в оспаривании общепринятой парадигмы, согласно которой эффективные языковые модели должны полагаться на значительные ресурсы.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​🤖Контролируемое и неконтролируемое машинное обучение — в чём разница?

В этой статье объясняются эти оба метода и различия между ними.

Читать...
​​😎Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

Сквозная разговорная модель на основе аудио, способная к речевому взаимодействию в реальном времени.

Метод также помогает сохранить языковые возможности исходной модели с минимальным ухудшением, что позволяет другим работам устанавливать возможности взаимодействия в реальном времени.

Mini-Omni — это первая полностью сквозная модель с открытым исходным кодом для речевого взаимодействия в реальном времени, предлагающая ценный потенциал для будущих исследований.

🤗 Hugging Face
💾 Arxiv
📂 PDF

@DevspПодписаться
​​📊Агрегация данных для аналитики продаж с помощью DataSphere Jobs и Airflow SDK

В этой статье покажем, как мы ускорили построение пайплайнов обработки данных с помощью связки DataSphere Jobs и Apache Airflow.

Читать...
📹Новая версия YandexART (Vi) — как она устроена?

В статье на Хабре Яндекс рассказывает о процессе обучения нейросети, которая при генерации видео учитывает связь между кадрами и воссоздаёт реалистичные движения объектов.

Читать...
​​🤔«А можно быстрее?»: разбираем методы ускорения обучения нейронных сетей

В этой статье рассмотрим различные теоретические аспекты от аппаратного ускорения до правильной организации самого обучения.

Читать...
1