Представлена модель OLMo 2 с улучшенной архитектурой, предобучением и инструктивным обучением, превосходящая аналоги по производительности при меньших вычислительных затратах.
https://arxiv.org/abs/2501.00656
https://arxiv.org/abs/2501.00656
❤🔥3
не забыли про наш впн? 😎
зацените — aa.vpnand.com/?ref=1037!
мы обновили сайт и лого😎
зачем доверять непонятным впн, когда есть наш?
поддерживайте своих!!!!
зацените — aa.vpnand.com/?ref=1037!
мы обновили сайт и лого😎
зачем доверять непонятным впн, когда есть наш?
поддерживайте своих!!!!
⚡3❤🔥2🔥2
OpenAI представили ИИ-агента Operator на основе GPT-4, который может автономно управлять компьютером, выполнять сложные задачи и взаимодействовать с браузером.
Он способен планировать поездки, заказывать доставку и бронировать столики, упрощая множество повседневных задач.
https://habr.com/ru/news/876158/
Он способен планировать поездки, заказывать доставку и бронировать столики, упрощая множество повседневных задач.
https://habr.com/ru/news/876158/
👍1
В статье разбираются ключевые концепции тематического моделирования и основные архитектуры моделей этой области.
Предоставлена теория и много практики на интерфейсе библиотеки BigARTM.
https://datasecrets.ru/articles/13
Предоставлена теория и много практики на интерфейсе библиотеки BigARTM.
https://datasecrets.ru/articles/13
👍2❤🔥1🔥1
Статья представляет обзор видеокарт и какие из них будут оптимальным выбором для ML-задач.
Под катом — реальные примеры и результаты бенчмарков.
https://habr.com/ru/companies/selectel/articles/875078/
Под катом — реальные примеры и результаты бенчмарков.
https://habr.com/ru/companies/selectel/articles/875078/
❤🔥2🔥2👍1
DeepSeek-R1 — это самый громкий релиз последних дней в области искусственного интеллекта. Для сообщества исследователей и разработчиков ML R&D
эта модель имеет особое значение.
Объясняем в иллюстрациях и схемах ⬇️
https://habr.com/ru/articles/877360/
эта модель имеет особое значение.
Объясняем в иллюстрациях и схемах ⬇️
https://habr.com/ru/articles/877360/
🍓2👍1
Исследование подчеркивает, что для успешного решения реальных задач важно учитывать не только отдельные способности моделей, но и взаимодействие их навыков.
Для этого необходимы дополнительные бенчмарки, такие как CrossEval, которые будут учитывать “Закон слабого звена”.
https://arxiv.org/pdf/2409.19951
Для этого необходимы дополнительные бенчмарки, такие как CrossEval, которые будут учитывать “Закон слабого звена”.
https://arxiv.org/pdf/2409.19951
🍓2
Google представили архитектуру Titan, которая решает проблему забывания в трансформерах, добавив долгосрочную память.
Это позволяет эффективно обрабатывать контексты до 2+ миллионов токенов, улучшая точность и производительность.
https://arxiv.org/pdf/2501.00663v1
Это позволяет эффективно обрабатывать контексты до 2+ миллионов токенов, улучшая точность и производительность.
https://arxiv.org/pdf/2501.00663v1
🍓2
Anthropic представил метод защиты LLM от jailbreak атак, использующий синтетические данные и естественно-языковые правила.
Тесты показали высокую эффективность и низкий уровень ложных срабатываний (менее 0,5%).
https://arxiv.org/abs/2501.18837
Тесты показали высокую эффективность и низкий уровень ложных срабатываний (менее 0,5%).
https://arxiv.org/abs/2501.18837
❤🔥2
Статья сравнивает два подхода к созданию игры “Пинг-Понг” на языке Go с использованием нейросетей DeepSeek и ChatGPT.
Основное внимание уделено различиям в реализации кода, результаты можно прочесть ⤵️
https://habr.com/ru/articles/878766/
Основное внимание уделено различиям в реализации кода, результаты можно прочесть ⤵️
https://habr.com/ru/articles/878766/
❤🔥2
Работа посвящена теоретическому анализу широко используемого типа MDM.
Авторы показали, что её эффективность сильно зависит от целевой метрики оценки.
Все выводы подтверждены эмпирическими исследованиями.
https://arxiv.org/pdf/2502.09622
Авторы показали, что её эффективность сильно зависит от целевой метрики оценки.
Все выводы подтверждены эмпирическими исследованиями.
https://arxiv.org/pdf/2502.09622
👍3
В материале объясняется, что выбор метода ML зависит от множества факторов, таких как данные и цели проекта.
Также представлена шпаргалка по алгоритмам Microsoft Azure, которая поможет выбрать оптимальный подход для предсказательной аналитики.
https://habr.com/ru/companies/microsoft/articles/317512/
Также представлена шпаргалка по алгоритмам Microsoft Azure, которая поможет выбрать оптимальный подход для предсказательной аналитики.
https://habr.com/ru/companies/microsoft/articles/317512/
🍓2
OpenAI выпустили гайд по тому, как правильно обращаться с ризонинг-моделями.
В гайде объясняется, чем модели логического рассуждения отличаются от GPT-моделей, а также даются рекомендации по их применению и эффективному формулированию запросов.
https://platform.openai.com/docs/guides/reasoning-best-practices
В гайде объясняется, чем модели логического рассуждения отличаются от GPT-моделей, а также даются рекомендации по их применению и эффективному формулированию запросов.
https://platform.openai.com/docs/guides/reasoning-best-practices
❤🔥2
В статье представлен PREFEVAL — бенчмарк для оценки способности LLM учитывать предпочтения пользователей в длинных контекстах.
Эксперименты показали, что даже с продвинутыми методами LLM сталкиваются с трудностями, но дообучение на PREFEVAL значительно улучшает результаты.
https://arxiv.org/pdf/2502.09597
Эксперименты показали, что даже с продвинутыми методами LLM сталкиваются с трудностями, но дообучение на PREFEVAL значительно улучшает результаты.
https://arxiv.org/pdf/2502.09597
🍓2
ScaleAI обнаружили уязвимость Jailbreaking-to-Jailbreak (J2), при которой модель, обученная на отказах, может взломать другие ИИ и даже себя.
Это позволяет обходить защиту с успешностью в 93%, выявляя фундаментальную уязвимость в системах ИИ.
https://scale.com/research/j2
Это позволяет обходить защиту с успешностью в 93%, выявляя фундаментальную уязвимость в системах ИИ.
https://scale.com/research/j2
❤🔥3🔥3⚡1
DeepSeek предложили NSA (Native Sparse Attention), разреженный механизм внимания, который делит процесс на три части: Token Compression, Token Selection и Sliding Window, что позволяет эффективно обрабатывать длинные последовательности.
Этот подход ускоряет вычисления и в некоторых случаях превосходит традиционное внимание.
arxiv.org/pdf/2502.11089
Этот подход ускоряет вычисления и в некоторых случаях превосходит традиционное внимание.
arxiv.org/pdf/2502.11089
🍓3❤🔥1🐳1
Автор рассматривает инструменты для развёртывания моделей ML , которые помогают масштабировать и управлять жизненным циклом, включая сервинг, мониторинг и управление API‑эндпоинтами.
Особое внимание уделяется выбору и применению инструментов для эффективной интеграции MLOps‑решений.
https://habr.com/ru/companies/otus/articles/883894/
Особое внимание уделяется выбору и применению инструментов для эффективной интеграции MLOps‑решений.
https://habr.com/ru/companies/otus/articles/883894/
👍4🍓2
Умение грамотно управлять данными — конкурентное преимущество.
Но как прокачивать навыки работы с ними?
Один из способов — читать правильную литературу.
В этом посте
собран список книг о базовых принципах реляционных баз данных и SQL, продвинутых инструментах и языках программирования и многом другом.
https://habr.com/ru/companies/ru_mts/articles/884678/
Но как прокачивать навыки работы с ними?
Один из способов — читать правильную литературу.
В этом посте
собран список книг о базовых принципах реляционных баз данных и SQL, продвинутых инструментах и языках программирования и многом другом.
https://habr.com/ru/companies/ru_mts/articles/884678/
👍2
DeepCircuitX — это всесторонний набор данных для улучшения понимания и генерации RTL кода, включая аннотации Chain of Thought и PPA метрики.
Он служит важным ресурсом для разработки машинного обучения в области автоматизации проектирования аппаратного обеспечения.
https://arxiv.org/pdf/2502.18297
Он служит важным ресурсом для разработки машинного обучения в области автоматизации проектирования аппаратного обеспечения.
https://arxiv.org/pdf/2502.18297
🍓2
Команда API Яндекс Карт разработала масштабируемый геокодер с использованием глубокого обучения, который точно определяет локации, даже при опечатках и неформальных запросах на разных языках.
Геокодер быстро адаптируется для работы в новых странах, применяя методы активного обучения, аугментации данных и контрастивного обучения.
https://habr.com/ru/companies/yandex/articles/877086/
Геокодер быстро адаптируется для работы в новых странах, применяя методы активного обучения, аугментации данных и контрастивного обучения.
https://habr.com/ru/companies/yandex/articles/877086/
🔥3
Статья вводит в теоретические основы асинхронных и параллельных методов, начиная с оптимальности SGD для одного устройства, и сравнивает Minibatch SGD, Asynchronous SGD и Rennala SGD по временной сложности с учетом различного времени вычислений.
https://habr.com/ru/companies/airi/articles/883266/
https://habr.com/ru/companies/airi/articles/883266/
❤🔥2