LADDER — фреймворк от Tufa Labs, который помогает языковым моделям решать сложные задачи, разбивая их на простые шаги.
Модели, такие как Qwen2.5, с помощью LADDER достигли рекордных результатов, например, 90% точности на тесте MIT Integration Bee.
https://arxiv.org/pdf/2503.00735
Модели, такие как Qwen2.5, с помощью LADDER достигли рекордных результатов, например, 90% точности на тесте MIT Integration Bee.
https://arxiv.org/pdf/2503.00735
🍓2🔥1
Методика SWE-RL использует reinforcement learning (RL) на данных об эволюции ПО из репозиториев GitHub для улучшения логического мышления языковых моделей.
Это позволяет моделям, как Llama3-SWE-RL, не только решать задачи программирования, но и показывать улучшенные результаты в функциональном программировании и NLP.
https://arxiv.org/pdf/2502.18449
Это позволяет моделям, как Llama3-SWE-RL, не только решать задачи программирования, но и показывать улучшенные результаты в функциональном программировании и NLP.
https://arxiv.org/pdf/2502.18449
🔥2
EasyR1 — фреймворк для обучения с подкреплением, поддерживающий мультимодальные данные.
Он улучшает производительность на 5% за 30 шагов и предлагает масштабируемость и интеграцию с различными RL-алгоритмами.
https://github.com/hiyouga/EasyR1
Он улучшает производительность на 5% за 30 шагов и предлагает масштабируемость и интеграцию с различными RL-алгоритмами.
https://github.com/hiyouga/EasyR1
👍2
Автор делится опытом создания Telegram-бота на Python с использованием webhook, объясняя преимущества этого метода по сравнению с polling, так как webhook обеспечивает мгновенную реакцию на действия пользователей.
Он также подчеркивает важность минимального использования внешних библиотек, чтобы код оставался простым и понятным, особенно в процессе изучения языка.
https://habr.com/ru/companies/digitalleague/articles/716760/
Он также подчеркивает важность минимального использования внешних библиотек, чтобы код оставался простым и понятным, особенно в процессе изучения языка.
https://habr.com/ru/companies/digitalleague/articles/716760/
👍1
Cache-Augmented Generation улучшает генерацию текста, заранее загружая все необходимые данные в контекст модели и используя кеширование параметров, что снижает задержки и ошибки извлечения.
Этот подход упрощает архитектуру и ускоряет процесс, но ограничен длиной контекстного окна и объемом загружаемых данных.
https://github.com/hhhuang/CAG
Этот подход упрощает архитектуру и ускоряет процесс, но ограничен длиной контекстного окна и объемом загружаемых данных.
https://github.com/hhhuang/CAG
🔥2
Auto Deep Research — это доступный и эффективный AI-ассистент для исследователей, предлагающий высокую производительность и открытый исходный код.
Система легко интегрируется с различными моделями и предоставляет простоту использования без сложных настроек.
https://github.com/HKUDS/AutoAgent
Система легко интегрируется с различными моделями и предоставляет простоту использования без сложных настроек.
https://github.com/HKUDS/AutoAgent
🔥2❤🔥1🐳1
В версии 0.30.0 библиотеки huggingface_hub добавлена поддержка Xet — нового протокола для хранения крупных моделей и датасетов, который заменяет Git LFS.
Также улучшены инструменты инференса, добавлена поддержка новых провайдеров и асинхронных вызовов для задач, таких как text-to-video.
https://github.com/huggingface/huggingface_hub/releases/tag/v0.30.0
Также улучшены инструменты инференса, добавлена поддержка новых провайдеров и асинхронных вызовов для задач, таких как text-to-video.
https://github.com/huggingface/huggingface_hub/releases/tag/v0.30.0
🔥2
ODS — это открытый поисковый агент, интегрирующийся с большими языковыми моделями для выполнения поисковых и аналитических задач.
ODS с DeepSeek-R1 демонстрирует на 9,7% большую точность по сравнению с GPT-4o-Search.
https://arxiv.org/abs/2503.20201
ODS с DeepSeek-R1 демонстрирует на 9,7% большую точность по сравнению с GPT-4o-Search.
https://arxiv.org/abs/2503.20201
👍2
Для балансировки нагрузки используется Nginx upstream, который проксирует WebSocket-соединения на различные реплики и разрывает соединение через 15 минут неактивности.
Реплики сохраняют историю переписки в Redis, обеспечивая восстановление контекста, а управление репликами осуществляется через PM2.
https://habr.com/ru/articles/896222/
Реплики сохраняют историю переписки в Redis, обеспечивая восстановление контекста, а управление репликами осуществляется через PM2.
https://habr.com/ru/articles/896222/
👍2
Статья описывает проблемы галлюцинаций в языковых моделях, где они могут давать неверные ответы из-за случайных факторов, а также проблемы с протоколами вызова инструментов, например, неправильный XML-формат.
Также подчеркивается важность корректного заполнения форм и правильной ротации сообщений, чтобы не нарушить бизнес-логику системы.
https://habr.com/ru/articles/892866/
Также подчеркивается важность корректного заполнения форм и правильной ротации сообщений, чтобы не нарушить бизнес-логику системы.
https://habr.com/ru/articles/892866/
👍2
Статья рассматривает создание многопользовательского чат-бота на основе LLM, подчеркивая важность разделения бизнес-логики и провайдера модели для гибкости в выборе LLM и предотвращения галлюцинаций.
Также акцентируется внимание на необходимости тестового окружения для оценки стабильности при смене моделей, учитывая их частые обновления и изменения в поведении.
https://habr.com/ru/articles/878658/
Также акцентируется внимание на необходимости тестового окружения для оценки стабильности при смене моделей, учитывая их частые обновления и изменения в поведении.
https://habr.com/ru/articles/878658/
👍3
Статья рассматривает четыре основных подхода к созданию и улучшению моделей рассуждений в контексте LLM, включая их преимущества, недостатки и методологию DeepSeek R1.
Также обсуждаются советы по разработке таких моделей с ограниченным бюджетом, а также влияние DeepSeek V3 и R1 на развитие области.
https://habr.com/ru/articles/894688/
Также обсуждаются советы по разработке таких моделей с ограниченным бюджетом, а также влияние DeepSeek V3 и R1 на развитие области.
https://habr.com/ru/articles/894688/
👍2
AI меняет рабочие процессы, при этом акцент смещается на качество пользовательского опыта, а не на количество функций.
Профессионалы предпочитают комбинировать специализированные инструменты, что помогает повысить продуктивность и избежать неудовлетворенности от универсальных решений.
https://habr.com/ru/articles/893202/
Профессионалы предпочитают комбинировать специализированные инструменты, что помогает повысить продуктивность и избежать неудовлетворенности от универсальных решений.
https://habr.com/ru/articles/893202/
🐳2👍1
Автор статьи объясняет, как развернуть виртуальный хостинг с использованием Python для создания веб-сервисов и Webhook.
В материале подробно описан процесс создания сайта, настройки базы данных и размещения Python-кода на платформе Netangels.
https://habr.com/ru/companies/digitalleague/articles/763866/
В материале подробно описан процесс создания сайта, настройки базы данных и размещения Python-кода на платформе Netangels.
https://habr.com/ru/companies/digitalleague/articles/763866/
🔥3
Статья оценивает методы выбора признаков, основанные на LLM и предлагает гибридную стратегию LLM4FS, которая сочетает LLM с традиционными методами, такими как случайный лес и последовательный выбор признаков.
Результаты показывают, что эта стратегия превосходит как LLM, так и традиционные методы в задаче выбора признаков, но имеет свои ограничения при применении в принятии решений.
https://arxiv.org/pdf/2503.24157
Результаты показывают, что эта стратегия превосходит как LLM, так и традиционные методы в задаче выбора признаков, но имеет свои ограничения при применении в принятии решений.
https://arxiv.org/pdf/2503.24157
👍3
PaperBench — это новый бенчмарк от OpenAI для оценки способности ИИ-агентов воспроизводить передовые исследования в области ИИ, основанный на статьях конференции ICML 2024.
Лучший результат среди протестированных моделей показал агент Claude 3.5 Sonnet с 21% точности воспроизведения, однако все модели отстают от уровня экспертов.
cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
Лучший результат среди протестированных моделей показал агент Claude 3.5 Sonnet с 21% точности воспроизведения, однако все модели отстают от уровня экспертов.
cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
👍2
LLM Scraper — это инструмент для парсинга веб-страниц с использованием языковых моделей, который понимает контекст и адаптируется к изменениям вёрстки.
Он поддерживает различные форматы входных данных, включая HTML и скриншоты, и использует Playwright для рендеринга JavaScript-страниц.
https://github.com/mishushakov/llm-scraper
Он поддерживает различные форматы входных данных, включая HTML и скриншоты, и использует Playwright для рендеринга JavaScript-страниц.
https://github.com/mishushakov/llm-scraper
🔥3
Автор статьи развеивает мифы о сложности работы с LLM и делится личным опытом внедрения таких моделей в продукты.
Он предлагает пошаговое руководство по использованию LLM, фокусируясь на практической стороне внедрения, стратегии и тактике, без углубления в теорию или обучение моделей с нуля, а также предоставляет список литературы.
https://habr.com/ru/articles/896598/
Он предлагает пошаговое руководство по использованию LLM, фокусируясь на практической стороне внедрения, стратегии и тактике, без углубления в теорию или обучение моделей с нуля, а также предоставляет список литературы.
https://habr.com/ru/articles/896598/
👍2
Статья описывает эксперимент по запуску клиента нейросети DeepSeek на старой операционной системе MS-DOS, используя современный сервер для обработки запросов.
Автор делится опытом настройки локальной версии DeepSeek и подключения к ней через MS-DOS с помощью сетевых драйверов и утилит mTCP.
https://habr.com/ru/companies/ru_mts/articles/888756/
Автор делится опытом настройки локальной версии DeepSeek и подключения к ней через MS-DOS с помощью сетевых драйверов и утилит mTCP.
https://habr.com/ru/companies/ru_mts/articles/888756/
❤🔥2
Представили новую технику оптимизации в DL — AYLA, которая улучшает сходимость и стабильность с помощью преобразования функции потерь и динамической скорости обучения.
Эксперименты показывают, что AYLA превосходит существующие методы, такие как SGD и ADAM, в различных задачах, таких как синтетические полиномы и классификация изображений.
https://arxiv.org/pdf/2504.01875
Эксперименты показывают, что AYLA превосходит существующие методы, такие как SGD и ADAM, в различных задачах, таких как синтетические полиномы и классификация изображений.
https://arxiv.org/pdf/2504.01875
❤🔥3
CFIRE — алгоритм для создания глобальных правил решений из локальных объяснений с использованием майнинга частых элементов.
Он решает проблему несогласованности методов объяснения и показывает высокую точность и производительность на 700 моделях черного ящика и 14 наборах данных.
https://arxiv.org/pdf/2504.00930
Он решает проблему несогласованности методов объяснения и показывает высокую точность и производительность на 700 моделях черного ящика и 14 наборах данных.
https://arxiv.org/pdf/2504.00930
❤🔥1