NEW BOT Телеграм, страница

Data Mining | Анализ данных🚀

Парсинг — это процесс автоматического извлечения информации из текстовых источников, особенно с веб-ресурсов, с использованием HTTP-запросов и внешних библиотек для обработки HTML.

В Python можно создавать парсеры для различных типов данных, включая HTML, XML и текст, а также разрабатывать библиотеки вручную, используя низкоуровневые методы.

https://habr.com/ru/companies/timeweb/articles/877596/

🐳3

927 views17:45

Data Mining | Анализ данных🚀

Статья объясняет, как создать Mini-App-приложение для Telegram, охватывая как фронтенд, так и бэкенд части.

Рассматриваются примеры простых приложений и решений для бизнеса, а также процесс разработки и развертывания приложения на сервере.

https://habr.com/ru/companies/timeweb/articles/887974/

🐳5

955 views17:52

Data Mining | Анализ данных🚀

Llama-3_3-Nemotron-Super-49B-v1 — мощная языковая модель от NVIDIA с 49 миллиардами параметров, оптимизированная для сложных задач NLP.

Она использует фреймворки NeMo и TensorRT для ускорения вычислений на GPU, обеспечивая высокую производительность и масштабируемость для корпоративных приложений.

https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1

🔥1🍓1

887 views17:39

Data Mining | Анализ данных🚀

Mistral выпустили многоязычный, мультимодальный 24B LLM с производительностью SOTA с контекстом 128K и лицензией Apache 2.0

Она поддерживает инференс 150 токенов в секунду и подходит для устройств с ограниченными ресурсами, таких как RTX 4090 или Mac с 32 ГБ ОЗУ, идеально подходя для задач NLP, включая чат-ботов и анализ текста.

https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503

🔥2

880 views17:41

Data Mining | Анализ данных🚀

Napkin AI — это сервис, который автоматически преобразует текст в визуальные схемы, диаграммы и инфографику, упрощая представление информации.

Он находится в стадии бета-тестирования и доступен бесплатно, что дает отличную возможность опробовать сервис и интегрировать его в свой рабочий процесс.

http://app.napkin.ai/

🍓2

923 views17:49

Data Mining | Анализ данных🚀

EuroBERT — это семейство мультиязычных энкодеров, обученных на 5 трлн токенов из 15 языков, включая русский, с поддержкой контекста до 8192 токенов.

Модель демонстрирует выдающуюся эффективность в задачах анализа документов, поиска информации, работы с кодом и математическими задачами, превосходя аналоги по точности на 10-15%.

https://huggingface.co/blog/EuroBERT/release

🍓1

846 views17:52

Data Mining | Анализ данных🚀

LADDER — фреймворк от Tufa Labs, который помогает языковым моделям решать сложные задачи, разбивая их на простые шаги.

Модели, такие как Qwen2.5, с помощью LADDER достигли рекордных результатов, например, 90% точности на тесте MIT Integration Bee.

https://arxiv.org/pdf/2503.00735

🍓2🔥1

824 views17:51

Data Mining | Анализ данных🚀

Методика SWE-RL использует reinforcement learning (RL) на данных об эволюции ПО из репозиториев GitHub для улучшения логического мышления языковых моделей.

Это позволяет моделям, как Llama3-SWE-RL, не только решать задачи программирования, но и показывать улучшенные результаты в функциональном программировании и NLP.

https://arxiv.org/pdf/2502.18449

🔥2

837 views17:54

Data Mining | Анализ данных🚀

EasyR1 — фреймворк для обучения с подкреплением, поддерживающий мультимодальные данные.

Он улучшает производительность на 5% за 30 шагов и предлагает масштабируемость и интеграцию с различными RL-алгоритмами.

https://github.com/hiyouga/EasyR1

👍2

813 views17:40

Data Mining | Анализ данных🚀

Автор делится опытом создания Telegram-бота на Python с использованием webhook, объясняя преимущества этого метода по сравнению с polling, так как webhook обеспечивает мгновенную реакцию на действия пользователей.

Он также подчеркивает важность минимального использования внешних библиотек, чтобы код оставался простым и понятным, особенно в процессе изучения языка.

https://habr.com/ru/companies/digitalleague/articles/716760/

👍1

880 viewsedited 17:56

Data Mining | Анализ данных🚀

Cache-Augmented Generation улучшает генерацию текста, заранее загружая все необходимые данные в контекст модели и используя кеширование параметров, что снижает задержки и ошибки извлечения.

Этот подход упрощает архитектуру и ускоряет процесс, но ограничен длиной контекстного окна и объемом загружаемых данных.

https://github.com/hhhuang/CAG

🔥2

777 views17:36

Data Mining | Анализ данных🚀

Auto Deep Research — это доступный и эффективный AI-ассистент для исследователей, предлагающий высокую производительность и открытый исходный код.

Система легко интегрируется с различными моделями и предоставляет простоту использования без сложных настроек.

https://github.com/HKUDS/AutoAgent

🔥2❤‍🔥1🐳1

836 views17:36

Data Mining | Анализ данных🚀

В версии 0.30.0 библиотеки huggingface_hub добавлена поддержка Xet — нового протокола для хранения крупных моделей и датасетов, который заменяет Git LFS.

Также улучшены инструменты инференса, добавлена поддержка новых провайдеров и асинхронных вызовов для задач, таких как text-to-video.

https://github.com/huggingface/huggingface_hub/releases/tag/v0.30.0

🔥2

783 views17:34

Data Mining | Анализ данных🚀

ODS — это открытый поисковый агент, интегрирующийся с большими языковыми моделями для выполнения поисковых и аналитических задач.

ODS с DeepSeek-R1 демонстрирует на 9,7% большую точность по сравнению с GPT-4o-Search.

https://arxiv.org/abs/2503.20201

👍2

860 views17:41

Data Mining | Анализ данных🚀

Для балансировки нагрузки используется Nginx upstream, который проксирует WebSocket-соединения на различные реплики и разрывает соединение через 15 минут неактивности.

Реплики сохраняют историю переписки в Redis, обеспечивая восстановление контекста, а управление репликами осуществляется через PM2.

https://habr.com/ru/articles/896222/

👍2

782 views17:46

Data Mining | Анализ данных🚀

Статья описывает проблемы галлюцинаций в языковых моделях, где они могут давать неверные ответы из-за случайных факторов, а также проблемы с протоколами вызова инструментов, например, неправильный XML-формат.

Также подчеркивается важность корректного заполнения форм и правильной ротации сообщений, чтобы не нарушить бизнес-логику системы.

https://habr.com/ru/articles/892866/

👍2

740 views17:46

Data Mining | Анализ данных🚀

Статья рассматривает создание многопользовательского чат-бота на основе LLM, подчеркивая важность разделения бизнес-логики и провайдера модели для гибкости в выборе LLM и предотвращения галлюцинаций.

Также акцентируется внимание на необходимости тестового окружения для оценки стабильности при смене моделей, учитывая их частые обновления и изменения в поведении.

https://habr.com/ru/articles/878658/

👍3

746 views17:36

Data Mining | Анализ данных🚀

Статья рассматривает четыре основных подхода к созданию и улучшению моделей рассуждений в контексте LLM, включая их преимущества, недостатки и методологию DeepSeek R1.

Также обсуждаются советы по разработке таких моделей с ограниченным бюджетом, а также влияние DeepSeek V3 и R1 на развитие области.

https://habr.com/ru/articles/894688/

👍2

818 views17:32

Data Mining | Анализ данных🚀

AI меняет рабочие процессы, при этом акцент смещается на качество пользовательского опыта, а не на количество функций.

Профессионалы предпочитают комбинировать специализированные инструменты, что помогает повысить продуктивность и избежать неудовлетворенности от универсальных решений.

https://habr.com/ru/articles/893202/

🐳2👍1

840 views17:36

Data Mining | Анализ данных🚀

Автор статьи объясняет, как развернуть виртуальный хостинг с использованием Python для создания веб-сервисов и Webhook.

В материале подробно описан процесс создания сайта, настройки базы данных и размещения Python-кода на платформе Netangels.

https://habr.com/ru/companies/digitalleague/articles/763866/

🔥3

802 views17:36

Data Mining | Анализ данных🚀

Статья оценивает методы выбора признаков, основанные на LLM и предлагает гибридную стратегию LLM4FS, которая сочетает LLM с традиционными методами, такими как случайный лес и последовательный выбор признаков.

Результаты показывают, что эта стратегия превосходит как LLM, так и традиционные методы в задаче выбора признаков, но имеет свои ограничения при применении в принятии решений.

https://arxiv.org/pdf/2503.24157

👍3

933 views17:31

About

Blog

Apps

Platform