Помните, мы все удивились новой китайской модели DeepSeek R1, которая сравнима с o1, но открытая? Ах, да, конечно помните, это же было неделю назад. Она основана на модели DeepSeek V3 (не рассуждающей). А теперь встречайте Tulu3-405B — американскую открытую модель, которая превосходит DeepSeek V3 по большинству бенчмарков (по крайней мере из тех, которые авторы указали в пресс-релизе).
Разработчик: некоммерческий институт AI2 (Сиэтл)
Параметры: 405B, обучение — 256 GPU
По HumanEval (популярный бенчмарк на программирование с проверкой заданий юнит тестами) превосходит DeepSeek, есть дистиллированные маленькие модели - кандидаты на локальную модель для программирования, по отзывам скорости на бытовом железе скромные.
На бенчмарках PopQA (вопросы по Википедии) и GSM8K (математика), обгоняя не только DeepSeek V3, но и GPT-4o с Llama 3.1.
Код доступен на GitHub, Hugging Face, протестировать можно в чат-боте AI2.
Рассуждать, правда, придётся самостоятельно — Tulu3 пока не умеет.
Более подробный обзор: TechCrunch
Разработчик: некоммерческий институт AI2 (Сиэтл)
Параметры: 405B, обучение — 256 GPU
По HumanEval (популярный бенчмарк на программирование с проверкой заданий юнит тестами) превосходит DeepSeek, есть дистиллированные маленькие модели - кандидаты на локальную модель для программирования, по отзывам скорости на бытовом железе скромные.
На бенчмарках PopQA (вопросы по Википедии) и GSM8K (математика), обгоняя не только DeepSeek V3, но и GPT-4o с Llama 3.1.
Код доступен на GitHub, Hugging Face, протестировать можно в чат-боте AI2.
Рассуждать, правда, придётся самостоятельно — Tulu3 пока не умеет.
Более подробный обзор: TechCrunch
👍6
А что, если совместить DeepSeek R1 и Claude?
Компания Asterisk (AI Security) выпустила open source интерфейс DeepClaude, который объединяет рассуждения R1 и креативность Claude. R1 используется как архитектор - сначала запрос попадает к этой модели, а Claude как редактор кода – финальная реализация в виде кода того, что придумала R1.
На бенчмарке Aider Polyglot такой подход показал интересные результаты:
1. Первое место, лучше чем DeepSeek R1, Claude и o1
2. В 14 раз дешевле, чем o1
На гитхабе:
https://github.com/getasterisk/deepclaude
https://deepclaude.com/ - на сайте есть deepclaude чат, но у меня он не работает. ☹️
Компания Asterisk (AI Security) выпустила open source интерфейс DeepClaude, который объединяет рассуждения R1 и креативность Claude. R1 используется как архитектор - сначала запрос попадает к этой модели, а Claude как редактор кода – финальная реализация в виде кода того, что придумала R1.
На бенчмарке Aider Polyglot такой подход показал интересные результаты:
1. Первое место, лучше чем DeepSeek R1, Claude и o1
2. В 14 раз дешевле, чем o1
На гитхабе:
https://github.com/getasterisk/deepclaude
https://deepclaude.com/ - на сайте есть deepclaude чат, но у меня он не работает. ☹️
👍8❤1
С 31 января 2025 года o3-mini стала доступна для подписчиков ChatGPT Plus. Вышли результаты на Livebench (это бенчмарк/платформа, которая постоянно обновляет набор задач, исключая возможность утечки решений и гарантируя, что задания остаются актуальными и интересными).
На кодинге модель уверенно опережает всех.
В среднем показывает лучшие результаты, чем Deep Seek R1 (за исключением математики).
Первоначальные показатели по математике оказались аномально низкими, но организаторы обнаружили ошибку и пересчитали средние баллы.
На кодинге модель уверенно опережает всех.
В среднем показывает лучшие результаты, чем Deep Seek R1 (за исключением математики).
Первоначальные показатели по математике оказались аномально низкими, но организаторы обнаружили ошибку и пересчитали средние баллы.
👍6
Media is too big
VIEW IN TELEGRAM
"Большие модели рассуждений. Ещё шаг в эпоху Новацена?" — новая лекция доктора технических наук Владимира Крылова.
Разбираем:
🟠 На что способны модели рассуждений вроде DeepSeek-R1?
🟠 Как правильно сконструировать промпт для них?
🟠 В чем состоят проблемы использования таких моделей?
🟠 Как модель рассуждений думает без слов и как все это связано с системами сознания Канемана?
Запись лекции доступна здесь и на других площадках:
➡️ YouTube
➡️ ВКонтакте
➡️ ЯндексМузыка
Разбираем:
Запись лекции доступна здесь и на других площадках:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Мы перевели статью "Windsurf vs Cursor IDE: выбираем AI-редактор кода?” и запостили ее на Хабре, она довольно подробная с картинками. Автор разбирает основные фичи двух самых популярных AI IDE. Рекомендуем так же заглянуть в комментарии, там много интересного: и про использование бесплатных IDE и локальных моделей vs Claude, и про YOLO mode (режим агента) в Cursor и даже про проблемы Cline с DeepSeek
Хабр
Windsurf vs Cursor IDE: кто лучший AI-редактор кода?
Две популярные IDE (среды разработки) с поддержкой искусственного интеллекта: Windsurf и Cursor . Оба инструмента заявляют, что ускорят процесс написания кода, но какой из них лучше подойдет именно...
🔥14❤5
Media is too big
VIEW IN TELEGRAM
Роман Куцев — founder LLM Arena, автор канала @roma_data и выпускник ВМК МГУ — у нас в гостях! В этом видео Роман рассказал о своем детище — открытой краудсорсинговой платформе для оценки моделей на русском языке. Эта платформа позволяет любому пользователю тестировать и сравнивать LLM бесплатно.
В видео узнаете:
🟣 Как работает бенчмарк LLM Arena?
🟣 Как формируется рейтинг на аренах? Насколько он справедлив?
🟣 Чем LLM Arena лучше для русскоговорящего пользователя, чем LMSYS Chatbot Arena?
🟣 Как не дать моделям обвести себя вокруг пальца?
🟣 Как подобрать лучшую модель для своих задач?
Сейчас на платформе доступны 49 российских и зарубежных ИИ-моделей, можете опробовать их хоть прямо сейчас!
А Роман готов ответить на ваши вопросы в комментариях⬇️
В видео узнаете:
Сейчас на платформе доступны 49 российских и зарубежных ИИ-моделей, можете опробовать их хоть прямо сейчас!
А Роман готов ответить на ваши вопросы в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥7❤1
Как внедрить искусственный интеллект в ваш веб-проект?
Сегодня в 13:00 Миша Ларченко покажет три способа интеграции ИИ-моделей с помощью JavaScript, разберет их плюсы и минусы, а также расскажет, какие ограничения могут возникнуть. Вы узнаете, какой вариант лучше всего подойдет для ваших задач и как избежать подводных камней при работе с нейросетями в браузере.
Миша Ларченко — опытный Fullstack-разработчик, специализирующийся на backend и frontend с разными фреймворками. Работает с базами данных, облачными сервисами и архитектурами, увлекается блокчейном и LLM. Автор одноименного YouTube-блога.
Подключайтесь и задавайте вопросы спикеру! Их можно оставить в чате на YouTube или в комментариях к этому посту.
Сегодня в 13:00 Миша Ларченко покажет три способа интеграции ИИ-моделей с помощью JavaScript, разберет их плюсы и минусы, а также расскажет, какие ограничения могут возникнуть. Вы узнаете, какой вариант лучше всего подойдет для ваших задач и как избежать подводных камней при работе с нейросетями в браузере.
Миша Ларченко — опытный Fullstack-разработчик, специализирующийся на backend и frontend с разными фреймворками. Работает с базами данных, облачными сервисами и архитектурами, увлекается блокчейном и LLM. Автор одноименного YouTube-блога.
Подключайтесь и задавайте вопросы спикеру! Их можно оставить в чате на YouTube или в комментариях к этому посту.
👍12
В этот четверг, 20 февраля, в 12:00 доктор технических наук Владимир Крылов расскажет, почему люди создают искусственный интеллект. Зачем тратить столько ресурсов, работая над все более совершенными моделями, которые способны решать проблемы ментальными способами?
На лекции рассмотрим:
🟠 принципы свободной энергии Фристона;
🟠 серендипность и экзаптацию как механизмы эволюции жизни и технологий;
🟠 ИИ как необходимый элемент системы гомеостаза нашей планеты.
Подключайтесь и задавайте вопросы спикеру! Их можно оставить в чате на YouTube или в комментариях к этому посту.
На лекции рассмотрим:
Подключайтесь и задавайте вопросы спикеру! Их можно оставить в чате на YouTube или в комментариях к этому посту.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤2
Как эволюционировали технологии распознавания речи?
Завтра, 26 февраля, в 12:00 об этом расскажет Виктор Загускин — ML-руководитель платформы речевых технологий в MTS AI.
В эфире обсудим:
🟣 переход от классических подходов (HMM, Kaldi) к end-to-end моделям (CTC, RNN-T, Whisper, TDT);
🟣 вызовы сценариев поточного распознавания, диаризации и интерактивного общения;
🟣 перспективы полнодуплексных LLM и мультимодального взаимодействия.
Подключайтесь и задавайте вопросы Виктору! Их можно оставить в чате на YouTube или в комментариях к этому посту.
Завтра, 26 февраля, в 12:00 об этом расскажет Виктор Загускин — ML-руководитель платформы речевых технологий в MTS AI.
В эфире обсудим:
Подключайтесь и задавайте вопросы Виктору! Их можно оставить в чате на YouTube или в комментариях к этому посту.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
Anthropic выпустила инструмент Claude Code — агента разработчика, который работает терминале. Он умеет разбираться во всем коде (code base) и помогает кодить быстрее через команды на обычном языке. Кажется это первый агент-разработчик напрямую от производителей LLM?
Ключевые возможности:
• Пишет код, исправляет баги
• Отвечает на вопросы об архитектуре и логике кода
• Запускает и исправляет тесты
• Работает с git: история, конфликты, коммиты и PR
Особенности:
• Работает прямо в терминале
• Понимает контекст всего проекта
• Выполняет реальные действия с кодом
• Прямое API-соединение без промежуточных серверов
Пока в бета-версии как research preview. Установка через npm: npm install -g @anthropic-ai/claude-code
Анонсируют, что пригодится для изучения незнакомого кода, автоматизации git-операций и интеллектуального редактирования.
UPD
Пока только waitlist, так что ждем
Ключевые возможности:
• Пишет код, исправляет баги
• Отвечает на вопросы об архитектуре и логике кода
• Запускает и исправляет тесты
• Работает с git: история, конфликты, коммиты и PR
Особенности:
• Работает прямо в терминале
• Понимает контекст всего проекта
• Выполняет реальные действия с кодом
• Прямое API-соединение без промежуточных серверов
Пока в бета-версии как research preview. Установка через npm: npm install -g @anthropic-ai/claude-code
Анонсируют, что пригодится для изучения незнакомого кода, автоматизации git-операций и интеллектуального редактирования.
UPD
Пока только waitlist, так что ждем
Claude Code Docs
Claude Code overview - Claude Code Docs
Claude Code is an agentic coding tool that reads your codebase, edits files, runs commands, and integrates with your development tools. Available in your terminal, IDE, desktop app, and browser.
❤7👍4🔥1
Ведущие европейские разработчики LLM Mistral выпустили "Mistral OCR" - модель, которая может поспособствовать развитию RAG-пайплайнов.
По заявлениям производителя это самая мощная модель для распознавания документов, при этом она может работать локально... но к сожалению не Open Source.
Умеет распознавать мультимодальные (текст, таблицы, pdf, презентации, формулы типа LaTeX и изображения) документы. Есть API, т.е. интегрируется в любые пайплайны (например в RAG). Точность на русском (и еще на десятке языков) языке выше 99%, т.е. выше, чем у Google Doс AI, Azure OCR или Gemini.
Локальное развертывание: можно использовать на собственных серверах для защиты чувствительной информации (повторюсь, но не open source). Высокая скорость обработки: до 2000 страниц в минуту на одном узле + batch inference.
Уже можно попробовать бесплатно в Le Chat, попробовать API на платформе Mistral (La Plateforme). Подробнее на сайте Mistral.
По заявлениям производителя это самая мощная модель для распознавания документов, при этом она может работать локально... но к сожалению не Open Source.
Умеет распознавать мультимодальные (текст, таблицы, pdf, презентации, формулы типа LaTeX и изображения) документы. Есть API, т.е. интегрируется в любые пайплайны (например в RAG). Точность на русском (и еще на десятке языков) языке выше 99%, т.е. выше, чем у Google Doс AI, Azure OCR или Gemini.
Локальное развертывание: можно использовать на собственных серверах для защиты чувствительной информации (повторюсь, но не open source). Высокая скорость обработки: до 2000 страниц в минуту на одном узле + batch inference.
Уже можно попробовать бесплатно в Le Chat, попробовать API на платформе Mistral (La Plateforme). Подробнее на сайте Mistral.
mistral.ai
Mistral OCR | Mistral AI
Introducing the world’s best document understanding API.
👍4
Media is too big
VIEW IN TELEGRAM
Как внедрить искусственный интеллект в ваш веб-проект?
Миша Ларченко покажет три способа интеграции ИИ-моделей с помощью JavaScript. Вы узнаете, какой вариант лучше всего подойдет для ваших задач и как избежать подводных камней при работе с нейросетями в браузере.
⚡️ Миша Ларченко — опытный fullstack-разработчик, специализирующийся на backend и frontend с разными фреймворками. Работает с базами данных, облачными сервисами и архитектурами, увлекается блокчейном и LLM. Ведет одноименный YouTube-блог.
Запись трансляции доступна здесь и на других площадках:
➡️ YouTube
➡️ ВКонтакте
➡️ ЯндексМузыка
Миша Ларченко покажет три способа интеграции ИИ-моделей с помощью JavaScript. Вы узнаете, какой вариант лучше всего подойдет для ваших задач и как избежать подводных камней при работе с нейросетями в браузере.
Запись трансляции доступна здесь и на других площадках:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9