Новая архитектура Mamba-3 делает модели быстрее, стабильнее и эффективнее при работе с длинными контекстами.
Главная идея - не в слоях внимания, а в state-space моделях, где модель хранит и обновляет внутреннее состояние во времени.
📘 Краткие эускурс:
- Mamba-1 ввела непрерывную динамику и выборочное обновление памяти - помнила эффективно без высокой цены attention.
- Mamba-2 показала, что обновления состояния и attention - это две стороны одной математики, что ускорило вычисления на GPU.
- Mamba-3 довела концепцию до зрелости: теперь внутренняя память развивается плавнее и устойчивее за счёт перехода от простого шага Эйлера к трапецеидальному интегрированию.
Вместо простого шага Эйлера, как в Mamba-2, Mamba-3 аппроксимирует интеграл обновления состояния не только по правому концу интервала, но усреднением между началом и концом, с коэффициентом λ, зависящим от данных. Это даёт более точное приближение (второго порядка) и делает динамику состояния более выразительной.
🧠 Что изменилось под капотом:
- Память стала «ритмичной»: теперь модель может хранить повторяющиеся и периодические паттерны (например, структуры языка или музыки).
- Новый multi-input-multi-output дизайн позволяет обрабатывать несколько потоков параллельно — идеально для современных GPU.
⚙️ Что это даёт на практике:
- Эффективная работа с длинными последовательностями: документы, геномы, временные ряды.
- Линейное время выполнения и стабильная задержка делают её идеальной для реального времени: чат-ботов, перевода, речи.
- Энергоэффективность и масштабируемость открывают путь к on-device AI, где большие модели работают локально, без облака.
Mamba-3 - это не просто ускоренная альтернатива Transformers.
Это новая архитектура, которая объединяет глубокое понимание контекста, скорость и устойчивость, от серверных систем до умных устройств.
@ai_machinelearning_big_data
#ssm #mamba3 #llm,#architecture #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Сенсей Карпаты выложил новый репозиторий - полный пайплайн обучения LLM с нуля
В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:
> • токенизатор
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)
Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.
💡 Это проект из его нового грядущего курса LLM101n, и отличная возможность прокачать свои ML-навыки на практике.
Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.
Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).
А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K
🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.
🟠 GitHub:https://github.com/karpathy/nanochat
🟠 Технические детали: https://github.com/karpathy/nanochat/discussions/1
@ai_machinelearning_big_data
#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT
В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:
> • токенизатор
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)
Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.
💡 Это проект из его нового грядущего курса LLM101n, и отличная возможность прокачать свои ML-навыки на практике.
Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.
Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).
А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K
🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.
@ai_machinelearning_big_data
#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Он пишет: «То, с чем мы имеем дело, - это настоящее и загадочное существо, а не простая и предсказуемая машина».
Он сравнивает человечество 2025 года с ребёнком из старой истории: мы включаем свет в тёмной комнате и видим не груду одежды на стуле, а живые, мощные и во многом непредсказуемые существа — современные ИИ-системы и те, что ещё впереди.
Многие, по его словам, отчаянно хотят поверить, что это лишь иллюзия, что перед нами не новая форма разума, а просто набор инструментов для экономики. Некоторые даже тратят огромные деньги, чтобы убедить нас, будто «это не интеллект, готовящийся к стремительному взлёту, а всего лишь машина, которой мы управляем».
«Но не обманывайтесь, - пишет Кларк.Мы имеем дело с настоящим и загадочным существом, а не с простой и предсказуемой машиной».
Полное эссе
Благодаря этому обновлению инструмент теперь создаёт более выразительные и визуально насыщенные видео-саммари. Можно выбрать один из шести художественных стилей оформления - от акварели и бумажной аппликации до аниме, рисованной доски, ретро-печати и культурного оформления.
Кроме того, появились два формата генерации роликов: Explainer для подробных объяснений и Brief для коротких, лаконичных обзоров. Обновление уже начали получать владельцы Pro-подписки, а в ближайшее время функция станет доступна всем пользователям.
X
Ring-1T-FP8 - модель на архитектуре Ling 2.0, которая содержит 1 триллион параметров( 50 миллиардов активных).
Ring-1T обучалась с применением RLVR (reinforcement learning with verifiable rewards) - техники, направленной на повышение точности рассуждений и самопроверку ответов. В процессе использовались собственные методы ASystem и Icepop, уменьшающие разрыв между обучением и инференсом.
Модель решает задачи уровня математических олимпиад (IMO 2025), сохраняет контекст до 128 000 токенов, что вдвое больше предыдущей версии.
HF
При этом точность почти не теряется, а вычисления становятся в 2–3 раза быстрее, а потребление памяти снижается на 50%.
В эксперименте NVIDIA обучила 12-миллиардный Mamba Transformer на 10 триллионах токенов, и модель с 4-битным NVFP4 показала почти такую же точность, как и FP8:
на тесте MMLU Pro - 62.58% против 62.62%,
а по коду (MBPP+) - 55.91% против 59.11%.
NVFP4 группирует значения в блоки по 16 чисел. Для каждого блока хранится небольшой масштаб в 8 битах, а для всего тензора - глобальный масштаб в 32 битах. Такая структура сохраняет точность локальных и экстремальных значений, позволяя использовать сверхкомпактное 4-битное хранение без потери устойчивости обучения.
На GPU Blackwell операции FP4 выполняются в 2 раза быстрее на GB200 и в 3 раза 0 на GB300, по сравнению с FP8. Потери точности при валидации не превышают 1–1.5%.
Метод также использует стохастическое округление, чтобы избежать накопления ошибок, а переход на BF16 в последних итерациях обучения полностью убирает оставшуюся разницу.
Поддержка NVFP4 уже встроена в Transformer Engine и новое поколение GPU Blackwell.
arxiv
OpenAI будет отвечать за архитектуру и проектирование чипов, а Broadcom - за производство и развёртывание систем. Масштаб проекта колоссален: 10 ГВт — это примерно столько же энергии, сколько требуется, чтобы обеспечить электричеством 7–10 миллионов домов.
Главная цель - уменьшить зависимость от NVIDIA и создать собственную, независимую инфраструктуру.
OpenAi
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
🚀 Дженсен Хуанг лично подарил ИИ-суперкомпьютер Илону Маску
Глава NVIDIA сегодня вручил Маску в штаб-квартире SpaceX самый маленький в мире ИИ-суперкомпьютер.
📦 Это устройство мощностью 1 петафлоп.
Ещё недавно такая производительность обеспечивалась целой комнатой серверов.
Теперь она помещается в коробку размером с рабочий ПК.
Такой компактный суперкомпьютер может использоваться для локального обучения и инференса нейросетей без дата-центров и облаков.
NVIDIA называет это началом новой эры персональных ИИ-ускорителей.
Мужчины честной судьбы встретились, в честь начала мировых поставок DGX Spark, которая начнется уже в эту среду.
Нам бы такую коробочку)
@ai_machinelearning_big_data
#NVIDIA #JensenHuang #ElonMusk #SpaceX #AI
Глава NVIDIA сегодня вручил Маску в штаб-квартире SpaceX самый маленький в мире ИИ-суперкомпьютер.
📦 Это устройство мощностью 1 петафлоп.
Ещё недавно такая производительность обеспечивалась целой комнатой серверов.
Теперь она помещается в коробку размером с рабочий ПК.
Такой компактный суперкомпьютер может использоваться для локального обучения и инференса нейросетей без дата-центров и облаков.
NVIDIA называет это началом новой эры персональных ИИ-ускорителей.
Мужчины честной судьбы встретились, в честь начала мировых поставок DGX Spark, которая начнется уже в эту среду.
Нам бы такую коробочку)
@ai_machinelearning_big_data
#NVIDIA #JensenHuang #ElonMusk #SpaceX #AI
👍1
📢 Калифорния первой в США выпустила закон, обязывающий ИИ признавать, что они не люди
Штат принял закон SB 243 - первый в стране, регулирующий AI-чат-ботов-компаньонов.
Основные положения:
▪Если пользователь может подумать, что говорит с человеком, бот обязан показать уведомление, что он искусственный интеллект.
Компании должны иметь протокол предотвращения суицида: блокировать подобный контент и направлять пользователей на горячие линии помощи.
Этот протокол должен быть опубликован на сайте.
При общении с несовершеннолетними бот обязан напоминать каждые 3 часа, что это ИИ, и советовать сделать перерыв.
Запрещено выдавать себя за врача или иного специалиста в области здоровья.
Для подростков должен быть фильтр от сексуального контента.
С июля 2027 года операторы обязаны ежегодно отчитываться в Офисе по предотвращению самоубийств о своих действиях при выявлении риска.
Пользователи смогут подавать в суд на компании — минимум на $1 000 за каждое нарушение.
В тот же день подписаны сопутствующие меры:
Закон SB 53 (сентябрь 2025) — обязывает крупных разработчиков ИИ публиковать протоколы безопасности.
Новые правила о проверке возраста, предупреждениях на соцсетях и штрафах до $250 000 за дипфейк-порнографию.
Закон принят после громких случаев и исков, связанных с вредными взаимодействиями подростков с чат-ботами, включая CharacterAI и дело о гибели пользователя ChatGPT.
techcrunch
#ai #news
Штат принял закон SB 243 - первый в стране, регулирующий AI-чат-ботов-компаньонов.
Основные положения:
▪Если пользователь может подумать, что говорит с человеком, бот обязан показать уведомление, что он искусственный интеллект.
Компании должны иметь протокол предотвращения суицида: блокировать подобный контент и направлять пользователей на горячие линии помощи.
Этот протокол должен быть опубликован на сайте.
При общении с несовершеннолетними бот обязан напоминать каждые 3 часа, что это ИИ, и советовать сделать перерыв.
Запрещено выдавать себя за врача или иного специалиста в области здоровья.
Для подростков должен быть фильтр от сексуального контента.
С июля 2027 года операторы обязаны ежегодно отчитываться в Офисе по предотвращению самоубийств о своих действиях при выявлении риска.
Пользователи смогут подавать в суд на компании — минимум на $1 000 за каждое нарушение.
В тот же день подписаны сопутствующие меры:
Закон SB 53 (сентябрь 2025) — обязывает крупных разработчиков ИИ публиковать протоколы безопасности.
Новые правила о проверке возраста, предупреждениях на соцсетях и штрафах до $250 000 за дипфейк-порнографию.
Закон принят после громких случаев и исков, связанных с вредными взаимодействиями подростков с чат-ботами, включая CharacterAI и дело о гибели пользователя ChatGPT.
techcrunch
#ai #news
MAI-Image-1 создаётся с упором на реализм, разнообразие и художественную точность, а не шаблонные стили.
Она особенно сильна в фотореалистичных сценах - свет, тени, отражения и текстуры выглядят максимально естественно.
Microsoft отмечает, что обучение велось на тщательно отобранных данных с участием художников и дизайнеров, чтобы улучшить восприятие и применимость модели в реальных проектах.
Главное преимущество модельки - скорость и качество: можно мгновенно визуализировать идею, а затем доработать её в привычных инструментах.
💡 В ближайшее время модель появится в Copilot и Bing Image Creator. Сейчас MAI-Image-1 доступна для тестирования на LMArena, где можно посмотреть, как ведёт себя модель.
🔗 Подробнее здесь: https://microsoft.ai/news/introducing-mai-image-1-debuting-in-the-top-10-on-lmarena/
@ai_machinelearning_big_data
#Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🧬Gemma C2S-Scale 27B помогла учёным найти новый способ борьбы с раком
Исследователи из Google Research и Calico применили эту модель, чтобы анализировать активность генов в клетках и искать вещества, усиливающие иммунный отклик против опухолей.
В чем сложность: многие опухоли остаются «холодными» - иммунная система их «не замечает». Чтобы обратить это, нужно вызвать экспрессию антигенов (antigen presentation), но делать это точно, только там, где уже есть слабый иммунный сигнал, но не всем клеткам подряд.
Gemma смогла предсказать, что комбинация препарата silmitasertib (ингибитор CK2) и низкой дозы интерферона повышает экспрессию MHC-I - это делает “холодные” опухоли более заметными для иммунной системы.
🔬 Результаты лабораторных тестов подтвердили прогноз модели:
- совместное применение действительно усилило работу антигенов примерно на 50 % и это может стать основой для новых видов иммунотерапии.
Главное достижение: ИИ не просто ускорил анализ данных, а сформулировал новую научную гипотезу, которая нашла подтверждение в реальных экспериментах.
Это пример того, как большие модели выходят за рамки генерации текста - они начинают открывать новые лекарства и механизмы действия.
🟠 Подробнее: https://blog.google/technology/ai/google-gemma-ai-cancer-therapy-discovery
🟠 Статья: https://www.biorxiv.org/content/10.1101/2025.04.14.648850v2
🟠 Github: https://github.com/vandijklab/cell2sentence
@ai_machinelearning_big_data
#AI #GoogleDeepMind #BioTech
Исследователи из Google Research и Calico применили эту модель, чтобы анализировать активность генов в клетках и искать вещества, усиливающие иммунный отклик против опухолей.
В чем сложность: многие опухоли остаются «холодными» - иммунная система их «не замечает». Чтобы обратить это, нужно вызвать экспрессию антигенов (antigen presentation), но делать это точно, только там, где уже есть слабый иммунный сигнал, но не всем клеткам подряд.
Gemma смогла предсказать, что комбинация препарата silmitasertib (ингибитор CK2) и низкой дозы интерферона повышает экспрессию MHC-I - это делает “холодные” опухоли более заметными для иммунной системы.
🔬 Результаты лабораторных тестов подтвердили прогноз модели:
- совместное применение действительно усилило работу антигенов примерно на 50 % и это может стать основой для новых видов иммунотерапии.
Главное достижение: ИИ не просто ускорил анализ данных, а сформулировал новую научную гипотезу, которая нашла подтверждение в реальных экспериментах.
Это пример того, как большие модели выходят за рамки генерации текста - они начинают открывать новые лекарства и механизмы действия.
@ai_machinelearning_big_data
#AI #GoogleDeepMind #BioTech
Please open Telegram to view this post
VIEW IN TELEGRAM
Модель обучена на разнообразных мультимодальных данных и может объединять разные типы входных сигналов в общее векторное представление.
- Поддержка всех типов данных: текст, изображение, аудио, видео.
- Основана на архитектуре Qwen Omni (Thinker-модуль, без генерации текста).
- Контекст - до 32 768 токенов, размер embedding — 2048.
- Оптимизирована под GPU, поддерживает FlashAttention 2.
Это делает её идеальной для:
- кросс-модального поиска (поиск текста по видео или изображению);
- улучшения RAG-проектов;
- систем мультимодального понимания контента.
Просто, быстро и эффективно - всё в одном открытом решении.
🌐 Открытая модель: https://huggingface.co/nvidia/omni-embed-nemotron-3b
@ai_machinelearning_big_data
#crossmodal #retrieval #openAI #NVIDIA #OmniEmbed #multimodal #AIModels #OpenSource #Search #UnifiedEmbedding
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Главные новости ии.
✔️ Андрей Карпаты: “ИИ лишит человечество возможности принимать решения”
В новом интервью Андрей Карпаты рассказал, почему современные языковые модели не учатся как люди - и почему нас ждёт медленная, но неизбежная потеря контроля.
Он считает, что обучение с подкреплением и это тупиковый путь: модели не думают, а просто копируют и повторяют.
Андрей отмечает, что люди учатся, создавая собственные данные - размышляя, связывая новое со старым, делая выводы. LLM этого не умеют, они просто запоминают.
«ИИ лишит человечество возможности принимать решения. Мы перестанем думать и выбирать сами.»
Карпаты считает, что нынешние агенты — «полное г…», а настоящего AGI стоит ждать не раньше чем через 10 лет.
Он боится не бунта машин, а того, что люди незаметно перестанут быть разумными - просто передав все решения системам, которые “знают лучше”.
Полное интервью
✔️ Epoch AI: даже GPT-5 не дотягивает до 70 % по уровню математического интеллекта
Исследователи из Epoch AI проверили, насколько современные модели действительно умеют «думать» в математике.
Они использовали тест FrontierMath - 290 задач, которые требуют не запоминания формул, а настоящего рассуждения и способности к обобщению.
Результаты оказались отрезвляющими.
Даже GPT-5, одна из самых мощных моделей на сегодня, смогла решить только 29 % задач в одном прогоне.
После 32 запусков (чтобы компенсировать случайность) показатель вырос до 46 %, но затем перестал расти.
Даже если объединить результаты десятков моделей - от ChatGPT Agent и Gemini 2.5 Deep Think до o4-mini, совокупная решаемость достигает лишь 57 %.
По оценкам авторов, даже при бесконечных попытках предел будет меньше 70 %.
Итог: несмотря на огромный прогресс, современные LLM остаются далеки от настоящего "AGI" - они всё ещё плохо справляются с глубинным рассуждением и гибким решением задач, где нужно не память, а мышление.
✔️ У современных LLM прогрессирует Brain Rot: обучение на мусорных данных вызывает деградацию интеллекта
Исследователи сообщили о тревожном эффекте - у больших языковых моделей (LLM) может развиваться “Brain Rot”, то есть постепенное «когнитивное разложение».
Причина - постоянное дообучение на низкокачественных и “вирусных” текстах из интернета, что приводит к стойкому снижению способностей к рассуждению, работе с длинным контекстом и безопасному поведению.
Главный симптом - “отсутствие мышления” (thought-skipping): модель перестаёт рассуждать шаг за шагом и начинает выдавать поверхностные ответы, а в некоторых случаях даже приобретает “тёмные” черты личности - нарциссизм, агрессию и низкую склонность к сотрудничеству.
Даже сильные методы коррекции, лишь частично устраняют последствия, что делает отбор обучающих данных ключевым фактором безопасности при развитии ИИ.
openreview
✔️ FacebookResearch представили MobileLLM-Pro - мощную языковую модель для работы на девайсах
Это компактная языковая модель (~1 млрд параметров) и несмотря на размер, она превосходит Gemma 3 1B и Llama 3.2 1B в задачах рассуждения, знаний и работы с длинным контекстом - до 128 000 токенов.
Внутри гибридное внимание (локальное + глобальное в соотношении 3:1, окно 512) это низкую задержку и экономию KV-памяти.
Подробнее
✔️ HuggingChat v2 - целый оркестр из 115 моделей под одной крышой.
Инструмент, в который встроено более 100 опенсорсных моделей от ведущих разработчиков.
Внутри: модели от OpenAI, Qwen, Google, Nvidia, DeepSeek и десятков других. Система сама выбирает оптимальную модель под конкретный запрос.
Попробовать
#news #ai #ml
В новом интервью Андрей Карпаты рассказал, почему современные языковые модели не учатся как люди - и почему нас ждёт медленная, но неизбежная потеря контроля.
Он считает, что обучение с подкреплением и это тупиковый путь: модели не думают, а просто копируют и повторяют.
«Reinforcement learning ужасен. Просто всё, что было до него, ещё хуже.»
Андрей отмечает, что люди учатся, создавая собственные данные - размышляя, связывая новое со старым, делая выводы. LLM этого не умеют, они просто запоминают.
Главное, по его словам, впереди - не сингулярность, а тихое делегирование мышления алгоритмам.
«ИИ лишит человечество возможности принимать решения. Мы перестанем думать и выбирать сами.»
Карпаты считает, что нынешние агенты — «полное г…», а настоящего AGI стоит ждать не раньше чем через 10 лет.
Он боится не бунта машин, а того, что люди незаметно перестанут быть разумными - просто передав все решения системам, которые “знают лучше”.
Полное интервью
Исследователи из Epoch AI проверили, насколько современные модели действительно умеют «думать» в математике.
Они использовали тест FrontierMath - 290 задач, которые требуют не запоминания формул, а настоящего рассуждения и способности к обобщению.
Результаты оказались отрезвляющими.
Даже GPT-5, одна из самых мощных моделей на сегодня, смогла решить только 29 % задач в одном прогоне.
После 32 запусков (чтобы компенсировать случайность) показатель вырос до 46 %, но затем перестал расти.
Даже если объединить результаты десятков моделей - от ChatGPT Agent и Gemini 2.5 Deep Think до o4-mini, совокупная решаемость достигает лишь 57 %.
По оценкам авторов, даже при бесконечных попытках предел будет меньше 70 %.
Итог: несмотря на огромный прогресс, современные LLM остаются далеки от настоящего "AGI" - они всё ещё плохо справляются с глубинным рассуждением и гибким решением задач, где нужно не память, а мышление.
Исследователи сообщили о тревожном эффекте - у больших языковых моделей (LLM) может развиваться “Brain Rot”, то есть постепенное «когнитивное разложение».
Причина - постоянное дообучение на низкокачественных и “вирусных” текстах из интернета, что приводит к стойкому снижению способностей к рассуждению, работе с длинным контекстом и безопасному поведению.
Главный симптом - “отсутствие мышления” (thought-skipping): модель перестаёт рассуждать шаг за шагом и начинает выдавать поверхностные ответы, а в некоторых случаях даже приобретает “тёмные” черты личности - нарциссизм, агрессию и низкую склонность к сотрудничеству.
Даже сильные методы коррекции, лишь частично устраняют последствия, что делает отбор обучающих данных ключевым фактором безопасности при развитии ИИ.
openreview
Это компактная языковая модель (~1 млрд параметров) и несмотря на размер, она превосходит Gemma 3 1B и Llama 3.2 1B в задачах рассуждения, знаний и работы с длинным контекстом - до 128 000 токенов.
Внутри гибридное внимание (локальное + глобальное в соотношении 3:1, окно 512) это низкую задержку и экономию KV-памяти.
Подробнее
Инструмент, в который встроено более 100 опенсорсных моделей от ведущих разработчиков.
Внутри: модели от OpenAI, Qwen, Google, Nvidia, DeepSeek и десятков других. Система сама выбирает оптимальную модель под конкретный запрос.
Попробовать
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Andrej Karpathy — “We’re summoning ghosts, not building animals”
The Andrej Karpathy episode. During this interview, Andrej explains why reinforcement learning is terrible (but everything else is much worse), why AGI will just blend into the previous ~2.5 centuries of 2% GDP growth, why self driving took so long to crack…
📄 DeepSeek-OCR - модель для распознавания текста 🔍
DeepSeek выпустили мощную OCR-модель, способную преобразовывать изображения документов прямо в Markdown или текст.
Что умеет:
- Распознаёт текст на изображениях и в PDF
- Работает с документами, таблицами и сложными макетами
- Поддерживает разные режимы: Tiny, Small, Base, Large
- Оптимизирована под GPU (PyTorch + CUDA 11.8)
- MIT-лицензия — можно свободно использовать и модифицировать
DeepSeek-OCR достигает высокой точности и эффективности за счёт компрессии визуальных токенов. На Omnidocbench - лучшая точность при минимуме визуальных токенов, превосходит другие OCR-модели по эффективности и скорости.
🟠 HF: https://huggingface.co/deepseek-ai/DeepSeek-OCR
🟠 Github: https://github.com/deepseek-ai/DeepSeek-OCR
🟠 Paper: https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
@ai_machinelearning_big_data
#ocr #DeepSeek
DeepSeek выпустили мощную OCR-модель, способную преобразовывать изображения документов прямо в Markdown или текст.
Что умеет:
- Распознаёт текст на изображениях и в PDF
- Работает с документами, таблицами и сложными макетами
- Поддерживает разные режимы: Tiny, Small, Base, Large
- Оптимизирована под GPU (PyTorch + CUDA 11.8)
- MIT-лицензия — можно свободно использовать и модифицировать
DeepSeek-OCR достигает высокой точности и эффективности за счёт компрессии визуальных токенов. На Omnidocbench - лучшая точность при минимуме визуальных токенов, превосходит другие OCR-модели по эффективности и скорости.
@ai_machinelearning_big_data
#ocr #DeepSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM