Интересная история, которая доказывает, что в индустрии ИИ не всегда нужны миллиарды долларов и сотни сотрудников.
Знакомьтесь - проект Linum.
Два брата, Сахила Чопра и Ману Чопра, сделали две text-to-video модели на 2 миллиарда параметров, которые генерируют клипы длиной от 2 до 5 секунд в разрешении до 720p.
Согласитесь, это редкое явление в мире, где большинство видео-генераторов закрыты за платными API.
Изначально братья совсем не планировали заниматься генерацией видео.
Сахил окончил Стэнфордский университет в 2019, где в соавторстве разработал курс по LLM и занимался исследованиями в области когнитивных наук на стыке ИИ и лингвистики.
Ману досрочно окончил Калифорнийский университет в Беркли в 2021 г.. До основания Linum занимался исследованиями ИИ в биоинженерии.
Стартовав осенью 2022 года и пройдя через YCombinator, они пилили ИИ-инструмент для раскадровки фильмов. Но, пообщавшись с режиссерами, поняли: рынок слишком узкий, а творческий процесс у всех разный.
Linum v1, была, по их признанию, франкенштейном. Они взяли за основу SDXL, раздули U-NET, превратив 2D-свертки в 3D и добавили временные слои внимания.
Получился забавный бот для Discord, который делал гифки в разрешении 180p. Это работало, но было тупиковой ветвью эволюции.
Расширять модель, заточенную под картинки, для работы с видео - плохая идея в долгосроке. VAE, идущий в комплекте с имидж-моделью, просто не умеет нормально сжимать и разжимать видеопоток. Качество на выходе получается никакое.
К тому же распределения данных в картинках и видео слишком разные, да и переучивать модель стоит дорого.
VAE взяли от Wan 2.1, успев попутно разработать свой собственный temporal VAE, но решили сэкономить на эмбеддингах, DIT и T5 на роль текстового энкодера.
Представьте объем работы: двое парней делали то, чем обычно занимаются отделы с десятками сотрудников.
Они сами собирали датасеты, настраивали VLM для фильтрации контента, писали пайплайны для аннотирования архива видео.
И, конечно, бенчмаркали провайдеров, пытаясь понять, почему H100 у одного хостера работает хуже, чем у другого.
Linum v2 — pretrained веса. Модель пока ошибается в физике и эстетике, а генерация 5-секундного клипа в 720p занимает около 15 минут на H100 при 50 шагах.
Но, главное, братья не останавливаются: есть планы по ускорению через CFG и timestep distillation, работа над звуком и масштабированием.
@ai_machinelearning_big_data
#AI #ML #T2V #Linum
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍204🔥55❤45👏21😁21🤩7🌚6🗿4🎉2🦄2🥰1
Media is too big
VIEW IN TELEGRAM
Компании пришлось трижды переписывать тесты для соискателей на позицию performance-инженера, так как их собственные модели решают задачи лучше людей: каждая новая итерация Claude делала предыдущий тест бессмысленным. Изначально кандидаты должны были оптимизировать Python-симулятор вымышленного чипа. Однако выяснилось, что Claude справляется с этим быстрее большинства инженеров.
В итоге компания пошла на радикальный шаг: новый тест больше не имитирует реальные рабочие задачи, а напоминает головоломки со специфическими ограничениями и средой исполнения. Claude пасует перед ними, так как подобные сценарии отсутствуют в его обучающей выборке. Теперь проверить квалификацию инженера можно только на задачах, с которыми ИИ еще не сталкивался.
anthropic.com
Корпорация начала агрессивное внутреннее внедрение Claude Code от Anthropic в командах, курирующих Windows, Microsoft 365 и Outlook. Использовать инструмент для создания прототипов рекомендуют даже тем сотрудникам, у которых нет профильного опыта в программировании.
Теперь инженеры Microsoft должны работать с Claude Code и GitHub Copilot одновременно, чтобы предоставлять руководству сравнительный анализ двух систем. Ситуация выглядит любопытно: хотя клиентам корпорация продает Copilot как "золотой стандарт ИИ-кодинга", сама она все активнее опирается на решения партнера.
theverge.com
Инструмент, вышедший в стадии технического превью, позволяет встраивать агентные возможности GitHub Copilot CLI в собственные приложения. Вместо того чтобы с нуля писать логику планирования задач и оркестрацию вызовов, инженеры теперь могут использовать готовый и проверенный в продакшене цикл исполнения от GitHub.
SDK поддерживает Node.js, Python, Go и .NET. Решение берет на себя всю инфраструктурную часть: аутентификацию, переключение между моделями, стриминг данных и интеграцию с протоколом MCP.
Инструкции по установке, примеры и SDK-референсы для каждого языка выложены в репозитории. Для работы потребуется активная подписка на GitHub Copilot.
github.blog
Adobe превращает свой PDF-редактор в мультимодальную ИИ-платформу. Теперь он может изменять структуру и содержимое файлов, используя команды на естественном языке. Пользователям стали доступны 12 типов действий через чат: от удаления страниц, комментариев и изображений до массовой замены текста и установки защиты паролем.
Функционал расширился и в сторону генерации: Acrobat умеет создавать черновики презентаций на основе коллекций файлов, автоматически подтягивая данные и оформляя слайды через Adobe Express.
Еще из нового — генерация подкастов на основе PDF и кастомизация ИИ-ассистента: переключение между готовыми ролями либо настройка собственного системного промпта под конкретные задачи.
blog.adobe.com
Компания объявила о стратегическом партнерстве с японской Sakana AI, основанной выходцами из Google Research Дэвидом Ха и Ллайоном Джонсом. Цель - ускорить внедрение моделей семейства Gemini в Японии. По соглашению, Sakana AI будет использовать технологии Google для собственных R&D-проектов.
Финансовые условия не раскрываются, однако известно, что еще в конце 2025 года оценка стартапа достигла $2,6 млрд., а ранее стартап поддержала NVIDIA.
bloomberg.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍102❤34🔥14🤔14👏8🎉5🥱4👌1🤗1
Всемирный экономический форум в Давосе на этой неделе превратился в парад прогнозов про ИИ: лидеры топовых компаний поделились своими совершенно разными взглядами на будущее.
Вот что говорили отцы индустрии:
К концу этого года у нас может появиться ИИ умнее любого человека, скажу, что не позже следующего года.
Будущее — это гуманоидная робототехника, и у каждого будет робот.
Есть проблема в энергоснабжении для ИИ, но в Китае этого не произойдет, так как он развертывает более 100 ГВт солнечной энергии в год.
ИИ — это уникальная возможность для Европы, которая может перепрыгнуть через программную эпоху и объединить свои производственные возможности для создания инфраструктуры ИИ.
ИИ создаст множество рабочих мест, связанных с ручным трудом: сантехников, электриков и строителей. Их зарплаты уже растут почти вдвое. Для этого не нужна докторская степень.
Мы как глобальное сообщество должны прийти к тому, чтобы использовать ИИ для чего-то полезного, что меняет жизнь людей, стран и отраслей.
Внедрение ИИ будет неравномерно распределено по всему миру, в первую очередь из-за ограничений, связанных с доступом к капиталу и инфраструктуре.
Я ожидаю создания новых, более значимых рабочих мест. Студентам стоит использовать время для освоения новых инструментов, а не для стажировок — это даст скачок в развитии на 5 лет вперед.
После появления AGI рынок труда окажется на неизведанной территории.
Не продавать чипы Китаю — это одно из важнейших действий, чтобы у нас было время справиться с риском выхода ИИ из-под контроля.
ИИ может уничтожить половину начальных позиций для белых воротничков.
Многие люди взаимодействуют с ИИ с ложным убеждением, что они похожи на нас. И чем умнее мы их делаем, тем больше это будет так. Но ИИ не совсем человек.
Неясно, будет ли это хорошо.
Единственное общее мнение - "Мы развиваемся быстрее, чем понимаем, и последствия не будут ждать, пока мы разберемся в ситуации".
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75🤔53❤34🥱14🤬13🔥10👏7👻4🥰2🎉2🦄1
Сэм Альтман анонсировал в X, что на собрании разработчиков будет обсуждение "инструментов нового поколения", которые начинает создавать OpenAI.
Стрим нового формата (собрание с трансляцией в прямом эфире) запланирован на 3:00 МСК 28 января на Youtube.
Ваши ставки - что такое инструменты нового поколения?
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75❤21🥱12🔥9🤣4🤔3🦄2
Любопытный кейс португальского разработчика Хуго Даниэля, который решил поиграть в жесткую автоматизацию с Сlaude Сode.
Хуго был активным пользователем Сlaude, тратил 220 евро в месяц и однажды решил настроить генерацию шаблонных файлов для новых проектов двумя агентами. Схема была примерно такая:
В какой-то момент Claude A, видимо, устал от тупости коллеги и начал генерировать инструкции капсом, чтобы жестко задать поведение - файл наполнился директивами, которые выглядели как System Prompts.
Гипотеза бана в том, что сработали эвристики защиты от Prompt Injection. Система безопасности Anthropic увидела, что пользователь генерирует и скармливает модели текст, который структурно и лексически выглядит как системные инструкции. Вобщем, для алгоритмов безопасности это выглядит как попытка джейлбрейка.
Ожидаемо, саппорт хранил молчание: ни через систему апелляции (она, кстати на Google Forms), ни письма в поддержку не дали результатов. Через насколько дней пришел только молчаливый возврат средств за подписку. Так что причины блокировки так и остались гипотезой.
Если бы подобный эксперимент проводился у "Корпорации Добра" - сработал бы их вездесущий триггер на "злонамеренную активность", и человек мог бы потерять Gmail, Google Photos, документы и получить кирпич вместо Android-смартфона.
История Хуго - хорошее напоминание о том, что модерация в ИИ сейчас - это черный ящик.
Если вы занимаетесь авто-генерацией промптов, которые выглядят как системные инструкции (то, что называют meta-prompting и scaffolding) - вы ходите по минному полю.
@ai_machinelearning_big_data
#AI #ML #Story #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔111❤48👍26🤬18😢13😁11🔥10👏6👨💻2🙊2🦄1
Модель обучили на огромном масштабе и усилили продвинутым RL - в итоге модель сильна сразу в нескольких вещах:
- логика и сложные рассуждения
- знания и QA
- работа с инструментами
- агентные сценарии
Ключевые фишки
- Adaptive tool-use - сама понимает, когда подключать Search, Memory и Code Interpreter, без ручного выбора
- Test-time scaling - многокруговая самопроверка и рефлексия, по бенчмаркам обходит Gemini 3 Pro на reasoning
- отличная модель от сложной математики (98.0 на HMMT Feb) до агентного поиска (49.8 на HLE)
Попробовать: https://chat.qwen.ai/
Блог: https://qwen.ai/blog?id=qwen3-max-thinking
@ai_machinelearning_big_data
#qwen #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥121❤25👍16🤨4🦄2
Пока
В течении часа глава OpenAI отвечал на вопросы и рассказывал про видение ИИ сейчас и в будущем. Главный тезис стрима:
Мы входим в эпоху "радикального изобилия", где интеллект станет слишком дешевым, чтобы его измерять.
Сэм Альтман прогнозирует, что к 2027 году стоимость инференса упадет в 100 раз, а модели уровня GPT-5.ХX станут основой для создания сложнейшего софта силами одного человека.
Основным дефицитным ресурсом останется человеческое внимание и способность генерировать качественные идеи.
Ключевые моменты трансляции
Удешевление создания кода не снизит спрос на программистов, а наоборот, резко увеличит объем создаваемого софта. Инженеры будут тратить меньше времени на код и больше на проектирование.
ИИ станет дефляционным фактором. Софт, на разработку которого раньше уходили годы работы команд, теперь можно создать за пару сотен долларов инференса и одну хорошую идею.
Значительная часть мирового ВВП будет создаваться и потребляться через софт, генерируемый ИИ.
Цель — сделать интеллект "too cheap to meter". К концу 2027 года ожидается появление моделей уровня 5.2X со снижением стоимости в 100 раз.
Скорость важнее цены. Разрабатываются методы выдачи результата в 1/100 времени от текущего, даже если это будет стоить дороже.
В GPT-4.5 был упор на текстовый стиль. В GPT-5 команда сместила фокус на "ризонинг, кодинг и инжиниринг". Альтман признает, что сейчас стиль может казаться громоздким, но это исправят в будущих итерациях.
Будущее за приложениями, которые пишутся на лету под конкретного пользователя, т.е софт, который эволюционирует вместе с вашими привычками.
Готовится функция «Sign in with ChatGPT», которая позволит передавать ИИ контекст всей цифровой жизни пользователя (почта, файлы, история), чтобы он мог действовать как полноценный ассистент.
Обсуждается создание иерархии памяти: рабочая идентичность, личная и т.д., чтобы модель знала, какой контекст использовать в разных ситуациях.
Модели становятся слишком хороши в биологии. Старая стратегия блокировки доступа скоро перестанет работать. Нужен переход к стратегии устойчивости, как в пожарной безопасности.
Альтман признался, что сам быстро перешел от "никогда не дам ИИ доступ к компьютеру" до "пусть делает всё сам", потому что удобство перевешивает страх. Это создает риск скрытых уязвимостей, которые могут проявиться через недели работы агента.
Стройте продукты, предполагая, что GPT-6 будет «невероятным». Если ваш бизнес выиграет от новой модели - вы на верном пути. Если модель его съест - это плохой путь.
Софт-скилс - самые важные навыки сейчас: высокая субъектность, способность генерировать идеи, устойчивость и адаптивность.
Альтман советует амбициозным разработчикам ИИ уходить из университетов, так как текущая академическая среда не успевает за темпами индустрии.
Используйте ИИ как безлимитного аспиранта или партнера по брейн-шторму для проверки тысяч идей в режиме "поиска в ширину".
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤70👍56🔥12🥱10🦄2😁1
🐋 DeepSeek выпустили DeepSeek-OCR 2 - новое поколение OCR с SOTA качеством
DeepSeek представили DeepSeek-OCR 2 - 3B модель для продвинутого понимания изображений, документов и OCR, которая выходит на уровень SOTA.
Ключевая новинка - DeepEncoder V2.
В отличие от классических vision LLM, которые «читают» картинку как сетку (слева-направо, сверху-вниз), DeepEncoder V2 работает ближе к тому, как читает человек:
- Сначала формируется глобальное понимание изображения
- Затем модель определяет логический порядок чтения — что важно первым, что дальше
Что это даёт на практике
📄 Лучше работает со сложными макетами документов
📊 Корректно читает таблицы
🧾 Связывает подписи и значения
📰 Понимает колонки и структурированный текст
🔀 Надёжнее обрабатывает смесь текста и визуальной структуры
По качеству
- Обходит Gemini 3 Pro на ряде бенчмарков
- Даёт >4% прироста по сравнению с прошлой версией DeepSeek-OCR
И это при размере модели всего 3B параметров.
Можно запускать и дообучать
Теперь DeepSeek-OCR 2 можно удобно запускать и fine-tune через Unsloth по готовому гайду.
🔗 Guide: https://unsloth.ai/docs/models/deepseek-ocr-2
🔗 Model: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
🔗 Github: https://github.com/deepseek-ai/DeepSeek-OCR-2/tree/main
🔗 Paper: https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
@ai_machinelearning_big_data
#DeepSeek #ocr #opensource
DeepSeek представили DeepSeek-OCR 2 - 3B модель для продвинутого понимания изображений, документов и OCR, которая выходит на уровень SOTA.
Ключевая новинка - DeepEncoder V2.
В отличие от классических vision LLM, которые «читают» картинку как сетку (слева-направо, сверху-вниз), DeepEncoder V2 работает ближе к тому, как читает человек:
- Сначала формируется глобальное понимание изображения
- Затем модель определяет логический порядок чтения — что важно первым, что дальше
Что это даёт на практике
📄 Лучше работает со сложными макетами документов
📊 Корректно читает таблицы
🧾 Связывает подписи и значения
📰 Понимает колонки и структурированный текст
🔀 Надёжнее обрабатывает смесь текста и визуальной структуры
По качеству
- Обходит Gemini 3 Pro на ряде бенчмарков
- Даёт >4% прироста по сравнению с прошлой версией DeepSeek-OCR
И это при размере модели всего 3B параметров.
Можно запускать и дообучать
Теперь DeepSeek-OCR 2 можно удобно запускать и fine-tune через Unsloth по готовому гайду.
🔗 Guide: https://unsloth.ai/docs/models/deepseek-ocr-2
🔗 Model: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
🔗 Github: https://github.com/deepseek-ai/DeepSeek-OCR-2/tree/main
🔗 Paper: https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
@ai_machinelearning_big_data
#DeepSeek #ocr #opensource
🔥131❤33👍24🦄2🥱1🐳1
Media is too big
VIEW IN TELEGRAM
OpenAI поделилась внутренней статистикой внедрения своих инструментов в академическую среду: каждую неделю около 1,3 млн. человек обсуждают с ChatGPT продвинутые научные вопросы. Всего за 2025 год объем таких дискуссий вырос на 47%. Чаще всего ChatGPT просят помочь с Computer Science, Data Science и с алгоритмами ИИ.
Вице-президент по науке Кевин Вейл уверен, что мы наблюдаем переломный момент. Ученые перестали воспринимать чат-бота как поисковик и стали доверять серьезные задачи: от интерпретации сложных данных до планирования экспериментов.
Самое любопытное в отчете - упоминание возможностей GPT-5.2. В OpenAI заявляют, что новая модель переросла уровень школьных олимпиад и теперь она способна на настоящие математические открытия, уже находя применение в вычислительной химии и физике частиц.
axios.com
Новинка заточена под задачи редактирования и синтеза по рефенернсам. Под капотом - MoE на 80В общих 13B активных параметров.
Модель наделили продвинутым семантическим пониманием через ризонинг: получив картинку и промпт, она анализирует контекст, декомпозирует задачу на шаги и точечно вносит правки, не искажая исходную композицию. За консистентность неизменяемых областей отвечает собственный алгоритм MixGRPO.
Tencent насчитал более 80 сценариев использования. Среди них - реставрация старых снимков, сложный фьюжн объектов с разных фото, стилизация и замена текста на изображении с сохранением оригинальной верстки. Модель доступна только в веб-сервисе Tencent.
Tencent в сети X
Google подтвердила поглощение стартапа, который создавал генеративные модели для преобразования изображений в 3D-ассеты. Команда инженеров стартапа в полном составе переходит в Google DeepMind.
Для одного из основателей CSM, Теджаса Кулкарни, это возвращение домой. До того, как запустить свой бизнес в 2020 году, он работал научным сотрудником в том же DeepMind.
Сколько именно Google заплатила за стартап — неизвестно, но на прошлых этапах инвесторы оценивали компанию примерно в $15 млн.
theinformation.com
Главное изменение: теперь не нужно жертвовать скоростью ради качества или наоборот. Модель выдает 1080p без использования апскейлеров, при этом работает в 4 раза быстрее предыдущей версии.
Разработчики сделали упор на стабильность картинки в задачах анимации и video-to-video. Ray 3.14 лучше держит персонажей: они меньше искажаются и не меняются от кадра к кадру.
Для профессионального продакшена важным моментом станет цена - стоимость генерации упала в 3 раза. Обновление уже доступно в Dream Machine и у партнеров: Adobe и AWS.
lumalabs.ai
Nvidia, предположительно, свернула программу Official Pricing Program. Этот механизм обязывал партнеров-производителей выпускать определенный объем видеокарт по рекомендованной розничной цене. Если инсайд подтвердится, понятие MSRP фактически утратит смысл и станет чистой формальностью.
Теперь вендоры освобождаются от жестких ценовых рамок и смогут формировать стоимость устройств, опираясь исключительно на рыночный спрос и собственную маржинальность.
Учитывая опыт прошлых лет и ажиотаж вокруг ИИ-железа, эксперты опасаются возвращения дикого рынка с кратным завышением ценников уже в ближайшее время. Официальных комментариев от Nvidia пока не поступало.
techpowerup.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤49👍39🔥10😢5🥰1😁1🤨1🦄1
Media is too big
VIEW IN TELEGRAM
OpenAI наконец-то пустила в дело наработки купленного стартапа Crixet и это очень хорошая попытка создать идеальное рабочее место для ученых, где не нужно прыгать между десятью вкладками.
Если вы когда-нибудь писали статью, то вам знакомо, когда в одном окне Overleaf, в другом - ChatGPT, в третьем - arXiv, а где-то сбоку еще болтается менеджер ссылок. Контекст постоянно теряется, а копипаст формул туда-сюда рано или поздно приводит к ошибкам.
Так вот, Prism соберет все это в одну кучу и это не просто чат в боковой панели. Он видит всю структуру вашей статьи: уравнения, библиографию и графики.
Можно запустить режим Тhinking и попросить модель, например, переписать сложную формулу или поправить логику в конкретном абзаце. При этом правки вносятся прямо в текст, так что копировать куски кода из чата больше не придется.
Самое приятное - базовую версию Prism сделали бесплатной для всех.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤47🔥19👍15😐1🦄1