Machinelearning – Telegram
382K subscribers
4.43K photos
851 videos
17 files
4.87K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚠️ Китай попытался разобрать литографическую машину ASML (DUV), чтобы изучить её устройство, но повредил систему и затем обратился в ASML с просьбой отремонтировать.

Этот случай показал, насколько такие технологии хрупкие и зависят от поставщика.

🏭 Что такое литографическая установка
Литографическая установка - это ключевая машина, которая «печатает» микроскопические схемы на кремниевых пластинах.

Именно она формирует транзисторы и соединения, из которых состоит каждый процессор, память или графический чип.

От её точности зависит, сколько транзисторов можно разместить на одном чипе, а значит, его мощность и энергоэффективность.

ASML - голландская компания, единственный в мире производитель передовых литографических систем для чипов.
Без её технологий невозможно выпускать современные процессоры уровня NVIDIA, AMD, Apple, Intel или Huawei.

📉 Контекст
Китай серьёзно отстаёт в производстве литографических установок и не имеет доступа к топовым системам DUV и EUV от ASML из-за экспортных ограничений США.

С сентября 2024 года Нидерланды ужесточили правила — теперь даже продвинутые DUV-модели, вроде 1970i и 1980i, требуют специальных лицензий.

🔬 Что такое DUV и EUV
Литографические машины DUV (Deep Ultraviolet) и EUV (Extreme Ultraviolet) - это сердце производства чипов.
Они «печатают» микросхемы с помощью света:
- DUV использует длину волны 193 нм
- EUV - всего 13,5 нм

Чем короче волна, тем мельче детали можно выгравировать → больше транзисторов → выше производительность и ниже энергопотребление.

💡 Без таких систем невозможно создавать высокоплотные и быстрые процессоры, на которых работает современный ИИ.

https://www.techspot.com/news/109969-chinese-engineers-allegedly-broke-asml-chipmaking-machine-failed.html

@ai_machinelearning_big_data


#AI #Chips #ASML #China #DUV #EUV #Semiconductors
😁147🤔75👍4921😢18😨11👏7🔥6❤‍🔥1🤗1💘1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Новинка от ByteDance: модель Video-As-Prompt Wan2.1-14B

ByteDance выпустила модель Wan2.1-14B, специализирующуюся на задаче *video-as-prompt*, то есть использование видео или комбинации изображений и текста как входных данных для генерации нового видео.

- Работает в режимах «видео → видео» или «изображения/текст → видео».
- 14 млрд параметров — высокая детализация, плавная динамика, реалистичные движения.
- Использует исходное видео как шаблон стиля и композиции.

⚠️ Что стоит учитывать
- Модель требует мощных GPU и большого объёма памяти.
- Качество результата зависит от сложности запроса и длины видео.

🟠Github: https://github.com/bytedance/Video-As-Prompt
🟠HF: https://huggingface.co/ByteDance/Video-As-Prompt-Wan2.1-14B

@ai_machinelearning_big_data


#AI #VideoGeneration #ByteDance #Wan2 #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14223🔥22👏22🤩17😎6😁5🥰2🤗2🤔1
🦾Китай сейчас роботизирует свои заводы значительно быстрее, чем любая другая страна в мире.

В 2024 году китайцы использовали около 300 тысяч новых промышленных роботов - это больше, чем во всём остальном мире вместе взятом.

Сегодня у них в цехах уже трудятся свыше двух миллионов роботов, работающих без перерывов днём и ночью.

Для сравнения: США в прошлом году добавили всего 34 тысячи, Япония - 44 тысячи, и по общему количеству роботов Китай опережает Америку в пять раз.

Этот рывок стал возможен благодаря долгосрочной государственной политике, напоминающей ту, что привела Китай к лидерству в электромобилях и ИИ: дешёвые кредиты, целевые субсидии и чёткие планы по автоматизации.

На заводах роботы уже давно не экзотика: они сварят, собирают, перемещают детали, а ИИ на фоне анализирует данные с оборудования, предсказывает износ и сокращает простои.

Особенно заметен разрыв в таких отраслях, как автомобилестроение и электроника, где каждая секунда на конвейере имеет значение.

При этом Китай быстро наращивает собственное производство: уже 60% устанавливаемых роботов теперь делают внутри страны.

Правда, самые точные датчики, приводы и чипы всё ещё ввозят из Германии и Японии.

А вот человекоподобные роботы, хоть и не учитываются в этих цифрах, тоже набирают обороты - базовые модели китайских стартапов стоят уже около $6 000.

Главное узкое место - нехватка специалистов по настройке и обслуживанию.

Но и тут Китай использует своё преимущество: огромный пул электриков и программистов ПЛК, а зарплаты инженеров-робототехников уже достигли $60 000 в год, что привлекает всё больше талантов.

Всё это создаёт мощный эффект: сочетание государственной поддержки, умных цепочек поставок и подхода, где программное обеспечение стоит во главе угла. В ближайшие годы это, скорее всего, будет означать более низкую себестоимость и более быстрые сроки поставок с китайских фабрик - по сравнению со многими конкурентами.

@ai_machinelearning_big_data

#ai #robots #ml
👍164🤩108👏3123🔥22💯11🤣6🎉4🤗2🤔1🤬1
✔️ OpenAI покупает создателей Sky - ИИ-ассистента для Mac

OpenAI объявила о приобретении компании Software Applications Incorporated, разработавшей Sky - интеллектуальный интерфейс для macOS, который работает поверх интерфейсов всех приложений.

Sky понимает контекст того, что происходит на экране, и может выполнять действия в реальных программах: писать тексты, планировать задачи, помогает писать код или управлять рабочим днём, всё через естественный язык.

Цель - превратить ИИ из инструмента для ответов в помощника, который действительно помогает «доводить дела до конца». Как сказал Ник Тёрли, руководитель ChatGPT:
«Мы строим будущее, где ChatGPT не просто отвечает, а помогает вам добиваться результатов».
Этот шаг знаменует переход к новому поколению ИИ-интерфейсов - глубоко встроенных в операционную систему, осознающих контекст и способных взаимодействовать с привычными приложениями.
OpenAi

✔️ В Кремниевой долине опасаются угрозы промышленного шпионажа через личные отношения

Развед службы Китая и России всё чаще используют долгосрочные романтические связи и браки, чтобы получить доступ к секретам инженеров, учёных и топ-менеджеров. Такие операции длятся годами: агент встраивается в жизнь цели, получает доверие - и вместе с ним - легальный доступ к закрытым данным, минуя все технические защиты.

В числе тактик- знакомства в LinkedIn, «случайные» встречи на конференциях и участие в стартап-питчах, где собирают не только идеи, но и персональные данные. В одном из известных случаев агентка вышла замуж за инженера аэрокосмической отрасли, а затем появилась в кругах, связанных с оборонкой США.

Особую тревогу в долине вызывает тихое проникновение китайских инвесторов в американские стартапы, получающие госфинансирование. Как только доля иностранного капитала превышает определенный лимит, Минобороны США теряет право их финансировать, но к тому моменту технологии уже могут быть скопированы или переданы.

По оценкам, ежегодные потери от кражи подобных секретов оценивают в $600 млрд. При этом в 2023-2024 годах 6 из 25 стартапов, получивших $180 млн по госпрограмме малого бизнеса, имели связи с Китаем, несмотря на риски.
Times

✔️ Ant Group представила исследование о стабильном обучении триллионных reasoning-моделей, где описана система Ring-1T - модели с 1 триллионом параметров.

При генерации она задействует около 50 млрд параметров на токен и уже достигла уровня IMO 2025 Silver, что демонстрирует высокий уровень рассуждений.

Главное достижение - Ring-1T умеет думать «долго» без потери устойчивости. Команда решила ключевые проблемы масштабного обучения: различие между тренировкой и инференсом, перерасход вычислений и зависание RL-моделей. Для этого они внедрили три ключевые технологии: IcePop стабилизирует градиенты, C3PO++ оптимизирует длинные рассуждения и поддерживает загрузку GPU, а ASystem обеспечивает быструю синхронизацию и эффективное управление памятью.

Результаты впечатляют - 55.94 балла на ARC AGI 1 и 2088 на CodeForces. Работа показывает, что долгое рассуждение и обучение на триллионном масштабе теперь реально и стабильно.
arxiv

✔️ Учёные представили метод Adamas, который ускоряет self-attention до 4.4×, сохраняя качество при длинных контекстах.

Вместо того чтобы сравнивать каждый токен со всеми, Adamas выбирает только 128 наиболее релевантных для каждого запроса. Это снижает вычислительную нагрузку, но почти не влияет на точность.

Технология использует преобразование Адамара для сглаживания значений, кодирует ключи и запросы в 2-битные представления и быстро вычисляет их сходство с помощью Manhattan-метрики. Модель затем применяет обычное внимание только к нужным токенам.

Метод не требует переобучения, добавляет лишь минимальные данные в память и ускоряет работу LLM в среднем на 1.5×, сохраняя качество на уровне плотного внимания.
Подробнее

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
177👍39🤗15🥱7🔥3
⏱️ Speedrun Science: как ИИ-команды Кремниевой долины работают по 100 часов в неделю

Ведущие AI-команды Кремниевой долины работают по 80–100 часов в неделю, стараясь выпускать модели и функции быстрее конкурентов.

Речь идёт об Anthropic, Microsoft, Google, Meta, Apple и OpenAI, где взят темп «прорыв → релиз» измеряется уже месяцами, а не годами. Основная тяжесть ложится на узкий круг инженеров и исследователей, которые буквально живут между тестами и деплоями, в то время как остальная организация работает в нормальном режиме.

Руководители называют это «уникальным окном возможностей» - и многие принимают нагрузку ради влияния на сферу, любопытства и доли в успехе.

В стартапах даже встречаются контракты с ожидаемыми 80+ часами работы, хотя чаще культура компаний сама к этому подталкивает.

Чтобы поддерживать ритм, компании внедряют ротацию “captains” - инженеров, следящих за работой над моделями 24×7.

Разрыв между «исследованием и внедрением» сжался до «разницы между четвергом и пятницей».

Исследователи говорят, что обучение по-прежнему непредсказуемо, поэтому графики постоянно меняются по итогам реальных результатов. Атмосфера -«speedrun-науки».

Один из фаундеров пошутил:

«Если 9-9-6 — это график с 9 утра до 9 вечера, 6 дней в неделю,
то у нас – 0-0-2: с полуночи до полуночи, с 2-часовым перерывом на выходных».


Источник: wsj.com/tech/ai/ai-race-tech-workers-schedule-1ea9a116

@ai_machinelearning_big_data


#AI #Tech #Startups #SiliconValley #OpenAI #Anthropic #Microsoft #Google
👍64😨5916🫡16🏆6🔥5🦄4😁3
🦉 LightOnOCR-1B: новая быстрая OCR-модель от LightOn

Модель дистиллирована из Qwen2-VL-72B-Instruct и обучена на корпусе из 17.6 млн страниц / 45.5 млрд токенов.

🔥 Главное:**
-1 B параметров
- позволяет обрабатывать 5.7 страниц/с на одном H100 (это примерно ≈ 493 000 страниц за день)
- Распознаёт таблицы, формы, уравнения и сложные макеты
- 6.5× быстрее dots.ocr, 1.7× быстрее DeepSeekOCR
- Расходы < $0.01 за 1000 страниц A4

📊 Качество (Olmo-Bench):
- Превосходит DeepSeekOCR
- Сопоставима с dots.ocr (при этом модель в 3 раза меньше по весу)
- +16 пт к Qwen3-VL-2B-Instruct

Эта моделька - отличный баланс качества, скорости и стоимости.

🟢Модель 1B: https://huggingface.co/lightonai/LightOnOCR-1B-1025
🟢Модель 0.9B (32k): https://huggingface.co/lightonai/LightOnOCR-0.9B-32k-1025)
🟢Блог LightOn: https://huggingface.co/blog/lightonai/lightonocr
🟢Демка: https://huggingface.co/spaces/lightonai/LightOnOCR-1B-Demo

@ai_machinelearning_big_data


#ocr #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
63👍28🔥19❤‍🔥1🤗1
🧠 Anthropic проверила, могут ли LLM понимать скрытые мотивы людей

Исследователи из Anthropic опубликовали новую работу, где проверили, насколько большие языковые модели (LLM) способны замечать намерения и скрытые мотивы за сообщениями — например, когда кто-то говорит что-то не из-за убеждений, а потому что ему заплатили или он хочет повлиять на мнение.

🔍 Суть эксперимента

Моделям давали тексты с разными источниками сообщений:
- нейтральные примеры, обычные советы или отзывы без выгоды для автора;
- скрытые мотивы, когда человек получает оплату или имеет выгоду (например, реклама под видом совета);
- явные предупреждения, где в тексте упоминалось, что «автор получает деньги за это».

Задача моделей - оценить, насколько можно доверять сообщению и заметить, есть ли скрытый интерес.

🧩 Результаты

На простых синтетических примерах (где мотив очевиден) LLM-ы действовали почти как люди и могли логически объяснить, что сообщение может быть предвзятым.

Но в реальных кейсах, например, в рекламных текстах или постах с платной интеграцией — модели часто не видели подвоха. Они воспринимали сообщения как искренние и достоверные.

Если модель напомнить заранее (prompt-hint), что стоит искать скрытые мотивы, результаты улучшались, но не сильно - эффект был частичный.

🧠 Неожиданный эффект

Оказалось, что модели с длинными цепочками рассуждений (chain-of-thought) хуже замечали манипуляции.
Когда модель начинает подробно рассуждать, она легче “запутывается” в деталях и теряет критичность к источнику, особенно если контент длинный и эмоциональный.

Чем длиннее и сложнее сообщение, тем хуже модель оценивает предвзятость. Это контрастирует с человеческим поведением: люди обычно, наоборот, становятся подозрительнее при сложных рекламных текстах.

Современные LLM могут анализировать факты, но слабо понимают мотивы, но им трудно различить, почему кто-то что-то говорит.

Это делает их уязвимыми для скрытого влияния, особенно если текст замаскирован под дружеский совет или экспертное мнение.

При использовании LLM для анализа новостей, рекомендаций или рекламы важно учитывать, что они могут не распознать коммерческую предвзятость.

📄 Исследование: arxiv.org/abs/2510.19687

@data_analysis_ml
71👍39🤗10👏3🥱3🥰2
🧠 Карпаты показал, как добавить новую функцию в мини-LLM nanochat d32, сравнив её «мозг» с мозгом пчелы.

Он обучил модель считать, сколько раз буква r встречается в слове strawberry, и использовал этот пример, чтобы показать, как можно наделять маленькие языковые модели новыми навыками через синтетические задачи.

Сначала генерируются диалоги:

«Сколько букв r в слове strawberry?»

и правильные ответы.

После этого модель проходит дообучение (SFT) или обучение с подкреплением (RL), чтобы закрепить навык.

Карпаты объясняет, что для маленьких моделей важно продумывать всё до мелочей, как разнообразить запросы, как устроена токенизация и даже где ставить пробелы.

Он показывает, что рассуждения лучше разбивать на несколько шагов, тогда модель легче понимает задачу.

Nanochat решает задачу двумя способами:
— логически, рассуждая пошагово;
— через встроенный Python-интерпретатор, выполняя вычисления прямо внутри чата.

Идея в том, что даже крошечные LLM можно «научить думать», если правильно подготовить примеры и синтетические данные.

📘 Разбор: github.com/karpathy/nanochat/discussions/164

@ai_machinelearning_big_data

#AI #Karpathy #Nanochat #LLM #SFT #RL #MachineLearning #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
98👍56🔥19🤗3💘3🗿1
Media is too big
VIEW IN TELEGRAM
✔️ IBM совершила прорыв в квантовых вычислениях: на обычных FPGA-чипах

Всего через два дня после новости от Google - ещё один крупный квантовый прорыв.

IBM заявила, что один из её ключевых алгоритмов квантовой коррекции ошибок теперь способен работать в реальном времени на FPGA-чипах AMD, без использования экзотического оборудования.

Это делает квантовые вычисления быстрее, дешевле и ближе к практическому применению, чем ожидалось.

Алгоритм, который отслеживает и исправляет ошибки кубитов «на лету»,показал производительность в 10 раз выше необходимой, что стало важным шагом к созданию квантового компьютера Starling, запланированного на 2029 год.
Теперь IBM утверждает, что проект идёт на год впереди графика.

Исследовательская статья выйдет в понедельник.
Темп развития квантовых технологий заметно ускоряется.
reuters

✔️ Microsoft представила AI-браузер Edge - ответ на OpenAI Atlas

Через два дня после запуска OpenAI Atlas Microsoft представили обновлённый браузер Edge с новым режимом Copilot Mode. Это полноценный AI-бразуер, который понимает контекст вкладок, выполняет действия и способен продолжать проекты, используя историю пользователя.

Функция Actions позволяет голосом или через чат открывать страницы, находить нужную информацию, отписываться от рассылок и даже бронировать рестораны. Система Journeys группирует прошлую активность по темам и помогает вернуться к незавершённым задачам, предлагая логичные следующие шаги. Включение Page Context даёт Copilot доступ к истории для более точных и персонализированных ответов, однако это остаётся опциональной функцией, которую можно отключить в любой момент.

Edge также получил встроенный AI-защитник от фейковых всплывающих окон, менеджер паролей с проверкой на утечки.

Браузер уже доступен в странах, где работает Copilot, на Windows и macOS.
Microsoft

✔️ Google добавили reasoning в Google Earth

Google представила фреймворк Geospatial Reasoning на базе Gemini, который объединяет предиктивные модели и данные в единую систему анализа Земли.
Теперь ИИ способен рассуждать о реальных процессах, например, предсказывать землетрясения, оценивать риски и предлагать план эвакуации.

Система уже применяется в ВОЗ (WHO AFRO) для прогнозов вспышек холеры и у McGill & Partners для расчёта ущерба после ураганов.

Google превращает Google Earth из карты в разумный аналитический инструмент планеты.
google


✔️ Исследователи создали систему DiscoRL (Discovered Reinforcement Learning), где модель сама открыла правило обучения с подкреплением, не опираясь на человеческие алгоритмы вроде Q-Learning или PPO.

Мета-обучатель наблюдал за множеством агентов в разных средах и вывел универсальное правило обновления, которое улучшает поведение моделей без ручной настройки.
В итоге DiscoRL победил лучшие алгоритмы на Atari 57 и успешно перенёс этот навык на новые задачи.
nature

✔️ Hugging Face выпустила OpenEnv: универсальную среду для создания AI-агентов

Hugging Face открыла OpenEnv -платформуа где можно собирать, обучать и масштабировать агентов под ваши задачи.
Внутри уже есть всё: инструменты, плагины, API и поддержка обучения с подкреплением - без сторонних библиотек.

OpenEnv позволяет создавать системы, где агенты взаимодействуют, распределяют задачи и выполняют их самостоятельно.
Платформа полностью открыта и готова к использованию без ограничений.
HF

✔️ Qwen3-Max вышла в лидеры среди AI-трейдеров

На криптобенчмарке AlphaArena модели ИИ торгуют по $10 000 на площадке Hyperliquid, чтобы проверить качество торговых стратегий.
После старта, где лидировала DeepSeek V3.1, а GPT-5 показывала убыток около −39 %, Qwen3-Max обошла всех и заняла первое место.

Все участники - Qwen3-Max, DeepSeek V3.1, Claude 4.5 Sonnet, Gemini 2.5 Pro, Grok 4 и GPT-5 — торгуют в одинаковых условиях без приватных данных, что делает тест прозрачным.
На Polymarket оценивают шансы Qwen3-Max удержать лидерство в 45 %.

Организаторы планируют расширить эксперимент на акции и другие активы и запустить инвестплатформу для AI-агентов.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
183👍63🔥17🌚5👀3🤗3
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ LongCat-Video 13.6И - мощная open-source модель для генерации видео.

Модель поддерживает:

- Текст в видео (Text-to-Video)
- Оживлять картинку (Image-to-Video)
- Продолжать существующее видео (Video Continuation)

Всё в одном фреймворке, без переключения между разными моделями.

🎬 Главное преимущество модели - способность генерировать длинные видео (минуты) без потери качества и цветового дрейфа, что до сих пор остаётся слабым местом большинства аналогов.

Еще из интересного, модель позволяет создавать видео в разрешении 720p при 30 кадрах/с.

🏆 LongCat-Video конкурирует с лучшими open-source решениями и даже некоторыми коммерческими моделями, особенно в согласованности текста и изображения.

Самое приятное - полный open-source под лицензией MIT, можно использовать как в исследованиях, так и в коммерческих проектах.

GitHub: https://github.com/meituan-longcat/LongCat-Video
Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Video
Сайт проекта: https://meituan-longcat.github.io/LongCat-Video/

@ai_machinelearning_big_data


#LongCatVideo #TextToVideo #ImageToVideo #VideoContinuation #OpenSource #AI #GenerativeAI #VideoGeneration
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7135🔥16😇4❤‍🔥2🤗2💔1
✔️ Подборка полезных бесплатных курсов и гайдов на выходные.

🖥 Microsoft представила свежий цикл лекций по Python и и ИИ.

Содержание: Курс включает 9 лекций, дополненных видео, подробными презентациями и примерами кода. Цикла - обучение разработке ИИ-агентов доступен написан понятно, даже для новичков в программирование.
Темы: В лекциях рассматриваются такие темы, такие как RAG (Retrieval-Augmented Generation), эмбеддинги, агенты и протокол MCP.
👉 Курс

💡Гарвардский курс по машинному обучению

Культовый трек CS 249 превратили в интерактивный учебник - и это, пожалуй, один из лучших стартов для инженеров, которые хотят делать реальные ML-системы, а не просто играться с моделями.

• Вся база по ML: объясняют фундамент с нуля, нужно только знание Python
• Проектирование систем и инженерия данных
• Подготовка датасетов, MLOps и мониторинг
• Развёртывание ИИ в IoT и продакшене

Это практический курс: не о формулах, а о том, как внедрять ML так, чтобы он приносил бизнесу прибыль.
Если хочешь понять, как модели живут в проде - идеальный вариант для старта.
👉Курс

🖥 Создай своего Bash-агента с NVIDIA Nemotron за 1 час

NVIDIA показала, как собрать AI-агента, который понимает твои запросы на естественном языке и сам выполняет команды Bash.
В основе модель Nemotron Nano 9B v2: компактная, быстрая, идеально подходит для локального эксперимента.

Агент умеет:
- распознавать команды на естественном языке («создай папку», «покажи файлы»),
- превращать эти команды в рабочие Bash-срипты
- спрашивать подтверждение перед выполнением.

Весь код занимает ~200 строк Python, работает через FastAPI и LangGraph.
Можно расширить под DevOps, Git-операции, анализ логов или управление сервером.
👉Гайд

⚡️ Kaggle Learn: интерактивные мини-курсы по Python, Data Science и машинному обучению.
Полностью бесплатно и максимально практично.


Что внутри:
• Python, Pandas, визуализация
• Основы машинного обучения и фичеринжиниринг
• Подготовка данных и работа с моделями

Практика без лишней теории учишься и сразу применяешь.
👉Курс

🖥 Гайд по шардингу баз данных от PlanetScale

Вы узнаете, как масштабировать базы данных через шардинг - разбиение данных по серверам для роста производительности и отказоустойчивости.

Главное:
• Шардинг нужен, когда одна база больше не справляется с нагрузкой.
• Есть два популярных подхода — по диапазону (range) и по хешу (hash).
• Важно выбрать стабильный ключ (например, user_id) и избегать кросс-шардовых запросов.
• Прокси-слой немного увеличивает задержку, но даёт масштабируемость.

Отличный материал, если хочешь понять, как строят системы уровня YouTube. А здесь много базы по SQL
Читать

🧠 60 готовых проектов по генеративному ИИ

Список из 60 проектов на GitHub с открытым кодом по генеративному ИИ 0от текстовых моделей до аудио и видео.

Каждый проект - с описанием и ссылкой на репозиторий. Можно выбрать идею, запустить локально и собрать своё AI-портфолио.
👉 Github

👉 Еще больше полезного.

@ai_machinelearning_big_data

#AI #MachineLearning #DataScience #ML #ИИ #freecourses
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍10246🔥18🗿5💋1
Media is too big
VIEW IN TELEGRAM
✔️ Роль Wikipedia в интернете изменилась.

Википедия стремительно теряет аудиторию, но получает всё больше автоматических обращений со стороны ИИ-систем, которые берут оттуда данные напрямую, не отправляя пользователей на страницы.

Wikipedia становится не столько источником контента, сколько платформой для проверки фактов. Уже сегодня она применяет собственные ИИ-инструменты, которые автоматически отслеживают подозрительные правки, например, попытки вставить ложную информацию, оскорбления или спам. Система не публикует изменения сама, но помогает редакторам быстрее их находить и проверять.

Поскольку проект не может продавать данные напрямую, как Reddit, Wikipedia запустила платные подписки на мгновенный доступ к обновлениям, и среди клиентов уже есть Google.
Ежегодное содержание платформы обходится примерно в 178 миллионов долларов, большая часть которых уходит на серверы и инфраструктуру.
ft

✔️ Китайский стартап Noetix Robotics представил своего первого потребительского робота под названием Bumi, ориентированный на работу по дому и образовательное применение.

Робот стоит всего 9 988 юаней (~1 402 доллара США), его рост - 94 см, вес - 12 кг.

Робот снабжён 21 степенью свободы, способен ходить на двух ногах и выполнять гибкие танцевальные движения. Он построен из лёгких композитных материалов, поднимает голосовые команды взаимодействие, а так же у него есть своя среда разработки, для которой можно писать код .
scmp

✔️NVIDIA представила Audio Flamingo 3: новую мультимодальную модель, которая умеет понимать и анализировать звук, речь и музыку.

Модель сочетает несколько технологий: аудиокодер AF-Whisper, адаптер, языковую модель Qwen 2.5 7B и модуль генерации речи. Такой стек позволяет ей работать с длинными звуковыми записями (до 10 минут), распознавать речь, понимать контекст и вести многотуровые голосовые диалоги.

Audio Flamingo 3 обучена на множестве аудио-датасетов и уже показывает высокие результаты на 20 бенчмарках по звуковому пониманию и рассуждению.
Модель распространяется для исследовательских целей и интегрирована в экосистему NVIDIA с поддержкой PyTorch и Hugging Face Transformers.
HF

✔️ Kuaishou Technology представила новую генеративную модель SVG - это Latent Diffusion без классического блока VAE.

Вместо вариационного автоэнкодера модель использует самообучающиеся представления, которые позволяют модели работать быстрее и точнее.

Результат впечатляющий: обучение идёт в 62 раза быстрее, а инференс - в 35 раз. При этом качество изображений не только не падает, но и становится лучше. Отказ от VAE устранил искажения при переходе в латентное пространство и повысил стабильность при генерации картинок высокого разрешения.

SVG можно рассматривать как новую архитектуру для диффузионных моделей, более простую, быструю и энергоэффективную альтернативу привычным решениям с VAE.
Hf

✔️Акции энергетических компаний, выросшие на ожиданиях ИИ-бума, резко упали - сектор потерял около 12% за пять торговых сессий к середине октября, что стало самым сильным падением с февраля.

Сильнее всего пострадали Oklo (минус 30%) и Vistra (минус 12%). Поводом стали осторожные сигналы с рынка: исследования показали, что некоторые модели ИИ могут работать с меньшими вычислительными затратами, GE Vernova намекнула на охлаждение инвестиций, а инвесторы вновь обратили внимание на отсутствие выручки у Oklo.

После бурного роста в начале октября: Oklo выросла почти в восемь раз, Constellation прибавила более 80% - сектор оказался слишком чувствительным к любым сомнениям в темпах спроса.

При этом фон не полностью негативный: власти США ускоряют подключение дата-центров к электросетям, а Oracle готовится к масштабному размещению облигаций для займов на строительства новых центров обработки данных.
bloomberg

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
167👍24🥰3😁32🔥2💯1💔1🤝1🤗1🦄1
🤖 MiniMax-M2: новая MoE-модель серии MiniMax

MiniMax-M2 переосмысливает эффективность: это 230 млрд параметров (из них активно только 10 млрд) - мощная, быстрая и экономичная модель, которая сочетает интеллект уровня топовых LLM с оптимизацией под агентные применения и программирование.

🔹 Основные особенности

🧠 Интеллект мирового уровня.
По данным *Artificial Analysis*, MiniMax-M2 демонстрирует отличные результаты в математике, науке, программировании, следовании инструкциям и использовании инструментов.
Модель занимает #1 место среди всех open-source моделей по суммарному индексу интеллекта.

💻 Кодинг
Разработана для полного цикла разработкт - от файловых правок до тестировании кода и его автокоррекции.

Модель показывает отличные результаты на Terminal-Bench и (Multi-)SWE-Bench, что делает её эффективной в IDE, терминалах и CI-системах.

🧩 Агентные возможности.
MiniMax-M2 умеет планировать и выполнять сложные цепочки действий через shell, браузер, retrieval и code runners.
В тестах BrowseComp уверенно находит труднодоступные источники и восстанавливается после сбоев, не теряя цепочку рассуждений.

MiniMax M2 построена по принципу GPT-OSS и использует сочетание Full Attention и Sliding Window Attention (SWA). Это помогает эффективно работать с длинным контекстом - часть модели анализирует всё сразу, другая концентрируется на ближайших фрагментах текста.

Каждая attention-голова имеет собственный RMSNorm, а блоки Full Attention и SWA используют разные RoPE-параметры, это повышает гибкость и устойчивость модели.

MiniMax-M2 - это новый стандарт эффективности для AGI-агентов и кодинга: умнее, быстрее и дешевле, чем аналоги.

https://huggingface.co/MiniMaxAI/MiniMax-M2

@ai_machinelearning_big_data


#AI #MiniMax #LLM #ArtificialIntelligence #Benchmarks
🔥5727👍12🤗5💘2
В России растет тренд на использование нейросетей в облачной инфраструктуре

Компании перестали опасаться ИИ в облаках и всё чаще используют их в своих корпоративных процессах. Облачные платформы предлагают готовые инструменты для адаптации моделей под задачи компании, для создания ИИ-ассистентов и агентских систем, они также предлагают более выгодную и прогнозируемую экономику внедрения.

Пример: в Yandex AI Studio с начала 2025 года спрос на генеративные модели вырос в 5 раз, каждый месяц на платформе потребляют десятки миллиардов токенов. На ней активно используются как собственные модели YandexGPT, так и опенсорсные решения вроде Qwen3-235b, применяемые для агентских сценариев и генерации кода.


При этом опенсорс-модель от AliBaba уже на втором месте по потреблению после YandexGPT.

@ai_machinelearning_big_data

#AI #ML #GenerativeAI
👍38🤣2511🤬4🔥3🥰2😁2🌚2🌭2🤝1🦄1
⚡️ LMMs Engine - единый движок для обучения мультимодальных моделей

Простой, гибкий и мощный фреймворк от LMMs-Lab для обучения моделей, которые понимают текст, изображения, аудио и видео, всё в одном месте.

Что внутри:
• Поддержка 19+ архитектур, включая:
• Qwen3-VL - обработка изображений в native-разрешении, контекст до 10 000+ токенов
• Qwen2.5-Omni - единая модель для текста, изображений и аудио
• WanVideo - генерация видео из текста/изображений (T2V, I2V, V2V)
• dLLM - диффузионные языковые модели
• LLaVA-OneVision, Bagel, SiT, RAE-SigLip и другие

📜 Лицензия: Apache 2.0 (можно использовать даже в коммерческих проектах)

🔗 GitHub: https://github.com/EvolvingLMMs-Lab/lmms-engine

@ai_machinelearning_big_data

#llm #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5930🔥8🤗2🥰1
🖥 Технологическая платформа Авито открыла доступ к своим нейросетям — A-Vibe и A-Vision

Они дообучены на миллионах данных e-commerce, и предназначены для решения задач рынка. ИИ от Авито называют первыми российскими моделями с глубокой оптимизацией под электронную коммерцию и русский язык. A-Vibe занимает лидирующие позиции в различных популярных рейтингах не только по пониманию русского, но и по работе с кодом, решению сложных задач. Компания вложила в разработку моделей более полумиллиарда рублей.

Вместе с этими инструментами команда Авито выпустила переведенные на русский версии известных тестов для замера качества моделей. Ранее они были доступны только на английском.

Эксперты отмечают, что у отечественных компаний до сих пор не было открытых моделей, обученных специально на русском языке и под локальные сценарии электронной коммерции. Авито, по их мнению, — один из немногих игроков, который располагает достаточными объемами данных и вычислительными ресурсами, чтобы предложить рынку уже обученные и протестированные решения. Это снизит порог входа для стартапов и корпоративных разработчиков, которые смогут создавать продукты на базе готовых моделей, а не тратить ресурсы на адаптацию западных или азиатских систем.

Моделями можно воспользоваться бесплатно в любых целях — все данные и документация находятся на Hugging Face.

@ai_machinelearning_big_data

#news #ai #ml
👍6015😁7🥰4👾3🔥2