Машинное обучение digest – Telegram
Машинное обучение digest
40 subscribers
1.32K photos
183 videos
659 links
Download Telegram
📌Beyond-NanoGPT: лаконичные и аннотированные реализации ключевых идей глубокого обучения.

Если вы хотите не просто запускать готовые модели, а понять, как они работают «под капотом», репозиторий Beyond-NanoGPT — то, что нужно. Этот проект аспиранта по CS Стэнфордского университета, который создан как мост между учебными примерами вроде nanoGPT и сложными наработками, предлагает десятки реализаций современных методов глубокого обучения.

Все написано с нуля на PyTorch, с детальными комментариями — идеально для тех, кто устал от абстрактных статей и беспощадного продакшн-кода. Каждая строчка кода написана так, что становится понятно, как его использовать на практике.

Застряли на уровне чтения бесконечных туториалов и хотите двигаться дальше? Этот репозиторий — отличный шаг. Он не сделает вас экспертом за неделю, но даст инструменты, чтобы разобраться в современных статьях и начать свои эксперименты. И да, здесь нет красивого веб-интерфейса или готовых SaaS-решений — только код, комментарии и ваше любопытство. Как и должно быть в ресерче.

Начать очень просто: клонируете репозиторий, ставите зависимости и можно погружаться в код. Архитектуры? Есть Vision Transformer для классификации изображений, Diffusion Transformer для генерации, ResNet и даже MLP-Mixer. Каждый скрипт — отдельный эксперимент.

Например, чтобы обучить DiT на датасете CIFAR-10, достаточно запустить train_dit.py. Все рассчитано на один GPU, так что даже без доступа к злым кластерам можно практиковаться. А если хочется разобраться в механизмах внимания, отдельные ноутбуки покажут, как работают Grouped-Query, линейное, разреженное или перекрестное внимание — с визуализациями и пояснениями.

Проект не только про архитектуры, есть и прикладные техники. Хотите ускорить инференс языковой модели? Посмотрите реализацию KV-кэширования или спекулятивного декодирования — методы, которые сейчас активно используют в LLM-инфраструктуре.

Интересует RL? В разделе с обучением с подкреплением есть классика - DQN и PPO для Cartpole, а в планах — нейросеть для шахмат с MCTS. При этом код не просто работает, но и объясняет нюансы: почему в REINFORCE важна базовая линия, как избежать градиентного взрыва в трансформерах или чем RoPE-эмбединги лучше стандартных.

Часть разделов (Flash Attention, RLHF) пока в разработке. Но планы грандиозные: автор обещает все - от квантования весов до распределенного RL.


📌Лицензирование: MIT License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Github #BeyondNanoGPT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
📌Как Gemini превращает изучение языков в персонализированный опыт: обзор 3 экспериментов.

Представьте, что учите язык не по учебникам, а через ситуации, в которых оказываетесь каждый день. Именно эту идею воплотила команда Google в проекте Little Language Lessons— трех экспериментах на базе Gemini API, которые делают обучение живым и контекстным.

Первый эксперимент, Tiny Lesson, решает проблему «как сказать это сейчас?». Вы описываете ситуацию — например, «потерял паспорт» — и получаете словарь и фразы в формате JSON. Всё благодаря промптам, где Gemini генерирует структурированные данные: массив терминов с транскрипцией и переводом, а также советы по грамматике.

Например, если целевой язык — японский, модель сама определит, нужна ли транскрипция ромадзи, и подготовит материал за 2 API-запроса. Это не просто список слов, а готовый микрокурс под конкретный сценарий.

Второй, Slang Hang, убирает «учебникоговорение». Тут Gemini выступает как сценарист: создаёт диалоги на целевом языке с культурными нюансами и сленгом. Все генерируется одним запросом — от контекста сцены до реплик с пояснениями. Пример: диалог продавца и туриста может включать неформальные выражения, которые не найдешь в стандартных учебниках.

Правда, иногда модель ошибается или придумывает выражения, так что без проверки носителем не обойтись. Но сам подход — дать пользователю «уши» в реальных разговорах выглядит перспективно, особенно с интеграцией Cloud Translation для мгновенного перевода.

Третий, визуальный эксперимент — Word Cam. Наводите камеру на объект, и Gemini не только определяет его (bounding box), но и предлагает слова вроде «подоконник» или «жалюзи». Детекция работает через Gemini Vision, а дополнительные дескрипторы (цвет, материал, примеры употребления) подтягиваются отдельным запросом. Для изучения бытовой лексики почти идеально, хотя точность сильно зависит от качества снимка.

Во всех экспериментах задействован Text-to-Speech — озвучка слов и фраз. Но есть нюанс: для редких языков голоса зачастую звучат неестественно или не совпадают с диалектом. Например, выберете мексиканский испанский, а синтезатор выдаст акцент из Мадрида. Разработчики честно признают: это ограничение текущих API, и над ним еще работать.

Little Language Lessons — начало переосмысления процесса обучения языкам. Проекту пока не хватает тонкой настройки под лингвистическую специфику (идиомы или региональные диалекты), но основа уже заложена.

🟡Статья


@ai_machinelearning_big_data

#AI #ML #LLM #Gemini
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 MiMo-7B: Набор компактных ризонинг-моделей от Xiaomi.

Xiaomi выпустила в опенсорсный релиз MiMo-7B — набор языковых моделей, созданных для решения сложных задач, от математики до генерации кода.

Несмотря на скромные 7 млрд. параметров, модель демонстрирует результаты, превосходящие 32B-конкурентов, разрушая стереотипы о зависимости качества от размера.

Создание MiMo началось с предтрейна на 25 трлн. токенов, где акцент был на повышении плотности логических паттернов.

Для этого разработчики пересмотрели обработку данных: улучшили извлечение математических формул и блоков кода из веб-страниц, добавили синтетические данные, сгенерированные топовыми ризонинг-моделями, и все это обработали уникальной стратегией смешивания.

На первых этапах доля STEM-контента достигала 70%, а на финальном — добавили синтетику и расширили контекст до 32K токенов.

Обучение с подкреплением на стадии посттренинга проводили на массиве из 130 тыс. задач, где каждая проверялась автоматически. Чтобы избежать reward hacking, использовали только rule-based награды.

Для сложных задач по программированию ввели систему частичных баллов (как на олимпиадах по информатике) - даже если решение не идеально, модель получает feedback за пройденные тесты. А чтобы RL не застревал на простых примерах, добавили ресэмплинг: 10% данных брали из пула уже решенных задач, балансируя эффективность и стабильность обучения.

Результаты бенчмарков: на LiveCodeBench v6 MiMo-7B-RL набрала 49.3%, обойдя QwQ-32B на 10 пунктов, а на AIME 2025 — 55.4%, оставив позади OpenAI o1-mini. При этом базовая версия модели уже показывала 75.2% на BBH, что выше аналогов своего класса.

▶️ Состав набора:

🟠MiMo-7B-Base - базовая модель с потенциалом рассуждений;

🟠MiMo-7B-RL-Zero - RL-модель, обученная на основе базовой;

🟠MiMo-7B-SFT - модель SFT, обученная на основе MiMo-7B-Base;

🟢MiMo-7B-RL - RL-модель, обученная на основе SFT-модели, та, которая в бенчмарках обошла OpenAI o1-mini.


⚠️ Разработчики рекомендуют использовать для локального инференса их форк vLLM , он поддерживает MTP (Multiple-Token Prediction), но и на HF Transformers инференс тоже работает.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #RL #Xiaomi #MiMo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Qwen2.5-Omni-3B — оптимизированная, компактная Omni модель(3B), доступная для запуска на обычных потребительских GPU!

🔋 Экономия памяти: по сравнению с 7B-версией модель потребляет на 50 % меньше VRAM при обработке длинного контекста (~25 000 токенов).

📺 Мультимодальные режим: поддержка 30-секундных аудио- и видео«из коробки» на 24 GB видеокартах.

🤖 Высокое качество: модель сохраняет свыше 90 % точности ответов и обеспечивает естественный, стабильный синтез речи на уровне 7B-модели.

🔜 Репозиторий GitHub: https://github.com/QwenLM/Qwen2.5-Omni
🔜Hugging Face: https://huggingface.co/Qwen/Qwen2.5-Omni-3B
🔜ModelScope: https://modelscope.cn/models/Qwen/Qwen2.5-Omni-3B

#Qwen #omni #opensource

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
✔️ Гендиректор Microsoft: до 30% кода компании создано с помощью ИИ.

На конференции LlamaCon Сатья Наделла, глава Microsoft, заявил, что 20–30% кода в репозиториях компании генерируется искусственным интеллектом. По его словам, эффективность таких решений сильно зависит от языка: например, с Python ИИ справляется лучше, а с C++ пока есть сложности. Наделла подчеркнул, что результаты все еще неоднородны, но тенденция очевидна.

Ранее технический директор Microsoft Кевин Скотт прогнозировал, что к 2030 году ИИ будет писать до 95% всего кода. В то же время в Google, по словам CEO Сундара Пичаи, нейросети уже создают более 30% нового кода. Однако методы подсчета у компаний различаются, поэтому точность цифр - под вопросом. Марк Цукерберг, участвовавший в дискуссии, признался, что не знает аналогичных данных для своей компании.
techcrunch.com

✔️ Mellum от JetBrains: релиз языковой модели для разработчиков.

JetBrains опубликовала а опенсорс модель Mellum, созданную специально для задач разработки. В отличие от универсальных ИИ, Mellum фокусируется на умном завершении кода. Модель поддерживает Java, Python, Kotlin, Rust и еще десяток языков, а ее компактный размер (4 млрд. параметров) снижает затраты на вычисления. Публикация в открытом доступе — не просто жест доброй воли, в JetBrains верят, что прозрачность ускорит прогресс, как это было с Linux или Docker.

Уже сейчас модель обгоняет некоторых конкурентов в тестах на точность. На Hugging Face доступна базовая версия Mellum: ее можно дорабатывать, изучать или использовать как основу для экспериментов. JetBrains подчеркивает: Mellum — не готовый продукт, а инструмент для тех, кто хочет копать глубже.
blog.jetbrains.com

✔️ Anthropic предлагает смягчить экспортные ограничения на чипы ИИ для стран второго уровня.

Anthropic поддержала планы правительства США по ужесточению контроля над экспортом ИИ-чипов, но предложила свои поправки. В заявлении компании отметили, что текущая трехуровневая система (Китай и Россия — третий уровень с самыми жёсткими ограничениями, Мексика и Португалия — второй, Япония и Южная Корея — первый) требует корректировок.

Anthropic предлагает снизить квоты на закупку чипов для стран второго уровня без одобрения властей, чтобы стимулировать их покупать через межправительственные соглашения — это, по мнению компании, уменьшит контрабанду и усилит контроль США. Решения ожидаются к 15 мая — дате вступления правил в силу.
anthropic.com

✔️ Викимедиа внедряет ИИ для помощи редакторам.

Фонд Викимедиа представил новую стратегию использования ИИ, сделав ставку не на автоматизацию, а на усиление роли людей. Вместо того чтобы заменять волонтеров-редакторов, ИИ станет их инструментом: он возьмет на себя рутинные задачи, освободив время для творческой работы. Алгоритмы помогут отслеживать правки, ускорят перевод статей между языками и упростят поиск информации в огромной базе данных.

Особый акцент сделан на открытость: разработки будут базироваться на опенсорс-решениях, а все процессы останутся прозрачными. Стратегия не меняет миссию Википедии, а усиливает ее, делая знания доступнее в эпоху, когда ИИ все чаще влияет на информацию. Редакторы остаются главными героями, а технологии — их помощниками.
wikimediafoundation.org

✔️ Нью-Йоркское метро тестирует ИИ-камеры для предотвращения инцидентов до их начала.

Власти Нью-Йорка тестируют внедрение систем ИИ для «превентивного» анализа поведения людей в метро. Как заявил глава безопасности MTA Майкл Кемпер, камеры с искусственным интеллектом смогут распознавать признаки агрессии или неадекватных действий, если человек ведет себя странно, система отправит сигнал службе безопасности или полиции до эскалации ситуации. «ИИ — это будущее, и мы уже работаем с IT-компаниями над адаптацией технологий под метро», — добавил он, не уточняя деталей. Отдельно глава MTA подчеркнул, что система не использует распознавание лиц, а только анализ действий.
theverge.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
✔️ Гендиректор Microsoft: до 30% кода компании создано с помощью ИИ.

На конференции LlamaCon Сатья Наделла, глава Microsoft, заявил, что 20–30% кода в репозиториях компании генерируется искусственным интеллектом. По его словам, эффективность таких решений сильно зависит от языка: например, с Python ИИ справляется лучше, а с C++ пока есть сложности. Наделла подчеркнул, что результаты все еще неоднородны, но тенденция очевидна.

Ранее технический директор Microsoft Кевин Скотт прогнозировал, что к 2030 году ИИ будет писать до 95% всего кода. В то же время в Google, по словам CEO Сундара Пичаи, нейросети уже создают более 30% нового кода. Однако методы подсчета у компаний различаются, поэтому точность цифр - под вопросом. Марк Цукерберг, участвовавший в дискуссии, признался, что не знает аналогичных данных для своей компании.
techcrunch.com

✔️ Mellum от JetBrains: релиз языковой модели для разработчиков.

JetBrains опубликовала а опенсорс модель Mellum, созданную специально для задач разработки. В отличие от универсальных ИИ, Mellum фокусируется на умном завершении кода. Модель поддерживает Java, Python, Kotlin, Rust и еще десяток языков, а ее компактный размер (4 млрд. параметров) снижает затраты на вычисления. Публикация в открытом доступе — не просто жест доброй воли, в JetBrains верят, что прозрачность ускорит прогресс, как это было с Linux или Docker.

Уже сейчас модель обгоняет некоторых конкурентов в тестах на точность. На Hugging Face доступна базовая версия Mellum: ее можно дорабатывать, изучать или использовать как основу для экспериментов. JetBrains подчеркивает: Mellum — не готовый продукт, а инструмент для тех, кто хочет копать глубже.
blog.jetbrains.com

✔️ Anthropic предлагает смягчить экспортные ограничения на чипы ИИ для стран второго уровня.

Anthropic поддержала планы правительства США по ужесточению контроля над экспортом ИИ-чипов, но предложила свои поправки. В заявлении компании отметили, что текущая трехуровневая система (Китай и Россия — третий уровень с самыми жёсткими ограничениями, Мексика и Португалия — второй, Япония и Южная Корея — первый) требует корректировок.

Anthropic предлагает снизить квоты на закупку чипов для стран второго уровня без одобрения властей, чтобы стимулировать их покупать через межправительственные соглашения — это, по мнению компании, уменьшит контрабанду и усилит контроль США. Решения ожидаются к 15 мая — дате вступления правил в силу.
anthropic.com

✔️ Викимедиа внедряет ИИ для помощи редакторам.

Фонд Викимедиа представил новую стратегию использования ИИ, сделав ставку не на автоматизацию, а на усиление роли людей. Вместо того чтобы заменять волонтеров-редакторов, ИИ станет их инструментом: он возьмет на себя рутинные задачи, освободив время для творческой работы. Алгоритмы помогут отслеживать правки, ускорят перевод статей между языками и упростят поиск информации в огромной базе данных.

Особый акцент сделан на открытость: разработки будут базироваться на опенсорс-решениях, а все процессы останутся прозрачными. Стратегия не меняет миссию Википедии, а усиливает ее, делая знания доступнее в эпоху, когда ИИ все чаще влияет на информацию. Редакторы остаются главными героями, а технологии — их помощниками.
wikimediafoundation.org

✔️ Нью-Йоркское метро тестирует ИИ-камеры для предотвращения инцидентов до их начала.

Власти Нью-Йорка тестируют внедрение систем ИИ для «превентивного» анализа поведения людей в метро. Как заявил глава безопасности MTA Майкл Кемпер, камеры с искусственным интеллектом смогут распознавать признаки агрессии или неадекватных действий, если человек ведет себя странно, система отправит сигнал службе безопасности или полиции до эскалации ситуации. «ИИ — это будущее, и мы уже работаем с IT-компаниями над адаптацией технологий под метро», — добавил он, не уточняя деталей. Отдельно глава MTA подчеркнул, что система не использует распознавание лиц, а только анализ действий.
theverge.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 17 000 промптов в одной базе — собрано всё, что нужно для работы с ИИ!

Разработчики собрали огромное хранилище запросов для всех топовых нейросетей: от Midjourney и ChatGPT до Runway и DALL·E.

Что внутри:
• Все промпты удобно отсортированы по категориям, задачам, стилям и инструментам — не заблудитесь.
• К каждому запросу прикладываются примеры использования.
• Сервис помогает адаптировать ваши собственные промпты под конкретные задачи.
• Можно публиковать свои промпты и делиться ими с другими.
• Есть быстрое расширение для Chrome.
• И всё это бесплатно.

https://promptport.ai/
Media is too big
VIEW IN TELEGRAM
✔️ Gemini планирует интеграцию с GitHub.

Gemini для GitHub упростит работу с чужим кодом. Интеграция позволяет прикрепить репозиторий к запросу и получить от ИИ помощь: разобраться в структуре проекта, объяснить функции, предложить оптимизацию или найти баги.

Пока функционал ограничен: нельзя просматривать историю коммитов, пул-реквесты или вносить изменения напрямую в репозиторий. Загрузить можно только один проект (до 5000 файлов и 100 МБ), а для приватных репозиториев потребуется привязать GitHub-аккаунт к Google. Импорт доступен через веб-версию Gemini, но начатый диалог можно продолжить в мобильном приложении. Интеграция появится в настройках Gemini в ближайшее время.
9to5google.com

✔️ Релиз моделей серии Phi-4 с ризонингом.

Microsoft выпустила Phi-4-reasoning, Phi-4-reasoning-plus и Phi-4-mini-reasoning с 14 миллиардов параметров у первых двух и 3.6 млрд. у mini.

Phi-4-reasoning-plus обошёл 671-миллиардную DeepSeek-R1 в тестах AIME 2025, а mini-reasoning была создана для работы на смартфонах или IoT-устройствах: она решает задачи от школьного уровня до научных расчетов, не нагружая систему.
Детали создания доступны в техническом отчете, а сами модели - на Azure или HuggingFace.
azure.microsoft.com

✔️ Anthropic добавила интеграцию приложений и улучшила исследовательские возможности Claude .

Anthropic представила 2 ключевых обновления для своего Claude: интеграцию сторонних сервисов и расширенный инструмент для глубокого анализа. Новая функция "Integrations" позволяет подключать Claude к бизнес-приложениям вроде Confluence, Zapier или PayPal через серверы на базе протокола MCP. Это даст ИИ доступ к данным проектов, автоматизирует задачи и улучшает контекстную работу.

Параллельно запущен Advanced Research: теперь Claude может анализировать сотни источников (включая корпоративные данные и локальные диски) за несколько минут, формируя детальные отчеты со ссылками на источники. Обновление использует «рассуждающие» модели ИИ.

Функции доступны в бета-версии для подписчиков Claude Max, Team и Enterprise, а также скоро появятся в плане Pro. Anthropic также увеличила лимиты для кодинг-инструмента Claude Code.
anthropic.com

✔️ Google тестирует рекламу в диалогах с AI-чатами через AdSense.

Google начал внедрять рекламу в чаты пользователей с некоторыми сторонними ИИ-ассистентами через сеть AdSense. Функция, запущенная в этом году, уже тестировалась с стартапами Ask и Liner. Представитель компании подтвердил: «AdSense для Поиска доступен сайтам, которые хотят показывать релевантную рекламу в своих AI-диалогах».

Этот шаг выглядит попыткой монетизировать растущую популярность ИИ-чатов вроде ChatGPT или Claude, которые постепенно заменяют традиционный поиск. Ранее компания уже добавляла рекламу в ИИ-сниппеты поиска. Однако интеграция с внешними сервисами — новый этап.
bloomberg.com

✔️ Умные очки Ray-Ban будут собирать пользовательские данные для обучения ИИ.

Facebook-research внесли ключевые изменения в правила конфиденциальности своих умных очков Ray-Ban. С 29 апреля владельцы устройств больше не могут отключать сохранение голосовых записей в облаке — удалить их можно только вручную через настройки. По словам компании, аудио и транскрипты хранятся до года для улучшения продуктов, а случайные активации удаляются через 90 дней.

Фото и видео с камеры очков по-прежнему остаются в галерее смартфона и не используются для обучения ИИ, если не загружены в облачные сервисы компании или сторонние приложения. Однако голосовой помощник теперь всегда активен, пока пользователь не отключит его вручную. Это решение направлено на сбор данных для тренировки алгоритмов.
theverge.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
✔️ ОАЭ вводит обязательное обучение ИИ для школьников всех возрастов.

ОАЭ сделали искусственный интеллект обязательным предметом для всех учащихся — от детского сада до 12 класса. Это часть стратегии, которая должна превратить страну в ведущий центр ИИ-разработок на Ближнем Востоке. Уже с 2025-26 учебного года в государственных школах начнут преподавать основы ИИ, включая этические аспекты и реальное применение технологий.

Параллельно страна активно внедряет ИИ в госуправление: разрабатывает систему для автоматического анализа и обновления законов. Эксперты прогнозируют, что к 2030 году ИИ добавит $96 млрд к ВВП ОАЭ. Сейчас страна лидирует в своем регионе по технологическому развитию, и такие проекты только укрепят ее позиции в будущем.
bloomberg.com

✔️ OpenAI остается некоммерческой структурой, но есть нюансы.

OpenAI объявила о смене корпоративной структуры: теперь коммерческое направление будет работать как Public Benefit Corporation (PBC), но под полным контролем некоммерческой организации. Это решение отменяет предыдущие планы по полному переходу в коммерческий сектор. Основная цель — сохранить миссию компании: развитие искусственного интеллекта на благо всего человечества, а не ради прибыли акционеров.

Как объяснил CEO Сэм Альтман в письме сотрудникам, OpenAI изначально создавалась как некоммерческая организация, и этот принцип останется неизменным. Новая структура позволит привлекать сотни миллиардов долларов для развития ИИ, делая технологии доступнее.

Решение о реструктуризации было принято после консультаций с юристами и общественными деятелями. OpenAI также планирует усилить работу в области безопасности ИИ и открыть доступ к мощным моделям.
openai.com

✔️ Tether анонсирует ИИ-платформу с поддержкой криптоплатежей.

Tether, крупнейший эмитент стейблкоинов, готовит запуск открытой ИИ-платформы. Как сообщил CEO Паоло Ардоино в соцсетях, система будет работать на любом устройстве без API-ключей и централизованных узлов, принимая платежи в биткоинах и USDT. Это решение может стать альтернативой для регионов с ограниченным доступом к фиатным банкам. Пока детали ИИ-платформы раскрыты частично, но цель амбициозна: проект планирует интеграцию криптовалют в повседневные технологии.

Параллельно Tether планирует выпустить новый стейблкоин, привязанный к доллару, для рынка США — при условии одобрения закона GENIUS Act.
pymnts.com

✔️ Anthropic запускает программу "ИИ для науки" с бесплатным доступом к API.

Anthropic анонсировала новую инициативу "AI for Science", которая поможет ускорить научные исследования через предоставление бесплатных API-кредитов. Программа ориентирована на биологию и науки о жизни.

Участвовать могут исследователи из научных учреждений. Заявки отберут по потенциалу проекта, его влиянию и роли ИИ в ускорении работы. Приоритет получат работы по геномике или борьбе с крупными заболеваниями. Податься можно через специальную форму, а решения будет принимать команда Anthropic с привлечением экспертов.
anthropic.com

✔️ Microsoft предложила стратегию развития социально-ориентированного ИИ.

Концепция Societal AI — это подход к разработке ИИ, который учитывает влияние технологий на общество. Основная цель: создание систем, отвечающих потребностям здравоохранения, образования и госуслуг, а также минимизация рисков вроде поляризации мнений.

Проект выделяет 3 принципа: гармония (снижение конфликтов), синергия (усиление человеческих возможностей) и устойчивость (адаптивность к изменениям). Особое внимание уделено 10 ключевым вопросам от этического выравнивания ИИ до трансформации труда и регуляторных рамок. Подробности — в полной версии документа.
microsoft.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔜 Google запускает новую инициативу в сфере кино и телевидения под названием 100 Zeros — это многолетнее партнёрство с Range Media Partners, направленное на финансирование и производство как художественного, так и документального контента. Цель проекта — использовать силу повествования для продвижения технологий Google, таких как искусственный интеллект и Immersive View, а также для формирования позитивного имиджа компании среди молодёжи.

В рамках 100 Zeros уже поддержан инди-хоррор "Cuckoo", а также запущена программа "AI On Screen" для создания короткометражных фильмов об ИИ, некоторые из которых могут перерасти в полнометражные проекты. Интересно, что Google не планирует использовать YouTube в качестве основной платформы распространения; вместо этого компания намерена продавать проекты традиционным студиям и стриминговым сервисам, таким как Netflix.

Эта стратегия отражает стремление Google интегрировать свои продукты в массовую культуру и укрепить позиции на рынке технологий, конкурируя с такими гигантами, как Apple и OpenAI.

https://www.businessinsider.com/google-tv-movie-hollywood-boost-tech-image-hundred-zeros-2025-5
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 NeMo-Inspector: продвинутый анализ генерации языковых моделей.

NeMo-Inspector от NVIDIA — это инструмент, который превращает анализ генераций из рутины в осмысленный процесс. Он не просто показывает результаты, а помогает их систематизировать, сравнивать и даже чистить данные.

NeMo-Inspector не просто просмотрщик логов. Это полноценная среда, где можно менять промпты на лету, маркировать проблемные данные и проверять гипотезы.

Для инженеров, которые хотят не просто получать ответы от LLM, но и понимать, как они рождаются, NeMo-Inspector мастхэв. Он не даст магии, зато сэкономит часы ручного разбора и поможет найти слабые места даже в сложных пайплайнах, а поддержка Markdown, LaTeX и подсветки синтаксиса сделает работу с математическими задачами или кодом менее муторной.

▶️NeMo-Inspector работает в двух режимах: 

🟢Inference Page позволяет экспериментировать с промптами в реальном времени. Вы можете писать запросы вручную или использовать шаблоны с плейсхолдерами: например, подставлять разные задачи в структуру «Проблема: {вопрос}; Решение: {ответ}». Это удобно, когда нужно тестировать гипотезы без постоянной перезагрузки модели.

🟢Analyze Page заточен под глубокий разбор уже сгенерированных данных. Загрузите JSON-файлы и инструмент покажет выборки в читаемом формате с подсветкой кода и формул.

Гибкость проводимого анализа - особенность NeMo-Inspector. Вы можете сравнивать, как одна модель справляется с разными параметрами (температура, top_p) или как разные модели решают одну задачу. Допустим, проверяете, повышает ли CoT точность ответов. NeMo-Inspector выведет результаты бок о бок, а еще посчитает статистику: доля правильных ответов, «уверенность» модели (persistence) или кастомные метрики, которые можно задать самостоятельно через Python-функции.

Из практических кейсов: NeMo-Inspector помог «почистить» синтетический датасет GSM-Plus, где 46,99% данных оказались проблемными (в некоторых вопросах было по два знака вопроса — модель путалась, на какой отвечать). В проекте с OpenMath-Mistral-7B выяснилось, что 26% ошибок связаны с падением качества сгенерированного кода. После доработки датасета точность модели выросла на 4,17%.


📌Лицензирование: Apache 2.0 License.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #NeMoInspector #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 NVIDIA Parakeet-tdt-0.6b-v2: ASR-модель с поддержкой временных меток.

NVIDIA представила новую модель автоматического распознавания речи (ASR) — Parakeet-tdt-0.6b-v2 c 600 млн. параметров для английского языка. Она не просто транскрибирует аудио в текст, но и распознает пунктуацию, капитализацию и временные метки с точностью до слова.

Модель устойчива к шумам и справляется даже с расшифровкой песен или чисел. Это достигнуто за счет обучения на данных, в которые включили «шумные» источники (YouTube, записи телефонных разговоров и уличные диалоги). Как отмечают авторы, RTFx-показатель равен 3380 (при батче 128), что позволяет использовать Parakeet для масштабных промышленных задач.

В основе Parakeet - гибридная архитектура. Она комбинирует скоростной кодировщик FastConformer с декодером TDT, который оптимизирован для транскрипции.

TDT - декодер, который предсказывает слова, звуки и их длительность. Вместо того чтобы проверять каждый кусочек аудиозаписи по порядку, TDT «перепрыгивает» через лишние сегменты, опираясь на прогноз времени, которое занимает текущий токен. Это сокращает вычисления, экономит время и при этом не теряется точность.


Fast Conformer — это переработанная архитектура Conformer, которая ускоряет распознавание речи за счет увеличения downsampling до 8x с помощью более легких сверток и упрощенных блоков, и замены стандартного внимания на комбинацию локального контекста и одного глобального токена.


Обучение Parakeet проводилось в 2 этапа: сначала на 128 GPU A100 с использованием псевдоразмеченных данных, а затем — на 500 часах человеческой транскрипции. Часть обучающего датасета пока недоступна публично, их NVIDIA обещает открыть после конференции Interspeech 2025.

Результаты на бенчмарке Open ASR впечатляют: средняя ошибка (WER) составляет всего 6.05% при greedy decoding без внешней языковой модели. Для сравнения, на чистом аудио из LibriSpeech WER составляет 1.69%, а сильном зашумлении (SNR 5) показатель не превышает 8.39%. В телефонии, где аудио сжимается через μ-law, потери в точности минимальны — всего 4.1%. По этим результатам, Parakeet-tdt-0.6b-v2 может стать универсальным инструментом для колл-центров или мобильных приложений.

Модель поддерживает форматы .wav и .flac с частотой 16 кГц и требует всего 2 ГБ оперативной памяти. Для интеграции разработчикам понадобится фреймворк NeMo от NVIDIA, он упрощает настройку под конкретные задачи.


📌Лицензирование: CC-BY-4.0 License.


🟡Модель
🟡Demo


@ai_machinelearning_big_data

#AI #ML #ASR #Parakeet #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
✔️ IBM Linux ONE Emperor 5: мейнфрейм для эпохи ИИ.

IBM представила новый мейнфрейм IBM Linux ONE Emperor 5. Основа системы — процессор Telum II с 5-нм технологией Samsung: 8 ядер на 5.5 ГГц, кэш L4 до 2.88 ГБ и встроенный ИИ-ускоритель на 24 трлн. операций в секунду. Для тех, кому мало, к концу 2025 года обещают IBM Spyre Accelerator с 32 ядрами.

Платформа оптимизирована под ИИ: AI Toolkit упростит разработку, а ОС Red Hat OpenShift AI позволит управлять VM и контейнерами в одном интерфейсе. Безопасность тоже не забыли. Данные шифруются даже в памяти (confidential computing), а поддержка постквантовых алгоритмов NIST защитит от атак будущего. IBM заявляет, что Emperor 5 сократит для владельцев совокупную стоимость владения на 44% за 5 лет по сравнению с x86-серверами. Система обещает доступность 99.999999% — почти без простоев.
zdnet.com

✔️ Figma запустила ИИ-инструменты для сайтов, прототипирования и маркетинга.

Figma Sites, в нем на основе прототипов можно генерировать адаптивные сайты с анимациями. Инструмент позволяет быстро публиковать проекты, а правки вносить без сохранения, контент можно редактировать совместно напрямую в интерфейсе. Для сложных элементов доступна генерация кода или ручная настройка. Figma Make — инструмент для прототипирования веб-приложений: по описанию ИИ создает каркас, который команда может дорабатывать.

Figma Buzz: шаблоны с бренд-ассетами, массовая генерация креативов из таблиц и ИИ-фоны для изображений. Обновленный Figma Draw теперь включает продвинутое векторное редактирование — кисти и текстуры. Все инструменты доступны в рамках подписки от 8$/месяц.
figma.com

✔️ К 2026 году большинство компаний введут должность Chief AI Officer.

Согласно исследованию Amazon, 60% организаций уже имеют Chief AI Officer (CAIO), а еще 26% планируют создать эту роль к 2026 году. CAIO станет ключевым звеном в координации ИИ-стратегий на фоне интереса к генеративному ИИ: 45% компаний назвали его приоритетом на 2025 год, обогнав традиционные инструменты кибербезопасности (30%).

Несмотря на активные эксперименты (90% компаний тестируют ИИ), только 44% перешли к полноценному внедрению. Главные барьеры — дефицит кадров (55%), высокая стоимость разработки (48%) и проблемы с качеством данных. При этом 92% организаций намерены усиленно нанимать специалистов по ИИ в 2025 году, а 56% уже запустили программы обучения.
Однако лишь 14% компаний имеют четкий план цифровой трансформации — к 2026 году показатель вырастет до 76%, но четверть все еще останется без стратегии.
amazon.com

✔️ ChatGPT набирает обороты по трафику.

Свежие данные Similarweb показывают, что ChatGPT стал одним из самых посещаемых сайтов в мире — в апреле 2025 года на него пришлось 4,78 млрд визитов. Это на 18% больше, чем у сети X. При этом трафик сервиса резко падает по выходным: в будни активность выше на 50%. Это подтверждает, что инструментом в основном пользуются для работы, учебы и исследований.
Техническая сторона тоже отражает тренд: на выходных API OpenAI обрабатывает запросы быстрее из-за снижения нагрузки. Интересно, что пользователи ChatGPT редко переключаются на другие ИИ-сервисы — только 4% из них пробуют Perplexity. Для сравнения: 86% аудитории Claude параллельно используют ChatGPT. Google Gemini хотя и набирает популярность, особенно на Android, он все еще уступает ChatGPT по лояльности и охвату.
SimilarWeb в сети X(ex-Twitter)

✔️ OpenAI запускает инициативу развития ИИ для стран.

OpenAI анонсировала программу "OpenAI for Countries" в рамках проекта Stargate — масштабного плана по развитию ИИ-инфраструктуры. Компания предлагает странам за пределами США присоединиться к созданию локальных дата-центров, обеспечивающих суверенитет данных и адаптацию ИИ под национальные нужды. Инициатива включает кастомизацию ChatGPT для здравоохранения, образования и госуслуг с учетом языковых и культурных особенностей. Участие в проекте подразумевает вклад в глобальную сеть Stargate. Первая фаза — 10 пилотных проектов с отдельными странами. Переговоры с заинтересованными государствами уже ведутся через представительства компании.
openai.com
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 9 бесплатных курсов c HuggingFace по искусственному интеллекту!

➡️Узнайте, как обучать, настраивать и развертывать большие языковые модели с помощью HuggingFace Transformers.
https://huggingface.co/learn/llm-course/chapter1/1

➡️Курс по AI-агентам
Создавайте инструменты с многоэтапным мышлением, используя LangChain и HF.
https://huggingface.co/learn/agents-course/unit0/introduction

➡️ Курс по глубокому обучению с подкреплением (Deep RL)
Научите агентов принимать решения и учиться на основе окружающей среды.
https://huggingface.co/learn/deep-rl-course/unit0/introduction

➡️ Курс по компьютерному зрению
Изучите как работает OCR, сегментация и классификация изображений с моделями HuggingFace.
https://huggingface.co/learn/audio-course/chapter0/introduction

➡️ Курс по работе с аудио
Применяйте трансформеры к аудио: распознавание речи, тегирование музыки и синтез речи.
https://huggingface.co/learn/audio-course/chapter0/introduction

➡️ Курс по машинному обучению для игр
Узнайте, как ИИ меняет разработку игр: от поведения NPC до генерации контента.
https://huggingface.co/learn/ml-games-course/unit0/introduction

➡️ Курс по машинному обучению для 3D
Работайте с 3D-данными, такими как облака точек и сетки, на стыке графики и ML.
https://huggingface.co/learn/ml-for-3d-course/unit0/introduction

➡️ Курс по диффузионным моделям
Погрузитесь в технологию, лежащую в основе DALL·E и Stable Diffusion, и научитесь генерировать изображения.
https://huggingface.co/learn/diffusion-course/unit0/1

➡️ Кулинарная книга по открытому ИИ (Open-Source AI Cookbook)
Коллекция практических ноутбуков от реальных разработчиков ИИ — учитесь, копируйте код и создавайте свои проекты. https://huggingface.co/learn/cookbook/index

#free #courses #opensource #huggingface
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 NVIDIA научила гуманоидных роботов двигаться как люди — прямо из симуляции в реальный мир !

Джим Фан (Директор по ИИ в NVIDIA) рассказал, что их команда добилась впечатляющего результата: роботы научились ходить и ориентироваться в пространстве без обучения в реальном мире.

Всё обучение прошло в симуляции, и после этого роботы сразу были успешно запущены для выполнения задач в открытом пространстве.

🌟 Что особенно впечатляет:

➡️ Обучение, которое заняло бы 10 лет в реальности, было сжато всего в 2 часа симуляции.

✔️ Как это возможно:

- Нет физических ограничений. В симуляции робот может падать и вставать хоть миллион раз без поломки. В реальности он бы ломался.

- Ускорение времени. В симуляции нет ограничений «реального времени» — можно крутить процесс с любой скоростью, насколько позволяет железо.

- Параллельное обучение. Можно сразу запускать много виртуальных роботов и собирать опыт с них всех одновременно.

Для обучения не понадобились гигантские модели -всего 1.5 миллиона параметров (не миллиардов!) хватило, чтобы смоделировать «подсознательную механику» движения человеческого тела.

🌟 Ключевая идея: Упор на физику движения + компактный ИИ = реальные роботы, которые двигаются естественно.

Очень мощный шаг для развития embodied AI и робототехники 🚀

➡️ Полное выступление

#ai #robots #nvidia #future
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡 Без обид, Линус Торвальдс… но этот человек — величайший гик современности.

📟 В 1971 году, в 28 лет, он создал UNIX — систему, на которой построен весь современный интернет.

🦫 В 2009 году, уже в 66 лет, он стал соавтором языка Go — одного из самых популярных языков в мире DevOps и микросервисов.

💥 Но это только начало:

Он разработал язык B, который стал основой для языка C
Создал UTF-8 — кодировку, благодаря которой мы видим текст на любом языке в интернете
Придумал grep — команду, без которой не обходится ни один разработчик
Работал над Multics, Plan 9, Inferno — это четыре операционные системы, созданные одним человеком

🧠 Большинство людей в жизни не используют и двух ОС. А он — создал четыре.

И при этом...
О нём почти никто не знает.

Запомни имя: Кен Томпсон.
🛠 Один из тех, кто буквально построил цифровой мир, в котором мы живём.

🏛 Рим не за один день строился... а вот grep — почти что за одну ночь 😎

История создания grep — действительно захватывающая.

Один из создателей операционной системы UNIX, Кен Томпсон, разработал grep буквально «за ночь».

На самом деле, у него уже был личный инструмент для поиска текста в файлах.
Однажды его начальник, Дуг МакИлрой, подошёл и сказал:

«Знаешь, было бы здорово — уметь искать нужное в файлах».

Томпсон ответил:

«Хорошо, подумаю об этом ночью.»

Он пришёл домой, доработал свой старый код, пофиксил баги — и всё это заняло не больше часа.

На следующий день он показал результат МакИлрою.
Тот воскликнул:

«Это именно то, что мне было нужно!»

А дальше — это уже история.

🤔 Если ты задаёшься вопросом, почему инструмент называется grep, а не просто search — на это есть вполне логичное объяснение 👇

❤️ Ставьте лайк и я напишу пост про историю названия Grep.

@linuxkalii