Big Data AI – Telegram
Big Data AI
17K subscribers
951 photos
122 videos
19 files
946 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
🌐🚀 Visionary: WebGPU-Powered 3D Rendering Platform

Visionary — это веб-ориентированная платформа для рендеринга 3D-объектов с использованием Gaussian Splatting. Она обеспечивает высокопроизводительное отображение различных алгоритмов прямо в браузере, включая поддержку нейронных аватаров и постобработки.

🚀Основные моменты:
- ⚡️ Высокая производительность с использованием WebGPU.
- 🎨 Гибридная архитектура рендеринга для сложных сцен.
- 📦 Универсальный загрузчик активов для различных форматов.

📌 GitHub: https://github.com/Visionary-Laboratory/visionary
3👍1🔥1
✔️ Citigroup Research: сколько OpenAI потратит на будущее ИИ

Citigroup оценивает, что к 2029 году OpenAI может выйти на около $700 млрд капитальных затрат.

Для сравнения: все крупные облачные игроки вместе (AWS, Google Cloud, Microsoft,), примерно $600 млрд в тот же год.

То есть OpenAI фактически строит инфраструктуру масштаба всей индустрии в одиночку.

По прогнозу Citi:
- выручка OpenAI в 2029 - $163 млрд
- коэффициент capex-to-sales - 429%

👉 Это значит: на каждый $1 дохода компания будет тратить $4.29 на дата-центры, чипы и инфраструктуру.

Ключевой момент: Citi считает, что во второй половине 2026 года начнут “приходить реальные счета”.

Если значительная часть строительства финансируется через долги и долгосрочные контракты, то наступает этап, когда платежи и обязательства становятся очень ощутимыми, даже при растущей выручке.

Вывод: гонка ИИ - это не только модели и хайп.
Это капекс-гонка гигантского масштаба, и скоро станет ясно, кто действительно способен её профинансировать.

https://x.com/jukan05/status/2005212554654568502
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍1🔥1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Nvidia закрыла сделку по покупке акций Intel на 5 млрд. долларов.

Компания выполнила условия сентябрьского соглашения, приобретя более 214,7 млн. акций Intel. Для Intel это вливание капитала стало критически важной финансовой поддержкой: производитель серьезно истощил свои резервы из-за многолетних стратегических просчетов и затрат на расширение производственных мощностей.

Инвестиция уже прошла проверку американских регуляторов - Федеральная торговая комиссия одобрила сделку. Теперь, когда все формальности улажены, Intel получает необходимую ликвидность для стабилизации бизнеса на фоне жесткой конкуренции в полупроводниковой отрасли.
reuters.com

✔️ CEO Microsoft раскритиковал качество Copilot и лично возглавил работу над продуктом.

Сатья Наделла выразил жесткое недовольство текущим состоянием потребительской версии ИИ-ассистента. В письме менеджерам он заявил, что интеграции Copilot с Gmail и Outlook «по большей части не работают», назвав их реализацию «недостаточно умной».

Чтобы исправить ситуацию, глава компании фактически перешел в режим антикризисного управления продуктом, делегировав часть коммерческих задач, чтобы сосредоточиться на технологиях.

Теперь Наделла глубоко погружен в инженерную рутину: он состоит в рабочих чатах с ведущими разработчиками, проводит еженедельные разборы полетов и дает прямые технические указания, вплоть до требований по консолидации процессов тренировки моделей.
theinformation.com

✔️ Китайская AgiBot запустила сервис посуточной аренды гуманоидных роботов.

Компания представила платформу Qingtian Rent, на которой можно нанять роботов для работы на выставках, конференциях и частных мероприятиях. Флагманская антропоморфная модель Yuanzheng A2 обойдется в $1380 в день, а в качестве бюджетной альтернативы предлагается робопес Unitree Go2 за $138 в сутки.

Запуск сервиса происходит на фоне роста интереса к коммерческому использованию робототехники в Китае. По данным аналитиков, объем местного рынка аренды роботов в 2025 году составил $140 млн., однако уже в следующем году ожидается десятикратный скачок до $1,4 млрд.
interestingengineering.com

✔️ Крупнейшая мировая ассоциация бухгалтеров отменяет онлайн-экзамены из-за ИИ.

Ассоциация сертифицированных бухгалтеров (ACCA), объединяющая более полумиллиона студентов, полностью сворачивает практику дистанционной сдачи тестов с марта 2026 года. Руководство организации признало поражение в технологической гонке.

Генеральный директор ACCA Хелен Брэнд пожаловалась, что изощренность методов списывания опережает любые внедряемые защитные меры. Студенты используют чат-боты, способные решать сложные задачи по фотографии экрана быстрее, чем это фиксирует система наблюдения.

Интересно, что одновременно с запретом удаленного тестирования ассоциация обновляет учебную программу, добавляя туда изучение того самого ИИ и блокчейна, но проверять знания теперь будут исключительно в офф-лайне.
ft.com

✔️ Звезды Голливуда объединились для создания правил использования ИИ в медиа-индустрии.

Организация под названием «Creators Coalition on AI» (CCAI), будет разработать единые стандарты внедрения нейросетей в кино и музыке. Участники коалиции не выступают против технологий как таковых, но требуют прозрачных правил игры.

Ключевые пункты повестки касаются датасетов: использование чужих работ для обучения моделей должно происходить только с согласия авторов и за справедливое вознаграждение.

Кроме того, CCAI намерена бороться с бесконтрольным распространением дипфейков, защищать рабочие места в индустрии и отстаивать приоритет человеческого творчества над генерацией.
creatorscoalitionai.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1
🔥 На stepik вышел курс, который учит Создавать настоящие AI-сервисы, а не просто запускать скрипты?

Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.

Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.

Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.

🎁 48 часов действует скидка в 40% процентов

👉 Начать учиться на Stepik
2👍1🔥1
🇨🇳 Китай начал поставки видеокарт Lisuan G100
Это шаг к собственным альтернативам NVIDIA и AMD.

Самая заметная модель: Lisuan 7G106
- техпроцесс 6 нм (TSMC N6)
- 12 ГБ GDDR6
- шина 192-bit
- PCIe 4.0
- TDP около 225 Вт от одного 8-pin

По оценкам, по мощности карта близка к RTX 4060.
Раньше китайские GPU чаще всего проигрывали из-за слабых драйверов, ограниченной поддержки игр и низкой энергоэффективности.
Теперь видно, что рынок постепенно догоняет конкурентов и борьба становится интереснее.

wccftech.com/china-lisuan-g100-gpus-begin-shipping-bringing-a-domestic-nvidia-amd-challenger/
10🔥3👍1
🎯 Для CDO, дата-инженеров и аналитиков Yandex Cloud и Forbes подготовили необычный новогодний подарок — спецпроект в формате игры, вдохновленной «Героями меча и магии», но про данные и аналитику!

В игре привычные инструменты PostgreSQL, ClickHouse, Trino и DataLens превращаются в магические артефакты, которые можно получить или создать самостоятельно. Каждый герой из финтеха, ритейла или промышленности использует эти артефакты, чтобы одолеть дату-хаос и выполнить бизнес-задачи.

Плюс в проекте можно отыскать пасхалки для фанатов классики и практических примеров, как Yandex Cloud помогает компаниям с данными. Игра доступна с любого устройства — на ПК и смартфоне.

Прикольный способ вдохновиться и прокачать навыки работы с данными в преддверии Нового года!

👉 Попробовать игру и узнать больше
🚀 NewBieAI-Lab представила NewBie-image-Exp0.1 - открытую 3.5B DiT-модель, созданную специально для высокоточной и быстрой генерации аниме.

Главные особенности:
3.5B параметров — работает даже на 8GB VRAM (RTX 4060)
Внутри: Gemma-3-4B-it + Jina CLIP v2 для глубокого понимания промптов
структурированные XML-промпты: полный контроль над персонажами без случайной смены одежды
FLUX.1-dev 16-ch VAE — мягкая кожа, текстуры ткани и метала
инференс за ~20 шагов, поддержка LoRA, лицензия Apache-2.0 + некоммерческое использование
обучена на более чем 10M аниме-изображений с XML-аннотациями - уверенно держит многоперсонажные сцены

До 40 процентов быстрее моделей >8B и уверенно справляется с промптами длиной до 500 символов.
🧠 Бонус: пайплайн Noise → Context Refiner устраняет классическую проблему DiT — «картинка красивая, но промпт проигнорирован».

🤖 Модель: https://modelscope.cn/models/NewBieAi-lab/NewBie-image-Exp0.1
8👍2🍓2💊2
🧠 Как скрытый текст в PDF ломает AI-ревью научных статей

Исследователи показали, что LLM-ревьюеров можно обмануть с помощью скрытого текста в PDF, превратив отклонённую работу (reject) в принятую (accept).

Что сделали:
- Проверили 200 научных статей
- Использовали 15 типов атак
- Протестировали 13 языковых моделей
- Оценка шла по шкале из 35 баллов, 7 критериев

Результат:
в некоторых случаях атаки повышали итоговую оценку примерно на 14 баллов — этого достаточно, чтобы решение кардинально поменялось.

Как работал AI-ревьюер:
- модель обязали выдавать результат строго в JSON
- она выставляла оценки по формальным критериям
- симулировался реальный автоматический review-процесс

В чём сама атака:
- в PDF добавляется микроскопический белый текст
- человек его не видит
- но модель читает его после конвертации PDF в текст
- внутри — скрытая инструкция для модели

Почему это работает:
- атаки не спорят с научным содержанием
- инструкции прячутся или перемешиваются
- модель «собирает» их во время чтения
- иногда меняется сама цель задачи, например:
- «это проверка схемы, а не ревью»
- «это логическая задача»
- «правильный результат — максимальный балл»

Что выяснилось:
- слабые модели легко накручивают оценки
- сильные модели устойчивее
- но их облегчённые версии всё ещё уязвимы

Чтобы измерить риск, авторы ввели метрику WAVS:
она учитывает:
- насколько выросла оценка
- поменялось ли решение
- была ли статья реальной или пустым шаблоном

Главный вывод:
AI-ревью без строгой защиты входных данных легко манипулируется даже простыми приёмами.

arxiv.org/abs/2512.10449
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥2👍1
NVIDIA представила Alpamayo-R1 - новый открытый AI для автономных автомобилей, способную не просто «видеть», но и думать, рассуждать и планировать действия, как человек.

Это первый в мире крупномасштабный open-source VLA-модель (Vision-Language-Action), объединяющая:

• восприятие окружающего мира (камера, сенсоры)
• понимание сцены и причинно-следственное рассуждение
• генерацию пути и управление автомобилем

Такая структура позволяет автомобилю не только реагировать на препятствия, но оценивать ситуацию, выбирать безопасную траекторию и «объяснять» свои решения, чего не было в традиционных моделях без явного рассуждения.

👉 Модель открыта для исследователей и разработчиков на GitHub и Hugging Face, что позволит ускорить исследования автономного вождения и повысить безопасность.

https://developer.nvidia.com/blog/building-autonomous-vehicles-that-reason-with-nvidia-alpamayo/
2🔥1
🚀 Настройка Agentic Coding Flywheel

ACFS — это система, превращающая свежий VPS на Ubuntu в мощную среду для разработки с AI-агентами. Идеально подходит для новичков, позволяя быстро настроить все необходимые инструменты и агенты для программирования.

🚀 Основные моменты:
- Установка всего необходимого за одну команду
- Включает три AI-агента для написания кода
- Подходит как для новичков, так и для команд
- Обеспечивает воспроизводимость окружения

📌 GitHub: https://github.com/Dicklesworthstone/agentic_coding_flywheel_setup

#bash
👍41🔥1😱1
🌟 Открытые модели и инструментарий для автопилотов от NVIDIA.

NVIDIA, сдержала обещания c NeurIPS 2025 и сделала еще один шаг к тому чтобы автомобили наконец научились понимать контекст вождения, а не просто детектировать разметку.

Современные автопилоты неплохо справляются со стандартными ситуациями. Но главная головная боль инженеров — это редкие, сложные сценарии, которые почти невозможно предугадать. Традиционные архитектуры, где восприятие отделено от планирования, часто пасуют, когда случается что-то нестандартное.

И вот здесь предлагается подход, где модель учится рассуждать причинно-следственными связями, почти как человек, разбирая ситуацию шаг за шагом. А это важный фактор для безопасности и доверия к системе.

🟡NVIDIA выкатила целую экосистему, которую можно пощупать руками:

🟢Alpamayo - первая в индустрии 10 миллиардная VLA-модель с поддержкой СoT, созданная специально для исследований. Она берет на вход видеопоток и генерирует не только траекторию движения, но и "reasoning traces" — то есть буквально объясняет логику своего решения.

Модель позиционируется как модель-учитель, которая может быть использована для обучения более компактных моделей или для авто-разметки данных.

🟢AlpaSim - полностью открытый, end-to-end фреймворк для симуляции, который позволяет моделировать реалистичные сенсоры и трафик, создавая идеальную песочницу для тестов.

🟢Physical AI Open Datasets - пожалуй, самый богатый датасет для автономного вождения на сегодняшний день. Туда входит более 1700 часов записей вождения из самых разных географических зон и условий. И, что важно, там куча тех самых редких кейсов, о которых мы говорили выше.

На практике, NVIDIA предлагает применять эти инструменты в своих решениях NVIDIA Cosmos и NVIDIA Omniverse.

В них можно дообучать модели на своих данных, валидировать их в симуляции и затем деплоить на железо.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2🔥2
🎄🖥️ ClaudeBar: AI Quota Tracker for macOS

ClaudeBar — это приложение для меню macOS, которое отслеживает использование AI-кодов, таких как Claude, Codex, Gemini и GitHub Copilot. Оно предоставляет визуальные индикаторы статуса и уведомления о состоянии квот в реальном времени.

🚀Основные моменты:
- Поддержка нескольких провайдеров AI
- Темы светлого и темного режимов
- Автоматическое обновление квот
- Сезонные темы, включая рождественскую анимацию
- Уведомления о статусе квот

📌 GitHub: https://github.com/tddworks/ClaudeBar

#swift
👍21
🔒 Защита данных и безопасность в AI

DataShield Lightweight Labs — это открытая инициатива, направленная на создание инструментов и фреймворков для повышения конфиденциальности данных, безопасности и надежности AI-систем. Проект предлагает доступные решения для разработчиков, чтобы помочь организациям внедрять лучшие практики в области безопасности и защиты данных.

🚀Основные моменты:
- Инструменты для предотвращения утечек личной информации в LLM
- Открытые сканеры безопасности и обнаружение ошибок конфигурации
- Утилиты для соблюдения GDPR и других норм
- Разработка инструментов для безопасных AI-работflows
- Приветствуются вклады и идеи от сообщества

📌 GitHub: https://github.com/liuxiaomingskm/datashield-lightweight-labs
3👍1🔥1
Новый open-source “мозг” для роботов - и он уже №1 в мире 🤖🔥

Spirit AI представили Spirit v1.5 - свежую vision-language-action модель, которая превращает то, что робот видит, в точные физические действия.

По сути:
📷 видение + 💬 понимание + 🦾 управление = один мозг.

Что самое громкое:
Spirit v1.5 заняла #1 место на бенчмарке RoboChallenge Table30,
обогнав прошлого лидера Pi0.5 по:
- роботизированному reasoning
- контролю движений
- качеству выполнения задач в физическом мире

Это уже не “чатботы для текста”.
Это LLM-подход, который реально начинает управлять реальностью.

Ссылки:
Code: https://github.com/Spirit-AI-Team/spirit-v1.5
Model: https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5
Blog: https://spirit-ai.com/en/blog/spirit-v1-5
Report: https://mp.weixin.qq.com/s/ZrBDFuugPyuoQp4S6wEBWQ

Если open-source роботы начнут массово получать такие мозги - то 2026 может стать годом, когда роботы “проснутся”.
👍6🔥42🤡1
🔥 Похоже, сейчас Google проводит все самые жирные AI-сделки - те, которые многие ожидали увидеть у OpenAI:

- Google партнёрится с Apple, чтобы внедрить Gemini в iOS
- Alphabet и NVIDIA расширяют своё десятилетнее партнёрство - агентные ИИ, робототехника, поиск лекарств и не только
- Google получил контракт на внедрение ИИ от военного ведомства США

Триумфальное шествие Google продолжается. 🚀

https://x.com/NVIDIADC/status/2011180913615348128
7👍4🔥4
🧠 DeepSeek снова на другом уровне: они нашли U-образный scaling law

DeepSeek выкатили работу про Engram - и это реально сильная инженерия.

Главная идея:
N-граммы всё ещё важны.
Но вместо того, чтобы “выкинуть их ради нейросетей”, DeepSeek гибридизируют подход:
📌 нейронка отвечает за рассуждение
📌 N-граммная память отвечает за быстрый lookup статических знаний

И это закрывает старую проблему LLM:
даже “умные” модели тратят первые слои на то, чтобы заново собирать частые фразы, имена и шаблонный текст - потому что у них нет нормальной встроенной “таблицы поиска”.

### MoE уже экономит вычисления, но есть дырка
Mixture-of-Experts снижает compute - на токен активируется лишь часть экспертов.
Но даже MoE всё равно вынужден тратить вычисления, чтобы вспоминать:
- имена сущностей
- частые связки слов
- формульные конструкции

### Engram = гигантская таблица памяти
Engram - это memory table, которая:
- берёт последние токены
- ищет знакомый паттерн (2-gram / 3-gram)
- и быстро вытаскивает заранее сохранённый вектор

Важно: запрос делается через hash lookup, поэтому стоимость доступа постоянная, даже если таблица огромная.

### Что получилось
DeepSeek показали U-образный scaling law:
можно оптимально балансировать между:
- нейронным compute (MoE)
- статической памятью (Engram)

И это даёт практический эффект:
ранние слои перестают “жечь” compute на реконструкцию
у сети остаётся больше глубины на реальное reasoning
растут reasoning-метрики, хотя это выглядит как “просто память”

### Long-context тоже выигрывает
Когда локальные фразовые связки уезжают в память, attention может сильнее фокусироваться на дальних зависимостях.

В их сравнении Multi-Query Needle-in-a-Haystack:
84.2 → 97.0 🔥

### Системный бонус: стоимость и масштаб
Самое вкусное - масштабирование:
они показывают, что можно вынести 100B memory table в CPU RAM,
и падение throughput будет меньше 3%.

То есть можно добавлять всё больше “памяти” без необходимости влезать в GPU.

📄 Paper: https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
👍5🔥21🤡1
🧠 Data Ёлка в Москве и Санкт-Петербурге пройдет 24 января

VK и ODS.AI анонсировали Data Ёлку: ежегодный ивент для специалистов в области машинного обучения и анализа данных. Формат-гибрид: онлайн трансляция и возможность посетить офлайн

Как всегда на Data Ёлке подведут итоги ушедшего года в ML и Data Science по главным направлениям: RecSys, CodeGen, NLP, PyData, Open Source, MLOps & DE и другим. Программа в формате «стерео»:

один канал посвящен глубокой аналитике, разбору инженерных подходов
второй — прикладным инсайтам, синтезу идей, обсуждению индустриальных трендов

Также на мероприятии разберут лучшие решения и наградят победителей VK RecSys Challenge. 800 исследователей из 14 стран предложили 3 900 решений задачи холодного старта в рекомендациях.

Помимо основной программы есть возможность пообщаться со спикерами из VK и других крупных компаний. Среди экспертов Антон Воронов из Авито, Алексей Смирнов из CodeScoring, Степан Малькевич и Владимир Байкалов из AI VK, и другие. Тут подробности по участию в Москве и в Санкт-Петербурге
4👍1🥰1
С учётом того, как ИИ обучается на кожаных, эта шутка когда-нибудь станет реальностью
13😁8
🤖 Лучшие GitHub-репозитории, чтобы выучить AI с нуля в 2026

Если хочешь разобраться в ИИ не по курсам “в вакууме”, а через реальные open-source проекты - вот топ реп, которые реально ведут от базы до практики:

1) Karpathy – Neural Networks: Zero to Hero
Самый понятный вход в нейросети и backprop “на пальцах”
https://github.com/karpathy/nn-zero-to-hero

2) Hugging Face Transformers
Главная библиотека современного NLP/LLM: модели, токенизаторы, fine-tuning
https://github.com/huggingface/transformers

3) FastAI – Fastbook
Практическое DL-обучение через проекты и эксперименты
https://github.com/fastai/fastbook

4) Made With ML
ML как инженерная система: пайплайны, прод, деплой, мониторинг
https://github.com/GokuMohandas/Made-With-ML

5) Machine Learning System Design (Chip Huyen)
Как строить ML-системы в реальном бизнесе: данные, метрики, инфраструктура
https://github.com/chiphuyen/machine-learning-systems-design

6) Awesome Generative AI Guide
Подборка материалов по GenAI: от основ до практики
https://github.com/aishwaryanr/awesome-generative-ai-guide

7) Dive into Deep Learning (D2L)
Одна из лучших книг по DL + код + задания
https://github.com/d2l-ai/d2l-en

Сохрани себе - это база, на которой можно реально вырасти до ML/LLM-инженера.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥32