Силиконовый Мешок – Telegram
Силиконовый Мешок
22.4K subscribers
793 photos
277 videos
23 files
781 links
Как заработать на Искусственном Интеллекте уже сегодня.
Написать админу @artem_subbotin
Чат канала: @prompt_chat
Download Telegram
Видимо AGI ближе, чем мы думаем: Google представила «Titans» - новую архитектуру, способную обучаться в реальном времени и обладающую бесконечной памятью. В отличии от DeepSeek OCR которые придумали, как сжимать информацию в десять раз, используя визуальные токены вместо текстовых, эта архитектура активно учится и обновляет свои собственные параметры по мере поступления потока данных.

Короче, это не просто очередное расширение контекстного окна, а реальный сдвиг от статичных моделей к агентам, которые могут обучаться непрерывно, обновляя свои веса прямо во время инференса (работы модели).

Как она понимает, что запомнить?
Модель не пытается запомнить всё подряд. Она использует механизм «сюрприза» (на основе градиентов):
- Если следующее слово предсказуемо (например, после «Мама мыла...» идет «раму»), модель не тратит ресурс памяти.
- Если происходит что-то неожиданное или важное, модель получает сигнал «surprise metric» и обновляет свои веса, чтобы сохранить этот факт в долговременной памяти.

Этот формат очень похож на тот, что описывал в своей книге «1000 мозгов. Новая теория интеллекта», Джефф Хокинс (чувак создавший кпк Palm). Он пишет о том, что только, когда привычные вещи меняются - наш мозг из «спящего» состояния переходит в «активное», чтобы проанализировать обстановку и поменять программу. Очень рекомендую его почитать.
5927🔥27👍13🤯422👏1🤔1💯1🤗1
В последнее время вижу много ИИ-автоматизаций и просто проектов на базе OCR моделей, но почему-то в том же N8N ставят Deepseek OCR или Qwen3-VL, а чаще просто закидывают по API в Gemini. Но хороших OCR моделей очень много появилось, да и кто-то про локальные спрашивал. Так что я вам список закину, который в этом году собрал, может, что-то пригодится:

Специализированные OCR и Парсеры документов
Лучше всего подходят для PDF, таблиц, сканов и сложной верстки.
1. GOT-OCR
Unified end-to-end модель. Умеет выдавать результат сразу в HTML с сохранением форматирования (таблицы, заголовки). Отлично подходит для веб-рендеринга сканов.
2. granite-docling-258m
Экстремальная компактность (258M параметров). Создана специально для библиотеки Docling. Идеальна для локального CPU-парсинга документов, где не нужны "умные" рассуждения, а только структура.
3. MinerU 2.5
Ориентирована на качественную конвертацию PDF в Markdown. Хорошо справляется с академическими статьями и сложной версткой.
4. OCRFlux
3B модель. Специализируется на "чистке" и восстановлении текста из шумных или поврежденных документов.
5. RolmOCR
Решение, заточенное под бизнес-документы (инвойсы, чеки, формы) и точное извлечение полей.
6. Nanonets OCR
Модель, оптимизированная для извлечения данных из структурированных финансовых и юридических документов.
7. Deepseek OCR
Специализированное решение от DeepSeek. Высокая точность на многоязычных текстах и коде внутри скриншотов.
8. dots OCR
Современная OCR модель для точного распознавания текста и точечных структур.
9. olmocr 2
Наследник одной из лучших открытых моделей для парсинга PDF. 7B — это уже "тяжелый" вес для чистого OCR, но дает высочайшее качество на сложных данных.
-
Мощные мультимодальные модели (VLM)
Для задач, требующих понимания смысла, анализа диаграмм и работы с рукописным вводом.
10. Qwen3-VL (Qwen3-VL-2B / 4B / 30B / 32B / 235B)
Один из лидеров (SOTA) на 2025 год. Версии 30B+ и 235B подходят для самых сложных задач (рукописный текст, сложные схемы, reasoning), а мелкие (2B/4B) — для локального запуска.
11. GLM-4.1V-9B
Модель с "мышлением" (Thinking). Может рассуждать над изображением перед ответом. Полезна, если нужно не просто OCR, а анализ содержимого (например, "какой тренд на этом графике?").
12. InternVL3_5
Известна своей сильной архитектурой (похожа на InternImage). Отлично работает с мелкими деталями и "плотным" текстом (Dense Text).
4B: https://huggingface.co/OpenGVLab/InternVL3_5-4B
8B: https://huggingface.co/OpenGVLab/InternVL3_5-8B
13. AIDC-AI/Ovis2.5
Использует новую архитектуру визуального энкодера, которая сохраняет нативное разрешение изображений. Это критично для чтения мелкого текста (Legal contracts, medicine instructions).
2B: https://huggingface.co/AIDC-AI/Ovis2.5-2B
9B: https://huggingface.co/AIDC-AI/Ovis2.5-9B
14. MiniCPM-V-4_5
Очень эффективная модель для своего размера (обычно около 8-9B). Хорошо работает на потребительских GPU, сохраняя высокий уровень понимания контекста.
-
Эффективные / Edge модели
Оптимизированы для скорости и работы на ноутбуках (в т.ч. Apple Silicon).
15. FastVLM
Оптимизированы Apple. Версии 0.5B и 1.5B летают на макбуках и айфонах. Хороший выбор, если вы разрабатываете iOS/macOS приложение с оффлайн-OCR.
15.5B: https://huggingface.co/apple/FastVLM-0.5B
1.5B: https://huggingface.co/apple/FastVLM-1.5B
7B: https://huggingface.co/apple/FastVLM-7B
16. MonkeyOCR-pro
Использует парадигму "Structure-Recognition-Relation". Версия 1.2B очень быстрая и подходит для массовой обработки документов.
1.2B: https://huggingface.co/echo840/MonkeyOCR-pro-1.2B
3B: https://huggingface.co/echo840/MonkeyOCR-pro-3B
17. Dolphin
Компактная мультимодальная модель от ByteDance, ориентированная на эффективное понимание контента.
4520🔥15👍6👏2🤗2🤯1😘1
Media is too big
VIEW IN TELEGRAM
Вот что мне нравится в вайбкодинге: пришла какая-то безумная идея (например, видеоперехода), пять минут — и у тебя уже прототип.

Кстати, код закинул в первый комментарий в @prompt_chat - просто файлик браузером открываете, и всё
👍236🔥5👏41🤯1🤗1
На LMArena появилась визуальная модель под кодовым названием «Hazel-gen». Скорей всего это OpenAI закинула свою GPT-IMAGE-2, так что в ближайшее время ждем новости.

Промпт для изображения: «a table with an analogue clock that read 7:24 and a glass of wine with the wine completely full to the brim».
256👍6🔥2💯1
От_фундаментальных_моделей_кода_к_агентам_и_приложениям_перевод.pdf
11.6 MB
А у нас новый перевод от Сергея, на этот раз топовый документ ноября 2025 - «From Code Foundation Models to Agents and Applications». Это работа группы китайских авторов из Бэйханского университета (Пекинский университет авиации и космонавтики), где они максимально подробно рассказывают про языковые модели и программирование. Двести страниц текста для тех, кто решил чуть глубже занырнуть в вайбкодинг. Добавляем в сохраненки, чтобы не потерять.
352👍24🔥14🤗5❤‍🔥2👏21🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
Долго не мог добиться от Nano Banana Pro нормальной раскадровки в формате: анфас, профиль, со спины и в три четверти для чар-листа (сharacter Sheet).

В итоге получилось через такую инструкцию:
Use the uploaded image as the main reference for the character. Recreate the character exactly — same style, proportions, colors, and details.

Generate four images on a solid background:
- Front view
- Right side view
- Back view
- Three-quarter (¾) view

The character must be fully visible, in a neutral pose, without emotions or added elements.

Final output: four images.
🔥4520🤣98👍3👎2🤗1
В этой таблице 500 инструкций для Nano Banana Pro, но, так как сделана она путем парсинга «залетевших» твитов с промптами, выходит, что это еще и неплохая база авторов
137🔥1775👍5👎3🤯3🤗2🙏1💯1
А это очень интересный кейс - OpenAI и Disney подписали соглашение, по которому OpenAI получает миллирад инвестиций и права использовать всех персонажей в Sora и ChatGPT.

Но есть ощущение, что платить отчисления за генерацию персонажей будут пользователи, как в кейсе с Suno и Warner Music Group.
🔥16🦄5💯42🤝2🤬1🤗1
Forwarded from Tips AI | IT & AI
У OpenAI обновка GPT-5.2 — для кода и долгих агентских задач

Три версии:
• GPT-5.2 Instant — быстрая для ежедневных задач
• GPT-5.2 Thinking — для сложной работы с размышлениями
• GPT-5.2 Pro — максимальное качество, когда можно подождать

Улучшили код, фронтенд стал заметно лучше и галлюцинации на 30% меньше чем GPT-5.1

Длинный контекст — почти 100% точность на 256k токенов.

Vision — ошибки на графиках и скриншотах сократились вдвое.

За API ценник подрос: $1.75 за 1M входных токенов, $14 за выходные.

Будет доступно для платных планов и в API для разработчиков.

Полезные ссылки:
GPT-5.2 Prompting Guide
GPT-5.2 prompt optimizer
GPT-5.2 руководство

@tips_ai #news
🔥23👍11743❤‍🔥2🙏1💯1
Ночью дали доступ к ChatGPT 5.2, и я погнал тестировать. Первым делом взял промпт из описания возможностей модели от OpenAI:
Create a single-page app in a single HTML file with the following requirements:
- Name: Ocean Wave Simulation
- Goal: Display realistic animated waves.
- Features: Change wind speed, wave height, lighting.
- The UI should be calming and realistic.

ChatGPT 5.2 выдал мне почти 500 строк кода - первое видео. Потом тот же промпт скормил Gemini 3 Pro, получил 378 строк - второе видео.
🔥2110👍43👏1
Знаете, чего я понять не могу? Вот есть технология Meshtastic - писал о ней раньше. В последнее время она стала довольно популярной: почти в каждом городе вижу десятки, а в столицах - и сотни нод.

Отличная текстовая связь без интернета и сотовой сети. И для этих устройств можно купить (или распечатать) классные корпуса. Но почему никто не догадался делать их в формате пейджеров для гиков-ретроманов? Я бы купил.
27👍117🔥53💯2🤣1
Решил воспользоваться своим каналом в корыстных целях. Понял, что давно облизываюсь на другие форматы подачи контента: видео, аудио. Но никак не могу отойти от привычных буковок, которые публично пишу уже больше 20 лет.

Собственно, у меня к вам вопрос: возможно, среди вас или ваших знакомых есть тот, кто умеет создавать рилсы, а может, даже поможет мне с видеоподкастом - я бы с удовольствием пообщался на эту тему.

Что касается вертикального видео - можно подумать про разные форматы: от нарезки уже готовых материалов из горизонтальных видео до создания роликов из постов (в том же Threads у меня их больше десяти каждый день выходит).

А вот с подкастом все немного сложнее. Я давно вынашиваю идею создать видеоподкаст, куда бы я мог приглашать людей, которые применяют искусственный интеллект в своей работе.

Это не про креаторов, что клепают сотни видео с котятами, собирая трафик в Тиктоке, а про специалистов, усиливающих существующие навыки нейросетями и создающих реально крутые продукты. У меня уже есть лонглист таких гостей, которым есть что рассказать аудитории.

Видимо, пришло время собирать небольшую (а может быть, и большую) команду, умеющую создавать структурный контент из того хаоса, что образуется вокруг этой ИИ-вакханалии.

Скажу сразу, что я не ищу студии или агентства, которые будут работать со мной как с заказчиком, - это не наш путь. Нужны люди в команду. Я понимаю, как все это монетизировать и что нужно делать для дальнейшего роста, мне просто не хватает заряженных рук и светлых голов.

Так что, если у вас есть идеи, желание поработать, чему-то поучиться или научить меня, - пишите в личку. Что касается оплаты - готов на разные варианты: от зарплаты или поэтапной оплаты до шеринга дохода с проектов.
2🔥28👍127🦄432❤‍🔥21😍1😘1
This media is not supported in your browser
VIEW IN TELEGRAM
Производитель гуманойдных роботов Unitree, представила первый App Store для роботов.

Портал позволяет пользователям создавать, загружать и обмениваться «навыками» (skills) и наборами данных для обучения роботов.

Разработчики могут загружать созданные ими движения (например, танцы, приемы боевых искусств или специфические рабочие задачи).
🔥207👏3🤯2🦄2👍1