Нейронный Кот – Telegram
Recommended
1
Forwarded from echoinside
tldr; ищу Computer Vision Engineer (Freelance) к себе
--

Привет! Я знаю, что в этом канале апдейты появляются не часто (и я не обещаю это исправить 😅).
Но я безумно рада и благодарна что вы еще здесь.

С 2024 года я работаю над проектом MyArchitectAI в качестве CTO и ко-фаундера. Наша цель это заменить physical based rendering на более простой и быстрый ai рендер. У нас уже есть юзеры, которые используют нас вместо Vray! 🤩
Мы хотим быть one stop shop для архитектурной визуализации, что включает в себя разработку удобных инструментов для создания и редактирования рендеров, видео, интерактивных 3д визуализаций.
С очень небольшой командой и без инвестиций мы смогли дойти до 40 тысяч активных юзеров в месяц, которые постоянно оставляют нам фидбек. Компания сейчас способна полностью оплачивать все свои расходы за счет выручки.

Я ищу Computer Vision Engineer, пока что на фриланс основе. Это означает, что это проектная работа.
Могу пообещать интересные проекты и достойную компенсацию.
Есть очень много вещей, которые мне хотелось бы улучшить и у меня не хватает рук.
Главной задачей будет тюнить модельки. Сейчас мне нужна помощь с улучшением модели для сегментации. ☺️
Если вам это интересно, пожалуйста, напишите мне в лс @fogside ⭕️! Очень желательно, однако, чтобы вы были не в РФ (это связано исключительно с удобством оплаты вашего труда).
Please open Telegram to view this post
VIEW IN TELEGRAM
👀7🌚1
ASR в гугле не очень признает ChatGPT (ChachiBT 😃)
Please open Telegram to view this post
VIEW IN TELEGRAM
😁14
Павел Дуров кому-то денег должен?

Казалось, что будущее телеги за Telegram Mini Apps (TMA), ведь в вичате куча полезных приложений, в том числе официальных от больших компаний.

А в телеге? — гифты! 😮‍💨

📉 За год MAU приложений упало в 5 раз
📉 Рост количества приложений упал с 82% до 4% (то есть с каждым месяцем большее количество билдеров не приходят что-то делать)

Хуже всего, что всякие токсичные приложения (в стиле крипто-скама с идеей быстро разбогатеть) поощряются, а не удаляются из платформы
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🤯2
Qwen3-Omni-30B-A3B-Captioner

Тут Qwen на днях выпустили модель, которая хорошо умеет описывать аудио файлы.

То есть у нее хороший audio understanding, и тут разговор не про распознавание речи. Модель понимает:
multiple speaker emotions, multilingual expressions, and layered intentions. It can also perceive cultural context and implicit information within the audio, enabling a deep comprehension of the underlying meaning behind the spoken words. In non-speech scenarios, the model demonstrates exceptional sound recognition and analysis capabilities, accurately distinguishing and describing intricate layers of real-world sounds, ambient atmospheres, and dynamic audio details in film and media.


Я прогнал через модель звук из видео «Бурановские Бабушки»: В кругу друзей. (всего 223 просмотра — поднажмем!) Получилось достаточно хорошо (см. скрин). Модель даже понимает, к какой секунде относится каждая часть контента.

НО! Нельзя задать промпт, модель принимает только аудио. То есть нельзя, например, попросить оценить акцент вашей речи, — можно только получить полное общее описание.

Вопрос — в каком продукте такая модель могла бы понадобиться?

модель
😛 демка
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
DeepSeek-V3.2-Exp

Вышел новый дипсик!

🔹построен на основе V3.1-Terminus (неделю+ вышла моделька)
🔹DeepSeek Sparse Attention (DSA) для ускорения инференса при длинных контекстах
🔹по API цена ниже на 50%

🔗 ссылка на модель
🔥2
This is misspelled, but we can't change it because that would be a breaking change

👋 Забавная "бага" в либе openai-agents-python

ps
правильно: occured -> occurred
Please open Telegram to view this post
VIEW IN TELEGRAM
😁7
Qwen3-VL

Наконец вышли завершающие размеры в серии Qwen3-VL — 4B и 8B.

В двух форматах: instruct и thinking
И в двух точностях: bf16 и fp8

До этого вышли MoE версии: 235B-A22B, 30B-A3B

Qwen-VL это моя любимая модель ♥️, мне понравилось с ней работать в поколении Qwen2.5-VL. На моей задачи многоклассовой классификации удалось выбить ~0.95 F1

Я пробовал gemma-3(n), SmolVLM(2), Phi-4, Phi-3.5 — все они так себе. Только Kimi-VL хорошо работала, но была существенно тяжелее.

В планах попробовать Qwen3-VL для text-only задач. Кажется, должна работать прям хорошо

⛓️ Коллекция на хагинфейсе
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72
Попался, Atlas Chrome!

Залогинился в твиттер через новый браузер от OpenAI — Atlas.

И мне твиттер вот такой имейл прислал 😰
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿41
Claude до сих пор не поддерживает structured output?

В 2025 это must have

Да, claude сможет работать с простыми JSON схемами на выходе.

НО если у меня вложенная структура? Десятки разных enum типов? Ограничение на длину списков и тд?

Показывать пример JSON-а в промпте? — this is so 2023

К счастью, хотя бы tool use у них со строгой схемой.

Еще и API-шка супер дорогая, еще и кредиты (покупные!) сгорают за год. Они у меня так сожгли пару десятков долларов 😱

Кто как Claude использует? 4.5 sonnet в курсоре? Как-то еще?
Please open Telegram to view this post
VIEW IN TELEGRAM
4