Борис опять – Telegram
Борис опять
15.1K subscribers
1.43K photos
72 videos
30 files
1.47K links
life = curiosity + irreducible noise

Whois: https://news.1rj.ru/str/boris_again/3400

Лс: @btseytlin
Download Telegram
https://www.strangeloopcanon.com/p/walter

Хороший пост про (достаточно успешные) попытки научить LLM делать хорошие твиты с помощью RL. Казалось бы нет задачи проще, но насколько же это не так.

В основном про невероятную способность моделей хакать любой ревард.

Причём блог пост не про технические детали, а скорее про личный опыт. Для деталей есть статья про метод авторов.
153👎1
Вчера прошлись с другом по Лиссабону и заглянули в иммигрантский квартал (Martim Moniz). Неожиданно нашли себе истинно европейское развлечение: смотреть как дерутся на ножах люди беднее тебя.

Для дополнительного колорита прям на той же площади проходило какое-то индийское празднование человек эдак на двести, возможно свадьба
122🤔16😢12👎51👍1
Forwarded from Den4ik Research
Наш русскоязычный датасет для TTS опубликован!

Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1

Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:

Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов

Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов

Данные лежат вот тут: https://huggingface.co/ESpeech

Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf


Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.

Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)

Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.

Послушать модели без скачивания можно вот здесь:

https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS

Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:

https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://news.1rj.ru/str/den4ikresearch
https://news.1rj.ru/str/voice_stuff_chat

Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:

USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
🔥28👍544
Мучаю comet browser на самом полезном юзкейсе: принимать инвайты в линкдине с учетом расизма.

Так не работает: accept all invites except from indian people
62🤔4🔥2
Так работает: accept all invites except from people with indian-sounding names
79🔥4
Хотя precision/recall оставляет желать лучшего
34👍1
Gemini 2.5 Flash Image с редактированием изображений (которая nanobanana) просто космос какой-то
🤔15👍62
Первая модель которая делает так
933
Учителя дошкольников всё ещё могут быть спокойны
9018👎1
Мой канал попал в подборку от РБК. Всем новичкам добро пожаловать! Хороший повод обновить приветственный пост.

#whois

Привет, я Боря и это мой канал про профессиональное (машинное обучение, ИИ, IT), интересное, личное и просто весёлое. В этом посте можно найти мини-интервью со мной.

Сейчас я пишу научпоп книгу про исскуственный интеллект, подробнее тут.

Я работал:
- Staff Machine Learning Engineer в eBay
- Тимлидом компьютерного зрения в агротехе PlanetFarms
- Исследователем в Yandex (Toloka)

Преподаю машинное обучение (ВШЭ, OTUS, DLS), временами консультирую людей по поиску работы и компании по ML/DS/AI.

Предлагаю почитать в канале из нового:
* Искусственный интеллект не дает преимуществ — почему ИИ инструменты не помогают преуспеть в карьере.
* Обзор исследования METR — про влияние AI инструментов на продуктивность разработчиков.
* Как распознать AI текст в 2025
* Может ли LLM написать книгу за меня эксперимент на друзьях и подписчиках.

Из менее нового:
* Минимальные знания ML Engineering для Data Scientist — серия постов.
* Два способа делать ML — как стоит и как не стоит делать ML/AI проекты.
* Лихие Джуновские — как все начиналось.
* Как я убеждал младшего брата, что он путешествует во времени — с чего начинался канал.
* Серия постов с обзором самого масштабного исследования безусловного базового дохода.

Лонгриды:
* Методичка: Поиск Работы в ML/DS, мой наиболее популярный и полезный материал
* "Нормально разбираемся в Нормальном распределении" на Хабре.
* Туториал по реализации алгоритма поиска BM25+ на Хабре.
* Гайд по опционам в стартапах для сотрудника.

В канале есть реклама, если я считаю её полезной для подписчиков. Подробнее здесь
43🔥16👍10
Борис опять pinned «Мой канал попал в подборку от РБК. Всем новичкам добро пожаловать! Хороший повод обновить приветственный пост. #whois Привет, я Боря и это мой канал про профессиональное (машинное обучение, ИИ, IT), интересное, личное и просто весёлое. В этом посте можно…»
8910🔥3
Кстати лучшие хьюман мемеры пока не будут заменены даже нанобананой. Мне потребовалось буквально два часа, чтобы навайбфотошопить этот мем. Приходилось на добавление каждого символа создавать новый чат раза 3-4 пока не получалось приемлемо. Очень плохо работает с маленькими деталями типа символов и текста.

Быстрее бы сам нарисовал.

Но по сравнению с тем, что было раньше, это конечно огромный прогресс
👍30
9715😢7👎4
Никогда не спрашивай почему
80🔥52
On the Theoretical Limitations of
Embedding-Based Retrieval


- TLDR универсальные эмбединги слабо скейлятся, нейронки нормально не репрезентят высокоранговое пространство, а BM25 да.
We give Gemini all 46 documents and all 1000 queries at once, asking it to output
the relevant documents for each query with one generation. We find that it can successfully solve
(100%) all 1000 queries in one forward pass. This is in contrast to even the best embedding models
with a recall@2 of less than 60%

А еще LLMки нормально ретривят. LM task is all u need again

paper
🔥14🤔53
Practical AI Business Automation. Boris Tseitlin..pdf
1.2 MB
Запись и презентация моего выступления на митапе Practical AI про автоматизацию бизнес-процессов с LLM

https://www.youtube.com/watch?v=baXli1UVoBg

Даня, организатор митапа, так описал главный инсайт:
Настоящая экономическая ценность искусственного интеллекта — в автоматизации «тупой интеллектуальной работы».

Это задачи, которые легко объяснить человеку, но почти невозможно описать жесткими правилами в коде. Например, оценить по фото, является ли товар подделкой.

Раньше такие процессы были ограничены скоростью и количеством людей. AI позволяет масштабировать эту «человеческую» оценку до миллионов операций в сутки. Вы переходите от выборочных проверок к 100% покрытию, получая уровень контроля, который раньше был экономически и технически недостижим.


Я был очень рад фидбеку после митапа. Люди написали такие вещи как "теперь я понимаю чем отличается AI от ML" и "спасибо за идею делать бенчмарки." Возможно кого-то даже удалось убедить не делать агентов там, где не надо!
38👍15
Свой личный вывод (о том, что LLM и прочий "AI" меняют в автоматизации по сравнению с обычным DS/ML) я бы описал этой картинкой.

У неё есть история. Несколько лет назад меня позвали провести для менеджеров ВТБ ликбез по машинному обучению. Тогда я придумал картинку слева, чтобы объяснить, когда ML применять, а когда нет.

Теперь у нас есть новый способ автоматизировать тупую интеллектуальную работу. Вместо обучения моделей можно что-нибудь напромптить и попросить не делать ошибок. Что поменялось принципиально?

Я думаю так: LLM это новый инструмент который отличается от обычного DS/ML бОльшей гибкостью в обмен на бОльшую стоимость и худшее качество. LLM меньше тупеют когда данные отличаются от тренировочных. К тому же систему на LLM и промптах очень легко дорабатывать и адаптировать под меняющиеся условия. Изменить промпт кратно проще, чем пересобрать датасет и заново обучить классификатор.

Кроме того автоматизация на LLM отличается по другим критериям. Например, как ты за неё платишь. Обычный ML это огромные capital expenses в начале. Один раз за дорого делаем модель, потом бесконечно получаем от неё профит по цене инференса. LLM размазывают capex по времени и превращают их в operational expenses. Вместо необходимости выложить огромную котлету сразу ты получаешь большой счет каждый месяц. Часто этот трейд-офф оправдан: с opex сильно проще работать. Более предсказуемо. Это превращает работу с ML в что-то типа юнит-экономики: главное зарабатывать на пользователе больше, чем он сжигает токенами, и экономика сходится.

В общем есть много мыслей. Если интересуют детали, то смотрите презентацию и выступление!
34👍14🔥93👎1