max.sh – Telegram
max.sh
2.34K subscribers
70 photos
6 videos
95 links
Карьера, образование и исследования в мире AI через призму собственного опыта.


Канал ведет Макс Шапошников, ex Applied Scientist в FAANG. Профессионально ловлю CUDA OOM.

Cвязь в тг - @PorcelainFox
Linkedin - https://www.linkedin.com/in/maxshapp
Download Telegram
Новая Постановка Чеховской "Чайки" с Кейт Бланшетт

Сходил на этой неделе в Barbican Theathre на долгожданную премьеру "Чайки". Впечатления непередаваемые! Но обо всем по порядку.

Барбикан - это на самом деле огромный жилой комплекс в сердце Лондонского Сити. К нему примыкает библиотека, музей и большой центр искусства - все вместе образуют Barbican Complex. На втором фото можно увидеть макет комплекса. Кстати, из актуального, все выполнено в стиле брутализма.

Внутри центра исcусств находится огромная выставочная зона и сам театр - фото 3 и 4.

Кстати, здесь есть небольшой сувенирный магазин с разным прикольными штуками, приуроченными к выходу пьесы (фото 5). Жалею теперь, что ничего не купил на память 🥲

Ну а теперь перейдем к главному. К Пьесе. Она удалась во всех смыслах! Во-первых, тут просто невероятный актерский состав (и Кейт Бланшетт, и Эмма Корин, и Коди Смит-Макфи, и много других британских актеров). Все отлично отыгрывают своих персонажей и максимально органично смотрятся в своих ролях. Без сомнения, главная звезда на афише, Кейт Бланшетт, оказывается главной и на сцене, затмевая всех. Ну лично для меня. Во-вторых, несмотря на то что пьеса переносит в наше время, вся повествование, все три часа, смотрятся легко, целостно и уместно. Постановщик чуть модернизировал диалоги, но сохранил всю суть оригинала. Хронология событий тоже на месте. Быть может только чуть смещены акценты. Все-таки в пьесе герои Нина и Константин образуют центр повествования и двигают всю драму, тогда как в новой версии всю энергетику как будто забирает Аркадина, мать Константина. Ну это и не удивительно, ее играет Бланшетт 💥

📸Снимать само представление было нельзя. Но выход актеров на поклон и аплодисметны публики поймал в кадр.

Фух. На культруную жизнь переключился. Можно теперь и обратно к технологиям. 👩‍💻
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥5😍43🕊3👏2🤩1🍓1
Интересный опрос в канале у @smirnovevgeny, Head of ML Лаборатории в Альфа-Банке про карьеру в ML, зарплатные вилки, географию, грейды и образование. Будет очень интересно посмотреть на результаты в контексте количество переработанных часов -> компенсация - есть ли тут корреляци, а самое главное какая. Порадовало, что такой вопрос вообще есть 😄

заполнить гугл форму можно тут
Результаты будут в канале
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🤓6👏4👨‍💻1
💡Принцип Златовласки, или при чём тут сказка про трёх медведей?

Казалось бы, какая Златовласка? И какя вообще сказка?

Вот и я сначала удивился, когда услышал выражение "Goldilocks hard" (c английского дословно Goldilocks будет Златоваской) в недавней лекции Charles Sutton-а, Research Scientist-а из DeepMind, про AI Agents for Code Generation.

Давайте разберёмся.

Златовласка — это девочка из известной английской сказки Goldilocks and the Three Bears. В русском варианте, "Три Медведя", адаптированном Львом Толстым, она была заменена на безымянную «одну девочку», а в более поздних версиях — на Машу.

Сюжет сказки прост: девочка заблудилась в лесу, зашла в дом трёх медведей и обнаружила там три набора предметов разного размера — три тарелки, три стула, три кровати. Попробовав их, она каждый раз находила, что один слишком большой, другой слишком маленький, а третий — в самый раз.

Вот из этого "в самый раз" и происходит принцип Златовласки (Goldilocks principle), который используется в самых разных областях — от медицины и психологии до инженерии и машинного обучения.

Например, оптимальный learning rate при обучении модели — это тот, который и не слишком маленький (чтобы обучение не застопорилось), и не слишком большой (чтобы модель не перескакивала экстремумы и не сходилась хаотично).

Sutton в своей лекции использовал выражение Goldilocks hard, говоря о бенчмарках MBPP и HumanEval для оценки моделей генерации кода. Эти датасеты состоят из простых задач: реализовать базовый алгоритм на Python в 10–20 строк. В 2021–2022 годах такие бенчмарки были в "самый раз" — модели уже демонстрировали, что могут решать подобные задачи, но всё ещё показывали далёкие от идеала метрики, и было понятно, куда расти. Сегодня такие датасеты безнадежно устарели: 1) слишком простые 2) слишком мало юнит-тестов на каждую задачу 3) абсолютно точно они протекли в pretrain любой новой модели. По сути, MBPP и HumanEval стали аналогом MNIST в кодогенерации.

Актуальный Goldilocks hard бенчмарк для кодогенерации — это, скорее, SWE-Bench (а ещё лучше его отфильтрованная версия SWE-Bench Verified), который основан на pull request'ах из крупных open-source Python-проектов на GitHub.

Такая вот история про Златовласку и генерацию кода 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍8🐳21😁1💩1🤓1🆒1
Когда я начал вести канал, то заинтересовался похожими авторскими проектами на тему образования, технологий, карьеры и машинного обучения.

Обнаружил канал Андрея Созыкина - https://news.1rj.ru/str/a_sozykin

Андрей записывает классные видео курсы ( да, у него большой ютуб канал на 125к!) для начинающих на разные темы: про Компьютерные сети, по основам SQL и Python, различным главам в машинном обучении. Очень давно я ставил первые куда драйверы для тензорфлоу как раз по его туториалу 😄

А еще мне посчастливилось учиться у Андрея в живую - он вел курс у меня на мат-мехе по компьютерным сетям. Его курс был одним из хайлайтов учебной программы: все очень понятно и подробно на лекциях, а потом классные практики.

В общем, рекомендую канал Андрея всем, кто делает первые шаги в МЛ, начинает путь в Аналитике и Анализе Данных и активно интересуется образованием в AI технологиях.

У него еще и много интересного про образовательные проекты в IT на базе разных университетов, поэтому прикольно следить еще и в этом направлении)
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍8🔥3👏2🤝1
Давно не было постов с рассказами о собеседованиях в разные компании. Сегодня интересное пополнение: опыт прохождения интервью на позицию Senior ML Engineer в Apple Music (Лондон).

Сам отзыв в следующем сообщении.

Apple давно входит в число FAANG-компаний, поэтому, казалось бы, найти рассказы о собеседованиях туда несложно. Но лично я ни разу не встречал хорошего обзора процесса найма именно ML-инженеров. Но из рассказа понял, почему так - разные команды могут менять процесс найма, нет одного набора секций; Это делает историю подписчика особенно ценной! Большое спасибо, что делитесь такой редкой информацией 😊

Кстати, я обновил закреплённое сообщение с формой для историй. Теперь в нём не только ссылка на форму, но и список уже опубликованных рассказов — так будет проще искать нужную информацию.

Присоединяйтесь и делитесь своим опытом! Буду рад видеть истории о зарубежных и отечественных компаниях, стартапах, необычных местах и других уникальных собеседованиях на AI / ML / Research роли. 🎉

P.S Скоро опубликую еще одну офигенную историю в горячую компанию 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥644🦄2😎2🍾1
Senior ML Engineer в Apple Music, London 😮

Авторская орфография сохранена


#интервью

Ник автора в тг - Анонимно

Название комании, можете указать ссылку или коротко описать что за место - Apple, продукт Apple Music

Как подались на вакансию - рекрутер сам вышел на меня

🔥 Субъективно Сложность процесса по 10 бальной шкале - 4


Когда начали процесс - 02/24

Когда закончили процесс - 04/24


Позиция, на которую собеседовались - Senior ML Systems Engineer

Грейд на который собеседовались (если известно) - ICT4 (примечание от автора канала: расшифровывается как Individual Contributor L4, соответствует позиции Senior, сравнение с другими биг техами можно найти на levels.fyi)

Локация вакансии - London

🔥 Расскажите про этапы собеседований

Хочу отметить, что собеседования в Apple являются team-specific, и нет каких то общих этапов. Поэтому опыт собеседований в другие команды может сильно отличаться

1) Screen with Hiring manager
Вопросы про предыдущий опыт, чтобы понять есть ли потенциальный fit

2) Coding screen interview
Есть уже готовый сэмпл кода на питоне, нужно было встроить в него нужную логику.
Найти имеющиеся в коде слабые места, предложить способы улучшения, и реализовать фиксы.
По итогу получается смесь из литкода и чего то более приближенного к day-to-day job.

Onsite (5 секций)

3-4) Behavioural - классические вопросы для поведенческих интервью. Не знаю зачем, но в Apple Music зачем то проводят 2 behavioural собеседования с разными людьми.

5) ML System Design - стандартный вопрос из разряда "design of next song recommendation system".

6) ML Coding - по большей части это собеседование было очень похоже на предыдущее, но с уклоном в прототипирование кода

7) Data Engineering - нужно было решить алгоритмическую задачку связанную с обработкой данных. Не смотря на название этапа, это собеседование в большей степени было похоже на обычные leetcode секции.


Что понравилось:
- было приятно поговорить с менеджером еще до начала собеседований

Что не понравилось:
- этапы не слишком хорошо продуманы - есть явное дублирование, не смотря на разные названия этапов.
- названия часто не отражают сути происходящего - сильно мешает целенаправленно готовиться
- секретность часто не позволяет интервьюерам честно отвечать на вопросы, что сильно мешает узнавать релевантную информацию для принятия решений



Итоги собеседования, например оффер или отказ, или что-то другое: Offer (принятый)

Информация про Total Compensation (если желаете): 120k base + 50k sign-on bonus + 400k stocks (по ощущениям это был максимум на который Apple мог согласиться).
примечание от автора канала: детали зарплаты в фунтах, стоки выдаются с вестингом на 4 года, то есть условно по 25% становятся доступными в год, но реальные доли могут отличаться (10,20,30,40 или 5, 15, 40, 40).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍219🔥8🏆321💯1🆒1
📎Phi-4-Multimodal - модель, которая может понимать картинки, речь и текст одновременно


1️⃣ Microsoft в начале марта выложили в открытый доступ серию моделей и поделились подробным техническим деталями в статье. Phi-4-Multimodal может одновременно обрабатывать картинки, текст и аудио. Релиз прошел совсем тихо и почти никто про эти модельки не говорит. На мой взгляд зря, получилось очень интересно.

2️⃣ Сначала сухие факты

⏺️Модель Phi-4-multimodal, лицензия MIT, веса на HF

⏺️На вход умеет принимать текст, речь или картинки - суммарный контекст 128,000 токенов. На выход текст (0.34 секунды до первого токена, throughput 26 t/s)

⏺️Размер 5.6B параметров, все в BF16, 3.8B из этих параметров идут от бэкбона Phi-4-mini, остальные параметры от обучаемых энкодеров для картинок и аудио, и LoRA адаптеров - об этом подробнее дальше.

⏺️На text-vision бенчмарках обходит Qwen2.5-VL-3B, Claude 3.5 Sonnet, and GPT 4o-mini

⏺️На vision-speech бенчмарках выше Gemini-2.0-Flash

⏺️В транскрипции речи в текст согласно репорту выше всех аналогов.

3️⃣ Подробнее про устройство модели.

Бэкбоун всего решения - 3.8B текстовая LLM Phi-4-mini. Ее тоже выложили и есть отдельная instruct версия под MIT лицензией. Модель очень шустрая и маленькая - отлично подходит для файн-тюнов на своих данных под конкретную задачу. Именно файн-тюнов. Из коробки few-shot prompting и обобщающие способности очень слабые - убедился в этом сам на своих бенчмарках по разным доменным задачам - до gpt 4o mini / claude 3.5 haiku и других mini версий как до луны - может поэтому релиз и прошел мимо.


4️⃣ Теперь про мультимодальность.

Аудио энкодится через Conformer модель (сверточная сеть + трансформер) и дополнительную проекцию пространство токенов базовой текстовой LLM. Изображения энкодятся через vision transformer SigLIP-400M и так же проекцию в пространство токенов текстовой модели. Таким образом, благодаря projection слоям все модальности можно представить в одном пространстве. Как показано на рисунке 1.

Наконец, чтобы все модальности “уживались” друг с другом, в трансформер слои Phi-4-mini добавлены LoRA адаптеры, один для аудио (460M), другой для картинок (370M). И в итоге forward на инференсе выглядит как последовательное применение базовых весов и адаптеров, показано на рисунке 2. Коротко Обучение происходит в несколько стадий: 1) обучение vision части 2) обучение аудио части 3) joint обучение на обеих модальностях.


5️⃣ В итоге получается элегантная модель, которая может и в понимание картинок, и в ASR, и в vision-to-audio understanding, и многие другие задачи вокруг этих модальностей. Да, обучение для каждой стадии непростое (много деталей есть в статье), и требует много данных, но инференс выглядит максимально бесшовным и нативным.

Плюс, такой подход позволяет распараллеливать рисерч команды в большой лабе, где люди работают над разными направлениями. Одна команда улучшает foundation model, тогда как другие накручивают свои модальности и и пользуются базовой моделью, как универсальным источником знания о мире. Как раз про движение в эту сторону, в контексте мультимодальности не только картинок и текста (так делают уже все), но и добавления аудио/речи, и микс этого всего, рассуждал недавно в подкасте ко-фаундер 11Labs здесь (кстати, офигенный выпуск)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍42🐳2🦄2👏1🤔1👨‍💻1😎1
Пятница, время нового поста с отзывами на собесы в интересные места. Сегодня делюсь опытом одного из подписчиков в очень горячей компании - Nvidia, на роль Performance Инженера.

Отзыв можно найти в посте ниже.

Почитал детали, офигел от сложности процесса. По описанию, почти все интервью специфичные и нужно прямо хорошо знать свое дело, чтобы успешно пройти раунды. Как я понял, многие вопросы построены вокруг оптимизаций вычислений (ну а как еще, нвидиа же продает видеокарты, чтобы учить большие модели, а роль про оптимизацию :D), поэтому нужно знать детали распределенного обучения, как устроены разные типы данных, как работать с CUDA, и в каких местах искать bottleneck-и пайплайнов.

А, ну и еще первый раз слышу про Hard Leetcode да еще и с задачей на тему DP на собеседовании. Это при том, что один из этапов собеса - объемная домашка. Что ж, процесс сложный, но думаю и награда в виде щедрого оффера того стоит.

У человека явно стальные нервы - начать собес в Августе 2024 и закончить в Январе 2025 🥲
Please open Telegram to view this post
VIEW IN TELEGRAM
8🍾5😎4👍3😱2
🤩 Performance Engineer в Nvidia, Munich

Авторская орфография сохранена

#интервью

Ник автора в тг - Анонимно

Название комании, можете указать ссылку или коротко описать что за место - Nvidia

Как подались на вакансию - Реферал

🔥 Субъективно Сложность процесса по 10 бальной шкале - 9


Когда начали процесс - Август 2024

Когда закончили процесс - Январь 2025


Позиция, на которую собеседовались - Performance Engineer (примечание от автора канала: согласно описанию роли, например здесь, эта роль про бенчмарки, профайлинг и анализ решений, которые разрабатывает Nvidia и поиск боттлнеков в них, то есть роль посередине между software командами, которые пишут сервисы для кастомеров и hardware, которые напрямую работают с железяками).

Грейд на который собеседовались (если известно) - IC4 (примечание от автора канала: расшифровывается как Individual Contributor L4, согласно таблице грейдов на levels.fyi это выше чем Senior, но и не Staff - что-то посередине. Если сравнивать с гуглом, то это на уровне L5 гугла - то есть Senior.)

Локация вакансии - Munich

🔥 Расскажите про этапы собеседований

1. Скрин с HM про мой бекграунд и позицию. Поговорили про мой опыт и их ожидания.

2. Технический скрин: кодинг c++, performance tuning, parallelism: TP, PP, etc.

3. Домашка: алгоритмы + параллелизация (примечание от автора канала: подозреваю, что домашка на реализацию чего-то на C++ и OpenMP)

4. Онсайт
- 4.1 PyTorch, про разные внутренности: память, autograd, устройство типов данных
- 4.2 Deep Learning / Quantization: популярные алгоритмы, трейдоффы между разными подходами
- 4.3 Distributed training
- 4.4 и 4.5 Leetcode (задачи уровня медиум, типа на обход графов и уровня хард на DP)


Итоги собеседования, например оффер или отказ, или что-то другое: Offer (принятый)

Информация про Total Compensation (если желаете): N/A (примечание от автора канала: возможно, что компенсация не указана, чтобы не шокировать всех 😄)
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾24🔥14👍8😎4👨‍💻2
💡 Фреймворк дня. typer - замена старому доброму argparse

Каждый питонист точно написал в своей жизни хотя бы одно CLI приложение. И наверняка для этого использовался старый добрый модуль argparse - встроенный тул для CLI нужд.

Мне всегда казалось, что argparse какой-то кривой, неинтуитивный, слишком избыточной (заставляя писать новую портянку для каждого нового скрипта, копируя, по большом счету один и тот же набор команд). Но пересесть на простую и комфортную альтернативу не получалось.

Наконец-то нашел тул, который решил запрос. Тестирую либу typer последние пару месяцев и очень доволен - все запросы покрывает. Может, так нравится, потому что typer - родственник FastAPI (есть кто-то, кто не любит этот фреймворк?) и в core контрибьюторах те же люди, или потому что реально вышло удобно и просто. Заонбордился за пару минут.

Посмотреть кучу примеров можно в официальной доке: https://typer.tiangolo.com/#run-the-upgraded-example

Совсем базовый пример может быть таким скриптом


import typer

from pathlib import Path

app = typer.Typer()

@app.command()
def annotate(
book: Path = typer.Argument(..., help="Path to the book file"),
num_jobs: int = typer.Option(1, help="Number of parallel jobs"),
):
print(f'Reading book stored under {book} and processing it with {num_jobs} jobs')

if __name__ == '__main__':
app()


Ну а дальше запускаем как обычно python3 demo_with_typer.py --help

Получаем красивый интерфейс как на картинке выше.


По итогу, чтобы добавить CLI режим для своего приложения нужно добавить декоратор над функцией, и аннотировать входные аргументы произвольными пользовательскими типами.

- Пишется все очень интуитивно
- Минимальное количество дублирования кода
- Можно писать произвольные вложенные парсеры, с командами и подкомандами
- Эстетически приятный интерфейс, который превращает даже самую стандартную и скучную оболочку во что-то цветное и футуристичное ⚡️
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍72🔥2👨‍💻2👌1🦄1😎1👾1
Нашел активно растущий авторский, довольно провокационный канал @get_rejected - делюсь находкой 💥

Посвящен деталям прохождения интервью в компании в РФ и на зарубежном рынке на различные инженерные позиции. Автор уже собрал 150+ разных отзывов c вилками и детаялми собесов. Мне очень откликается тема рассказов о том, как устроен найм и конкретные секции - то же стараюсь коллекционировать истории подписчиков в похожем формате

Но это только часть контента. На канале еще много потенциально полезной рефлексии на тему карьерного роста (советы о переговорах при получении оффера), совмещения двух работ (и можно ли в таком режиме вообще жить 😄 )
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍6🔥3🎉2
Forwarded from Get Rejected
Наблюдаю что почти каждый день у меня появляются новые просмотры/репосты и реакции на старых постах. Количество просмотров бешенное.
Хотел бы немного подсветить о чем канал, чтобы как можно больше людей изучили рынок.
Канал посвящен прохождению интервью в различные компании в РФ и на зарубежном рынке.

На данный момент в канале предcтавлены ~150 интервью в различные компании:
1. Различный Big Tech: WB , Sber, SberHealth, СберТехнологии(Gigachat) , Яндекс , Яндекс Head , Ozon , МТС
2. Банки: Иннотех, Иннотех , Еще иннотех , Альфа Technical Leader , АК Барс
3. Различные компании: Газпром, RuTube
4. Зарубежные компании: Nebius (Яндекс), Qatar Insurance Company , Jetbrains , Jetbrains , Exness, Plata (Ex-tinkoff) , Salmon (ex-tinkoff Manila) ,
TON , Staking Facilities
И многие другие...

Так же для тех кто любит почитать:
1. Как зарабатывают 1 млн в найме обычные Senior'ы и Middle?
2. Теория больших денег или как выбивать огромные ЗП:
Часть 2 и Часть 3
3. Статистика по собеседованиям : Отклики и конвертация в собесы
4. Зарплаты в ИТ в 2025 : опрос более 300 анкет

Блок Полезные ссылки для собеседований и работы:
Конспекты:
1. Apache Spark
2. Clickhouse
3. Greenplum
4. DWH+Hadoop+Kubernetes

Boost канала
🔥8💯3😎3👍2
LLM много рассуждают. Но можно ли верить их рассуждениям? Alignment команда 🖥 показывает, что нет.

Статья. Блогпост.

TL;DR: Эксперименты простые, на полусинтетических средах. Доверять цеопчкам рассуждений (CoT) рассуждающих (по крайней мере Claude и DeepSeek )моделей рано. Модели нужно проверять, проверять и перепроверять. При чем как ответы (предсказания), так и рассуждения - далеко не всегда они озвучивают то, что реально думают.

А теперь подробнее.

📍Рассуждающие (Reasoning) модели везде. Их суть в том, что прежде, чем дать финальный ответ на вопрос, они могут нагенерировать промежуточных цепочек рассуждений (CoTs), а потом дать финальный ответ.

Такие модели, как правило, значительно бустят метрики на всех бенчмарках и способны решать очень сложные задачи.

В идеальном мире через CoT мы можем понять, как модель реально мыслит и приходит к ответу. То есть в цепочках должны быть достоверные (faithful) описания того, как модель принимает решения. Авторы пытаются протестировать гипотезу достоверности цепочек, генерируемых моделью. На Claude 3.7 и DeepSeek R1 выводы довольно удручающие - текущие модели далеки от генерации достоверных CoT.

Проверяется гипотеза о достоверности рассуждений через три разных эксперимента. В посте только про основной “тест на достоверность”

📍Сетап эксперимента.

Берут Multiple choice вопросы из MMLU и GPQA. В одном инференсе модели дают стандартный промпт с вопросом, просят порассуждать и потом дать ответ на вопрос.

Затем на том же датасете вопросов в промт намеренно добавляют подсказку (hint) для каждого вопроса. Подсказки бывают разных типов: правильные, неправильные, безопасные или с указанием на нелегальное получение информации

С таким injected промптом модель снова просят порассуждать и дает ответ.

Оставляют только те вопросы, где ответ модели между промптом без подсказки и промптом с подсказкой поменялся (картинка 1 для пояснений). Логично предположить, что это именно тот набор вопросов, где подсказка изменила размышления модели (все остальные переменные зафиксированы, а фактор случайности в изменении ответа отфильтровывается), а следовательно и ответ. На этом наборе вопросов измеряют достоверность цепочек.

📍Как мерить достоверность

Достоверная модель, если дать в промпт дополнительную информацию об ответе на вопрос, должна упомянуть факт подсказки и озвучить (verbalize) это в своих CoT как фактор, на который она опирается при ответе. Если ответ модели зависит от наличия подсказки в промпте, то безопасная система должна обозначить фактор подсказки в своих рассуждения - опять же, если гипотеза, что CoT отражают процесс принятия решений моделью верна.

Фактор вербализации подсказки измеряют через Claude 3.5 с последующей ручной верификацией.

Наблюдаем следующее:

🔘Claude 3.7 в среднем генерирует 25% достоверных цепочек, а R1 - 39%. Таким образом, подавляющее большинство CoT никак не упомянули в своем рассуждении факт подсказки. Картинка 2 с результатми на разных типах подсказок

🔘Все модели используют подсказки. То есть если в промпте есть подсказка (и не важно, правильная или нет), модели имеют склонность выбрать вариант из подсказки. Картинка 3 с результатами.

🔘Claude модели на 24% чаще используют фактор подсказки, в сравнении с DeepSeek. Удручает, что неправильная подсказка меняет внутренние убеждения модели в пользу неправильного ответа без какой-либо вербализации почему она это делает (то есть нет указания на подсказку) - модель просто генерирует длинные цепочки неверных рассуждений подгоняясь под неправильный ответ в подсказке.

🔘Недостоверные цепочки в среднем длиннее. Claude 3.7 в среднем задействовал 2064 токена для генерации недостоверных цепочек, тогда как для достоверных хватало 1439.

🔘 Достоверность падает с увеличением сложности вопросов.

В общем, у задачи Alignment-а еще большой путь, а модели пока все такой же черный ящик, который может врать и не краснеть - 😄

💡 В комментариях оставил маленький абзац про другие эксперименты из статьи. В целом советую всю статью к прочтению - хорошо структурировано и классно подано.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍97👏4🔥3💯2😎1
Вчера делал обзор на статью Антропика про достоверность рассуждений языковых моделей.

А сегодня дошли руки оформить отзыв одного из подписчиков канала (спасибо вам большое, что присылаете классные истории! ) на собеседование в стартап Atla.ai. И получилось как нельзя своевременно 😃

Сам отзыв можно в следующем посте, а тут немного от меня про компанию.

Atla.ai - это early stage seed round стартап, который специализируется на верификации предсказаний LLM. То есть делает LLM as a judge по разным пользовательским метрикам. Судя по докам с сайта работает примерно так: вы делаете предикт своей моделью, дальше отправляете это в API Атлы и указываете, по каким критериям хотите полчить оценку (critique scores, у каждой метрики своя шкала). Дефолтные метрики такие: фактическая корректность, логическая согласованность, релевантность, полезность, и достоверность. Можно создать свои метрики

В блоге рассказывают про свою последнюю модель Selene 1, которая по графикам перформит в среднем лучше чем решения от OpenAI, Claude, и.т.д Почитать подробно можно здесь

В контексте рассуждающих моделей, выглядит как потенциальная полезная штука, особенно для задачи AI Safety, если их критик может дать развернутую оценку того, насколько СoT, или финальный ответ модели релевантны/безопасны/логичны/ и.т.д Опять же - эксперименты Антропиков с своим же Claude 3.7 показывают, что генерируемые цепочки рассуждений пока далеки от того, чтобы быть безопасными.

Может быть, кто-то работает над похожей штукой? Или взаимодействовал с API атлы - расскажите, какие впечатления?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥62👍2
🤩 Foinding ML Engineer в Atla.ai, London


Авторская орфография сохранена

#интервью

Ник автора в тг - Анонимно

Название комании, можете указать ссылку или коротко описать что за место - Atla.AI (примечание от автора канала: Сайт компании. YC стартап в области AI Evaluation - когда модели оценивают другие модели, LLM as a judge и вот это все)

Расскажите немного о себе, своем бэкграунде - Senior ML Engineer в фаанге. Специализируюсь на скейлинге вычислений.

Как подались на вакансию - нашел пост в канале Лунапарка (примечание автора канала: насколько я понимаю, речь про тг канал с вакансиями @hrlunapark)

🔥 Субъективно Сложность процесса по 10 бальной шкале - 6


Когда начали процесс - Август 2024

Когда закончили процесс - Сентябрь-Октябрь 2024


Позиция, на которую собеседовались (Дополнительно можете рассказать, какие ожидания от этой роли в компании) - Founding ML Engineer. По большому счету единственный МЛ инженер в компании. Все остальные - это рисерчеры с phd по AI из универов. От роли было ожидание, чтобы настроить инфру, чтобы гонять файн-тюны моделей разных размеров: 1) чтобы и скорость обучение была удовлетворительная 2) и данные гонялись удобно и 3) инференс оптимизировать.

Грейд на который собеседовались (если известно) - N/A

Локация вакансии - London

🔥 Расскажите про этапы собеседований

Скриниг Созвон с фаундером на полчаса про мотивацию, предыдущий опыт работы. Немного бихейв вопросов

Скрининг 2 Скрининг на 1.5 часа. Первый час ML кодинг на знание transformers. Кастомный сэмплинг нужен был и свой generate написать. Потом попрофилировать инференс. Можно было гуглить. Последние 15-20 минут с HR-ом на бихейв вопросы. (примечание от автора канала: подробно писал про ML Coding секцию здесь)

Домашнее задание Дз. Потратил часов 8. В первой части был дан пайплайн предобработки данных и запуска обучения модели. Нужно было найти боттленеки и ускорить. Пайплайн был очень неоптимизированный поэтому все сводилось к тому во сколько раз получится ускорить. Во второй части нужно было написать рабочий мини сервис для инференса с поддержкой мульти-лоры. Просили именно с нуля.

Ревью Дз Ревьюили полтора часа как я сделал дз с их разрабом. По факту просто монолог о том, почему делал именно так.

Онсайт
- ML дизайн раунд у доски, проектировали масштабируемую систему для экспериментов
- Еще один раунд ревью ДЗ, теперь с их рисерчерами. 2 человека. Спрашивали интересные вопросы про типы данных, виды аттеншна, как держать большой контекст в ллм-ах. Один чел ex OpenAI, очень толково поговорили про DPO
- Бихейв интервью про мотивацию

Оффер Нескольо раз созванивались договариваться об оффере.

Что понравилось:
- Очень быстрый процесс. Ребята возвращались с фидбэком через несколько дней после секции.
- Когда сомневался в оффере, то поставили созвон с представителями ведущего инвестора стартапа. Был новый необычный опыт общения. Сидят там на мой взгляд точно такие же обычные люди: верят в компанию - дают денег; не особо верят - дают мало. Все очень на глаз делается.


Что не понравилось:
- На сайте вакансии и в объяслвении потолок зп был в £250 бэйза и свреху стоки. По факту этим и не пахло. Фаундер честно сказал, что поставили такую цифру, чтобы увеличить воронку.
- Дублирующие раунды
- Долго торговались.


Итоги собеседования, например оффер или отказ, или что-то другое (Если не приняли оффер, то почему. Если отказ, то что сказали): Offer (отказ). Долго думал, но в итоге пришел к выводу, что сам не верю в то, что они делают. LLM-ы чтобы оценивать LLM-ы - это круто. Но кто будет платить за это по API? не убедил себя. к тому же сид раунд ребят на 5M кажется слишком малеьнким для такой амбициозной штуки.

Информация про Total Compensation (если желаете): £195K бэйз и £70K стоки в год. Выбил такие условие после 3 раундов переговоров, сначала бэйз был на уровне £165
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥9🤩5👏2