Сходил на этой неделе в Barbican Theathre на долгожданную премьеру "Чайки". Впечатления непередаваемые! Но обо всем по порядку.
Барбикан - это на самом деле огромный жилой комплекс в сердце Лондонского Сити. К нему примыкает библиотека, музей и большой центр искусства - все вместе образуют Barbican Complex. На втором фото можно увидеть макет комплекса. Кстати, из актуального, все выполнено в стиле брутализма.
Внутри центра исcусств находится огромная выставочная зона и сам театр - фото 3 и 4.
Кстати, здесь есть небольшой сувенирный магазин с разным прикольными штуками, приуроченными к выходу пьесы (фото 5). Жалею теперь, что ничего не купил на память
Ну а теперь перейдем к главному. К Пьесе. Она удалась во всех смыслах! Во-первых, тут просто невероятный актерский состав (и Кейт Бланшетт, и Эмма Корин, и Коди Смит-Макфи, и много других британских актеров). Все отлично отыгрывают своих персонажей и максимально органично смотрятся в своих ролях. Без сомнения, главная звезда на афише, Кейт Бланшетт, оказывается главной и на сцене, затмевая всех. Ну лично для меня. Во-вторых, несмотря на то что пьеса переносит в наше время, вся повествование, все три часа, смотрятся легко, целостно и уместно. Постановщик чуть модернизировал диалоги, но сохранил всю суть оригинала. Хронология событий тоже на месте. Быть может только чуть смещены акценты. Все-таки в пьесе герои Нина и Константин образуют центр повествования и двигают всю драму, тогда как в новой версии всю энергетику как будто забирает Аркадина, мать Константина. Ну это и не удивительно, ее играет Бланшетт
Фух. На культруную жизнь переключился. Можно теперь и обратно к технологиям.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12🔥5😍4⚡3🕊3👏2🤩1🍓1
Интересный опрос в канале у @smirnovevgeny, Head of ML Лаборатории в Альфа-Банке про карьеру в ML, зарплатные вилки, географию, грейды и образование. Будет очень интересно посмотреть на результаты в контексте количество переработанных часов -> компенсация - есть ли тут корреляци, а самое главное какая. Порадовало, что такой вопрос вообще есть 😄
заполнить гугл форму можно тут
Результаты будут в канале
заполнить гугл форму можно тут
Результаты будут в канале
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🤓6👏4👨💻1
Казалось бы, какая Златовласка? И какя вообще сказка?
Вот и я сначала удивился, когда услышал выражение "Goldilocks hard" (c английского дословно Goldilocks будет Златоваской) в недавней лекции Charles Sutton-а, Research Scientist-а из DeepMind, про AI Agents for Code Generation.
Давайте разберёмся.
Златовласка — это девочка из известной английской сказки Goldilocks and the Three Bears. В русском варианте, "Три Медведя", адаптированном Львом Толстым, она была заменена на безымянную «одну девочку», а в более поздних версиях — на Машу.
Сюжет сказки прост: девочка заблудилась в лесу, зашла в дом трёх медведей и обнаружила там три набора предметов разного размера — три тарелки, три стула, три кровати. Попробовав их, она каждый раз находила, что один слишком большой, другой слишком маленький, а третий — в самый раз.
Вот из этого "в самый раз" и происходит принцип Златовласки (Goldilocks principle), который используется в самых разных областях — от медицины и психологии до инженерии и машинного обучения.
Например, оптимальный learning rate при обучении модели — это тот, который и не слишком маленький (чтобы обучение не застопорилось), и не слишком большой (чтобы модель не перескакивала экстремумы и не сходилась хаотично).
Sutton в своей лекции использовал выражение Goldilocks hard, говоря о бенчмарках MBPP и HumanEval для оценки моделей генерации кода. Эти датасеты состоят из простых задач: реализовать базовый алгоритм на Python в 10–20 строк. В 2021–2022 годах такие бенчмарки были в "самый раз" — модели уже демонстрировали, что могут решать подобные задачи, но всё ещё показывали далёкие от идеала метрики, и было понятно, куда расти. Сегодня такие датасеты безнадежно устарели: 1) слишком простые 2) слишком мало юнит-тестов на каждую задачу 3) абсолютно точно они протекли в pretrain любой новой модели. По сути, MBPP и HumanEval стали аналогом MNIST в кодогенерации.
Актуальный Goldilocks hard бенчмарк для кодогенерации — это, скорее, SWE-Bench (а ещё лучше его отфильтрованная версия SWE-Bench Verified), который основан на pull request'ах из крупных open-source Python-проектов на GitHub.
Такая вот история про Златовласку и генерацию кода
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Adv. LLM Agents MOOC | UC Berkeley Sp25 | Code Agents & AI Vulnerability Detection by Charles Sutton
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
🔥9👍8🐳2❤1😁1💩1🤓1🆒1
Когда я начал вести канал, то заинтересовался похожими авторскими проектами на тему образования, технологий, карьеры и машинного обучения.
Обнаружил канал Андрея Созыкина - https://news.1rj.ru/str/a_sozykin
Андрей записывает классные видео курсы ( да, у него большой ютуб канал на 125к!) для начинающих на разные темы: про Компьютерные сети, по основам SQL и Python, различным главам в машинном обучении. Очень давно я ставил первые куда драйверы для тензорфлоу как раз по его туториалу😄
А еще мне посчастливилось учиться у Андрея в живую - он вел курс у меня на мат-мехе по компьютерным сетям. Его курс был одним из хайлайтов учебной программы: все очень понятно и подробно на лекциях, а потом классные практики.
В общем, рекомендую канал Андрея всем, кто делает первые шаги в МЛ, начинает путь в Аналитике и Анализе Данных и активно интересуется образованием в AI технологиях.
У него еще и много интересного про образовательные проекты в IT на базе разных университетов, поэтому прикольно следить еще и в этом направлении)
Обнаружил канал Андрея Созыкина - https://news.1rj.ru/str/a_sozykin
Андрей записывает классные видео курсы ( да, у него большой ютуб канал на 125к!) для начинающих на разные темы: про Компьютерные сети, по основам SQL и Python, различным главам в машинном обучении. Очень давно я ставил первые куда драйверы для тензорфлоу как раз по его туториалу
А еще мне посчастливилось учиться у Андрея в живую - он вел курс у меня на мат-мехе по компьютерным сетям. Его курс был одним из хайлайтов учебной программы: все очень понятно и подробно на лекциях, а потом классные практики.
В общем, рекомендую канал Андрея всем, кто делает первые шаги в МЛ, начинает путь в Аналитике и Анализе Данных и активно интересуется образованием в AI технологиях.
У него еще и много интересного про образовательные проекты в IT на базе разных университетов, поэтому прикольно следить еще и в этом направлении)
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Андрей Созыкин
Компьютерные сети, SQL, Python и машинка. https://www.youtube.com/@AndreySozykin
Контакт: @AndreySozykin
Контакт: @AndreySozykin
❤11👍8🔥3👏2🤝1
Давно не было постов с рассказами о собеседованиях в разные компании. Сегодня интересное пополнение: опыт прохождения интервью на позицию Senior ML Engineer в Apple Music (Лондон).
Сам отзыв в следующем сообщении.
Apple давно входит в число FAANG-компаний, поэтому, казалось бы, найти рассказы о собеседованиях туда несложно. Но лично я ни разу не встречал хорошего обзора процесса найма именно ML-инженеров. Но из рассказа понял, почему так - разные команды могут менять процесс найма, нет одного набора секций; Это делает историю подписчика особенно ценной! Большое спасибо, что делитесь такой редкой информацией😊
Кстати, я обновил закреплённое сообщение с формой для историй. Теперь в нём не только ссылка на форму, но и список уже опубликованных рассказов — так будет проще искать нужную информацию.
Присоединяйтесь и делитесь своим опытом! Буду рад видеть истории о зарубежных и отечественных компаниях, стартапах, необычных местах и других уникальных собеседованиях на AI / ML / Research роли.🎉
P.S Скоро опубликую еще одну офигенную историю в горячую компанию🔥
Сам отзыв в следующем сообщении.
Apple давно входит в число FAANG-компаний, поэтому, казалось бы, найти рассказы о собеседованиях туда несложно. Но лично я ни разу не встречал хорошего обзора процесса найма именно ML-инженеров. Но из рассказа понял, почему так - разные команды могут менять процесс найма, нет одного набора секций; Это делает историю подписчика особенно ценной! Большое спасибо, что делитесь такой редкой информацией
Кстати, я обновил закреплённое сообщение с формой для историй. Теперь в нём не только ссылка на форму, но и список уже опубликованных рассказов — так будет проще искать нужную информацию.
Присоединяйтесь и делитесь своим опытом! Буду рад видеть истории о зарубежных и отечественных компаниях, стартапах, необычных местах и других уникальных собеседованиях на AI / ML / Research роли.
P.S Скоро опубликую еще одну офигенную историю в горячую компанию
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6✍4⚡4🦄2😎2🍾1
Senior ML Engineer в Apple Music, London 😮
Авторская орфография сохранена
#интервью
➖ Ник автора в тг - Анонимно
➖ Название комании, можете указать ссылку или коротко описать что за место - Apple, продукт Apple Music
➖ Как подались на вакансию - рекрутер сам вышел на меня
🔥 Субъективно Сложность процесса по 10 бальной шкале - 4
➖ Когда начали процесс - 02/24
➖ Когда закончили процесс - 04/24
➖ Позиция, на которую собеседовались - Senior ML Systems Engineer
➖ Грейд на который собеседовались (если известно) - ICT4 (примечание от автора канала: расшифровывается как Individual Contributor L4, соответствует позиции Senior, сравнение с другими биг техами можно найти на levels.fyi)
➖ Локация вакансии - London
🔥 Расскажите про этапы собеседований
Хочу отметить, что собеседования в Apple являются team-specific, и нет каких то общих этапов. Поэтому опыт собеседований в другие команды может сильно отличаться
1) Screen with Hiring manager
Вопросы про предыдущий опыт, чтобы понять есть ли потенциальный fit
2) Coding screen interview
Есть уже готовый сэмпл кода на питоне, нужно было встроить в него нужную логику.
Найти имеющиеся в коде слабые места, предложить способы улучшения, и реализовать фиксы.
По итогу получается смесь из литкода и чего то более приближенного к day-to-day job.
Onsite (5 секций)
3-4) Behavioural - классические вопросы для поведенческих интервью. Не знаю зачем, но в Apple Music зачем то проводят 2 behavioural собеседования с разными людьми.
5) ML System Design - стандартный вопрос из разряда "design of next song recommendation system".
6) ML Coding - по большей части это собеседование было очень похоже на предыдущее, но с уклоном в прототипирование кода
7) Data Engineering - нужно было решить алгоритмическую задачку связанную с обработкой данных. Не смотря на название этапа, это собеседование в большей степени было похоже на обычные leetcode секции.
⏺ Что понравилось:
- было приятно поговорить с менеджером еще до начала собеседований
⏺ Что не понравилось:
- этапы не слишком хорошо продуманы - есть явное дублирование, не смотря на разные названия этапов.
- названия часто не отражают сути происходящего - сильно мешает целенаправленно готовиться
- секретность часто не позволяет интервьюерам честно отвечать на вопросы, что сильно мешает узнавать релевантную информацию для принятия решений
➖ Итоги собеседования, например оффер или отказ, или что-то другое: Offer (принятый)
➖ Информация про Total Compensation (если желаете): 120k base + 50k sign-on bonus + 400k stocks (по ощущениям это был максимум на который Apple мог согласиться).
примечание от автора канала: детали зарплаты в фунтах, стоки выдаются с вестингом на 4 года, то есть условно по 25% становятся доступными в год, но реальные доли могут отличаться (10,20,30,40 или 5, 15, 40, 40).
Авторская орфография сохранена
#интервью
Хочу отметить, что собеседования в Apple являются team-specific, и нет каких то общих этапов. Поэтому опыт собеседований в другие команды может сильно отличаться
1) Screen with Hiring manager
Вопросы про предыдущий опыт, чтобы понять есть ли потенциальный fit
2) Coding screen interview
Есть уже готовый сэмпл кода на питоне, нужно было встроить в него нужную логику.
Найти имеющиеся в коде слабые места, предложить способы улучшения, и реализовать фиксы.
По итогу получается смесь из литкода и чего то более приближенного к day-to-day job.
Onsite (5 секций)
3-4) Behavioural - классические вопросы для поведенческих интервью. Не знаю зачем, но в Apple Music зачем то проводят 2 behavioural собеседования с разными людьми.
5) ML System Design - стандартный вопрос из разряда "design of next song recommendation system".
6) ML Coding - по большей части это собеседование было очень похоже на предыдущее, но с уклоном в прототипирование кода
7) Data Engineering - нужно было решить алгоритмическую задачку связанную с обработкой данных. Не смотря на название этапа, это собеседование в большей степени было похоже на обычные leetcode секции.
- было приятно поговорить с менеджером еще до начала собеседований
- этапы не слишком хорошо продуманы - есть явное дублирование, не смотря на разные названия этапов.
- названия часто не отражают сути происходящего - сильно мешает целенаправленно готовиться
- секретность часто не позволяет интервьюерам честно отвечать на вопросы, что сильно мешает узнавать релевантную информацию для принятия решений
примечание от автора канала: детали зарплаты в фунтах, стоки выдаются с вестингом на 4 года, то есть условно по 25% становятся доступными в год, но реальные доли могут отличаться (10,20,30,40 или 5, 15, 40, 40).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21⚡9🔥8🏆3✍2❤1💯1🆒1
Бэкбоун всего решения - 3.8B текстовая LLM Phi-4-mini. Ее тоже выложили и есть отдельная instruct версия под MIT лицензией. Модель очень шустрая и маленькая - отлично подходит для файн-тюнов на своих данных под конкретную задачу. Именно файн-тюнов. Из коробки few-shot prompting и обобщающие способности очень слабые - убедился в этом сам на своих бенчмарках по разным доменным задачам - до gpt 4o mini / claude 3.5 haiku и других mini версий как до луны - может поэтому релиз и прошел мимо.
Аудио энкодится через Conformer модель (сверточная сеть + трансформер) и дополнительную проекцию пространство токенов базовой текстовой LLM. Изображения энкодятся через vision transformer SigLIP-400M и так же проекцию в пространство токенов текстовой модели. Таким образом, благодаря projection слоям все модальности можно представить в одном пространстве. Как показано на рисунке 1.
Наконец, чтобы все модальности “уживались” друг с другом, в трансформер слои Phi-4-mini добавлены LoRA адаптеры, один для аудио (460M), другой для картинок (370M). И в итоге forward на инференсе выглядит как последовательное применение базовых весов и адаптеров, показано на рисунке 2. Коротко Обучение происходит в несколько стадий: 1) обучение vision части 2) обучение аудио части 3) joint обучение на обеих модальностях.
Плюс, такой подход позволяет распараллеливать рисерч команды в большой лабе, где люди работают над разными направлениями. Одна команда улучшает foundation model, тогда как другие накручивают свои модальности и и пользуются базовой моделью, как универсальным источником знания о мире. Как раз про движение в эту сторону, в контексте мультимодальности не только картинок и текста (так делают уже все), но и добавления аудио/речи, и микс этого всего, рассуждал недавно в подкасте ко-фаундер 11Labs здесь (кстати, офигенный выпуск)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍4⚡2🐳2🦄2👏1🤔1👨💻1😎1
Пятница, время нового поста с отзывами на собесы в интересные места. Сегодня делюсь опытом одного из подписчиков в очень горячей компании - Nvidia, на роль Performance Инженера.
Отзыв можно найти в посте ниже.
Почитал детали, офигел от сложности процесса. По описанию, почти все интервью специфичные и нужно прямо хорошо знать свое дело, чтобы успешно пройти раунды. Как я понял, многие вопросы построены вокруг оптимизаций вычислений (ну а как еще, нвидиа же продает видеокарты, чтобы учить большие модели, а роль про оптимизацию :D), поэтому нужно знать детали распределенного обучения, как устроены разные типы данных, как работать с CUDA, и в каких местах искать bottleneck-и пайплайнов.
А, ну и еще первый раз слышу про Hard Leetcode да еще и с задачей на тему DP на собеседовании. Это при том, что один из этапов собеса - объемная домашка. Что ж, процесс сложный, но думаю и награда в виде щедрого оффера того стоит.
У человека явно стальные нервы - начать собес в Августе 2024 и закончить в Январе 2025🥲
Отзыв можно найти в посте ниже.
Почитал детали, офигел от сложности процесса. По описанию, почти все интервью специфичные и нужно прямо хорошо знать свое дело, чтобы успешно пройти раунды. Как я понял, многие вопросы построены вокруг оптимизаций вычислений (ну а как еще, нвидиа же продает видеокарты, чтобы учить большие модели, а роль про оптимизацию :D), поэтому нужно знать детали распределенного обучения, как устроены разные типы данных, как работать с CUDA, и в каких местах искать bottleneck-и пайплайнов.
А, ну и еще первый раз слышу про Hard Leetcode да еще и с задачей на тему DP на собеседовании. Это при том, что один из этапов собеса - объемная домашка. Что ж, процесс сложный, но думаю и награда в виде щедрого оффера того стоит.
У человека явно стальные нервы - начать собес в Августе 2024 и закончить в Январе 2025
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🍾5😎4👍3😱2
Авторская орфография сохранена
#интервью
1. Скрин с HM про мой бекграунд и позицию. Поговорили про мой опыт и их ожидания.
2. Технический скрин: кодинг c++, performance tuning, parallelism: TP, PP, etc.
3. Домашка: алгоритмы + параллелизация (примечание от автора канала: подозреваю, что домашка на реализацию чего-то на C++ и OpenMP)
4. Онсайт
- 4.1 PyTorch, про разные внутренности: память, autograd, устройство типов данных
- 4.2 Deep Learning / Quantization: популярные алгоритмы, трейдоффы между разными подходами
- 4.3 Distributed training
- 4.4 и 4.5 Leetcode (задачи уровня медиум, типа на обход графов и уровня хард на DP)
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾24🔥14👍8😎4👨💻2
Каждый питонист точно написал в своей жизни хотя бы одно CLI приложение. И наверняка для этого использовался старый добрый модуль argparse - встроенный тул для CLI нужд.
Мне всегда казалось, что argparse какой-то кривой, неинтуитивный, слишком избыточной (заставляя писать новую портянку для каждого нового скрипта, копируя, по большом счету один и тот же набор команд). Но пересесть на простую и комфортную альтернативу не получалось.
Наконец-то нашел тул, который решил запрос. Тестирую либу typer последние пару месяцев и очень доволен - все запросы покрывает. Может, так нравится, потому что typer - родственник FastAPI (есть кто-то, кто не любит этот фреймворк?) и в core контрибьюторах те же люди, или потому что реально вышло удобно и просто. Заонбордился за пару минут.
Посмотреть кучу примеров можно в официальной доке: https://typer.tiangolo.com/#run-the-upgraded-example
Совсем базовый пример может быть таким скриптом
import typer
from pathlib import Path
app = typer.Typer()
@app.command()
def annotate(
book: Path = typer.Argument(..., help="Path to the book file"),
num_jobs: int = typer.Option(1, help="Number of parallel jobs"),
):
print(f'Reading book stored under {book} and processing it with {num_jobs} jobs')
if __name__ == '__main__':
app()
Ну а дальше запускаем как обычно
python3 demo_with_typer.py --helpПолучаем красивый интерфейс как на картинке выше.
По итогу, чтобы добавить CLI режим для своего приложения нужно добавить декоратор над функцией, и аннотировать входные аргументы произвольными пользовательскими типами.
- Пишется все очень интуитивно
- Минимальное количество дублирования кода
- Можно писать произвольные вложенные парсеры, с командами и подкомандами
- Эстетически приятный интерфейс, который превращает даже самую стандартную и скучную оболочку во что-то цветное и футуристичное
Please open Telegram to view this post
VIEW IN TELEGRAM
✍12👍7❤2🔥2👨💻2👌1🦄1😎1👾1
Нашел активно растущий авторский, довольно провокационный канал @get_rejected - делюсь находкой 💥
Посвящен деталям прохождения интервью в компании в РФ и на зарубежном рынке на различные инженерные позиции. Автор уже собрал 150+ разных отзывов c вилками и детаялми собесов. Мне очень откликается тема рассказов о том, как устроен найм и конкретные секции - то же стараюсь коллекционировать истории подписчиков в похожем формате
Но это только часть контента. На канале еще много потенциально полезной рефлексии на тему карьерного роста (советы о переговорах при получении оффера), совмещения двух работ (и можно ли в таком режиме вообще жить 😄 )
Посвящен деталям прохождения интервью в компании в РФ и на зарубежном рынке на различные инженерные позиции. Автор уже собрал 150+ разных отзывов c вилками и детаялми собесов. Мне очень откликается тема рассказов о том, как устроен найм и конкретные секции - то же стараюсь коллекционировать истории подписчиков в похожем формате
Но это только часть контента. На канале еще много потенциально полезной рефлексии на тему карьерного роста (советы о переговорах при получении оффера), совмещения двух работ (и можно ли в таком режиме вообще жить 😄 )
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡7👍6🔥3🎉2
Forwarded from Get Rejected
Наблюдаю что почти каждый день у меня появляются новые просмотры/репосты и реакции на старых постах. Количество просмотров бешенное.
Хотел бы немного подсветить о чем канал, чтобы как можно больше людей изучили рынок.
Канал посвящен прохождению интервью в различные компании в РФ и на зарубежном рынке.
На данный момент в канале предcтавлены ~150 интервью в различные компании:
1. Различный Big Tech: WB , Sber, SberHealth, СберТехнологии(Gigachat) , Яндекс , Яндекс Head , Ozon , МТС
2. Банки: Иннотех, Иннотех , Еще иннотех , Альфа Technical Leader , АК Барс
3. Различные компании: Газпром, RuTube
4. Зарубежные компании: Nebius (Яндекс), Qatar Insurance Company , Jetbrains , Jetbrains , Exness, Plata (Ex-tinkoff) , Salmon (ex-tinkoff Manila) ,
TON , Staking Facilities
И многие другие...
Так же для тех кто любит почитать:
1. Как зарабатывают 1 млн в найме обычные Senior'ы и Middle?
2. Теория больших денег или как выбивать огромные ЗП:
Часть 2 и Часть 3
3. Статистика по собеседованиям : Отклики и конвертация в собесы
4. Зарплаты в ИТ в 2025 : опрос более 300 анкет
Блок Полезные ссылки для собеседований и работы:
Конспекты:
1. Apache Spark
2. Clickhouse
3. Greenplum
4. DWH+Hadoop+Kubernetes
Boost канала
Хотел бы немного подсветить о чем канал, чтобы как можно больше людей изучили рынок.
Канал посвящен прохождению интервью в различные компании в РФ и на зарубежном рынке.
На данный момент в канале предcтавлены ~150 интервью в различные компании:
1. Различный Big Tech: WB , Sber, SberHealth, СберТехнологии(Gigachat) , Яндекс , Яндекс Head , Ozon , МТС
2. Банки: Иннотех, Иннотех , Еще иннотех , Альфа Technical Leader , АК Барс
3. Различные компании: Газпром, RuTube
4. Зарубежные компании: Nebius (Яндекс), Qatar Insurance Company , Jetbrains , Jetbrains , Exness, Plata (Ex-tinkoff) , Salmon (ex-tinkoff Manila) ,
TON , Staking Facilities
И многие другие...
Так же для тех кто любит почитать:
1. Как зарабатывают 1 млн в найме обычные Senior'ы и Middle?
2. Теория больших денег или как выбивать огромные ЗП:
Часть 2 и Часть 3
3. Статистика по собеседованиям : Отклики и конвертация в собесы
4. Зарплаты в ИТ в 2025 : опрос более 300 анкет
Блок Полезные ссылки для собеседований и работы:
Конспекты:
1. Apache Spark
2. Clickhouse
3. Greenplum
4. DWH+Hadoop+Kubernetes
Boost канала
🔥8💯3😎3👍2
LLM много рассуждают. Но можно ли верить их рассуждениям? Alignment команда 🖥 показывает, что нет.
Статья. Блогпост.
TL;DR: Эксперименты простые, на полусинтетических средах. Доверять цеопчкам рассуждений (CoT) рассуждающих (по крайней мере Claude и DeepSeek )моделей рано. Модели нужно проверять, проверять и перепроверять. При чем как ответы (предсказания), так и рассуждения - далеко не всегда они озвучивают то, что реально думают.
А теперь подробнее.
📍 Рассуждающие (Reasoning) модели везде. Их суть в том, что прежде, чем дать финальный ответ на вопрос, они могут нагенерировать промежуточных цепочек рассуждений (CoTs), а потом дать финальный ответ.
Такие модели, как правило, значительно бустят метрики на всех бенчмарках и способны решать очень сложные задачи.
В идеальном мире через CoT мы можем понять, как модель реально мыслит и приходит к ответу. То есть в цепочках должны быть достоверные (faithful) описания того, как модель принимает решения. Авторы пытаются протестировать гипотезу достоверности цепочек, генерируемых моделью. На Claude 3.7 и DeepSeek R1 выводы довольно удручающие - текущие модели далеки от генерации достоверных CoT.
Проверяется гипотеза о достоверности рассуждений через три разных эксперимента. В посте только про основной “тест на достоверность”
📍 Сетап эксперимента.
Берут Multiple choice вопросы из MMLU и GPQA. В одном инференсе модели дают стандартный промпт с вопросом, просят порассуждать и потом дать ответ на вопрос.
Затем на том же датасете вопросов в промт намеренно добавляют подсказку (hint) для каждого вопроса. Подсказки бывают разных типов: правильные, неправильные, безопасные или с указанием на нелегальное получение информации
С таким injected промптом модель снова просят порассуждать и дает ответ.
Оставляют только те вопросы, где ответ модели между промптом без подсказки и промптом с подсказкой поменялся (картинка 1 для пояснений). Логично предположить, что это именно тот набор вопросов, где подсказка изменила размышления модели (все остальные переменные зафиксированы, а фактор случайности в изменении ответа отфильтровывается), а следовательно и ответ. На этом наборе вопросов измеряют достоверность цепочек.
📍 Как мерить достоверность
Достоверная модель, если дать в промпт дополнительную информацию об ответе на вопрос, должна упомянуть факт подсказки и озвучить (verbalize) это в своих CoT как фактор, на который она опирается при ответе. Если ответ модели зависит от наличия подсказки в промпте, то безопасная система должна обозначить фактор подсказки в своих рассуждения - опять же, если гипотеза, что CoT отражают процесс принятия решений моделью верна.
Фактор вербализации подсказки измеряют через Claude 3.5 с последующей ручной верификацией.
Наблюдаем следующее:
🔘 Claude 3.7 в среднем генерирует 25% достоверных цепочек, а R1 - 39%. Таким образом, подавляющее большинство CoT никак не упомянули в своем рассуждении факт подсказки. Картинка 2 с результатми на разных типах подсказок
🔘 Все модели используют подсказки. То есть если в промпте есть подсказка (и не важно, правильная или нет), модели имеют склонность выбрать вариант из подсказки. Картинка 3 с результатами.
🔘 Claude модели на 24% чаще используют фактор подсказки, в сравнении с DeepSeek. Удручает, что неправильная подсказка меняет внутренние убеждения модели в пользу неправильного ответа без какой-либо вербализации почему она это делает (то есть нет указания на подсказку) - модель просто генерирует длинные цепочки неверных рассуждений подгоняясь под неправильный ответ в подсказке.
🔘 Недостоверные цепочки в среднем длиннее. Claude 3.7 в среднем задействовал 2064 токена для генерации недостоверных цепочек, тогда как для достоверных хватало 1439.
🔘 Достоверность падает с увеличением сложности вопросов.
В общем, у задачи Alignment-а еще большой путь, а модели пока все такой же черный ящик, который может врать и не краснеть -😄
💡 В комментариях оставил маленький абзац про другие эксперименты из статьи. В целом советую всю статью к прочтению - хорошо структурировано и классно подано.
Статья. Блогпост.
TL;DR: Эксперименты простые, на полусинтетических средах. Доверять цеопчкам рассуждений (CoT) рассуждающих (по крайней мере Claude и DeepSeek )моделей рано. Модели нужно проверять, проверять и перепроверять. При чем как ответы (предсказания), так и рассуждения - далеко не всегда они озвучивают то, что реально думают.
А теперь подробнее.
Такие модели, как правило, значительно бустят метрики на всех бенчмарках и способны решать очень сложные задачи.
В идеальном мире через CoT мы можем понять, как модель реально мыслит и приходит к ответу. То есть в цепочках должны быть достоверные (faithful) описания того, как модель принимает решения. Авторы пытаются протестировать гипотезу достоверности цепочек, генерируемых моделью. На Claude 3.7 и DeepSeek R1 выводы довольно удручающие - текущие модели далеки от генерации достоверных CoT.
Проверяется гипотеза о достоверности рассуждений через три разных эксперимента. В посте только про основной “тест на достоверность”
Берут Multiple choice вопросы из MMLU и GPQA. В одном инференсе модели дают стандартный промпт с вопросом, просят порассуждать и потом дать ответ на вопрос.
Затем на том же датасете вопросов в промт намеренно добавляют подсказку (hint) для каждого вопроса. Подсказки бывают разных типов: правильные, неправильные, безопасные или с указанием на нелегальное получение информации
С таким injected промптом модель снова просят порассуждать и дает ответ.
Оставляют только те вопросы, где ответ модели между промптом без подсказки и промптом с подсказкой поменялся (картинка 1 для пояснений). Логично предположить, что это именно тот набор вопросов, где подсказка изменила размышления модели (все остальные переменные зафиксированы, а фактор случайности в изменении ответа отфильтровывается), а следовательно и ответ. На этом наборе вопросов измеряют достоверность цепочек.
Достоверная модель, если дать в промпт дополнительную информацию об ответе на вопрос, должна упомянуть факт подсказки и озвучить (verbalize) это в своих CoT как фактор, на который она опирается при ответе. Если ответ модели зависит от наличия подсказки в промпте, то безопасная система должна обозначить фактор подсказки в своих рассуждения - опять же, если гипотеза, что CoT отражают процесс принятия решений моделью верна.
Фактор вербализации подсказки измеряют через Claude 3.5 с последующей ручной верификацией.
Наблюдаем следующее:
В общем, у задачи Alignment-а еще большой путь, а модели пока все такой же черный ящик, который может врать и не краснеть -
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9✍7👏4🔥3💯2😎1
Вчера делал обзор на статью Антропика про достоверность рассуждений языковых моделей.
А сегодня дошли руки оформить отзыв одного из подписчиков канала (спасибо вам большое, что присылаете классные истории! ) на собеседование в стартап Atla.ai. И получилось как нельзя своевременно😃
Сам отзыв можно в следующем посте, а тут немного от меня про компанию.
Atla.ai - это early stage seed round стартап, который специализируется на верификации предсказаний LLM. То есть делает LLM as a judge по разным пользовательским метрикам. Судя по докам с сайта работает примерно так: вы делаете предикт своей моделью, дальше отправляете это в API Атлы и указываете, по каким критериям хотите полчить оценку (critique scores, у каждой метрики своя шкала). Дефолтные метрики такие: фактическая корректность, логическая согласованность, релевантность, полезность, и достоверность. Можно создать свои метрики
В блоге рассказывают про свою последнюю модель Selene 1, которая по графикам перформит в среднем лучше чем решения от OpenAI, Claude, и.т.д Почитать подробно можно здесь
В контексте рассуждающих моделей, выглядит как потенциальная полезная штука, особенно для задачи AI Safety, если их критик может дать развернутую оценку того, насколько СoT, или финальный ответ модели релевантны/безопасны/логичны/ и.т.д Опять же - эксперименты Антропиков с своим же Claude 3.7 показывают, что генерируемые цепочки рассуждений пока далеки от того, чтобы быть безопасными.
Может быть, кто-то работает над похожей штукой? Или взаимодействовал с API атлы - расскажите, какие впечатления?
А сегодня дошли руки оформить отзыв одного из подписчиков канала (спасибо вам большое, что присылаете классные истории! ) на собеседование в стартап Atla.ai. И получилось как нельзя своевременно
Сам отзыв можно в следующем посте, а тут немного от меня про компанию.
Atla.ai - это early stage seed round стартап, который специализируется на верификации предсказаний LLM. То есть делает LLM as a judge по разным пользовательским метрикам. Судя по докам с сайта работает примерно так: вы делаете предикт своей моделью, дальше отправляете это в API Атлы и указываете, по каким критериям хотите полчить оценку (critique scores, у каждой метрики своя шкала). Дефолтные метрики такие: фактическая корректность, логическая согласованность, релевантность, полезность, и достоверность. Можно создать свои метрики
В блоге рассказывают про свою последнюю модель Selene 1, которая по графикам перформит в среднем лучше чем решения от OpenAI, Claude, и.т.д Почитать подробно можно здесь
В контексте рассуждающих моделей, выглядит как потенциальная полезная штука, особенно для задачи AI Safety, если их критик может дать развернутую оценку того, насколько СoT, или финальный ответ модели релевантны/безопасны/логичны/ и.т.д Опять же - эксперименты Антропиков с своим же Claude 3.7 показывают, что генерируемые цепочки рассуждений пока далеки от того, чтобы быть безопасными.
Может быть, кто-то работает над похожей штукой? Или взаимодействовал с API атлы - расскажите, какие впечатления?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6⚡2👍2
Авторская орфография сохранена
#интервью
Скриниг Созвон с фаундером на полчаса про мотивацию, предыдущий опыт работы. Немного бихейв вопросов
Скрининг 2 Скрининг на 1.5 часа. Первый час ML кодинг на знание transformers. Кастомный сэмплинг нужен был и свой generate написать. Потом попрофилировать инференс. Можно было гуглить. Последние 15-20 минут с HR-ом на бихейв вопросы. (примечание от автора канала: подробно писал про ML Coding секцию здесь)
Домашнее задание Дз. Потратил часов 8. В первой части был дан пайплайн предобработки данных и запуска обучения модели. Нужно было найти боттленеки и ускорить. Пайплайн был очень неоптимизированный поэтому все сводилось к тому во сколько раз получится ускорить. Во второй части нужно было написать рабочий мини сервис для инференса с поддержкой мульти-лоры. Просили именно с нуля.
Ревью Дз Ревьюили полтора часа как я сделал дз с их разрабом. По факту просто монолог о том, почему делал именно так.
Онсайт
- ML дизайн раунд у доски, проектировали масштабируемую систему для экспериментов
- Еще один раунд ревью ДЗ, теперь с их рисерчерами. 2 человека. Спрашивали интересные вопросы про типы данных, виды аттеншна, как держать большой контекст в ллм-ах. Один чел ex OpenAI, очень толково поговорили про DPO
- Бихейв интервью про мотивацию
Оффер Нескольо раз созванивались договариваться об оффере.
- Очень быстрый процесс. Ребята возвращались с фидбэком через несколько дней после секции.
- Когда сомневался в оффере, то поставили созвон с представителями ведущего инвестора стартапа. Был новый необычный опыт общения. Сидят там на мой взгляд точно такие же обычные люди: верят в компанию - дают денег; не особо верят - дают мало. Все очень на глаз делается.
- На сайте вакансии и в объяслвении потолок зп был в £250 бэйза и свреху стоки. По факту этим и не пахло. Фаундер честно сказал, что поставили такую цифру, чтобы увеличить воронку.
- Дублирующие раунды
- Долго торговались.
Please open Telegram to view this post
VIEW IN TELEGRAM
Atla-Ai
Atla AI | The evaluation & improvement layer for AI agents
Identify and fix AI agent failures automatically. Build more reliable agents.
👍18🔥9🤩5👏2
Периодически в личные сообщения приходят ребята-студенты с вопросами про рисерч стажировки (например, про такие). Соберу в пятничном посте в двух частях мысли на этот счет.
Обязательно нужно быть в процессе получения степени MS (Master of Science) или PhD. При этом важно находиться на финальном году обучения и иметь возможность пройти стажировку продолжительностью 6 месяцев (!). Да, судя по тому, что я вижу, это самый распространённый сценарий среди интернов: они приходят в начале последнего года учёбы, проходят полугодовую стажировку, затем возвращаются, чтобы доучиться или защититься, и с начала следующего года выходят на фулл-тайм.
Если вы - студент MS-программы, то после успешной стажировки вам, как правило, предлагают L4 грейд (формально - джун). Если вы - PhD студент, то это L5 (формально - миддл).
Очень-очень рекомендуется получать степень в зарубежном университете - это значительно упрощает визовые вопросы. В анкете теперь появился вопрос о ссылках на ваши публикации в рейтинговых конференциях, так что статьи, похоже, стали тоже обязательным условием.
Конкурс на MS-стажировки - это, по сути, лотерея: число заявок зашкаливает, и почти все отфильтровываются на автоматическом этапе. С PhD ситуация немного проще - конкуренция в разы ниже (хотя и до PhD доходит далеко не каждый).
Реферал сотрудника компании на стажировки как правило может работать в конкретную команду. Если некотоая команда ищет стажера, то сотрудник может передать информацию о соискателе напрямую нанимающему менеджеру. Но так как команды нанимают стажеров в реальности в разное время в количествве 0-1 человека в год (в нынешних реалиях), то найти реферала именно в конкретную команду не так просто. Если получится, скорее всего вас позовут собеседоваться (опять же, если условия про первый вопрос соблюдены).
Обычно сотрудник реферит вас просто на стажировку. Вы попадаете в пул кандидатов. Если все хорошо, с вами начнут процесс. Вы укажете преференции по направлениям(NLP, CV, TTS, etc) в личном кабинете. Назначат скрин. Если скрин пройдет хорошо, то поставят mini loop с той командой, которая выбрала ваш профиль. Если все ок после интервью, то в течение 5 рабочих дней придет решение - оффер или отказ. Наблюдал такой пайплайн для стажировок на 6 месяцев, то есть формального team fit нет. Может быть так не всегда.
Есть несколько типов интервью вопросов:
* Leetcode
* ML Coding
* ML Breadth
* ML Depth
* ML Design
* Tech Talk
* Behavioural
Разберем их в части 2.
Продолжение читать тут: https://news.1rj.ru/str/max_dot_sh/68
#карьера #гайды
@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11🆒6👍3✍2😁1😱1😎1
Неожиданностей тут не будет - задачи уровня медиум с литкода. Гайдов в сети много. На мой взгляд самый рабочий - это купить литкод премиум на пару месяцев и отсортировать задачи по частоте по заданной компании за последние 1-2 месяца. Скорее всего вам выпадет в процессе 1-2 задачи из тех, что нарешаете из этого топа.
Писал про этот тип раунда тут. Могут попросить написать реализацию МЛ/DL алгоритма в упрощенном виде (kmeans кластеризация, градиентный спуск, backprop, реализовать self-attention, ...). Самая лучшая подготовка - это пройти по самым частым алгоритмам и убедиться, что есть понимание как их реализовывать.
Здесь нужно быть готовым, что будут задавать серию вопросов на фундаментальные ML/DL штуки. Вопросы зачастую на понимание и зазубрить очень сложно. Скорее нужно на достаточном уровне понимать суть и быть готовым порассуждать вокруг. Например, могут спросить что такое выпуклая функция, почему они важны в алгоритмах ML. Или что такое градиентный спуск и как можно использовать вторые производные в оптимизационных алгоритмах? Не нужно знать ответ на все вопросы, но ожидают, что вы сможете углубляться на 1-2 вопроса.
На мой взгляд best shot в условиях ограниченного времени - это прошерстить все ML вопросы на математику/статистику из Machine Learning Interviews Book
Здесь будут вопросы про домен, в котором вы разбираетесь. Обычно беседа строится вокруг вопроса: "расскажите про свой проект?" и дальше развивается в нескольих направлениях: 1) специфичные вопросы про проект (что за задача, какие были данные, какие методы применлись, как оценивались результаты), 2) теоретические вопросы (если применяли BERT, то рассказать, как он работает, в чем особенности, почему не RNN) 3) нетехнические вопросы (как приоритизировались эксперименты, какие были таймлайны, какая была ваша роль). То есть в итоге получается беседа, в которой смешана проверка книжных знаний (как устроен конкретный алгоритм) с вашими реальным опытом применения (как адаптировали алгоритм под вашу задачу и как работали в команде). Лучшая подготовка - хорошо прописать несколько ваших топовых проектов в деталях и сделать мок с коллегами/друзьями, чтобы нащупать слабые места повествования.
Тут ситуация от ML Depth отличается только тем, что вам будет дана задача и нужно будет свести ее к ML решению. Обсудить с интервьюером все ограничения, обговорить метрики, предложить, как можно адаптировать известные методы и как довести это до прода. Для прохождения нужно хорошо понимать типовую структуру таких интервью - много примеров разобрано в книге тут. С приходом AI лихорадки, интервью изменились и стало много ML дизайна именно вокруг LLM приложений. Есть свежая книга тут (сам пока еще не читал).
Только для PhD студентов и то не всегда. Презентация вашего рисерча на час для команды.
Подготовить истории по LP принципам. Отточить навык разговорного английского. То, насколько комфортно вас слушать - это очень большой сигнал для собеседующих.
60 минут, 1 лит код (обязательно) + небольшой ML breadth + 1 behavioural вопрос (обязательно).
Могут поставить дополнительный раунд с командой для PhD студентов, которая выбрала из пула. тут уже могут сфокусироваться на ml depth части.
Для MS:
* Первый раунд: Литкод / ML Coding + 1 behavioural.
* Второй раунд: ML Design / ML Breadth + 1 behavioural
Для PhD студентов:
* может быть дополнительный раунд про ML Breadth + 1 behavioural,
* совсем редко могут поставить Tech Talk, но скорее чтобы послушать вас с целью оценки навыков коммуникации
Как видно, бихейв вопросы есть всегда, они имеют очень большой вес
#карьера #гайды
Please open Telegram to view this post
VIEW IN TELEGRAM
✍13🔥11👍8❤2😁1🤡1🤝1🦄1
P.S На следующей неделе снова похолодает и добавятся дожди. Надеюсь, что не надолго.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18🔥8😍4👍2🤡1🗿1