Борис опять – Telegram
Борис опять
15.1K subscribers
1.43K photos
72 videos
30 files
1.47K links
life = curiosity + irreducible noise

Whois: https://news.1rj.ru/str/boris_again/3400

Лс: @btseytlin
Download Telegram
😁474🔥3
Men be like “I am not gay” but then “Wow I love TRANSformers” and “Look, this langugage model is so LARGE ohhh”
😁78🐳14👎11😈4👀2
Я наконец добрался до записей с Practical ML Conf от Яндекса и теперь вместо работы смотрю доклады.

Что мне особенно приглянулось:
* Доклад о внутренностях LLM в Яндексе и релиз YandexGPT-2. Вторая версия той LLM, которая уже нашла место в разных сервисах компании и с которой можно общаться через Алису по команде "давай придумаем”.
* Доклад про Giga Chat в SberDevices от Дани Эль-Айясса. Все соревнуются своими LLMками. Очень подробно про обучение, с деталями вплоть до learning rate на этапе инструктивного файнтюнинга и на RLHF.
* Доклад об использовании внешней информации в генеративных моделях. Здесь конечно про Retrieval Augmented Generation.
* Доклад Алексея Морозова о распределенном DL и zero-fault tolerance. Яндекс как всегда круче всех в безумной распределенной инфре.
* Доклад про Kandinsky и text-2-image в Сбере, от Дениса Дмитрова. Внутри не только про Kandinsky, но и популярно про DALLE-2 и StableDiffusion.
* Доклад про CV в Маркете. Про роботов-инвентаризаторов, что релевантно для меня. Крутые детали про выбор камер, деплой моделей и что получилось.

Весь плейлист здесь.

Узнал про конфу в канале Яндекса про ML.
33👍9
#работа

# Что ты продаешь?

По итогам собеседований множества кандидатов пытаюсь выделить часто повторяющиеся ошибки. Одна из банальных вещей: рассказ о себе.

На собеседованиях очень часто спрашивают “расскажите о своём опыте” и я тоже так делаю. Цель этого вопроса в том, чтобы узнать, что человек может предложить компании, и чем компания может ему помочь. Понятное дело, что человек предлагает свои способности писать софт, но нас интересует конкретика. Какой именно софт? С какой степенью автономности? В каких условиях? И так далее.

Приписка: лично я задаю этот вопрос, чтобы выделить один из проектов кандидата и распросить о нем подробнее. Но даже мне важно услышать, что же человек может предложить.

Таким образом рассказ о себе должен быть в меру продающим. Сейчас собеседуя аналитиков я часто слышу в ответ что-то вроде: “Я учился в таком-то университете, работал в компании Х и занимался там этим, потом в компании Y и занимался там вот этим, сейчас в Z делаю дашборды и ещё мне нравятся прогнозные ML модели.” Послушав это так и хочется спросить: так что ты предлагаешь? Иначе говоря: что ты мне продаешь? Ты умеешь делать дашборды и планируешь заниматься ими, или ты хочешь заниматься ML? Ты уже умеешь делать ML модели или ты хочешь научиться? Для тебя критичен ML или ты пойдешь работать туда, где его нет? Много вопросов, так мало ответов.

Я считаю, что рассказ о себе лучше делать в обратном хронологическом порядке и сразу говорить, что ты продаешь. Например, я бы строил его примерно так:
1. Я тимлид ML в Planet Farms, моя команда занимается компьютерным зрением и ML Engineering для фабрик. В текущей комании я построил ML инфраструктуру с нуля.
2. У меня богатый опыт software engineering, data engineering, а так же есть опыт в ML рисерче. Я и ML делаю, и пишу хороший код.
3. Я ищу <вставить почему я ищу работу, чем хочу заниматься и куда расти>
4. О чем вы хотите услышать подробнее?

Не в тему поста:
Для аналитиков и сочувствующих советую почитать то, что пишет в своем канале Тагир, Senior Data Analyst в Альфе, у него как раз пост про дурацкие вопросы на собеседованиях вышел.
👍526🔥5👎1
Подборка 75 вопросов по алгоритмам для попадания в FAANG (или уже MANGA? Я давно запутался)

https://www.teamblind.com/post/New-Year-Gift---Curated-List-of-Top-75-LeetCode-Questions-to-Save-Your-Time-OaM1orEU
28👀2
Forwarded from Telegram Contests
🏆 Telegram ML Competition

Prize fund: $40,000 – from which the 1st place winner will receive $15,000 if any submissions qualify for 1st place.
Deadline: 23:59 on October 15th (Dubai time)
Who can participate: Everyone
Results: October 29th, 2023

Telegram is hosting a competition for ML engineers to identify programming and markup languages in code snippets.

The Task: implement a library that detects the programming and markup language of code snippets from message text. You can use any publicly available data to train your solution.

Details: https://contest.com/docs/ML-Competition-2023.

@ContestBot will begin accepting submissions at a later date. We will further clarify the submission instructions closer to the deadline.
Please open Telegram to view this post
VIEW IN TELEGRAM
18
Клевый и бесплатный движ для студентов. Слово авторам:

неУниверситет — это социальный проект для студентов 18-23 лет, позволяющий получить уникальные знания, навыки и ресурсы для построения карьеры и жизни.

Не важно на кого ты учишься и где живешь, неУниверситет проводит бесплатные онлайн занятия по гуманитарным дисциплинам (психологии, философии, истории etc), профессиональным навыкам (аналитике, финансам, маркетингу etc) и критическому мышлению (аргументация, дискурс, принятие решений).

Программа неУниверситета длится 2 года, занятия проходят два раза в неделю в вечернее время. Набор на программу длится до 15 октября 2023 года, а следующий набор на программу стартует не раньше 2025 года.

неУниверситет — это сообщество, знания и карьера для таких как ты. Подать заявку и пройти отбор можно на сайте neuniversitet.ru или через бот @neUniBot 🤘
👎24🔥191
ChatGPT это инструмент для написания сопроводительных писем, change my mind

https://news.ycombinator.com/item?id=37761045
👍23😁2😈1
#обзор_статьи #ml

# Language Models Represent Space And Time, Gurnee and Tegmark

Наша любимая тема “LLM это статистические попугаи или все-таки нет.”

Tldr: авторы обнаруживают, что при тренировке на датасетах связанных с географией модели выучивают линейные представления пространства, а на датасетах про хронологию выучивают линейное представление времени.

Создают шесть датасетов содержащих названия мест или событий плюс координаты в пространстве и времени.

Используют замороженную Llama-2 на названиях мест и событий, далее обучают linear regression probes, то есть маленькие модели, которые принимают на вход активации трансформер блоков и предсказывают целевые переменные (место и время).

Как конкретно это работает
1. В каждом датасете прогоняем через модель названия сущностей (места или исторические личности), сохраняем последний вектор активаций каждого слоя. Т.к. это трансформер активации это набор векторов для каждого токена на входе, они берут только вектор соответствующий последнему токену. Получается матрица N x D_model для каждого слоя. Считайте простой табличный датасет.
2. Тренируем на этом табличном датасете линейную модель, где в качестве таргета берем время или географические координаты.

Обнаруживают:
* Визуализация 2D PCA преобразоания активаций дает картину очень похожую на карту мира (для датасета про весь мир).
* География и время очень хорошо предсказываются по активациям, с test R^2 близким к 1.0.
* Замена линейных пробов на нелинейные MLP не дает улучшений, поэтому делается вывод, что активации линейно связаны с географией и временем.
* Результаты сохраняются независимо от вариации промптов.
* Предполагают, что активации нейросети содержат информацию об относительном расположении объектов, а линейные пробы уже потом переводят это в абсолютные значения времени или координат. То есть внутри себя модель координат не содержит.
* Чем дальше слой от входа, тем больше информации активации содержат про время и пространство. Выходит на плато примерно в середине нейросети.
* Для более крупных моделей ошибка у линейных пробов меньше, то есть активации содержат больше информации про время и пространство.
* Есть отдельные нейроны, которые активируются в зависимости от времени или места.
25🔥14👍1👎1
9😁1
И зачем я читаю все эти интересные и практически бесполезные для практики ML инженера статьи? 🤔
😁46👍72
#работа #лабораторный_журнал

Многим могло показаться, что мы слишком жестко собеседуем аналитиков данных, да и вообще всех.

Так вот, только что общался с кандидатом, который прошел все этапы на пять.

1. Chad резюме, где присутствовали такие вещи как построение модели данных в DWH с нуля. Самое главное, что на собеседовании он мог подтвердить этот опыт.
2. Дружелюбная и структурированная коммуникация. Рассказ о себе начал с основной сути, а затем перешел к деталям. Явно адаптировал рассказ под наш запрос, значит внимательно прочитал описание вакансии.
3. Не сыпется при вопросах по опыту, может объяснить почему делал так, а не иначе.
4. Грамотно решает кейсы: задает вопросы, уточняет задание, предлагает решение, не останавливается на первом попавшемся решении и сравнивает несколько вариантов.
5. Решил SQL задачу, способен сделать self-join таблицы.
6. Сделал follow up после собеседования, сказал всем спасибо.

Наверняка попросит много денег!

Это уже второй такой кандидат. Поэтому мне кажется, что наш процесс выбран верно, а отсев не слишком жесткий.
👍699🔥6👎4
Forwarded from DLStories
Помните, рассказывала, как я в Кембридже на Хинтона ходила? Наконец выложили запись доклада, она вот. Доклад реально интересный с необычными мыслями, посмотреть рекомендую. Еще там очень интересная (я бы даже сказала, веселая) часть в конце с ответами на вопросы. Где-то даже слово "коммунизм" промелькнуло 🌝

А тут скажу еще вот что. В тех постах выше я рассказывала о той части этой лекции, которая касается опасности AGI. Но там была еще другая часть, первая. Касалась она аналогового железа и mortal computation. Эта идея вот про что (по крайней мере, как ее поняла я): смотрите, современные AI-модели не привязаны к конкретному железу (например, к одному компьютеру). Одну и ту же модель можно запустить на разных устройствах, и мы точно знаем, как эта модель устроена и работает. Можно сказать, что AI-модели "бессмертны": если даже сломать сервер, модельку можно будет перенести и запустить на другом серваке.

А что если отказаться от принципа бессмертия моделей? Что если подумать о том, чтобы создавать AI-агентов, которые были бы неотделимы от своего "железа"? Которые в процессе обучения могли бы учиться использовать свойства своего железа по-максимуму и даже подстраивать его под свои задачи?
Такой подход потенциально может дать два важных преимущества:
1. Модели подобного рода могли бы потреблять гораздо меньше энергии для работы. Например, возможно, мы могли бы использовать что-то типа аналоговых компьютеров;
2. Возможно, мы могли бы придумать, как "выращивать" железо с разными архитектурами и свойствами под решение определенных задач. Т.е. процесс обучения модели будет сводиться не просто к подбору численных значений фиксированных параметров, но и к подбору самой архитектуры.

Но тут возникает проблема: алгоритм обучения моделей backpropagation для такого не подойдет. Причины такие:
1. Он очень энергозатратный;
2. Для backpropagation нужно знать точное устройство модели и вид ее forward pass. А если мы добиваемся пункта два выше (учимся выращивать железо), то точный вид функции, которую будет выражать модель, нам будет неизвестен.

Короче, есть мотивация подумать о других способах обучения моделей. Которые подошли бы и "смертным" моделям. А дополнительной мотивацией еще может служить то, что человеческий мозг, по всей видимости, ничего похожего на backprop не делает. То есть, точно можно придумать что-то еще и для AI.

Так вот. Первая часть Кембриджской лекции была как раз про эту идею отказа от "бессмертия" моделей. А конкретнее, переходы в лекции были такими:
- описание идеи "смертных" моделей;
- идея, как можно такие модели учить без backprop;
- а что если у нас есть куча "смертных" моделей: как заставить их взаимодействовать и делиться знаниями друг с другом?
- дистилляция — хороший способ делиться знаниями с моделью, но в современных моделях (включая LLM) она сейчас используется неэффективно;
- что если куча LLM-like моделей получали бы знания из реального мира, а не из интернета, и делились ими друг с другом;
- How AI can take control и далее то, о чем я писала в прошлых постах.

Вот так вот от идеи аналоговых компов мы пришли к "AI захватит мир🙃"

Напоследок снова скажу: посмотреть лекцию советую. Это может хорошо помочь посмотреть на привычный AI с немного другой стороны. После этого точно появляется, над чем подумать.

📽Ссылка на лекцию
11👍5
😁535
👍20🤔124😁3👏1
Вопрос на синьора в компьютер вижне
😁158🔥9👍1👀1