Клевый и бесплатный движ для студентов. Слово авторам:
неУниверситет — это социальный проект для студентов 18-23 лет, позволяющий получить уникальные знания, навыки и ресурсы для построения карьеры и жизни.
Не важно на кого ты учишься и где живешь, неУниверситет проводит бесплатные онлайн занятия по гуманитарным дисциплинам (психологии, философии, истории etc), профессиональным навыкам (аналитике, финансам, маркетингу etc) и критическому мышлению (аргументация, дискурс, принятие решений).
Программа неУниверситета длится 2 года, занятия проходят два раза в неделю в вечернее время. Набор на программу длится до 15 октября 2023 года, а следующий набор на программу стартует не раньше 2025 года.
неУниверситет — это сообщество, знания и карьера для таких как ты. Подать заявку и пройти отбор можно на сайте neuniversitet.ru или через бот @neUniBot 🤘
неУниверситет — это социальный проект для студентов 18-23 лет, позволяющий получить уникальные знания, навыки и ресурсы для построения карьеры и жизни.
Не важно на кого ты учишься и где живешь, неУниверситет проводит бесплатные онлайн занятия по гуманитарным дисциплинам (психологии, философии, истории etc), профессиональным навыкам (аналитике, финансам, маркетингу etc) и критическому мышлению (аргументация, дискурс, принятие решений).
Программа неУниверситета длится 2 года, занятия проходят два раза в неделю в вечернее время. Набор на программу длится до 15 октября 2023 года, а следующий набор на программу стартует не раньше 2025 года.
неУниверситет — это сообщество, знания и карьера для таких как ты. Подать заявку и пройти отбор можно на сайте neuniversitet.ru или через бот @neUniBot 🤘
👎24🔥19❤1
ChatGPT это инструмент для написания сопроводительных писем, change my mind
https://news.ycombinator.com/item?id=37761045
https://news.ycombinator.com/item?id=37761045
👍23😁2😈1
#обзор_статьи #ml
# Language Models Represent Space And Time, Gurnee and Tegmark
Наша любимая тема “LLM это статистические попугаи или все-таки нет.”
Tldr: авторы обнаруживают, что при тренировке на датасетах связанных с географией модели выучивают линейные представления пространства, а на датасетах про хронологию выучивают линейное представление времени.
Создают шесть датасетов содержащих названия мест или событий плюс координаты в пространстве и времени.
Используют замороженную Llama-2 на названиях мест и событий, далее обучают linear regression probes, то есть маленькие модели, которые принимают на вход активации трансформер блоков и предсказывают целевые переменные (место и время).
Как конкретно это работает
1. В каждом датасете прогоняем через модель названия сущностей (места или исторические личности), сохраняем последний вектор активаций каждого слоя. Т.к. это трансформер активации это набор векторов для каждого токена на входе, они берут только вектор соответствующий последнему токену. Получается матрица N x D_model для каждого слоя. Считайте простой табличный датасет.
2. Тренируем на этом табличном датасете линейную модель, где в качестве таргета берем время или географические координаты.
Обнаруживают:
* Визуализация 2D PCA преобразоания активаций дает картину очень похожую на карту мира (для датасета про весь мир).
* География и время очень хорошо предсказываются по активациям, с test R^2 близким к 1.0.
* Замена линейных пробов на нелинейные MLP не дает улучшений, поэтому делается вывод, что активации линейно связаны с географией и временем.
* Результаты сохраняются независимо от вариации промптов.
* Предполагают, что активации нейросети содержат информацию об относительном расположении объектов, а линейные пробы уже потом переводят это в абсолютные значения времени или координат. То есть внутри себя модель координат не содержит.
* Чем дальше слой от входа, тем больше информации активации содержат про время и пространство. Выходит на плато примерно в середине нейросети.
* Для более крупных моделей ошибка у линейных пробов меньше, то есть активации содержат больше информации про время и пространство.
* Есть отдельные нейроны, которые активируются в зависимости от времени или места.
# Language Models Represent Space And Time, Gurnee and Tegmark
Наша любимая тема “LLM это статистические попугаи или все-таки нет.”
Tldr: авторы обнаруживают, что при тренировке на датасетах связанных с географией модели выучивают линейные представления пространства, а на датасетах про хронологию выучивают линейное представление времени.
Создают шесть датасетов содержащих названия мест или событий плюс координаты в пространстве и времени.
Используют замороженную Llama-2 на названиях мест и событий, далее обучают linear regression probes, то есть маленькие модели, которые принимают на вход активации трансформер блоков и предсказывают целевые переменные (место и время).
Как конкретно это работает
1. В каждом датасете прогоняем через модель названия сущностей (места или исторические личности), сохраняем последний вектор активаций каждого слоя. Т.к. это трансформер активации это набор векторов для каждого токена на входе, они берут только вектор соответствующий последнему токену. Получается матрица N x D_model для каждого слоя. Считайте простой табличный датасет.
2. Тренируем на этом табличном датасете линейную модель, где в качестве таргета берем время или географические координаты.
Обнаруживают:
* Визуализация 2D PCA преобразоания активаций дает картину очень похожую на карту мира (для датасета про весь мир).
* География и время очень хорошо предсказываются по активациям, с test R^2 близким к 1.0.
* Замена линейных пробов на нелинейные MLP не дает улучшений, поэтому делается вывод, что активации линейно связаны с географией и временем.
* Результаты сохраняются независимо от вариации промптов.
* Предполагают, что активации нейросети содержат информацию об относительном расположении объектов, а линейные пробы уже потом переводят это в абсолютные значения времени или координат. То есть внутри себя модель координат не содержит.
* Чем дальше слой от входа, тем больше информации активации содержат про время и пространство. Выходит на плато примерно в середине нейросети.
* Для более крупных моделей ошибка у линейных пробов меньше, то есть активации содержат больше информации про время и пространство.
* Есть отдельные нейроны, которые активируются в зависимости от времени или места.
❤25🔥14👍1👎1
И зачем я читаю все эти интересные и практически бесполезные для практики ML инженера статьи? 🤔
😁46👍7❤2
#работа #лабораторный_журнал
Многим могло показаться, что мы слишком жестко собеседуем аналитиков данных, да и вообще всех.
Так вот, только что общался с кандидатом, который прошел все этапы на пять.
1. Chad резюме, где присутствовали такие вещи как построение модели данных в DWH с нуля. Самое главное, что на собеседовании он мог подтвердить этот опыт.
2. Дружелюбная и структурированная коммуникация. Рассказ о себе начал с основной сути, а затем перешел к деталям. Явно адаптировал рассказ под наш запрос, значит внимательно прочитал описание вакансии.
3. Не сыпется при вопросах по опыту, может объяснить почему делал так, а не иначе.
4. Грамотно решает кейсы: задает вопросы, уточняет задание, предлагает решение, не останавливается на первом попавшемся решении и сравнивает несколько вариантов.
5. Решил SQL задачу, способен сделать self-join таблицы.
6. Сделал follow up после собеседования, сказал всем спасибо.
Наверняка попросит много денег!
Это уже второй такой кандидат. Поэтому мне кажется, что наш процесс выбран верно, а отсев не слишком жесткий.
Многим могло показаться, что мы слишком жестко собеседуем аналитиков данных, да и вообще всех.
Так вот, только что общался с кандидатом, который прошел все этапы на пять.
1. Chad резюме, где присутствовали такие вещи как построение модели данных в DWH с нуля. Самое главное, что на собеседовании он мог подтвердить этот опыт.
2. Дружелюбная и структурированная коммуникация. Рассказ о себе начал с основной сути, а затем перешел к деталям. Явно адаптировал рассказ под наш запрос, значит внимательно прочитал описание вакансии.
3. Не сыпется при вопросах по опыту, может объяснить почему делал так, а не иначе.
4. Грамотно решает кейсы: задает вопросы, уточняет задание, предлагает решение, не останавливается на первом попавшемся решении и сравнивает несколько вариантов.
5. Решил SQL задачу, способен сделать self-join таблицы.
6. Сделал follow up после собеседования, сказал всем спасибо.
Наверняка попросит много денег!
Это уже второй такой кандидат. Поэтому мне кажется, что наш процесс выбран верно, а отсев не слишком жесткий.
👍69❤9🔥6👎4
Forwarded from DLStories
Помните, рассказывала, как я в Кембридже на Хинтона ходила? Наконец выложили запись доклада, она вот. Доклад реально интересный с необычными мыслями, посмотреть рекомендую. Еще там очень интересная (я бы даже сказала, веселая) часть в конце с ответами на вопросы. Где-то даже слово "коммунизм" промелькнуло 🌝
А тут скажу еще вот что. В тех постах выше я рассказывала о той части этой лекции, которая касается опасности AGI. Но там была еще другая часть, первая. Касалась она аналогового железа и mortal computation. Эта идея вот про что (по крайней мере, как ее поняла я): смотрите, современные AI-модели не привязаны к конкретному железу (например, к одному компьютеру). Одну и ту же модель можно запустить на разных устройствах, и мы точно знаем, как эта модель устроена и работает. Можно сказать, что AI-модели "бессмертны": если даже сломать сервер, модельку можно будет перенести и запустить на другом серваке.
А что если отказаться от принципа бессмертия моделей? Что если подумать о том, чтобы создавать AI-агентов, которые были бы неотделимы от своего "железа"? Которые в процессе обучения могли бы учиться использовать свойства своего железа по-максимуму и даже подстраивать его под свои задачи?
Такой подход потенциально может дать два важных преимущества:
1. Модели подобного рода могли бы потреблять гораздо меньше энергии для работы. Например, возможно, мы могли бы использовать что-то типа аналоговых компьютеров;
2. Возможно, мы могли бы придумать, как "выращивать" железо с разными архитектурами и свойствами под решение определенных задач. Т.е. процесс обучения модели будет сводиться не просто к подбору численных значений фиксированных параметров, но и к подбору самой архитектуры.
Но тут возникает проблема: алгоритм обучения моделей backpropagation для такого не подойдет. Причины такие:
1. Он очень энергозатратный;
2. Для backpropagation нужно знать точное устройство модели и вид ее forward pass. А если мы добиваемся пункта два выше (учимся выращивать железо), то точный вид функции, которую будет выражать модель, нам будет неизвестен.
Короче, есть мотивация подумать о других способах обучения моделей. Которые подошли бы и "смертным" моделям. А дополнительной мотивацией еще может служить то, что человеческий мозг, по всей видимости, ничего похожего на backprop не делает. То есть, точно можно придумать что-то еще и для AI.
Так вот. Первая часть Кембриджской лекции была как раз про эту идею отказа от "бессмертия" моделей. А конкретнее, переходы в лекции были такими:
- описание идеи "смертных" моделей;
- идея, как можно такие модели учить без backprop;
- а что если у нас есть куча "смертных" моделей: как заставить их взаимодействовать и делиться знаниями друг с другом?
- дистилляция — хороший способ делиться знаниями с моделью, но в современных моделях (включая LLM) она сейчас используется неэффективно;
- что если куча LLM-like моделей получали бы знания из реального мира, а не из интернета, и делились ими друг с другом;
- How AI can take control и далее то, о чем я писала в прошлых постах.
Вот так вот от идеи аналоговых компов мы пришли к "AI захватит мир🙃"
Напоследок снова скажу: посмотреть лекцию советую. Это может хорошо помочь посмотреть на привычный AI с немного другой стороны. После этого точно появляется, над чем подумать.
📽Ссылка на лекцию
А тут скажу еще вот что. В тех постах выше я рассказывала о той части этой лекции, которая касается опасности AGI. Но там была еще другая часть, первая. Касалась она аналогового железа и mortal computation. Эта идея вот про что (по крайней мере, как ее поняла я): смотрите, современные AI-модели не привязаны к конкретному железу (например, к одному компьютеру). Одну и ту же модель можно запустить на разных устройствах, и мы точно знаем, как эта модель устроена и работает. Можно сказать, что AI-модели "бессмертны": если даже сломать сервер, модельку можно будет перенести и запустить на другом серваке.
А что если отказаться от принципа бессмертия моделей? Что если подумать о том, чтобы создавать AI-агентов, которые были бы неотделимы от своего "железа"? Которые в процессе обучения могли бы учиться использовать свойства своего железа по-максимуму и даже подстраивать его под свои задачи?
Такой подход потенциально может дать два важных преимущества:
1. Модели подобного рода могли бы потреблять гораздо меньше энергии для работы. Например, возможно, мы могли бы использовать что-то типа аналоговых компьютеров;
2. Возможно, мы могли бы придумать, как "выращивать" железо с разными архитектурами и свойствами под решение определенных задач. Т.е. процесс обучения модели будет сводиться не просто к подбору численных значений фиксированных параметров, но и к подбору самой архитектуры.
Но тут возникает проблема: алгоритм обучения моделей backpropagation для такого не подойдет. Причины такие:
1. Он очень энергозатратный;
2. Для backpropagation нужно знать точное устройство модели и вид ее forward pass. А если мы добиваемся пункта два выше (учимся выращивать железо), то точный вид функции, которую будет выражать модель, нам будет неизвестен.
Короче, есть мотивация подумать о других способах обучения моделей. Которые подошли бы и "смертным" моделям. А дополнительной мотивацией еще может служить то, что человеческий мозг, по всей видимости, ничего похожего на backprop не делает. То есть, точно можно придумать что-то еще и для AI.
Так вот. Первая часть Кембриджской лекции была как раз про эту идею отказа от "бессмертия" моделей. А конкретнее, переходы в лекции были такими:
- описание идеи "смертных" моделей;
- идея, как можно такие модели учить без backprop;
- а что если у нас есть куча "смертных" моделей: как заставить их взаимодействовать и делиться знаниями друг с другом?
- дистилляция — хороший способ делиться знаниями с моделью, но в современных моделях (включая LLM) она сейчас используется неэффективно;
- что если куча LLM-like моделей получали бы знания из реального мира, а не из интернета, и делились ими друг с другом;
- How AI can take control и далее то, о чем я писала в прошлых постах.
Вот так вот от идеи аналоговых компов мы пришли к "AI захватит мир🙃"
Напоследок снова скажу: посмотреть лекцию советую. Это может хорошо помочь посмотреть на привычный AI с немного другой стороны. После этого точно появляется, над чем подумать.
📽Ссылка на лекцию
❤11👍5
Популярные курсы в ML
Anonymous Poll
6%
Я проходил Симулятор ML и оно того стоило
1%
Я проходил Симулятор ML и оно того не стоило
1%
Я проходил Hard ML и оно того стоило
2%
Я проходил Hard ML и оно того не стоило
91%
Результаты
😁34🤔5🔥2❤1😈1
Я уже достаточно долго занимаюсь вокалом с преподавателем.
Наблюдение: получается сильно лучше если я перед упражнением мысленно говорю себе “у меня получится.” Прям лайфхак какой-то. А/B тестом конечно не замерял, но субьективно эффект очень явно ощущается.
Наблюдение: получается сильно лучше если я перед упражнением мысленно говорю себе “у меня получится.” Прям лайфхак какой-то. А/B тестом конечно не замерял, но субьективно эффект очень явно ощущается.
😁54❤15👏14
#работа
# Как собеседовать инженеров
Сейчас я расскажу как построить найм инженеров от налача и до конца на основе своего многолетнего опыта. Многим он может показаться слишком суровым. Но к сожалению не вы изобрели правила этой игры. Какой рынок труда, такой и процесс.
Для начала надо поставить в вакансии зарплату примерно вдвое выше рынка. Например, 400 000 руб. для среднего разработчика. Не пугайтесь, это все часть стратегии.
Это обеспечит вам непрекращающийся поток кандидатов. Бонус: все они будут смелыми, потому что всех "наверное я не потяну" вы уже отсеяли. Это как быть самой красивой девушкой на вечеринке.
Далее зовем кандидатов на собеседование. Но ни в коем случае не по одному, а группами по 5 - 10 человек. В HR это называется Batch Processing. Этим вы экономите себе время, проверяете людей на способность к общению в коллективе и задаете соревновательный дух.
Поведенческий отсев это первый этап собеседования. Лучший выбор: игра с музыкой и стульями. Сразу отсеиваем кандидатов, которые отказываются играть: они и на работе будут ныть "ой, я фронтенд делать не нанимался" и все в таком духе. Играем до победителя и в конце его отсеиваем: слишком склонен к конкуренции, наверняка подсидит вас.
Технический отбор. Разыгрываем по модели телешоу: всем участникам задается технический вопрос, первый поднявший руку отвечает. Ответил правильно: плюс балл. Не ответил: минус. В конце отсеиваем нижнюю половину по баллам.
Наконец, переговоры о зарплатах. Устраиваем аукцион второй цены. Например, начинаем торги с 400 тыс. рублей. Кандидаты предлагают цифры меньше, если готовы работать за такую зарплату. После победы выгоняем победителя, все равно он терпила, и нанимаем человека с предпоследним предложением. Теория игр работает на вас!
Если вы все провернули верно стоимость должна была упасть сильно ниже рынка.
#щитпостинг
# Как собеседовать инженеров
Сейчас я расскажу как построить найм инженеров от налача и до конца на основе своего многолетнего опыта. Многим он может показаться слишком суровым. Но к сожалению не вы изобрели правила этой игры. Какой рынок труда, такой и процесс.
Для начала надо поставить в вакансии зарплату примерно вдвое выше рынка. Например, 400 000 руб. для среднего разработчика. Не пугайтесь, это все часть стратегии.
Это обеспечит вам непрекращающийся поток кандидатов. Бонус: все они будут смелыми, потому что всех "наверное я не потяну" вы уже отсеяли. Это как быть самой красивой девушкой на вечеринке.
Далее зовем кандидатов на собеседование. Но ни в коем случае не по одному, а группами по 5 - 10 человек. В HR это называется Batch Processing. Этим вы экономите себе время, проверяете людей на способность к общению в коллективе и задаете соревновательный дух.
Поведенческий отсев это первый этап собеседования. Лучший выбор: игра с музыкой и стульями. Сразу отсеиваем кандидатов, которые отказываются играть: они и на работе будут ныть "ой, я фронтенд делать не нанимался" и все в таком духе. Играем до победителя и в конце его отсеиваем: слишком склонен к конкуренции, наверняка подсидит вас.
Технический отбор. Разыгрываем по модели телешоу: всем участникам задается технический вопрос, первый поднявший руку отвечает. Ответил правильно: плюс балл. Не ответил: минус. В конце отсеиваем нижнюю половину по баллам.
Наконец, переговоры о зарплатах. Устраиваем аукцион второй цены. Например, начинаем торги с 400 тыс. рублей. Кандидаты предлагают цифры меньше, если готовы работать за такую зарплату. После победы выгоняем победителя, все равно он терпила, и нанимаем человека с предпоследним предложением. Теория игр работает на вас!
Если вы все провернули верно стоимость должна была упасть сильно ниже рынка.
#щитпостинг
😁194👎43🔥14❤11👏4😱3🐳2👍1😢1