Плюшевый Питон – Telegram
Плюшевый Питон
712 subscribers
32 photos
1 video
2 files
43 links
Уютный техноблог про Python, саморазвитие и искусственный интеллект. От техлида LLM из команды YandexGPT (ex GigaChat, ex MTS AI) с 12-летним опытом в NLP.

Рекламу не размещаю. По всем остальным вопросам пишите на @AlexeyMalafeev
Download Telegram
Мой любимый способ борьбы с синдромом самозванца
#soft_skills

Как известно, синдром самозванца - довольно распространённая проблема. Даже матёрые специалисты нередко от этого страдают. Есть, конечно, тиражируемый совет "fake it until you make it": просто не показывай, что ты чего-то не знаешь, притворяйся уверенным в себе, а настоящая уверенность якобы придёт со временем. Лично мне такие манипулятивные подходы совсем не по душе. Думаю, ни к чему хорошему такие игры не приводят.

Мне больше нравится такой способ. Когда накатывает чувство неуверенности и сомнения в себе, нужно сказать себе следующее:

1. Я знаю, что у меня пока не получается <задача_А> и есть пробелы в <навык_Б>.
2. Однако я уже неплохо умею <навык_В>, <навык_Г> и <навык_Д>, а также справляюсь с <задача_Е> и <задача_Ж>.
3. Я готов учиться решать <задача_А> и знаю, что нужно сделать, чтобы лучше освоить <навык_Б>

То есть:

1) честное признание своих текущих ограничений,
2) опора на свои сильные стороны и уже сделанный прогресс,
3) целеполагание.

Правда работает.

И ещё, не нужно сравнивать себя с другими - если уж хочется сравнивать, то лучше с собой же год назад.
Проклятие правил (часть 1/2)
#ml

Когда имеет смысл для решения бизнес-задачи применять машинное обучение, а когда это того не стоит? С одной стороны, если задача не очень сложная, то быстрый результат можно получить и без ML, построив систему на правилах (эвристиках). Для этого нужно иметь некоторую экспертизу в решаемой задаче и уметь описывать логику принятия решения на формальном языке, будь то Python, регулярные выражения или что-то ещё.

Пример из личного опыта. Когда-то давно я работал преподавателем английского. Однажды мне захотелось заменить скучные языковые упражнения из учебника на более интересные. Я подумал, что дело не в самом формате упражнений - вставить пропущенные слова, выбрать правильную форму глагола, подходящуе по смыслу и т.д. - а в их содержании. Например, вместо текстов про банальных Джона и Мэри можно было бы взять более интересные студентам темы: музыку, спорт, Гарри Поттера и т.д. Но составлять упражнения вручную не хотелось. Зная Питон, я за несколько вечеров написал прототип автоматического генератора упражнений на основе любых текстов на английском. Программа ранжировала тексты по сложности на основе количественных показателей (средняя длина предложений и слов, средняя частота слов), затем выбирала в текстах интересные слова и контексты для создания пропусков, после чего форматировала тексты в виде упражнений. В первой версии программа поддерживала всего три вида упражнений, но её уже можно было использовать в учебном процессе. Получив первые результаты, я стал постепенно улучшать генератор: добавлял новые виды упражнений и совершенствовал алгоритм оценки сложности текстов. Всё это безобразие работало довольно хорошо без какого-либо машинного обучения, только на правилах. (Кстати, это был мой первый серьёзный проект в natural language processing, хоть и некоммерческий, т.к. программа распространялась бесплатно. Зато я сделал по нему несколько научных публикаций в 2014-2015 гг.)

Однако, как известно, есть много сложных задач, решение которых практически невозможно автоматизировать на достойном уровне качества без использования машинного обучения: машинный перевод, генерация изображений по текстовому запросу, распознавание речи и т.д. Странно было бы пытаться решать подобные задачи с помощью правил, написанных экспертами вручную (хотя такое порой пытались провернуть на ранних этапах развития искусственного интеллекта). А что нужно для машинного обучения? Хороший набор обучающих данных: чем он чище и полнее, тем лучше на нём обучится алгоритм. Для действительно сложных задач, которые решаются большими нейросетевыми моделями, конечно, нужно ещё обеспечить достаточные вычислительные ресурсы, но об этом мы поговорим как-нибудь в другой раз.
Проклятие правил (часть 2/2)
#ml

Так значит, всё просто? Для сложных задач размечаем датасет и используем машобуч, а для относительно простых - придумываем хорошие эвристики? Проблема в том, что во многих компаниях неверно оценивают сложность задачи и начинают решать её системой правил, думая, что это "дёшево и сердито" и что так будет всегда. Поначалу всё выглядит неплохо: правила позволяют быстро получить какой-то приемлемый результат, а для дальнейшего улучшения системы, как кажется, нужно всего лишь учесть в правилах все возникающие исключения. Но это очень большое "всего лишь". Проклятие правил в том, что чем сложнее становится система, тем труднее и дороже её становится поддерживать. Штат экспертов, пишущих правила, постоянно растёт, как растёт и время, необходимое для обучения новых сотрудников (чем больше система правил, тем дольше в ней приходится разбираться даже опытному человеку). А допускать ошибки в таких системах становится всё легче. При этом у руководства компании может возникнуть ощущение, что раз в эту систему уже вбухали столько ресурсов, то нужно её развивать и дальше, а не отказываться от неё в пользу чего-то другого (например, машинного обучения). А тут на рынке появляется новый стартап, который с самого начала решал эту задачу как задачу машинного обучения. И вот он уже обходит компанию, которая за несколько лет на рынке вложила в свой продукт огромные ресурсы.

В качестве наглядной иллюстрации приведу ещё один пример из опыта. В одной из компаний, где я раньше работал, был матёрый программист, который в течение года разрабатывал систему правил для извлечения именованных сущностей (имён людей, географических локаций, названий компаний и т.п.) из текстов. Он работал над этой системой год. В ней была сложная логика, написанная на Джаве, использовались разные хитрые словари и списки исключений, а запуск полного цикла тестов занимал целую ночь. В конце концов автору системы и его начальству стало очевидно, что уровень качества распознавания всё ещё недостаточно высок, все исключения учесть невозможно, а любое изменение в раздувшейся до невозможности системе вызывает больше новых ошибок, чем исправляет старых. В результате компании всё равно пришлось переходить на ML, но уже было впустую потрачено слишком много времени и ресурсов.

Такие вот дела. Вывод: используйте правила для несложных задач, но используйте их с умом и помните, что иногда они становятся проклятием.
Как мотивировать себя? Три ошибки
#soft_skills

Меня просили написать о мотивации. Это вообще одна из самых важных тем. Откуда брать силы на изучение новых технологий и саморазвитие? Что помогает, а что мешает нашей мотивации? Как поддерживать себя, когда хочется сдаться и всё бросить?

TLDR:
1. Мотивация - не причина, а следствие
2. Фокус на процессе (приложении усилий), а не на результате
3. Подбадривание себя, а не самокритика

Есть несколько ошибок, которые легко допустить. Первая из них - думать, что мотивация является причиной, а не следствием. Тот, кто так думает, откладывает своё развитие на потом, "когда будет подходящее настроение". Этот момент может и не наступить. Мотивация - результат осознанных усилий с чётким пониманием цели. Преодолеть себя, победить сиюминутную лень, сделать что-то полезное для своего развития - и тогда получить в награду мотивацию. В это, может быть, трудно поверить, но если понаблюдаете за собой, то увидите, что самая сильная и "долгоиграющая" мотивация бывает не перед началом работы, когда ещё ничего не сделано, а после того, как сделали несколько шагов к цели, получили хотя бы какие-то результаты.

Но при этом зацикливаться на результате тоже неправильно, это вторая ошибка. Выучить Питон, поменять карьеру, взяться за трудный проект - звучит страшно и даже невозможно, но если идти к цели постепенно и думать только о непосредственном следующем шаге, то всё обычно получается. Мы движемся вперёд тогда, когда делаем следующий шаг, а не тогда, когда уже дошли. Мне очень сильно помогает измерять свой прогресс не достижениями, а количеством вложенного времени. Парадоксально? Но что зависит от меня напрямую - приложить усилия или получить результат? Только первое. А потраченное время - это хорошая метрика для оценки приложенных усилий. Результат же почти всегда зависит не только от меня, но и от других участников процесса, от обстоятельств, от сложности задачи и так далее.

С этим связана третья ошибка - ругать себя за неудачи. Порой мы для себя бываем самыми жестокими и беспощадными критиками. Это здорово замедляет развитие. Ругать себя - значит лишать себя воли и мотивации. Кстати, доказано экспериментально. Негатива в жизни и так хватает, лучше поддерживать и подбадривать себя, хвалить себя (да, даже так) за прилагаемые усилия и время, вложенное в саморазвитие. Это правда эффективно, как бы наивно ни звучало. Помогает получать положительные эмоции в процессе работы над собой и над трудными задачами. Для хорошей мотивации нужны положительные подкрепления, так устроен мозг. Ежедневные маленькие победы над собой, своей ленью, страхами, заблуждениями приводят к тому, что высокая мотивация превращается в полезную привычку.
Здесь тоже проанонсирую: в воскресенье буду рассказывать про трансформеры и ChatGPT на очередной встрече нижегородского сообщества ODS. Если хотите, приходите послушать!

Тема: От классического трансформера к ChatGPT
Время: 19 февраля 18:00
Формат: Zoom (https://us02web.zoom.us/j/86771868132)

Трансформеры - это наиболее актуальная на сегодняшний день нейросетевая архитектура для решения различных задач автоматической обработки естественного языка (natural language processing). Именно трансформеры лежат в основе таких нашумевших моделей как GPT-3 и ChatGPT. Предлагаю поговорить о том, как работают трансформеры в NLP и каким образом они справляются с самыми разнообразными задачами, такими как машинный перевод, автоматическое реферирование, анализ тональности и ведение свободного диалога с человеком на естественном языке.

В лекции начнём с рефрешера о трансформерах, затем расскажу о том, как исследователям и инженерам из OpenAI удалось обучить ChatGPT. Поговорим о том, оправдан ли весь хайп вокруг этой модели. Также оставлю время на вопросы и свободную дискуссию. Надеюсь, что лекция будет интересна как начинающим, так и практикующим специалистам в NLP.
Пару недель тут не постил, время было немного суматошное по работе и не только. Но вот исправляюсь)

Решил поделиться слайдами со своего выступления про трансформеры и ChatGPT (подробнее о содержании в предыдущем посте). Доклад вызвал большой интерес, а после была ещё классная дискуссия с коллегами на целых полтора часа. Если пропустили само мероприятие, можете посмотреть слайды. Думаю, будет полезно и познавательно, особенно тем, кто пока не очень в теме. (А ещё там есть шутки и мотивационные цитаты от ChatGPT)
#ml
Что мешает нам учиться или тайна исчезающей мотивации
#soft_skills

Задавались ли вы когда-нибудь вопросом, почему не получается сохранить мотивацию надолго? Например, человек вдруг захотел научиться играть на гитаре, купил себе инструмент, с восторгом и энтузиазмом начал заниматься, вот уже первые успехи - получилось сыграть бой "шестёрку", взять аккорд G - ещё больше мотивации, но... Подкрались и первые трудности, пальцы болят, упражнения делать лень, первоначальный запал куда-то подевался, и человек бросает то, что могло бы стать классным хобби на всю жизнь.

Наверное, у каждого есть подобный неудачный опыт, когда не получилось научиться чему-то интересному и сложному, хотя вроде бы сначала очень хотелось. Я думаю, что на 90% причиной подобных неудач являются неправильные представления и завышенные ожидания. Мы представляем себе процесс обучения как размеренный подъём по ступенькам лестницы. Нам кажется, что прогресс должен быть постоянным и заметным, что мотивация должна всегда нас сопровождать на этом пути. Если реальность отличается от ожиданий, велик соблазн подумать: "Проблема во мне. У меня нет способностей. Это просто не моё." и всё бросить.

Однако на самом деле обучение устроено иначе. Оно неравномерно. За маленькими победами следуют довольно долгие периоды "плато", когда кажется, что никакого прогресса нет, несмотря на все вложенные усилия. Могут быть и спады, особенно если сделали большой перерыв или взялись за непосильно сложную задачу или упражнение. Это совершенно нормально, путь изучения чего-то сложного ожидаемо труден и тернист. Если это осознать и принять, то становится легче проявлять терпение, не сдаваться, двигаться дальше. Особенно если также взять на вооружение три совета из моего предыдущего поста про мотивацию.

Ещё здесь мне хочется упомянуть три типа людей, у которых не получается достичь высокого уровня владения чем-либо сложным, будь то программирование, иностранный язык или игра на музыкальном инструменте. Я узнал об этих типажах из книги Джорджа Леонарда "Mastery". Знакомы ли они вам?

1. "Вечный неофит" (the Dabbler). Обожает начинать что-то новое, рассказывает о новом увлечении всем друзьям и знакомым, ловит кайф от первых успехов. Как только наступает плато, мгновенно теряет интерес и переключается на что-то другое.

2. "Одержимый" (the Obsessive). Всё ради результата. Бешеная мотивация, работа по 16 часов в сутки, любая неудача - это слабость, я не неудачник, я должен быть лучшим, мне нужен только быстрый прогресс... Выгорание и разочарование в себе.

3. "Хакер" (the Hacker). У них неплохо получается овладеть самыми азами, но дальше им становится лень. Нет желания развиваться и углублять знания. Не реализуют свой потенциал, потому что не берутся за дело всерьёз.

Каждый из нас может увидеть в себе черты, присущие одному или нескольким из этих типов. Важно вовремя это заметить и осознать, что подобные паттерны поведения - путь в никуда.

В заключение - успехов вам и не сдавайтесь!
Узнал от коллеги, что вышел опенсорсный "аналог" ChatGPT. Он простоват, конечно, по сравнению с творением OpenAI, но создатели говорят, что будут его развивать. Он понимает и по-русски, но на вопросы на английском умнее отвечает. См. скриншоты)
Поболтать с ним можно здесь:
https://huggingface.co/spaces/togethercomputer/OpenChatKit
Как правильно оценивать чатбота-"болталку"?
#ml

На работе мы делаем, в числе прочего, чатбота, который должен уметь поддержать разговор с пользователем на любую (приличную) тему, да так, чтобы непотребного чего-нибудь не ляпнул. С подобными чатботами есть известная проблема - автоматически оценить их качество не очень получается, нужна экспертная - то есть человеческая - оценка. А как её делать эффективно и результативно?

Первое соображение - "болталку" нужно оценивать по достаточно большому количеству примеров. Ещё хорошо, если ответы нашего бота будут случайно перемешаны с ответами других ботов и даже людей. Мы при обучении новой модели отдаём на оценку качества около полутора тысяч её ответов в разных контекстах (причём контексты разной длины). Ну, а чтобы не слишком уж полагаться на отдельно взятого эксперта - мало ли, не с той ноги сегодня встал(а), - делаем оценку с перекрытием. Каждый ответ модели оценивают три эксперта, независимо друг от друга.

Оценка тоже не самая простая. Чем чётче обозначены критерии, тем легче будет работа разметчиков, а значит, тем надёжнее результаты. Есть разные методики оценки, в их числе sensibleness and specificity average (SSA), которую разработали исследователи из Google. Она довольно проста и эффективна: оценивают разумность и специфичность ответов бота. Вот тут можно подробнее прочитать, но если вкратце, разумность - это про адекватность ответов, отсутствие в них бреда и оскорблений, например. Специфичность интереснее: ответы бота не должны быть слишком односложными, короткими, "на все случаи жизни". Простой пример:

Пользователь: У моего сына сегодня день рождения.

Бот А: Отличная песня!
Данный ответ не имеет смысла в этом контексте, поэтому он получает оценку 0 за разумность. Если за разумность 0, то и за специфичность автоматически тоже 0.

Бот Б: Понятно.
Данный ответ, в целом, разумен, но не специфичен, много на что можно сказать "понятно", но развитию темы это не способствует. Поэтому оценки 1 и 0, соответственно.

Бот В: Поздравляю от всей цифровой души. А сколько лет вашему сыну исполняется?
А вот это уже и разумный, и специфичный ответ. Да ещё и с юмором. Кстати, реальный ответ нашего бота. Вот бы он всегда так хорошо отвечал)

Мы добавили к SSA ещё пару дополнительных критериев, важных для бизнес-задачи. Итак, у нас есть оценки от трёх разметчиков по четырём параметрам. Что дальше? Имеет смысл также измерить согласие между аннотаторами. Каппа Коэна - отличная метрика, которую очень легко посчитать с помощью библиотеки scikit-learn. Она лучше, чем просто усреднение ответов разметчиков, потому что учитывает вероятность случайного совпадения. Другими словами, если у вас всего два возможных класса (0 и 1) и их распределение неравномерно, то вероятность случайного совпадения оценок гораздо выше, чем если бы классов было 15 и они встречались бы примерно с одинаковой частотой.

Каппа Коэна считается для каждой пары аннотаторов, благодаря чему мы можем увидеть, например, что ответы одного из разметчиков сильно отличаются от ответов двух других. Это может говорить о том, что данный эксперт не так понял задачу и его следует проинструктировать ещё раз. Или возможна ситуация, когда у всех троих разметчиков очень разные оценки по одному из критериев - тогда, возможно, данный критерий стоит сформулировать более понятно.
Что нас ждёт в будущем
#ai #softskills

На вчерашней конференции я услышал увлекательный доклад Джасприта Биндры о будущем работы в эпоху искусственного интеллекта. Эта тема крайне актуальна для всех нас, ведь мы стоим на пороге новой эры технологий. Докладчик поделился своими мыслями о том, как изменится трудовая деятельность различных специалистов и какие навыки будут необходимы для успешной работы в новом мире. Я был поражен его взглядами на будущее и уверен, что они будут полезны для всех, кто хочет быть в курсе последних тенденций и готовится к переменам.

Очевидно, что искусственный интеллект заберёт часть работы у людей. Многие западные компании уже сокращают 10-15% своих сотрудников, делегируя их обязанности ИИ. Однако это коснётся, по мнению Джасприта, лишь специалистов - программистов, журналистов, иллюстраторов, врачей - с низкой квалификацией. Для остальных ИИ станет новым полезным инструментом, повышающим продуктивность и позволяющим добиваться большего. Например, хороший программист сможет быстро генерировать с помощью ИИ код для решения несложных задач. С последующей проверкой, разумеется - как после джуна. Квалифицированный дизайнер сможет получить от ИИ-модели первоначальные идеи, затем создать на их основе что-то своё. И так далее. Другими словами, "вашу работу отнимет не ИИ, а человек, умеющий пользоваться ИИ".

ИИ также создаст новые вакансии на рынке труда, пример - те же промпт-инженеры, но не только. Отсюда вывод - нужно продолжать учиться чему-то новому всю жизнь (что на самом деле полезно для мозга). Это один из главных софт-скиллов для будущего, наряду с гибкостью и умением адаптироваться к изменениям. Не поглупеют ли люди с дальнейшим развитием ИИ? Но такие опасения высказывались и с появлением калькулятора и первых компьютеров. Хотя Джасприт считает, что разрыв между "умными" и "глупыми" всё-таки увеличится. Люди, не желающие развиваться, ещё больше утвердятся в этом, ведь им станут доступны ещё более заманчивые развлечения, а любители изучать что-то новое получат новый мощный инструмент для этого.

Как видно, Джасприт с оптимизмом смотрит в будущее. Даже не в будущее, ведь оно уже наступило (futurism -> nowism). Да, есть разумные опасения относительно ИИ, высказываемые сообществом. Однако ИИ - лишь ещё один инструмент, который может использоваться как во зло, так и во благо - как расщепление атома. Лично мне кажется, что общество в целом не станет кардинально счастливее или несчастнее с развитием ИИ. Наше счастье гораздо больше зависит не от инструментов и технологий, а от нас самих, наших навыков и желания становиться лучше.
В эту субботу буду проводить мок-интервью. Это как обычное техническое собеседование, только тренировочное. Так что у вас есть редкая возможность посмотреть, как я собеседую. 🙂 Если интересно, приходите!

#career