Интересное что-то – Telegram
Интересное что-то
517 subscribers
2.71K photos
253 videos
138 files
4.51K links
Материалы и мысли, понадерганные отовсюду
Блог: https://news.1rj.ru/str/asisakov_channel
Чат: https://news.1rj.ru/str/youknowds_chat
Download Telegram
Generative AI

Последние месяцы на поляне Generative AI праздник за праздником.

Начнём с генерации картинок.

Пока OpenAI со своим DALLE-2 медленно распиаривался, под боком возник быстрорастущий офигенный сервис Midjourney, забивший на сайт, API и всё такое, и предоставивший доступ к своим моделям через бота в Discord. Midjourney очень правильно начал работать с коммьюнити, набрал популярность и вышел в законодатели мод на этом рынке.

В отличие от OpenAI, Midjourney не требовал исключительных прав на все творения, оставляя все права пользователю и беря себе лицензию на их использование. Midjourney также разрешил коммерческое использование творений. У них есть пара оговорок касающихся бесплатного плана, а также компаний с выручкой больше $1M, но это всё очень reasonable. Оно у них, конечно, менялось и уточнялось по ходу дела, но явно было более либерально в отличие от terms OpenAI, где всё их, только private use, и всё такое.

И это кстати отдельный интересный вопрос этического плана — нормально ли, что система, обученная на результатах труда множества людей, присваивает весь производный результат себе, включая кстати и труд других людей по придумыванию правильных prompt'ов и селекции результатов. Где тот современный Маркс, который напишет Капитал 2.0?

Midjourney на днях вышел из закрытой беты в открытую https://www.facebook.com/intentoco/photos/a.1093842744008324/5486357671423454/) и OpenAI вынужден был последовать той же дорогой -- сразу прекратили играть в тщательно фильтруемые инвайты и тоже вышли в public beta, а также изменили terms на более коммерчески пригодные (https://www.facebook.com/intentoco/photos/a.1093842744008324/5493404720718749/).

Если бы не Midjourney, уверен, OpenAI бы ещё полгода свою илитность эксплуатировали. Конкуренция -- это прекрасно. И это только начало.

Также из области генерации картинок недавно широко разошлась новость (https://www.facebook.com/story.php?story_fbid=pfbid035HKtaMKL9ibTW2BH66cMecbCvj7RCXusf7w5yGkFP9xVHpg64Y4BcYCmv4Ea7x7Fl&id=4) про мартовскую работу Make-A-Scene (https://arxiv.org/abs/2203.13131), где при генерации картинки дополнительно к тексту можно давать эскиз с семантической маской. Это позволяет точно контролировать где на картинке что должно быть. В каком-то смысле это продолжение истории с аналогичным графическим редактором от Nvidia.

В генерации текстов тоже большое достижение -- опубликована модель BLOOM (https://www.facebook.com/intentoco/posts/pfbid02TEHE1sQYf78pXu9ZWEXcbfJ1DfZKQrCVSnB5PFEntSSQRFJW98CCSevGegWYCib2l) проекта BigScience и HuggingFace. Модель полностью открытая, на 176B параметров, мультиязычная с поддержкой 46 человеческих и 13 программистских языков.

Кстати, OpenAI Codex вроде ещё в private beta, инвайты как-то продолжают раздавать, мне даже с месяц назад прислали. Но зато можно попробовать построенный на нём GitHub Copilot (https://github.com/features/copilot/). А также в июне вышел Amazon CodeWhisperer (https://aws.amazon.com/blogs/machine-learning/introducing-amazon-codewhisperer-the-ml-powered-coding-companion/). Интересно, насколько BLOOM здесь будет хорош.

По части мультиязычности большое достижение — это публикация модели NLLB-200, способной переводить напрямую между 200 языками (https://www.facebook.com/intentoco/photos/a.1093842744008324/5452925358100019/).

Также сравнительно недавно Яндекс выпустил в опенсорс свою YaLM на 100B параметров (https://www.facebook.com/intentoco/posts/pfbid02MNduVaBTRv2ZnBgjEiWyuSst7zFnpRbXxcDXQ5oKWENtFmNdvvx8JFkshwgxgmEul), на тот момент самую большую опенсорсную GPT-like модель.

А ещё до этого Гугл выложил в опенсорс (https://www.facebook.com/intentoco/photos/a.1093842744008324/5409287722463783/) свой Switch Transformer на 1.6T параметров (https://news.1rj.ru/str/gonzo_ML/472).

В общем, поляна расцветает буйным цветом. Bessemer Venture Partners недавно опубликовали хороший пост про то, что generative AI — это новая платформенная революция (https://www.bvp.com/atlas/is-ai-generation-the-next-platform-shift).
#courses #dl
Программирование на cuda
Наткнулся на небольшой набор задачек по программированию под CUDA.

Задачки представляет собой попытку научить начинающих программировать GPU полностью интерактивным способом.

В упражнениях используется NUMBA, которая работает с ядрами CUDA и в основном идентичен написанию низкоуровневого кода CUDA.

Думаю, что за несколько часов вы сможете перейти от основ к пониманию реальных алгоритмов, на которых сегодня основано 99% глубокого обучения.


Ссылка на github: https://github.com/srush/GPU-Puzzles
#interview #systemdesign #behavioral
Материалы для собеседований
Шаг 3.
Многие компании (и их становится больше) перед тем как передавать ваше резюме на скрининг высылают тестовое задание. Обычно это контест на час-два с задачами aka Leetcode, реже — что-то другое. Если у вас есть опыт в олимпиадах по программированию, то решить все эти задачки не составит труда. В противном случае придётся ботать алгоритмы.
После тестовых заданий (или если их не было) ваше резюме попадает на скрининг. На этом этапе можно ждать ответа от компании бесконечно. Но вот если вы дождались и вас не зареджектили, то начинаются собеседования.
Technical Interview
Самый распространённый вид собеседований, практически в любой компании у вас будет хотя бы одно Technical Interview, и большая часть ваших собеседований в общем будет именно этого типа. Что здесь могут спрашивать:
Алгоритмы и структуры данных. Обычно ничего продвинутого вам не понадобится, потому что большинству компаний не нужна от вас жёсткая алгоритмическая подготовка. Нужно только понимание каких-то базовых концепций, вроде динамики, бинарного поиска, двух указателей, деревьев поиска и простейших алгоритмов на графах. Все эти темы можно повторить на всё том же Leetcode за очень маленький промежуток времени. Иногда, конечно, вам могут встретиться более продвинутые темы, алгоритмы и структуры данных, но это единичные случаи, и в основном вы справитесь с достаточно небольшим набором знаний.
Computer Science Stuff. Big O Notation, two's complement, floating-point numbers, какие-то известные ассимптотики, вот это вот всё.
Технические знания. В некоторых местах могут спросить о том, как работают какие-то концепты из области операционных систем, в некоторых — про базы данных, где-то ещё — про сетевые алгоритмы. В целом стоит понимать, в какую компанию/команду вы собеседуетесь и готовиться к потенциальным вопросам которые для неё специфичны.
Behavioral Interview
В некоторые компании вообще не будет таких собеседований (Meta, Google, etc), а если и будет, то очень вряд ли больше одного. На таком собеседовании обычно спрашивают о том, почему вы хотите попасть в эту компанию, о вашей мотивации, прошлых местах работы/стажировок и многих других вещах — к этому я очень советую готовиться основательно:
Узнать побольше про компанию, в которую вы подаетесь, или даже про конкретную команду, если вам рассказали, с кем именно будет собеседование. В некоторых местах (например, Palantir), вам даже вышлют перед собеседованием м‌е‌т‌о‌д‌и‌ч‌к‌у‌ брошюру о ценностях компании и том, что надо о ней знать. Кстати, всегда читайте то, что вам присылают HRюши, там может быть много важной и ценной информации. В целом, ваша осведомлённость и заинтересованность показывают интервьюеру ваше желание попасть именно к ним в компанию и оказывают хорошее впечатление.
System Design Interview
Самое редкое, что может с вами случиться. Таких собеседований тоже очень редко бывает больше одного за весь процесс, но они часто являются определяющими. Знать надо много, из разных областей, но в целом подготовиться вполне возможно и с нуля, если усердно трудиться. Не стесняйтесь попросить побольше времени перед таким собеседованием, чтобы подготовиться (но и не забывайте, что чем позже вы закончите процесс собеседований, тем меньше шанс на оффер!), вам, скорее всего, пойдут навстречу.
Полностью, от начала и до конца, изучите какой-нибудь курс по этой теме, делая письменный конспект (если вы и без этого всё хорошо запоминаете, можно и без него). Из известных мне качественных курсов есть платный Grokking The System Design Interview и бесплатный System Design Primer. Эти курсы примерно целиком покрывают теоретическую составляющую.
Открывайте произвольные видео по теме на YouTube, смотрите постановку задачи и пытайтесь сами предложить решение (в идеале, живому человеку, но если такого под рукой не нашлось, то можно и в воздух), после чего досматривате решение из видео и сравниваете, обращая особое внимание на различия в подходах. Пройдитесь по популярным вопросам на behavioral interview (просто вбейте в поисковик "top behavioral questions") и поотвечайте на них, заготовив по паре историй на каждый случай. На самом деле, не на каждый — существуют вопросы, на которые абсолютно нормально ответить "не было со мной такого никогда".
Порепетируйте свои заготовленные рассказы и импровизацию с живым собеседником. Это поможет избежать каких-то очевидных косяков и, возможно, добавит спокойствия и уверенности.
(опционально) Не стоит врать. Молчать о каких-то вещах, о которых вас не спросили — нормально, но напрямую обманывать не стоит, дабы не попасть в неудобное положение🤓🤓
Алоха. Если кто готовится в Sys Design  интервью. То могу порекомендовать этот канал - https://www.youtube.com/watch?v=bUHFg8CZFws
Все обьясняется достаточно понятно. Единственное это просто сильнейший "рашн акцент"
Forwarded from Dmitry
Реалистичный сценарий выхода из ситуации:
- Ты знаком с какой-то группой людей (будущая ЦА), например это кто-то кто выпускает свои NFT
- Они тебе рассказывают о своей проблеме
- Ты с учетом своих компетенций ( Data Satanist 👹) предлагаешь им услугу по решению этой проблемы
- Услуга должна быть достаточно дорогой, чтобы имея 5-10 клиентов ты мог оплачивать себе жилье и еду + нанять помощника. Так как без вложений в маркетинг, ты больше 10 клиентов на дорогую ежемесячную услугу сам (по своей базе знакомых, которые тебе доверяют) врядли соберешь
- Делаешь маленькую сервисную компанию, 4-5 человек ассистентов, чтобы копить деньги
- Начинаешь обсуждать с клиентами инструмент автоматизации услуги которую ты для них предоставляешь
- Делаешь MVP выкатываешь оттачиваешь
- Начинаешь вкладывать средства накопленные сервисной компанией в маркетинг твоего софта
- Если показатели маркетинга хорошие - идешь к инвесторам за бустом по кешу

Важный этап здесь - сервисная компания. Она поддержит тебя материально и позволит быть на постоянной связи с ЦА.
Forwarded from Записки Ппилифа (Ppilif Uliankin)
Мой друг Леша Царёв принес к нам в канал новость недели:

Брюс Хансен всё-таки дописал свои учебники по Теории вероятностей и статистике для экономистов, а также по Эконометрике. По моему мнению, это лучшие книги продвинутого уровня для изучения этой части науки о данных. Во-первых, потому что они достаточно глубокие и дотошные. Во-вторых, потому что Хансен хорошо и понятно пишет. И в-третьих, электронный формат не ограничивает автора и позволяет достигнуть бОльшей гибкости в плане эмпирических примеров, данных и кода.

В общем, как я уже сказал, отличная новость под конец недели!

P.S. Добавлю от себя, что это именно тот Хансен, который доказал, что из ТГМ можно выбросить одно из условий 🙂
#ml #courses
Лекции по некоторым курсам в MADE
Гут шабес.
Как говорится, хороший праздник можно праздновать не один день😉😉, поэтому сегодня как всегда скромный подгон моим любимым подписчикам: сливаю курсы VK made😎😎

Лекции по ссылке: Алгоритмы, ML, Компьютерное зрение, Методы Оптимизации, Дизайн эксперимента.
Решение на гитхабе.

Единственное, меня поражает: почему никто из организаторов не выложил их в открытый доступ?? Неужели не хотят позориться?? Вот он капитализм: человек человеку (((VK group)))!! Держу в курсе, что у Яндекса, Тиньки и прочих помоек полно качественных курсов для (((сотрудников))) или же просто базы данных с теми же проведенными AB-тестами, кодом и тд. Представьте, как ускорилось бы ваше обучение на реальных примерах. В общем, если будет много шэров и лайков, ломаю БД Яндекса😍😍
Также смотрим разбор варианта прошлого года, где сказано, как бороться с этой ужасной системой.
#ab
Валера поделился интересной ссылкой с постами по A/B
Forwarded from Время Валеры
Мой близкий друг Саша Сахнов - человек который на мой взгляд лучше всех разбирается в а/б тестах

Еще в далеком 2018 году мы с ним и рядом других людей начали писать на Хабр про А/Б.
Сейчас он запустил цикл статей про А/Б, где каждая статья будет сложнее предыдущей - первая довольно базовая статья про Бутстрап (Обратите внимание на центральный доверительный интервал)

Также интересен небольшой разбор стратификации для повышения чувствительности тестов
Еще можно посмотреть это видео
#books

Также интересный Гугл-диск с книжками по computer science

https://drive.google.com/drive/folders/1r4GyTdvANPTyl2-3gHrAX-87-WdAK60m?usp=sharing
Forwarded from Reliable ML
Подборка полезных материалов по ML System Design

- Круглый стол про ML System Design секции Reliable ML 2022 г. Подойдет для знакомства с темой. Обсуждение о том, что такое ML System Design, как его структурировать и применять. Для знакомства с темой также хорошо подойдет вот эта статья и вот эта.

- Конспекты лекций Стенфорда – курс CS 329S: Machine Learning Systems Design. Самые лучшие материалы для основательного изучения дисциплины. Структурированный разбор материалов: от паттернов ресерча до деплоя моделей. Для каждой темы есть текстовые записи лекций, слайды, ссылки на полезные материалы.

- Небольшая, хорошо структурированная и, что важно, краткая электронная книга в открытом доступе от одного из преподавателей Стенфордского курса Chip Huyen - ML Systems Design (собрана из статей автора в блоге). Если хочется для начала получить представление о книге и вообще о месте ML System Design в мире DS/ML можно сначала посмотреть это видео от Chip Huyen. Кроме того, в 2022 г. Chip Huyen опубликовала книгу Designing Machine Learning Systems как расширенную и дополненную версию статей своего блога.

Chip Huyen - один из авторов, внесших наибольший вклад в развитие ML System Design как дисциплины, как можно увидеть по подборке материалов. Кроме того, она является одним из самых популярных въетнамских художественных писаталей в жанре creative non-fiction. Списки книг можно увидеть на ее персональном сайте.

- Книга Machine Learning Design Patterns. Отличные обзоры книги есть у: тг-канала Варим МЛ и на towards data science. Книга хорошо подойдет для начинающих дата саентистов и МЛ-инженеров, кто хочет структурировать информацию о паттернах дизайна систем машинного обучения.

- Grokking the Machine Learning Interview. Уроки по ML System Design на стандартных примерах: Search Ranking, Feed Based System, Recommendation System, Self-Driving Car, Entity Linking System, Ad Prediction System. Платно. Есть акцент на system design вопросах (про system design дальше сделаем отдельную подборку).

- Серия видео от Валеры Бабушкина по ML System Design собеседованиям. В них подробно разбираются дизайны МЛ-систем для: ранжирования рекламы в новостной ленте соцсети, ценообразования и матчинга в маркетплейсе.

- Miro-доска от Богдана Печёнкина (X5, AliExpress, KazanExpress) с примерами ML дизайна различных систем: динамическое ценообразование, матчинг, антифрод, рекомендашки, ранжирование рекламы. Доска постоянно дорабатывается и пополняется. Рекомендуем также видео, где Богдан рассказывает про дизайн ML ценообразования на маркетплейсе.

Материалы, которых все очень ждут:

- Материалы курса Дмитрия Колодезева по ML System Design (2022)
- Книга от Валерия Бабушкина и Арсения Кравченко Principles of ML Design (2023)

Как выйдут – обязательно опубликуем ссылки!

#tech #ml_system_design
#книга
Mykel J. Kochenderfer Tim A. Wheeler Kyle H. Wray «Algorithms for Decision Making»
Свежая книга (2022), которую я сегодня полистал. Очень симпатичная, много хороших картинок. Немного удивило название, т.к. книга о статистике, байесовских штуках, структурном обучении и об RL (в основном!). Я надеялся найти что-то о принятии решений в бизнесе (смесь теории игр, DS и экономики), но тут обучение с подкреплением. Примеры кода даны на Julia.

Книга выложена в открытый доступ: https://algorithmsbook.com