Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#responsibleai

"Потоковая платформа Twitch, принадлежащая Amazon, на прошлой неделе сократила свою команду по этике ИИ, назвав всех сотрудников, работающих над продуктами ИИ, ответственными за проблемы, связанные с предвзятостью. Meta* ещё в сентябре 2022 года распустила свою команду по этике ИИ, состоящую примерно из 20 инженеров и специалистов по этике, которым была поручена оценка гражданских прав и этики в Instagram* и Facebook*."

https://3dnews.ru/1084230/sokrashcheniya-otdelov-po-etike-ii-v-krupnih-tehnologicheskih-kompaniyah-vizivayut-opaseniya-po-povodu-bezopasnosti-novoy-tehnologii
Forwarded from Юля & Ko
Наверное, все уже видели, что сегодня OpenAI выпустили GPT-4, и можно начать записываться 💅

Но хочу рассказать о другой интересной новости: у meta есть большая языковая модель LLAMA которая утекла в торент, и есть GPT-3 от openai, у которой есть доступ только к API и нужно платить деньги)
Но исследователей из Стэнфорда это никак не смутило!
Они взяли LLAMA, сгенерировали 52к инструкций с помощью доступной по API модели GPT-3 (как они пишут, что на это ушло порядка $500), дообучили LLAMA за несколько часов (еще $100) и по качеству генерации полученная модель не уступает GPT-3.
Вроде бы очень простая идея, но результат супер! (назвали получившуюся модельку ALPACA)

В машинном обучении много простых идей, которые взрывают индустрию)
Сейчас все пользуются BatchNormом и его проходят на 3ем занятии любого курса по DL, но в 2015 он безумно сильно улучшил качество моделей и позволил им учиться быстрее. Аналогичная история и с self-attention, который перевернул NLP

Мораль -
Не думайте, что открытия совершают только гении)
вернее это, конечно, так, но они становятся ими, когда пробуют свои иногда простые и банальные идеи🙃
Отвечаю на вопрос об экспертизе в рядах. Лидеры по экспертизе в мире – Amazon, Walmart и Facebook. В Amazon, Walmart есть школы, это обеспечивает консистентность подходов и синергию, Facebook, как и многие компании FAANG, действуют как пылесосы, они набирают много специалистов из разных компаний, в частности, FB много взял спецов по рядам из Microsoft, соответственно много подходов, эклетика, нет методологической унификации. Особняком стоит Exxon Mobile, пример компании, которая за считанные годы нарастила экспертизу в рядах, они как раз успешно применяют для промышленных рядов TFT. Ничего не раскрывают, не публикуют, некоторых ребят знаю лично и даже тех подсказок, намеков, которые они дали, хватило, чтобы существенно улучшить качество прогнозов, получаемых с помощью трансформеров. В свою очереь там специалисты высоко отзываются о качестве экспертизы в Equinor. По России. Судя по тем проектам, что мне попадались через коллег и учеников, она очень неровная, крепкая экспертиза есть в X5, Tinkoff и Сбербанке, в нефтяных и газовых компаниях все только начинается. 80% тех же моделей ARIMA были просто недоделаны, ну как ты строишь SARIMAX, у тебя сезонности и ты не используешь Фурье. По Альфе вы много спрашивайте, ничего не знаю, нет общих знакомых, про Нескучный Data Science знаю, подписан, очень много нарратива, материалы больше маркетингового характера, недостаточно информации, чтобы целостное впечатление о качестве их экспертизы составить.
#wonderfuldays #ottodix

Чудные дни наступают.

"Для любви душа не важна,
Болеть лишь может она,
ничто не нравится ей.
Глупо гнаться за мечтой,
Ведь выход простой -
машины лучше людей.

Нет предательств и измен,
И вскрытых вен,
И душа не болит.
Нет мучительных дилемм,
И сотни проблем
Программа решит.

Торжество научных идей,
И для людей
Настали чудные дни.
Больше не нужно в страданиях жить -
Способны любить
Лишь машины одни."

https://www.youtube.com/watch?v=FTEE7LA_oFs
#ml #recommenders

Frequently bought together
https://3dnews.ru/1084498/aerokosmicheskaya-kompaniya-virgin-orbit-milliardera-brensona-podala-zayavlenie-o-bankrotstve

"По состоянию на 30 сентября прошлого года Virgin Orbit располагала активами на общую сумму в $243 млн и имела долг в $153,5 млн. Компания была создана в 2017 году другим предприятием Брэнсона Virgin Galactic, работающим в сфере космического туризма. В 2021 году Virgin Orbit стала публичной, но привлечённые инвестиции оказались на $255 млн меньше, чем планировалось. К банкротству компанию подтолкнул неудачный пуск ракеты в январе этого года, проведённый с территории Великобритании. Ракета LauncherOne не смогла достигнуть расчётной орбиты и отправила полезную нагрузку в виде разведывательных спутников США и Великобритании в океан."
"Кандинский" пугает )
😁1👻1
#приёмы
На своих курсах я часто сообщаю такой приём: не выбрасывать плохие данные, а примерить их пусть не для моделирования, но для служебных задач. Например, у Вас есть кусок данных, где много неизвестных значений, а в целевых значениях много выбросов. Можно изъять его из обучения (допустим это повышает качество), но использовать, например, для mean target encoding категориальных признаков (и утечки не будет и кодирование будет вполне нормальным).
👍1🤯1
#visualisation #pristley #playfair #minard #nightingale #dubois

А Вы знали, что человек, открывший кислород, также придумал инфографику?
Что гистограмму и секторную диаграмму придумал 1 человек в 17 и 18 веках?
Что диаграмму Санки по сути нарисовали до официального открытия, при визуализации вторжения армии Наполеона в Российскую империю? Нет? Вам сюда:

https://github.com/Dyakonov/PZAD/blob/master/2020/PZAD2020_021vishistory_04.pdf
1
#visualisation

«The greatest value of a picture is when it forces us to notice what we never expected to see.»
John Tukey
#ml #tropicmean

Ты дата-сайентист, но никогда не слышал про тропическое среднее и зодиакальный скоринг? Тебе сюда:


https://github.com/Dyakonov/PZAD/blob/master/2020/PZAD2020_011probweights_07n.pdf
1
Внезапно

#youknownothing
#ml #applied #dyakonov

Как нетрудно догадаться, обнаружил очередной гениальный ПЗАД-курс Александра Дъяконова.

Рекомендую всем к изучению, и буду здесь выкладывать лекции с наиболее интересными тэгами по мере изучения материала.

https://github.com/Dyakonov/PZAD/

https://www.youtube.com/watch?v=FNDQYM0hjh0&list=PLaRUeIuewv8CMFox0oEjlyePUhUmo-x0h&ab_channel=AlexanderD%27yakonov
3
#math #stats

Для ценителей математической красоты, но не просто абстрактной, а на стыке с практикой и реальностью.

"А. М. Шурыгин, Нестандартные вариационные задачи в математической статистике, Труды МИАН, 2002, том 236, 378–385."

"Сорок лет очень активных поисков “робастных” оценок, которые должны быть устойчивыми к малым вариациям модельной плотности распределения, имеют скромные успехи. Оптимальная устойчивая оценка не была найдена даже для центра нормального распределения: оценки зависели от неоцениваемых параметров. Причиной являлось использование традиционных методов математической статистики в нестандартной задаче. Использование методов вариационного исчисления и функционального дифференцирования сводит задачу к нестандартной задаче вариационного исчисления и после ее решения делает проблему простой и дает возможность получить компактное оптимальное решение для произвольного параметра распределения."

https://www.mathnet.ru/links/52bfcb49243e547ab0fadf40df1054dc/tm309.pdf
1