Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#astronomy

"Размеры горизонта события этой дыры настолько большие, что туда поместилось бы шесть Солнечных систем вместе с облаком Оорта. Нам известно всего десять сверхмассивных чёрных дыр подобной массы. Это важно, поскольку мы приближаемся к теоретическому пределу по этому показателю. Считается, что чёрная дыра не может быть тяжелее 50 млрд масс Солнца. Доказать существование объекта массой 32,7 млрд масс Солнца — это подойти ближе к теоретической границе и сделать наше понимание Вселенной чуть чётче."

https://3dnews.ru/1084186/uchyonie-utochnili-massu-odnoy-iz-samih-bolshih-chyornih-dir-v-istorii-nablyudeniya-ona-okazalas-eshchyo-tyagelee-chem-mi-dumali
#nvidia

Интересно как получается. В своё время AMD/ATI, имея не менее мощное GPU-железо, забила на построение программной экосистемы. A Nvidia инвестировала в CUDA миллионы баксов. Ну и кто теперь закономерно на коне, а кто под конём?

"Компанию NVIDIA вполне справедливо называют одним из главных бенефициаров начавшегося бума технологий генеративного искусственного интеллекта, поскольку она уже годами развивает сопутствующую программную и аппаратную инфраструктуру. Интерес к таким технологиям будет подогревать спрос на компоненты и ПО данной компании, и только с октября прошлого года её рыночная капитализация увеличилась на $372 млрд. участники фондового рынка отмечают, что ценные бумаги компании могут быть переоценены в моменте, поскольку мультипликатор, определяющий соотношение рыночной капитализации и величины прогнозируемых доходов, у NVIDIA сейчас достигает 56. Это почти в три раза выше, чем среднее значение по индексу Philadelphia Stock Exchange Semiconductor, которое не превышает 21, и примерно на 150 % выше, чем у индекса Nasdaq 100, по данным Bloomberg. В среднем за последние десять лет значение этого мультипликатора у акций NVIDIA не превышало 30."

https://3dnews.ru/1084208/s-oktyabrya-proshlogo-goda-bum-iitehnologiy-uvelichil-kapitalizatsiyu-nvidia-na-372-mlrd
#история (которую я часто рассказываю в своём курсе)

На одном из хакатонов, который проводила крупная нефтяная компания, в финале участники выступали с презентациями о своих решениях задачи прогнозирования дебита нефти... Почти все настраивали бустинг (различались лишь библиотеки), генерировали признаки, искали лики и т.п.

Предпоследним вышел парень из Уфы, который занял 2е место в лидерборде, и сказал: я не очень понимаю смысл всего, что тут говорилось, такие слова как "бустинг" я слышу в первый раз. Я учусь "в нефтянке", нас учили, что есть такая формула для дебита (выводит на слайд небольшую формулу), я просто в неё подставил известные значения, а неизвестные прикинул, какими они могли бы быть.
👍2😱1
#responsibleai

"Потоковая платформа Twitch, принадлежащая Amazon, на прошлой неделе сократила свою команду по этике ИИ, назвав всех сотрудников, работающих над продуктами ИИ, ответственными за проблемы, связанные с предвзятостью. Meta* ещё в сентябре 2022 года распустила свою команду по этике ИИ, состоящую примерно из 20 инженеров и специалистов по этике, которым была поручена оценка гражданских прав и этики в Instagram* и Facebook*."

https://3dnews.ru/1084230/sokrashcheniya-otdelov-po-etike-ii-v-krupnih-tehnologicheskih-kompaniyah-vizivayut-opaseniya-po-povodu-bezopasnosti-novoy-tehnologii
Forwarded from Юля & Ko
Наверное, все уже видели, что сегодня OpenAI выпустили GPT-4, и можно начать записываться 💅

Но хочу рассказать о другой интересной новости: у meta есть большая языковая модель LLAMA которая утекла в торент, и есть GPT-3 от openai, у которой есть доступ только к API и нужно платить деньги)
Но исследователей из Стэнфорда это никак не смутило!
Они взяли LLAMA, сгенерировали 52к инструкций с помощью доступной по API модели GPT-3 (как они пишут, что на это ушло порядка $500), дообучили LLAMA за несколько часов (еще $100) и по качеству генерации полученная модель не уступает GPT-3.
Вроде бы очень простая идея, но результат супер! (назвали получившуюся модельку ALPACA)

В машинном обучении много простых идей, которые взрывают индустрию)
Сейчас все пользуются BatchNormом и его проходят на 3ем занятии любого курса по DL, но в 2015 он безумно сильно улучшил качество моделей и позволил им учиться быстрее. Аналогичная история и с self-attention, который перевернул NLP

Мораль -
Не думайте, что открытия совершают только гении)
вернее это, конечно, так, но они становятся ими, когда пробуют свои иногда простые и банальные идеи🙃
Отвечаю на вопрос об экспертизе в рядах. Лидеры по экспертизе в мире – Amazon, Walmart и Facebook. В Amazon, Walmart есть школы, это обеспечивает консистентность подходов и синергию, Facebook, как и многие компании FAANG, действуют как пылесосы, они набирают много специалистов из разных компаний, в частности, FB много взял спецов по рядам из Microsoft, соответственно много подходов, эклетика, нет методологической унификации. Особняком стоит Exxon Mobile, пример компании, которая за считанные годы нарастила экспертизу в рядах, они как раз успешно применяют для промышленных рядов TFT. Ничего не раскрывают, не публикуют, некоторых ребят знаю лично и даже тех подсказок, намеков, которые они дали, хватило, чтобы существенно улучшить качество прогнозов, получаемых с помощью трансформеров. В свою очереь там специалисты высоко отзываются о качестве экспертизы в Equinor. По России. Судя по тем проектам, что мне попадались через коллег и учеников, она очень неровная, крепкая экспертиза есть в X5, Tinkoff и Сбербанке, в нефтяных и газовых компаниях все только начинается. 80% тех же моделей ARIMA были просто недоделаны, ну как ты строишь SARIMAX, у тебя сезонности и ты не используешь Фурье. По Альфе вы много спрашивайте, ничего не знаю, нет общих знакомых, про Нескучный Data Science знаю, подписан, очень много нарратива, материалы больше маркетингового характера, недостаточно информации, чтобы целостное впечатление о качестве их экспертизы составить.
#wonderfuldays #ottodix

Чудные дни наступают.

"Для любви душа не важна,
Болеть лишь может она,
ничто не нравится ей.
Глупо гнаться за мечтой,
Ведь выход простой -
машины лучше людей.

Нет предательств и измен,
И вскрытых вен,
И душа не болит.
Нет мучительных дилемм,
И сотни проблем
Программа решит.

Торжество научных идей,
И для людей
Настали чудные дни.
Больше не нужно в страданиях жить -
Способны любить
Лишь машины одни."

https://www.youtube.com/watch?v=FTEE7LA_oFs
#ml #recommenders

Frequently bought together
https://3dnews.ru/1084498/aerokosmicheskaya-kompaniya-virgin-orbit-milliardera-brensona-podala-zayavlenie-o-bankrotstve

"По состоянию на 30 сентября прошлого года Virgin Orbit располагала активами на общую сумму в $243 млн и имела долг в $153,5 млн. Компания была создана в 2017 году другим предприятием Брэнсона Virgin Galactic, работающим в сфере космического туризма. В 2021 году Virgin Orbit стала публичной, но привлечённые инвестиции оказались на $255 млн меньше, чем планировалось. К банкротству компанию подтолкнул неудачный пуск ракеты в январе этого года, проведённый с территории Великобритании. Ракета LauncherOne не смогла достигнуть расчётной орбиты и отправила полезную нагрузку в виде разведывательных спутников США и Великобритании в океан."
"Кандинский" пугает )
😁1👻1
#приёмы
На своих курсах я часто сообщаю такой приём: не выбрасывать плохие данные, а примерить их пусть не для моделирования, но для служебных задач. Например, у Вас есть кусок данных, где много неизвестных значений, а в целевых значениях много выбросов. Можно изъять его из обучения (допустим это повышает качество), но использовать, например, для mean target encoding категориальных признаков (и утечки не будет и кодирование будет вполне нормальным).
👍1🤯1
#visualisation #pristley #playfair #minard #nightingale #dubois

А Вы знали, что человек, открывший кислород, также придумал инфографику?
Что гистограмму и секторную диаграмму придумал 1 человек в 17 и 18 веках?
Что диаграмму Санки по сути нарисовали до официального открытия, при визуализации вторжения армии Наполеона в Российскую империю? Нет? Вам сюда:

https://github.com/Dyakonov/PZAD/blob/master/2020/PZAD2020_021vishistory_04.pdf
1
#visualisation

«The greatest value of a picture is when it forces us to notice what we never expected to see.»
John Tukey
#ml #tropicmean

Ты дата-сайентист, но никогда не слышал про тропическое среднее и зодиакальный скоринг? Тебе сюда:


https://github.com/Dyakonov/PZAD/blob/master/2020/PZAD2020_011probweights_07n.pdf
1