NEW BOT Телеграм, страница

The Quest 3 is an amazing device. And it now even could become your Piano teacher! And the best thing: you don't even need a Piano. Your Quest 3 and PianoVision is enough. In this video I show you how it works!

PianoVision: https://www.meta.com/experien…

104 viewsAnatoly Alekseev, 18:19

Aspiring Data Science

#games #returntomoria #fantasy #tolkien

Не удержался, купил игрушку ) Надо же поддержать разработчиков. Теперь буду днём трейдить, а ночью отстраивать Морию!

https://www.youtube.com/watch?v=75nbOL7GOPE

YouTube

The Lord of the Rings™: Return to Moria™ - Official Announcement Trailer 4K

The only survival crafting game set in the Fourth Age of Middle-earth™, the iconic fantasy world created by J.R.R. Tolkien

Find out more at www.ReturnToMoria.com

❤‍🔥3

106 viewsAnatoly Alekseev, 14:31

Aspiring Data Science

Forwarded from Записки Ппилифа (Ppilif)

Про speech2text и скорость смены чудес

Никогда раньше особо не работал со звуком. Максимум — дёргал ручку яндексового speech2text, чтобы вытащить из видосов текст и прогнать его через свои языковые модели.

Появилась задачка — прогнать много гигов записей сапорта через speech2text. Стал искать какую-нибудь SOTA в опенсорсе и узнал про whisper от OpenAI.

Запустил на тестовой пачке аудио мелкую модель, она выдала какой-то странный текст о том, кто первый пойдёт в ванную. Прослушал аудиозапись, там недозвон и нет ничего кроме гудков. Я не понял прикола и стал искать баг в коде, мб что-то закешировалось при загрузке. А потом кааааак понял.

Прослушал запись ещё раз и услышал еле заметные голоса на заднем фоне, которые поймал микрофон сапорта. Люди о чём-то разговаривали. Моё ухо не поймало, зато DL-модель прекрасно поймала этот разговор и транскрибировала его. Ещё и в качестве бонуса на лету перевела его с локального языка на английский.

Когда модель выкладывают в паблик, часто сравнивают её качество с человеком. Впервые почувствовал на своей шкуре, как я проиграл модели. Всратые картинки с ImageNet, на которых фиг поймёшь чё нарисовано, меня не впечатляли, а транскрибация впечатлила довольно сильно.

Более того, в интернете валяется ещё и квантизованная, более быстрая и лёгкая версия faster-whisper. Любой школьник со знанием питона может её поднять у себя в браузере в течение вечера.

Как впрочем и многие другие модели, выложенные в опенсорс. Мы вообще пока не осознаём, что будущее наступило и как-то слишком дежурно рассуждаем про новые технологии вроде DALLE и ChatGPT. Артур Кларк говорил, что


Любая достаточно развитая технология неотличима от магии.

Хочется поправить великого и воткнуть в середину цитаты лишнее слово:


Любая достаточно развитая технология поначалу неотличима от магии.

Технологические чудеса быстро превращаются в обыденность. В школе у меня был кнопочный телефон. Я любил фантастические фильмы. Когда я видел там сенсорные панели на дверях и компьютерах, мне хотелось, чтобы в реальной жизни было также. Проходит несколько лет, появляются планшеты и смартфоны. Поначалу это кажется чудом. Проходит ещё несколько лет, чудо превращается в повседневность.

И такая фигня происходит абсолютно со всеми сферами нашей жизни. Папа записывал мне фильмы на VHS-касcеты. В старшей школе я покупал кино на дисках, в вузе качал с торентов и перекидывал на флешку. Сегодня у ноутбуков нет разъема для дисков. Уже и флэшка - древность. Повсюду облака. За 30 лет несколько технологий для передачи информации сменили друг-друга.

Скорость превращения чудес в обыденность увеличивается. Буквально вчера все удивлялись системам распознавания лиц в крупных городах, дипфейкам и моделям, генерирующим связные тексты. Сегодня этим вообще никого не удивишь.

Моменты такого прорезния, как моё вчерашние офигивание от транскрибации, из-за этого становятся особенно ценными.

🔥1

99 viewsAnatoly Alekseev, 09:15

Aspiring Data Science

#politics #versions

В двойника пуйла я не очень верил, уж слишком большим талантом он должен быть, но разница в поведении действительно была слишком сильной (то 15 метровые столы, карантин перед встречами для всех, то странные "выходы в народ"; часы не на той руке; странные профессии из прошлого, которых вроде не т в официальной биографиии). У меня 3 версии, объясняющие такую разницу, в порядке убывания вероятности: 1) умственные отклонения индивида (типа раздвоения личности) 2) намеренная провокация/троллинг 3) ну и остаётся невероятно талантливый двойник. Профессор часто давал политические прогнозы и часто ошибался, но в то же время он и связанный с ним источник не раз давали и уникальную информацию, которая впоследствии подтверждалась. Из крупных: атака на Украину в 2023-м (за 3 месяца), военная мобилизация сентября 2023-го, (за полгода), отдача Карабаха Турции и Азербайджану (за неделю до события, после визита Эрдогана). Так что к его прогнозам я отношусь скептически, но с уважением. Если мы в течение месяца увидим плавное назначение нового премьер-министра (предположительно героя сельского хозяйства), это будет ещё одно свидетельство в пользу версии Соловья. В любом случае, мы скоро узнаем правду. Ведь действительно, смерть Жирика скрывали, помните, как ЛДПР отпёрдывались, мол, рукопожатие крепкое, работает с документами, немного просто приболел? А потом раз, и оказалось, что всё-таки умер.

https://www.youtube.com/watch?v=eW_KlByc5Yc

YouTube

Путин мертв. Что дальше? Что происходит. Вып.93-й, экстренный. 18+

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ СОЛОВЬЕМ ВАЛЕРИЕМ ДМИТРИЕВИЧЕМ ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА СОЛОВЬЯ ВАЛЕРИЯ ДМИТРИЕВИЧА. 18+

Благотворительная помощь:
Карта Сбербанка: 5469…

🤡3🤮1🤣1

144 viewsAnatoly Alekseev, 10:33

Aspiring Data Science

#ads #office #honesty #showcasing #microsoft

"Word lets you build nicely formatted documents. Excel lets you analyze data using powerful spreadsheets, formulas, and graphs. PowerPoint lets you thrill and amaze your management with presentations containing annoying animations and irritating sound effects. Access can build a database for tracking bug reports that are never cleared, and Outlook lets you schedule the thirteen weekly progress meetings where you must explain why you aren't getting any work done."

95 viewsAnatoly Alekseev, edited 12:07

Aspiring Data Science

#poetry #staubkind #9lives

In a different existence, long ago,
I was a somber count, my heart aglow,
No tenderness within, my soul was tough,
A man whose wrath, you dared not huff.

In another lifetime, I was a pauper, poor,
A thousand loves I knew, yet hearts, no more,
I lay flowers on my grave, for deaths I've known,
A lingering dream, in silence, softly sown.

In some distant realm, I was an astral knight,
Gazing proudly upon our celestial height,
In an alternate reality, a gigolo's role I'd play,
But true love eludes me in this earthly day.

оригинал:

In einem andren Leben
War ich ein schwarzer Graf
Ich kannte kein Erbarmen
Ein Mann, den man nicht reizen darf

In einem andren Leben
War ich ein Bettelmann
Ich kannte Tausend Lieber
Von den ich nie ein Herz gewann

Ich lege Blumen auf mein Grab
An all den Toden die ich starb
Blieb nur ein Traum, der nie vergeht

In einem andren Leben
War ich ein Astronaut
Auf unser Paradies
Hab ich voll Stolz herab geschaut

In einem andren Leben
War ich ein Gigolo
Doch fand ich wahre Liebe
In diesem Leben nirgendwo

https://www.youtube.com/watch?v=8E06CNwzgGc

YouTube

Ein Traum, der nie vergeht

Provided to YouTube by Out of Line Music

Ein Traum, der nie vergeht · Staubkind

Traumfänger

℗ Fear Section

Released on: 2006-09-30

Composer: Sven Manke
Composer: Jan Golz
Lyricist: Jan Golz

Auto-generated by YouTube.

124 viewsAnatoly Alekseev, edited 13:05

Aspiring Data Science

#politics #religion

108 viewsAnatoly Alekseev, edited 13:09

Aspiring Data Science

#games #returntomoria

Хм, а в мультиплеер-то веселее!

https://www.youtube.com/watch?v=deSg_ceJs2g

YouTube

[2k] The Lord of the Rings: Return to Moria😈В кооперативе со стримерами✅НА РУССКОМ✅

Поддержать мою работу: https://www.donationalerts.com/r/artyom_first
Отправь мем(гифка со звуком) в прямом эфире: https://memealerts.com/artyom_first

Добро пожаловать на мои эфиры на Twitch\Youtube с 15-00 каждый день. У нас веселая, приятная компания разнообразных…

112 viewsAnatoly Alekseev, 16:06

Aspiring Data Science

Forwarded from Small Data Science for Russian Adventurers

#книга
Simon J.D. Prince "Understanding Deep Learning"
Незаслуженно малоизвестная книга. Но это самое лучшее, что в последние годы писалось по глубокому обучению. Материал очень современный (GPT3, диффузионные модели, графовые сети есть). Повествование с основ и до этических проблем, очень широкий охват. Текст и рисунки авторские. Достаточно подробная библиография. Ну разве что примеров кода нет (книга теоретическая). Настоятельно рекомендую!
https://udlbook.github.io/udlbook/

78 viewsAnatoly Alekseev, 08:48

Aspiring Data Science

#geology #astronomy

"В недавнем прошлом учёные уже проводили расчёты, которые могли бы подсказать происхождение двух гигантских аномалий на стыке ядра Земли и нижних слоёв её мантии. Ещё в 80-х годах прошлого столетия геофизики с удивлением выяснили, что в глубинах нашей планеты находятся два гигантских континента протяжённостью несколько тысяч километров каждый. На это указали сейсмические волны, которые в этих загадочных областях перемещались иначе, чем в окружающей мантии. Эти «объекты» назвали крупными областями с низкой скоростью сдвига (LLSVP, Large low-shear-velocity provinces) и стали разрабатывать гипотезы об их образовании.

Параллельно шло изучение Луны, благо к тому времени «Аполлоны» доставили на Землю образцы с её поверхности. Выяснилось, что Луна и земные мантийные породы имеют одинаковое происхождение и состав, что заставило задуматься об ударном появлении Луны. Расчёты показали, что Луна могла образоваться около 4,5 млрд лет назад при падении на Землю планеты размером с Марс. Поиски других остатков этой гипотетической планеты, которой дали имя Тейя, не увенчались успехом. Их не было в околоземном пространстве и в главном поясе астероидов.

Учёные предположили, что остатки Тейи погрузились в недра тогда ещё расплавленной Земли. Новое и более подробное моделирование, проведённое под руководством учёных из Калтеха, показало, что области LLSVP с большой вероятностью — это действительно остатки Тейи. Они сохранили свою монолитную структуры благодаря тому, что нижний мантийный слой Земли не был достаточно горячим, чтобы произошло смешивание, и остатки успели кристаллизоваться. Благодаря этому мы сегодня можем увидеть их в процессе сейсмических исследований.

Появление в недрах Земли таких гигантских инородных вкраплений очевидным образом повлияло на все последующие геологические процессы на нашей планете. Учёным ещё предстоит оценить это влияние на раннюю эволюцию Земли."

https://youtu.be/k4dQW_fUgik

YouTube

The Remains of an Ancient Planet Lie Deep Within Earth

New research answers two longstanding mysteries of planetary science: What are the giant mysterious “blobs” of material near the Earth’s core, and what happened to the planet that smashed into the Earth to create the Moon? A new study from Caltech suggests…

👍1

101 viewsAnatoly Alekseev, 10:07

Aspiring Data Science

#aws

Облачный провайдер Amazon Web Services (AWS) объявил о запуске новой модели потребления EC2 Capacity Blocks for ML, предназначенной для предприятий, желающих зарезервировать доступ к ускорителям вычислений для обработки кратковременных рабочих нагрузок ИИ.

Решение Amazon EC2 Capacity Blocks for ML позволяет клиентам зарезервировать доступ к «сотням» ускорителей NVIDIA H100 в кластерах EC2 UltraClusters, которые предназначены для высокопроизводительных рабочих нагрузок машинного обучения. Клиенты просто указывают желаемый размер кластера, дату начала и окончания доступа. Таким образом повышается предсказуемость доступности ИИ-ресурсов и в то же время нет необходимости оплачивать доступ к мощностям, когда они не используются. AWS тоже в выигрыше, поскольку такой подход позволяет более полно использовать имеющиеся ресурсы.

https://servernews.ru/1095352

ServerNews - все из мира больших мощностей

Бронь на ИИ: AWS предложила клиентам заранее заказывать кластеры с ускорителями NVIDIA H100

Облачный провайдер Amazon Web Services (AWS) объявил о запуске новой модели потребления EC2 Capacity Blocks for ML, предназначенной для предприятий, желающих зарезервировать доступ к ускорителям вычислений для обработки кратковременных рабочих нагрузок ИИ.

97 viewsAnatoly Alekseev, 13:39

Aspiring Data Science

#scipy #global #optimization #diogenes

Продолжаю работать над отборщиком признаков Диоген.

Столкнулcя с плохой работой методов глобальной оптимизации.

Кто работал с численной оптимизацией в сайпай, подскажите, что не так делаю. Пока кажется, что глобальная оптимизация из scipy не способна найти экстремум даже относительно простой гладкой функции 1 переменного. Хотелось бы что-то для поиска экстремума функции с очень высокой стоимостью оценки, в идеале когда можно задать бюджет поиска.

Попробую, наверное, запилить универсальный модуль с 3 опциями: гауссов процесс, бустинг с квантильной регрессей, и случайный поиск. Для первых двух будет какой-то начальный эквидистантный сэмплинг, чтоб было на чём учиться. Ну и плюс варианты выбора следующего кандидата, конечно же: expected improvement, ucb, etc.

Просто очень странно, что такого пакета ещё нет готовенького.

https://github.com/scipy/scipy/issues/19467

🥴1

93 viewsAnatoly Alekseev, edited 12:22

Aspiring Data Science

#math #fun

Учитель алгебры очень расстроился, когда нашёл свою жену с двумя неизвестными.

❤‍🔥2

138 viewsAnatoly Alekseev, 12:35

Aspiring Data Science

#global #optimization #benchmarks

Дали ссылку на такое вот иллюстрированное сравнение численных оптимизаторов

https://infinity77.net/go_2021/thebenchmarks.html

129 viewsAnatoly Alekseev, edited 20:24

Aspiring Data Science

#global #optimization
Реализовал Гауссов процесс и квантильный бустинг в рамках той же задачи. Последний выглядит получше, есть надежда довести до боя.

🔥1

98 viewsAnatoly Alekseev, 21:20

Aspiring Data Science

#featureselection #diogenes #rfecv

Вот так, кстати, выглядит зависимость ML-метрики от числа признаков в Diogenes. Это пример с реальными данными, но синтетическими зависимостями. Пока кандидаты для проверки генерятся полным случайным перебором, подключаю более интеллектуальные методы.

92 viewsAnatoly Alekseev, 22:06

Aspiring Data Science

#music #rock #pinkfloyd

Чтоб олдскулы аж свело! )

https://youtu.be/PYAvFVS3lIg?si=mHttJZLz1JPfX4Es

YouTube

1977.05.09 - Pink Floyd - Oakland Coliseum

Setlist:

0:00 - Sheep
11:22 - Pigs On The Wing (Part 1)
13:40 - Dogs
32:26 - Pigs On The Wing (Part 2)
35:00 - Pigs (3 Different Ones)
52:32 - Shine On You Crazy Diamond I-V
1:06:26 - Welcome To The Machine
1:14:39 - Have A Cigar
1:20:42 - Wish You Were…

96 viewsAnatoly Alekseev, 07:52

Aspiring Data Science

#featureselection #rfecv

Некоторые мысли по поводу процесса отбора признаков в RFECV

1) Количество проверяемых признаков имеет свою стоимость. Проверить nfeatures=10 стоит гораздо дешевле, чем проверить nfeatures=1000 (скажем, на терабайтном датасете). С другой стороны, проверка 1000 фичей даст больше информации об их рейтинге, что будет полезно при выборе следующих кандидатов. Но опять же, за время проверки 1000 можно проверить сразу несколько более мелких комбинаций... Надо как-то учитывать этот баланс.
Пока ограничусь проверкой начальных сэмплированных значений (для обучения базы) в порядке возрастания, чтобы при срабатывании лимита времени успеть проверить больше комбинаций.

2) Можно ли совмещать FS с HPT прямо в процессе FS? Скажем, пока мы с помощью интеллектуального алгоритма из 1000 признаков проверяем 50 комбинаций nfeatures, можем ли мы одновременно варьировать гиперпараметры базового оценщика, чтобы собрать дополнительную ценную информацию? С точки зрения выбора следующего кандидата варьирование HPT обычно ничего не изменит (за исключением случаев когда HPT совсем уж явно изменит лидеров), т.к. всё равно будут использоваться ранги. А вот для последующего обучения на финальном наборе это может дать очень ценную информацию бесплатно, особенно если базовый оценщик тоже будет использоваться на финальной стадии конвейера. Плюс это повысит вариативность, и, соответственно, реалистичность оценок CV.

Проще говоря, если собирать инфу о рейтингах признаков неизбежно надо, причём обучая модельки, так давайте заодно менять при каждом обучении HP и дополнительно собирать данные о чувствительности итоговых метрик к гиперпараметрам?
Планирую сэмплить HP из допустимого множества для заданной базовой модели. Возможно, придётся вести список "опасных" значений HP, которые сильно увеличат время расчётов. Итоговые кортежи (hp,feature_stats,train_time,ml_perf) сохранять в отборщике признаков для посл старта в HPT.

3) А можно ли как-то ещё заюзать эти десятки и сотни промежуточных моделек из фазы FS? Понятно, они все обучены на разных количествах признаков, да ещё и лишь на CV частях train set. Но всё-таки даже на них будут затрачены большие ресурсы, и они представляют собой ценный актив. Ну хотя бы с точки зрения последующего ансамблирования, или точечной оценки уверенности в прогнозах (когда модельки расходятся во мнениях)?
Думаю опционально сохранять их в памяти и/или на диске, с указанием входных признаков.

4) Есть ли смысл в RFECV использовать сразу несколько базовых алгоритмов? Скажем, и catboost, и lgbm.

5) Как выяснилось недавно, у lgbm есть режим, когда листья дерева заменяются наклонными линиями регрессии. По идее, это позволит лучше моделировать связи, особенно на небольшом числе точек. Стоит ли попробовать такой сплайновый режим?

ML for Value / Ваня Максимов

Неклассические бустинги над деревьями (hybrid regression tree boosting)

У бустингов над деревьями есть некоторые проблемы с линейными зависимостями. Почему бы тогда не совместить бустинг, деревья и линейную регрессию?

Идея такая: в классическом дереве для…

93 viewsAnatoly Alekseev, edited 09:51

Aspiring Data Science

А Вы используете feature selection (FS) в своих конвейерах ML?

Anonymous Poll

13%

Не использую. Это не нужно: современные алгоритмы сами берут только релевантные признаки

Хотелось бы использовать, но мои ML среды (DaksML, SparkML) не поддерживают FS

47%

Делаю FS вручную. Ничто не заменит эксперта!

40%