NEW BOT Телеграм, страница

🔊 Recorded at PyCon DE & PyData Berlin 2024, 23.04.2024
https://2024.pycon.de/program/RLCLBB/

🎓 Watch Daryna Dementieva's insightful presentation on navigating the complexities of monolingual, multilingual, and cross-lingual text classification to discover…

107 viewsAnatoly Alekseev, 13:37

Aspiring Data Science

#hardware #printing

"В арсенале HP Print AI есть несколько инструментов, но наибольший интерес вызывает опция Perfect Output. Она должна решить проблему печати веб-страниц, которые обычно получаются на бумаге не слишком хорошо. Разработчики утверждают, что Perfect Output автоматически уберёт со страниц лишнее пространство, на котором нет никаких визуальных элементов и текста, а также удалит рекламу, если она присутствует на исходной веб-странице.

Размер изображений также будет оптимизирован, поэтому печать веб-страниц должна стать такой же качественной, как и печать обычного текстового документа. HP утверждает, что всё будет «идеально размещаться на странице с первого раза». При этом функция Perfect Output предназначена не только для печати с веб-сайтов. По словам разработчиков, она сделает проще печать электронных таблиц, перенос которых на бумагу также зачастую вызывает трудности.

Распространение функции Perfect Output началось на этой неделе, но пока только для ограниченного количества пользователей принтеров HP. В компании сообщили, что данный инструмент будет работать с любым принтером компании при условии, что на компьютере установлен необходимый драйвер и используется Windows 11 или Windows 10. После получения отзывов от первых пользователей компания планирует начать более масштабное развёртывание новой функции."

https://3dnews.ru/1111476/funktsii-hp-print-ai-na-baze-iialgoritmov-sdelayut-proshche-pechat-vebstranits-i-dokumentov-drugih-formatov

3DNews - Daily Digital Digest

HP внедрит ИИ в принтеры — Print AI улучшит печать веб-страниц и не только

Компания HP анонсировала запуск функций на базе искусственного интеллекта под общим названием HP Print AI, которые обеспечат «первую в отрасли интеллектуальную печать». Помимо наличия алгоритмов на основе нейросетей данный продукт призван «упростить и улучшить…

105 viewsAnatoly Alekseev, 22:12

Aspiring Data Science

#hardware #cpu #xeon #intel #gaudi

Долой сраные E-ядра!

"Granite Rapids производятся по техпроцессу Intel 3 (5 нм). В серию вошли пять моделей с количеством ядер от 72 до 128, базовой частотой от 2,0 до 2,7 ГГц и максимальной частотой 3,9 ГГц (на одном ядре), а также от 3,2 до 3,7 ГГц на всех ядрах. Процессоры получили от 432 до 504 Мбайт кеш-памяти L3 и обладают заявленным показателем TDP от 400 до 500 Вт.

Чипы поддерживают как однопроцессорные, так и двухпроцессорные сборки, имеют поддержку 12-канальной ОЗУ DDR5-6400 и MRDIMM-8800, а также оснащены поддержкой 96 линий PCIe.

Intel заявляет, что новые Xeon 6 более чем вдвое быстрее процессоров Epyc Genoa (максимально — 96 ядер Zen 4) в широком спектре вычислительных нагрузок и более чем впятеро быстрее в нейросетевых задачах.

Специализированные ИИ-ускорители Gaudi 3 специально оптимизированы для работы с генеративными моделями. В их составе используются 64 тензорных процессора (TPC) и восемь движков матричного умножения (MME) для ускорения вычислений глубоких нейронных сетей. Также ускорители Gaudi 3 получили 128 Гбайт набортной памяти HBM2 и поддерживают до 24 портов Ethernet 200 Гбит для масштабируемых сетей. Для Gaudi 3 заявляется бесшовная совместимость с фреймворком PyTorch и усовершенствованными трансформными и диффузионными моделями Hugging Face.

Intel заявляет, что новые ИИ-ускорители Gaudi 3 обеспечивают до 20 процентов большую пропускную способность и двукратное улучшение соотношения цены и производительности по сравнению с H100 для вывода модели LLaMa 2 70B."

https://3dnews.ru/1111478/intel-vipustila-servernie-protsessori-xeon-6-s-kolichestvom-yader-do-128-i-iiuskoritelya-gaudi-3

110 viewsAnatoly Alekseev, 22:50

Aspiring Data Science

#mlgems #pipelines #functiontransformer #preprocessing

Интересная находка. Если у Вас есть долго выполняющийся препроцессинг, который Вы тем не менее хотите использовать с несколькими ML модельками, есть рецепт, как оптимизировать время расчётов и избежать повторного бессмысленного фиттинга, но при этом сохранить преимущества конвейера (Pipeline).

Для этого нужно

1) вынести препроцессинг в отдельный субконвейер с заданным параметром memory
2) добавить к субконвейеру identity-транcформер, просто передающий входы дальше по цепочке. для этого можно использовать FunctionTransformer без указания func. зачем это надо: согласно доке, последний элемент конвейера НЕ КЭШИРУЕТСЯ, поэтому добавляем последним такой dummy-трансформер.

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import FunctionTransformer

preprocessor=Pipeline([('prep',MyExpensivePreprocessor()),('identity', FunctionTransformer())],memory=r"R:\Temp")

for model in (model1,model2,model3):
    pipe=Pipeline([('prep',preprocessor),('est',model)])
    pipe.fit(X,y)
   ...

P.S. для ленивых - можете заменить Pipeline на make_pipeline, тогда не надо будет указывать явно имена шагов.

✍2

111 viewsAnatoly Alekseev, edited 08:27

Aspiring Data Science

#trading

"But it doesn't mean, for example, that you can't find your own edge. I mean, the stuff we use is not based on anything all that... it's not based on anything terribly exotic, and it works extremely well. You know, there's all kinds of edges. And I think it's like they said, there's a million roads to Mecca. I think there's a million roads to making money in the markets. But you simply have to find your edge. And the simple truth is, you have to make sure that... the most important thing is if you think you have an edge, make sure you know you got an edge and make sure it's thoroughly tested and make sure you can afford it. And make sure that in fact all the assumptions about slippage and cost and so forth are real. And then go for it.
But I mean, you know, people are making money in the markets that aren't institutions for many, many years. I believe they always will be. But you have to find your edge. And let's face it, I mean, the amount of sophistication that people have now, for example, versus what they had when I first started doing this... I mean, it's a joke. But the irony is that, you know, even though TradeStation and a lot of these tools have come a long way and are very powerful, it's... to me, it's very ironic that after putting walk-forward out there almost 30 years ago now, that people still don't at the even seem wise to use it all the time. I mean, I wouldn't... I can't imagine building a strategy without walk-forward analysis. I simply... I would really shoot myself if I hadn't done that."

https://www.youtube.com/watch?v=IEeJh-A-uIQ

YouTube

Can Artificial Intelligence really replace the human trader? - Bob Pardo

Are our roles as traders coming to an end soon?

Is AI and ML (that’s Machine Learning, not Money Laundering or Meat Loaf…) going to take over the trading world?

Trading veteran Bob Pardo from Pardo Capital joins us to discuss these topics plus much more…

127 viewsAnatoly Alekseev, edited 10:02

Aspiring Data Science

#llms #gpt

https://www.youtube.com/watch?v=ahnGLM-RC1Y

YouTube

A Survey of Techniques for Maximizing LLM Performance

Join us for a comprehensive survey of techniques designed to unlock the full potential of Language Model Models (LLMs). Explore strategies such as fine-tuning, RAG (Retrieval-Augmented Generation), and prompt engineering to maximize LLM performance.

Speakers:…

121 viewsAnatoly Alekseev, 06:00

Aspiring Data Science

#gpt #llms #codegems #openai

Красивый способ извлечь текстовые данные в структурированном виде. Пример Extracting data from research papers using Structured Outputs.

from pydantic import BaseModel
from openai import OpenAI

client = OpenAI()

class ResearchPaperExtraction(BaseModel):
    noscript: str
    authors: list[str]
    abstract: str
    keywords: list[str]

completion = client.beta.chat.completions.parse(
    model="gpt-4o-2024-08-06",
    messages=[
        {"role": "system", "content": "You are an expert at structured data extraction. You will be given unstructured text from a research paper and should convert it into the given structure."},
        {"role": "user", "content": "..."}
    ],
    response_format=ResearchPaperExtraction,
)

research_paper = completion.choices[0].message.parsed

Example response:

{
"noscript": "Application of Quantum Algorithms in Interstellar Navigation: A New Frontier",
"authors": [
"Dr. Stella Voyager",
"Dr. Nova Star",
"Dr. Lyra Hunter"
],
"abstract": "This paper investigates the utilization of quantum algorithms to improve interstellar navigation systems. By leveraging quantum superposition and entanglement, our proposed navigation system can calculate optimal travel paths through space-time anomalies more efficiently than classical methods. Experimental simulations suggest a significant reduction in travel time and fuel consumption for interstellar missions.",
"keywords": [
"Quantum algorithms",
"interstellar navigation",
"space-time anomalies",
"quantum superposition",
"quantum entanglement",
"space travel"
]
}

111 viewsAnatoly Alekseev, 07:06

Aspiring Data Science

#fun #animals

https://www.youtube.com/shorts/Asb37-aNc70

YouTube

This bat was rescued after being washed down a drain and was adopted #animalshorts

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

110 viewsAnatoly Alekseev, 11:54

Aspiring Data Science

#kvcaching #attention #transformer

https://medium.com/@joaolages/kv-caching-explained-276520203249

Medium

KV Caching Explained

How caching Key and Value states makes transformers faster

108 viewsAnatoly Alekseev, edited 12:07

Aspiring Data Science

Forwarded from Data notes

Женя - очень крутой лидер, именно с ним мы последние полгода делали риск-движок для нигерийского банка, о котором я упоминал выше. И, в отличие от меня, он в Нигерии прям живет, и в этом подкасте рассказывает много интересного не только про рабочие будни, но и про жизнь в этой стране, о которой мы, выходцы из стран СНГ, практически ничего не знаем.

Эксклюзивный контент!

YouTube

Царская жизнь дата сайентиста в Нигерии — повара, охрана, яхт-клубы и похищения

Подробнее о наших друзьях из Lamoda Tech:
Telegram: https://news.1rj.ru/str/+fexYbm24Q34zMDgy
Сайт: https://latech.ru/
Habr: https://habr.com/ru/companies/lamoda/articles/

Супер-курс Влада Тена по Алгоритмам!
https://news.1rj.ru/str/tribute/app?startapp=sjGY-5jAPwCjfRH3

Мы обречены…

91 viewsAnatoly Alekseev, 22:20

Aspiring Data Science

#nlp #mteb #embeddings

Есть такой MTEB - Massive Text Embedding Benchmark.
У них сделан приятный лидерборд на Градио.

Большинства моделек, которые были в топе пару лет тому, когда я немного занимался NLP, в этой таблице вообще нет, наверное, слишком слабы.

Что удивительно, эмбеддинговые модельки от OpenAI практически в самом хвосте.

А что же чемпион? Всех заруливает опенсорсная NV-Embed-v2 от Nvidia.

"We present NV-Embed-v2, a generalist embedding model that ranks No. 1 on the Massive Text Embedding Benchmark (MTEB benchmark)(as of Aug 30, 2024) with a score of 72.31 across 56 text embedding tasks. It also holds the No. 1 in the retrieval sub-category (a score of 62.65 across 15 tasks) in the leaderboard, which is essential to the development of RAG technology.

NV-Embed-v2 presents several new designs, including having the LLM attend to latent vectors for better pooled embedding output, and demonstrating a two-staged instruction tuning method to enhance the accuracy of both retrieval and non-retrieval tasks. Additionally, NV-Embed-v2 incorporates a novel hard-negative mining methods that take into account the positive relevance score for better false negatives removal.

For more technical details, refer to our paper: NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models."

Для русского языка потестировано в 6 раз меньше моделей, лидируют e5-mistral-7b-instruct(7B) и multilingual-e5-large-instruct (0.5B). Если их сравнить со старенькими distilrubert-small-cased или rubert от DeepPavlov, в зависимости от задачи скор лидеров выше от 10 до 60 процентных пунктов.

GitHub

GitHub - embeddings-benchmark/mteb: MTEB: Massive Text Embedding Benchmark

MTEB: Massive Text Embedding Benchmark. Contribute to embeddings-benchmark/mteb development by creating an account on GitHub.

👍3

128 viewsAnatoly Alekseev, edited 03:34

Aspiring Data Science

Не забросил идею создания базы знаний по трейдингу на основании интервью экспертов, с AI технологиями. Интересен ли Вам такой продукт?

Anonymous Poll

17%

Нет. Не интересуюсь трейдингом и инвестированием

78%

Любопытно посмотреть, получится ли у тебя. Сделай, а там увидим, вдруг заинтересуюсь.

Я буду задавать ИИ вопросы, а он отвечать, пользуясь знаниями экспертов? Готов купить подписку.

18 voters117 viewsAnatoly Alekseev, 04:46

Aspiring Data Science

https://youtu.be/czT4sr1AooI?si=pgJWatPnCrpAzIVn

YouTube

Евгений Смирнов | Десять вопросов, которые нужно задать перед трудоустройством

Спикер: Евгений Смирнов, Head of ML Laboratory Alfa Bank & Chief Data Scientist, Alfa-Bank | автор канала Нескучный Data Science | ex. Tinkoff | MIPT alumni

Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в треке…

124 viewsAnatoly Alekseev, 20:30

Aspiring Data Science

#featureselection #redundancy #indicators #trading #hurst

https://www.youtube.com/watch?v=x_JcExwuu60

YouTube

David Aronson of Hood River on data mining & Hurst signals - at The Trading Show Chicago 2013

David Aronson, President of Hood River Research, gave a presentation at The Trading Show Chicago 2013 on the topic, 'Rapid identification of non-redundant predictors with data mining bias correction and its application to extreme Hurst signals.'

The Trading…

133 viewsAnatoly Alekseev, edited 07:48

Aspiring Data Science

#google #alphachip

https://3dnews.ru/1111695/google-predstavila-tehnologiyu-proektirovaniya-mikroshem-alphachip-s-pomoshchyu-ii

3DNews - Daily Digital Digest

Google представила технологию проектирования микросхем AlphaChip с помощью ИИ

Google представила AlphaChip — метод обучения искусственного интеллекта с подкреплением для проектирования микросхем.

139 viewsAnatoly Alekseev, 00:46

Aspiring Data Science

#postgres #databases

Темпоральный уникальный ключ - крутая идея! Как и триггер ON LOGIN.

https://www.youtube.com/watch?v=peLXtGorl8A

YouTube

Обзор PostgreSQL 17 — Павел Лузанов, PGConf.Russia 2024

На конференции по PostgreSQL в Москве руководитель отдела образовательных программ Postgres Professional представил детальный обзор фич новой 17-версии открытой СУБД PostgreSQL. На PGConf.Russia 2024 Павел рассказал про часть фич системы, о которых было известно…

121 viewsAnatoly Alekseev, edited 11:34

Aspiring Data Science

#fun #gpt

https://youtu.be/RMRMmkJbhs0?si=WkOJmA22lTkfeiNB

YouTube

I Got ChatGPT's Advanced Voice Mode to Sing With Me

While I may not be a good singer, I was willing to put the extent of talent I have to see if I can get ChatGPT Advanced Voice Mode to sing, which it said it shouldn't be able to do.

103 viewsAnatoly Alekseev, edited 15:11

Aspiring Data Science

#microsoft #brazil

Интересно, что история с судьёй Мораесом и Маском ничему Сатью не научила.

"Компания Microsoft будет способствовать развитию облачной и ИИ-инфраструктуры Бразилии, расширяя свои собственные дата-центры в стране. По данным Datacenter Dynamics, компания объявила о намерении потратить $2,7 млрд на соответствующие проекты в течение трёх лет. В частности, в штате Сан-Паулу предполагается расширить облачную инфраструктуру в нескольких кампусах ЦОД. В Бразилии у компании есть облачный регион Brazil South в штате Сан-Паулу (введён в эксплуатацию в 2014 году), а в 2020 году IT-гигант запустил Brazil Southeast в Рио-де-Жанейро.

Глава Microsoft Сатья Наделла (Satia Nadella) уже заявил о поддержке ИИ-трансформации страны и сообщил, что новые инвестиции компании в облака и ИИ обеспечат доступ к современным технологиям, а программы обучения будут способствовать получению новых навыков, которые станут драйвером процветания людей и экономики Бразилии в эру ИИ."

https://servernews.ru/1111708

ServerNews - все из мира больших мощностей

Microsoft потратит $2,7 млрд на облачную и ИИ-инфраструктуру в Бразилии

Компания Microsoft будет способствовать развитию облачной и ИИ-инфраструктуры Бразилии, расширяя свои собственные дата-центры в стране. По данным Datacenter Dynamics, компания объявила о намерении потратить $2,7 млрд на соответствующие проекты в течение трёх…

132 viewsAnatoly Alekseev, edited 04:04

Aspiring Data Science

#chess

https://www.youtube.com/watch?v=UR3lKBn5WRw

YouTube

10y Old Kid Beat a Chess Grand Master, HIKARU NAKAMURA vs FAUSTINO ORO

GM Hikaru Nakamura and 10y old IM Faustino Oro played in Arena Kings, 03 July 2024.

00:00 | Hikaru Nakamura vs Faustino Oro
05:34 | End screen

#chess #grandmaster #hikarunakamura #gmhikaru #faustichess #faustinooro #blitz #magnuscarlsen #gothamchess #hansniemann…

121 viewsAnatoly Alekseev, 22:34

Aspiring Data Science

#twitter #musk #management

Реально Маск просто угандошил Твиттер. Даже внешне посмотреть, из голубенькой, яркой, весёлой соцсети он сделал что-то чёрное, угрюмое. Лучше бы он свою "соцсеть мечты" X с нуля делал (

https://3dnews.ru/1111795/po-otsenkam-fidelity-seychas-aktivi-x-stoyat-v-chetire-raza-menshe-chem-do-ih-pokupki-ilonom-maskom

3DNews - Daily Digital Digest

Эффективный менеджмент: под управлением Илона Маска Twitter подешевел более чем вчетверо

В конце 2022 года Илон Маск (Elon Musk) был вынужден купить Twitter за $44 млрд, поскольку все его попытки сбить цену с апреля того же года потерпели неудачу, а в случае отказа от условий сделки по его инициативе миллиардеру грозил серьёзный штраф.

128 viewsAnatoly Alekseev, 14:47

Aspiring Data Science

Forwarded from Maxim.ML - канал

Как новички в Data Science решают сложные задачи: результаты моих студентов в ML соревновании 📊

Какие подходы пробуют применять стажеры и джуны в Data Science соревнованиях с табличными данными? Я принёс инфографику моих студентов, которая иллюстрирует их работы в финальном соревновании курса 📈

🔍 Предыстория
В прошлом учебном году я вел блок занятий по Machine Learning на одном из курсов. Чтобы отработать навыки студентов, я запустил inclass соревнование. Студенты решали задачу бинарной классификации — для многих это был первый подобный опыт.

Почти все подходы студентов были связаны с алгоритмами градиентного бустинга. В топ 3 решений попали ансамбли, automl и catboost 🏆

Если вам понравилась визуализация, python код для ее воспроизведения доступен на моем GitHub. Сделать такую же инфографику проще, чем вы думаете! ✨

113 viewsAnatoly Alekseev, 12:51

About

Blog

Apps

Platform