Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#news #nvidia

"Что интересно, за сутки NVIDIA прибавила больше, чем капитализация всей таких компаний, как AMD и Intel. Первая оценивается в $192 млрд, тогда как цена второй сократилась до всего лишь $113 млрд.

Решение о создании компании было принято в апреле 1993 года, когда теперешний её глава Дженсен Хуанг (Jensen Huang) обсуждал с двумя коллегами-инженерами возможности улучшить компьютерную графику. В конце 2006 года NVIDIA совершила революцию, предложив средства разработки ПО, использующего мощности графических процессоров для целей, не связанных с графикой. Вскоре стало ясно, что чипы NVIDIA подходят для вычислений, необходимых для работы систем ИИ — они превосходно выполняют множество операций одновременно, тогда как центральные процессоры справляются с этой задачей менее эффективно."

https://3dnews.ru/1087429/nvidiavplotnuyu-podobralas-k-rinochnoy-kapitalizatsii-v-1-trillion
#news

"Более половины работников исследовательского подразделения были переведены в другие отделы Arm — научные проекты не были закрыты полностью, но их направление было скорректировано в сторону конкретных возможностей для бизнеса с перспективой около 10 лет по нескольким направлениям. В последние годы Arm Research занималось, в частности, сенсорами малой мощности, контролирующими подачу питания от аккумуляторов; ИИ-суперкомпьютерами с архитектурой по образцу человеческого мозга; а также новыми полупроводниковыми материалами.

Некоторые проекты, включая направления машинного обучения и архитектуры микросхем, были переданы другим подразделениям компании — расформированию подверглись команды, занимавшиеся инновационными материалами, устройствами и схемами, промышленная реализация которых пока невозможна."

https://3dnews.ru/1087425/arm-zakrila-issledovatelskoe-podrazdelenie-radi-optimizatsii-pered-ipo
Минутка проверки знаний иностранных языков. Как можно перевести на английский слово "баловать"? Не заглядывайте в словарь! )
Anonymous Quiz
16%
to pamper
0%
to featherbed
16%
to coddle
0%
to cosset
0%
to cosher
0%
to dandle
3%
to grandmother
13%
to baby
34%
ALL of above
19%
NONE of above
🤔1
#gpt #law

"Роберто Мата подал в суд на авиакомпанию Avianca в связи с получением травм из-за столкновения с сервировочной тележкой во время полёта в 2019 году, заявив о халатности со стороны её сотрудника. Стивен Шварц, адвокат Levidow, Levidow & Oberman, имеющий лицензию на адвокатскую практику в Нью-Йорке более трёх десятилетий, прибегнул к помощи ChatGPT для сбора данных о предыдущих подобных судебных процессах, итоги которых свидетельствовали бы в пользу его подзащитного.

Как выяснилось, ChatGPT предоставил ему вымышленные факты, из-за чего адвокату теперь грозит потеря лицензии. В конце апреля адвокаты Avianca из Condon & Forsyth направили судье Кевину Кастелю (Kevin Castel) Федерального окружного суда Южного округа Нью-Йорка письмо, в котором поставили под сомнение подлинность приведённых адвокатом дел.

Судья после проверки отметил в постановлении, что по крайней мере шесть дел, представленных Шварцем в качестве прецедентов, «кажутся фиктивными судебными решениями с фиктивными цитатами и фиктивными внутренними отсылками к источнику»."

https://3dnews.ru/1087499/advokat-vospolzovalsya-iibotom-dlya-sbora-faktov-i-gorko-ob-etom-pogalel
🌚2
#news #hardware #nvidia

"DGX GH200 использует новую платформу NVLink Switch System, позволяющую 256 суперчипам GH200 Grace Hopper работать как единый GPU (каждый из таких суперчипов объединяет 72-ядерный CPU Grace на базе Arm, GPU класса H100, 96 Гбайт HBM3 и 512 Гбайт LPDDR5X-памяти). Это, по словам NVIDIA, позволит DGX GH200 развить производительность в 1 экзафлоп и иметь 144 терабайта общей памяти. Шквал анонсов подчёркивает перерождение NVIDIA из простого производителя графических чипов в компанию, находящуюся в центре бума ИИ. На прошлой неделе Дженсен Хуанг дал ошеломляющий прогноз продаж на текущий квартал — почти на $4 млрд выше оценок аналитиков — благодаря спросу на чипы для центров обработки данных, выполняющие задачи ИИ. Это привело к рекордному росту акций и поставило NVIDIA на грань оценки в 1 триллион долларов — впервые в индустрии чипов."

https://3dnews.ru/1087529/nvidia-predstavila-ryad-iiproduktov-vo-glave-kotorih-dgx-gh200-odin-iz-samih-moshchnih-superkompyuterov-v-mire
Forwarded from Борис опять
#лабораторный_журнал

Внедрил ML!

Если внедрять сбор данных в операции пришлось пять-шесть месяцев, то путь от нуля до запущенного бейзлайн ML решения занял две недели. Пока что в теневом режиме: модель делает предсказания, распознает проблемы на фабрике, но этого никто не видит кроме нашей команды. Убедимся, что прогнозы полезные, и будем выводить в мир.

Вот такой глупый бейзлайн дал небесполезные предсказания: вытащить из фотографии clip embedding и обучить логрегрессию. Все сделано втупую: модель распознает классы “любая проблема” и “нет проблемы”. “Проблемных” лейблов всего пара тысяч на десятки тысяч “ок” лейблов, так что я думал, что ничего не выйдет. Но возможно получилось уже сильно лучше, чем ничего.

Сейчас у нас на фабрике каждый день надо проверять до тысячи локаций. Рук на это нехватает, поэтому проверяется случайная выборка, от силы сотня. Немалая часть проблем остаются ненайденными. Идеальная система находила бы все проблемы, мы предлагали бы агрономам проверить только проблемные локации и готово: все проблемы найдены и подтверждены человеком. Это снизило бы нагрузку с проверки сотен локаций до пары десятков, что занимало бы минут 15.

Теперь к реальности. Из 100 проблемных изображений безлайн верно находит 75. На каждые 100 распознанных проблем он неверно размечает еще 500 нормальных изображений как проблемные, так что проверять надо в 5 раз больше, чем есть проблем. Но вот что важно: подавляющее большинство локаций не проблемные. Среди 100 нормальных изображений бейзлайн верно определяет 80 как не имеющие проблем.

В конечном итоге агрономам нужно размечать только 15% изображений, что конвертируется в максимум 120 локаций. Пока что далеко от цели в 20-30 локаций. Но этот объем уже можно проверить за день. Конечно 1/3 проблем не будет найдены, но мы посчитали, что это все равно меньше, чем остается ненайденным сейчас!

Довольно глупая модель оказывается полезной, потому что убирает огромную долю простых и изначально неинтересных случаев из объема работы.
1
#analogcomputing

Так подождите, гадание на кофейной гуще, что... Да ну не...

"How to make predictions
To understand how we can use a reservoir computer to make predictions, imagine you have a record of daily rainfall for the past year and a bucket full of water near you. The bucket will be our "computational reservoir".

We input the daily rainfall record to the bucket by means of stone. For a day of light rain, we throw a small stone; for a day of heavy rain, a big stone. For a day of no rain, we throw no rock.

Each stone creates waves, which then slosh around the bucket and interact with waves created by other stones.

At the end of this process, the state of the water in the bucket gives us a prediction. If the interactions between waves create large new waves, we can say our reservoir computer predicts heavy rains. But if they are small then we should expect only light rain.

It is also possible that the waves will cancel one another, forming a still water surface. In that case, we should not expect any rain.

The reservoir makes a weather forecast because the waves in the bucket and rainfall patterns evolve over time following the same laws of physics.

So do many other natural and socio-economic processes. This means a reservoir computer can also forecast financial markets and even certain kinds of human activity."

https://www.sciencealert.com/prototype-reservoir-computer-predicts-events-better-than-some-digital-computers
#nvidia

"Ценные бумаги компании на прошлой неделе резко пошли в рост после квартального финансового отчёта, ключевые показатели которого оказались выше прогнозов аналитиков. Подорожали акции и других производителей чипов, досадным исключением стала лишь Intel. Примечательно, что во II квартале 2024 финансового года NVIDIA прогнозирует продажи на уровне $11 млрд — это на 50 % выше, чем прогнозируемые аналитиками $7,15 млрд."

https://3dnews.ru/1087606/kapitalizatsiya-nvidia-previsila-1-trillion
#gpt #alice

"YandexGPT встроена в виртуального помощника — в «Алису» и активируется по запросу «Алиса, давай придумаем». ИИ-модель запоминает реплики и отвечает на уточняющие вопросы. Это позволяет общаться с ней, как с человеком, который следит за нитью разговора.

По словам разработчиков, включение в YandexGPT поддержки контекста потребовало решения ряда технически сложных задач. «Нужно было научить нейросеть понимать, когда следует учитывать предыдущие реплики, а когда нет. Для этого её дообучили на эталонных примерах обезличенных диалогов. Менее чем за три недели пользователи задали «Алисе» десятки тысяч вопросов, требующих контекстного ответа, а AI-тренеры научили модель давать на такие запросы максимально релевантный ответ. Также были использованы диалоги из Open Source датасета Open Assistant», — поясняют специалисты компании.

YandexGPT была представлена широкой публике 17 мая 2023 года. Языковая ИИ-модель нового поколения доступна в «Яндекс.Браузере», мобильном приложении «Яндекса», в линейке умных колонок и телевизоров компании, а также на главной странице «Яндекса» (ya.ru). В планах разработчика — обучение нейросети новым знаниям и её внедрение в другие сервисы и продукты компании, прежде всего в поиск."

https://3dnews.ru/1087897/neyroset-yandexgpt-nauchilas-poddergivat-kontekst-besedi
#tesla

"Версия Model S Plaid с так называемым пакетом «Track Package» смогла обновить рекорд Нюрбургринга для серийно выпускаемого электромобиля, пройдя «северную петлю» за 7 минут 25,231 секунды. Тем самым, Porsche с предыдущим результатом оказалась на втором месте и проиграла около 8 секунд. Напомним, что опциональный пакет, который был установлен на Tesla Model S Plaid, участвовавшую в заезде, включает керамические элементы тормозных механизмов и особые диски с шинами, которые в совокупности стоят $20 000 и будут доступны всем желающим. Опция также подразумевает использование специальной прошивки, которая открывает доступ к скоростям до 322 км/ч, плюс наличие тормозной жидкости, приспособленной для эффективной работы в условиях гоночной трассы. Установить комплект можно на все седаны Tesla Model S, выпущенные после 2021 года включительно."

https://3dnews.ru/1087883/tesla-model-s-plaid-udalos-uluchshit-rekord-porsche-na-koltse-nyurburgringa-na-vosem-sekund
#hardware #intel

"Intel заявила, что её перспективная технология, названная PowerVia, обеспечивает 6-процентный прирост частоты на тестовых чипах уже сейчас. Также на 30 % уменьшается падение напряжения и снижаются рабочие температуры. Кроме того, благодаря вынесению питания на другую сторону чипа, разработчики получают возможность проектировать более плотные микросхемы.

В Arrow Lake, преемнике процессора Meteor Lake, который выйдет в 2024 году, Intel отделит линии напряжения от сигнальных линий, перенеся их на противоположную сторону чипа. Именно это решение Intel и называет именем PowerVia. «PowerVia это революционное изменение для межсоединений на кристалле, которое улучшает мощность, производительность, площадь и стоимость, то есть все важные параметры транзисторного дизайна», — сказал Бен Селл (Ben Sell), вице-президент Intel, работавший над технологией."

https://3dnews.ru/1087917/intel-povisit-chastoti-protsessorov-arrow-lake-za-schyot-tehnologii-powervia-eyo-uspeshno-proverili
1
#business

Мне кажется, с финансированием в $1M я бы мог сделать несколько успешных стартапов, нанимая разработчиков. Так много хороших идей и так мало времени. Ни у кого нет лишнего ляма? Что характерно, несколько месяцев тому я написал письмо с подобным содержанием 5 моим лучшим клиентам, мол, не хотят ли проинвестировать в такое? Ни один не ответил. ) В сотрудничество/партнёрство я уже не верю, так как все "слишком заняты", чтобы начать работать и что-то полезное сделать. Только найм, или своими силами.
#astronomy #lifeorigin #jameswebb

"Спектральные приборы «Уэбба» позволили выделить в свете галактики SPT0418-47 сложные органические молекулы, которые на Земле обычно находятся в нефти. Обнаружить подобное в открытом космосе всего через 1,5 млрд лет после Большого взрыва — это было удивительно. Это указывает на то, что химические преобразования во Вселенной шли гораздо быстрее, чем это себе представляла земная наука. На тот момент Вселенная прошла только 10 % своего развития, а органики там не меньше чем в нашей галактике. Подобные вещества должны были быть в ней в следовых количествах и недоступны для определения земными приборами."

https://3dnews.ru/1087960/dgeyms-uebb-obnarugil-slognuyu-organiku-v-dalyokoy-galaktike-v-period-detstva-vselennoy
Forwarded from Борис опять
#лабораторный_журнал

ML - субоптимальное, но кост-эффективное решение.

Мы делаем на фабрике детекцию проблем с растениями. Но зачем детектить проблемы после того, как они произошли, если можно было бы работать над устранением проблем? Лучше не иметь проблем с ирригацией, чем узнавать о проблемах с ирригацией.

Суть в том, что затраты на решение проблем в зародыше имеют свойство расти очень быстро. Условно говоря устранить 90% проблем это просто база, 95% проблем это хорошо, 96% уже сложно, 99% очень дорого, 99.9% абсурдно дорого. Проценты взяты с потолка, но главное идея: затраты растут нелинейно и каждый процентик дается сложнее предыдущего.

Тогда можно хитрить: сделаем решение, которое работает немного хуже, чем оптимальное, но многократно дешевле. Здесь и приходит на помощь ML.

Кстати такой подход очень популярен в математике: заменяем точный расчет на приблизительный и получаем огромное ускорение за счет небольшой ошибки. Пример: семплирование, Монте-Карло симуляции.
Forwarded from Dealer.AI
Исследования MIT, о том как изменяется производительность труда с и без LLM.

А пока мы тут трындим за хайп и LLM. Ребята из MIT проделали мега соц.эксперимент. Они заперли 444 белых воротничка в офисе и заставили их делать ту же работу с и без ChatGPT.

Те лошадки, что были под допингом ChatGPT. Справились с работой на 37% быстрее, при той же оценке качества результата. Кстати, для этого они придумали специальную, репрезентативную систему оценки и выбрали экспертов. Пахать нужно было по 20-30 мин, в рамках типичных для этих людей задач. Но в целом ни одна "лошадка" не пострадала.

Далее, господа погонщики из MIT провели эксперимент по динамике роста качества, оно естественно, чем больше люди осваивались с ChatGPT росло. Потом ещё и попросили ребяток сделать за фиксированное время как можно больше задач. И снова ставка сыграла в бегах на лошадках с майками ChatGPT.

Ну и на последок. Так сказать для закрепления результатов. Подопытные повторили свою работу ещё разок. Повторенье мать ученья! В итоге, double elimination подтвердил всё указанное выше.

Далее, в статье указан предполагаемый экономический эффект. Анализируется мотивация участников эксперимента, запрашивается обратная связь.

По обратной связи:

Команда также спросила людей, “для чего они использовали ChatGPT”, и выяснила следующее. LLM сокращает время мозгового штурма, значительно сокращает время создания черновика, но затем проактивно используется в процессе окончательного редактирования.
Другими словами, это система, которая значительно ускоряет “первый набросок” и “первоначальные выводы” части работы, которые затем будут использоваться чуть более интенсивно для итогового эскиза. И это становится еще лучше. Когда они спросили респондентов, как они сами оценивают свои навыки письма, оказалось, что “готовность платить” и “полученная ценность” почти идентичны у “плохих писателей” и “хороших писателей”. Другими словами, ChatGPT помогает “плохим писателям” становиться хорошими, а “хорошим писателям” продвигаться быстрее и, возможно, становиться лучше! - Это что получается, что для кожаных мешков ChatGPT, как RETRO или Retrieval augmented для LLM!? 😜

Материальный вопрос:

На мой взгляд следующая мякотка вот тут. Респонденты, использовавшие ChatGPT, сообщили исследователям, что они готовы платить ежемесячную плату в размере 0,5% от своей зарплаты за доступ к этому инструменту! Для работника, зарабатывающего 100 000 долларов в год, это эквивалентно почти 500 долларам в год за пользование этой системой.

Выводы:
Воротнички, что не хотят оседлать прогресс и раскошелиться на api'шечку, рискуют утратить свою конкурентоспособность, проиграв в продуктивности на треть. 😱

Всем желаю быть в ресурсе и осваивать новые технологии!
2
#ml #slicediscovery

Насчёт "программируемых датасетов" показалось бредом, экспертные эвристики должны по итогам беседы с DS идти в признаки, а не заменять экспертную разметку. Confident learning неизбежно, coreset selection интересно. Slice discovery - не знал, что оно так называется. А кто знает, чем выбросы "отличаются" от аномалий? ))

https://www.youtube.com/watch?v=xR5mLxwNFR0