Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#gpt #llms #codegems #openai

Красивый способ извлечь текстовые данные в структурированном виде. Пример Extracting data from research papers using Structured Outputs.

from pydantic import BaseModel
from openai import OpenAI

client = OpenAI()

class ResearchPaperExtraction(BaseModel):
noscript: str
authors: list[str]
abstract: str
keywords: list[str]

completion = client.beta.chat.completions.parse(
model="gpt-4o-2024-08-06",
messages=[
{"role": "system", "content": "You are an expert at structured data extraction. You will be given unstructured text from a research paper and should convert it into the given structure."},
{"role": "user", "content": "..."}
],
response_format=ResearchPaperExtraction,
)

research_paper = completion.choices[0].message.parsed


Example response:

{
"noscript": "Application of Quantum Algorithms in Interstellar Navigation: A New Frontier",
"authors": [
"Dr. Stella Voyager",
"Dr. Nova Star",
"Dr. Lyra Hunter"
],
"abstract": "This paper investigates the utilization of quantum algorithms to improve interstellar navigation systems. By leveraging quantum superposition and entanglement, our proposed navigation system can calculate optimal travel paths through space-time anomalies more efficiently than classical methods. Experimental simulations suggest a significant reduction in travel time and fuel consumption for interstellar missions.",
"keywords": [
"Quantum algorithms",
"interstellar navigation",
"space-time anomalies",
"quantum superposition",
"quantum entanglement",
"space travel"
]
}
Forwarded from Data notes
Женя - очень крутой лидер, именно с ним мы последние полгода делали риск-движок для нигерийского банка, о котором я упоминал выше. И, в отличие от меня, он в Нигерии прям живет, и в этом подкасте рассказывает много интересного не только про рабочие будни, но и про жизнь в этой стране, о которой мы, выходцы из стран СНГ, практически ничего не знаем.

Эксклюзивный контент!
#nlp #mteb #embeddings

Есть такой MTEB - Massive Text Embedding Benchmark.
У них сделан приятный лидерборд на Градио.

Большинства моделек, которые были в топе пару лет тому, когда я немного занимался NLP, в этой таблице вообще нет, наверное, слишком слабы.

Что удивительно, эмбеддинговые модельки от OpenAI практически в самом хвосте.

А что же чемпион? Всех заруливает опенсорсная NV-Embed-v2 от Nvidia.

"We present NV-Embed-v2, a generalist embedding model that ranks No. 1 on the Massive Text Embedding Benchmark (MTEB benchmark)(as of Aug 30, 2024) with a score of 72.31 across 56 text embedding tasks. It also holds the No. 1 in the retrieval sub-category (a score of 62.65 across 15 tasks) in the leaderboard, which is essential to the development of RAG technology.

NV-Embed-v2 presents several new designs, including having the LLM attend to latent vectors for better pooled embedding output, and demonstrating a two-staged instruction tuning method to enhance the accuracy of both retrieval and non-retrieval tasks. Additionally, NV-Embed-v2 incorporates a novel hard-negative mining methods that take into account the positive relevance score for better false negatives removal.

For more technical details, refer to our paper: NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models."

Для русского языка потестировано в 6 раз меньше моделей, лидируют e5-mistral-7b-instruct(7B) и multilingual-e5-large-instruct (0.5B). Если их сравнить со старенькими distilrubert-small-cased или rubert от DeepPavlov, в зависимости от задачи скор лидеров выше от 10 до 60 процентных пунктов.
👍3
#microsoft #brazil

Интересно, что история с судьёй Мораесом и Маском ничему Сатью не научила.

"Компания Microsoft будет способствовать развитию облачной и ИИ-инфраструктуры Бразилии, расширяя свои собственные дата-центры в стране. По данным Datacenter Dynamics, компания объявила о намерении потратить $2,7 млрд на соответствующие проекты в течение трёх лет. В частности, в штате Сан-Паулу предполагается расширить облачную инфраструктуру в нескольких кампусах ЦОД. В Бразилии у компании есть облачный регион Brazil South в штате Сан-Паулу (введён в эксплуатацию в 2014 году), а в 2020 году IT-гигант запустил Brazil Southeast в Рио-де-Жанейро.

Глава Microsoft Сатья Наделла (Satia Nadella) уже заявил о поддержке ИИ-трансформации страны и сообщил, что новые инвестиции компании в облака и ИИ обеспечат доступ к современным технологиям, а программы обучения будут способствовать получению новых навыков, которые станут драйвером процветания людей и экономики Бразилии в эру ИИ."

https://servernews.ru/1111708
Forwarded from Maxim.ML - канал
Как новички в Data Science решают сложные задачи: результаты моих студентов в ML соревновании 📊

Какие подходы пробуют применять стажеры и джуны в Data Science соревнованиях с табличными данными? Я принёс инфографику моих студентов, которая иллюстрирует их работы в финальном соревновании курса 📈

🔍 Предыстория
В прошлом учебном году я вел блок занятий по Machine Learning на одном из курсов. Чтобы отработать навыки студентов, я запустил inclass соревнование. Студенты решали задачу бинарной классификации — для многих это был первый подобный опыт.

Почти все подходы студентов были связаны с алгоритмами градиентного бустинга. В топ 3 решений попали ансамбли, automl и catboost 🏆

Если вам понравилась визуализация, python код для ее воспроизведения доступен на моем GitHub. Сделать такую же инфографику проще, чем вы думаете!
Forwarded from Пездуза
⚡️«А можно еще кое-кого?» Россияне обратились к Израилю
🤡3😁1
#gpt #llms #copilot

Любопытно.

"Авторы исследования Uplevel, охватившего деятельность примерно 800 разработчиков программного обеспечения, утверждают, что применение инструментов с искусственным интеллектом для написания программного кода пока не выявило ни повышения производительности труда профильных специалистов, ни снижения их эмоционального выгорания.

Первоначально ожидалось, что применение GitHub Copilot снизит количество ошибок в программном коде и увеличит производительность труда, но по факту в первом случае наблюдался рост количества ошибок на 41 %, а ещё попытки применять ИИ-ассистента не привели к существенному улучшению ситуации с эмоциональным выгоранием специалистов.

По данным GitHub, применение помощника Copilot способно на 55 % повысить скорость написания кода разработчиками.

Некоторые эксперты признались, что написанные с помощью ИИ участки программного кода трудно поддаются анализу и выявлению ошибок, поэтому порой проще переписать нужный фрагмент заново. На ранних этапах развития ChatGPT, например, отмечалось, что этот чат-бот более половины всех запросов, связанных с оптимизацией работы создателей программного кода, просто неверно истолковывает. Представители Gehtsoft, например, убеждены, что разработка программного обеспечения на 90 % зависит от функций человеческого мозга, в части понимания требований, разработки системы и определения ограничений. Превращение сформированных взаимных зависимостей в программный код является самой простой частью работы программиста.

С другой стороны, находятся и те, кто восхваляет возможности ИИ в разработке программного кода. Представители провайдера облачных услуг Innovative Solutions, например, отмечают почти троекратное повышение производительности после перехода на использование ИИ-ассистентов типа Claude Dev и Copilot."

https://3dnews.ru/1111873/ispolzovanie-iiassistentov-pri-razrabotke-po-poka-ne-uvelichivaet-proizvoditelnost-truda-kak-pokazalo-issledovanie
#nvidia #jobs

"Вассер, последние четверть века проработавший в Cisco, в 2019 году был назван в блоге компании «главным изобретателем» — на его счету 483 патента, связанных с ключевыми технологиями, от машинного обучения и ИИ в сфере безопасности на предприятиях до Интернета вещей. В должности вице-президента он, по его словам, руководил разработкой LLM и спецификаций вариантов использования генеративного ИИ, тюнингом моделей и RAG и др. Ранее Вассер занимал руководящие посты, связанные с работой над прогностическими сетями, IoT и распознаванием киберугроз. Кроме того, он возглавлял рабочие группы в IEEE и IETF и приложил руку к созданию сетевых стандартов.

Уходя из Cisco пару недель назад, Вассер напомнил о том, что именно он содействовал рождению и бурному росту интернета, в развитие которого именно Cisco в своё время внесла значительный вклад. Теперь талантливый изобретатель заявляет, что его «невероятно вдохновляют» перспективы NVIDIA и он рад присоединиться к талантливой команде."

https://servernews.ru/1111959
1
#security

"На сегодняшний день NIST рекомендует компаниям разрешить пользователям создавать пароли длиной до 64 символов. Такой длинный пароль, даже если он состоит только из строчных букв и знакомых слов, будет чрезвычайно сложен для взлома. А если добавить к нему заглавные буквы и символы, взлом такого пароля станет практически невозможным. Таким образом, в новых рекомендациях NIST сделал акцент на длину пароля как на главный фактор его безопасности."

https://3dnews.ru/1112035/eksperti-utvergdayut-chto-slognie-paroli-snigayut-bezopasnost