Оценка больших языковых моделей в 2025 году: пять методов
Большие языковые модели (LLM) в последнее время стремительно развиваются и несут в себе потенциал для кардинального преобразования ИИ. Точная оценка моделей LLM крайне важна, поскольку:
* Компании должны выбирать генеративные AI-модели для внедрения в работу. Базовых моделей LLM сейчас множество, и для каждой есть различные их модификации.
* После выбора модели будет проходить fine-tuning. И если производительность модели не измерена с достаточной точностью, пользователи не смогут оценить эффективность своих усилий.
Таким образом, необходимо определить:
* Оптимальные методы оценки моделей
* Подходящий тип данных для обучения и тестирования моделей
Поскольку оценка систем LLM является многомерной задачей, важно разработать комплексную методологию измерения их производительности. В этой статье рассматриваются основные проблемы существующих методов оценки и предлагаются решения для их устранения.
Читать: https://habr.com/ru/articles/887290/
#ru
@big_data_analysis | Другие наши каналы
Большие языковые модели (LLM) в последнее время стремительно развиваются и несут в себе потенциал для кардинального преобразования ИИ. Точная оценка моделей LLM крайне важна, поскольку:
* Компании должны выбирать генеративные AI-модели для внедрения в работу. Базовых моделей LLM сейчас множество, и для каждой есть различные их модификации.
* После выбора модели будет проходить fine-tuning. И если производительность модели не измерена с достаточной точностью, пользователи не смогут оценить эффективность своих усилий.
Таким образом, необходимо определить:
* Оптимальные методы оценки моделей
* Подходящий тип данных для обучения и тестирования моделей
Поскольку оценка систем LLM является многомерной задачей, важно разработать комплексную методологию измерения их производительности. В этой статье рассматриваются основные проблемы существующих методов оценки и предлагаются решения для их устранения.
Читать: https://habr.com/ru/articles/887290/
#ru
@big_data_analysis | Другие наши каналы
Бегущий по лезвию ИИ — 2025: сезон футурологии на Хабре
В 2025 году школьники не летают на Марс, автомобили всё так же колесят по земле, а искусственный интеллект, к счастью, не стремится поработить человечество. Но он уже меняет мир вокруг нас, проникая в самые разные сферы жизни. Каким будет наше будущее? Какие технологии определят его облик? В новом сезоне — «Будущее здесь» — предлагаем вместе с нами поразмышлять над этими вопросами.
Думать широко, глубоко и даже дерзко — в духе Хабра, и тема сезона этому способствует. Ведь каждое смелое предсказание — это шаг в неизведанное. А самый смелый шаг заслуживает не только признания, но и крутого приза.
Узнать об условиях и призах
Читать: https://habr.com/ru/specials/887398/
#ru
@big_data_analysis | Другие наши каналы
В 2025 году школьники не летают на Марс, автомобили всё так же колесят по земле, а искусственный интеллект, к счастью, не стремится поработить человечество. Но он уже меняет мир вокруг нас, проникая в самые разные сферы жизни. Каким будет наше будущее? Какие технологии определят его облик? В новом сезоне — «Будущее здесь» — предлагаем вместе с нами поразмышлять над этими вопросами.
Думать широко, глубоко и даже дерзко — в духе Хабра, и тема сезона этому способствует. Ведь каждое смелое предсказание — это шаг в неизведанное. А самый смелый шаг заслуживает не только признания, но и крутого приза.
Узнать об условиях и призах
Читать: https://habr.com/ru/specials/887398/
#ru
@big_data_analysis | Другие наши каналы
❤1
Интеграция данных: Oracle и Salesforce объединяют усилия
Oracle предлагает интеграцию данных из Salesforce CRM с Eloqua Marketing и Fusion продуктами, предоставляя организациям возможность глубже анализировать взаимодействие с клиентами и операционные метрики.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle предлагает интеграцию данных из Salesforce CRM с Eloqua Marketing и Fusion продуктами, предоставляя организациям возможность глубже анализировать взаимодействие с клиентами и операционные метрики.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Настройка Панели Грамматики в Визуализации Данных
Пост: Узнайте, как настроить Панель Грамматики в пользовательских расширениях визуализации данных. Статья расскажет о ключевых шагах конфигурации и поможет улучшить отображение ваших данных. Воплотите информацию в понятные графические формы.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Пост: Узнайте, как настроить Панель Грамматики в пользовательских расширениях визуализации данных. Статья расскажет о ключевых шагах конфигурации и поможет улучшить отображение ваших данных. Воплотите информацию в понятные графические формы.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Unlocking Custom Visualizations in Oracle Analytics: Configuring the Grammar Panel – Part 3
This article focuses on configuring the Grammar Panel of a data visualization custom extension.
Код, который дышит: создание виртуальной вселенной на NestJS и своим AI на Tensorflow.js
Представьте мир, где каждый персонаж живёт своей жизнью: принимает решения, взаимодействует с окружающей средой и даже эволюционирует. Где почва, растения и ресурсы подчиняются сложным алгоритмам, а нейронные сети управляют поведением тысяч существ. Это не сценарий для нового блокбастера — это проект, над которым я работаю.
В этой статье я расскажу, как с помощью NestJS, TypeORM и Tensorflow.js создаю виртуальную вселенную, которая “дышит” и развивается. Мы разберём:
Это что, фантазия автора?!
Читать: https://habr.com/ru/articles/888226/
#ru
@big_data_analysis | Другие наши каналы
Представьте мир, где каждый персонаж живёт своей жизнью: принимает решения, взаимодействует с окружающей средой и даже эволюционирует. Где почва, растения и ресурсы подчиняются сложным алгоритмам, а нейронные сети управляют поведением тысяч существ. Это не сценарий для нового блокбастера — это проект, над которым я работаю.
В этой статье я расскажу, как с помощью NestJS, TypeORM и Tensorflow.js создаю виртуальную вселенную, которая “дышит” и развивается. Мы разберём:
Это что, фантазия автора?!
Читать: https://habr.com/ru/articles/888226/
#ru
@big_data_analysis | Другие наши каналы
Эпилог. Создание ботов для торговли криптовалютами и акциями (часть третья, заключительная)
Предыдущий пост: https://habr.com/ru/articles/677290/
Ильф и Петров оживили Остапа, и по их примеру, оказавшись в определенной точке своей жизни, я решил написать продолжение своих заметок. Спойлер для тех кому лень читать дальше - у меня нет яхты, я ищу работу на заводе, и если повезет, то это будет завод по выращиванию медицинского каннабиса.
В этой статье не будет технических решений или алгоритмов, я хочу рассказать о своем опыте, который приобрел с момента опубликования предыдущего текста и перемещения меня в другую жизнь.
Читать: https://habr.com/ru/articles/888320/
#ru
@big_data_analysis | Другие наши каналы
Предыдущий пост: https://habr.com/ru/articles/677290/
Ильф и Петров оживили Остапа, и по их примеру, оказавшись в определенной точке своей жизни, я решил написать продолжение своих заметок. Спойлер для тех кому лень читать дальше - у меня нет яхты, я ищу работу на заводе, и если повезет, то это будет завод по выращиванию медицинского каннабиса.
В этой статье не будет технических решений или алгоритмов, я хочу рассказать о своем опыте, который приобрел с момента опубликования предыдущего текста и перемещения меня в другую жизнь.
Читать: https://habr.com/ru/articles/888320/
#ru
@big_data_analysis | Другие наши каналы
🔍 Лучшие расширения VSCode для дата-инженеров
Если вы хотите улучшить свой рабочий процесс в Visual Studio Code как дата-инженер, эта статья вам поможет. Разберем ключевые расширения, которые добавят функционал: от Gitlens и Python тестов до Jupyter Notebook и SQL Tools. Узнайте, как оптимально настроить рабочее пространство и делиться им с коллегами!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Если вы хотите улучшить свой рабочий процесс в Visual Studio Code как дата-инженер, эта статья вам поможет. Разберем ключевые расширения, которые добавят функционал: от Gitlens и Python тестов до Jupyter Notebook и SQL Tools. Узнайте, как оптимально настроить рабочее пространство и делиться им с коллегами!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Оптимизация пайплайнов данных в Python
Функции или ООП в создании пайплайнов данных в Python? Статья обсуждает, как использовать комбинацию функционального и объектно-ориентированного подхода для упрощения разработки и поддержки. Функции упрощают трансформации, тогда как объекты помогают отслеживать состояние системы и прогресс. Узнайте, как выбрать подходящее решение в зависимости от задачи!
Создание и поддержка ETL-пайплайнов: ключевые принципы
В статье рассматриваются основы создания и поддержки ETL-пайплайнов. Авторы объясняют, как использовать классы и объекты для управления состоянием и логикой, а также как внедрить зависимые объекты через функции для повышения читабельности и простоты в сопровождении кода.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Функции или ООП в создании пайплайнов данных в Python? Статья обсуждает, как использовать комбинацию функционального и объектно-ориентированного подхода для упрощения разработки и поддержки. Функции упрощают трансформации, тогда как объекты помогают отслеживать состояние системы и прогресс. Узнайте, как выбрать подходящее решение в зависимости от задачи!
Создание и поддержка ETL-пайплайнов: ключевые принципы
В статье рассматриваются основы создания и поддержки ETL-пайплайнов. Авторы объясняют, как использовать классы и объекты для управления состоянием и логикой, а также как внедрить зависимые объекты через функции для повышения читабельности и простоты в сопровождении кода.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как превратить 1000 строк SQL в модульный код?
В статье описывается, как переписать громоздкие SQL-скрипты в модульную структуру, которая легко тестируется и поддерживается. Рекомендуется разделять запросы на функции, проводить валидацию и писать юнит-тесты для каждого модуля. Это облегчает модификацию и тестирование кода в будущем.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
В статье описывается, как переписать громоздкие SQL-скрипты в модульную структуру, которая легко тестируется и поддерживается. Рекомендуется разделять запросы на функции, проводить валидацию и писать юнит-тесты для каждого модуля. Это облегчает модификацию и тестирование кода в будущем.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как обеспечить консистентные метрики в вашем хранилище данных
Для предотвращения расхождений в метриках статьи предлагают централизацию их определений. Использование семантических слоев обеспечивает гибкость и актуальность, в то время как предагрегированные таблицы проще, но менее масштабируемы. Выбор подхода зависит от ваших потребностей и ресурсов.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Для предотвращения расхождений в метриках статьи предлагают централизацию их определений. Использование семантических слоев обеспечивает гибкость и актуальность, в то время как предагрегированные таблицы проще, но менее масштабируемы. Выбор подхода зависит от ваших потребностей и ресурсов.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Готовитесь к системному проектированию для data engineering? Новая статья предлагает структурированное руководство для успешного прохождения интервью. Узнайте, какие требования и данные учитывать, как моделировать данные и строить пайплайны, а также почему важен контроль качества данных. Всё для уверенности на интервью. Эффективное управление данными: ключевые аспекты
Как оптимизировать работу с данными? В статье обсуждаются важные техники, такие как оптимизация партиционирования и использования форматов таблиц, стратегии перезапуска данных и способы улучшения их наблюдаемости. Узнайте, как обеспечить качественный опыт для конечных пользователей.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как оптимизировать работу с данными? В статье обсуждаются важные техники, такие как оптимизация партиционирования и использования форматов таблиц, стратегии перезапуска данных и способы улучшения их наблюдаемости. Узнайте, как обеспечить качественный опыт для конечных пользователей.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
От данных к действиям: как мы создавали рекомендации на главной странице Uzum Market
Меня зовут Фарит, я ML-инженер в команде рекомендаций Uzum Market. Сегодня я расскажу, как мы с нуля разработали персональные рекомендации для главной страницы нашего маркетплейса. Мы разберем архитектуру системы, используемые алгоритмы и способы измерения успеха проекта.
Читать: https://habr.com/ru/companies/uzum/articles/884328/
#ru
@big_data_analysis | Другие наши каналы
Меня зовут Фарит, я ML-инженер в команде рекомендаций Uzum Market. Сегодня я расскажу, как мы с нуля разработали персональные рекомендации для главной страницы нашего маркетплейса. Мы разберем архитектуру системы, используемые алгоритмы и способы измерения успеха проекта.
Читать: https://habr.com/ru/companies/uzum/articles/884328/
#ru
@big_data_analysis | Другие наши каналы
Карьера в Data Engineering: взгляд на образование и зарплату
Каждый день мы создаем колоссальные объемы данных: кликаем по рекламе, совершаем покупки, вызываем такси, смотрим видео. Компании накопили терабайты информации, но без правильной структуры и обработки она бесполезна. Именно инженеры данных отвечают за то, чтобы данные можно было эффективно хранить, обрабатывать и передавать аналитикам, машинному обучению и бизнесу.
Читать: https://habr.com/ru/articles/888536/
#ru
@big_data_analysis | Другие наши каналы
Каждый день мы создаем колоссальные объемы данных: кликаем по рекламе, совершаем покупки, вызываем такси, смотрим видео. Компании накопили терабайты информации, но без правильной структуры и обработки она бесполезна. Именно инженеры данных отвечают за то, чтобы данные можно было эффективно хранить, обрабатывать и передавать аналитикам, машинному обучению и бизнесу.
Читать: https://habr.com/ru/articles/888536/
#ru
@big_data_analysis | Другие наши каналы
Геоинтерполяция от А до Я: как создать карту покрытия сети
Привет, Хабр! Меня зовут Даулет Курмантаев, я дата-сайентист в крупной казахстанской телеком-компании. Работаю в отделе Customer Experience Management. Мы анализируем качество связи и автоматизируем решения по строительству и модернизации базовых станций.
В этой статье расскажу, как мы использовали геоаналитику и интерполяцию для создания карты покрытия сети. Поделюсь методами, с которыми работали; проблемами, с которыми столкнулись; и результатами, которых добились.
Читать: https://habr.com/ru/articles/888910/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Даулет Курмантаев, я дата-сайентист в крупной казахстанской телеком-компании. Работаю в отделе Customer Experience Management. Мы анализируем качество связи и автоматизируем решения по строительству и модернизации базовых станций.
В этой статье расскажу, как мы использовали геоаналитику и интерполяцию для создания карты покрытия сети. Поделюсь методами, с которыми работали; проблемами, с которыми столкнулись; и результатами, которых добились.
Читать: https://habr.com/ru/articles/888910/
#ru
@big_data_analysis | Другие наши каналы
Зачем бизнесу нужно DWH и как обосновать необходимость проекта? Можно ли оценить окупаемость хранилища?
Проекты внедрения DWH относятся к трудоемким и всегда требуют вложений, стоимость проектов начинается от 1,5 млн руб.
К проекту необходимо привлекать системных аналитиков, архитекторов DWH, разработчиков, DevOps, дата-инженеров. Кроме затрат на ФОТ, нужны бюджеты на инфраструктуру и технологии, так как готового решения DWH из "коробки" не существует.
Как при таких затратах аргументировать для бизнеса необходимость внедрения DWH? Какие бизнес-задачи может решить хранилище данных? Можно ли оценить окупаемость и эффективность внедрения? Читайте в статье.
Читать: https://habr.com/ru/articles/888952/
#ru
@big_data_analysis | Другие наши каналы
Проекты внедрения DWH относятся к трудоемким и всегда требуют вложений, стоимость проектов начинается от 1,5 млн руб.
К проекту необходимо привлекать системных аналитиков, архитекторов DWH, разработчиков, DevOps, дата-инженеров. Кроме затрат на ФОТ, нужны бюджеты на инфраструктуру и технологии, так как готового решения DWH из "коробки" не существует.
Как при таких затратах аргументировать для бизнеса необходимость внедрения DWH? Какие бизнес-задачи может решить хранилище данных? Можно ли оценить окупаемость и эффективность внедрения? Читайте в статье.
Читать: https://habr.com/ru/articles/888952/
#ru
@big_data_analysis | Другие наши каналы
👍1
Цифровая карта аварийности: как технологии помогают сделать дороги безопаснее
Привет, Хабр! Буквально недавно в ИЦ прошло ежегодное мероприятие “Инновационная столица-2024”, где мой коллега, руководитель отдела цифровых сервисов, продемонстрировал обновленный АИС “Мониторинг аварийности”.
Цифровая карта ДТП не имеет аналогов в России, поэтому в этой статье я бы хотел рассказать, чем так уникален продукт, и как он помогает снижать количество ДТП в городе.
Читать: https://habr.com/ru/articles/889052/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Буквально недавно в ИЦ прошло ежегодное мероприятие “Инновационная столица-2024”, где мой коллега, руководитель отдела цифровых сервисов, продемонстрировал обновленный АИС “Мониторинг аварийности”.
Цифровая карта ДТП не имеет аналогов в России, поэтому в этой статье я бы хотел рассказать, чем так уникален продукт, и как он помогает снижать количество ДТП в городе.
Читать: https://habr.com/ru/articles/889052/
#ru
@big_data_analysis | Другие наши каналы
Защита Oracle Big Data c Zero Trust
Текст: Узнайте, как реализовать безопасность для Oracle Big Data Service с помощью технологии Zero Trust Packet Routing (ZPR). Эта методология позволяет минимизировать риски и защитить данные от несанкционированного доступа.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Текст: Узнайте, как реализовать безопасность для Oracle Big Data Service с помощью технологии Zero Trust Packet Routing (ZPR). Эта методология позволяет минимизировать риски и защитить данные от несанкционированного доступа.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Secure Oracle Big Data Service using Zero Trust Packet Routing
Защита Oracle Data Intelligence с Zero Trust
Узнайте, как применить концепцию маршрутизации Zero Trust для усиления безопасности платформы Oracle Data Intelligence. Представляем обзор ключевых методик и стратегий для предотвращения несанкционированного доступа к данным и их защиты.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Узнайте, как применить концепцию маршрутизации Zero Trust для усиления безопасности платформы Oracle Data Intelligence. Представляем обзор ключевых методик и стратегий для предотвращения несанкционированного доступа к данным и их защиты.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Series Overview: Securing Oracle Data Services Platform with Zero Trust Packet Routing
Series Overview for Securing Oracle Data Services Platform with Zero Trust Packet Routing
Защита Oracle Data с помощью Zero Trust
Пост: В статье рассказывается о подготовке компонентов Zero Trust Packet Routing (ZPR) для повышения безопасности Oracle Data Intelligence Platform Services. Узнайте, как ZPR обеспечивает защиту и контроль данных в современных корпоративных сетях.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Пост: В статье рассказывается о подготовке компонентов Zero Trust Packet Routing (ZPR) для повышения безопасности Oracle Data Intelligence Platform Services. Узнайте, как ZPR обеспечивает защиту и контроль данных в современных корпоративных сетях.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Prepare Zero Trust Packet Routing Components for Securing Oracle Data Intelligence Platform Services
This article describes how to prepare Zero Trust Packet Routing (ZPR) components for securing Oracle Data Intelligence Platform Services.
Защита Oracle Cloud: новый подход
Статья раскрывает использование Zero Trust Packet Routing (ZPR) для повышения безопасности Oracle Cloud Infrastructure Data Flow. Узнайте, как эта технология позволяет создать более защищенную и надежную облачную среду.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Статья раскрывает использование Zero Trust Packet Routing (ZPR) для повышения безопасности Oracle Cloud Infrastructure Data Flow. Узнайте, как эта технология позволяет создать более защищенную и надежную облачную среду.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Secure Oracle Cloud Infrastructure Data Flow using Zero Trust Packet Routing
Работа с библиотеками, которые не установлены в Airflow
Данные библиотеки можно использовать при работе со SparkOperator:
1. Создание виртуального окружения с необходимыми библиотеками
2. Создание задачи в даге и установка окружения в SparkSubmit
Читать: https://habr.com/ru/articles/889394/
#ru
@big_data_analysis | Другие наши каналы
Данные библиотеки можно использовать при работе со SparkOperator:
1. Создание виртуального окружения с необходимыми библиотеками
2. Создание задачи в даге и установка окружения в SparkSubmit
Читать: https://habr.com/ru/articles/889394/
#ru
@big_data_analysis | Другие наши каналы