NEW BOT Телеграм, страница

Всем привет!

Я с результатом достаточно случайной, но в итоге очень большой и интересной работы — причём не только моей, а ещё 11 человек, самоотверженно уделивших время задуманной мной авантюре. #делай_bench

Авантюра эта — небольшой любительский бенчмарк, а точнее т.н. human evaluation benchmark (то есть без автоматизированной проверки по эталонным ответам) 5 нейросетевых сервисов:

🤩

open-source модель Ken1.0-67B (дообученный на российской нормативной и правоприменительной базе Qwen 2). Для того, чтобы потестировать эту модель на хороших видеокарточках начала собирать у сообщества нетривиальные юридические задачки.

🤩

сервис АйЮрист — та же модель с RAG-технологией, доступ к которой предложил Кенан Коюшов, основатель сервиса. Именно после этого предложения Кенана появилась идея сделать мини-бенчмарк, предложить авторам вопросов поучаствовать в оценке ответов не только на свои вопросы, но и другие вопросы от разных нейросетей.
🤩 Нейроюрист — в представлении не нуждается, показалось интересным сравнить сопоставимые по функционалу сервисы от стартапа и технологического гиганта.
🤩 бразузерный DeepSeek в двух обличиях — стандартный и думающий, оба без поиска в Интернете. DeepSeek бесплатный, доступен в РФ без дополнительных танцев с бубном, довольно популярен среди юристов. Интересно было увидеть, есть ли для обычного пользователя резон идти в платные сервисы, или модель общего назначения может хорошо решать юридические задачки.

Результаты приложены и, как мне кажется, очень интересные получились. Не пугайтесь объёма документа, там в основном картинки и наглядные графики.

Я, думаю, напишу ещё как минимум один пост с рассказом о процессе, своих личных впечатлениях от взаимодействия с Нейроюристом и продуктами Кенана и вообще от всего этого мероприятия. Вот и контент-план на остаток года ☕

Ещё раз хочу поблагодарить всех, кто согласился и смог выступить экспертами в это загруженное предновогоднее время! 🥰 Я убеждена, что мы сделали совершенно правильную вещь, даже несмотря на её некоторую методологическую наивность.

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥36❤17👍11👏3🤯1

6.14K viewsedited 10:17