Представлен единый стандарт оценки текстов, сгенерированных ИИ-сервисом ChatGPT

Группа исследователей из США представила набор руководящих принципов под названием LongEval, который поможет оценивать качество длинных сгенерированных текстов с помощью генеративных нейросетей наподобие ChatGPT.

Данные принципы были представлены на Европейском отделении Ассоциации вычислительной лингвистики, где они даже получили премию за лучшую статью. Эксперты считают, что в настоящий момент нет надёжного способа оценить длинные сгенерированные тексты без участия людей, а существующие протоколы человеческой оценки являются дорогостоящими и требующими много времени.

Перед составлением LongEval исследователи изучили 162 научные работы о длинных резюме. Анализ показал, что 73 % работ вообще не проходили человеческую оценку, а оставшиеся 27 % подвергались оценкам в рамках не связанных между собой методик.

Именно поэтому в целях продвижения эффективных, воспроизводимых и стандартизированных протоколов для человеческой оценки сгенерированных текстов, авторы исследования создали список из трёх ключевых рекомендаций, которые включают в себя то, как и что должен читать оценщик, чтобы судить о надёжности текста.

Эти рекомендации выглядят следующим образом:

  • оценивать достоверность резюме по отдельным фрагментам, а не по всему тексту целиком. Это должно позволить повысить согласованность оценок между разными экспертами и уменьшить нагрузку на них;
  • использовать автоматическое выравнивание между фрагментами резюме и источника — для упрощения поиска соответствующей информации в длинных документах;
  • выбирать подходящий набор фрагментов для оценки в зависимости от цели исследования.

Источник: overclockers.ru

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *