Методика оценки качества

Методика оценки качества блэклистов

Основная идея, лежащая в основании способа оценки качества блэклистов заключается в сравнении оценок, выставленных экспертами (аналитиками) и автоматикой. Чем больший процент оценок совпадает, тем выше качество. Такой подход позволяет при сравнительно малом количестве экспертных оценок с одной стороны, оценивать качество финальных блэклистов, а с другой стороны, на основании этой оценки управлять качеством автоматики, постоянно дообучая ее.

Ключевые понятия:

  • экспертная оценка (рейт) - категория, выставленная рейтером (аналитиком) на данный сайт по результатам визуального осмотра;
  • автоматическая оценка - категория, выставленная автоматизированной экспертной системой на основании анализа сайта по заданному подмножеству критериев.
  • финальная оценка (финальный рейт) - категория, выставленная по результатам сравнения автоматической и экспертной оценки. В случае не совпадения выставленных категорий, правильной считается оценка эксперта.

Подробнее смотрите Словарь терминов

Мы подразумеваем, что эксперты оценивают сайты со стопроцентным качеством. Таким образом, под понятием "качество блэклиста" мы понимаем меру совпадения оценок автоматической системы с экспертными оценками. Понятно, что 100%-го совпадения оценок быть не может (ошибаются и люди, и автоматика). Поэтому для более точного понимания природы несовпадений мы используем два понятия:

  • ошибка первого рода - ложное срабатывание - сайт, не содержащий, с точки зрения эксперта порнографических материалов, оценен автоматикой как порнографический;
  • ошибка второго рода - пропуск события - сайт, оцененный экспертом как порнографический, оценен автоматикой как не содержащий порнографических материалов.

Чем меньший процент несовпадений по обоим видам ошибок, тем лучше.

Теперь несколько слов об используемых категориях. Мы условно выделяем два типа категорий:

  • однозначные (strict) - четко, строго определяемые категории:
    • Porn - порнография
    • Not Porn - не порнография
  • неоднозначные - промежуточные, смежные категории:
    • Adult - сайты для взрослых
    • Sex Shop - магазины товаров для секса
    • Sex education - образовательные сайты сексуальной направленности
    • Sex Health - медицинские сайты сексуальной направленности
    • Not Enough Content - скрытая "техническая" категория, подразумевающая недостаточность содержаний для отнесения сайта к какой-либо категории.

Эксперты оценивают сайты по всему списку категорий, выставляя как однозначные, так и промежуточные категории. Автоматика же выставляет только однозначные категории - либо "порно", либо "не порно". При расчете качества блэклистов сайты получившие неоднозначные категории, исключаются из расчета статистики по качеству. Таким образом, происходит сравнение всех сайтов, на которые эксперты выставили однозначные категории со всеми сайтами, оцененными автоматикой.