Главная Новые поступления Описание Шлюз Z39.50

Базы данных


Труды сотрудников ЦНБ УрО РАН - результаты поиска

Вид поиска

Область поиска
Формат представления найденных документов:
полныйинформационныйкраткий
Поисковый запрос: (<.>K=ДИСКРИМИНАТНЫЙ АНАЛИЗ<.>)
Общее количество найденных документов : 1
1.
Инвентарный номер: нет.
   
   Г 67


    Горбич, Л. Г.
    Использование статистических индексов для различения научных и научно-популярных текстов на примере трудов А.Е. Ферсмана [] / Л. Г. Горбич, А. А. Живодеров. - DOI:10.15827/0236-235X.132.720-725 // Программные продукты и системы. - 2020. - № 4. - С. 720-725. - Библиогр.: с. 725 (15 назв.)
ББК 81
Рубрики: ЯЗЫКОЗНАНИЕ
Кл.слова (ненормированные):
СТИЛЬ ТЕКСТА -- АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ТЕКСТОВ -- СТАТИСТИЧЕСКИЙ ИНДЕКС -- ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ -- ДИСКРИМИНАТНЫЙ АНАЛИЗ -- ГОС-КРИВАЯ
Аннотация: С развитием информационной техники и информационных систем актуализировалась проблема разработки методик машинной атрибуции текстов. Эти методики могут быть использованы для автоматического поиска текстов необходимого жанра и стиля и установления авторства с помощью компьютерных технологий. В основу разработки рассматриваемой в статье методики была положена гипотеза о том, что существуют структурные особенности текста, которые позволяют без учета смыслового содержания отнести его к определенному жанру или автору на основе вычисления чисто количественных значений некоторых параметров и индексов. Авторы наряду с другими исследователями в течение ряда лет занимались разработкой таких индексов и формированием из них оптимального набора и добились в этом определенных успехов. В частности, был сформирован набор индексов, позволяющий правильно классифицировать тексты по жанру с вероятностью до 86 %. Для решения задачи автоматической классификации научных и научно-популярных текстов авторы применили и усовершенствовали набор статистических индексов, разработанный ими ранее для атрибуции других стилей. В качестве материала исследования были взяты труды академика А.Е. Ферсмана. Одной из особенностей этого автора является стилевая двойственность – наличие большого числа принадлежащих ему как научных, так и научно-популярных текстов, что создало уникальную возможность для попытки решения задачи автоматической классификации стилей текстов, принадлежащих одному автору. В ходе работы было показано, что выборочные средние статистических индексов для текстов двух стилей достоверно различаются. Применяя методы дискриминантного анализа, логистической регрессии и ROC-кривых, авторы продемонстрировали возможность автоматической классификации текстов двух стилей и с помощью оптимизации используемого набора индексов добились существенного повышения качества классификации. Предложен также новый статистический индекс, позволяющий минимизировать вычислительные затраты и успешно (до 100 % точности) решать задачу классификации научных и научно-популярных текстов даже при использовании его в качестве единственного фактора. Результаты исследования были проверены на текстах других авторов.

Найти похожие

 

Сиглы отделов ЦНБ УрО РАН


  бр.ф. - Бронированный фонд

  бф - Научно-библиографический отдел

  БХЛ - Фонд художественной литературы

  ИИиА -Фонд исторической литературы в ЦНБ УрО РАН

  ИМЕТ -Отдел ЦНБ в Институте металлургии УрО РАН

  кх - Отдел фондов (книгохранениe)

  МБА - Межбиблиотечный абонемент

  мф - Методический фонд

  ок - Отдел научной каталогизации

  оку - Отдел комплектования и учета

  орф - Обменно-резервный фонд

  пф - Читальный зал деловой и патентной информации

  рк - Фонд редкой книги

  ч/з - Главный читальный зал

  эр - Зал электронных ресурсов

  

Сиглы библиотек институтов и НЦ УрО РАН
© Международная Ассоциация пользователей и разработчиков электронных библиотек и новых информационных технологий
(Ассоциация ЭБНИТ)
Яндекс.Метрика