Главная Новые поступления Описание Шлюз Z39.50

Базы данных


Труды сотрудников ЦНБ УрО РАН - результаты поиска

Вид поиска

Область поиска
Формат представления найденных документов:
полныйинформационныйкраткий
Поисковый запрос: (<.>K=МЕТОД ОПТИМИЗАЦИИ<.>)
Общее количество найденных документов : 1
1.
Инвентарный номер: нет.
   
   Г 67


    Горбич, Л. Г.
    Поиск оптимального набора букв для стилевой классификации художественных текстов методом статистических индексов / Л. Г. Горбич. - DOI: 10.15827/0236-235X.142.654-660 // Программные продукты и системы. - 2023. - Т. 36, № 4. - С. 654-660
ББК Ш1
Рубрики: ЯЗЫКОЗНАНИЕ
Кл.слова (ненормированные):
СТИЛЕВАЯ КЛАССИФИКАЦИЯ -- НАБОР БУКВ -- АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ТЕКСТОВ -- СТАТИСТИЧЕСКИЙ ИНДЕКС -- МАШИННОЕ ОБУЧЕНИЕ -- МЕТОД ОПТИМИЗАЦИИ -- ROC-КРИВАЯ
Аннотация: В статье рассматривается проблема улучшения методов стилевой классификации русскоязычных текстов. В качестве возможного направления исследований предложен метод оптимизации набора (множества) букв, применяемого для вычисления статистических индексов текстов. Для оптимизации и контроля результатов использованы поэтические и прозаические художественные тексты на русском языке. Объем текстов составлял порядка 300 тысяч знаков при оптимизации и 100 тысяч знаков при контрольной оценке. Для вычисления статистических индексов рассчитывались частотности биграмм и триграмм букв. При оптимизации опробован также и вариант совместного использования индексов биграмм и триграмм. В статье дано краткое описание метода статистических индексов, приведены применявшиеся в исследовании алгоритм пошаговой оптимизации, вид возможной оптимизационной функции и формула для нахождения границы классификации. Показано, что оптимизация набора букв улучшает классификацию по сравнению с вариантом использования как полного набора букв, так и набора из гласных букв в применении к задаче автоматического различения поэтических и прозаических художественных текстов на русском языке. Проведено сравнение результатов классификации по предложенной формуле границы классификации с результатами расчетов по классификации методом ROC-кривых. В итоге для разных сочетаний статистических индексов и способов определения границы классификации интервал верной классификации составил 72–74 % для набора, включающего все буквы, 82–86 % для набора, включающего только гласные буквы, и 80.5–92.5 % для разных наборов букв, полученных при оптимизации

Найти похожие

 

Сиглы отделов ЦНБ УрО РАН


  бр.ф. - Бронированный фонд

  бф - Научно-библиографический отдел

  БХЛ - Фонд художественной литературы

  ИИиА -Фонд исторической литературы в ЦНБ УрО РАН

  ИМЕТ -Отдел ЦНБ в Институте металлургии УрО РАН

  кх - Отдел фондов (книгохранениe)

  МБА - Межбиблиотечный абонемент

  мф - Методический фонд

  ок - Отдел научной каталогизации

  оку - Отдел комплектования и учета

  орф - Обменно-резервный фонд

  пф - Читальный зал деловой и патентной информации

  рк - Фонд редкой книги

  ч/з - Главный читальный зал

  эр - Зал электронных ресурсов

  

Сиглы библиотек институтов и НЦ УрО РАН
© Международная Ассоциация пользователей и разработчиков электронных библиотек и новых информационных технологий
(Ассоциация ЭБНИТ)
Яндекс.Метрика