Collected Item: “Distant Reading in Digital Humanities: Case Study on the Serbian Part of the ELTeC Collection”
Врста публикације
Рад у зборнику
Верзија документа
објављена
Језик
енглески
Аутор/и (Милан Марковић, Никола Николић)
Ranka Stanković, Cvetana Krstev, Branislava Šandrih Todorović, Duško Vitas, Mihailo Škorić, Milica Ikonić Nešić
Наслов рада (Наслов - поднаслов)
Distant Reading in Digital Humanities: Case Study on the Serbian Part of the ELTeC Collection
Назив конференције (зборника), место и датум одржавања
Proceedings of the Language Resources and Evaluation Conference, June 2022, Marseille, France
Издавач (Београд : Просвета)
European Language Resources Association
Година издавања
2022
Сажетак рада на енглеском језику
In this paper we present the Serbian part of the ELTeC multilingual corpus of novels written in the time period 1840-1920. The corpus is being built in order to test various distant reading methods and tools with the aim of re-thinking the European literary history. We present the various steps that led to the production of the Serbian sub-collection: the novel selection and retrieval, text preparation, structural annotation, POS-tagging, lemmatization and named entity recognition. The Serbian sub-collection was published on different platforms in order to make it freely available to various users. Several use examples show that this sub-collection is usefull for both close and distant reading approaches.
Почетна страна рада
3337
Завршна страна рада
3345
Кључне речи на енглеском (одвојене знаком ", ")
Corpus, Distant Reading, Digital Humanities, Linked Data, Named Entity Recognition, Text Analytics
Линк
http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.356.pdf
Шира категорија рада према правилнику МПНТ
М30
Ужа категорија рада према правилнику МПНТ
М33
Пројект у склопу кога је настао рад
Distant Reading
Ниво приступа
Отворени приступ
Лиценца
Creative Commons – Attribution-NonComercial-Share Alike 4.0 International
Формат датотеке
.pdf