SrpCNNeL: Serbian Model for Named Entity Linking

Објеката

Тип
Рад у зборнику
Верзија рада
објављена
Језик
енглески
Креатор
Milica Ikonić Nešić, Saša Petalinkar, Ranka Stanković, Miloš Utvić, Olivera Kitanović
Извор
Annals of Computer Science and Information Systems
Издавач
IEEE
Датум издавања
2024
Сажетак
Ovaj rad predstavlja razvoj modela za prepoznavanje i povezivanje imenovanih entiteta (NEL) sa bazom znanja Vikipodaci za srpski jezik pod nazivom SrpCNNeL. Model je obučen da prepozna i poveže sedam različitih imenovanih tipova entiteta (osobe, lokacije, organizacije, profesije, događaji, demoni i umetnička dela) na skupu podataka koji sadrži rečenice iz romana, pravnih dokumenata, kao i rečenice generisane iz znanja Vikipodataka baza i Leksimirka leksička baza podataka. Dobijeni model je pokazao dobre performanse, postigavši F1 rezultat od 0,8 na test skupu. S obzirom da skup podataka sadrži najveći broj lokacija povezanih sa bazom znanja, evaluacija je sprovedena na nezavisnom skupu podataka i upoređena sa osnovnim modelom Spacy Entity Linker samo za lokacije.
This paper presents the development of a Named Entity Linking (NEL) model to the Wikidata knowledge base for the Serbian language named SrpCNNeL. The model was trained to recognize and link seven different named entity types (persons, locations, organisations, professions, events, demonyms, and works of art) on the dataset containing sentences from novels, legal documents, as also sentences generated from the Wikidata knowledge base and Leximirka lexical database. The resulting model demonstrated robust performance, achieving an F1 score of 0.8 on the test set. Considering that the dataset contains the highest number of locations linked to the knowledge base, an evaluation was conducted on an independent dataset and compared to the baseline Spacy Entity Linker for locations only.
почетак странице
465
крај странице
473
doi
10.15439/2024F8827
issn
2300-5963
Subject
obeležavanje imenovanih entiteta, povezivanje imenovanih entiteta, Vikipodaci, NER, NEL
named entity recognition, named entity linking, Wikidata, NER, NEL
Шира категорија рада
М30
Ужа категорија рада
М33
Је дио
TESLA
Права
Отворени приступ
Лиценца
Creative Commons – Attribution 4.0 International
Формат
.pdf
Медија
Fedcsis8827.pdf

Milica Ikonić Nešić, Saša Petalinkar, Ranka Stanković, Miloš Utvić, Olivera Kitanović. "SrpCNNeL: Serbian Model for Named Entity Linking" in Annals of Computer Science and Information Systems, IEEE (2024). https://doi.org/10.15439/2024F8827

This item was submitted on 13. децембар 2024. by [anonymous user] using the form “Рад у зборнику радова” on the site “Радови”: http://gabp-dl.rgf.rs/s/repo

Click here to view the collected data.