Претрага ⚒ Радови ⚒ Др РГФ - Репозиторијум РГФ

Претрага

Per page

Sort by

68 items

Повезивање лексема морфолошких речника коришћењем базе Лексимирка

Биљана Рујевић, Ранка Станковић, Михаило Шкорић (2024)

Рад приказује приступ успостављању повезивања лексема у Морфолошким речницима српског језика. Повезивање, тј. успостављање релација не би било могуће без претходне конверзије речника из облика текстуалних датотека у облик лексичке базе података назване Лексимирка. Методологија за успостављање релација почива на 69 појединачних релација заснованих на 388 правила. Правила за повезивање се дефинишу на основу обележја лексичких записа (врсте речи, маркера, граматичких категорија и подниски). Успостављене релације су крајњем кориснику видљиве путем апликације Лексимирка у форми хипервеза и могу се ...

морфолошки речници, повезивање лексема, лексичка база података, српски језик

Биљана Рујевић, Ранка Станковић, Михаило Шкорић. "Повезивање лексема морфолошких речника коришћењем базе Лексимирка" in Модерни речници у функцији просечнога корисника: стари проблеми, савремени правци и нови изазови, Лексикографски сусрети, Београд, 27-29. мај 2024. , Београд : Филолошки факултет (2024). https://doi.org/10.18485/lexicog_meet.2024.1.ch23 М33
Parallel Bidirectionally Pretrained Taggers as Feature Generators

Ranka Stanković, Mihailo Škorić, Branislava Šandrih Todorović (2022)

In a setting where multiple automatic annotation approaches coexist and advance separately but none completely solve a specific problem, the key might be in their combination and integration. This paper outlines a scalable architecture for Part-of-Speech tagging using multiple standalone annotation systems as feature generators for a stacked classifier. It also explores automatic resource expansion via dataset augmentation and bidirectional training in order to increase the number of taggers and to maximize the impact of the composite system, which ...

анотација, обрада природног језика, издвајање обележја, композитне структуре, врста речи

Ranka Stanković, Mihailo Škorić, Branislava Šandrih Todorović. "Parallel Bidirectionally Pretrained Taggers as Feature Generators" in Applied Sciences, MDPI AG (2022). https://doi.org/10.3390/app12105028 М22
Hidrogeotermalni resursi kao faktor razvoja Srbije

Milenić Dejan, Milivojević Mihailo, Krunić Olivera, Vranješ Ana (2014)

Milenić Dejan, Milivojević Mihailo, Krunić Olivera, Vranješ Ana. "Hidrogeotermalni resursi kao faktor razvoja Srbije" in Srpska akademija nauka i umetnosti-Odbor za selo, Lukovska banja, Srbija (2014) M65
Electronic Dictionaries - from File System to lemon Based Lexical Database

Ranka Stanković, Cvetana Krstev, Biljana Lazić, Mihailo Škorić (2018)

In this paper we discuss some well-known morphological descriptions used in various projects and applications (most notably MULTEXT-East and Unitex) and illustrate the encountered problems on Serbian. We have spotted four groups of problems: the lack of a value for an existing category, the lack of a category, the interdependence of values and categories lacking some description, and the lack of a support for some types of categories. At the same time, various descriptions often describe exactly the same ...

Ranka Stanković, Cvetana Krstev, Biljana Lazić, Mihailo Škorić. "Electronic Dictionaries - from File System to lemon Based Lexical Database" in Proceedings of the 11th International Conference on Language Resources and Evaluation - W23 6th Workshop on Linked Data in Linguistics : Towards Linguistic Data Science (LDL-2018), LREC 2018, Miyazaki, Japan, May 7-12, 2018, European Language Resources Association (ELRA) (2018) M33
Football terminology: compilation and transformation into OntoLex-Lemon resource

Jelena Lazarević, Ranka Stanković, Mihailo Škorić, Biljana Rujević (2023)

У овом раду представља се пројекат који је у развоју, креирање првог дигиталног фудбалског речника на српском језику, као и да демонстрација примене модела OntoLex и љегових модула. OntoLex-FrAC модул укључује информације о учесталости и примерима употребе екстрахованих из корпуса. У овом случају, креиран је корпус за специфичан домен под називом СрФудКо, који садржи чланке вести о фудбалу на српском језику. Вишечлани термини аутоматски су екстраховани из српског корпуса, а затим ручно евалуирани и класификовани као спортски или ...

повезани отворени подаци, корпус, СрФудКо, OntoLex, OntoLex-FrAC

Jelena Lazarević, Ranka Stanković, Mihailo Škorić, Biljana Rujević. "Football terminology: compilation and transformation into OntoLex-Lemon resource" in LDK 2023 – 4th Conference on Language, Data and Knowledge, 12-15 September in Vienna, Austria, Lisabon : NOVA FCSH - CLUNL (2023). https://doi.org/10.34619/srmk-injj М33
An Italian-Serbian Sentence Aligned Parallel Literary Corpus

Saša Moderc, Ranka Stanković, Aleksandra Tomašević, Mihailo Škorić (2023)

This article presents the construction and relevance of an Italian-Serbian sentence-aligned parallel corpus, delving into the aligned sentences in order to facilitate effective translation between the two languages. The parallel corpus serves as a valuable resource for language experts, researchers, and language enthusiasts, fostering a deeper understanding of linguistic nuances and cultural expressions. By bridging the gap between Serbian and Italian, this corpus opens new avenues for cross-cultural communication and collaboration, and ultimately contributes to the improvement of language-related ...

Aligned corpus, parallel corpus, Serbian, Italian, literature

Saša Moderc, Ranka Stanković, Aleksandra Tomašević, Mihailo Škorić. "An Italian-Serbian Sentence Aligned Parallel Literary Corpus" in Review of the National Center for Digitization, Belgrade : Faculty of Mathematics, University of Belgrade (2023). https://doi.org/10.5281/zenodo.11203388 М53
Annotation of the Serbian ELTeC Collection

Ranka Stanković, Cvetana Krstev, Branislava Šandrih Todorović, Mihailo Škorić (2021)

Ovaj rad predstavlja takozvano izdanje nivoa 2 kolekcije tekstova SrpELTeC razvijene u okviru aktivnosti Radne grupe 2 – Metode i alati COST akcije CA 16204 (Distant Reading for European Literary History) i njene specifikacije šeme. Izdanje nivoa 2 je nastavak izdanja nivoa 1, koje se koristi kao ulaz za morfosintaksičke i NER anotacije romana. Srpska obrada nivoa-2 je navedena kroz potrebne korake, uključujući metode i alate koji se koriste u tom procesu. Neki statistički podaci iz srpske kolekcije nivoa ...

udaljeno čitanje, literarni korpus, tagiranje, prepoznavanje imenovanih entiteta, lematizacija, ELTeC

Ranka Stanković, Cvetana Krstev, Branislava Šandrih Todorović, Mihailo Škorić. "Annotation of the Serbian ELTeC Collection" in Infotheca, Faculty of Philology, University of Belgrade (2021). https://doi.org/10.18485/infotheca.2021.21.2.3 М53
It-Sr-NER: CLARIN Compatible NER and Geoparsing Web Services for Italian and Serbian Parallel Text

Olja Perišić, Ranka Stanković, Milica Ikonić Nešić, Mihailo Škorić (2023)

Olja Perišić, Ranka Stanković, Milica Ikonić Nešić, Mihailo Škorić. "It-Sr-NER: CLARIN Compatible NER and Geoparsing Web Services for Italian and Serbian Parallel Text" in Linköping Electronic Conference Proceedings, Linköping University Electronic Press (2023). https://doi.org/10.3384/ecp198010 М33
It-Sr-NER: Web Services for Recognizing and Linking Named Entities in Text and Displaying Them on a Web Map

Olja Perišić, Ranka Stanković, Milica Ikonić Nešić, Mihailo Škorić (2023)

The paper will present the results of the project `“It-Sr-NER: Web services for named entities recognition, linking and mapping,” in which teams from the University of Turin and the Society for Language Resources and Technologies JeRTeh participated, and whose goal was the development of the It-Sr-NER web service for named entity annotations in the text and displaying them on the map. Named entities in these services are names of persons, places, organizations, demonyms (ethnicities), events and works of art.

General Engineering

Olja Perišić, Ranka Stanković, Milica Ikonić Nešić, Mihailo Škorić. "It-Sr-NER: Web Services for Recognizing and Linking Named Entities in Text and Displaying Them on a Web Map" in Infotheca, Belgrade : Faculty of Philology, University of Belgrade (2023). https://doi.org/10.18485/infotheca.2023.23.1.3 М53
BERT Downstream Task Analysis: Named Entity Recognition in Serbian

Milica Ikonić Nešić, Saša Petalinkar, Mihailo Škorić, Ranka Stanković (2024)

This paper compares different architectures and techniques for preparing named entity recognition (NER) models for the Serbian language via integrating BERT with spaCy. Models were trained to recognize seven different named entity types (persons, locations, organisations, professions, events, demonyms, and artworks), and are trained on the dataset containing Serbian novels published between 1840 and 1920, publicly available newspaper articles and sentences generated from the Wikidata knowledge base and Leximirka lexical database. We explore various configurations and several training pipelines ...

Milica Ikonić Nešić, Saša Petalinkar, Mihailo Škorić, Ranka Stanković. "BERT Downstream Task Analysis: Named Entity Recognition in Serbian" in Lecture Notes in Networks and Systems, Springer Nature Switzerland (2024). https://doi.org/10.1007/978-3-031-71419-1_29 М33
Употреба веб платформе Омека за дигиталне библиотеке из домена рударства

Александра Томашевић, Биљана Лазић, Далибор Воркапић, Михаило Шкорић, Љиљана Колоња (2017)

У овом раду биће представљена Омека, веб платформа за приказивање дигиталних колекциjа и систем за управљање њиховим садржаjем. Њену примену у области техничких наука, а конкретно у области рударства, приказаћемо на примеру дигиталне библиотеке ROmeka@RGF. За Омеку смо се определили првенствено због чињенице да jе jедноставна за коришћење, има обимну пратећу документациjу и не захтева уско специфичне информатичке вештине што jе чини приступачном за већину корисника, а нарочито за рударске инжењере, коjима jе ова дигитална библиотека првенствено намењена. Документа ...

Омека, дигиталне библиотеке, рударство

Александра Томашевић, Биљана Лазић, Далибор Воркапић, Михаило Шкорић, Љиљана Колоња. "Употреба веб платформе Омека за дигиталне библиотеке из домена рударства" in Инфотека, Филолошки факултет, Универзитет у Београду; Универзитетска библиотека „Светозар Марковић“; Заједница библиотека универзитета у Србији (2017) М53
Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса

Милош Утвић, Ранка Станковић, Александра Томашевић, Михаило Шкорић, Биљана Лазић (2019)

У раду се разматра хибридни приступ претрази корпуса, илустрован на примеру алатки OCWB и NoSketch Engine, примењених на специјални корпус из области рударства (РудКор) и Корпус савременог српског језика (СрпКор). Разматрани приступ комбинује постојеће могућности алатки OCWB и NoSketch Engine, које своју претрагу заснивају на лингвистичкој анотацији корпуса, са новим могућностима претраге у виду консултовања екстерних језичких ресурса (морфолошки електронски речници српског језика и лексичка база података Српски ворднет). Хибридни приступ је реализован надоградњом вебсучеља која поменуте алатке користе ...

корпус, рударство, претраживање информација, проширивање упита, лексички ресурси, лексичке релације

Милош Утвић, Ранка Станковић, Александра Томашевић, Михаило Шкорић, Биљана Лазић. "Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса" in Научни састанак слависта у Вукове дане - Vol. 48/3 Српски језик и његови ресурси, Међународни славистички центар, Филолошки факултет, Универзитет у Београду (2019). https://doi.org/10.18485/msc.2019.48.3.ch12 М51
Machine Learning and Deep Neural Network-Based Lemmatization and Morphosyntactic Tagging for Serbian

Ranka Stanković, Branislava Šandrih, Cvetana Krstev, Miloš Utvić, Mihailo Škorić (2020)

The training of new tagger models for Serbian is primarily motivated by the enhancement of the existing tagset with the grammatical category of a gender. The harmonization of resources that were manually annotated within different projects over a long period of time was an important task, enabled by the development of tools that support partial automation. The supporting tools take into account different taggers and tagsets. This paper focuses on TreeTagger and spaCy taggers, and the annotation schema alignment ...

Part-of-Speech tagging, lemmatization, corpus, evaluation, Serbian, morphological dictionary

Ranka Stanković, Branislava Šandrih, Cvetana Krstev, Miloš Utvić, Mihailo Škorić. "Machine Learning and Deep Neural Network-Based Lemmatization and Morphosyntactic Tagging for Serbian" in Proceedings of the 12th Language Resources and Evaluation Conference, May Year: 2020, Marseille, France, European Language Resources Association (2020) М33
Towards Automatic Definition Extraction for Serbian

Ranka Stanković, Cvetana Krstev, Rada Stijović, Mirjana Gočanin, Mihailo Škorić (2021)

U radu su prikazani preliminarni rezultati automatske ekstrakcije kandidata za definicije rečnika iz nestrukturiranih tekstova na srpskom jeziku u cilju ubrzanja razvoja rečnika. Definicije u rečniku Srpske akademije nauka i umetnosti (SANU) korišćene su za modelovanje različitih tipova definicija (opisnih, gramatičkih, referentnih i sinonimskih) koje imaju različite sintaksičke i leksičke karakteristike. Korpus istraživanja sastoji se od 61.213 definicija imenica, koje su analizirane korišćenjem morfoloških e-rečnika i lokalnih gramatika implementiranih kao pretvarači konačnih stanja u paketu za obradu korpusa otvorenog ...

Ranka Stanković, Cvetana Krstev, Rada Stijović, Mirjana Gočanin, Mihailo Škorić. "Towards Automatic Definition Extraction for Serbian" in Proceedings of the XIX EURALEX Congress of the European Assocition for Lexicography: Lexicography for Inclusion (Volume 2). 7-9 September (virtual), Democritus University of Thrace (2021) М33
From ELTeC Text Collection Metadata and Named Entities to Linked-data (and Back)

Milica Ikonić Nešić, Ranka Stanković, Christof Schöch and Mihailo Škorić (2022)

In this paper we present the wikification of the ELTeC (European Literary Text Collection), developed within the COST Action ``Distant Reading for European Literary History'' (CA16204). ELTeC is a multilingual corpus of novels written in the time period 1840—1920, built to apply distant reading methods and tools to explore the European literary history. We present the pipeline that led to the production of the linked dataset, the novels’ metadata retrieval and named entity recognition, transformation, mapping and Wikidata population, ...

Wikidata, linked data, SPARQL, distant reading, literary corpus, named entity linking, ELTeC

Milica Ikonić Nešić, Ranka Stanković, Christof Schöch and Mihailo Škorić. "From ELTeC Text Collection Metadata and Named Entities to Linked-data (and Back)" in Proceedings of The 8th Workshop on Linked Data in Linguistics within the 13th Language Resources and Evaluation Conference, June 2022, Marseille, France, European Language Resources Association (2022) М33
Fossil findings of legless lizards (Anguinae, Squamata) in Pleistocene sites of Serbia

Dragana Đurić, Katarina Bogićević, Draženko Nenadić, Mihailo Jovanović, Aleksandra Savković (2022)

Dragana Đurić, Katarina Bogićević, Draženko Nenadić, Mihailo Jovanović, Aleksandra Savković. "Fossil findings of legless lizards (Anguinae, Squamata) in Pleistocene sites of Serbia" in Books of Abstracts of the XVIII Serbian Geological Congress “Geology solves problems”, Divčibare, 01-04.06.2022, Serbian Geological Society (2022) М34
Ocena kvaliteta i mogućnost korišćenja podzemnih voda za piće i navodnjavanje u slivu reke Ralje

Sunčica Ninković, Nebojša Atanacković, Sava Magazinović, Jakov Andrijašević, Mihailo Šević (2016)

Analiza mogućnosti korišćenja podzemnih voda za potrebe vodosnabdevanje stanovništva kao i za navodnjavanje vršena je na prostoru sliva reke Ralje. Istražni prostor veličine oko 280 km2 je obuhvatio veći deo sliva reke Ralje koji se administrativno nalaze na području grada Beograda. Podzemne vode su glavni izvor za vodosnabdevanje i navodnjavanje u ovom području. Seoska naselja nemaju urađenu komunalnu infrastrukturu pa predstavljaju značajan faktor za degradaciju kvaliteta podzemnih voda na ovom području. U periodu 2012-2014 godine prikupljeno je 100 uzorka ...

kvalitet voda, hidrohemijski parametri, navodnjavanje, zagađenje, reka Ralja

Sunčica Ninković, Nebojša Atanacković, Sava Magazinović, Jakov Andrijašević, Mihailo Šević. "Ocena kvaliteta i mogućnost korišćenja podzemnih voda za piće i navodnjavanje u slivu reke Ralje" in XV Srpski simpozijum o hidrogeologiji sa međunarodnim učešćem, Kopaonik, 14-17.septembar 2016. godine, Univerzitet u Beogradu- Rudarsko-geološki fakultet (2016) М33
Semantic Textual Similarity of Courses Based on Text Embeddings

Olivera Kitanović, Aleksandra Tomašević, Mihailo Škorić, Ranka Stanković, Ljiljana Kolonja (2024)

This paper explores the application of textual embeddings to measure semantic similarity between educational courses’ curriculums, aiming to enhance the effectiveness of the next faculty accreditation. Leveraging state-of-the-art natural language processing techniques, we employ pre-trained embeddings to capture the semantic meaning of course descriptions. Our methodology involves transforming course curriculum texts into high-dimensional vector representations, enabling efficient and meaningful comparisons. We evaluate the proposed approach on a diverse dataset of course descriptions, employing established benchmarks for semantic textual similarity ...

Olivera Kitanović, Aleksandra Tomašević, Mihailo Škorić, Ranka Stanković, Ljiljana Kolonja. "Semantic Textual Similarity of Courses Based on Text Embeddings" in Lecture Notes in Networks and Systems, Springer Nature Switzerland (2024). https://doi.org/10.1007/978-3-031-71419-1_27 М33
Parallel Stylometric Document Embeddings with Deep Learning Based Language Models in Literary Authorship Attribution

Mihailo Škorić, Ranka Stanković, Milica Ikonić Nešić, Joanna Byszuk, Maciej Eder (2022)

This paper explores the effectiveness of parallel stylometric document embeddings in solving the authorship attribution task by testing a novel approach on literary texts in 7 different languages, totaling in 7051 unique 10,000-token chunks from 700 PoS and lemma annotated documents. We used these documents to produce four document embedding models using Stylo R package (word-based, lemma-based, PoS-trigrams-based, and PoS-mask-based) and one document embedding model using mBERT for each of the seven languages. We created further derivations of these ...

General Mathematics, Engineering (miscellaneous), Computer Science (miscellaneous)

Mihailo Škorić, Ranka Stanković, Milica Ikonić Nešić, Joanna Byszuk, Maciej Eder. "Parallel Stylometric Document Embeddings with Deep Learning Based Language Models in Literary Authorship Attribution" in Mathematics, MDPI AG (2022). https://doi.org/10.3390/math10050838 М21а
Towards Semantic Interoperability: Parallel Corpora as Linked Data Incorporating Named Entity Linking

Ranka Stanković, Milica Ikonić Nešić, Olja Perisic, Mihailo Škorić, Olivera Kitanović (2024)

U radu se prikazuju rezultati istraživanja vezanih za pripremu paralelnih korpusa, fokusirajući se na transformaciju u RDF grafove koristeći NLP Interchange Format (NIF) za lingvističku anotaciju. Pružamo pregled paralelnog korpusa koji je korišćen u ovom studijskom slučaju, kao i proces označavanja delova govora, lematizacije i prepoznavanja imenovanih entiteta (NER). Zatim opisujemo povezivanje imenovanih entiteta (NEL), konverziju podataka u RDF, i uključivanje NIF anotacija. Proizvedene NIF datoteke su evaluirane kroz istraživanje triplestore-a korišćenjem SPARQL upita. Na kraju, razmatra se povezivanje Linked ...

paralelni korpusi, povezivanje imenovanih entiteta, prepoznavanje imenovanih entiteta, NER, NEL, povezani podaci, NIF, Vikipodaci

Ranka Stanković, Milica Ikonić Nešić, Olja Perisic, Mihailo Škorić, Olivera Kitanović. "Towards Semantic Interoperability: Parallel Corpora as Linked Data Incorporating Named Entity Linking" in Proceedings of the 9th Workshop on Linked Data in Linguistics @ LREC-COLING 2024, Turin, 20-25 May 2024, ELRA and ICCL (2024) М33

Претрага

68 items

Повезивање лексема морфолошких речника коришћењем базе Лексимирка cite

Parallel Bidirectionally Pretrained Taggers as Feature Generators cite

Hidrogeotermalni resursi kao faktor razvoja Srbije cite

Electronic Dictionaries - from File System to lemon Based Lexical Database cite

Football terminology: compilation and transformation into OntoLex-Lemon resource cite

An Italian-Serbian Sentence Aligned Parallel Literary Corpus cite

Annotation of the Serbian ELTeC Collection cite

It-Sr-NER: CLARIN Compatible NER and Geoparsing Web Services for Italian and Serbian Parallel Text cite

It-Sr-NER: Web Services for Recognizing and Linking Named Entities in Text and Displaying Them on a Web Map cite

BERT Downstream Task Analysis: Named Entity Recognition in Serbian cite

Употреба веб платформе Омека за дигиталне библиотеке из домена рударства cite

Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса cite

Machine Learning and Deep Neural Network-Based Lemmatization and Morphosyntactic Tagging for Serbian cite

Towards Automatic Definition Extraction for Serbian cite

From ELTeC Text Collection Metadata and Named Entities to Linked-data (and Back) cite

Fossil findings of legless lizards (Anguinae, Squamata) in Pleistocene sites of Serbia cite

Ocena kvaliteta i mogućnost korišćenja podzemnih voda za piće i navodnjavanje u slivu reke Ralje cite

Semantic Textual Similarity of Courses Based on Text Embeddings cite

Parallel Stylometric Document Embeddings with Deep Learning Based Language Models in Literary Authorship Attribution cite

Towards Semantic Interoperability: Parallel Corpora as Linked Data Incorporating Named Entity Linking cite

Повезивање лексема морфолошких речника коришћењем базе Лексимирка

Parallel Bidirectionally Pretrained Taggers as Feature Generators

Hidrogeotermalni resursi kao faktor razvoja Srbije

Electronic Dictionaries - from File System to lemon Based Lexical Database

Football terminology: compilation and transformation into OntoLex-Lemon resource

An Italian-Serbian Sentence Aligned Parallel Literary Corpus

Annotation of the Serbian ELTeC Collection

It-Sr-NER: CLARIN Compatible NER and Geoparsing Web Services for Italian and Serbian Parallel Text

It-Sr-NER: Web Services for Recognizing and Linking Named Entities in Text and Displaying Them on a Web Map

BERT Downstream Task Analysis: Named Entity Recognition in Serbian

Употреба веб платформе Омека за дигиталне библиотеке из домена рударства

Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса

Machine Learning and Deep Neural Network-Based Lemmatization and Morphosyntactic Tagging for Serbian

Towards Automatic Definition Extraction for Serbian

From ELTeC Text Collection Metadata and Named Entities to Linked-data (and Back)

Fossil findings of legless lizards (Anguinae, Squamata) in Pleistocene sites of Serbia

Ocena kvaliteta i mogućnost korišćenja podzemnih voda za piće i navodnjavanje u slivu reke Ralje

Semantic Textual Similarity of Courses Based on Text Embeddings

Parallel Stylometric Document Embeddings with Deep Learning Based Language Models in Literary Authorship Attribution

Towards Semantic Interoperability: Parallel Corpora as Linked Data Incorporating Named Entity Linking