Претрага
78 items
-
Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса
У раду се разматра хибридни приступ претрази корпуса, илустрован на примеру алатки OCWB и NoSketch Engine, примењених на специјални корпус из области рударства (РудКор) и Корпус савременог српског језика (СрпКор). Разматрани приступ комбинује постојеће могућности алатки OCWB и NoSketch Engine, које своју претрагу заснивају на лингвистичкој анотацији корпуса, са новим могућностима претраге у виду консултовања екстерних језичких ресурса (морфолошки електронски речници српског језика и лексичка база података Српски ворднет). Хибридни приступ је реализован надоградњом вебсучеља која поменуте алатке користе ...... метаподацима и генерисање самог корпуса. Милош М. Утвић, Ранка М. Станковић, Александра Ђ. Шкорић, Биљана Ђ. Лазић284 Слика 1. Рударски корпус у систему за управљање документацијом Изградња Рударског корпуса детаљно је описана у раду (Томашевић 2018; Утвић и др. 2018). Корпус чине 172 документа, и то: ...
... ИЗВОРИ Корпус 2013: Душко Витас и Милош Утвић, „Корпус савременог српског језика (СрпКор), верзија СрпКор2013”, Група за језичке технологије Универзитета у Београду, http://www.korpus.matf.bg.ac.rs/korpus (датум приступа: 30.6.2019). РудКор 2018: „Рударски корпус, специјализовани корпус из области ...
... анотација актуелне верзије Рударског корпуса је аналогна лингвистичкој анотацији корпуса СрпКор2013, тј. сваки токен је анотиран на нивоу леме и врсте речи истим ресурсима, алаткама и методологијом којом је анотиран и СрпКор2013, описаним у одељку 2.1, тј. Рударски корпус користи позиционе атрибуте ...Милош Утвић, Ранка Станковић, Александра Томашевић, Михаило Шкорић, Биљана Лазић. "Претрага корпуса заснована на употреби екстерних лексичких ресурса путем веб-сервиса" in Научни састанак слависта у Вукове дане - Vol. 48/3 Српски језик и његови ресурси, Међународни славистички центар, Филолошки факултет, Универзитет у Београду (2019). https://doi.org/10.18485/msc.2019.48.3.ch12
-
Integrisano okruženje za pripremu paralelizovanog korpusa
Razvoj paralelizovanih korpusa zahteva pripremu paralelnih tekstova za njihovu integraciju u paralelizovani korpus. Reč je o jednom kompleksnom zadatku koji se može rešiti na različite načine, i koji mora da se odvija u nekoliko koraka. U ovom radu najpre je iznet postupak pripreme paralelnih tekstova za paralelizovani korpus koji se koristi u Grupi za jezičke tehnologije Univerziteta u Beogradu. Potom je dat kratak pregled programa (XAlign, Concordancier, WS4LR), odnosno softverskih alata koji se pri tome koriste. Nedostatak udobnog okruženja ...... Integrisano okruženje za pripremu paralelizovanog korpusa Ivan Obradović, Ranka Stanković, Miloš Utvić Дигитални репозиторијум Рударско-геолошког факултета Универзитета у Београду [ДР РГФ] Integrisano okruženje za pripremu paralelizovanog korpusa | Ivan Obradović, Ranka Stanković, Miloš Utvić | ...
... 1998). Uporedni korpusi mogu, ali ne moraju biti višejezični. Ova vrsta korpusa je ređa i ovde će nadalje biti reči samo o paralelnim, odnosno paralelizovanim korpusima. U ovom radu će biti razmotreni problemi koji prate pripremu paralelnih tekstova i kreiranje paralelizovanih korpusa, kao i pristup ...
... Ranka Stanković – Miloš Utvić (Beograd) Integrisano okruženje za pripremu paralelizovanog korpusa Razvoj paralelizovanih korpusa zahteva pripremu paralelnih tekstova za njihovu integraciju u paralelizovani korpus. Reč je o jednom kompleksnom zadatku koji se može rešiti na različite načine, i koji mora ...Ivan Obradović, Ranka Stanković, Miloš Utvić. "Integrisano okruženje za pripremu paralelizovanog korpusa" in Zbornik radova međunarodnog simpozijuma Razlike između bosanskog/bošnjačkog, hrvatskog i srpskog jezika, Graz, Austria, April 2007, - (2007)
-
Football terminology: compilation and transformation into OntoLex-Lemon resource
У овом раду представља се пројекат који је у развоју, креирање првог дигиталног фудбалског речника на српском језику, као и да демонстрација примене модела OntoLex и љегових модула. OntoLex-FrAC модул укључује информације о учесталости и примерима употребе екстрахованих из корпуса. У овом случају, креиран је корпус за специфичан домен под називом СрФудКо, који садржи чланке вести о фудбалу на српском језику. Вишечлани термини аутоматски су екстраховани из српског корпуса, а затим ручно евалуирани и класификовани као спортски или ...Jelena Lazarević, Ranka Stanković, Mihailo Škorić, Biljana Rujević. "Football terminology: compilation and transformation into OntoLex-Lemon resource" in LDK 2023 – 4th Conference on Language, Data and Knowledge, 12-15 September in Vienna, Austria, Lisabon : NOVA FCSH - CLUNL (2023). https://doi.org/10.34619/srmk-injj
-
Белешка о дигитализацији речника
У раду ће се анализирати ограничења која проистичу из линеарног процеса традиционалне израде речника на примеру Речника САНУ. Начин да се превазиђу ова ограничења се састоји у формирању електронске лексикографске базе која не представља само пуку дигиталну транскрипцију папирног издања речника. Посебно се указује на чињеницу да текст речника може представљати корпус и приказују се одабрани примери анализе таквог корпуса формираног из текстове 1. и 19. тома Речника САНУ.... пуку дигиталну транскрипцију папирног издања речника. Посебно се указује на чињеницу да текст речника може представљати корпус и приказују се одабрани примери анализе таквог корпуса формираног из текстове 1. и 19. тома Речника САНУ. Кључне речи: лексикографија, рачунарска лексикографија, информатика ...
... базе (Павловић-Лаже- тић 1996), опредељивање за начин организовања корпуса и његове експлоата- ције, као и одређивање система за писање речника (DWS – dictionary writing system) који мора бити тесно повезан са структуром базе и корпуса. Одлуке о ове две компоненте су дакле најуже повезане са концепцијом ...
... дати детаљније у (Станковић и др. 2018а), (Станковић и др. 2018б) (Стијовић и др. 2017), (Стијовић и др. 2018). 5. Речник као корпус Целина речника је својеврстан корпус који омогућава увид у различита својства речника невидљива листањем његове папирне верзије. Упоредили смо неструктуриране дигиталне ...Душко М. Витас, Цветана Ј. Крстев, Ранка М. Станковић. "Белешка о дигитализацији речника" in Српски језик и његови ресурси, Међународни славистички центар, Филолошки факултет, Универзитет у Београду (2019). https://doi.org/10.18485/msc.2019.48.3.ch3
-
Увођење доменских и семантичких маркера за област рударства у српске електронске речнике
... постоји и SPARQL приступна тачка за RESTfulAPIs. 4. Опис корпуса рударских текстова Новопредложени маркери значајни су пре свега за екстракцију инфор- мација из корпуса текстова везаних за рударство. Прикупљање корпуса са текстовима из рударског домена је почело 2014, након чека је урађена прва допуна ...
... тим развијан је и корпус текстова из области рударства. Анализа ових текстова показала је да појмови и терминологија специфични за рударски домен захтевају увођење нових доменских и семан- тичких маркера како би се обезбедила што прецизнија екстракција информа- ција из овог корпуса. Наредни одељак ...
... обраде корпуса рударских текстова дат је у Табели 4. 1 http://resource.geosciml.org/vocabulary/earthresourceml/2016 И в ан О б р ад о в и ћ , А л ек с ан д р а Т о м аш ев и ћ , Р ан к а С тан ко в и ћ , Б и љ ан а Л ази ћ 1 5 4Табела 4. Резултати обраде текстова за рударски корпус ...Иван Обрадовић, Александра Томашевић, Ранка Станковић, Биљана Лазић. "Увођење доменских и семантичких маркера за област рударства у српске електронске речнике" in Научни састанак слависта у Вукове дане - Српски језик и његови ресурси: теорија, опис и примене, Београд : Међународни славистички центар на Филолошком факултету, Филолошки факултет (2017). https://doi.org/10.18485/msc.2017.46.3.ch10
-
Речник САНУ као база терминолошких речника (на примеру речника кулинарства)
... термина са референтним корпусом коришћен је Корпус савременог српског језика (korpus.matf.bg.ac.rs) од двадесет два милиона речи, (Утвић, 2011). Кључност термина (енг. keyness) се рачуна као однос релативне фреквенције (на милион) у кулинарском корпусу и у општем корпусу. Коришћењем електронских ...
... креираном кулинарском корпусу препознате су семантичке категорије карактеристичне за лексику кулинарских текстова (Крстев, Лазић, 2015): Табела: Примери из корпуса који су препознати семантичким маркерима за текстове кулинарског домена Маркер Опис маркера Примери из корпуса +DOM=Culinary кулинарски ...
... рударство и геологију, где постоје развијени електронски речници и корпуси, а потом за математику, физику, етнологију, право итд.). Када је у питању конкретно лексика кулинарских текстова, даљи кораци би свакако обухватили проширење корпуса и дигитализацију осталих кувара у библиотеци Института САНУ. ...Рада Стијовић, Олга Сабо, Ранка Станковић. "Речник САНУ као база терминолошких речника (на примеру речника кулинарства)" in Словенска терминологија данас, Београд : Српска академија наука и уметности (2017)
-
Towards ELTeC-LLOD: European Literary Text Collection Linguistic Linked Open Data
Овај рад описује студију случаја о генерисању повезаних података креираних на основу обечежених текстуалних корпуса коришћењем формата размене података у обради природних језика (NIF). Као основа за ово истраживање послужио је подскуп корпуса ELTeC, који се састоји од 900 романа из периода 1840-1920 за 9 европских језика. Верзија романа са коментарима, у такозваном TEI level-2 формату, трансформисана је у NIF, формат заснован на RDF/OWL који има за циљ постизање интероперабилности између алата за обраду природних језика, језичких ресурса и ...Ranka Stanković, Christian Chiarcos, Miloš Utvić, Olivera Kitanović. "Towards ELTeC-LLOD: European Literary Text Collection Linguistic Linked Open Data" in LDK 2023 – 4th Conference on Language, Data and Knowledge, 12-15 September in Vienna, Austria, Lisabon : NOVA FCSH - CLUNL (2023). https://doi.org/10.34619/srmk-injj
-
Нове технологије за оживљавање старих текстова
удаљено читање, књижевни корпус, обрада српског језика, анотација врстом речи, лематизација, именовани ентитетиЦветана Крстев, Ранка Станковић, Бранислава Шандрих Тодоровић, Милица Иконић Нешић. "Нове технологије за оживљавање старих текстова" in Зборник радова Међународне научне конференције Дигитална хуманистика и словенско културно наслеђе II, Београд, 28-29 јуни 2021., Београд : Савез славистичких друштава Србије (2023)
-
Глаголи у кухињи и за столом
Цветана Крстев, Биљана Лазић (2015)У раду је приказано истраживање лексике на српском језику кулинарског домена које се заснива на коришћењу доменског корпуса, електронских лексичких ресурса, пре свега WordNet-а и морфолошких речника, и локалних граматика. Приказане су доменске специфичности ових ресурса, како се користе, и међусобно употпуњују. Посебно је приказано како се коришћењем доменског корпуса могу екстраховати глаголи специфични за кулинарски домен и описати начини њиховог коришћења. Дат је попис глагола са основним подацима који је добијен применом представљених метода.аутоматска обрада, коначни трансдуктори, електронски речници, семантичке мреже, локалне граматике, кулинарство... Цветана Крстев (Филолошки факултет) Биљана Лазић (Рударско-геолошки факултет) Глаголи у кухињи и за столом* Сажетак: У раду је приказано истраживање лексике на српском језику кулинарског домена које се заснива на коришћењу доменског корпуса, електронских лексичких ресурса, пре свега WordNet-а ...
... језичких ресурса за кулинарски домен a. Корпус куварских рецепата За потребе изучавања лексике кулинарског домена, као и за потребе развоја и евалуације лексичких ресурса и алата из овог домена развијен је доменски корпус (Вујичић Станковић и Пајић 2014). Овај корпус је добијен превлачењем рецепата са ...
... Анализом доменског корпуса и консултовањем српског ворднета прво су одабрани адекватни семантички маркери куварске лексике (дати у Табела 1) којима су потом обележене како све постојеће јединице електронског речника тако и оне нове које су добијене екстраховањем из доменског корпуса (Вујичић Станковић ...Цветана Крстев, Биљана Лазић. "Глаголи у кухињи и за столом" in Научни састанак слависта у Вукове дане - Српски језик и његови ресурси: теорија, опис и преимене, Вол. 44/3, Београд : Међународни славистички центар (2015)
-
Ontološki model upravljanja rizikom u rudarstvu
Olivera Kitanović (2021)Rudarska proizvodnja obuhvata kompleksne tehnološke sisteme, što nameće potrebu za uspostavljanjem i unapređivanjem sistema upravljanja rizikom. Heterogenost i obim podataka neophodnih za upravljanje rizikom zahtevaju sistem koji ih na fleksibilan način integriše i omogućava njihovo optimalno korišćenje. Osnovni cilj ove disertacije je razvoj ontologije za domen rudarstva i na njoj zasnovanog modela za upravljanje rizikom. Njegova realizacija podrazumeva i implementaciju algoritama ekstrakcije informacija za popunjavanje ontologije, kao i odgovarajuće softversko rešenje. Razvoj modela obuhvata i značajno proširenje rudarskog korpusa, kao ...rudarstvo, rizik, upravljanje rizikom, procena rizika, ontologija, semantička mreža, ekstrakcija informacija, upravljanje znanjem, računarska lingvistika... je modul za ekstrakciju relacija iz rudarskog korpusa, a kao referentni korpus korišćen je SrpKor, koji su razvili D. Vitas i grupa saradnika sa Univerziteta u Beogradu, http://vvv.korpus.matf.bg.ac.rs/korpus/ (Vitas and Krstev 2012; Utvić 2014). Referentni korpus je korišćen zajedno sa plitkim parsiranjem ...
... resurs jezika rudarske struke. Razvoj jednojezičnog korpusa iz domena rudarstva počeo je kao deo projekta vezanog za upravljanje rudarskom projektnom dokumentacijom korišćenjem jezičkih tehnologija (Tomašević et al. 2018). Tada je jednojezični korpus obuhvatio tekstove iz rudarskog domena i srodnih ...
... a reči sa onim u domenskom, rudarskom korpusu na osnovu čega se određuje verovatnoća pripadnosti rudarskoj terminologiji. Osim određivanja rudarske terminologije, isti metod je primenjen i na potkorpuse rizika, kvarova, profesija. Tekstovi koji su ušli u sastav korpusa takođe se obrađuju pomoću e ...Olivera Kitanović. Ontološki model upravljanja rizikom u rudarstvu, Beograd : [O. Kitanović], 2021
-
SrpELTeC on Platforms: Udaljeno čitanje, Aurora, NoSketch
Serbian ELTeC collection (100 novels and extended) developed within COST action CA16204 Distant Reading for European Literary History comprises at this moment 111 novels published in the period 1840-1920. Such a valuable resource is and will be used for various lexical and linguistic research, by using different tools and methodologies. In this paper, three platforms on which these novels are published will be presented: “Udaljeno ˇcitanje”, Aurora and Sketch Engine.Ranka Stanković, Mihailo Škorić, Petar Popović. "SrpELTeC on Platforms: Udaljeno čitanje, Aurora, NoSketch" in Infotheca, Faculty of Philology, University of Belgrade (2022). https://doi.org/10.18485/infotheca.2021.21.2.7
-
Речници у дигиталном добу - информатичка подршка за српски језик
Биљана Рујевић (2022)Морфолошки речници српског језика представљају електронски језички ресурс који има значајну историју развоја и коришћења за потребе обраде природних језика. С обзиром на то да су чувани у облику датотека чији је број нарастао па је самим тим управљање речницима постало отежано јавила се потреба за смештањем информација из речника у облик лексикографске базе. Како би се омогућио симултани рад на развоју речника за више корисника јавила се потреба за веб-апликацијом заснованој на лексикографској бази. Како би се размотриле ...Биљана Рујевић. Речници у дигиталном добу - информатичка подршка за српски језик, Београд : [Б. Рујевић], 2022
-
Serbian ELTeC Sub-Collection in Wikidata
This paper presents an example of integration of Wikidata with digital libraries and external systems, as well as some best practices for speeding up the process of data preparation and import to Wikidata, on the use case of SrpELTeC, Serbian subcollection of the ELTeC multilingual collection (European Literary Text Collection). After preliminary work on the manual Wikidata population with SrpELTeC novels, the goal was to automate the process of preparing and importing information, so different solutions were analysed and ...Milica Ikonić Nešić, Ranka Stanković, Biljana Rujević. "Serbian ELTeC Sub-Collection in Wikidata" in Infotheca, Faculty of Philology, University of Belgrade (2021). https://doi.org/10.18485/infotheca.2021.21.2.4
-
Annotation of the Serbian ELTeC Collection
Ovaj rad predstavlja takozvano izdanje nivoa 2 kolekcije tekstova SrpELTeC razvijene u okviru aktivnosti Radne grupe 2 – Metode i alati COST akcije CA 16204 (Distant Reading for European Literary History) i njene specifikacije šeme. Izdanje nivoa 2 je nastavak izdanja nivoa 1, koje se koristi kao ulaz za morfosintaksičke i NER anotacije romana. Srpska obrada nivoa-2 je navedena kroz potrebne korake, uključujući metode i alate koji se koriste u tom procesu. Neki statistički podaci iz srpske kolekcije nivoa ...udaljeno čitanje, literarni korpus, tagiranje, prepoznavanje imenovanih entiteta, lematizacija, ELTeCRanka Stanković, Cvetana Krstev, Branislava Šandrih Todorović, Mihailo Škorić. "Annotation of the Serbian ELTeC Collection" in Infotheca, Faculty of Philology, University of Belgrade (2021). https://doi.org/10.18485/infotheca.2021.21.2.3
-
Чији је пример? Анализа лексичких обележја на примерима Речника САНУ
У овом раду поставља се питање: да ли се може утврдити ко је аутор неког текста уколико се анализирају искључиво његова лексичка обележја? Како бисмо покушали да добијемо одговор на ово питање, посматрали смо примере у оквиру речничког чланка појединачне лексеме Речника САНУ, који су забележени у пет томова (и то: I, II, XVIII, XIX и XX). Сваки пример је преузет из неког извора на шта упућују скраћенице, наведене у заградама. Од преко 5.000 понуђених извора, определили смо се ...... текста; o no_rare_tokens: број токена са фреквенцијом мањом од неке за- дате вредности у референтном корпусу; o Avg_freq_in_corpus: просечна фреквенција речи присутних у тексту у односу на референтни корпус; • остало: o no_pronouns: укупан број личних заменица. Навешћемо као пример употребу веб сервиса ...
... текста; o no_rare_tokens: број токена са фреквенцијом мањом од неке задате вредности у референтном корпусу; o Avg_freq_in_corpus: просечна фреквенција речи присутних у тексту у односу на референтни корпус; остало: o no_pronouns: укупан број личних заменица. Навешћемо као пример употребу веб сервиса ...
... текста; o no_rare_tokens: број токена са фреквенцијом мањом од неке задате вредности у референтном корпусу; o Avg_freq_in_corpus: просечна фреквенција речи присутних у тексту у односу на референтни корпус; остало: o no_pronouns: укупан број личних заменица. Навешћемо као пример употребу веб сервиса ...Бранислава Б. Шандрих, Ранка М. Станковић, Мирјана С. Гочанин. "Чији је пример? Анализа лексичких обележја на примерима Речника САНУ" in Српски језик и његови ресурси, Међународни славистички центар, Филолошки факултет, Универзитет у Београду (2019). https://doi.org/10.18485/msc.2019.48.3.ch13
-
FrameNet Lexical Database: Presenting a Few Frames Within the Risk Domain
U radu se daje kratak prikaz teorije semantike okvira, na kojoj je zasnovana leksička baza Frejmnet. Predstavljena je koncepcija ove mreže, kao i mogućnosti njene primene. Predstavljena je i leksička analiza koja se primenjuje u projektu izrade Frejmneta i ukazano na razlike između analize zasnovane na okviru u odnosu na analizu zasnovanu na reči. Zatim je prikazano nekoliko povezanih okvira koje prizivaju reči iz domena rizika. U radu je predstavljena i platforma NLTК pomoću koje se mogu koristiti ...... српског jезика.” Наш jезик XLVIII (1-2): 27–43. Поповић, Љубомир. 2003. “Интегрални речнички модели и њихов значаj за лингвистички опис и анализу корпуса.” Научни састанак слависта у Вукове дане 31 (1): 201–220. Infotheca Vol. 21, No. 1, September 2021 33 Marković A. et al., FrameNet Lexical Database ...
... Presenting a Few Frames Within the Risk Domain Aleksandra Marković, Ranka Stanković, Natalija Tomić, Olivera Kitanović Дигитални репозиторијум Рударско-геолошког факултета Универзитета у Београду [ДР РГФ] FrameNet Lexical Database: Presenting a Few Frames Within the Risk Domain | Aleksandra Marković ...
... Tomić, Olivera Kitanović | Infotheca | 2021 | | 10.18485/infotheca.2021.21.1.1 http://dr.rgf.bg.ac.rs/s/repo/item/0005141 Дигитални репозиторијум Рударско-геолошког факултета Универзитета у Београду омогућава приступ издањима Факултета и радовима запослених доступним у слободном приступу. - Претрага ...Aleksandra Marković, Ranka Stanković, Natalija Tomić, Olivera Kitanović. "FrameNet Lexical Database: Presenting a Few Frames Within the Risk Domain" in Infotheca, Faculty of Philology, University of Belgrade (2021). https://doi.org/10.18485/infotheca.2021.21.1.1
-
Vebran Web Services for Corpus Query Expansion
Ranka Stanković, Miloš Utvić (2020)U ovom radu se govori o razvoju veb usluga Vebran i njihovoj primeni u poboljšanju pretraživanja korpusa. Veb-servisi Vebran koriste se za konsultovanje spoljnih leksičkih izvora za srpski jezik (uglavnom elektronski morfološki rečnici i srpski Vordnet) i proširivanje korisničkih upita radi dobijanja relevantnijih rezultata iz srpskih korpusa.... Stanković R. and Utvić M., “Vebran Web Service . . . ”, pp. 99–118 Утвић, Милош. “Анотациjа Корпуса савременог српског jезика”. Инфотека Vol. XII, no. 2 (2011): 39–51 Utvić, Miloš. “Izgradnja referentnog korpusa savremenog srpskog jezika”. Phdthesis, Univerzitet u Beogradu, Filološki fakultet, Beograd ...
... Утвић, Милош В., Иван М. Обрадовић, Ранка М. Станковић, Александра Ђ. Томашевић and Биљана Ђ. Лазић. “Изградња специjалних корпуса савременог српског jезика на примеру корпуса из области рударства”. In Српски jезик и његови ресурси: теориjа, опис и примене. 3/47. научни састанак слависта у Вукове дане ...
... Beograd, 2014, accessed August 1, 2019. https://fedorabg.bg.ac.rs/fedora/get/o: 10061/bdef:Content/download Утвић, Милош. “Листе учестаности Корпуса савременог српског jезика”. In Научни састанак слависта у Вукове дане. Српски jезик и његови ресурси: теориjа, опис и примене. 3/43. научни састанак слависта ...Ranka Stanković, Miloš Utvić. "Vebran Web Services for Corpus Query Expansion" in Infotheca, Faculty of Philology, University of Belgrade (2020). https://doi.org/10.18485/infotheca.2019.19.2.5
-
Integracija heterogenih tekstualnih resursa
Ranka Stanković, Ivan Obradović (2007)U radu je opisan pristup integraciji heterogenih tekstualnih resursa za srpski jezik uz pomoć jednog kompleksnog softverskog alata, razvijenog specijalno za ove potrebe. Opisani su struktura i osnovne komponente razvijenog sistema. Iznete su i mogućnosti unapređivanja resursa međusobnom razmenom informacija, koje pruža razvijeno integrisano okruženje. Konačno, opisana je i mogućnost primene integrisanih heterogenih resursa za proširenje upita, kao i pretraživanje tekstova uopšte, a naznačeni su i neki od pravaca daljeg razvoja.... da je danas na raspolaganju veliki broj različitih resursa, razvijenih u značajnom obimu (Vitas et al. 2003). Pored korpusa srpskog jezika, kao i višejezičnih paralalenih korpusa, od posebnog su značaja sistem morfoloških rečnika srpskog jezika (SMR), kao i semantička mreža za srpski jezik (srpski ...
... rečnika. Kada je u pitanju pretraživanje korpusa, sem najjednostavnijih upita, po 11 pravilu je moguće formulisanje i složenijih upita regularnim izrazima. Međutim, i kada je u pitanju tekstualni sadržaj na internetu, i kada se pretražuju korpusi, postoje znatno veće mogućnosti za proširenje ...
... pretraživanje tekstova koje se ne zasn či, već na regularnim izrazima i grafovima. Ovakav način pretraživanja uobičajen je, inače, kada su u pitanju korpusi. U upitima koji se zasnivaju na regularnim izrazima i grafovima upit se ne formira navođenjem jedne ili više lema ili njihovih oblika. Upit postavljen ...Ranka Stanković, Ivan Obradović. "Integracija heterogenih tekstualnih resursa" in Zbornik radova međunarodnog simpozijuma Razlike između bosanskog/bošnjačkog, hrvatskog i srpskog jezika, Graz, Austria, April 2007, - (2007)
-
Towards the semantic annotation of SR-ELEXIS corpus: Insights into Multiword Expressions and Named Entities
Овај рад представља активности на развоју корпуса ELEXIS-sr, српском додатку вишејезичном анотираном корпусу ELEXIS-а, који се састоји од семантичких анотација и репозиторија значења речи. ELEXIS је паралелни вишејезични анотирани корпус на десет европских језика, који може да се користи као вишејезички репер за евалуацију европских језика са мање и средње развијеним ресурсима. Фокус овог рада је на вишечланим изразима и именованим ентитетима, њиховом препознавању у скупу реченица ELEXIS-sr и поређењу са анотацијама на другим језицима. Разматрају се први кораци ...Cvetana Krstev, Ranka Stanković, Aleksandra Marković, Teodora Mihajlov. "Towards the semantic annotation of SR-ELEXIS corpus: Insights into Multiword Expressions and Named Entities" in Proceedings of the Joint Workshop on Multiword Expressions and Universal Dependencies (MWE-UD) @ LREC-COLING 2024, Turin, May 25, 2024, ELRA and ICCL (2024)
-
Multiword Expressions between the Corpus and the Lexicon: Universality, Idiosyncrasy and the Lexicon-Corpus Interface
Verginica Barbu Mititelu, Voula Giouli, Kilian Evang, Daniel Zeman, Petya Osenova, Carole Tiberius, Simon Krek, Stella Markantonatou, Ivelina Stoyanova, Ranka Stankovic, Christian Chiarcos (2024)Predstavljamo trenutne aktivnosti na definisanju interfejsa leksikona i korpusa koji će služiti kao referenca u prikazu polileksemskih jedinica - višečlanih izraza - (različitih tipova - imenskih, glagolskih, itd.) u specijalizovanim leksikonima i povezivanju ovih unosa sa njihovim pojavljivanjima u korpusima. Konačni cilj je korišćenje ovakvih resursa za automatsko identifikovanje višečlanih izraza u tekstu. Uključivanje nekoliko prirodnih jezika ima za cilj univerzalnost rešenja koje nije usredsređeno na određeni jezik, kao i prilagođavanje idiosinkrazijama. Raspravljaju se izazovi u leksikografskom opisu višerečnih ...Verginica Barbu Mititelu, Voula Giouli, Kilian Evang, Daniel Zeman, Petya Osenova, Carole Tiberius, Simon Krek, Stella Markantonatou, Ivelina Stoyanova, Ranka Stankovic, Christian Chiarcos. "Multiword Expressions between the Corpus and the Lexicon: Universality, Idiosyncrasy and the Lexicon-Corpus Interface" in Proceedings of the Joint Workshop on Multiword Expressions and Universal Dependencies (MWE-UD) @ LREC-COLING 2024, Turin, May 25, 2024, ELRA and ICCL (2024)