Towards an Estonian dataset on document-level subjectivity

This article discusses a preparatory step towards developing an Estonian dataset on subjectivity, providing a brief overview of past analyses of subjectivity and the theoretical basis for creating the dataset. Subjectivity has been explored within many fields of linguistics, including pragmatics an...

Full description

Saved in:
Bibliographic Details
Main Authors: Karl Gustav Gailit, Kadri Muischnek, Kairit Sirts
Format: Article
Language:English
Published: University of Tartu Press 2025-06-01
Series:Eesti ja Soome-ugri Keeleteaduse Ajakiri
Subjects:
Online Access:https://ojs.utlib.ee/index.php/jeful/article/view/24547
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:This article discusses a preparatory step towards developing an Estonian dataset on subjectivity, providing a brief overview of past analyses of subjectivity and the theoretical basis for creating the dataset. Subjectivity has been explored within many fields of linguistics, including pragmatics and formal semantics, as well as natural ­ language processing where computational methods are used to create models for detecting subjectivity, often for further processing. However, many of these models could be improved, and for some it is questionable whether they classify subjectivity or something else, such as text genre. These issues are caused by the datasets these models are trained on, from the text collection method to the unnuanced labels of “objective” and “subjective”. To solve this issue, we propose a dataset of documents from various registers with annotations for subjectivity with a scalar value, where zero represents a fully objective document and one a subjective document. Kokkuvõte. Karl Gustav Gailit, Kadri Muischnek, Kairit Sirts: Eestikeelse terviktekstide subjektiivsuse andmestiku suunas. Artikkel selgitab eestikeelse subjektiivsuse andmestiku loomise ettevalmistavat sammu, andes seejuures ülevaate varasematest subjektiivsuse käsitlustest ning teoreetilise aluse andmestiku koostamiseks. Subjektiivsust on käsitletud mitmes lingvistika harus, sh pragmaatikas ja formaalses semantikas, aga ka loomuliku keele töötluses, kus kasutatakse arvutuslikke meetodeid, et luua mudeleid subjektiivsuse tuvastamiseks, mille eesmärk on sageli andmestiku edasi töötlemine. Mitut sellist mudelit on võimalik edasi arendada, mitme puhul tekib aga küsimus, kas need klassifitseerivad subjektiivsust või midagi muud, näiteks žanrit. Probleemid on tingitud andmestikest, mille peal on mudelid treenitud, kuidas tekste on kogutud ning sellest, et sildid „objektiivne“ ja „subjektiivne“ on jäigad. Nimetatud probleemide lahendamiseks pakume välja andmestiku, mis sisaldab tekste mitmest registrist ning mis on märgendatud arvuliste subjektiivsuse hinnangutega, kus null tähistab objektiivset teksti ning üks subjektiivset teksti.
ISSN:1736-8987
2228-1339