DOĞAL DİLLERDEKİ İŞARETLEME SÜRECİNE BİLGİ KURAMI AÇISINDAN BAKIŞ (TÜRKÇE ÖRNEĞİNDE)
(AN INSIGHT INTO THE CODING PROCESS IN THE NATURAL LANGUAGES IN TERMS OF THE INFORMATION THEORY (IN THE EXAMPLE OF TURKISH) )

Author : Çağlayan YILMAZ  -  
Type :
Printing Year : 2021
Number : 43
Page : 88-113
    


Summary

Bu çalışma, anlam birimlerinin işaretlenme sürecinde geçirdiği dönüşüm üzerine odaklanmıştır. Bu dönüşüm kullanım kaynaklıdır. Boğumlanma özelliklerine göre eklemlenebilir parçalarına ayrılarak işaretlenen anlam birimleri, iletilerdeki kullanım sıklığına bağlı olarak gelişimini sürdürür. Bu çalışmada, Türkçedeki anlam birimlerinin bilgi değerlerine göre işaretlenmesi durumunda kullanılacak ölçüm için bir yöntem önerilmiştir. Bu yöntem, C. E. Shannon tarafından geliştirilen ve “anlam”ı ölçülebilir bir kavram olarak tanımlayan bilgi kuramı temellidir. Bu yöntem, iletilerdeki her bir sembolün bilgi değerini, onların iletilerdeki kullanım sıklığıyla ilişkilendirir. Bu sebeple, öncelikle bu ilişki üzerinde durulmuş, basit birkaç örnekle iletilerdeki sembollerin kullanım sıklıklarıyla onların işaret sayıları arasındaki ilişki ortaya konmuştur. Bu ilişki, verilen birkaç örnekle Türkçe sözcükler üzerinden somutlaştırılmıştır. Kullanım sıklıkları üzerinden birkaç Türkçe sözcüğün bilgi değeri ölçülmüş ve bu değerler üzerinden her bir anlam biriminin işaretlenmesi için gerekli olan işaret sayısı belirlenmiştir. Ancak bunun için bir derlemin oluşturulması ve bu derlemdeki her bir metnin anlam birimlerine ayrıştırılması ve her bir anlam biriminin derlemdeki kullanım sıklığının belirlenmesi gerekmiştir. Bu aşamada, yine bu çalışmanın sahibi tarafından daha önce yapılmış bir çalışma için hazırlanmış olan ve özellikle son 10 yılda yayımlanmış 100 adet metin parçasından oluşan derlemdeki metin parçalarının çözümlenmesiyle oluşturulmuş veri kullanılmıştır. Ayrıca yine söz konusu derlem kullanılarak, kullanım sıklıklarından yola çıkılarak, Türkçe anlam birimlerinin ortalama bilgi değeri (entropisi) hesaplanmış ve bu değer üzerinden, alfabedeki harf sayısıyla sözcükleri işaretlemek için gerekli olan işaret sayısı arasındaki ilişki ortaya konmuştur. Son olarak çalışmanın derleminden kaynaklanmış olan yöntem tercihi, tartışmaya sunulmuştur. Olması gereken ölçme yöntemi ile mümkün olan ölçme yöntemi arasındaki bu tercih, bilgi kuramının sorgulanmasını gerekli kılacak boyuttadır.



Keywords

Bilgi kuramı, entropi, işaretleme, alfabe.



Abstract

This study focuses on the transformation that morphemes undergo in the coding process. This transformation is related to the use. Morphemes marked according to their articulation evolve according to the frequency in the messages. In the study, a method, which will be used in the cases that the Turkish morphemes are coded according to the information of value of Turkish morphemes. This method is based on the information theory which is developed by C. E. Shannon and which describes “meaning” as a measurable concept. This method relates the information value of symbols in the messages to their frequency in the messages. Therefore, it was focused on the relation between the frequency and their code numbers by giving several examples. The information of value of the several Turkish words is measured depending on their frequency and the code number which is necessary for the coding of each morpheme, depending on these values. However, it is necessary that a corpus should be formed and the separation of each text into morphemes and that the frequency of each morpheme within the corpus should be determined. At that stage, the data formed by the analysis of the text pieces and composed of 100 text pieces published specifically in the last decade and which have been prepared by the author of this study for a previous study. In addition, the entropy of the Turkish morphemes has been calculated by using their frequency in the corpus and, the relationship between the number of letters in the alphabet and the number of signs required to mark the words is presented. Finally, the preferred method in the study is presented for discussion. The preference between the required measurement method and the possible measurement method is at a dimension which will require the questioning of the information theory.



Keywords

Informational theory, entropy, coding, alphabet.