Bilginin Entropisi

Entropi kavramını fiziksel sistemlerden biliyoruz, bir düzensizlik ölçüsü. Termodinamiğin ikinci yasası kulağımıza çalınmıştır, kapalı sistemlerde düzensizlik (entropi) artar ya da sabit kalır. Aynı kavramın bir de matematiksel olanı var, ondan konuşalım.

Bir kelime tahmin oyunu oynayalım, üç harfli bir kelimeyi tahmin etmeye çalışıyoruz, sunucu ilk harfini söyleyecek. İlk harfi A derse mi daha çok bilgiye ulaşmış oluruz yoksa J derse mi? Tabii ki J, çünkü J ile başlayan çok daha az kelime var. İki durumda da sadece bir harf öğreniyoruz ama harfine göre bilgi içeriği değişiyor. Neden böyle oldu? Türkçe’de üç harfli kelimelerin ilk harflerinin dağılımını biliyoruz da ondan. Bir olasılık dağılımından gelen mesajların bilgi içeriği, olasılık düştükçe artıyor.

Dijital ortamda her türlü bilgi $0,1$’lerle temsil edildiği için, harfleri bir kenara bırakıp $0,1$ dizileriyle devam edelim düşünmeye. Bu dizilerde her bir basamağa bit denir, mesela $011001$ altı bitlik bir kelimedir. Eğer kelimelerimizde her bir basamakta $0$ ve $1$’lerin görülme sıklığı eşit olsa, mesela yazı-tura atarak kelimeleri yazıyor olsak, bir kelimede ne kadar bilgi olurdu? Buna farklı farklı bir sürü cevap uydurabiliriz ama en temizi kelime kaç basamaklıysa o kadar bilgi taşıyor demek değil mi? Yani biti bir bilgi içeriği ölçüsü olarak kullanabiliriz.

Bu akıl yürütmeye göre $001$ kelimesi $3$ bitlik bilgi içeriğine sahip, ama olasılık nerede? 3 bitle yazılabilecek toplam 8 kelime var ($000, 001, \dots, 111$), aslında $n$ bitle yazılabilecek $2^n$ tane kelime var. Yanisi olası bütün kelimelerin sayısının $2$ tabanında logaritması, bize bit sayısını veriyor. O zaman bir kelimenin bilgi içeriği $$\log_2 (\text{Kelime Sayısı})$$ olur diyebiliriz. Ayrıca kelimeleri her basamakta yazı-tura atarak yazdığımıza göre her birisinin olasılığını $$\frac{1}{\text{Kelime Sayısı}}$$ olarak hesaplayabiliriz. Mesela $001$ kelimesinin olasılığı $1/8$. Logaritmanın güzelliklerinden $$\log \frac{1}{a} = – \log a$$ eşitliğini de eklersek, o zaman bilgi içeriği dediğimiz şeyin $$ – \log_2 (\text{Kelimenin Olasılığı})$$ olduğunu görürüz.

Şimdi bunu kullanarak kelimelerin olasılıklarının farklı olduğu durumlarda da bilgi içeriğini tanımlayabiliriz. Bir $x$ kelimesinin olasılığına $p(x)$ dersek, bu kelimenin bilgi içeriği $$I(x) = – \log p(x)$$ olmalı. Bundan sonrası yokuş aşşağı. Diyelim elimizde bir rastgele kelimeler üreten bir süreç var, adı $X$ olsun sürecin ürettiği kelimeler de $x$. Bu süreç ne kadar kaotik, fizikten aldığımız ilhama göre $X$’in entropisi ne? Fiziksel sistemlerde ısı arttıkça entropi arttığına göre, $X$’in temsil ettiği bilgi miktarı arttıkça, entropisi artsa iyi olur doğrusu. $X$’in ürettiği kelimelerin ortalama bilgi miktarına $X$’in entropisi diyebiliriz, yani $I(x)$’lerin ortalama değerini bulmak istiyoruz. Buna $I(x)$’lerin beklentisi denir (beklentiyi daha detaylı bu linkte okuyabilirsiniz) ve her biri olasılıklarıyla çarpılıp toplanarak bulunur:

$\begin{align} H(X) &= \mathbb{E} ( I(x) ) \\ &= \sum_{x \in X} p(x) \cdot( – \log_2 p(x)) \\&= – \sum_{x \in X} p(x) \cdot \log_2 p(x) \end{align}$

Bu konu daha çok su kaldırır, sadece tanımın motivasyonunu yapabildim bugün. Gerçekten istediğimiz şeyi ölçüyor mu, nerelerde kullanılıyor, farklı versiyonları var mı? Bunlar sonraya kalsın.

İlk yorum yapan olun

Bir yanıt bırakın

E-posta hesabınız yayımlanmayacak.


*