Olasılık ya da Yapay Zekanın Matematiksel Temelleri – 5

Bir önceki yazının linki şöyle dursun.

Şu ana kadar düşündüklerimiz arasında en önemlisi rastgele bir değişkenin beklentisi. Sonuçları $x_1, x_2, \dots, x_n$ olan ve sırasıyla bu sonuçların çıkma ihtimali $p_1, p_2, \dots, p_n$ olan bir rastgele $X$ değişkeninin beklentisi $$E(X)=p_1x_1 + p_2x_2 + \cdots + p_nx_n$$ olarak tanımlanır. Bu oldukça akla mantığa uygun bir şekilde $X$ rastgele değişkenin aldığı ortalama değerdir aslında ve bazen $\mu_X$ olarak da gösterilir.

En son yazıda $T_1(k)=2k-1$ ve $T_2(k)=k$ modellerinin beklentisini hesapladık, $$E(T_1)=N, \\ E(T_2)=\frac{N+1}{2}$$ çıktı. Yani $T_1$’in tahminlerinin ortalama değeri tam olarak gerçek değere eşitken, $T_2$’nin tahminlerinin ortalama değeri gerçekten oldukça küçük. Bu bakımdan $T_1$ daha iyidir diyebiliriz, ama daha evvel iki farklı kriterde $T_2$’nin galip geldiğini de unutmayın. Tam bu durumu tarif eden bir kavramı da söyleyeyim, tahminlerinin ortalama değeri gerçeğe eşit olan modellere yansız denir, İngilizcesi unbiased. Yansız modeller gerçeği tam tutturamasa da yaptığı tahminlerin ortalamasında gerçeği tutturuyor, oldukça güzel bir özellik.

 Ama yansızlık tek başına çok bir şey ifade etmez, neden etmediğini anlamak için ortalama dediğimiz şeyi biraz kurcalayalım. Mesela tamamen uyduruk bir örnekte tahmin etmeye çalıştığımız gerçek sayı $10$ olsun, iki tane de tahmin modeli olsun elimizde, $A$ ve $B$ diyelim,

  • $A$’nın tahminleri herbiri $1/4$ olasılıkla $0, 5, 15, 20$;
  • $B$’nın tahminleri herbiri $1/4$ olasılıkla $7, 8, 9, 10$;

olsun. Bu iki modelin beklentilerini hesaplamak kolay $$E(A)=\frac{1}{4}0+\frac{1}{4}5+\frac{1}{4}15+ \frac{1}{4}20=10$$ ve $$E(B)=\frac{1}{4}7+\frac{1}{4}8+\frac{1}{4}9+ \frac{1}{4}10=8.5$$. Dolayısıyla $A$ yansız bir model ama $B$ değil. Yine de 10 sayısını tahmin etmeye çalıştığımızı düşününce sanki $A$ çok da güven vermiyor. Vermiyor çünkü tahminleri ortalaması tam gerçeğe eşit ama hiç bir tahmin gerçeği yansıtmıyor. Ortalama öyledir, hiç tutturamasan da ortalamada haklı olabilirsin. $A$ ve $B$’yi yanyana koyunca şunu da görüyoruz, $A$’nın tahminleri çok dağınıkken, $B$ daha tutarlı. Bir sonraki adımda bunu ölçelim, ama sadece tahmin modelleri için değil, herhangi bir rastgele değişken için verelim tanımı, çünkü bu dağınıklık kavramı da pek önemlidir.

$X$ sonuçları $x_1, x_2, \dots, x_n$ ve sırasıyla bu sonuçların çıkma ihtimali $p_1, p_2, \dots, p_n$ olan bir rastgele değişken olsun. Bu değişkenin ne kadar dağınık olduğunu ölçmek istiyoruz, o yüzden önce değişkenin ortalama $X$’in varyansı  (İngilizcesi variance!), $X$’in aldığı değerlerin ortalamasından ne kadar uzak olduğu ile ölçülür. Yani, $X$’in ortalama değerine $\mu_X$ dersek ortalamaya uzaklıkları $$(X-\mu_X)^2$$ ile ölçer ve bunun ortalama değerini alarak varyansı tanımlayabiliriz: $$Var(X)=E \big( (X-\mu_X)^2 \big)$$

Bu haliyle varyans bir değişkenin ortalaması etrafında nasıl dağıldığını ölçer, varyans büyümesi değişkenin ortalaması etrafında daha uzak aralıklarla dağıldığını gösterir. Adını anmadan geçmeyelim, varyansın kareköküne de standart sapma denir. Bu kavramı bir tahmin modeline uygularsak, bize tahmin modelinin ne kadar tutarlı tahminlerde bulunduğunu gösterir. Yukarıdaki uyduruk örnekteki $A$ ve $B$ modellerinden tabii ki $A$ modelinin varyansı daha yüksek olacaktır. Hesap kitabı meraklı okuyucular kendileri yapsınlar, ama zaten geçtiğimiz yazılardaki örnek durumları incelediğinizde kolaylıkla $T_1$’in tahminlerinin dağınıklığını, dolayısıyla $Var(T_1)>Var(T_2)$ olduğunu görebilirsiniz.

Tahmin modellerini birbirleriyle kıyaslamak için kullanılan en temel iki yöntem en son kullandığımız beklenti ve varyans kavramları üzerindendir. Bir tahmin modelinin beklentisi gerçeğe ne kadar yakınsa o kadar iyidir (en iyisi beklentinin tam olarak gerçeğe eşit çıkması, yani modelin yansız olması), ve bir tahmin modelinin varyansı ne kadar düşükse o kadar iyidir. Beklenti kategorisinde $T_1$ daha iyi, varyans kategorisinde ise $T_2$.

Peki hangisini neye göre tercih edeceğiz? Bu soruya cevap ve yapay zekanın temel açmazı varyans-yanlılık ikilemi bir sonraki yazıya.

 

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

*

Şu HTML etiketlerini ve özelliklerini kullanabilirsiniz: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>