Regresyon Analizi İle İlgili Bilmeniz Gereken Her Şey

Regresyon Analizi İle İlgili Bilmeniz Gereken Her Şey

John Tukey bir keresinde, “Doğru soruna yaklaşık bir cevap, yaklaşık bir soruna kesin bir cevaptan daha iyi bir değerdir” dedi.

Tam olarak regresyon analizinin doğru çabaladığı şey budur. Önemli durumlarda daha bilinçli kararlar almaya yardımcı olan en yaygın kullanılan öngörücü modelleme tekniklerinden biridir. Bu makalede, regresyon analizi nedir, nasıl çalıştığını ve ustalaşmanın en iyi yolu hangisidir.Bunları anlatmaya çalışacağım sizlere.

Regresyon Analizi Nedir?

Regresyon analizi, bir veri bilimcisi olarak uzmanlaşmanız gereken ilk algoritmadır. Veri analitiklerinde en sık kullanılan prediktif modelleme tekniklerinden biridir. Bugün bile çoğu şirket, karar vermeyi ölçmek için regresyon tekniklerini kullanır.

“Regresyon analizi nedir” sorusuna cevap vermek için, temellere inmemiz gerekir. Basit bir regresyon analizi tanımı, regresyonun bir veya daha fazla bağımsız değişkene (X) dayalı bağımlı bir değişkeni (Y) tahmin etmek için kullanılan bir teknik olduğudur.

Klasik bir regresyon denklemi şöyle görünür:

Yukarıdaki denklemde,

hθ (x), Y bağımlı değişkenidir.

X bağımsız değişkendir

θ0 bir sabittir ve

θ1, regresyon katsayısıdır

Regresyon Analizi Uygulamaları

Regresyon analizi, bazı iş durumlarında kararlar almak için kullanılır. Regresyon analizinin üç ana uygulaması vardır.

(1) Anlaşmakta zorlandıkları bir şeyi açıklamak. Örneğin, neden müşteri hizmetleri e-postalarının önceki çeyrekte düştüğü.

(2) Önemli iş eğilimleri hakkında öngörülerde bulunmak. Örneğin, ürünlerinin gelecek yıl boyunca nasıl görünmesini talep edecek?

(3) Farklı alternatifler arasında seçim yapın. Örneğin, bir PPC (tıklama başına ödeme) veya içerik pazarlama kampanyası için gitmeli miyiz?

Farklı Regresyon Analizi Teknikleri Nedir?

Çok dar bir regresyon analizi tanımı bulmak zor, çünkü çok sayıda farklı regresyon analizi tekniği var. Çoğu insan, iki genel olandan herhangi birini, lineer veya lojistik regresyondan hemen hemen her regresyon problemine uygulama eğilimindedir.

Ancak, mevcut çok sayıda regresyon tekniği vardır ve farklı teknikler farklı problemler için daha uygundur. Regresyon analizi tekniklerinin türleri aşağıdakilere dayanmaktadır:

(1) Bağımsız değişkenlerin sayısı (1, 2 veya daha fazla).

(2) Bağımlı değişkenin türü (Kategorik, sürekli vb.)

(3) Regresyon çizgisinin şekli.

Başlıca Regresyon Analizi Türleri:

1. Doğrusal Regresyon

Doğrusal regresyon, en sık kullanılan regresyon tekniğidir. Doğrusal regresyon, Y olarak bilinen sürekli bir yanıt değişkeni için bir veya daha fazla değişkenin işlevi olacak bir denklem bulmayı amaçlamaktadır (X).

Dolayısıyla, doğrusal regresyon, sadece X bilindiğinde Y değerini tahmin edebilir. Başka hiçbir faktöre bağlı değildir.

Y, ölçüt değişkeni olarak bilinir, X ise öngörücü değişken olarak bilinir. Doğrusal regresyonun amacı, regresyon çizgisi adı verilen en uygun çizgiyi noktalardan bulmaktır. Matematiksel doğrusal regresyon formül / denklemi şöyle görünür:

Yukarıdaki denklemde,

hθ (x) Y ölçüt değişkenidir

X, tahmin değişkendir

θ0 bir sabittir ve

θ1, regresyon katsayısıdır

Doğrusal regresyon ayrıca çoklu regresyon analizine ve basit regresyon analizine de bölünebilir. Basit doğrusal regresyonda, Y bağımlı değişkeninin değerini tahmin etmek için yalnızca bir bağımsız değişken X kullanılır.

Çoklu regresyon analizinde ise Y’yi tahmin etmek için birden fazla bağımsız değişken kullanılmaktadır. Elbette, her iki durumda da sadece bir değişken Y vardır. Tek fark, bağımsız değişkenlerin sayısındaki değerdir.

Örneğin, sadece kare görüntüleri temel alan bir dairenin kirasını tahmin edersek, basit bir doğrusal regresyondur.

Öte yandan, rantı bir dizi faktöre dayanarak tahmin edersek; kare görüntüleri, mülkün yerini ve binanın yaşı, daha sonra çoklu regresyon analizi örneği olur.

2. Lojistik Regresyon

Lojistik regresyonun ne olduğunu anlamak için, doğrusal regresyondan nasıl farklı olduğunu anlayarak başlamalıyız. Doğrusal ve lojistik regresyon arasındaki farkı anlamak için, önce sürekli ve kategorik bir değişken arasındaki farkı anlamamız gerekir.

Sürekli değişkenler sayısal değerlerdir. Verilen iki değer arasında sonsuz sayıda değer vardır. Örnekler arasında bir videonun uzunluğu veya ödeme alındığı süre veya bir şehrin nüfusu sayılabilir.

Kategorik değişkenler ise, farklı gruplara veya kategorilere sahiptir. Mantıklı bir düzenleri olabilir veya olmayabilir. Örnekler cinsiyet, ödeme yöntemi, yaş sınırı vb.

Doğrusal regresyonda, bağımlı değişken Y her zaman sürekli bir değişkendir. Eğer Y değişkeni kategorik bir değişken ise, doğrusal regresyon uygulanamaz.

Y sadece 2 sınıfa sahip kategorik bir değişken olduğunda, bu sorunun üstesinden gelmek için lojistik regresyon kullanılabilir. Bu tür problemler ikili sınıflandırma problemleri olarak da bilinir.

Standart lojistik regresyonun yalnızca ikili sınıflandırma problemleri için kullanılabileceğini anlamak da önemlidir. Y’nin 2’den fazla sınıfı varsa, çok sınıflı bir sınıflandırma haline gelir ve standart lojistik regresyon uygulanamaz.

Lojistik regresyon analizinin en büyük avantajlarından biri, bir olay için bir tahmin olasılık skorunu hesaplayabilmesidir. Bu, veri analitiği için paha biçilmez bir tahmin edici modelleme tekniği olmasını sağlar.

3. Polinom Regresyonu

Bağımsız değişkenin (X) gücü 1’den fazlaysa, polinom regresyonu olarak bilinir. İşte bir polinom regresyon denklemi nasıl görünüyor

y = a + b * x ^ 3

Polinom regresyonda en uygun çizginin düz çizgi olduğu doğrusal regresyonun aksine, farklı veri noktalarına uyan bir eğridir. İşte bir polinom regresyon denklemi  grafik gibi görünüyor.

Polinom denklemleriyle, insanlar daha düşük bir hata oranıyla sonuçlandığı için daha yüksek derecede bir polinom sığdırmaya çalışırlar. Ancak, bu aşırı uydurmaya yol açabilir. Eğrinin aslında sorunun doğasına uyduğundan emin olmak önemlidir.

Özellikle uçlara doğru eğriyi kontrol etmek ve şekillerin ve trendlerin yerine oturduğundan emin olmak önemlidir. Polinom ne kadar yüksek olursa, yorumlama sırasında garip sonuçlar üretme olasılığı o kadar yüksek olur.

4. Kademeli Regresyon

Birden fazla bağımsız değişken olduğunda kademeli regresyon kullanılır. Kademeli regresyonun özel bir özelliği, bağımsız değişkenlerin insan öznelliği dahil olmadan otomatik olarak seçilmesidir.

Doğru bağımsız değişkenleri tanımlamak için R-kare ve t-istatistikleri gibi istatistiksel değerler kullanılır. Kademeli regresyon, veri setlerinin boyutsallığı yüksek olduğunda sıklıkla kullanılır. Bunun nedeni, modelin tahmin yeteneğini minimum değişken sayısı ile en üst düzeye çıkarmaktır.

Kademeli regresyon önceden tanımlanmış koşullara bağlı olarak her seferinde bir tane olmak üzere değişkenler ekler veya düşürür. Regresyon modeli takılana kadar bunu yapmaya devam eder.

5. Ridge Regresyon

Bağımsız değişkenler yüksek oranda korelasyon gösterdiğinde (çoklu bağlantı), ridge regresyonu kullanılır. Bağımsız değişkenler yüksek korelasyon gösterdiğinde, en küçük kareler kestirimlerinin varyansları çok büyüktür.

Sonuç olarak, gözlenen değer gerçek değerden çok fazla sapma gösterir. Ridge regresyon, regresyon tahminlerine bir derece önyargı ekleyerek bu sorunu çözer. Ridge regresyon denkleminin görünüşü şöyle:

Yukarıdaki denklemde, büzülme parametresi λ (lambda), çoklu bağlanma problemini çözmek için kullanılır.

6. Kement Regresyonu

Ridge Regression gibi, Lasso Regression da çoklu bağlanma problemini çözmek için bir büzülme parametresi kullanır. Ayrıca, hassasiyetlerini geliştirerek doğrusal regresyon modellerine yardımcı olur.

Penaltı fonksiyonunun kareler yerine mutlak değerler kullanması nedeniyle Ridge Regression’dan farklıdır. İşte Kement Regresyon denklemi:

7. ElasticNet Regresyon

ElasticNet Regression yöntemi, Ridge ve Lasso yöntemlerinin L1 ve L2 cezalarını doğrusal olarak birleştirir. İşte ElasticNet Regression denkleminin nasıl göründüğü:

Regresyon Analizini Öğrenmek İçin En İyi Kaynaklar Nelerdir?

Regresyon analizi, veri bilimi ve makine öğreniminin merkezinde yer almaktadır. Regresyon analizi tanımını anlamak ve hatta temellerini öğrenmek nispeten kolay olsa da, daha iyi doğruluk için bir regresyon algoritmasını optimize etmek oldukça zordur.

Size en uygun kaynak, regresyon analizinin öğrenilmesinin ardındaki amacınıza bağlı olacaktır; gündelik bir ilgi, akademik bir takip veya veri biliminde kariyer yapmak isteyip istemediğiniz.

İkincisi ise, o zaman canlı bir eğitmen liderliğindeki veri bilimi programı en iyi seçeneğiniz olabilir. Üst düzey bir müfredatın avantajlarını iki yönlü etkileşim, canlı oturumlar, ödevler ve yerleştirme yardımı ile birleştirir.

Regresyon analizi, makine öğrenmesi ve veri biliminin temelidir. Farklı regresyon analizi tekniklerinden ve ne zaman uygulanabileceklerinden haberdar olmak önemlidir. Yorum ve görüşlerinizi bizlerle yorumlarda paylaşmaktan çekinmeyin…

 

Paylaş

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

This site uses Akismet to reduce spam. Learn how your comment data is processed.