Press ESC to close

Makine Öğreniminde Veri Temizleme ‘nin Önemi

Makine öğrenimi dünyasında veri temizleme, doğru ve güvenilir modeller oluşturmada çok önemli bir rol oynar. Sürecin en göz alıcı yönü olmasa da, herhangi bir projenin başarısı için uygun veri temizliği şarttır. Temiz ve yüksek kaliteli veriler olmadan, en sofistike algoritmalar bile kötü sonuçlar verebilir. Bu makalede, makine öğreniminde veri temizlemenin önemini keşfedecek ve bu önemli süreçte yer alan adımları tartışacağız.

Veri Temizleme Neden Önemlidir?

Veri temizleme, bir veri kümesindeki herhangi bir sorunu veya tutarsızlığı belirleme ve ele alma sürecidir. Veri kümesinin doğru, tutarlı ve hatasız olmasını sağlamak için eksik, yinelenen veya ilgisiz verilerin kaldırılmasını içerir. İşte makine öğreniminde veri temizliğinin neden gerekli olduğuna dair birkaç neden:

Model Performansını Artırma: Temiz veriler daha iyi model performansı sağlar. Veri kümesi hatalardan ve tutarsızlıklardan arındırıldığında, basit algoritmalar etkileyici sonuçlar verebilir. İyi temizlenmiş bir veri kümesi ile hesaplama yükü azalır, verilerin analiz edilmesi ve yorumlanması kolaylaşır.

Veri Kalitesini İyileştirme: Ham veriler genellikle gürültülü, eksik veya tutarsızdır. Verileri temizleyerek kalitesini ve kullanılabilirliğini artırırız. Temiz veri, ML modelinin tahminlerine dayanarak doğru içgörüler üretmek ve bilinçli kararlar almak için gereklidir.

Önyargı ve Hataları En Aza İndirmek: Veri temizleme, hatalı veya yanlış verilerin neden olduğu önyargı ve hataları en aza indirmeye yardımcı olur. Aykırı değerleri ve tutarsızlıkları ortadan kaldırarak makine öğrenimi modelini eğitmek için daha güvenilir ve tarafsız bir veri kümesi oluştururuz.

Veri Temizleme ‘de Kullanılan Adımlar

Veri temizleme süreci, veri kümesinin doğruluğunu ve güvenilirliğini sağlamak için birkaç adım içerir. Her adımı ayrıntılı olarak inceleyelim:

Veri İnceleme ve Keşfetme: Veri temizlemenin ilk adımı veri kümesinin yapısını anlamak ve eksik değerleri, aykırı değerleri veya tutarsızlıkları tespit etmektir. Bu, verileri tanımlayıcı istatistikler ve görselleştirme teknikleri kullanarak inceleyerek yapılabilir.

df.duplicated() fonksiyonunu kullanarak yinelenen satırları kontrol edin. Yinelenen satırlar analizi çarpıtabilir ve kaldırılmalıdır.

Örnek Uygulama

# Create a pandas DataFrame from the data
df = pd.DataFrame(data)	
# Display the duplicated dataset
print("Duplicated Dataset:")
print(df)
print()
		

# Drop duplicate rows
df = df.drop_duplicates()
		

Şimdi tekrar verisetimize göz atalım



# Display the dataset after dropping duplicates

print("Dataset after dropping duplicates:")

print(df)

print()

		

Eksik Veri İşlemleri

Eksik Verilerin Ele Alınması: Eksik veriler makine öğrenimi modelinin doğruluğunu ve güvenilirliğini önemli ölçüde etkileyebilir. Bu adımda, eksik değerleri ya uygun değerlerle yükleyerek ya da veri kümesinden çıkararak ele alırız.

df.isnull() veya df.isna() gibi fonksiyonları kullanarak eksik değerleri belirleyin. Bu, hangi değerlerin eksik olduğunu gösteren bir Boolean dizisi döndürür.



# Display the dataset after dropping duplicates

print("Dataset after dropping duplicates:")

print(df)

print()

	


# Display the dataset after dropping duplicates

print("Dataset after dropping duplicates:")

print(df)

print()

Görüldüğü gibi 2.satırda Email kısmında ve Purchase date kısmında kısmında bir eksiklik söz konusu.

  • Email ve PurchaseDate sütunlarındaki boş değerleri pd.NA (eksik değerler için Pandas gösterimi) ile değiştirmek için, boş bir dize (”) ile change() yöntemini kullanırız.
  • Price sütununu float tipine dönüştürüyoruz ve boş değerleri de pd.NA ile değiştiriyoruz.
    Median() yöntemini kullanarak Price sütununun medyanını hesaplıyoruz.
  • Price sütunundaki eksik değerleri hesaplanan medyan değerle doldurmak için fillna() işlevini kullanırız.

Son halini görüntüleyelim

Son olarak eksik değerleri doldurduktan sonra güncellenen veri setini görüntülüyoruz.

  • E-posta sütunundaki eksik değer NaN (sayı değil) ile doldurulmuştur.
  • PurchaseDate sütunundaki eksik değer de NaN ile doldurulmuştur.
  • Price sütunundaki eksik değer 300 ortanca değeri ile doldurulmuştur.

Aykırı Değerler

Aykırı Değerlerin Ele Alınması: Aykırı değerler, verilerin geri kalanından sapan uç değerlerdir. Bunlar analizi çarpıtabilir ve modelin performansını etkileyebilir. Bu adımda, uygun teknikleri kullanarak aykırı değerleri belirler ve ele alırız.

Aykırı değerleri belirlemek için kutu grafikleri veya histogramlar kullanarak sayısal değişkenlerin dağılımını görselleştirin.

Z-skoru veya çeyrekler arası aralık (IQR) gibi istatistiksel yöntemlere dayanarak aykırı değerleri kaldırın.

Veri Dönüşümü: Bazı durumlarda, modelin performansını artırmak veya seçilen ML algoritmasının varsayımlarını karşılamak için veri dönüşümü gerekir.

Z-skoru veya çeyrekler arası aralık (IQR) gibi istatistiksel yöntemlere dayanarak aykırı değerleri kaldırın.

Veri Dönüşümü: Bazı durumlarda, modelin performansını artırmak veya seçilen ML algoritmasının varsayımlarını karşılamak için veri dönüşümü gerekir.

Veri Temizleme ile ilgili daha fazla içerik yakında burada

Bu yazıyla birlikte bu konuya şöyle kısa bir giriş yapmış olduk. İlerleyen dönemlerde bu seriyi devam ettirmeyi ve daha detaylı yazılar paylaşmayı planlıyorum. Takipte Kalın!

Forty Two’da Daha Fazla Veri Bilimi İçeriği ⌨

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Kapatmak için ESC ye basın