
Projeler üzerinde çalışan tüm veri bilimciler veya makine öğrenimi mühendisleri için yeterli veri kümesi bulmak çok önemlidir. Doğru veri kümelerini aramak, özellikle de büyük miktarlarda kaliteli veriye ihtiyaç duyduğunuzda göz korkutucu olabilir. Ancak, veri bilimcilere çalışmalarını güçlendirmek için ihtiyaç duydukları yakıtı sağlayan birçok mükemmel açık veri setleri mevcuttur.
Bu yazıda, ilgili verileri verimli bir şekilde bulmaya yönelik pratik ipuçlarına odaklanarak, açık veri kümelerini keşfetmek için en değerli 15 kaynağı inceleyeceğiz. İster yeni başlıyor olun ister deneyimli bir uygulayıcı, umarım burada paylaşılan içgörüler ve kaynaklar veri kümelerini elde etme becerinizi güçlendirmenize ve etkili çalışma potansiyelinizi ortaya çıkarmanıza yardımcı olur.
Hadi başlayalım!
Kaggle
Veri bilimi yarışmaları ve projeleri için önde gelen platformlardan biri olan Kaggle, herhangi bir veri avı için bariz bir ilk duraktır. Perakende satışlardan uydu görüntülerine kadar çeşitli konularda 10.000’den fazla halka açık veri kümesiyle, ilgili bir şey bulacağınızdan emin olabilirsiniz. Kaggle, ham veri kümelerinin ötesinde, projelere bir başlangıç sağlayan makine öğrenimi kodlarına da ev sahipliği yapıyor. Gelecek vaat eden seçenekleri hızlıca belirlemek için popülerliğe, lisans türüne veya etki alanına göre filtreleyin.

Google Veri Seti Arama
İnternetteki büyük miktarda açık veriyi taramak göz korkutucu göründüğünde, Google Veri Seti Arama‘ya başvurun. Bu özel arama motoru, kamuya açık veri kümelerinin kaynak, dosya türü, lisans ve daha fazlasına göre filtrelenmesini sağlar. Doğal dil sorguları da hedefli aramaları verimli hale getirir. Gizli cevherleri ortaya çıkarmak için her sonuç için ilgili veri kümelerini keşfettiğinizden emin olun.

Data.gov
ABD federal hükümeti tarafından üretilen veri kümeleri için birincil portal olan Data.gov fırsatlarla doludur. Konu, kuruluş, program ve coğrafyaya göre filtreler, 225.000’den fazla kamu teklifini gözden geçirmenize yardımcı olur. Sağlık, eğitim, ulaşım ve daha fazlası hakkında özel koleksiyonları gözden kaçırmayın. İyi tanımlanmış meta veriler, tam olarak ihtiyacınız olanı almanızı sağlar.

Avrupa Veri Portalı
Avrupa ve uluslararası veri ihtiyaçları için Avrupa Veri Portalı, AB ve ötesindeki kamu kaynaklarını bir araya getirir. Disiplinler arası veri setlerini ülke, dil, dosya formatı ve diğer özelliklere göre filtreleyin. Meta veriler kullanım bağlamı sağlarken, veri önizlemeleri kaynak ayırmadan önce güven verir. Küresel olarak keşfetmeye değer kapsamlı bir seçenek.

GitHub’da MUHTEŞEM Açık Veri Setleri
Topluluk tarafından oluşturulan GitHub‘daki bu harika liste finans, sağlık, perakende ve daha fazlası hakkında ücretsiz veri setleri toplamaktadır. Listelerde isimler, kaynaklar, boyutlar ve kullanım açıklamaları yer alıyor, böylece ilgili seçenekler hızla ortaya çıkıyor. Katkıda bulunanlar zaman içinde kapsamı gözden geçirip geliştirdikçe, yer imlerine eklemeye değer güvenilir bir referans haline geliyor.
UCI Makine Öğrenimi Deposu
Kaliforniya Üniversitesi, Irvine tarafından barındırılan UCI Makine Öğrenimi Deposu, araştırmacılara onlarca yıldır iyi hizmet vermektedir. Veri kümelerine kaynak, konu, öznitelik türü ve daha fazlasına göre göz atın. İster yöntemleri doğrulamak ister yeni çalışmalara güç sağlamak için maksimum değer elde etmek üzere her bir veri kümesi üzerindeki topluluk ek açıklamalarından yararlanın. En yeni fırsatlar için önce yeni yüklemeleri filtreleyin.

Dünya Bankası Açık Verileri
1960’tan bu yana küresel istatistiksel göstergeleri yayma misyonuna sahip olan Dünya Bankası Açık Veri koleksiyonu, nüfustan gübre tüketim oranlarına kadar her şeyi kapsayan 8.000’den fazla zaman serisi, coğrafi ve anket veri setine sahiptir. Göstergeye, ülkeye ve yıla göre detaya inin. Gelişmiş filtreler, sosyal içgörülerin kilidini açan anlayışlı karşılaştırmalar için metrikleri eşleştirir.

FiveThirtyEight’te DataHub
Kamuoyu yoklaması, spor ve seçim analizlerinde uzmanlaşan FiveThirtyEight’in DataHub‘ı, kamuya açık veri kümelerini ve hikaye geliştirme sırasında oluşturulan özel modelleri bir araya getirir. Diğerlerinden önce anlamlı kalıpları izole etmek için bölgelerdeki ayrıntılı anketleri ve tahminleri inceleyin. Not defterleri ve belgeler, kendi çalışmanızda hızlı bir şekilde yararlanmanız için anlamanıza yardımcı olur.

Crossref Olay Verileri
Akademik araştırma ve yayıncılıktaki kalıpları keşfetmek için Crossref Etkinlik Verilerinden yararlanmak büyüleyici fırsatlar sunuyor. Makaleler, atıflar, fon sağlayıcılar ve daha fazlası hakkında açık meta verileri sorgulayın. Bilimsel literatür taramanıza rehberlik etmek için işbirliği modellerini, yeni ortaya çıkan konuları ve yüksek etkili yazarları belirleyin. Bilgi alanlarında keşfi geliştirmek için çok uygundur.

Avrupa Birliği Açık Veri Portalı
30’dan fazla AB kurumu, şirketi ve kuruluşunun katkıda bulunduğu veri setleriyle Avrupa Birliği Açık Veri Portalı, Avrupa için devlet tarafından oluşturulan verileri aramanızı sağlar. İlgi alanlarınıza veya ihtiyaçlarınıza göre ulaşım, çevre ve istatistik gibi temalara göre filtreleyin. Özenle biçimlendirilmiş CSV, JSON ve daha fazlası çeşitli analitik çerçeveleri destekler.

Açık Veri Filipinler
Batı’nın ötesinde ulusal düzeyde bir bakış açısı için Filipin hükümetinin resmi portalı olan Open Data Philippines‘i keşfedin. Sağlık sonuçları, eğitim ölçütleri, ulaşım ve çeşitli ekonomik göstergeler hakkındaki veri kümelerini keşfedin. İçgörüler yeni hipotezlere ilham verirken, seyahat düşüncenizi Güneydoğu Asya’daki yerel kültürel ve ticari bağlamlara açabilir.
Chicago Veri Portalı
Şehir düzeyinde bir örneğe geçecek olursak, Chicago Veri Portalı yerel yönetimler, işletmeler ve geliştiriciler tarafından kullanılan 300’den fazla veri kümesini bir araya getirmektedir. Ekonomi, ulaşım, yaşam kalitesi ve acil durum ölçümlerini keşfedin. Bölgesel odaklı kentsel bilişim veya sosyo-ekonomik etki projeleri için çok uygundur. Özenle biçimlendirilmiş veriler tekrarlanabilirliği destekler.

NOAA Ulusal Çevresel Bilgi Merkezleri
İklim bilimciler ve yer sistemleri araştırmacıları için NOAA NCEI, modeller ve yeniden analizler dahil olmak üzere petabaytlarca atmosferik, kıyı, uydu ve hava gözlemlerine ev sahipliği yapmaktadır. Koleksiyonları uydular, hava istasyonları ve parametrelere göre filtreleyin. 1850’lerden bu yana sayısallaştırılmış günlük kayıtlar, çevresel değişimi anlamak için kritik öneme sahip tarihsel karşılaştırmalara olanak tanır. Meta veriler uygun bağlam ve birimleri sağlar.

NYC OpenData
Belediye ölçeğine daha fazla odaklanan NYC OpenData, nüfus, iş, ulaşım, parklar, atık ve enerji kullanımı gibi temel ölçümlere açık erişim sağlar. Yerelleştirilmiş, yüksek çözünürlüklü zaman serileri ile ekonomik sonuçlar ve altyapı yatırımları arasındaki ilişkileri coğrafi olarak analiz etmeyi düşünün. Kent araştırmacıları için çok yönlü.

Data.gov.uk
Diğer tarafta, Data.gov.uk Birleşik Krallık hükümeti, yerel konseyler ve kamu kuruluşları tarafından kullanılan 50.000’den fazla veri seti sunmaktadır. Büyüleyici sosyal eğilimleri ortaya çıkarmak için eğitim, sağlık, ulaşım, suç ve iş ölçümlerini inceleyin. Dikkatli filtreler kullanarak performans ölçümlerini bölgesel olarak karşılaştırın. İnce taneli perspektifler, yerel olarak hedeflenmiş çözümlere ilham verir.

En iyi açık veri kaynaklarına ilişkin bu genel bakışı aydınlatıcı bulduğunuzu ve ilgi alanlarınız veya kurumsal hedeflerinizle uyumlu yeni fikirler ortaya çıkardığını umuyorum. Mevcut binlerce kaynaktan sadece bir kısmına değinmiş olsam da, bunlar ihtiyaçlarınız arttıkça sürekli olarak keşfedebileceğiniz mükemmel başlangıç noktalarını ve kaynakları temsil etmektedir.
Bir yanıt yazın