data mining process models
Bu Veri Madenciliği Süreci Eğitimi, Veri Çıkarma Sürecinde Yer Alan Veri Madenciliği Modellerini, Adımları ve Zorlukları Kapsar:
Veri Madenciliği Teknikleri bu konudaki önceki eğitimimizde ayrıntılı olarak açıklanmıştır. Herkes için Veri Madenciliği Eğitimini Tamamlayın . Veri Madenciliği bilim ve teknoloji dünyasında gelecek vaat eden bir alandır.
Veritabanlarında Bilgi Keşfi olarak da bilinen Veri Madenciliği, veritabanlarında ve veri ambarlarında depolanan büyük hacimli verilerden yararlı bilgileri keşfetme sürecidir. Bu analiz, şirketlerde karar alma süreçleri için yapılır.
Veri Madenciliği, kümeleme, ilişkilendirme ve sıralı model analizi ve karar ağacı gibi çeşitli teknikler kullanılarak gerçekleştirilir.
Ne öğreneceksin:
- Veri Madenciliği Nedir?
- Bir İşlem Olarak Veri Çıkarma
- Veri Madenciliği Modelleri
- Veri Madenciliği Sürecindeki Adımlar
- Oracle DBMS'de Veri Madenciliği Süreci
- Datawarehouse'da Veri Madenciliği Süreci
- Veri Çıkarma Uygulamaları Nelerdir?
- Veri Madenciliği Zorlukları
- Sonuç
- Önerilen Kaynaklar
Veri Madenciliği Nedir?
Veri Madenciliği, büyük miktarda veriden ilginç kalıplar ve bilgiler keşfetme sürecidir. Veri kaynakları, veritabanlarını, veri ambarlarını, web'i ve diğer bilgi havuzlarını veya sisteme dinamik olarak aktarılan verileri içerebilir.
İşletmeler Neden Veri Çıkarmaya İhtiyaç Duyar?
Büyük Verinin ortaya çıkmasıyla veri madenciliği daha yaygın hale geldi. Büyük veri, insanlar tarafından anlaşılabilecek belirli kalıpları, ilişkileri ve eğilimleri ortaya çıkarmak için bilgisayarlar tarafından analiz edilebilen son derece büyük veri kümeleridir. Büyük veri, çeşitli türler ve çeşitli içerikler hakkında kapsamlı bilgiye sahiptir.
Dolayısıyla bu miktarda veriyle, manuel müdahaleli basit istatistikler çalışmayacaktır. Bu ihtiyaç, veri madenciliği süreci ile karşılanmaktadır. Bu, basit veri istatistiklerinden karmaşık veri madenciliği algoritmalarına değişime yol açar.
Veri madenciliği süreci, işlemler, fotoğraflar, videolar, düz dosyalar gibi ham verilerden ilgili bilgileri çıkaracak ve işletmelerin harekete geçmesi için yararlı raporlar oluşturmak üzere bilgileri otomatik olarak işleyecektir.
Bu nedenle, veri madenciliği süreci, işletmelerin verilerdeki kalıpları ve eğilimleri keşfederek, verileri özetleyerek ve ilgili bilgileri çıkararak daha iyi kararlar almaları için çok önemlidir.
Bir İşlem Olarak Veri Çıkarma
Herhangi bir iş problemi, bilgileri tanımlayacak ve işletme tarafından kullanılacak raporları ortaya çıkaracak bir model oluşturmak için ham verileri inceleyecektir. Veri kaynaklarından ve veri formatlarından bir model oluşturmak yinelemeli bir süreçtir çünkü ham veriler birçok farklı kaynakta ve birçok biçimde mevcuttur.
Veriler gün geçtikçe artmaktadır, bu nedenle yeni bir veri kaynağı bulunduğunda sonuçları değiştirebilir.
Aşağıda sürecin ana hatları verilmiştir.
(resim kaynak )
Veri Madenciliği Modelleri
İmalat, pazarlama, kimya ve havacılık gibi birçok endüstri, veri madenciliğinden yararlanmaktadır. Bu nedenle, standart ve güvenilir veri madenciliği süreçlerine olan talep büyük ölçüde artmaktadır.
Önemli veri madenciliği modelleri şunları içerir:
# 1) Veri Madenciliği için Sektörler Arası Standart Süreç (CRISP-DM)
CRISP-DM, altı aşamadan oluşan güvenilir bir veri madenciliği modelidir. Veri madenciliği sürecine yapılandırılmış bir yaklaşım sağlayan döngüsel bir süreçtir. Altı aşama herhangi bir sırada uygulanabilir, ancak bazen önceki adımlara geri dönülmesini ve eylemlerin tekrarlanmasını gerektirebilir.
tutulmada salatalık örneği ile selenyum web sürücüsü
CRISP-DM'nin altı aşaması şunları içerir:
# 1) İş Anlayışı: Bu adımda işletmelerin hedefleri belirlenir ve hedefe ulaşmada yardımcı olacak önemli faktörler keşfedilir.
# 2) Verileri Anlama: Bu adım tüm verileri toplayacak ve araçtaki verileri dolduracaktır (herhangi bir araç kullanılıyorsa). Veriler, veri kaynağı, konumu, nasıl elde edildiği ve herhangi bir sorunla karşılaşılması durumunda listelenir. Veriler görselleştirilir ve eksiksiz olup olmadığını kontrol etmek için sorgulanır.
# 3) Veri Hazırlama: Bu adım, uygun verileri seçmeyi, temizlemeyi, verilerden öznitelikleri oluşturmayı, birden çok veritabanından verileri entegre etmeyi içerir.
# 4) Modelleme: Karar ağacı gibi veri madenciliği tekniğinin seçimi, seçilen modelin değerlendirilmesi için test tasarımı oluşturulması, veri setinden modeller oluşturulması ve oluşturulan modelin uzmanlarla değerlendirilmesi sonucu tartışılması bu adımda yapılır.
# 5) Değerlendirme: Bu adım, ortaya çıkan modelin iş gereksinimlerini karşılama derecesini belirleyecektir. Model gerçek uygulamalar üzerinde test edilerek değerlendirme yapılabilir. Model, tekrarlanması gereken herhangi bir hata veya adım için gözden geçirilir.
# 6) Dağıtım: Bu adımda bir dağıtım planı yapılır, yararlılığını kontrol etmek için veri madenciliği model sonuçlarını izleme ve sürdürme stratejisi oluşturulur, nihai raporlar yapılır ve herhangi bir hatayı kontrol etmek ve herhangi bir adımın tekrarlanıp tekrarlanmadığını görmek için tüm sürecin gözden geçirilmesi yapılır. .
(resim kaynak )
# 2) SEMMA (Örnekleme, Keşfetme, Değiştirme, Modelleme, Değerlendirme)
SEMMA, SAS Institute tarafından geliştirilen başka bir veri madenciliği metodolojisidir. Kısaltması SEMMA, örnekleme, keşfetme, değiştirme, modelleme, değerlendirme anlamına gelir.
SEMMA, keşifsel istatistiksel ve görselleştirme tekniklerini uygulamayı, önemli tahmin edilen değişkenleri seçmeyi ve dönüştürmeyi, sonuçla ortaya çıkmak için değişkenleri kullanarak bir model oluşturmayı ve doğruluğunu kontrol etmeyi kolaylaştırır. SEMMA ayrıca oldukça yinelemeli bir döngü tarafından yönlendirilir.
SEMMA'daki adımlar
- Örneklem: Bu adımda, büyük bir veri kümesi çıkarılır ve tüm verileri temsil eden bir örnek çıkarılır. Örnekleme, hesaplama maliyetlerini ve işlem süresini azaltacaktır.
- Keşfetmek: Veriler, verilerin daha iyi anlaşılması için aykırı değerler ve anormallikler için araştırılır. Veriler, trendleri ve grupları bulmak için görsel olarak kontrol edilir.
- Değiştir: Bu adımda, gruplama ve alt gruplama gibi verilerin manipülasyonu, oluşturulacak model odakta tutularak yapılır.
- Model: Keşif ve değişikliklere dayanarak, verilerdeki örüntüleri açıklayan modeller oluşturulur.
- Değerlendirmek: Oluşturulan modelin kullanışlılığı ve güvenilirliği bu adımda değerlendirilir. Modelin gerçek verilere karşı test edilmesi burada yapılır.
Hem SEMMA hem de CRISP yaklaşımı, Bilgi Keşfi Süreci için çalışır. Modeller oluşturulduktan sonra, işletmeler ve araştırma çalışmaları için dağıtılır.
Veri Madenciliği Sürecindeki Adımlar
Veri madenciliği süreci Veri Ön İşleme ve Veri Madenciliği olmak üzere iki bölüme ayrılmıştır. Veri Ön İşleme, veri temizleme, veri entegrasyonu, veri azaltma ve veri dönüşümünü içerir. Veri madenciliği bölümü, veri madenciliği, örüntü değerlendirmesi ve verilerin bilgi temsilini gerçekleştirir.
(resim kaynak )
derlemeyi otomatikleştirmek yardımcı olacaktır
Verileri neden önceden işliyoruz?
Doğruluk, eksiksizlik, tutarlılık, güncellik gibi verilerin yararlılığını belirleyen birçok faktör vardır. Veriler, amaçlanan amaca uygunsa kaliteli olmalıdır. Bu nedenle veri madenciliği sürecinde ön işleme çok önemlidir. Veri ön işlemeyle ilgili ana adımlar aşağıda açıklanmıştır.
# 1) Veri Temizleme
Veri temizleme, veri madenciliğinin ilk adımıdır. Kirli veriler doğrudan madencilikte kullanılırsa prosedürlerde karışıklığa neden olabileceği ve yanlış sonuçlar üretebileceği için önemlidir.
Temel olarak bu adım, gürültülü veya eksik verilerin koleksiyondan kaldırılmasını içerir. Verileri genellikle kendi kendine temizleyen birçok yöntem mevcuttur, ancak bunlar sağlam değildir.
Bu adım, rutin temizlik işini şu şekilde gerçekleştirir:
(i) Eksik Verileri Doldurun:
Eksik veriler aşağıdaki gibi yöntemlerle doldurulabilir:
- Demeti görmezden gelmek.
- Eksik değeri manuel olarak doldurmak.
- Merkezi eğilim ölçüsünü kullanın, medyan veya
- En olası değeri doldurmak.
(ii) Gürültülü Verileri Kaldırın: Rastgele hataya gürültülü veri denir.
Gürültüyü ortadan kaldırma yöntemleri şunlardır:
Bölme: Bölme yöntemleri, değerleri kova veya bölmeler halinde sıralayarak uygulanır. Düzeltme, komşu değerlere bakılarak yapılır.
Bölme, bölme ile düzleştirilerek yapılır, yani her bölme, çöp kutusunun ortalaması ile değiştirilir. Her bin değerinin bir bin medyan ile değiştirildiği bir medyan ile yumuşatma. İkili sınırlarla yumuşatma, yani Bölmedeki minimum ve maksimum değerler ikili sınırlardır ve her ikili değer en yakın sınır değeriyle değiştirilir.
- Aykırı Değerleri Belirleme
- Tutarsızlıkları Çözme
# 2) Veri Entegrasyonu
Veritabanları, veri küpleri veya dosyalar gibi birden çok heterojen veri kaynağı analiz için birleştirildiğinde, bu işleme veri entegrasyonu denir. Bu, veri madenciliği sürecinin doğruluğunu ve hızını iyileştirmeye yardımcı olabilir.
Farklı veritabanları, veritabanlarında fazlalıklara neden olarak farklı değişken adlandırma kurallarına sahiptir. Veri entegrasyonundaki fazlalıkları ve tutarsızlıkları, verilerin güvenilirliğini etkilemeden kaldırmak için Ek Veri Temizleme gerçekleştirilebilir.
Veri Entegrasyonu, Oracle Data Service Integrator ve Microsoft SQL gibi Veri Taşıma Araçları kullanılarak gerçekleştirilebilir.
# 3) Veri Azaltma
Bu teknik, verilerin toplanmasından analiz için ilgili verileri elde etmek için uygulanır. Bütünlük korunurken temsilin boyutu hacim olarak çok daha küçüktür. Veri Azaltma, Naif Bayes, Karar Ağaçları, Sinir ağı vb. Yöntemler kullanılarak gerçekleştirilir.
Bazı veri azaltma stratejileri şunlardır:
- Boyutsal küçülme: Veri kümesindeki özniteliklerin sayısını azaltmak.
- Rakam Azaltma: Orijinal veri hacminin daha küçük veri gösterimi biçimleriyle değiştirilmesi.
- Veri sıkıştırma: Orijinal verilerin sıkıştırılmış gösterimi.
# 4) Veri Dönüşümü
Bu süreçte veriler, veri madenciliği sürecine uygun bir forma dönüştürülür. Veriler, madencilik sürecinin daha verimli olması ve modellerin daha kolay anlaşılması için birleştirilir. Veri Dönüşümü, Veri Eşleme ve kod oluşturma sürecini içerir.
Veri dönüşümü için stratejiler şunlardır:
- Yumuşatma: Kümeleme, regresyon teknikleri vb. Kullanarak verilerdeki gürültüyü kaldırma
- Toplama: Verilere özet işlemler uygulanır.
- Normalleştirme: Verilerin ölçeklendirilmesi, daha küçük bir aralıkta yer alacak.
- Ayrıştırma: Sayısal verilerin ham değerleri, aralıklarla değiştirilir. Örneğin, Yaş.
# 5) Veri Madenciliği
Veri Madenciliği, büyük miktarda veriden ilginç kalıpları ve bilgileri belirlemeye yönelik bir süreçtir. Bu adımlarda, veri modellerini çıkarmak için akıllı desenler uygulanır. Veriler, modeller şeklinde temsil edilir ve modeller, sınıflandırma ve kümeleme teknikleri kullanılarak yapılandırılır.
# 6) Kalıp Değerlendirmesi
Bu adım, ilginçlik ölçülerine dayalı bilgiyi temsil eden ilginç kalıpların tanımlanmasını içerir. Verilerin kullanıcı tarafından anlaşılabilir olması için veri özetleme ve görselleştirme yöntemleri kullanılır.
# 7) Bilgi Temsili
Bilgi temsili, mayınlı verileri temsil etmek için veri görselleştirme ve bilgi temsil araçlarının kullanıldığı bir adımdır. Veriler, raporlar, tablolar vb. Şeklinde görselleştirilir.
Oracle DBMS'de Veri Madenciliği Süreci
RDBMS, satır ve sütun içeren tablolar biçimindeki verileri temsil eder. Verilere veritabanı sorguları yazılarak erişilebilir.
Oracle gibi İlişkisel Veritabanı yönetim sistemleri, CRISP-DM kullanarak Veri madenciliğini destekler. Oracle veritabanının olanakları, veri hazırlama ve anlamada kullanışlıdır. Oracle, java arayüzü, PL / SQL arayüzü, otomatik veri madenciliği, SQL fonksiyonları ve grafik kullanıcı arayüzleri aracılığıyla veri madenciliğini destekler.
Datawarehouse'da Veri Madenciliği Süreci
Veri ambarı, veri küpü adı verilen çok boyutlu bir veri yapısı için modellenmiştir. Bir veri küpündeki her hücre, bazı toplu ölçülerin değerini depolar.
OLAP stilinde (Çevrimiçi Analitik İşleme) gerçekleştirilen çok boyutlu uzayda veri madenciliği, farklı ayrıntı düzeylerinde birden çok boyut kombinasyonunun keşfedilmesine izin verir.
Veri Çıkarma Uygulamaları Nelerdir?
Veri madenciliğinin yaygın olarak kullanıldığı alanların listesi şunları içerir:
# 1) Finansal Veri Analizi: Veri Madenciliği, bankacılık, yatırım, kredi hizmetleri, ipotek, otomobil kredileri ve sigorta ve hisse senedi yatırım hizmetlerinde yaygın olarak kullanılmaktadır. Bu kaynaklardan toplanan veriler eksiksiz, güvenilir ve yüksek kalitededir. Bu, sistematik veri analizini ve veri madenciliğini kolaylaştırır.
# 2) Perakende ve Telekomünikasyon Endüstrileri: Perakende Sektörü satışlar, müşteri alışveriş geçmişi, mal nakliyesi, tüketimi ve hizmet hakkında büyük miktarda veri toplar. Perakende veri madenciliği, müşteri satın alma davranışlarını, müşteri alışveriş kalıplarını ve eğilimlerini belirlemeye, müşteri hizmetinin kalitesini artırmaya, daha iyi müşteri elde tutma ve memnuniyetine yardımcı olur.
# 3) Bilim ve Mühendislik: Veri madenciliği bilgisayar bilimi ve mühendisliği, sistem durumunu izlemeye, sistem performansını iyileştirmeye, yazılım hatalarını izole etmeye, yazılım intihalini tespit etmeye ve sistem arızalarını tanımaya yardımcı olabilir.
# 4) Saldırı Tespiti ve Önleme: İzinsiz giriş, ağ kaynaklarının bütünlüğünü, gizliliğini veya kullanılabilirliğini tehdit eden herhangi bir eylem dizisi olarak tanımlanır. Veri madenciliği yöntemleri, performansını artırmak için saldırı tespit ve önleme sistemine yardımcı olabilir.
iyi bir youtube mp3 dönüştürücü nedir
# 5) Öneri Sistemleri: Öneri sistemleri, kullanıcıların ilgisini çeken ürün önerileri yaparak tüketicilere yardımcı olur.
Veri Madenciliği Zorlukları
Aşağıda Veri Madenciliği ile ilgili çeşitli zorluklar listelenmiştir.
- Veri Madenciliği, yönetimi zor olan büyük veri tabanlarına ve veri toplamaya ihtiyaç duyar.
- Veri madenciliği süreci, yine bulması zor olan alan uzmanları gerektirir.
- Heterojen veritabanlarından entegrasyon karmaşık bir süreçtir.
- Veri madenciliği sonuçlarını kullanmak için kurumsal düzeydeki uygulamaların değiştirilmesi gerekir. Süreci yeniden yapılandırmak çaba ve maliyet gerektirir.
Sonuç
Veri Madenciliği, madencilik sürecinin iyileştirilebildiği ve daha verimli sonuçlar elde etmek için yeni verilerin entegre edilebildiği yinelemeli bir süreçtir. Veri Madenciliği, etkili, ölçeklenebilir ve esnek veri analizi gereksinimlerini karşılar.
Bilgi teknolojisinin doğal bir değerlendirmesi olarak düşünülebilir. Bir bilgi keşif süreci olarak, Veri hazırlama ve veri madenciliği görevleri veri madenciliği sürecini tamamlar.
Veri madenciliği süreçleri, veri tabanı verileri ve zaman serileri gibi gelişmiş veri tabanları gibi her türlü veri üzerinde gerçekleştirilebilir. Veri madenciliği süreci de kendi zorluklarıyla birlikte gelir.
Veri Madenciliği Örnekleri hakkında daha fazla bilgi edinmek için yaklaşan eğitimimizi takip etmeye devam edin !!
PREV Eğitimi | SONRAKİ Eğitici
Önerilen Kaynaklar
- Veri Madenciliği: Veri Analizinde Süreç, Teknikler ve Başlıca Sorunlar
- Veri Madenciliği Teknikleri: Algoritma, Yöntemler ve En İyi Veri Madenciliği Araçları
- ETL Sürecinde Yararlı En İyi 10 Veri Eşleme Aracı (2021 LİSTESİ)
- Karmaşık Veri Modelleri Oluşturmak için En İyi 10 Veritabanı Tasarım Aracı
- Veri Madenciliği - Makine Öğrenimi - Yapay Zeka - Derin Öğrenme
- En İyi 15 Ücretsiz Veri Madenciliği Aracı: En Kapsamlı Liste
- Test Veri Yönetimi Kavramı, Süreci ve Stratejisi
- Kullanıcı Tanımlı Değişkenleri Kullanarak JMeter Veri Parametrelendirmesi